我们从零构建并用强化学习训练了一个金融深度研究 Agent。相比于流水账式的步骤指南,本文更侧重于分享核心的设计理念、关键决策,以及我们在落地过程中积累的经验教训。代码与训练配置文件已在 AgentJet 全面开源。
1 引言
1.1 定义金融 Deep Research
想象你是一个金融分析师,收到这样一个需求:“分析近两年光伏行业的产能过剩情况,并评估其对头部企业盈利能力的实质影响。”
这类问题,难点从来不只是“写出来”,而是“研究清楚”。真实的投研工作通常不是直接动笔,而是先基于经验形成初步判断,理清研究主线与查证路径:要看哪些宏观指标,要比哪些公司财报,要补哪些行业资料,还要预判哪些结论可能被后续证据推翻。
接下来的过程,才是围绕这条主线不断展开:查数据、读财报、检索研报、交叉验证,并在新信息出现后持续修正原有假设与分析框架。金融 Deep Research Agent 的目标,正是把这套过程自动化:不是只生成一篇看起来像样的报告,而是在真实环境中,通过多轮规划、检索、验证和修正,最终产出一份论据扎实、逻辑严密的研究结果。
归根到底,金融 Deep Research 不是一次性的文本生成任务,而是在开放信息环境中持续推进的研究过程。

1.2 核心挑战:多维对齐目标的内在冲突
构建这样一个 Agent 的难点,在于我们需要在三个相互牵制的维度中寻找平衡:
- 证据可追溯(Evidence Traceability):金融场景对幻觉零容忍。报告中的每一个核心数据和结论,都必须有明确的来源支撑。
- 分析充分性(Analytical Sufficiency):研究不仅要完成信息检索和事实核对,还要能够识别关键矛盾、形成有解释力的分析框架,并在已有信息之上给出真正有价值的增量判断。
- 可读性与可用性(Readability & Usability):最终产出必须具备极高的信息密度和清晰的结构,能够直接作为商业决策的参考。
问题在于,这三者并不是可以同时单调提升的指标,而更像一个彼此拉扯的三角形。过分强调事实性,模型容易变成“资料搬运工”:引用很多、态度谨慎,但缺少真正的分析推进;过分鼓励分析深度,又容易滑向看起来很有道理、却站不住脚的“精彩幻觉”;如果过于偏好规整结构和稳妥表达,模型则可能减少必要的外部探索和交叉验证,最后写出一篇形式完整、内容保守的报告。金融 Deep Research 的核心挑战,正是在这三者之间找到稳定的平衡。
1.3 现有范式的局限
面对这样的开放式、多目标任务,主流的解决方案很快就会触及天花板:
Workflow 的问题,在于流程太固定。 预先定义好的 Multi-Agent 编排和硬编码节点,适合边界清晰的任务,但很难应对真实投研中不断变化的问题空间。分析“毛利率变化趋势”和分析“地缘政治对供应链的冲击”,所需的检索路径、验证重点和分析框架可能完全不同,静态流程很难兼顾。
SFT(监督微调)的问题,在于它更容易学到语言风格,而非分析能力。 模型可以学会专业的语言风格和篇章结构,却很难从最终报告中学到其中隐含的分析路径:如何拆解问题、如何处理矛盾信息、如何回头查证并修正判断。于是,SFT生成的看起来像一篇像样的研究报告,但往往缺少真正的分析推进和自我验证能力。
1.4 我们的方案
当我们意识到 SFT 只能决定模型能力的下限,而无法教会模型真正的“研究策略”时,转向强化学习(RL)就成了一个必然的选择。
我们的核心思路实现了从“隐式行为模仿”到“显式目标优化”的范式转换:明确定义什么是高质量的金融研究,并让模型在真实的金融数据工具环境中,自主探索达成这一目标的最佳策略。
但要让这套 RL 飞轮真正转动起来,我们在落地过程中必须系统性地跨越三道屏障:
- 衡量“研究质量”的可靠标尺(Benchmarking)。 传统的金融 NLP 评测多聚焦于单轮、封闭式任务,无法评估多轮工具交互与长文本逻辑。在训练开始前,我们必须从零构建一个形式化的评估基准,将其作为整个项目的北极星指标。
- 突破训练数据的成本瓶颈(Training Data)。 让金融专家撰写成千上万份包含完整推理链的标杆研报,其成本是不可接受的,且专家水平会成为模型的“天花板”。我们需要一种范式,将对数据的需求从昂贵的“标准答案”降维到只需提供“高质量的设问”。
- 构建全链路的动态训练环境(Reward & Infrastructure)。 真实的金融环境充满噪音。这不仅要求我们设计一个防作弊(Reward Hacking)的多维 Reward 体系,更要求我们在底层基础设施上实现工程突破——搭建一套专为高并发、多轮次 RL 探索设计的工具缓存与容错架构。
本文将深入拆解我们从零训练这个金融 Deep Research Agent 的全过程。我们将按照上述脉络,分享我们在 Benchmark 体系搭建、Reward 权重博弈,以及底层训练工程化中积累的核心经验与反直觉教训。

2 为金融 Deep Research 定义评测标准
在金融 Deep Research 中,benchmark 不只是评测环节的一部分,它实际上决定了整个系统会朝什么方向演化。评测标准如果抓不住研究任务的本质,后续训练即使持续优化,也可能只是把模型推向更擅长组织表述、更熟悉评分偏好的方向,而不是真正提升研究能力。也正因为如此,在进入训练设计之前,我们先回到一个更基础的问题:什么样的任务能够代表真实的金融研究,什么样的输出才算一份扎实的研究结果,现有 benchmark 又遗漏了哪些关键能力。
2.1 现有Benchmark的局限性
现有金融 benchmark(如 FinBen[1])大多面向单轮、短文本、封闭式任务,更适合评估知识提取,而不是研究执行。但 Deep Research Agent 的关键能力并不止于“知道答案”,而在于:
- 能否围绕未知问题主动规划工具调用;
- 能否在长上下文中组织证据并保持逻辑一致;
- 能否完成开放式分析,而不只是回答对错题。
这也是为什么我们最终没有直接复用现有基准,而是构建了更贴近真实研究任务的评测集。
2.2 Benchmark 概览
我们的 benchmark 覆盖五类典型金融研究任务:宏观分析、行业研究、事件解读、个股分析和公司研究。每个 domain 选取 6 个代表性 query,共 30 个样本。题目由有资深投研经验的专业人士挑选和设计,并提供参考答案或分析框架。之所以控制在这个规模内,一方面是因为这类题目的设计和标注本身就依赖高成本的专业人力,另一方面也是因为金融 Deep Research 的单样本评测成本并不低,往往需要真实工具调用和多维 judge 配合完成。
这样的设计主要基于两个考虑。第一,按 domain 拆分比只看综合分更有诊断价值。模型可能擅长宏观叙事,却在财务数据对齐上明显失误;只有分 domain 评估,才能看出短板具体出在哪里。第二,相比单纯扩大样本量,我们更看重 query 本身的代表性和区分度,希望有限的样本也能尽量覆盖真实投研中的关键能力。
2.3 评测重点:分析是否充分
一份好的研究报告通常同时要求事实准确、分析充分、表达清晰。 在这些维度中,我们最关注的是分析充分性:模型是否真正组织了证据,是否完成了有支撑的推导,而不是只给出表面上完整的结论。
为了更稳定地衡量这一点,我们没有采用绝对打分,而是使用 pairwise 评估:让 judge 将模型输出与专家参考报告进行对比。这样做有两个好处:一是相对比较通常比绝对评分更稳定;二是参考报告提供的是基线,而不是唯一标准答案,模型仍然可以探索不同但合理的研究路径。
2.4 评测指标与训练目标之间的差别
但这里也存在一个很关键的边界:适合做 evaluation 的指标,不一定适合直接做 RL reward。
如果只看“分析是否充分”,而不约束底层数据是否真实、引用是否可靠,模型就可能学会走捷径:跳过繁琐的工具调用,直接编造看似合理的数据和论证链条。 换句话说,benchmark 可以告诉我们“这篇报告看起来像不像一篇好研究”,但训练时还必须进一步约束“它是不是通过正确的方式完成的”。
这也是为什么在 benchmark 之外,我们还需要为训练单独设计更完整的 reward 体系。
3 设计训练方案
第二章讨论的是“什么样的研究结果更好”;但一旦进入强化学习,一个新的问题就出现了:适合做评测的指标,并不一定适合直接做训练信号。如果 reward 设计不当,模型学到的未必是更好的研究能力,而可能只是更高效的得分策略。
因此,这一章的核心问题不是如何定义“好报告”,而是如何把它转化为一个可优化、且不容易被钻空子的训练目标。
3.1 训练数据:从标准答案转向高质量问题
与监督微调不同,RL 并不依赖大量 (question, gold answer) 对,而更依赖高质量的 query 和合理的 reward。因此,我们将数据设计的重点放在 query 本身,而不是参考答案上。
训练集在分布上与 benchmark 保持一致,同样覆盖 5 个 domain,并与评测集严格隔离。为了让 RL 探索更有效,我们希望这些 query 同时满足几个条件:有一定难度差异、能够覆盖不同研究视角与工具组合、并且能够通过现有金融工具链得到可验证的结论。
基于这一原则,为达到目的,我们设计了专用于金融的问题合成策略。Agent 首先按数据混合比例,从丰富的金融问题类型中选择研究方向;进行头脑风暴,结合真实的金融工具收集有效信息,逐渐填补未知细节;然后,得到一个具有挑战性的金融问题,并将其以多种口吻表述,加入训练集合。最终,收集了约一千条高质量训练 Query。
3.2 奖励设计:从单一总分到多维 Reward
最初我们尝试过最直接的方案:把 benchmark 中的“分析充分性”得分直接作为 reward。但很快发现,这样做会把“写得像一篇完整研究”和“真的完成了一次扎实研究”混在一起。模型确实会朝着更会分析的方向优化,但也更容易走向两类偏差:一类是分析展开了,底层数据和引用却不够可靠;另一类是结构和语气越来越像正式研报,但分析推进本身并不充分。
3.2.1 核心目标与约束项
我们最终把 reward 明确拆成了 1 个核心目标 + 3 个约束项。核心目标是 分析充分性(rm reward),用来鼓励模型真正展开研究、组织证据并形成增量判断; 约束项包括 事实性(audit reward)、引用规范/可追溯性(grounding reward) 和 呈现质量(presentation reward)。 这样的设计对应的正是前面提到的几个关键目标:模型既要把研究做深,也不能脱离事实基础,不能丢掉引用约束,也不能把最终输出写成难以使用的草稿。
写成公式,就是:
我们有意把分析充分性放在最核心的位置,因为这才是金融 Deep Research 最想拉开的能力;而事实性、引用规范和呈现质量更多承担“约束”作用,防止模型沿着最容易得分的方向跑偏。
3.2.2 奖励计算:基于规则计分
确定了多维 reward 之后,下一个问题是怎么把它算得更稳定。如果让 Judge LLM 直接端到端输出总分,训练很容易受到打分波动的影响。对于 RL,尤其是 GRPO 这类方法来说,这种噪声会直接影响优势估计,进而影响策略更新。
因此,我们没有让 LLM 直接决定分数,而是把过程拆成两步:先抽取,再计分。LLM 先把报告中的关键信息、引用和证据关系提取出来,再由规则代码按照预定义逻辑计算各维度得分。
例如,模型写道:“根据 2024 年年报,公司毛利率由 18% 降至 12%。”
Judge LLM 只需要抽取出几个结果:有没有明确数据、有没有来源、数据和结论是否对齐。随后,规则代码再根据这些结果去计算 audit 和 grounding 分数,而不是让 LLM 直接拍脑袋给一个总分。
这样做的好处是两点:一是分数更稳定,二是更容易排查问题。分数异常时,我们可以更快判断,到底是信息抽取出了问题,还是计分规则本身需要调整。
3.2.3 正向奖励和负向惩罚相结合
除了正向奖励,我们也加入了一些简单的惩罚项,用来限制明显无效的策略。
例如,在金融研究任务里,如果模型在整轮 rollout 中几乎不调用工具,那么它大概率无法引入任何增量信息,不能构建有价值的完整推理链。对于这类行为,我们会施加明确的负向惩罚。 这类规则在训练初期可以引导策略奖励迅速提升:它们可以先排除最明显的错误方向,减少无意义的探索空间,把学习重点留给更有价值的行为差异。
3.3 预定义流程
即使 reward 设计合理,如果一开始就让模型在复杂工具环境中完全自由探索,效率通常也不会太高。
在我们的任务里,最常见的问题不是“不会调用工具”,而是“没有形成完整研究过程”:查到一个信息就立刻开始局部分析,最后报告结构松散,证据之间也缺少呼应。一篇像样的研究报告,通常需要先有基本的问题拆解,再围绕几个关键方向展开取证和分析,最后把这些观察收束到主结论上。
基于这个考虑,我们在训练初期给模型提供了一个简单的研究框架:先规划,再执行。模型先给出一个基本的分析提纲,再进入多轮工具交互和写作。这样做的目的,不是把研究路径写死,而是先让模型形成较稳定的研究展开方式,减少无效探索;之后再在训练中逐步调整,学习更适合自己的策略。
4 训练基建
在推理场景里,工具系统的目标通常是“把信息取回来”;但在强化学习里,工具系统本身就成了训练环境的一部分。模型看到的不再只是数据,而是一个会直接影响 Reward、进而影响梯度更新的外部世界。于是,很多在推理阶段还能容忍的小问题——例如偶发超时、接口抖动、返回不稳定——到了训练阶段,都会被大规模并行 rollout 成倍放大。
因此,训练基础设施的核心目标,不是把工具接进来,而是把环境约束住:让模型面对的是一个可调用、可追溯、可重复的研究环境,而不是一个每次运行都略有不同的黑箱。
4.1 从“能用的工具”到“可训练的环境”
对金融 Deep Research 来说,模型需要的是高信噪比的结构化信息,而不是搜索结果里零散的网页片段。像财务数据、行情数据、公告信息、宏观指标这类内容,最好一开始就以可计算、可引用的形式提供给模型。
基于这个考虑,我们把工具系统统一封装成了 Finance-MCP,并已经开源。它把金融研究中常用的数据获取、网页抓取和搜索能力收在同一个 MCP 接口下,既方便 agent 调用,也方便后续训练时做环境管理。
除了结构化接口,我们还专门把同花顺网页内容抓了下来。原因很实际:很多研究所需的信息并不天然存在于标准化表格里,而是散落在公司页、行业页、事件页这类半结构化网页中。如果每次 rollout 都实时访问网页,一方面成本高,另一方面返回结果也容易随时间波动。把这部分页面内容预先抓取和缓存下来,一是能保留同花顺页面里更丰富的上下文信息,二是能让训练时面对的环境更稳定,减少外部网页变化对 reward 的干扰。
在这个基础上,MCP 的价值提现在把不同来源的数据收束到统一接口下,同时保留完整的调用记录。这样,模型后面写进报告里的数据、引用和结论,才能更自然地沿着工具调用链回溯到原始环境反馈,为事实性检查和 reward 计算提供依据。
4.2 训练环境的三个问题,以及我们的处理方式
真正进入训练后,工具环境会立刻遇到三个问题:成本、确定性和鲁棒性。
第一个问题是成本。GRPO 的 group rollout 会让同一个 query 生成多条轨迹,这些轨迹经常会重复调用同样的工具、查询同样的参数。如果每次都真正请求一次外部服务,训练成本会很快失控。我们的做法是把工具执行从训练进程中解耦出来,单独做成 EnvService,再在这一层之上加 MongoDB 缓存。这样,同一个 (tool_name, arguments) 只会真正执行一次,之后直接复用结果。这个设计一方面显著降低了调用成本,另一方面也把外部环境的波动隔离在训练主循环之外。
第二个问题是确定性。训练时最怕同样的动作在不同时间得到不同结果,否则 reward 的变化就很难解释。缓存除了省成本,也顺带解决了这个问题:只要输入相同,返回结果就相同,实验的可复现性也会高很多。
第三个问题是鲁棒性。真实工具环境总会有各种边角问题:API 超时、限流、返回格式异常、JSON 解析失败,甚至 judge LLM 自身也可能抖动。我们的原则很简单:单点失败不能拖垮整条训练链路。为此,我们在几个层次都做了兜底:工具调用失败时重试并返回错误信息;结构化解析阶段做容错修复;评分阶段如果 grader 失败就返回 score=0 并记录日志,而不是直接抛异常中断 batch;judge LLM 侧也配了重试和降级策略。这样做的代价是少量样本会以低分结束,但整个训练过程能继续跑下去,后续再根据日志回头修 grader 的边界情况。
这套基础设施本身并不会直接提高模型上限,但它决定了 reward 能不能稳定、实验能不能复现、训练能不能长期跑通。对 RL 来说,这些往往不是“工程细节”,而是训练能否成立的前提。
5 实验结果
我们从训练曲线和外部 benchmark 两个角度,观察 RL 训练后策略的变化。
延续前面的设计,最终 reward 由 1 个核心目标和 3 个约束项 组成:
rm 对应分析充分性,audit 对应事实性,grounding 对应引用规范,presentation 对应呈现质量。
其中,每个维度都是0-1的分数。
5.1 训练动态:主要提升来自分析能力


从训练曲线看,final_reward_mean 从约 0.54 持续提升到 0.75 左右,整体优化过程比较稳定。拆开来看,提升最明显的是 rm_raw_mean,大约从 0.30 增长到 0.60+,说明这一轮 RL 的主要收益确实来自分析充分性的提升。 与此同时,几个约束相关指标整体保持稳定:presentation 大部分时间维持在 0.95 以上,grounding 基本稳定在 0.90–0.95 区间,audit_raw_mean 也从约 0.60 缓慢提升到 0.73 左右。换句话说,这轮训练并不是靠牺牲事实性、引用规范或呈现质量来换取更高分,而是在守住这些约束的前提下,把主要增益集中在“研究是否做得更充分”这一核心目标上。
5.2 外部评测:提升不只局限于金融任务
我们进一步在 DeepResearch Bench[2] 上进行了 zero-shot 测试。结果显示,我们的方法在 overall score 上达到 0.476,高于 base30b (0.127)、tongyidr (0.277),也高于表中的 claude3.7 (0.422)。
| model | finance | others | overall | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| comprehensiveness | insight | instruction_following | readability | overall_score | comprehensiveness | insight | instruction_following | readability | overall_score | comprehensiveness | insight | instruction_following | readability | overall_score | |
| Qwen3-30B-A3B-Instruct-2507 | 0.181 | 0.169 | 0.191 | 0.211 | 0.184 | 0.112 | 0.111 | 0.117 | 0.137 | 0.118 | 0.122 | 0.119 | 0.128 | 0.148 | 0.127 |
| Tongyi DeepResearch | 0.291 | 0.282 | 0.316 | 0.313 | 0.296 | 0.270 | 0.260 | 0.289 | 0.290 | 0.274 | 0.273 | 0.263 | 0.293 | 0.293 | 0.277 |
| Claude 3.7 | 0.404 | 0.398 | 0.465 | 0.416 | 0.417 | 0.412 | 0.406 | 0.462 | 0.417 | 0.423 | 0.411 | 0.405 | 0.462 | 0.417 | 0.422 |
| Ours | 0.476 | 0.472 | 0.488 | 0.487 | 0.479 | 0.470 | 0.470 | 0.485 | 0.484 | 0.475 | 0.471 | 0.471 | 0.485 | 0.484 | 0.476 |
这种提升不仅体现在 finance 子集上,也体现在 others 子集上:我们的 finance overall score 为 0.479,others overall score 为 0.475,两者都明显高于对应基线。并且,这一优势并不是来自单一指标,而是同时体现在 comprehensiveness、insight、instruction following 和 readability 等多个维度上。
整体来看,这些结果说明,RL 训练带来的提升并不只是对金融任务风格的适配,而更像是在强化一种可迁移的研究过程。
5.3 案例分析
为了更直观地看 RL 带来的变化,我们选取同一道开放式研究task作为案例:“国内通过品牌拓展实现产品型出海的代表性企业深度研究”。
训练前
# 国内通过品牌拓展实现产品型出海的代表性企业深度研究报告 ## 摘要 1. 中国涌现出一批以产品创新为核心驱动力、成功实现品牌出海的代表性企业,涵盖消费电子、汽车零部件、高端白酒等多个领域。 2. **长盈精密**(300115)通过深度绑定苹果、小米、华为等头部科技品牌,向人形机器人、AI服务器、新能源汽车等高增长赛道拓展,已形成“技术+品牌”双轮驱动的全球化布局。 3. **星宇股份**(601799)作为全球车灯龙头,在汽车电子、无人驾驶、人形机器人等前沿领域持续领先,2025年在细分行业中各项核心指标均排名第一,彰显其强大的品牌溢价与技术壁垒。 4. **贵州茅台**(600519)作为中国超级品牌,其“国酒”形象已深度融入全球高端消费文化,通过品牌价值实现产品溢价,是“文化出海”与“品牌出海”结合的典范。 5. 2024年中国跨境电商出口规模达2.15万亿元,同比增长16.9%,产品创新与品牌建设已成为企业出海的核心竞争力[1]。 ## 一、企业核心画像与出海战略 ### 1. 长盈精密(300115):从“代工厂”到“全球智能硬件核心供应商” - **核心定位**:全球领先的消费电子精密零组件及新能源产品零组件制造商。 - **出海战略**:以“产品+技术”为核心,深度嵌入全球科技巨头供应链,逐步从被动代工转向主动定义产品标准。 - **关键举措**: - **技术先行**:布局人形机器人“小脑”控制系统、高速连接器(支持PCIe Gen5/Gen6)、AI服务器铜缆连接等前沿技术[2]。 - **客户多元化**:客户覆盖苹果、华为、小米、三星、特斯拉、英伟达(未合作)等全球头部科技企业[2]。 - **全球化布局**:在消费电子、新能源、人形机器人三大领域同步推进,2025年前三季度人形机器人相关产品交付价值超8000万元[2]。 ### 2. 星宇股份(601799):以“技术品牌”引领汽车智能化浪潮 - **核心定位**:全球领先的汽车照明与智能座舱系统解决方案提供商。 - **出海战略**:以“技术品牌”为护城河,从传统车灯制造商转型为智能汽车生态的核心参与者。 - **关键举措**: - **技术领先**:发布全球速度最快的小型六轴工业机器人TR8,布局人形机器人[3]。 - **生态协同**:与华为、特斯拉等企业建立深度合作关系,产品应用于智能驾驶(毫米波雷达)、智能座舱、无人驾驶等领域[3]。 - **市场扩张**:2025年荣登“全球开放式创新百强榜单”,彰显其在技术创新与生态协同方面的全球影响力[3]。 ### 3. 贵州茅台(600519):以“文化品牌”实现高端产品全球渗透 - **核心定位**:中国白酒的超级品牌,世界三大蒸馏名酒之一。 - **出海战略**:以“国酒”文化为载体,通过品牌价值实现产品溢价,构建全球高端消费市场。 - **关键举措**: - **品牌护城河**:拥有八项国家级非物质文化遗产认证,品牌历史可追溯至汉代,具备不可复制的文化底蕴[4]。 - **高端定位**:产品定位超高端,如2025年推出的“巴拿马”酒售价11000元/瓶,首日销量破万瓶[4]。 - **全球布局**:产品远销全球150多个国家和地区,是“中国名片”出海的典范[4]。 ## 二、财务与行业地位分析 ### 1. 长盈精密(300115):成长性承压,但技术布局领先 - **财务表现**(2025年三季报): - 营业收入同比增长11.68%,但净利润同比下降21.25%,净利率从5.29%降至3.88%[5]。 - 现金流净额同比下降40.97%,销售现金比率从6.22%降至3.29%[5]。 - **行业地位**:在“消费电子零部件及组装”细分行业中,各项核心指标(营收、利润、资产、净资产收益率)均位列第36名,处于行业中上游水平[6]。 ### 2. 星宇股份(601799):全面领先,行业龙头地位稳固 - **财务表现**(2025年三季报): - 营业收入同比增长16.09%,净利润同比增长16.76%,盈利能力持续增强[7]。 - 现金流表现优异,净利润现金含量高达155.19%,远超行业平均水平[7]。 - **行业地位**:在“汽车零部件-车身附件及饰件”细分行业中,所有核心财务指标(每股收益、净利润、净资产收益率、毛利率等)均排名第一,是无可争议的行业龙头[8]。 ### 3. 贵州茅台(600519):绝对霸主,盈利能力与资产质量双优 - **财务表现**(2025年三季报): - 营业收入同比增长6.36%,净利润同比增长6.25%,增长虽放缓但依然稳健[9]。 - 销售毛利率高达91.29%,净资产收益率为24.64%,均处于行业绝对领先地位[9]。 - **行业地位**:在“白酒Ⅲ”细分行业中,所有核心财务指标(营收、利润、资产、毛利率、股东权益比率)均排名第一,是行业无可争议的“一哥”[10]。 ## 三、核心概念与市场认知 | 企业 | 核心概念 | 市场认知 | |------|----------|----------| | 长盈精密 | 人形机器人、苹果概念、小米概念、华为概念、AI PC、5G、新能源汽车 | 作为“科技巨头的隐形冠军”,是AI、机器人、新能源等高增长赛道的核心受益者[2]。 | | 星宇股份 | 人形机器人、华为汽车、无人驾驶、智能座舱、毫米波雷达 | 以“技术品牌”著称,是智能汽车产业链中不可或缺的“关键零部件供应商”[3]。 | | 贵州茅台 | 超级品牌、白酒概念、老字号、国企改革 | 代表中国高端消费文化,是“国酒”与“文化出海”的象征[4]。 | ## 结论与建议 1. **出海模式分化**:中国企业的出海路径已从早期的“代工出海”演变为“品牌出海”与“技术出海”并行。长盈精密代表“技术驱动型”,星宇股份代表“品牌技术融合型”,茅台代表“文化品牌型”。 2. **未来趋势**:产品创新与品牌建设是企业出海的核心竞争力。2024年,中国出海新锐消费品牌在产品创新力方面表现突出,研发投入占成本支出约15%[1]。 3. **投资建议**: - **长期持有**:贵州茅台凭借其不可复制的品牌护城河,是长期配置的优质资产。 - **关注成长**:星宇股份在智能汽车与人形机器人领域布局领先,具备高成长潜力。 - **风险提示**:长盈精密当前盈利能力承压,需密切关注其在人形机器人等新业务上的转化效率。 ## References [1] 2024中国出海新锐消费品牌榜单:透视出海新趋势与品牌成长路径,工具: dashscope_search,参数:query=2024年中国出海品牌 产品创新 电商销售增长,数据日期/报告期:2025-07-01,来源 - https://www.sohu.com/a/842844447_121850782 [2] 长盈精密:公司开发的应用于服务器、工作站内部高速背板连接器产品已给国内头部客户送样验证,工具: crawl_ths_news,参数:code=300115,数据日期/报告期:2025-12-19,来源 - http://news.10jqka.com.cn/field/20251219/673349415.shtml [3] 星宇股份荣登 “2025全球开放式创新百强榜单”,工具: crawl_ths_news,参数:code=601799,数据日期/报告期:2025-12-12,来源 - http://news.10jqka.com.cn/field/20251212/673165980.shtml [4] 茅台“跳水”跌破官方指导价!高端白酒难言价格见底,工具: crawl_ths_news,参数:code=600519,数据日期/报告期:2025-12-12,来源 - http://news.10jqka.com.cn/field/20251212/673179092.shtml [5] 长盈精密:本期净利润增长率:-21.25%,去年同期为38159.10%,企业成长潜力停止扩张转入收缩,工具: crawl_ths_finance,参数:code=300115,数据日期/报告期:2025-09-30,来源 - https://basic.10jqka.com.cn/300115/finance.html#stockpage [6] 长盈精密在“消费电子零部件及组装”细分行业中,各项核心指标均位列第36名,工具: crawl_ths_field,参数:code=300115,数据日期/报告期:2025-09-30,来源 - https://basic.10jqka.com.cn/300115/field.html#stockpage [7] 星宇股份:净利润同比增长16.76%,净利润现金含量高达155.19%,工具: crawl_ths_finance,参数:code=601799,数据日期/报告期:2025-09-30,来源 - https://basic.10jqka.com.cn/601799/finance.html#stockpage [8] 星宇股份在“汽车零部件-车身附件及饰件”细分行业中,所有核心财务指标均排名第一,工具: crawl_ths_field,参数:code=601799,数据日期/报告期:2025-09-30,来源 - https://basic.10jqka.com.cn/601799/field.html#stockpage [9] 贵州茅台:销售毛利率高达91.29%,净资产收益率为24.64%,工具: crawl_ths_finance,参数:code=600519,数据日期/报告期:2025-09-30,来源 - https://basic.10jqka.com.cn/600519/finance.html#stockpage [10] 贵州茅台在“白酒Ⅲ”细分行业中,所有核心财务指标均排名第一,工具: crawl_ths_field,参数:code=600519,数据日期/报告期:2025-09-30,来源 - https://basic.10jqka.com.cn/600519/field.html#stockpage --- *本报告基于公开信息整理分析,仅供参考,不构成投资建议。投资有风险,入市需谨慎。* [TASK_COMPLETED]训练后
# 国内通过品牌拓展实现产品型出海的代表性企业深度研究报告 ## 摘要 本报告聚焦于中国通过品牌化战略实现产品型出海的代表性企业,基于多维度数据与公开信息,系统分析了安克创新、乐歌股份、傲基科技、致欧科技等企业在品牌出海路径、财务表现、市场布局及战略动向上的核心特征。研究发现,以安克创新为代表的消费电子品牌,通过“多品牌+跨境电商+本地化渠道”三位一体战略,已在全球180多个国家建立品牌认知,2025年营收预测达321亿元,净利润超26亿元,ROE高达20.27%。家居品类企业则呈现“OEM转型品牌+跨境电商+海外仓布局”模式,如致欧科技、乐歌股份等在欧洲、北美市场实现高速增长。整体来看,中国品牌出海已从“代工出海”迈向“品牌出海”新阶段,技术、供应链与本地化运营能力成为核心竞争力。 ## 一、核心出海企业识别与分类 ### 1. 消费电子领域:安克创新(300866.SZ)——全球消费电子品牌出海典范 安克创新(Anker)是中国品牌出海的标杆企业,成立于2011年,以充电宝切入市场,通过亚马逊等电商平台迅速打开北美、欧洲等海外市场,现已发展为覆盖智能充电、音频、智能家居、创新硬件的多品牌矩阵。其核心出海模式为“自主品牌+跨境电商平台+线下渠道拓展+本地化运营”[1]。 - **品牌矩阵**:旗下拥有Anker(充电)、Soundcore(音频)、Eufy(智能家居)、Nebula(投影)等六大品牌,产品销往全球180多个国家及地区[2]。 - **市场覆盖**:2024年底,公司全年营收达247.1亿元,服务超1.4亿用户,境外营收占比超95%[3]。 - **渠道布局**:线上依托亚马逊、eBay、独立站;线下成功进入沃尔玛、塔吉特、百思买、好市多、MediaMarkt等全球主流零售网络[4]。 ### 2. 家居用品领域:多企业并行,形成“三足鼎立”格局 中国家居品类出海企业呈现多元化发展路径,主要可分为三类: #### (1)跨境电商平台主导型 - **致欧科技**:通过亚马逊、ManoMano、eBay等平台销售,2024年上半年营收同比增长41.22%,欧洲市场营收占比高达62.06%[5]。 - **傲基科技**:旗下拥有ALLEWIE、IRONCK、LIKIMIO等多个家居品牌,2023年已有11个品牌GMV超1亿元,是中国家居B2C海外电商的领先企业[6]。 #### (2)品牌+海外仓+本地化运营型 - **乐歌股份**(300729.SZ):从代工起家,2009年注册“乐歌”商标,成功上市。其智能调节桌等产品在海外市场持续热销,2025年前三季度营收48.46亿元,净利润1.69亿元[7]。 - **梦百合**:通过收购西班牙床垫品牌思梦、美国家具零售企业MOR等,实现品牌与渠道的双重本地化[8]。 #### (3)重资产生产基地+自主品牌出海型 - **顾家家居**:在印尼、越南、墨西哥、美国等地布局生产基地,以自有品牌KUKA HOME在60多个国家开设门店,2024年上半年海外营收达38.87亿元,同比增长12.59%[9]。 - **欧派家居**:已在60多个国家与地区开设100多家品牌门店,定制家居产品出口至128个国家和地区,2023年海外渠道营收3.2亿元,同比增长46.5%[10]。 ## 二、核心企业财务与经营分析 ### 1. 安克创新(300866.SZ):高成长、高盈利,但现金流承压 #### (1)盈利能力与成长性 - **毛利率**:2025年前三季度为44.68%,同比提升0.4个百分点,主营获利能力稳定[11]。 - **净利率**:9.37%,同比提升0.07个百分点,经营效益提高[11]。 - **净资产收益率(ROE)**:20.27%,远高于行业平均水平,回报股东能力显著增强[11]。 - **净利润增长率**:2025年前三季度达31.34%,成长潜力增强[11]。 #### (2)市场与行业地位 - 在“品牌消费电子”细分领域(共10家)中,安克创新在净利润、营收、ROE、毛利率等核心指标上均排名第一[12]。 - 在“消费电子”大类(共102家)中,ROE、毛利率、净利润等指标均位列前茅,是行业龙头[12]。 #### (3)现金流与风险 - **销售现金比率**:-4.11%,去年同期为10.04%,销售占用资金局面未改[11]。 - **净利润现金含量**:-44.75%,去年同期为112.21%,销售回款能力恶化[11]。 - **现金营运指数**:-0.53,去年同期为0.81,收益质量下降[11]。 - **结论**:尽管盈利强劲,但经营性现金流为负,对投资支出的现金支持能力被严重削弱,可持续经营能力面临压力[11]。 ### 2. 乐歌股份(300729.SZ):稳健增长,但盈利能力有待提升 #### (1)财务表现 - **毛利率**:26.07%,同比下降3.77个百分点,主营获利能力削弱[13]。 - **净利率**:3.49%,同比下降3.19个百分点,经营效益大幅下降[13]。 - **ROE**:4.68%,同比下降3.87个百分点,回报股东能力变弱[13]。 - **净利润增长率**:-36.33%,企业成长潜力重回升势[13]。 #### (2)行业地位 - 在“其他家居用品”(共29家)中,乐歌股份在净利润、营收、ROE、毛利率等指标上均排名第9位[14]。 - 在“家居用品”大类(共81家)中,排名同样为第23位,处于行业中游水平[14]。 #### (3)市场前景 - 2025年机构预测其净利润均值为3.05亿元,EPS为0.89元,2026年净利润预测为3.82亿元,显示未来增长预期[15]。 ## 三、品牌出海战略与核心驱动力分析 ### 1. 安克创新:从“产品出海”到“品牌出海”的战略跃迁 安克创新的成功源于其系统性的品牌出海战略: - **技术驱动**:坚持“技术立企”,研发占比从2022年的7.6%提升至2025年前三季度的9.3%。在氮化镓(GaN)技术领域,率先实现商业化普及,解决高频开关下的电磁干扰与散热难题[16]。 - **多品牌矩阵**:通过Anker、Soundcore、Eufy等品牌,覆盖充电、音频、智能家居等多场景,降低单一品类风险[17]。 - **本地化运营**:针对不同市场推出定制化产品,如日本市场推出迷你化、樱花色系产品;在YouTube开设官方教学频道,累计订阅超300万,建立用户情感连接[18]。 - **渠道多元化**:线上以亚马逊为主,同时大力发展独立站(收入增速超100%);线下进入沃尔玛、百思买等全球零售巨头,实现全渠道覆盖[19]。 ### 2. 家居品类企业:从“代工”到“品牌”的转型路径 家居品类企业的出海路径呈现“三步走”特征: 1. **OEM/ODM起家**:早期以代工模式为主,积累供应链与制造经验。 2. **品牌化转型**:注册自有品牌,如乐歌股份的“乐歌”、致欧科技的“JOLI”。 3. **全球化布局**:通过跨境电商平台销售,同时自建海外仓,实现“本地化”运营,提升物流效率与客户体验。 ## 四、行业趋势与未来展望 ### 1. 行业发展趋势 - **从“渠道出海”到“品牌出海”**:企业不再满足于通过亚马逊等平台销售,而是致力于打造全球知名品牌,提升溢价能力。 - **从“单一品类”到“多品类矩阵”**:安克创新、乐歌股份等企业已从单一产品(如充电宝、升降桌)拓展至多品类,构建生态壁垒。 - **从“依赖平台”到“渠道多元化”**:为降低对亚马逊等第三方平台的依赖,企业正大力发展独立站、线下渠道及新兴社交电商(如TikTok Shop)[20]。 - **从“中国制造”到“中国智造”**:技术投入成为核心竞争力,如安克创新在GaN、AI、物联网等领域的布局[21]。 ### 2. 未来投资机会 - **高研发投入、技术壁垒高的企业**:如安克创新、大疆等,具备长期增长潜力。 - **拥有自主品牌与全球渠道网络的企业**:如乐歌股份、顾家家居,具备抗风险能力。 - **在新兴市场(东南亚、南美、中东)布局深入的企业**:如致欧科技、恒林股份,有望享受高增长红利。 ## 五、结论与建议 ### 1. 核心结论 - **安克创新**是消费电子领域品牌出海的绝对龙头,凭借技术、品牌与渠道优势,已构建全球竞争力,但需警惕现金流风险。 - **家居品类企业**正加速从“代工”向“品牌”转型,形成以致欧科技、乐歌股份、顾家家居为代表的多元化格局。 - 中国品牌出海已进入“品牌化、技术化、本地化”新阶段,未来竞争将聚焦于品牌价值、技术创新与全球运营能力。 ### 2. 投资建议 - **长期持有**:安克创新(300866.SZ)具备强大的品牌护城河和增长潜力,建议长期持有,但需密切关注其现金流改善情况。 - **关注转型**:乐歌股份(300729.SZ)作为家居出海的代表,若能提升盈利能力,有望迎来估值修复。 - **布局新兴市场**:关注在东南亚、南美等新兴市场布局深入的企业,如恒林股份、匠心家居等,享受高增长红利。 ## References [1] 安克创新品牌出海路径分析, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [2] 安克创新全球市场布局, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [3] 安克创新2024年营收与用户数据, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [4] 安克创新线下渠道布局, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [5] 致欧科技2024年营收增长, 工具: dashscope_search, 参数: query=中国家居品牌出海 代表企业 市场份额, 数据日期/报告期: 2025-12-30, 来源 - https://www.sohu.com/a/960292040_121851694 [6] 傲基科技品牌布局, 工具: dashscope_search, 参数: query=中国家居品牌出海 代表企业 市场份额, 数据日期/报告期: 2025-12-30, 来源 - https://www.sohu.com/a/960292040_121851694 [7] 乐歌股份2025年三季报财务数据, 工具: crawl_ths_finance, 参数: code=300729, 数据日期/报告期: 2025-09-30, 来源 - https://basic.10jqka.com.cn/300729/finance.html#stockpage [8] 梦百合海外收购案例, 工具: dashscope_search, 参数: query=中国家居品牌出海 代表企业 市场份额, 数据日期/报告期: 2025-12-30, 来源 - https://www.sohu.com/a/960292040_121851694 [9] 顾家家居2024年海外营收, 工具: dashscope_search, 参数: query=中国家居品牌出海 代表企业 市场份额, 数据日期/报告期: 2025-12-30, 来源 - https://www.sohu.com/a/960292040_121851694 [10] 欧派家居海外渠道营收, 工具: dashscope_search, 参数: query=中国家居品牌出海 代表企业 市场份额, 数据日期/报告期: 2025-12-30, 来源 - https://www.sohu.com/a/960292040_121851694 [11] 安克创新2025年三季报财务指标, 工具: crawl_ths_finance, 参数: code=300866, 数据日期/报告期: 2025-09-30, 来源 - https://basic.10jqka.com.cn/300866/finance.html#stockpage [12] 安克创新行业排名与竞品对比, 工具: crawl_ths_field, 参数: code=300866, 数据日期/报告期: 2025-09-30, 来源 - https://basic.10jqka.com.cn/300866/field.html#stockpage [13] 乐歌股份2025年三季报财务指标, 工具: crawl_ths_finance, 参数: code=300729, 数据日期/报告期: 2025-09-30, 来源 - https://basic.10jqka.com.cn/300729/finance.html#stockpage [14] 乐歌股份行业排名与竞品对比, 工具: crawl_ths_field, 参数: code=300729, 数据日期/报告期: 2025-09-30, 来源 - https://basic.10jqka.com.cn/300729/field.html#stockpage [15] 乐歌股份未来三年盈利预测, 工具: crawl_ths_worth, 参数: code=300729, 数据日期/报告期: 2025-12-27, 来源 - https://basic.10jqka.com.cn/300729/worth.html#stockpage [16] 安克创新研发投入与GaN技术, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [17] 安克创新多品牌矩阵, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [18] 安克创新本地化运营与用户互动, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [19] 安克创新渠道多元化战略, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [20] 安克创新TikTok Shop布局, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [21] 安克创新AI与物联网布局, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc --- [TASK_COMPLETED]训练前的报告已经有了完整的研报形式,但题目抓得还不够准,研究对象和主线都有些发散。训练后,最明显的变化不是文风,而是先把对象选对,再把证据接上来。一方面,企业选择更贴近“品牌出海”这个主题;另一方面,引用和数据支撑明显更充分,财务表现、行业位置、渠道布局和本地化策略能够互相对上,不再只是零散材料的拼接。
| 维度 | 训练前 | 训练后 |
|---|---|---|
| 对象选择 | 选了长盈精密、星宇股份、贵州茅台,和“品牌拓展实现产品型出海”的贴合度有限 | 聚焦安克创新、致欧科技、乐歌股份、傲基科技等,更接近题目本身 |
| 证据与引用 | 有引用,但数量较少,主要服务于个别公司材料补充 | 引用明显变多,从 10 条增加到 21 条,财务、行业、渠道和战略信息更完整 |
| 分析组织 | 更像把几家公司的材料并排展开,主线不够稳 | 先识别企业类型,再按出海路径、渠道、本地化和财务表现展开,结构更清楚 |
| 结论质量 | 能形成结论,但更多停留在总结层面 | 能把个案往上收,归纳出“代工出海走向品牌出海”的共性路径 |
这个例子比较能说明,RL 带来的提升不只是把报告写得更像样,而是让模型在选对象、补证据、搭框架、收结论这几个关键环节上,离真实研究过程更近了一步。
6 踩坑与反思:RL 训练的工程现实
回看整个金融 Deep Research Agent 的训练过程,最大的挑战并不主要来自算法本身,而是如何为 RL 提供一个足够稳定的环境和评估基座。对这类多轮工具调用任务来说,训练效果往往取决于三件事:环境是否稳定、训练过程是否允许合理探索、评测信号是否足够可靠。
6.1 环境不稳定,会放大“走捷径”的倾向
在真实金融 API 环境中,限流、超时和偶发抖动很难完全避免。我们在早期实验中很快发现:如果把这些不稳定因素直接暴露给模型,策略会倾向于规避真实工具调用,转而用更冒险但更“省事”的方式完成任务,例如直接编造数据来拼接报告。
这也是为什么训练侧的缓存、状态冻结和错误隔离不只是工程优化,而是训练设计的一部分。它们的作用并不只是省成本、提吞吐,更重要的是减少环境噪声对策略学习的干扰,避免模型因为外部不稳定而学到错误的行为。
6.2 不同能力的提升通常不同步
多维 reward 下,模型各项能力的变化往往并不同步。训练中更常见的情况是:某些容易优化的部分先提升,而另一些更依赖综合能力的维度提升较慢。 这在我们的实验里也有所体现:分析充分性是最终收益的主要来源,而事实性、引用规范和写作质量更多表现为在波动中逐步稳定。
这意味着,训练过程中出现局部波动并不罕见。只要整体趋势没有失稳,通常不需要过早因为短期起伏而频繁调整 reward 权重。相比不断“追着曲线调参数”,更重要的是先确认方向是否正确,再给策略一定的收敛空间。
6.3 评测信号的稳定性,往往比想象中更重要
在 RL 尤其是 GRPO 这类方法中,奖励信号的方差会直接影响优势估计的质量。如果评测过程本身波动很大,那么策略更新很容易被噪声带偏。 因此,我们最终更倾向于把“理解”与“打分”拆开:让 LLM 负责语义判断和结构化抽取,而把最终分值尽量交给确定性的规则计算。这样做未必最灵活,但在训练阶段通常更稳定,也更容易定位问题。
从工程角度看,一个足够稳定的评测系统,很多时候比更复杂的训练技巧更重要。
最小复现关键点
如果要复现这类多轮 Tool-use RL 范式,我们认为至少需要以下几个部分:
| 核心模块 | 最低要求 |
|---|---|
| Foundation Model | 具备基础多轮工具调用能力,或已通过 SFT 对齐到可用起点 |
| Data Engine | 少量但具备多样性的 seed queries,不依赖标准答案 |
| Tool Execution | 统一的结构化工具接口,支持调用链路追踪 |
| Reward Design | 以分析充分性为核心,同时保留事实性、引用和呈现质量等约束 |
| Evaluation Infra | 语义抽取与规则算分结合的稳定评测流程 |
| Training Infra | 能隔离环境噪声、缓存重复调用,并对边缘异常做安全降级 |
整体上,这次实践给我们的最大体会是:对金融 Deep Research 这类任务来说,RL 的难点往往不在“如何更新模型”,而在“如何让模型面对一个值得学习的环境”。
一句话总结
训练金融 Deep Research Agent,本质上不是教模型生成一篇篇看起来更完整的报告,而是定义什么是好的研究,并把它转化为可评估、可反馈、可优化的训练信号;当这套机制足够清晰稳定,模型才有可能逐步学会真正有效的研究策略。
参考链接
- Finance-MCP 金融工具:https://github.com/flowllm-ai/finance-mcp
- 金融workflow:https://github.com/cuiyuebing/agentscope-samples/blob/dev_open_alias_all/alias/docs/financial_analysis.md
- Agentscope:https://github.com/agentscope-ai/agentscope
- Agentscope-Samples:https://github.com/agentscope-ai/agentscope-samples
- AgentJet:https://github.com/modelscope/AgentJet
引用文献
- Xie, Q., Han, W., Chen, ... & Huang, J. (2024). FinBen: A Holistic Financial Benchmark for Large Language Models. arXiv preprint arXiv:2402.12659.
- Du, M., Xu, B., Zhu, C., Wang, X., & Mao, Z. (2025). DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents. arXiv preprint arXiv:2506.11763.
- 同花顺API:https://basic.10jqka.com.cn/