我们从零构建并用强化学习训练了一个金融深度研究 Agent。相比于流水账式的步骤指南,本文更侧重于分享核心的设计理念、关键决策,以及我们在落地过程中积累的经验教训。代码与训练配置文件已在 AgentJet 全面开源。

1 引言

1.1 定义金融 Deep Research

想象你是一个金融分析师,收到这样一个需求:“分析近两年光伏行业的产能过剩情况,并评估其对头部企业盈利能力的实质影响。”

这类问题,难点从来不只是“写出来”,而是“研究清楚”。真实的投研工作通常不是直接动笔,而是先基于经验形成初步判断,理清研究主线与查证路径:要看哪些宏观指标,要比哪些公司财报,要补哪些行业资料,还要预判哪些结论可能被后续证据推翻。

接下来的过程,才是围绕这条主线不断展开:查数据、读财报、检索研报、交叉验证,并在新信息出现后持续修正原有假设与分析框架。金融 Deep Research Agent 的目标,正是把这套过程自动化:不是只生成一篇看起来像样的报告,而是在真实环境中,通过多轮规划、检索、验证和修正,最终产出一份论据扎实、逻辑严密的研究结果。

归根到底,金融 Deep Research 不是一次性的文本生成任务,而是在开放信息环境中持续推进的研究过程。

Gemini_Generated_Image_25nixl25nixl25ni

1.2 核心挑战:多维对齐目标的内在冲突

构建这样一个 Agent 的难点,在于我们需要在三个相互牵制的维度中寻找平衡:

  • 证据可追溯(Evidence Traceability):金融场景对幻觉零容忍。报告中的每一个核心数据和结论,都必须有明确的来源支撑。
  • 分析充分性(Analytical Sufficiency):研究不仅要完成信息检索和事实核对,还要能够识别关键矛盾、形成有解释力的分析框架,并在已有信息之上给出真正有价值的增量判断。
  • 可读性与可用性(Readability & Usability):最终产出必须具备极高的信息密度和清晰的结构,能够直接作为商业决策的参考。

问题在于,这三者并不是可以同时单调提升的指标,而更像一个彼此拉扯的三角形。过分强调事实性,模型容易变成“资料搬运工”:引用很多、态度谨慎,但缺少真正的分析推进;过分鼓励分析深度,又容易滑向看起来很有道理、却站不住脚的“精彩幻觉”;如果过于偏好规整结构和稳妥表达,模型则可能减少必要的外部探索和交叉验证,最后写出一篇形式完整、内容保守的报告。金融 Deep Research 的核心挑战,正是在这三者之间找到稳定的平衡。

1.3 现有范式的局限

面对这样的开放式、多目标任务,主流的解决方案很快就会触及天花板:

Workflow 的问题,在于流程太固定。 预先定义好的 Multi-Agent 编排和硬编码节点,适合边界清晰的任务,但很难应对真实投研中不断变化的问题空间。分析“毛利率变化趋势”和分析“地缘政治对供应链的冲击”,所需的检索路径、验证重点和分析框架可能完全不同,静态流程很难兼顾。

SFT(监督微调)的问题,在于它更容易学到语言风格,而非分析能力。 模型可以学会专业的语言风格和篇章结构,却很难从最终报告中学到其中隐含的分析路径:如何拆解问题、如何处理矛盾信息、如何回头查证并修正判断。于是,SFT生成的看起来像一篇像样的研究报告,但往往缺少真正的分析推进和自我验证能力。

1.4 我们的方案

当我们意识到 SFT 只能决定模型能力的下限,而无法教会模型真正的“研究策略”时,转向强化学习(RL)就成了一个必然的选择。

我们的核心思路实现了从“隐式行为模仿”到“显式目标优化”的范式转换:明确定义什么是高质量的金融研究,并让模型在真实的金融数据工具环境中,自主探索达成这一目标的最佳策略。

但要让这套 RL 飞轮真正转动起来,我们在落地过程中必须系统性地跨越三道屏障:

  1. 衡量“研究质量”的可靠标尺(Benchmarking)。 传统的金融 NLP 评测多聚焦于单轮、封闭式任务,无法评估多轮工具交互与长文本逻辑。在训练开始前,我们必须从零构建一个形式化的评估基准,将其作为整个项目的北极星指标。
  2. 突破训练数据的成本瓶颈(Training Data)。 让金融专家撰写成千上万份包含完整推理链的标杆研报,其成本是不可接受的,且专家水平会成为模型的“天花板”。我们需要一种范式,将对数据的需求从昂贵的“标准答案”降维到只需提供“高质量的设问”。
  3. 构建全链路的动态训练环境(Reward & Infrastructure)。 真实的金融环境充满噪音。这不仅要求我们设计一个防作弊(Reward Hacking)的多维 Reward 体系,更要求我们在底层基础设施上实现工程突破——搭建一套专为高并发、多轮次 RL 探索设计的工具缓存与容错架构。

本文将深入拆解我们从零训练这个金融 Deep Research Agent 的全过程。我们将按照上述脉络,分享我们在 Benchmark 体系搭建、Reward 权重博弈,以及底层训练工程化中积累的核心经验与反直觉教训。

Gemini_Generated_Image_ofei9mofei9mofei

2 为金融 Deep Research 定义评测标准

在金融 Deep Research 中,benchmark 不只是评测环节的一部分,它实际上决定了整个系统会朝什么方向演化。评测标准如果抓不住研究任务的本质,后续训练即使持续优化,也可能只是把模型推向更擅长组织表述、更熟悉评分偏好的方向,而不是真正提升研究能力。也正因为如此,在进入训练设计之前,我们先回到一个更基础的问题:什么样的任务能够代表真实的金融研究,什么样的输出才算一份扎实的研究结果,现有 benchmark 又遗漏了哪些关键能力。

2.1 现有Benchmark的局限性

现有金融 benchmark(如 FinBen[1])大多面向单轮、短文本、封闭式任务,更适合评估知识提取,而不是研究执行。但 Deep Research Agent 的关键能力并不止于“知道答案”,而在于:

  • 能否围绕未知问题主动规划工具调用;
  • 能否在长上下文中组织证据并保持逻辑一致;
  • 能否完成开放式分析,而不只是回答对错题。

这也是为什么我们最终没有直接复用现有基准,而是构建了更贴近真实研究任务的评测集。

2.2 Benchmark 概览

我们的 benchmark 覆盖五类典型金融研究任务:宏观分析、行业研究、事件解读、个股分析和公司研究。每个 domain 选取 6 个代表性 query,共 30 个样本。题目由有资深投研经验的专业人士挑选和设计,并提供参考答案或分析框架。之所以控制在这个规模内,一方面是因为这类题目的设计和标注本身就依赖高成本的专业人力,另一方面也是因为金融 Deep Research 的单样本评测成本并不低,往往需要真实工具调用和多维 judge 配合完成。

这样的设计主要基于两个考虑。第一,按 domain 拆分比只看综合分更有诊断价值。模型可能擅长宏观叙事,却在财务数据对齐上明显失误;只有分 domain 评估,才能看出短板具体出在哪里。第二,相比单纯扩大样本量,我们更看重 query 本身的代表性和区分度,希望有限的样本也能尽量覆盖真实投研中的关键能力。

2.3 评测重点:分析是否充分

一份好的研究报告通常同时要求事实准确、分析充分、表达清晰。 在这些维度中,我们最关注的是分析充分性:模型是否真正组织了证据,是否完成了有支撑的推导,而不是只给出表面上完整的结论。

为了更稳定地衡量这一点,我们没有采用绝对打分,而是使用 pairwise 评估:让 judge 将模型输出与专家参考报告进行对比。这样做有两个好处:一是相对比较通常比绝对评分更稳定;二是参考报告提供的是基线,而不是唯一标准答案,模型仍然可以探索不同但合理的研究路径。

2.4 评测指标与训练目标之间的差别

但这里也存在一个很关键的边界:适合做 evaluation 的指标,不一定适合直接做 RL reward。

如果只看“分析是否充分”,而不约束底层数据是否真实、引用是否可靠,模型就可能学会走捷径:跳过繁琐的工具调用,直接编造看似合理的数据和论证链条。 换句话说,benchmark 可以告诉我们“这篇报告看起来像不像一篇好研究”,但训练时还必须进一步约束“它是不是通过正确的方式完成的”。

这也是为什么在 benchmark 之外,我们还需要为训练单独设计更完整的 reward 体系。

3 设计训练方案

第二章讨论的是“什么样的研究结果更好”;但一旦进入强化学习,一个新的问题就出现了:适合做评测的指标,并不一定适合直接做训练信号。如果 reward 设计不当,模型学到的未必是更好的研究能力,而可能只是更高效的得分策略。

因此,这一章的核心问题不是如何定义“好报告”,而是如何把它转化为一个可优化、且不容易被钻空子的训练目标。

3.1 训练数据:从标准答案转向高质量问题

与监督微调不同,RL 并不依赖大量 (question, gold answer) 对,而更依赖高质量的 query 和合理的 reward。因此,我们将数据设计的重点放在 query 本身,而不是参考答案上。

训练集在分布上与 benchmark 保持一致,同样覆盖 5 个 domain,并与评测集严格隔离。为了让 RL 探索更有效,我们希望这些 query 同时满足几个条件:有一定难度差异、能够覆盖不同研究视角与工具组合、并且能够通过现有金融工具链得到可验证的结论。

基于这一原则,为达到目的,我们设计了专用于金融的问题合成策略。Agent 首先按数据混合比例,从丰富的金融问题类型中选择研究方向;进行头脑风暴,结合真实的金融工具收集有效信息,逐渐填补未知细节;然后,得到一个具有挑战性的金融问题,并将其以多种口吻表述,加入训练集合。最终,收集了约一千条高质量训练 Query。

3.2 奖励设计:从单一总分到多维 Reward

最初我们尝试过最直接的方案:把 benchmark 中的“分析充分性”得分直接作为 reward。但很快发现,这样做会把“写得像一篇完整研究”和“真的完成了一次扎实研究”混在一起。模型确实会朝着更会分析的方向优化,但也更容易走向两类偏差:一类是分析展开了,底层数据和引用却不够可靠;另一类是结构和语气越来越像正式研报,但分析推进本身并不充分。

3.2.1 核心目标与约束项

我们最终把 reward 明确拆成了 1 个核心目标 + 3 个约束项。核心目标是 分析充分性(rm reward),用来鼓励模型真正展开研究、组织证据并形成增量判断; 约束项包括 事实性(audit reward)引用规范/可追溯性(grounding reward)呈现质量(presentation reward)。 这样的设计对应的正是前面提到的几个关键目标:模型既要把研究做深,也不能脱离事实基础,不能丢掉引用约束,也不能把最终输出写成难以使用的草稿。

写成公式,就是:

img

我们有意把分析充分性放在最核心的位置,因为这才是金融 Deep Research 最想拉开的能力;而事实性、引用规范和呈现质量更多承担“约束”作用,防止模型沿着最容易得分的方向跑偏。

3.2.2 奖励计算:基于规则计分

确定了多维 reward 之后,下一个问题是怎么把它算得更稳定。如果让 Judge LLM 直接端到端输出总分,训练很容易受到打分波动的影响。对于 RL,尤其是 GRPO 这类方法来说,这种噪声会直接影响优势估计,进而影响策略更新。

因此,我们没有让 LLM 直接决定分数,而是把过程拆成两步:先抽取,再计分。LLM 先把报告中的关键信息、引用和证据关系提取出来,再由规则代码按照预定义逻辑计算各维度得分。

例如,模型写道:“根据 2024 年年报,公司毛利率由 18% 降至 12%。” Judge LLM 只需要抽取出几个结果:有没有明确数据、有没有来源、数据和结论是否对齐。随后,规则代码再根据这些结果去计算 auditgrounding 分数,而不是让 LLM 直接拍脑袋给一个总分。

这样做的好处是两点:一是分数更稳定,二是更容易排查问题。分数异常时,我们可以更快判断,到底是信息抽取出了问题,还是计分规则本身需要调整。

3.2.3 正向奖励和负向惩罚相结合

除了正向奖励,我们也加入了一些简单的惩罚项,用来限制明显无效的策略。

例如,在金融研究任务里,如果模型在整轮 rollout 中几乎不调用工具,那么它大概率无法引入任何增量信息,不能构建有价值的完整推理链。对于这类行为,我们会施加明确的负向惩罚。 这类规则在训练初期可以引导策略奖励迅速提升:它们可以先排除最明显的错误方向,减少无意义的探索空间,把学习重点留给更有价值的行为差异。

3.3 预定义流程

即使 reward 设计合理,如果一开始就让模型在复杂工具环境中完全自由探索,效率通常也不会太高。

在我们的任务里,最常见的问题不是“不会调用工具”,而是“没有形成完整研究过程”:查到一个信息就立刻开始局部分析,最后报告结构松散,证据之间也缺少呼应。一篇像样的研究报告,通常需要先有基本的问题拆解,再围绕几个关键方向展开取证和分析,最后把这些观察收束到主结论上。

基于这个考虑,我们在训练初期给模型提供了一个简单的研究框架:先规划,再执行。模型先给出一个基本的分析提纲,再进入多轮工具交互和写作。这样做的目的,不是把研究路径写死,而是先让模型形成较稳定的研究展开方式,减少无效探索;之后再在训练中逐步调整,学习更适合自己的策略。

4 训练基建

在推理场景里,工具系统的目标通常是“把信息取回来”;但在强化学习里,工具系统本身就成了训练环境的一部分。模型看到的不再只是数据,而是一个会直接影响 Reward、进而影响梯度更新的外部世界。于是,很多在推理阶段还能容忍的小问题——例如偶发超时、接口抖动、返回不稳定——到了训练阶段,都会被大规模并行 rollout 成倍放大。

因此,训练基础设施的核心目标,不是把工具接进来,而是把环境约束住:让模型面对的是一个可调用、可追溯、可重复的研究环境,而不是一个每次运行都略有不同的黑箱。

4.1 从“能用的工具”到“可训练的环境”

对金融 Deep Research 来说,模型需要的是高信噪比的结构化信息,而不是搜索结果里零散的网页片段。像财务数据、行情数据、公告信息、宏观指标这类内容,最好一开始就以可计算、可引用的形式提供给模型。

基于这个考虑,我们把工具系统统一封装成了 Finance-MCP,并已经开源。它把金融研究中常用的数据获取、网页抓取和搜索能力收在同一个 MCP 接口下,既方便 agent 调用,也方便后续训练时做环境管理。

除了结构化接口,我们还专门把同花顺网页内容抓了下来。原因很实际:很多研究所需的信息并不天然存在于标准化表格里,而是散落在公司页、行业页、事件页这类半结构化网页中。如果每次 rollout 都实时访问网页,一方面成本高,另一方面返回结果也容易随时间波动。把这部分页面内容预先抓取和缓存下来,一是能保留同花顺页面里更丰富的上下文信息,二是能让训练时面对的环境更稳定,减少外部网页变化对 reward 的干扰。

在这个基础上,MCP 的价值提现在把不同来源的数据收束到统一接口下,同时保留完整的调用记录。这样,模型后面写进报告里的数据、引用和结论,才能更自然地沿着工具调用链回溯到原始环境反馈,为事实性检查和 reward 计算提供依据。

4.2 训练环境的三个问题,以及我们的处理方式

真正进入训练后,工具环境会立刻遇到三个问题:成本、确定性和鲁棒性

第一个问题是成本。GRPO 的 group rollout 会让同一个 query 生成多条轨迹,这些轨迹经常会重复调用同样的工具、查询同样的参数。如果每次都真正请求一次外部服务,训练成本会很快失控。我们的做法是把工具执行从训练进程中解耦出来,单独做成 EnvService,再在这一层之上加 MongoDB 缓存。这样,同一个 (tool_name, arguments) 只会真正执行一次,之后直接复用结果。这个设计一方面显著降低了调用成本,另一方面也把外部环境的波动隔离在训练主循环之外。

第二个问题是确定性。训练时最怕同样的动作在不同时间得到不同结果,否则 reward 的变化就很难解释。缓存除了省成本,也顺带解决了这个问题:只要输入相同,返回结果就相同,实验的可复现性也会高很多。

第三个问题是鲁棒性。真实工具环境总会有各种边角问题:API 超时、限流、返回格式异常、JSON 解析失败,甚至 judge LLM 自身也可能抖动。我们的原则很简单:单点失败不能拖垮整条训练链路。为此,我们在几个层次都做了兜底:工具调用失败时重试并返回错误信息;结构化解析阶段做容错修复;评分阶段如果 grader 失败就返回 score=0 并记录日志,而不是直接抛异常中断 batch;judge LLM 侧也配了重试和降级策略。这样做的代价是少量样本会以低分结束,但整个训练过程能继续跑下去,后续再根据日志回头修 grader 的边界情况。

这套基础设施本身并不会直接提高模型上限,但它决定了 reward 能不能稳定、实验能不能复现、训练能不能长期跑通。对 RL 来说,这些往往不是“工程细节”,而是训练能否成立的前提。

5 实验结果

我们从训练曲线和外部 benchmark 两个角度,观察 RL 训练后策略的变化。

延续前面的设计,最终 reward 由 1 个核心目标和 3 个约束项 组成: rm 对应分析充分性,audit 对应事实性,grounding 对应引用规范,presentation 对应呈现质量。 img 其中,每个维度都是0-1的分数。

5.1 训练动态:主要提升来自分析能力

img

img

从训练曲线看,final_reward_mean 从约 0.54 持续提升到 0.75 左右,整体优化过程比较稳定。拆开来看,提升最明显的是 rm_raw_mean,大约从 0.30 增长到 0.60+,说明这一轮 RL 的主要收益确实来自分析充分性的提升。 与此同时,几个约束相关指标整体保持稳定:presentation 大部分时间维持在 0.95 以上,grounding 基本稳定在 0.90–0.95 区间,audit_raw_mean 也从约 0.60 缓慢提升到 0.73 左右。换句话说,这轮训练并不是靠牺牲事实性、引用规范或呈现质量来换取更高分,而是在守住这些约束的前提下,把主要增益集中在“研究是否做得更充分”这一核心目标上。

5.2 外部评测:提升不只局限于金融任务

我们进一步在 DeepResearch Bench[2] 上进行了 zero-shot 测试。结果显示,我们的方法在 overall score 上达到 0.476,高于 base30b (0.127)tongyidr (0.277),也高于表中的 claude3.7 (0.422)

model finance others overall
comprehensiveness insight instruction_following readability overall_score comprehensiveness insight instruction_following readability overall_score comprehensiveness insight instruction_following readability overall_score
Qwen3-30B-A3B-Instruct-2507 0.181 0.169 0.191 0.211 0.184 0.112 0.111 0.117 0.137 0.118 0.122 0.119 0.128 0.148 0.127
Tongyi DeepResearch 0.291 0.282 0.316 0.313 0.296 0.270 0.260 0.289 0.290 0.274 0.273 0.263 0.293 0.293 0.277
Claude 3.7 0.404 0.398 0.465 0.416 0.417 0.412 0.406 0.462 0.417 0.423 0.411 0.405 0.462 0.417 0.422
Ours 0.476 0.472 0.488 0.487 0.479 0.470 0.470 0.485 0.484 0.475 0.471 0.471 0.485 0.484 0.476

这种提升不仅体现在 finance 子集上,也体现在 others 子集上:我们的 finance overall score0.479others overall score0.475,两者都明显高于对应基线。并且,这一优势并不是来自单一指标,而是同时体现在 comprehensiveness、insight、instruction followingreadability 等多个维度上。

整体来看,这些结果说明,RL 训练带来的提升并不只是对金融任务风格的适配,而更像是在强化一种可迁移的研究过程。

5.3 案例分析

为了更直观地看 RL 带来的变化,我们选取同一道开放式研究task作为案例:“国内通过品牌拓展实现产品型出海的代表性企业深度研究”

训练前 # 国内通过品牌拓展实现产品型出海的代表性企业深度研究报告 ## 摘要 1. 中国涌现出一批以产品创新为核心驱动力、成功实现品牌出海的代表性企业,涵盖消费电子、汽车零部件、高端白酒等多个领域。 2. **长盈精密**(300115)通过深度绑定苹果、小米、华为等头部科技品牌,向人形机器人、AI服务器、新能源汽车等高增长赛道拓展,已形成“技术+品牌”双轮驱动的全球化布局。 3. **星宇股份**(601799)作为全球车灯龙头,在汽车电子、无人驾驶、人形机器人等前沿领域持续领先,2025年在细分行业中各项核心指标均排名第一,彰显其强大的品牌溢价与技术壁垒。 4. **贵州茅台**(600519)作为中国超级品牌,其“国酒”形象已深度融入全球高端消费文化,通过品牌价值实现产品溢价,是“文化出海”与“品牌出海”结合的典范。 5. 2024年中国跨境电商出口规模达2.15万亿元,同比增长16.9%,产品创新与品牌建设已成为企业出海的核心竞争力[1]。 ## 一、企业核心画像与出海战略 ### 1. 长盈精密(300115):从“代工厂”到“全球智能硬件核心供应商” - **核心定位**:全球领先的消费电子精密零组件及新能源产品零组件制造商。 - **出海战略**:以“产品+技术”为核心,深度嵌入全球科技巨头供应链,逐步从被动代工转向主动定义产品标准。 - **关键举措**: - **技术先行**:布局人形机器人“小脑”控制系统、高速连接器(支持PCIe Gen5/Gen6)、AI服务器铜缆连接等前沿技术[2]。 - **客户多元化**:客户覆盖苹果、华为、小米、三星、特斯拉、英伟达(未合作)等全球头部科技企业[2]。 - **全球化布局**:在消费电子、新能源、人形机器人三大领域同步推进,2025年前三季度人形机器人相关产品交付价值超8000万元[2]。 ### 2. 星宇股份(601799):以“技术品牌”引领汽车智能化浪潮 - **核心定位**:全球领先的汽车照明与智能座舱系统解决方案提供商。 - **出海战略**:以“技术品牌”为护城河,从传统车灯制造商转型为智能汽车生态的核心参与者。 - **关键举措**: - **技术领先**:发布全球速度最快的小型六轴工业机器人TR8,布局人形机器人[3]。 - **生态协同**:与华为、特斯拉等企业建立深度合作关系,产品应用于智能驾驶(毫米波雷达)、智能座舱、无人驾驶等领域[3]。 - **市场扩张**:2025年荣登“全球开放式创新百强榜单”,彰显其在技术创新与生态协同方面的全球影响力[3]。 ### 3. 贵州茅台(600519):以“文化品牌”实现高端产品全球渗透 - **核心定位**:中国白酒的超级品牌,世界三大蒸馏名酒之一。 - **出海战略**:以“国酒”文化为载体,通过品牌价值实现产品溢价,构建全球高端消费市场。 - **关键举措**: - **品牌护城河**:拥有八项国家级非物质文化遗产认证,品牌历史可追溯至汉代,具备不可复制的文化底蕴[4]。 - **高端定位**:产品定位超高端,如2025年推出的“巴拿马”酒售价11000元/瓶,首日销量破万瓶[4]。 - **全球布局**:产品远销全球150多个国家和地区,是“中国名片”出海的典范[4]。 ## 二、财务与行业地位分析 ### 1. 长盈精密(300115):成长性承压,但技术布局领先 - **财务表现**(2025年三季报): - 营业收入同比增长11.68%,但净利润同比下降21.25%,净利率从5.29%降至3.88%[5]。 - 现金流净额同比下降40.97%,销售现金比率从6.22%降至3.29%[5]。 - **行业地位**:在“消费电子零部件及组装”细分行业中,各项核心指标(营收、利润、资产、净资产收益率)均位列第36名,处于行业中上游水平[6]。 ### 2. 星宇股份(601799):全面领先,行业龙头地位稳固 - **财务表现**(2025年三季报): - 营业收入同比增长16.09%,净利润同比增长16.76%,盈利能力持续增强[7]。 - 现金流表现优异,净利润现金含量高达155.19%,远超行业平均水平[7]。 - **行业地位**:在“汽车零部件-车身附件及饰件”细分行业中,所有核心财务指标(每股收益、净利润、净资产收益率、毛利率等)均排名第一,是无可争议的行业龙头[8]。 ### 3. 贵州茅台(600519):绝对霸主,盈利能力与资产质量双优 - **财务表现**(2025年三季报): - 营业收入同比增长6.36%,净利润同比增长6.25%,增长虽放缓但依然稳健[9]。 - 销售毛利率高达91.29%,净资产收益率为24.64%,均处于行业绝对领先地位[9]。 - **行业地位**:在“白酒Ⅲ”细分行业中,所有核心财务指标(营收、利润、资产、毛利率、股东权益比率)均排名第一,是行业无可争议的“一哥”[10]。 ## 三、核心概念与市场认知 | 企业 | 核心概念 | 市场认知 | |------|----------|----------| | 长盈精密 | 人形机器人、苹果概念、小米概念、华为概念、AI PC、5G、新能源汽车 | 作为“科技巨头的隐形冠军”,是AI、机器人、新能源等高增长赛道的核心受益者[2]。 | | 星宇股份 | 人形机器人、华为汽车、无人驾驶、智能座舱、毫米波雷达 | 以“技术品牌”著称,是智能汽车产业链中不可或缺的“关键零部件供应商”[3]。 | | 贵州茅台 | 超级品牌、白酒概念、老字号、国企改革 | 代表中国高端消费文化,是“国酒”与“文化出海”的象征[4]。 | ## 结论与建议 1. **出海模式分化**:中国企业的出海路径已从早期的“代工出海”演变为“品牌出海”与“技术出海”并行。长盈精密代表“技术驱动型”,星宇股份代表“品牌技术融合型”,茅台代表“文化品牌型”。 2. **未来趋势**:产品创新与品牌建设是企业出海的核心竞争力。2024年,中国出海新锐消费品牌在产品创新力方面表现突出,研发投入占成本支出约15%[1]。 3. **投资建议**: - **长期持有**:贵州茅台凭借其不可复制的品牌护城河,是长期配置的优质资产。 - **关注成长**:星宇股份在智能汽车与人形机器人领域布局领先,具备高成长潜力。 - **风险提示**:长盈精密当前盈利能力承压,需密切关注其在人形机器人等新业务上的转化效率。 ## References [1] 2024中国出海新锐消费品牌榜单:透视出海新趋势与品牌成长路径,工具: dashscope_search,参数:query=2024年中国出海品牌 产品创新 电商销售增长,数据日期/报告期:2025-07-01,来源 - https://www.sohu.com/a/842844447_121850782 [2] 长盈精密:公司开发的应用于服务器、工作站内部高速背板连接器产品已给国内头部客户送样验证,工具: crawl_ths_news,参数:code=300115,数据日期/报告期:2025-12-19,来源 - http://news.10jqka.com.cn/field/20251219/673349415.shtml [3] 星宇股份荣登 “2025全球开放式创新百强榜单”,工具: crawl_ths_news,参数:code=601799,数据日期/报告期:2025-12-12,来源 - http://news.10jqka.com.cn/field/20251212/673165980.shtml [4] 茅台“跳水”跌破官方指导价!高端白酒难言价格见底,工具: crawl_ths_news,参数:code=600519,数据日期/报告期:2025-12-12,来源 - http://news.10jqka.com.cn/field/20251212/673179092.shtml [5] 长盈精密:本期净利润增长率:-21.25%,去年同期为38159.10%,企业成长潜力停止扩张转入收缩,工具: crawl_ths_finance,参数:code=300115,数据日期/报告期:2025-09-30,来源 - https://basic.10jqka.com.cn/300115/finance.html#stockpage [6] 长盈精密在“消费电子零部件及组装”细分行业中,各项核心指标均位列第36名,工具: crawl_ths_field,参数:code=300115,数据日期/报告期:2025-09-30,来源 - https://basic.10jqka.com.cn/300115/field.html#stockpage [7] 星宇股份:净利润同比增长16.76%,净利润现金含量高达155.19%,工具: crawl_ths_finance,参数:code=601799,数据日期/报告期:2025-09-30,来源 - https://basic.10jqka.com.cn/601799/finance.html#stockpage [8] 星宇股份在“汽车零部件-车身附件及饰件”细分行业中,所有核心财务指标均排名第一,工具: crawl_ths_field,参数:code=601799,数据日期/报告期:2025-09-30,来源 - https://basic.10jqka.com.cn/601799/field.html#stockpage [9] 贵州茅台:销售毛利率高达91.29%,净资产收益率为24.64%,工具: crawl_ths_finance,参数:code=600519,数据日期/报告期:2025-09-30,来源 - https://basic.10jqka.com.cn/600519/finance.html#stockpage [10] 贵州茅台在“白酒Ⅲ”细分行业中,所有核心财务指标均排名第一,工具: crawl_ths_field,参数:code=600519,数据日期/报告期:2025-09-30,来源 - https://basic.10jqka.com.cn/600519/field.html#stockpage --- *本报告基于公开信息整理分析,仅供参考,不构成投资建议。投资有风险,入市需谨慎。* [TASK_COMPLETED]
训练后 # 国内通过品牌拓展实现产品型出海的代表性企业深度研究报告 ## 摘要 本报告聚焦于中国通过品牌化战略实现产品型出海的代表性企业,基于多维度数据与公开信息,系统分析了安克创新、乐歌股份、傲基科技、致欧科技等企业在品牌出海路径、财务表现、市场布局及战略动向上的核心特征。研究发现,以安克创新为代表的消费电子品牌,通过“多品牌+跨境电商+本地化渠道”三位一体战略,已在全球180多个国家建立品牌认知,2025年营收预测达321亿元,净利润超26亿元,ROE高达20.27%。家居品类企业则呈现“OEM转型品牌+跨境电商+海外仓布局”模式,如致欧科技、乐歌股份等在欧洲、北美市场实现高速增长。整体来看,中国品牌出海已从“代工出海”迈向“品牌出海”新阶段,技术、供应链与本地化运营能力成为核心竞争力。 ## 一、核心出海企业识别与分类 ### 1. 消费电子领域:安克创新(300866.SZ)——全球消费电子品牌出海典范 安克创新(Anker)是中国品牌出海的标杆企业,成立于2011年,以充电宝切入市场,通过亚马逊等电商平台迅速打开北美、欧洲等海外市场,现已发展为覆盖智能充电、音频、智能家居、创新硬件的多品牌矩阵。其核心出海模式为“自主品牌+跨境电商平台+线下渠道拓展+本地化运营”[1]。 - **品牌矩阵**:旗下拥有Anker(充电)、Soundcore(音频)、Eufy(智能家居)、Nebula(投影)等六大品牌,产品销往全球180多个国家及地区[2]。 - **市场覆盖**:2024年底,公司全年营收达247.1亿元,服务超1.4亿用户,境外营收占比超95%[3]。 - **渠道布局**:线上依托亚马逊、eBay、独立站;线下成功进入沃尔玛、塔吉特、百思买、好市多、MediaMarkt等全球主流零售网络[4]。 ### 2. 家居用品领域:多企业并行,形成“三足鼎立”格局 中国家居品类出海企业呈现多元化发展路径,主要可分为三类: #### (1)跨境电商平台主导型 - **致欧科技**:通过亚马逊、ManoMano、eBay等平台销售,2024年上半年营收同比增长41.22%,欧洲市场营收占比高达62.06%[5]。 - **傲基科技**:旗下拥有ALLEWIE、IRONCK、LIKIMIO等多个家居品牌,2023年已有11个品牌GMV超1亿元,是中国家居B2C海外电商的领先企业[6]。 #### (2)品牌+海外仓+本地化运营型 - **乐歌股份**(300729.SZ):从代工起家,2009年注册“乐歌”商标,成功上市。其智能调节桌等产品在海外市场持续热销,2025年前三季度营收48.46亿元,净利润1.69亿元[7]。 - **梦百合**:通过收购西班牙床垫品牌思梦、美国家具零售企业MOR等,实现品牌与渠道的双重本地化[8]。 #### (3)重资产生产基地+自主品牌出海型 - **顾家家居**:在印尼、越南、墨西哥、美国等地布局生产基地,以自有品牌KUKA HOME在60多个国家开设门店,2024年上半年海外营收达38.87亿元,同比增长12.59%[9]。 - **欧派家居**:已在60多个国家与地区开设100多家品牌门店,定制家居产品出口至128个国家和地区,2023年海外渠道营收3.2亿元,同比增长46.5%[10]。 ## 二、核心企业财务与经营分析 ### 1. 安克创新(300866.SZ):高成长、高盈利,但现金流承压 #### (1)盈利能力与成长性 - **毛利率**:2025年前三季度为44.68%,同比提升0.4个百分点,主营获利能力稳定[11]。 - **净利率**:9.37%,同比提升0.07个百分点,经营效益提高[11]。 - **净资产收益率(ROE)**:20.27%,远高于行业平均水平,回报股东能力显著增强[11]。 - **净利润增长率**:2025年前三季度达31.34%,成长潜力增强[11]。 #### (2)市场与行业地位 - 在“品牌消费电子”细分领域(共10家)中,安克创新在净利润、营收、ROE、毛利率等核心指标上均排名第一[12]。 - 在“消费电子”大类(共102家)中,ROE、毛利率、净利润等指标均位列前茅,是行业龙头[12]。 #### (3)现金流与风险 - **销售现金比率**:-4.11%,去年同期为10.04%,销售占用资金局面未改[11]。 - **净利润现金含量**:-44.75%,去年同期为112.21%,销售回款能力恶化[11]。 - **现金营运指数**:-0.53,去年同期为0.81,收益质量下降[11]。 - **结论**:尽管盈利强劲,但经营性现金流为负,对投资支出的现金支持能力被严重削弱,可持续经营能力面临压力[11]。 ### 2. 乐歌股份(300729.SZ):稳健增长,但盈利能力有待提升 #### (1)财务表现 - **毛利率**:26.07%,同比下降3.77个百分点,主营获利能力削弱[13]。 - **净利率**:3.49%,同比下降3.19个百分点,经营效益大幅下降[13]。 - **ROE**:4.68%,同比下降3.87个百分点,回报股东能力变弱[13]。 - **净利润增长率**:-36.33%,企业成长潜力重回升势[13]。 #### (2)行业地位 - 在“其他家居用品”(共29家)中,乐歌股份在净利润、营收、ROE、毛利率等指标上均排名第9位[14]。 - 在“家居用品”大类(共81家)中,排名同样为第23位,处于行业中游水平[14]。 #### (3)市场前景 - 2025年机构预测其净利润均值为3.05亿元,EPS为0.89元,2026年净利润预测为3.82亿元,显示未来增长预期[15]。 ## 三、品牌出海战略与核心驱动力分析 ### 1. 安克创新:从“产品出海”到“品牌出海”的战略跃迁 安克创新的成功源于其系统性的品牌出海战略: - **技术驱动**:坚持“技术立企”,研发占比从2022年的7.6%提升至2025年前三季度的9.3%。在氮化镓(GaN)技术领域,率先实现商业化普及,解决高频开关下的电磁干扰与散热难题[16]。 - **多品牌矩阵**:通过Anker、Soundcore、Eufy等品牌,覆盖充电、音频、智能家居等多场景,降低单一品类风险[17]。 - **本地化运营**:针对不同市场推出定制化产品,如日本市场推出迷你化、樱花色系产品;在YouTube开设官方教学频道,累计订阅超300万,建立用户情感连接[18]。 - **渠道多元化**:线上以亚马逊为主,同时大力发展独立站(收入增速超100%);线下进入沃尔玛、百思买等全球零售巨头,实现全渠道覆盖[19]。 ### 2. 家居品类企业:从“代工”到“品牌”的转型路径 家居品类企业的出海路径呈现“三步走”特征: 1. **OEM/ODM起家**:早期以代工模式为主,积累供应链与制造经验。 2. **品牌化转型**:注册自有品牌,如乐歌股份的“乐歌”、致欧科技的“JOLI”。 3. **全球化布局**:通过跨境电商平台销售,同时自建海外仓,实现“本地化”运营,提升物流效率与客户体验。 ## 四、行业趋势与未来展望 ### 1. 行业发展趋势 - **从“渠道出海”到“品牌出海”**:企业不再满足于通过亚马逊等平台销售,而是致力于打造全球知名品牌,提升溢价能力。 - **从“单一品类”到“多品类矩阵”**:安克创新、乐歌股份等企业已从单一产品(如充电宝、升降桌)拓展至多品类,构建生态壁垒。 - **从“依赖平台”到“渠道多元化”**:为降低对亚马逊等第三方平台的依赖,企业正大力发展独立站、线下渠道及新兴社交电商(如TikTok Shop)[20]。 - **从“中国制造”到“中国智造”**:技术投入成为核心竞争力,如安克创新在GaN、AI、物联网等领域的布局[21]。 ### 2. 未来投资机会 - **高研发投入、技术壁垒高的企业**:如安克创新、大疆等,具备长期增长潜力。 - **拥有自主品牌与全球渠道网络的企业**:如乐歌股份、顾家家居,具备抗风险能力。 - **在新兴市场(东南亚、南美、中东)布局深入的企业**:如致欧科技、恒林股份,有望享受高增长红利。 ## 五、结论与建议 ### 1. 核心结论 - **安克创新**是消费电子领域品牌出海的绝对龙头,凭借技术、品牌与渠道优势,已构建全球竞争力,但需警惕现金流风险。 - **家居品类企业**正加速从“代工”向“品牌”转型,形成以致欧科技、乐歌股份、顾家家居为代表的多元化格局。 - 中国品牌出海已进入“品牌化、技术化、本地化”新阶段,未来竞争将聚焦于品牌价值、技术创新与全球运营能力。 ### 2. 投资建议 - **长期持有**:安克创新(300866.SZ)具备强大的品牌护城河和增长潜力,建议长期持有,但需密切关注其现金流改善情况。 - **关注转型**:乐歌股份(300729.SZ)作为家居出海的代表,若能提升盈利能力,有望迎来估值修复。 - **布局新兴市场**:关注在东南亚、南美等新兴市场布局深入的企业,如恒林股份、匠心家居等,享受高增长红利。 ## References [1] 安克创新品牌出海路径分析, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [2] 安克创新全球市场布局, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [3] 安克创新2024年营收与用户数据, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [4] 安克创新线下渠道布局, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [5] 致欧科技2024年营收增长, 工具: dashscope_search, 参数: query=中国家居品牌出海 代表企业 市场份额, 数据日期/报告期: 2025-12-30, 来源 - https://www.sohu.com/a/960292040_121851694 [6] 傲基科技品牌布局, 工具: dashscope_search, 参数: query=中国家居品牌出海 代表企业 市场份额, 数据日期/报告期: 2025-12-30, 来源 - https://www.sohu.com/a/960292040_121851694 [7] 乐歌股份2025年三季报财务数据, 工具: crawl_ths_finance, 参数: code=300729, 数据日期/报告期: 2025-09-30, 来源 - https://basic.10jqka.com.cn/300729/finance.html#stockpage [8] 梦百合海外收购案例, 工具: dashscope_search, 参数: query=中国家居品牌出海 代表企业 市场份额, 数据日期/报告期: 2025-12-30, 来源 - https://www.sohu.com/a/960292040_121851694 [9] 顾家家居2024年海外营收, 工具: dashscope_search, 参数: query=中国家居品牌出海 代表企业 市场份额, 数据日期/报告期: 2025-12-30, 来源 - https://www.sohu.com/a/960292040_121851694 [10] 欧派家居海外渠道营收, 工具: dashscope_search, 参数: query=中国家居品牌出海 代表企业 市场份额, 数据日期/报告期: 2025-12-30, 来源 - https://www.sohu.com/a/960292040_121851694 [11] 安克创新2025年三季报财务指标, 工具: crawl_ths_finance, 参数: code=300866, 数据日期/报告期: 2025-09-30, 来源 - https://basic.10jqka.com.cn/300866/finance.html#stockpage [12] 安克创新行业排名与竞品对比, 工具: crawl_ths_field, 参数: code=300866, 数据日期/报告期: 2025-09-30, 来源 - https://basic.10jqka.com.cn/300866/field.html#stockpage [13] 乐歌股份2025年三季报财务指标, 工具: crawl_ths_finance, 参数: code=300729, 数据日期/报告期: 2025-09-30, 来源 - https://basic.10jqka.com.cn/300729/finance.html#stockpage [14] 乐歌股份行业排名与竞品对比, 工具: crawl_ths_field, 参数: code=300729, 数据日期/报告期: 2025-09-30, 来源 - https://basic.10jqka.com.cn/300729/field.html#stockpage [15] 乐歌股份未来三年盈利预测, 工具: crawl_ths_worth, 参数: code=300729, 数据日期/报告期: 2025-12-27, 来源 - https://basic.10jqka.com.cn/300729/worth.html#stockpage [16] 安克创新研发投入与GaN技术, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [17] 安克创新多品牌矩阵, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [18] 安克创新本地化运营与用户互动, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [19] 安克创新渠道多元化战略, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [20] 安克创新TikTok Shop布局, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc [21] 安克创新AI与物联网布局, 工具: dashscope_search, 参数: query=安克创新 品牌出海 战略 跨境电商 本地化, 数据日期/报告期: 2025-12-30, 来源 - https://baijiahao.baidu.com/s?id=1848648133881226973&wfr=spider&for=pc --- [TASK_COMPLETED]

训练前的报告已经有了完整的研报形式,但题目抓得还不够准,研究对象和主线都有些发散。训练后,最明显的变化不是文风,而是先把对象选对,再把证据接上来。一方面,企业选择更贴近“品牌出海”这个主题;另一方面,引用和数据支撑明显更充分,财务表现、行业位置、渠道布局和本地化策略能够互相对上,不再只是零散材料的拼接。

维度 训练前 训练后
对象选择 选了长盈精密、星宇股份、贵州茅台,和“品牌拓展实现产品型出海”的贴合度有限 聚焦安克创新、致欧科技、乐歌股份、傲基科技等,更接近题目本身
证据与引用 有引用,但数量较少,主要服务于个别公司材料补充 引用明显变多,从 10 条增加到 21 条,财务、行业、渠道和战略信息更完整
分析组织 更像把几家公司的材料并排展开,主线不够稳 先识别企业类型,再按出海路径、渠道、本地化和财务表现展开,结构更清楚
结论质量 能形成结论,但更多停留在总结层面 能把个案往上收,归纳出“代工出海走向品牌出海”的共性路径

这个例子比较能说明,RL 带来的提升不只是把报告写得更像样,而是让模型在选对象、补证据、搭框架、收结论这几个关键环节上,离真实研究过程更近了一步。

6 踩坑与反思:RL 训练的工程现实

回看整个金融 Deep Research Agent 的训练过程,最大的挑战并不主要来自算法本身,而是如何为 RL 提供一个足够稳定的环境和评估基座。对这类多轮工具调用任务来说,训练效果往往取决于三件事:环境是否稳定、训练过程是否允许合理探索、评测信号是否足够可靠。

6.1 环境不稳定,会放大“走捷径”的倾向

在真实金融 API 环境中,限流、超时和偶发抖动很难完全避免。我们在早期实验中很快发现:如果把这些不稳定因素直接暴露给模型,策略会倾向于规避真实工具调用,转而用更冒险但更“省事”的方式完成任务,例如直接编造数据来拼接报告。

这也是为什么训练侧的缓存、状态冻结和错误隔离不只是工程优化,而是训练设计的一部分。它们的作用并不只是省成本、提吞吐,更重要的是减少环境噪声对策略学习的干扰,避免模型因为外部不稳定而学到错误的行为。

6.2 不同能力的提升通常不同步

多维 reward 下,模型各项能力的变化往往并不同步。训练中更常见的情况是:某些容易优化的部分先提升,而另一些更依赖综合能力的维度提升较慢。 这在我们的实验里也有所体现:分析充分性是最终收益的主要来源,而事实性、引用规范和写作质量更多表现为在波动中逐步稳定。

这意味着,训练过程中出现局部波动并不罕见。只要整体趋势没有失稳,通常不需要过早因为短期起伏而频繁调整 reward 权重。相比不断“追着曲线调参数”,更重要的是先确认方向是否正确,再给策略一定的收敛空间。

6.3 评测信号的稳定性,往往比想象中更重要

在 RL 尤其是 GRPO 这类方法中,奖励信号的方差会直接影响优势估计的质量。如果评测过程本身波动很大,那么策略更新很容易被噪声带偏。 因此,我们最终更倾向于把“理解”与“打分”拆开:让 LLM 负责语义判断和结构化抽取,而把最终分值尽量交给确定性的规则计算。这样做未必最灵活,但在训练阶段通常更稳定,也更容易定位问题。

从工程角度看,一个足够稳定的评测系统,很多时候比更复杂的训练技巧更重要。

最小复现关键点

如果要复现这类多轮 Tool-use RL 范式,我们认为至少需要以下几个部分:

核心模块 最低要求
Foundation Model 具备基础多轮工具调用能力,或已通过 SFT 对齐到可用起点
Data Engine 少量但具备多样性的 seed queries,不依赖标准答案
Tool Execution 统一的结构化工具接口,支持调用链路追踪
Reward Design 以分析充分性为核心,同时保留事实性、引用和呈现质量等约束
Evaluation Infra 语义抽取与规则算分结合的稳定评测流程
Training Infra 能隔离环境噪声、缓存重复调用,并对边缘异常做安全降级

整体上,这次实践给我们的最大体会是:对金融 Deep Research 这类任务来说,RL 的难点往往不在“如何更新模型”,而在“如何让模型面对一个值得学习的环境”。

一句话总结

训练金融 Deep Research Agent,本质上不是教模型生成一篇篇看起来更完整的报告,而是定义什么是好的研究,并把它转化为可评估、可反馈、可优化的训练信号;当这套机制足够清晰稳定,模型才有可能逐步学会真正有效的研究策略。

参考链接

  1. Finance-MCP 金融工具:https://github.com/flowllm-ai/finance-mcp
  2. 金融workflow:https://github.com/cuiyuebing/agentscope-samples/blob/dev_open_alias_all/alias/docs/financial_analysis.md
  3. Agentscope:https://github.com/agentscope-ai/agentscope
  4. Agentscope-Samples:https://github.com/agentscope-ai/agentscope-samples
  5. AgentJet:https://github.com/modelscope/AgentJet

引用文献

  1. Xie, Q., Han, W., Chen, ... & Huang, J. (2024). FinBen: A Holistic Financial Benchmark for Large Language Models. arXiv preprint arXiv:2402.12659.
  2. Du, M., Xu, B., Zhu, C., Wang, X., & Mao, Z. (2025). DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents. arXiv preprint arXiv:2506.11763.
  3. 同花顺API:https://basic.10jqka.com.cn/