水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

柴孝伟

买进就值,越来越值,时享价...


邢星

邢 星 党员,国...


石建军

笔名:石天方。中国第一代投...


揭幕者

名博


洪榕

原上海大智慧执行总裁


小黎飞刀

黎仕禹,名博


启明

私募基金经理,职业投资人


李大霄

前券商首席经济学家


桂浩明

申万证券研究所首席分析师


宋清辉

著名经济学家宋清辉官方账号...


banner

banner

DeepSeek闭门会议深度探讨

火眼金睛   / 01月29日 11:28 发布

I. DeepSeek


1. DeepSeek 有好口碑的原因在于是第一个把复现 MoE、ol 等发出来,胜在做的早,但能不能做的最好,空间还很大。新挑战在于资源有限,只能把有限的资源放在最亮眼的地方,后续可能没有精力去做得更好,比如 MoE。团队的 research 能力和团队文化很好,如果再给 10、20 万张卡,可能能做出更好的事情。


2. DeepSeek 从 preview 到正式发布这段时间,长上下文能力提升很快。DeepSeek 的 Long context 10K 用非常常规的方法就能够做到。


3. DeepSeek 肯定没有 5 万张卡,公开信息说有 1 万张老的卡,可能有 3 千张禁令之前的 H800。DeepSeek 很注重合规,所以卡应该很少。美国用 GPU 的方式太粗放了。


4. DeepSeek 把所有精力都放在了一个很窄的点,放弃了后续很多东西,比如安全、多模态等。其目标不是单纯服务人,而是做智能本身,这可能也是成功的关键因素。


5. DeepSeek 有一篇文章是由文生图做图生文的耦合学习。


6. 量化就是 DeepSeek 的商业模式。幻方是上一轮 machine learning 的产物。DeepSeek 最重要的是推动智能,而钱和商业化的优先级都不高。中国需要有几个领先实验室来探索能超越 OpenAI 的东西。


7. 单从技术角度看,DeepSeek 作为黄埔军校对人才扩散有很大作用。


8. 美国的 AI Lab 商业模式不好,AI 今天确实没有好的商业模式,后面可能需要跑通。梁总有抱负,DeepSeek 不在乎形态,只是往 AGI 走。


9. 梁总是 DeepSeek 最核心的人物,与 Sam 不同,梁总是很懂技术的。


10. 读完 DeepSeek 论文的感受是,很多都是节约硬件开销的技术,在比较大的几个 scaling 方向上,DeepSeek 的技巧可以把成本降下来。


11. 长期不会对算力有影响,但短期大家会想如何让 AI 更加高效。需求还是很强,各家都不够用。


12. 投资时选择最高级的组合,但现在发现大家一起磨合好,能力也能慢慢变高级。挖走一个人是否能打破优势组合是个问题,目前来看对 DeepSeek 的影响不大。


13. 市场上钱很多,核心是文化组织。DeepSeek 和字节的研究文化比较像,比较基础。文化好不好衡量标准在于是否有足够的钱和长期性,这两家公司商业模式都非常好。

14. DeepSeek 为什么追得这么快?
  - Reasoning model 的需求是更高质量的数据和训练。如果是长文本、多模态,从 0 开始追一个闭源模型会更困难,但纯 reasoning 模型本身的架构没有大动,reasoning 是一个更好追的方向。
  - r1 能追得快的原因可能在于任务没有特别难。RL 只是让模型选得更准,效率上没有突破,只是变得更加容易了。

II. DeepSeek 出圈的影响

1. DeepSeek 的出圈让外界意识到中国的 AI 很强。以前外界认为中国的 AI 进展落后美国两年,但 DeepSeek 表明其实差距在 3-9 个月,甚至某些方面更强。

2. 可能导致美国的政策对中国更不利。但历史上封锁的东西,能被突破的都会很卷。美国的封锁可能给 AI 多三年窗口期。

3. DeepSeek、小红书等公司受到美国 VC 的关注。中国资产的重组值得关注。

4. DeepSeek 做的事情大概率是在不利用 H800 或 A800 算力的前提下,用纯国产来完成。如果成功,会有很大影响。

5. DeepSeek 并不是突然爆发。这次 RL 的结果很漂亮,触及了美国从上到下的核心圈。

6. DeepSeek 是站在巨人的肩膀上,但探索前沿需要的时间和人力成本还是要高很多。RL 并不代表以后的训练成本会同时降低。

7. 中国作为追赶者可以发挥在 engineer 的能力。中美在算力的差距会越拉越大。中国如何用较少的算力做出成果,从而有一定的抵御能力甚至做得更好,可能是未来中美 AI 格局的推演。

8. 模型的核心差别在于下一个愿景是什么,而不是技术。
  - 中国今天还是在复现技术方案。Reasoning 是 ol 提出的,差距在于谁能提出下一个 reasoning。无限长度的 reasoning 可能是一个愿景。
  - 如果不了解最大技术的痛点,而用蒸馏技术避免了解,在下一代技术提出时可能会掉进坑里。

III. SFT

1. DeepSeek 最大的震撼是不需要 SFT 了,但这只是推理层面,推理外可能还是需要的。

2. DeepSeek 证明了用 SFT 做蒸馏有很大好处。r1 的第三步骤只做了 SFT,最后一步 alignment 用了 LHF。r1 本质是 SFT 训练出来的,说明只要有足够好的方法,用 SFT 蒸馏即可。

3. r1-Zero 没有用 SFT 就出现了 CoT 的过程。SFT 更像是一个辅助手段,没有 SFT 也能产生,有了 SFT 能更快生成。

4. 很多小模型厂商可以用 SFT 去蒸馏大模型,效果很好,但在 RL 过程中没有完全被抛弃。

5. 模型不是真的和人一样在搜索,而是作为模型图灵机。中间会输出,DeepSeek 有做 Long-to-short CoT 的一些提升。CoT generation 的时候也会把超长的 CoT 去掉。猜测最后发布的版本可能用了更 clean 的 CoT。

6. SFT 的数据种类有几种:
  - 冷启动的数据:更像是给模型一个很好的策略或初始化,使其能做更好的探索。
  - RL 之后生成很多 data,再加上其他数据,回到 base model SFT。本质上每个 domain 有自己的 data processing pipeline。数据能力是从 base model 来的,蒸馏是无损的。

7. 不确定 r1 过程中的数据效率怎么样,猜测 OpenAI 针对数据效率也做了类似的事情,比如 fine-tuning。rl 的第三阶段没有直接用 RL 模型训练,而是生成了数据后再 SFT,包含 600K 的 reasoning data 和 200K non-reasoning data。

IV. 数据

1. Scale AI 不一定会失败。现阶段需要在各种 domain 上做 RL,math 和 coding 是比较常用的场景。数据标注可能更复杂,但市场需求仍然存在。

2. 在训练上,多模态数据几乎看不出效果,或者成本太高。今天没有任何证据表明它有用,但未来机会可能较大。

3. DeepSeek 在数据标注上非常重视。特斯拉的标注成本是中国自动驾驶的 20 倍,动作标注的丝滑程度是其核心优势。

V. 蒸馏

1. 大模型和小模型能力不匹配。从大模型往小模型进行蒸馏是真正的 teacher-to-student 模式。但即便如此,蒸馏小模型确实有很明显的性能提升。

2. 蒸馏的坏处是模型的 diversity 下降,影响模型上限,无法超越最强的模型。短期看,蒸馏是一条可行的路线。

3. 蒸馏过程中可能会有一些 hack。RL 蒸馏出来的模型在本质上会依赖于数据处理方式。过度依赖会影响模型真正的探索能力。

4. 长期来看,单纯依靠蒸馏技术可能会面临瓶颈。如果不通过愿景去推动技术方案,而是直接复现现有技术,中间可能会出现不可预见的问题。

5. 蒸馏的核心是明确目标。如果目的是超越 OpenAI,仅仅通过蒸馏是无法做到的。

6. 用蒸馏区分 teacher 和 student,也可能成为一种商业模式。

7. 一级市场上的创业公司对 DeepSeek 充满期待。如果未来能继续迭代,其小模型的移动端版本将会带来巨大的市场潜力。

8. 蒸馏非常重要的一点是明确 reward 和目标是什么。OpenAI 并没有采用纯粹的蒸馏方式,而是通过更复杂的技术解决标准答案和推理任务。

VI. Process Reward

1. Process Reward 不一定行不通,但容易被 reward hack。模型可能并没有真正学习到什么,却能制造出高 reward 的假象。

2. 过程分的本质在于过程监督的可靠性。是否能够提供有前景的解决方向,取决于问题的难度和 reward 的可靠性。

3. Process Reward 的上限是人,结果监督才是模型的上限。

4. AlphaZero 的有效性在于规则固定,而 LLM 在生成结果时存在较大的不确定性。

VII. 探索者 VS 追赶者

1. AI 类似于阶跃函数,追赶者的算力需求较少,而探索者需要大量资源投入。虽然追赶者的算力成本低,但探索者的试错成本更高。

2. 大公司更多考虑如何快速获得成果,而小公司更关注效率优化。

3. 国内追赶者需要在资源有限的情况下,找到更有效的方向,例如多模态探索。

VIII. 其他公司为什么没有用 DeepSeek 的方法?

1. OpenAI 和 Anthropic 的重点方向不同。DeepSeek 因为聚焦于语言模型,才能做出成果。

2. 大厂可能因为资源分散,无法像 DeepSeek 一样专注。

IX. 2025 年的预判

1. 模型将在 2025 年发生分化,可能会出现新的架构和突破路径。

2. RL 的全部潜力还未发挥。产品上,agent 的大规模应用尚未到来。

3. 2025 年可能出现能超越 ChatGPT 的多模态产品。

X. 模型路线

1. r1 和 V3 的低成本高效果证明了其方向的正确性,与硬件扩展方向不冲突。

2. DeepSeek 的路径遵循 Scaling Law,同时通过蒸馏降低成本。

3. 未来需要更多探索边界的尝试,同时考虑成本优化。

. 开发者 & 应用者

1. 开发者尚未大量迁移至 DeepSeek,主要因为领先模型的 coding 指令遵循能力较强。

2. DeepSeek 在工具使用上的支持暂时没有 Anthropic 成熟,但其潜力巨大。

3. 应用者对 DeepSeek V2 已感到满意,其推理速度提升,但没有带来显著额外价值。

4. 智能的需求被严重低估,未来对智能的增量需求将爆发。

I. 开源 VS 闭源

1. DeepSeek 的出现不仅是中美竞争,也代表了开源与闭源的博弈。

2. 开源模型对闭源模型形成竞争压力,但生态共存状态仍然存在。

3. 开源对市场 margin 的控制可能会进一步增强,成为闭源模型的挑战。

II. OpenAI Stargate 500B 的叙事与算力需求变化

1. DeepSeek 的出现让大家质疑 OpenAI 的 500B 叙事。训练资源的问题仍不清晰。

2. OpenAI 500B 的计划可能需要 4-5 年执行,面临资金和技术的挑战。

3. 国内的技术路径证明低算力也能取得成效,为算力定制化芯片提供了可能性。

V. 二级市场

1. 短期内 DeepSeek 对股价可能有压力,但长期看,AI 市场仍有巨大潜力。

2. DeepSeek 的出现让算力效率成为焦点,影响了英伟达等相关企业的市场预期。

3. 长期来看,算力优化和生态建设仍是市场发展的关键。全产业链研究

image.png