豆包视频生成模型：ISP+光学为AI之眼，有望实现量价齐升

股海方舟 / 02月10日 21:35 发布

摆脱语言或标签数据依赖，仅靠视觉认知世界。

现有模型大多依赖语言或标签数据学习知识，很少涉及纯视觉信号的学习。然而，语言并不能捕捉真实世界中的所有知识。例如，折纸、打领结等复杂任务，难以通过语言清晰表达。
模型训练：让模型“观看”学习一个包含大量视频演示数据的离线数据集，以此得到一个可以根据过往观测，预测未来画面的【视频生成器】。
模型推理：Transformer生成下一帧（画面）的离散标记，这些标记随后由解码器转换回像素空间。通过任务相关的映射函数，模型可将生成画面转换为【任务】执行动作。
视频输入需求爆发→ISP+光学量增
训练端：训练效率提升，对应视频投喂量大幅提升，带动视频入口ISP+摄像头的硬件配置量提升。
推理侧：环境感知和预测能力跃迁，端侧场景爆发，加速AI终端ISP+摄像头需求量增。
现有的智能终端如AI眼镜主要通过摄像头理解环境，通过解释环境辅助用户生活。而视频生成模型不仅环境感知能力增强，还能够“预测”下一帧画面，并达成相应【任务】。该模型用之于端侧，有望转换过去的“被动理解”为“主动推送”服务，进而迸发更多【效率提升】场景，加速AI终端放量。
视频输入质量提升→ISP+光学价增
现阶段各类AI终端的视频输入质量尚有提升空间，如AI眼镜只配备12M摄像头。主要系视频输入质量需求不高。未来视频理解能力提升有望催生更多高清视频需求，进而带动相关配置ASP增长。

相关公司：
ISP星宸科技、富瀚微、国科微
算力芯片寒武纪、海光信息
CIS韦尔股份、思特威、格科微
摄像头舜宇光学科技、宇瞳光学、永新光学、蓝特光学、水晶光电

风险提示：技术发展不及预期，下游需求不及预期等

（来自【东吴电子】）

赞(12) | 评论 (13) 02月10日 21:35 来自网站举报

取消发布

推荐关注更多

豆包视频生成模型：ISP+光学为AI之眼，有望实现量价齐升