-
豆包视频生成模型:ISP+光学为AI之眼,有望实现量价齐升
股海方舟 / 02月10日 21:35 发布
摆脱语言或标签数据依赖,仅靠视觉认知世界。
(来自【东吴电子】)现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言并不能捕捉真实世界中的所有知识。例如,折纸、打领结等复杂任务,难以通过语言清晰表达。
模型训练:让模型“观看”学习一个包含大量视频演示数据的离线数据集,以此得到一个可以根据过往观测,预测未来画面的【视频生成器】。
模型推理:Transformer生成下一帧(画面)的离散标记,这些标记随后由解码器转换回像素空间。通过任务相关的映射函数,模型可将生成画面转换为【任务】执行动作。
视频输入需求爆发→ISP+光学量增
训练端:训练效率提升,对应视频投喂量大幅提升,带动视频入口ISP+摄像头的硬件配置量提升。
推理侧:环境感知和预测能力跃迁,端侧场景爆发,加速AI终端ISP+摄像头需求量增。
现有的智能终端如AI眼镜主要通过摄像头理解环境,通过解释环境辅助用户生活。而视频生成模型不仅环境感知能力增强,还能够“预测”下一帧画面,并达成相应【任务】。该模型用之于端侧,有望转换过去的“被动理解”为“主动推送”服务,进而迸发更多【效率提升】场景,加速AI终端放量。
视频输入质量提升→ISP+光学价增
现阶段各类AI终端的视频输入质量尚有提升空间,如AI眼镜只配备12M摄像头。主要系视频输入质量需求不高。未来视频理解能力提升有望催生更多高清视频需求,进而带动相关配置ASP增长。
相关公司:
ISP星宸科技、富瀚微、国科微
算力芯片寒武纪、海光信息
CIS韦尔股份、思特威、格科微
摄像头舜宇光学科技、宇瞳光学、永新光学、蓝特光学、水晶光电
风险提示:技术发展不及预期,下游需求不及预期等