来源:石头学习笔记
编者按:
2024年末国内大模型公司的组团推新品,让人们看到了AI依旧火热。在硅谷,AI从业者们在热烈讨论后,总结出了2025年,AI行业的一些共识,以及不少“非共识”。例如,硅谷的投资人,认为AI公司是“新物种”,而AI应用,则是2025年的投资热点。
1.11-15日,锦秋基金在硅谷举办了“ScalewithAI”的活动,邀约了A16Z、PearVC、SomaCapital、LeonisCapital、OldFriendshipCapital、OpenAI、xAI、Anthropic、Google、Meta、Microsoft、Apple、Tesla、Nvidia、ScaleAI、Perplexity、Character.ai、Midjourney、Augment、Replit、Codiuem、Limitless、Luma、Runway这些公司的专家一起交流。
在交流后,我们也汇总了这些专家的观点,形成了这60个洞察。
01模型篇1、LLM的pre-training阶段已经接近瓶颈
但post-training还有很多机会
Pre-training阶段,Scaling是变慢的,离饱和还有一定时间。
放缓的原因:结构>算力>数据(Single-Model)。
但是在Multi-model上:数据=算力>结构。
对于MultiModel而言,需要在多个模态上选择组合,Pre-training在现有架构下可以认为已经结束了,但是可以改新的架构。
现在在Pre-training投入少的原因更多是在于资源度有限,做Post-training的边际效益会更高。
2、Pre-training和RL关系
Pre-training不太在乎数据质量。
Post-training对数据质量要求较高,但是由于算力限制,到最后几个部分给高质量的数据,
Pre-training是imitation,只能做到模仿的事情。
RL是创造,可以做到不同的事情
先有Pre-training,才有Post-training中的RL,模型得有基础能力,RL才能有的放矢。
RL不改变模型的智力,更多是思考的模式。比如,在C.AI用RL优化Engagement效果很好。
3、大模型优化会影响产品的能力
一般主要在posttraining部分,帮助做很多Safety,比如解决C.AI在儿童自杀的问题上,会根据不同人群不同岁数的情况下,用不同的模型来服务。
其次是Multiagent的framework。模型会思考为了解决这个问题要怎么做,然后分给不同agent去做,每个agent做完后,再服务task,最后结果优化。
4、一些非共识明年可能实现共识
有没有必要所有都要上大模型,之前有很多很好的小模型,可能没有必要再要做一个模型。
现在的大模型,1年后就变成小模型。
Model架构可能变化。Saclinglaw已经到了,未来要讨论的问题,知识模型解耦,可能速度会比较快。
5、LLM领域随着Scalinglaw到头,闭源和开源差距缩小。
6、视频生成还在GPT1和2的时间点
现在视频的水平接近SD1.4的版本,未来视频会有一个和商用性能差不多的开源版本。
当前的难点是数据集,图像是靠LIAON数据集,大家可以去清洗,视频上因为版权等问题没有那么大的公用数据集,每一家如何获取、处理、清洗数据会产生很多不同,导致模型能力不同,开源版本的难度也不同。
DiT方案下一个比较难的点在于如何提升物理规律的遵循,而不只是统计概率。
视频生成的效率是卡点。目前要在高端显卡上跑挺久,是商业化的障碍,也是学术界在探讨的方向。
类似LLM虽然模型迭代速度在放缓,但应用没有放缓。从产品角度,只做文生视频不是一个好的方向,相关的偏剪辑、创意的产品,会层出不穷,短期内不会有瓶颈。
7、面向不同场景选择不同的技术栈会是一个趋势
Sora刚出来大家都认为会收敛到DiT,但实际上还有很多技术路径在做,例如basedonGAN的路径,以及AutoRegressive的实时生成,比如最近很火项目Oasis,还有把CG和CV结合去实现更好的一致性和控制,每一家都有不同的选择,未来面向不同场景选择不同的技术栈会是一个趋势。
8、视频的ScalingLaw远达不到LLM的级别
视频的scalinglaw,在一定范围内有,但远达不到llm的级别。现在最大级别的模型参数也就是30b,30b以内蓓证明是有效的;但300b这个量级,就没有成功案例。
现在技术方案是收敛的,做法没有大不同。不同最主要是数据上、包括数据配比。
会有1-2年才能达到DiT技术路线的饱和。DiT路线很多可以优化的地方。更高效的模型架构,是非常重要的。以LLM为例,一开始大家都在往大了做,后面发现加MOE和优化数据分布后,可以不用那么大的模型去做。
需要投入更多研究,一味scaleupDiT非常不高效。视频数据如果把YouTube、TikTok都算上,数量非常大,不可能都用于模型训练。
现阶段开源方面的工作还比较少,尤其是数据准备方面的开源工作,各家的清洗方式都有很大的差异性,而数据准备过程对最终效果有很大的影响,所以其中可优化的点还很多。
9、提升视频生成的速度的方法
最简单的就是生成低分辨率、低帧率的画面。最常用的是步数蒸馏,diffusion推理的时候是有步数的,目前图像生成至少还需要2步,如果能蒸馏到1步推理,就会快很多。最近也有一个论文,做一步生成视频,虽然现在只是poc,但值得关注。
10、视频模型迭代的优先级
其实清晰度、一致性、可控性等都没有达到其他饱和,还没有到提高一部分牺牲另一部分。是目前在Pre-training阶段同步提高的阶段。
11、长视频生成提速的技术方案
能看到DiT能力极限在哪,模型越大、数据越好,生成的清晰度更高、时间更长、成功率更高。
DiT模型能scale到多大,是目前没有答案的。如果到一定尺寸出现瓶颈,可能会有新的模型架构出现。从算法角度,DiT做出一个新的推理算法,来支持快速。比较难得是怎么在训练的时候把这些加上。
现在模型对物理规律的理解是统计意义上的,数据集看到过的现象能够一定程度上模拟,不是真的懂物理。学术界有一些探讨,例如通过一些物理规则到视频生成里去。
12、视频模型和其他模态的融合
会有两个方面的统一:一是多模态的统一,二是生成和理解的统一。对于前者,表征要先统一。对于后者,文本和语音都是可以统一的,VLM和diffusion的统一目前认为效果是1+1