bob手机版网页登录

一场Open AI式的二次胜利背后有人膜拜有人紧张

  摩登女郎漫步东京街头、人潮涌动欢庆龙年春节、第四纪大冰期猛犸象踏过白雪皑皑的草地……

  甲辰龙年的第一个工作周,大家有没有被这几支由视频生成模型Sora产出的短视频给震惊住。

  输入关键词即可生成1分钟视频,且视频可实现多角度镜头切换——这是Sora的实力与魅力所在,也是Open AI再次掀起的震撼时刻。

  上一次,还是去年春节档。彼时Open AI 携Chat GPT概念横空出世,快速引爆资本、科技圈,至此拉开AI大航海序幕。不曾想,恰好时隔一年,相似的故事再次发生。Open AI在毫无任何预兆的情况下发布Sora,将生成式AI的“魔法”以惊人的速度从文本延伸到视频。

  一场Open AI式的二次胜利背后,是长期资金市场上AI应用方向再次全线大涨,社会化媒体上AIGC再次持续刷屏,“数百万××人或将被取代”的失业警报再次被拉响。

  去年,Pika联合发起人兼CTO Chenlin Meng在接受媒体采访时表示:“我觉得目前视频生成处于类似GPT-2的时刻。”

  她详细解释过:“视频的每一帧都是一张图片,但处理起来比图片困难很多。视频的每一帧的生成质量都要高,相邻帧之前还要有关联性。此外,控制视频生成更难,因为模型需要生成每一帧发生的事情,但用户则不会希望为每一帧都提供详细的描述。”为此,3-4秒的有限时长、掉帧明显得像PPT的画质、生成内容不合理,一直是掣肘文生视频模型发展的核心痛点。

  而现在, Sora所呈现的效果,对应行业痛点均有突破,以几乎碾压的优势成果甩开去年还处于大热的选手Runway、Pika等。

  究其原因,这再一次验证了Open AI技术路径的优越性。万兴科技AI创新中心总经理齐镗泉评价Sora “依然遵循Open AI的Scaling Law,靠大量数据,大模型和大量算力”。思谋科技创始人贾佳亚评价“Sora是大力出奇迹,在学术界连VIT的256*256的分辨率都没法改的情况下,Sora直接用上高清以及更大的分辨率。”

  据纽约大学数据科学中心的助理教授谢赛宁推算,Sora参数量约30亿。该数量级远超一众AI视频生成模型,可以称为降维打击。

  另一方面,为优化生成效果,解决掉帧问题,Sora首次使用混合模型架构,完成扩散模型与大模型能力的融合。

  Open AI在技术报告中提及用patch(视觉补丁)统一图像与视频的方法,通过将视频画面的每一帧都编码转化为一个视觉补丁,可方便将这些视频、图像的最小单位简单、灵活地打破、重组。作为统一数据的方式,该方法是打通扩散模型和大模型的桥梁。这样,在Sora文生视频的训练过程中,Open AI就能把之前沉淀的技术积累运用到视觉模型上,引入GPT的语言理解能力,让Sora按照用户简短提示,自己推演预测,进而填补每一帧画面的详细描述,生成流畅度高、质量上乘的长视频。

  16日,360创始人周鸿祎在微博上提到自己对Sora的看法。他表示,Sora的诞生意味着AGI(通用AI)实现可能从10年缩短至两三年。

  秉持大力出奇迹原则,以大模型技术作为基础,“一旦人工智能接上摄像头,把所有的电影都看一遍,它对世界的理解将远超于文字学习,一幅图胜过千言万语,这就离AGI线年的问题,可能一两年很快就能轻松实现。”周鸿祎感慨道。

  这里,周鸿祎提及“对世界的理解”,其实与Open AI自己在技术报告中阐述的“世界模拟器”概念不谋而合。

  用Open AI自己的话说,Sora不是单纯的视频生成模型,它能更深刻地理解运动中的物理世界,未来有可能模拟生成物理世界的一切视频。

  用电影《山海奇境》制作人、星贤文化陈坤的话说:“Open AI在向我们展示它在视频方面的能力,但真正的目的是获取人们的反馈数据,去探索、预测人们想要生成的视频是怎样的。”当Sora对真实的物理世界完成建模,当它像人类一样,对世界形成一个全面而准确的认知后,其视频生成会更流畅、更符合逻辑。同时,这也为生成式AI真正进入无人驾驶等更多行业打下坚实基础。

  怀抱“世界模拟器”梦想的Sora,从来都未曾想颠覆视频影视行业,也不应该成为影视从业者的“噩梦”。

  虽然Sora开始理解部分物理世界,但它生产的“翻车”视频也在这一周里被广泛讨论,小破站也有21万播放量的Sora翻车视频集锦,细数着它的常见错误,包括模拟人时会生成身体上难以置信的动作,比如:摩登女郎漫步东京街头的视频里,女郎走路时右腿连续两次先行迈向前方……模拟物体时会因不准确的物理建模导致非自然物体“变形”,比如投篮视频里,篮球穿过未能形成闭环的篮筐……总结起来,文生视频依旧存在着难以精准模拟复杂物理场景等各种各样的问题,一切都还任重道远。

  至于AI技术落到现实应用层,被卷入其中的电影圈人士也曾表达过忧虑。早在去年上海国际电影节,科幻大导、赛博妲己郭帆就曾感叹,自己和团队都有认真研究多种人工智能的应用,目前从前端的剧本创作到后期特效呈现,比如人物面部的增减龄,比如声音的处理,都能用人工智做到。可能过去做这些事情时,技术应用还没有非常便利,但新技术的快速更迭、突飞猛进,会让业内人士不断见证更理想的成果。

  忧虑之外,也有期许和谨慎。郭帆表示:“做《流浪地球》第三集之前,希望拿出更多的时间先去考察、认知人工智能技术,它是在什么样的层级上,是把它当工具看,还是把它当更深入的物种看。接下来是怎么应用。”

  所以,如何拥抱新生生产工具,远比焦虑是否会被技术革新替代要重要得多。因为历史上还没有某种生产工具的诞生,真正取代了人类。