OpenAI2月16日凌晨发布了文生视频大模型Sora,它仅仅根据提示词,就能生成60秒的连贯视频。360集团创始人周鸿祎随后在微博表示,Sora的技术思路完全不一样。之前我们做视频做图用的都是Diffusion,是多个真实图片的组合,这次OpenAI利用它的大语言模型优势,把LLM和Diffusion结合起来训练,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。“这都是大模型的功劳。OpenAI训练这个模型应该会阅读大量视频。一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI(通用人工智能不远了,不是10年20年的问题,可能一两年很快就可以实现。”周鸿祎称。
周鸿祎表示,这也代表未来的方向。有强劲的大模型做底子,基于对人类语言的理解,对人类知识和世界模型的了解,再叠加很多其他的技术,就可以创造各个领域的超级工具,比如生物医学、蛋白质和基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。这次Sora对物理世界的模拟,至少将会对机器人具身智能和自动驾驶带来巨大的影响。