菲龙网编辑部7 发表于 2024-9-12 09:32

Sora炸圈后哑火,国产视频大模型接棒降门槛

OpenAI旗下文生视频模型Sora推出时引发的行业爆炸仿佛还在昨日,但至今Sora也未对外正式开放使用。与之相对的是国内视频大模型在2024年密集发布,虽然技术更新不断,但成品多数仍需后期人工剪辑合成,影响技术在应用端的落地速度。
基于此,9月11日,生数科技披露功能更新,全球首发“主体参照”(Subject Consistency)功能,实现对任意主体的一致性生成,让视频生成更加稳定与可控。所谓“主体参照”,就是允许用户上传任意主体的一张图片,AI能够锁定该主体形象,通过描述词任意切换场景,输出主体一致的视频。
在生数科技CEO唐家渝看来,短视频、动画作品、广告片等影视作品,在叙事的艺术中均要求叙事体系“主体一致、场景一致、风格一致”,视频模型要达到叙事的完整性,就必须在这些核心元素上实现全面可控。


一键生成32秒视频
生数科技上一次对外发声是在今年4月,清华大学人工智能研究院副院长、生数科技联合创始人兼首席科学家朱军教授发布了长时长、高一致性、高动态性视频大模型Vidu,可以一键生成长达16秒的视频。此次技术更新,Vidu视频最长可以生成32秒。
2024年,整个大模型赛道经过前一年的疯狂,逐渐冷静,视频大模型被视为迈向多模态大模型或AGI的必经之路。以快手、字节旗下抖音为代表的短视频公司,以阿里、腾讯为代表的互联网大厂,以生数科技、智谱AI、爱诗科技等为代表的创业公司,均先后发布视频大模型产品。
据德邦证券统计,自Sora发布以来,国内外已有十多家公司发布或更新视频生成模型。客观来看,国内外之间的差距正在逐步缩小,视频时长、分辨率等基础功能具有复制性,未来竞争或向抢占用户、提升黏性等方向迁移。从主观角度对比,德邦证券认为大模型生成的视频质量提升显著,但离物理世界模拟器仍有距离。文生视频领域视频画面普遍清晰,但在动作幅度与物理还原度方面差异较大。这也是此次生数进行功能升级的考虑之一。
唐家渝表示,目前Vidu生成时长32秒是一键端到端生成,不是拼接插帧生成的。不同之处在于模型对更长时间信息的压缩,包括信息表现的能力更强,这实际上更本质地与物理世界的理解和语义输入的关系相关。所以提高时长需要提升模型对世界的抽象理解能力、压缩能力、理解能力,包括生成能力。
创作了动画短片《夏日的礼物》AIGC艺术家石宇翔认为,目前行业目前对AI视频的包容度比较高,细节上可提升的地方比如对复杂镜头的处理、对多人物镜头的处理,以及一些带有场面调度的处理等。与基础的图生视频功能相比,“主体参照”功能摆脱了静态图片的束缚,提升创作连贯性,节约了近七成的生图工作量。
光驰矩阵的发起人、青年导演李宁利用Vidu预创作了一段电影男主的视频片段,其中所有人物画面仅通过男主近景、中景、远景三张定妆照生成。李宁表示,之前的AI电影创作过程多采用传统的文生图、图生视频流程,在分镜的连贯上很难掌控,人物的整体造型很难保持一致,前期需要耗费大量的精力去调试图片,同时画面还容易产生镜头光影失控、图像模糊甚至变形等一系列问题,且随着视频篇幅的增加,这些问题被进一步放大。Vidu “主体参照”功能让人物的整体一致性显著提升,不再需要前期生成大量的图片,人物运动和画面过渡也更加自然,可助力长篇叙事创作。
本质上通过“主体参照”功能的升级是为了提高视频大模型生成质量、技术结合具体产业落地效率,加速AI在具体应用上的落地。目前生数科技推出合作伙伴计划,邀请广告、影视、动漫、游戏等行业机构加入。
目前生数科技视频模型的商业模式分为SaaS 订阅模式与API接口的方式,这也是目前大模型领域普遍采取的商业化试水方式。具体在B端与C端的分布占比情况,唐家渝称,从收入角度来看,B端市场的收入更大。C端产品上线一个月以来,增长曲线非常高。综合判断下来,B端比较明确、比较直接,包含了较为稳定的需求,所以B端会是公司长期重点的方向。而C端产品目前还处在不断探索过程中。
智谱CEO张鹏此前发布智谱清影(Ying)时谈及行业商业化探索,他称,从现在这个阶段来说,无论ToC还是ToB,纯粹走向大规模商业化还比较早期。所谓收费策略更多是一种早期尝试,也观察下市场和用户的反馈,进行及时调整。


视频大模型的下一步在哪里?
除了具体功能层面的升级更新,目前行业普遍共识于多模态是大势所趋,而视频大模型是阶段性状态。
对此,张鹏表示,视频生成并非孤立存在,而是放到整个技术和产品发展路线当中,智谱认为它是多模态或者AGI多模态路径当中的一环。从产品角度来讲,视频生成也会单独成为一个独立产品去实现商业化落地,进而产生价值。唐家渝也对记者表示,生数的底层是通用大模型,视频生成只是一个中间阶段。
迈向多模态的过程中,多款视频模型密集发布的状态会否造成同质化问题?对此,唐家渝对记者称,在技术路线上,生数现在处于收敛状态,但同质化并不代表所有进展与能力都相同。如现在的语言模型都会涉及Transformer架构,但现实来看,OpenAI还是明显领先的。因为在架构基础上,中间仍有非常多环节,如如何有效进行Scale up、视频如何有效压缩等,都存在非常多技巧与实践经验。算法技巧、算法难点,包括算法工程化难点等,都是导致目前视频大模型差异性的原因。
至于商业化方面,唐家渝认为行业在商业选择上比较类似,即便是像Sora、Runway等企业也都在积极拥抱好莱坞,或进行广告合作等,因为这些领域属于技术天然容易落地的领域。整个行业正在利用自身特点向前走,整体AI生成视频领域还在发展的前期,国际头部玩家在齐头并进,共同扩大市场。
对于视频模型领域的密集发布情况,张鹏认为可控性是行业需要花大力气去做的事情。一方面在技术层面,视频本身的可控是非常大的要求。其次从安全性角度来看,因为视频信号里包括的内容和细节更多,需要保证生成出来的东西符合要求;最后,生成的内容要做到商业化应用,可控也是必要的条件——既要精准表达创作者意图,且让大家买单。
在基础条件满足之后,目前行业自Sora面世后,对视频大模型的期待更多聚焦于AI取代长视频拍摄手段。张鹏认为从技术发展角度来看,这是一个重要方向,对影视行业的变化也有积极意义。但目前来讲,视频大模型还不足以直接用在面向观众的生产过程中,但可以用来做辅助工作,甚至是小规模创作,距离真正改变电影制作等高要求还有一段路要走。
至于出场即高潮、至今未对外开放的Sora,行业仍将其视为追赶标的,但由于技术细节上不透明,很多地方需要企业自己摸索。至于Sora的“销声匿迹”,唐家渝对记者分析称,原因可能在几方面:视频不是OpenAI目前的主线;部分数据版权问题未得到解决;生成过程中产生了其他问题,需要花费一定时间与成本解决,不符合公司的优先级。
张鹏与智谱一直客观正视与世界顶级水平之间的差距,同时他认为这条路还是得自己走,很多时候中国企业也是在用自己的方式向前追赶,比如如何将视频生成算力成本降下来,将响应速度提升上去,让所有人可以用等。“我们在追求技术高度的同时,也在同步追求技术的可普及性。”张鹏称。
页: [1]
查看完整版本: Sora炸圈后哑火,国产视频大模型接棒降门槛