Sora炸圈后哑火，国产视频大模型接棒降门槛

菲龙网编辑部7 发表于 2024-9-12 09:32

Sora炸圈后哑火，国产视频大模型接棒降门槛

OpenAI旗下文生视频模型Sora推出时引发的行业爆炸仿佛还在昨日，但至今Sora也未对外正式开放使用。与之相对的是国内视频大模型在2024年密集发布，虽然技术更新不断，但成品多数仍需后期人工剪辑合成，影响技术在应用端的落地速度。
基于此，9月11日，生数科技披露功能更新，全球首发“主体参照”（Subject Consistency）功能，实现对任意主体的一致性生成，让视频生成更加稳定与可控。所谓“主体参照”，就是允许用户上传任意主体的一张图片，AI能够锁定该主体形象，通过描述词任意切换场景，输出主体一致的视频。
在生数科技CEO唐家渝看来，短视频、动画作品、广告片等影视作品，在叙事的艺术中均要求叙事体系“主体一致、场景一致、风格一致”，视频模型要达到叙事的完整性，就必须在这些核心元素上实现全面可控。

一键生成32秒视频
生数科技上一次对外发声是在今年4月，清华大学人工智能研究院副院长、生数科技联合创始人兼首席科学家朱军教授发布了长时长、高一致性、高动态性视频大模型Vidu，可以一键生成长达16秒的视频。此次技术更新，Vidu视频最长可以生成32秒。
2024年，整个大模型赛道经过前一年的疯狂，逐渐冷静，视频大模型被视为迈向多模态大模型或AGI的必经之路。以快手、字节旗下抖音为代表的短视频公司，以阿里、腾讯为代表的互联网大厂，以生数科技、智谱AI、爱诗科技等为代表的创业公司，均先后发布视频大模型产品。
据德邦证券统计，自Sora发布以来，国内外已有十多家公司发布或更新视频生成模型。客观来看，国内外之间的差距正在逐步缩小，视频时长、分辨率等基础功能具有复制性，未来竞争或向抢占用户、提升黏性等方向迁移。从主观角度对比，德邦证券认为大模型生成的视频质量提升显著，但离物理世界模拟器仍有距离。文生视频领域视频画面普遍清晰，但在动作幅度与物理还原度方面差异较大。这也是此次生数进行功能升级的考虑之一。
唐家渝表示，目前Vidu生成时长32秒是一键端到端生成，不是拼接插帧生成的。不同之处在于模型对更长时间信息的压缩，包括信息表现的能力更强，这实际上更本质地与物理世界的理解和语义输入的关系相关。所以提高时长需要提升模型对世界的抽象理解能力、压缩能力、理解能力，包括生成能力。
创作了动画短片《夏日的礼物》AIGC艺术家石宇翔认为，目前行业目前对AI视频的包容度比较高，细节上可提升的地方比如对复杂镜头的处理、对多人物镜头的处理，以及一些带有场面调度的处理等。与基础的图生视频功能相比，“主体参照”功能摆脱了静态图片的束缚，提升创作连贯性，节约了近七成的生图工作量。
光驰矩阵的发起人、青年导演李宁利用Vidu预创作了一段电影男主的视频片段，其中所有人物画面仅通过男主近景、中景、远景三张定妆照生成。李宁表示，之前的AI电影创作过程多采用传统的文生图、图生视频流程，在分镜的连贯上很难掌控，人物的整体造型很难保持一致，前期需要耗费大量的精力去调试图片，同时画面还容易产生镜头光影失控、图像模糊甚至变形等一系列问题，且随着视频篇幅的增加，这些问题被进一步放大。Vidu “主体参照”功能让人物的整体一致性显著提升，不再需要前期生成大量的图片，人物运动和画面过渡也更加自然，可助力长篇叙事创作。
本质上通过“主体参照”功能的升级是为了提高视频大模型生成质量、技术结合具体产业落地效率，加速AI在具体应用上的落地。目前生数科技推出合作伙伴计划，邀请广告、影视、动漫、游戏等行业机构加入。
目前生数科技视频模型的商业模式分为SaaS 订阅模式与API接口的方式，这也是目前大模型领域普遍采取的商业化试水方式。具体在B端与C端的分布占比情况，唐家渝称，从收入角度来看，B端市场的收入更大。C端产品上线一个月以来，增长曲线非常高。综合判断下来，B端比较明确、比较直接，包含了较为稳定的需求，所以B端会是公司长期重点的方向。而C端产品目前还处在不断探索过程中。
智谱CEO张鹏此前发布智谱清影（Ying）时谈及行业商业化探索，他称，从现在这个阶段来说，无论ToC还是ToB，纯粹走向大规模商业化还比较早期。所谓收费策略更多是一种早期尝试，也观察下市场和用户的反馈，进行及时调整。

视频大模型的下一步在哪里？
除了具体功能层面的升级更新，目前行业普遍共识于多模态是大势所趋，而视频大模型是阶段性状态。
对此，张鹏表示，视频生成并非孤立存在，而是放到整个技术和产品发展路线当中，智谱认为它是多模态或者AGI多模态路径当中的一环。从产品角度来讲，视频生成也会单独成为一个独立产品去实现商业化落地，进而产生价值。唐家渝也对记者表示，生数的底层是通用大模型，视频生成只是一个中间阶段。
迈向多模态的过程中，多款视频模型密集发布的状态会否造成同质化问题？对此，唐家渝对记者称，在技术路线上，生数现在处于收敛状态，但同质化并不代表所有进展与能力都相同。如现在的语言模型都会涉及Transformer架构，但现实来看，OpenAI还是明显领先的。因为在架构基础上，中间仍有非常多环节，如如何有效进行Scale up、视频如何有效压缩等，都存在非常多技巧与实践经验。算法技巧、算法难点，包括算法工程化难点等，都是导致目前视频大模型差异性的原因。
至于商业化方面，唐家渝认为行业在商业选择上比较类似，即便是像Sora、Runway等企业也都在积极拥抱好莱坞，或进行广告合作等，因为这些领域属于技术天然容易落地的领域。整个行业正在利用自身特点向前走，整体AI生成视频领域还在发展的前期，国际头部玩家在齐头并进，共同扩大市场。
对于视频模型领域的密集发布情况，张鹏认为可控性是行业需要花大力气去做的事情。一方面在技术层面，视频本身的可控是非常大的要求。其次从安全性角度来看，因为视频信号里包括的内容和细节更多，需要保证生成出来的东西符合要求；最后，生成的内容要做到商业化应用，可控也是必要的条件——既要精准表达创作者意图，且让大家买单。
在基础条件满足之后，目前行业自Sora面世后，对视频大模型的期待更多聚焦于AI取代长视频拍摄手段。张鹏认为从技术发展角度来看，这是一个重要方向，对影视行业的变化也有积极意义。但目前来讲，视频大模型还不足以直接用在面向观众的生产过程中，但可以用来做辅助工作，甚至是小规模创作，距离真正改变电影制作等高要求还有一段路要走。
至于出场即高潮、至今未对外开放的Sora，行业仍将其视为追赶标的，但由于技术细节上不透明，很多地方需要企业自己摸索。至于Sora的“销声匿迹”，唐家渝对记者分析称，原因可能在几方面：视频不是OpenAI目前的主线；部分数据版权问题未得到解决；生成过程中产生了其他问题，需要花费一定时间与成本解决，不符合公司的优先级。
张鹏与智谱一直客观正视与世界顶级水平之间的差距，同时他认为这条路还是得自己走，很多时候中国企业也是在用自己的方式向前追赶，比如如何将视频生成算力成本降下来，将响应速度提升上去，让所有人可以用等。“我们在追求技术高度的同时，也在同步追求技术的可普及性。”张鹏称。

页: [1]

菲龙网's Archiver

Sora炸圈后哑火，国产视频大模型接棒降门槛