腾讯混元又又又开源了，这次想复刻一个文生视频领域的Flux？

菲龙网编辑部7 发表于 2024-12-7 12:23

腾讯混元又又又开源了，这次想复刻一个文生视频领域的Flux？

作者｜周一笑
邮箱｜ [email protected]
腾讯混元大模型又开源了，这次是文生视频模型。
自OpenAI发布Sora演示视频以来，要做中国版Sora的声音从未停止过。在国内，大厂和创业公司都纷纷推出了自己的视频生成模型：快手的可灵、MiniMax的海螺、生数的Vidu以及智谱的CogVideoX等，都获得了许多开发者和用户的关注和使用。在这个竞争激烈的赛道上，现在他们又多了一个选择：腾讯混元文生视频大模型（Hunyuan-Video），腾讯混元大模型在12月3日正式上线视频生成能力。
同样重要的是开源。Hunyuan-Video已在Hugging Face平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费使用和开发生态插件。此前，腾讯混元已开源了旗下文生文、文生图和3D生成大模型。据腾讯混元相关负责人介绍，后续还有图生视频模型、视频配音与配乐、驱动2D照片数字人技术的开源计划。
Hunyuan-video的参数量为130亿，官方放出的样片长这样：

1
HunYuan-Video的技术架构与创新特性
统一图像与视频生成架构
HunyuanVideo使用了基于Transformer的全注意力机制，用于视频生成。并能实现主体一致的多视角镜头切换。与“分离的时空注意力机制”分别关注视频中的空间特征和时间特征，相比之下，全注意力机制则更像一个纯视频模型。
它采用“双流到单流”的混合模型架构，能够在融合之前分别处理视频和文本的特征信息，从而实现更高效的多模态信息融合。
双流到单流模型是指机器学习中的一个框架，特别是在多模态数据处理的背景下，其中两股独立的数据流（如文本和图像）最初分别处理，然后合并成一股单一流进行进一步分析或生成。

MLLM Text Encoder MLLM
HunYuan-Video使用具有解码器结构的预训练多模态大型语言模型 (MLLM) 作为文本编码器。这一设计增强了图文对齐能力，并提升了模型处理复杂指令的能力。同时，它引入了一个双向特征优化器（bidirectional token refiner）来增强文本特征。
3D VAE压缩

HunYuan-Video引入了3D形状变分自编码器（VAE），将视频压缩到潜在空间，大幅减少后续处理所需的token数量。这使得模型能够在原始分辨率和帧率下进行训练，同时优化了性能和效率。使得视频生成模型在细节表现上，特别是小人脸、高速镜头等场景有明显提升。
提示重写模型
Hunyuan-Video还配备了一个提示优化模型（Prompt Rewrite Model），用于调整用户输入的提示词，使其更符合模型的偏好。该模型提供两种模式：普通模式侧重于理解用户意图，而大师模式则强化视觉质量，包括画面构图和光影效果等方面的表现。
指标与性能
在千题盲测的定量分析中，Hunyuan-Video与包括 Gne3 和 Luma 在内的前五名闭源模型进行了比较，在60多名专业评估人员评估后，HunyuanVideo 在综合指标上表现最好，特别是在运动质量方面表现较为突出。

运行Hunyuan-Video模型使用文本生成视频的推荐配置需要45GB的GPU内存。
1
要扛起开源文生视频的大旗？
腾讯混元多模态生成技术负责人凯撒在发布现场表示，文生视频领域目前存在“抽卡概率”的问题，普通用户大多处于尝鲜状态，且目前开源闭源“存在较大的GAP”，“这也是我们为什么开源”。
他多次提到Black Forest Labs旗下Flux的开源模式。Flux通过开源基础模型构建开发者生态，同时保留商业版本维持竞争力，已获得包括Andreessen Horowitz的知名投资机构的投资。
Flux通过开源策略与MidJourney竞争，依托其灵活的社区参与机制、强大的定制化能力以及对用户指令的高精度响应。相比MidJourney的闭源运营，Flux.1的开源特性吸引开发者共同优化模型。开源也让Flux.1更容易被个人和小型团队采用，从而扩大用户基数。这一模式结合强社区支持，为开源生态带来了长尾效应，挑战了MidJourney的市场主导地位。
“文生图的发展，社区给了很大的力量，很多优秀的底模出来之后学术界、很多人都可以玩起来，做插件、做优化，而不是几家闭门造车。”
例如，Hunyuan-video推荐配置至少需要45GB的GPU内存，这对于普通开发者而言门槛仍然偏高，但社区的力量不容小觑。另一个开源视频模型Mochi 1需要4个H100才能保证效率和输出效果，而发布之后，社区就开始尝试解决在显存更低的设备运行Mochi 1，并开发ComfyUI插件。大量开发者提供了经过优化的插件，如动漫风格视频转换工具和低显存支持模块，进一步降低了使用门槛。

Mochi已支持在ComfyUI中使用消费级GPU运行
当然，要让文生视频技术成熟，还需攻克一些客观难题。“高质量数据还是挺缺的。”
此外，训练视频生成模型绕不开的仍然是算力成本，例如，Meta的Movie Gen使用了多达6144个H100 GPU进行训练，成本高昂。
商业模式方面，Flux通过提供付费API和用于商业应用的闭源模型来构建的商业模式。参考Flux的做法，Hunyuan-Video未来也可以通过API等形式提供更高质量的服务。目前，Hunyuan-Video暂时没有商业化的动作，用户可以在腾讯元宝APP免费使用Hunyuan-Video的文生视频功能。

“我们先站出来，搞一个跟闭源水平差不多的模型，给大家用起来”，凯撒表示，“希望跟社区一起把我们的技术早日推向图像生成领域一样的状态”。
他同时表示从混元整体技术栈的逻辑出发，做视频模型是其必经之路，“最终就是只有一个Model”。
无论如何，在Meta发布Movie Gen后并未提及任何开源事宜的情况下，考虑到视频生成模型的训练成本和难度，Hunyuan-Video的出现无疑是开源社区希望看到的事情。
类比SD，文生视频现在处于类似SD1.5的状态，接下来就看Hunyuan-Video能否进化到下一个阶段了。

页: [1]

菲龙网's Archiver

腾讯混元又又又开源了，这次想复刻一个文生视频领域的Flux？