文本和图片之后，AIGC的下个前沿将是视频生成

菲龙网编辑部7 发表于 2023-3-22 12:10

文本和图片之后，AIGC的下个前沿将是视频生成

3月21日消息，生成式人工智能（AIGC）在文本和图片生成方面已经取得了显著进展。几个月来，Dall-E、ChatGPT以及Stable Diffusion等服务创作了各种各样的文字和图片内容。现在，初创公司Runway AI正进入AIGC的下一个前沿领域——AI生成视频。
当地时间周一，总部位于纽约的Runway宣布推出名为Gen 2的系统，该系统可以根据少量用户提示生成简短视频。用户可以输入他们想要看到的视频描述，例如“一只猫行走在雨中”，Runway的系统将据此生成大约3秒钟的视频片段。此外，用户也可以上传图片作为系统参考或提示。
Runway是专注于制作AI电影和剪辑工具的公司，该公司宣布，现在并非所有人都能体验Gen 2，但用户可以提交申请。人们可以在Discord频道上注册并等待，该公司计划每周都增加更多测试用户。
不过，这次有限的发布代表了实验室外文本转视频生成的最成功案例。谷歌和Meta去年都展示了他们自己的文本转视频努力，利用AI生成了泰迪熊洗碗和在湖上泛舟等视频，但这两家公司都没有宣布将相关技术推进到研究阶段以外的计划。
自2018年以来，Runway始终致力于研发AI工具，并于去年年底筹集了5000万美元资金。这家初创公司帮助创建了原始版本的Stable Diffusion，这是一种文本转图像AI模型，自推出以后大受欢迎，并由Stability AI公司进一步开发。
Runway联合创始人兼首席执行官克里斯·瓦伦苏拉（Cris Valenzuela）上周对Gen 2进行了现场演示，比如生成“无人机拍摄的沙漠景观”。在几分钟内，Gen 2生成了只有几秒钟长的视频，尽管画面显得有点扭曲，但不可否认的是，视频非常像是无人机在沙漠上拍摄的片段。地平线上可以看到蓝天和白云，视频画面右下角的太阳刚刚升起（也可能是落下），其光线突出了下面的棕色沙丘。
Gen 2还根据提示生成了其他几个视频：一段眼球的特写视频看起来很清晰，非常像人类眼睛；但一段徒步旅行者穿过丛林的视频显示，它在生成逼真的腿部和行走动作方面可能仍然存在问题。瓦伦苏拉说，这个模型还没有完全“弄清楚”如何准确地描述物体的运动。
虽然更长的提示可能会帮助生成更详细的图像，比如Dall-E或Stable Diffusion，但瓦伦苏拉说，Gen 2越简单越好。他认为Gen 2为艺术家、设计师和电影制作人提供了新的工具，可以帮助他们完成创作过程，并让这些工具的价格比过去更实惠，也更容易获得。
Gen 2建立在Runway现有的、名为Gen 1的AI模型基础之上，Runway于2月份开始在Discord上测试该模型。瓦伦苏拉表示，Gen 1目前拥有数千名用户。这种AI模型要求用户上传一段视频作为输入源，然后利用这段视频（以及文本提示或图片）来生成新的、无声的3秒视频。例如，你可以上传一张猫追逐玩具的照片，并附上文字“可爱的钩编风格”，Gen 1就会生成一段钩编猫追逐玩具的视频。
用Gen 2 AI模型生成的视频也是无声的，但瓦伦苏拉称，该公司正在研究音频生成技术，希望最终能创造出一种既能产生图像又能产生声音的系统。
Gen 2的首次亮相表明，初创公司在AIGC领域取得的进展非常快。AIGC可以吸收用户输入并生成文本或图像等新内容，其中Stable Diffusion、Open的图像生成模型Dall-E和聊天机器人ChatGPT等系统，近几个月来已经公开发布并受到欢迎。
但与此同时，它们的扩散也引发了法律和伦理方面的担忧。数字取证专家、加州大学伯克利分校教授哈尼·法里德(Hany Farid)看了几段由Gen 2生成的视频，称它们看起来“非常酷”，但他补充说，用这种技术制作的视频迟早将被滥用。他断言：“有些人会试图用这种技术做坏事。”
Runway正在使用AI和人类控制相结合的方式来防止用户使用Gen 2生成包含色情、暴力内容或侵犯版权的视频，但这种方法并非总是有效。
与AI行业的其他领域一样，文本转视频技术正在快速发展。虽然Gen 2目前的图像质量看起来有点模糊、不太稳定，很容易让人发现破绽，但瓦伦苏拉预计它会很快改善。他说：“这套系统还处于早期阶段。随着时间的推移，它会变得越来越好。”（小小）

页: [1]

菲龙网's Archiver

文本和图片之后，AIGC的下个前沿将是视频生成