马斯克奥特曼中文对喷, AI 视频终于从「玩具」变成「工具」

马斯克奥特曼中文对喷, AI 视频终于从「玩具」变成「工具」

文章图片

马斯克奥特曼中文对喷, AI 视频终于从「玩具」变成「工具」

文章图片

马斯克奥特曼中文对喷, AI 视频终于从「玩具」变成「工具」

文章图片

马斯克奥特曼中文对喷, AI 视频终于从「玩具」变成「工具」

文章图片

马斯克奥特曼中文对喷, AI 视频终于从「玩具」变成「工具」

文章图片

马斯克奥特曼中文对喷, AI 视频终于从「玩具」变成「工具」

现在刷社交媒体 , 你会发现一些画面精良的爆款视频 , 其实已经是 AI 制作的 。 但作为一个创作者 , 除了要像「抽卡」 , 在画面之外 , 有一个问题一直没有得到很好的解决 。
这个问题就是对白 。
比如我让 AI 生成一段「唯美雨景」 , 这不难 。 但要让 AI 生成一段有情节、有对话的「雨中分手戏」 , 对白还得是地道的中文 , 这就很棘手了 。
AI 生成的要么是完全的「哑剧」 , 需要创作者后期对口型、配音;要么是能开口说话 , 但语音语调不自然 , 充满了「人机感」和「翻译腔」 , 让本该感伤的剧情瞬间出戏 。
这也是当下 AI 视频生成最大的挑战之一:如何处理包含对白 , 尤其是带有复杂情绪的中文对白 。
可以说 , 能否搞定自然流畅的中文对话 , 是 AI 视频能否从一个「看个乐子」的玩具 , 变成真正生产力工具的关键 。
百度今天发布的蒸汽机(MuseSteamer)视频模型2.0 , 似乎就是冲着这个核心痛点来的 。 它最让我关注的一个点 , 是全球首个中文音视频一体化生成技术 , 号称是吃「中文语料」长大的 , 能够一步到位地生成音画同步、口型精准、情感自然的中文对话视频 。
为了验证它到底是真正解决了创作者的难题 , 还是又一次停留在宣传片里的技术展示 , 我决定绕开那些官方的精选案例(Demo) , 设计几个更接近普通人日常创作需求的「刁钻」场景 , 亲自探探它的虚实 。
体验地址:https://huixiang.baidu.com/

从一张图 , 到一场有声的对手戏百度蒸汽机这次提供了 4 款生成模型 , 都是从一张图生成一个视频 , 分别是蒸汽机 2.0 turbo、pro、lite、以及有声版;不同的模型会消耗不同数量的积分 , 免费用户每月登录可以获得有限额度的想象力值(积分) 。
有声版可以生成 5s 或者 10s 的视频 , 而 Turbo 等三个版本是 5s , 像素方面除了 Pro 版本支持 1080p , 其他三个版本都是 720p 高清画质 。
我们直接给他一张图 , 然后按照视频生成页面的提示 , 输入想要生成的视频内容和主题台词;5s 的视频 , 将台词控制在 20 字以内 , 10s 的视频字数控制在 35 字以内 。
我们上传了一张马斯克和奥特曼的合照 , 配上提示词:两个人针锋相对 , 左边的人先说 , 「你做的AI毫无底线」;右边的人说 , 「你的营销才是没有底线」;由蒸汽机 2.0 有声版生成 。
首先 , 静态照片里的马斯克和奥特曼被自然地驱动了起来 , 面部表情和肢体动作都相当流畅 , 并且和上传的图片基本保持一致 , 图生视频的基础能力还是很扎实的 。
更关键的是对话部分 , 这个表现 , 必须承认 , 在中文口型同步上 , 百度蒸汽机确实做到了目前的第一梯队 。 嘴唇的开合 , 与「底线」、「营销」等一些词语的发音匹配度很高 , 没有明显的延迟或错位 。
一张浪浪山小妖怪的首帧图 , 配合提示词:画面中 , 手持干草叉的野猪小妖抬头 , 满怀期待地看向身边身材魁梧的熊教头 。台词: (第0-5秒)手持干草叉的野猪小妖说: 「教头 , 咱们把盔甲擦亮点 , 打起来更有气势!」 (第5-10秒)身材魁梧的熊教头向下瞥了他一眼 , 不耐烦地打断道: 「有那工夫?先给我削一千支箭出来!」
在发布会上 , 百度特别提到 , 这是来自「音视频一体化」的底层生成逻辑 , 声音和画面是同步构思的 , 而非后期匹配 , 他们在训练时就把画面和声音放在一个模型里同步学习 。
此外 , 还有一个「多模态潜在空间规划器」(Latent Multi Modal Planner)的首创技术;多模态很好理解 , 就是文本、画面、音频 , Latent 是深度学习里面术语 , 主要是学习潜在的特征 , 这个技术能够自主地规划潜在生成空间里的多个角色身份、台词、以及互动逻辑等 。
通俗来讲 , 我们可以把它想象成一个内置在 AI 里的导演 , 当给出「让两个人吵架」的指令时 , 它不会傻傻地让两人同时说话 , 而是会自主规划吵架剧本 。
我们还尝试了一些东北话这样的方言 , 想看看在多人对话里 , 是不是也完全没有问题 。
提示词:画面左边的蓝衣女子耳语急促而冰冷 , 用东北话说:「姐姐 , 真心是咱们的炭 , 也是烧死咱们的火」;画面右边的紫粉衣女子决绝地用东北话回应:「那不如 , 就烧得干净些」;由蒸汽机 2.0 有声版生成 。
让甄嬛和沈眉庄在音视频一体化生产的模型里 , 说东北话确实为难了点 , 但是人物表情 , 嘴唇的动作 , 耳环、头饰等运动都非常自然 。 中文语音的细节还原度也很高 , 我觉得是真正做到了中文语境的深度适配 。
还有这张经典的梗图 , 终于不是「快来品尝我新鲜的肉体」了 。
一张万万没想到短片截图 , 提示词:画面左边带着红色帽子的唐僧 , 用手指着牛角的人的鼻子 , 非常生气的说:「还想品尝我新鲜的肉体 , 没门!」
百度蒸汽机确实精准地击中了 , 让一张图开口说话演一出对手戏 , 这个创作痛点 。 它将过去繁琐的多工具流程 , 简化为「一张图+一句话」的一步操作 , 这对于 Meme 二创、虚拟人对话、知识讲解、短剧制作等场景来说 , 无疑是一次生产力的解放 。
如果说要真正做到前段时间流行的《甄嬛传》和《让子弹飞》的视频配音演示效果 , 还是有些差距 。 但看现在的 AI 视频生成技术发展 , AI 能表达更细腻、更矛盾的人类情感 , 我想也只是时间上的问题 , 毕竟蒸汽机 1.0 模型还是上个月初发布的 。
运镜和大场面 , 它能驾驭吗?
除了在中文场景下 , 双人有声的音视频一体化生成首创 , 百度蒸汽机 2.0 的另一项升级是电影级的画质和大师级的复杂运镜 。
之前的对话视频里 , 情绪、表情以及 3D 面部生成 , 都算得上展示了真实细腻的人物表现力 。 我们继续测试了广告和短剧中常见的转场、空镜 , 这些可以说是 AI 视频 , 除了对话的另一个刚需 。
提供首帧图 , 并附上提示词:一个镜头 , 从书桌上的翻开的书本特写开始 , 慢慢向上拉起 , 最终定格在窗外下着雨的街景上;由蒸汽机 2.0 Pro 生成 。
从生成的视频效果来看 , 蒸汽机把指令的遵循做得非常好 。 整个运镜过程 , 特写、向上拉、定格 , 执行得相当流畅 , 没有出现镜头乱晃或指令理解错误的问题 。 这也说明它对摄影术语的理解是到位的 。

当 AI 学会地道中文 , 视频创作新的转折点来了经过这番测试 , 我认为百度蒸汽机 2.0 的定位非常清晰:它并非要成为一个无所不包的 Sora 式模型 , 而是选择了一条更务实的路径:以「中文对话」为核心突破口 , 将 AI 视频从一个有趣的「玩具」 , 推进到了一个可以交付成片的「工具」 。
它绕开了单纯比拼画质和时长的内卷 , 把更多力气都花在了解决一个最要命、也最本土化的问题上——让 AI 视频真正「开口说中国话」 , 而且说得比真人还溜 。
这种从「玩具」到「工具」的转变 , 已经在真实的创作和商业领域得到了验证 。
好莱坞级视效指导姚骐 , 曾参与《2012》、《黑客帝国3》、《变形金刚3》等影视作品的视效工作 , 在国产科幻剧《三体》中打造了经典的古筝行动画面特效 。 这次 , 他就用百度蒸汽机创作了一支高品质科幻短片 , 其中包含 40 多个宏大复杂的特效镜头 , 每个镜头生成 3 次 , 总计生成了 120 多个片段素材 , 累计仅花费了 330.6 元 。
发布会视频《归途》
当一个过去需要百万元级别预算的短片 , 其视觉生成成本被压缩到难以想象的低位时 , 被颠覆的不仅仅是预算 , 更是创作的门槛和权利 。
这背后 , 解决的不仅是成本的问题 , 更是从生成一个酷炫片段到讲述一个完整故事的转变 。 当宏大视效可以与叙事和对白无缝结合时 , AI 才真正从一个特效插件 , 升级为创作者手里的高效率工具 。
在品牌营销场景 , 这种模式也打破了常规的视频制作流程 。 比如伊利倍畅需要为一款羊奶粉制作宣传片《漂「羊」过海来看你》 , 传统方式不仅周期一般需要 4-6 周 , 而且要用实拍呈现「小羊莎莎」坐热气球环游荷兰草原和高科技工厂的奇幻之旅 , 成本和难度都极高 。
但这次制作团队利用蒸汽机 , 将这些实拍难以完成的奇幻场景 , 通过风格化的 AI 渲染来实现 。 更重要的是 , AI 将荷兰奶源、益生菌配方等硬核卖点 , 流畅融入了叙事中 , 制作周期缩短到了几天之内 , 画面不违和 , 同时表达了品牌的理念 。
无论是专业大神 , 还是无数中小创作者与品牌方 , 相当于都获得了「赛博神笔」 。 你只需要「一张图+一句话」 , 就能让静态的兵马俑活过来打电话 , 或者让张飞一边绣花一边跟你唠嗑 。 这种创作门槛的消失 , 正在重塑内容行业的成本公式和竞争规则 。
当然 , 它也不是完美的瑞士军刀 。 目前它在非对话的纯视觉特效上 , 生成视频的时长也还有限制 , 音色风格的选择也可以更丰富 。
但在快速迭代 AI 产品浪潮中 , 也没有真正完美的产品 , 反而能更快落地解决用户的实际需求 , 才更有意义 。百度蒸汽机没有陷入技术军备竞赛的虚荣 , 而是选择了一条更务实、更贴近市场的路 。 它就像一个专注于把钉子敲好的锤子 , 虽然不能刨木头 , 但在「敲钉子」这件事上 , 它做到了极致 。
看着 AI 生成的角色在我面前侃侃而谈 , 却没什么「人机感」 , 那种奇妙还是会忍不住涌上来 。 工具终将隐形 , 而创意永远闪耀 。 蒸汽机所做的 , 就是把那个曾经无比昂贵、属于少数人的导演梦 , 还给了每一个有话想说的人 。
现在 , 我们已经不缺好的工具 , 只是缺少新鲜的创意;而与众不同的创意 , 来自一次次的尝试 。
文|李超凡、张子豪
文章内视频浏览点击此链接访问:https://mp.weixin.qq.com/s/cy7m7e97AVVo5VqUcnS0_w
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr) , 更多精彩内容第一时间为您奉上 。
【马斯克奥特曼中文对喷, AI 视频终于从「玩具」变成「工具」】爱范儿|原文链接· ·新浪微博

    推荐阅读