马斯克奥特曼中文对喷， AI 视频终于从「玩具」变成「工具」

2025-08-21 20:48:14

现在刷社交媒体，你会发现一些画面精良的爆款视频，其实已经是 AI 制作的。但作为一个创作者，除了要像「抽卡」，在画面之外，有一个问题一直没有得到很好的解决。

这个问题就是对白。

比如我让 AI 生成一段「唯美雨景」，这不难。但要让 AI 生成一段有情节、有对话的「雨中分手戏」，对白还得是地道的中文，这就很棘手了。

AI 生成的要么是完全的「哑剧」，需要创作者后期对口型、配音；要么是能开口说话，但语音语调不自然，充满了「人机感」和「翻译腔」，让本该感伤的剧情瞬间出戏。

这也是当下 AI 视频生成最大的挑战之一：如何处理包含对白，尤其是带有复杂情绪的中文对白。

可以说，能否搞定自然流畅的中文对话，是 AI 视频能否从一个「看个乐子」的玩具，变成真正生产力工具的关键。

百度今天发布的蒸汽机（MuseSteamer）视频模型2.0，似乎就是冲着这个核心痛点来的。它最让我关注的一个点，是全球首个中文音视频一体化生成技术，号称是吃「中文语料」长大的，能够一步到位地生成音画同步、口型精准、情感自然的中文对话视频。

PixPin 2025 08 21 15 05 13

为了验证它到底是真正解决了创作者的难题，还是又一次停留在宣传片里的技术展示，我决定绕开那些官方的精选案例（Demo），设计几个更接近普通人日常创作需求的「刁钻」场景，亲自探探它的虚实。

体验地址：https://huixiang.baidu.com/

从一张图，到一场有声的对手戏

百度蒸汽机这次提供了 4 款生成模型，都是从一张图生成一个视频，分别是蒸汽机 2.0 turbo、pro、lite、以及有声版；不同的模型会消耗不同数量的积分，免费用户每月登录可以获得有限额度的想象力值（积分）。

PixPin 2025 08 21 09 33 45

有声版可以生成 5s 或者 10s 的视频，而 Turbo 等三个版本是 5s，像素方面除了 Pro 版本支持 1080p，其他三个版本都是 720p 高清画质。

我们直接给他一张图，然后按照视频生成页面的提示，输入想要生成的视频内容和主题台词；5s 的视频，将台词控制在 20 字以内，10s 的视频字数控制在 35 字以内。

PixPin 2025 08 21 18 36 51

▲ 我们上传了一张马斯克和奥特曼的合照，配上提示词：两个人针锋相对，左边的人先说，「你做的AI毫无底线」；右边的人说，「你的营销才是没有底线」；由蒸汽机 2.0 有声版生成。

首先，静态照片里的马斯克和奥特曼被自然地驱动了起来，面部表情和肢体动作都相当流畅，并且和上传的图片基本保持一致，图生视频的基础能力还是很扎实的。

更关键的是对话部分，这个表现，必须承认，在中文口型同步上，百度蒸汽机确实做到了目前的第一梯队。嘴唇的开合，与「底线」、「营销」等一些词语的发音匹配度很高，没有明显的延迟或错位。

PixPin 2025 08 21 18 36 09

▲ 一张浪浪山小妖怪的首帧图，配合提示词：画面中，手持干草叉的野猪小妖抬头，满怀期待地看向身边身材魁梧的熊教头。台词：（第0-5秒）手持干草叉的野猪小妖说：「教头，咱们把盔甲擦亮点，打起来更有气势！」（第5-10秒）身材魁梧的熊教头向下瞥了他一眼，不耐烦地打断道：「有那工夫？先给我削一千支箭出来！」

在发布会上，百度特别提到，这是来自「音视频一体化」的底层生成逻辑，声音和画面是同步构思的，而非后期匹配，他们在训练时就把画面和声音放在一个模型里同步学习。

此外，还有一个「多模态潜在空间规划器」（Latent Multi Modal Planner）的首创技术；多模态很好理解，就是文本、画面、音频，Latent 是深度学习里面术语，主要是学习潜在的特征，这个技术能够自主地规划潜在生成空间里的多个角色身份、台词、以及互动逻辑等。

通俗来讲，我们可以把它想象成一个内置在 AI 里的导演，当给出「让两个人吵架」的指令时，它不会傻傻地让两人同时说话，而是会自主规划吵架剧本。

我们还尝试了一些东北话这样的方言，想看看在多人对话里，是不是也完全没有问题。

PixPin 2025 08 21 18 37 07

▲ 提示词：画面左边的蓝衣女子耳语急促而冰冷，用东北话说：「姐姐，真心是咱们的炭，也是烧死咱们的火」；画面右边的紫粉衣女子决绝地用东北话回应：「那不如，就烧得干净些」；由蒸汽机 2.0 有声版生成。

让甄嬛和沈眉庄在音视频一体化生产的模型里，说东北话确实为难了点，但是人物表情，嘴唇的动作，耳环、头饰等运动都非常自然。中文语音的细节还原度也很高，我觉得是真正做到了中文语境的深度适配。

还有这张经典的梗图，终于不是「快来品尝我新鲜的肉体」了。

PixPin 2025 08 21 20 18 30

▲ 一张万万没想到短片截图，提示词：画面左边带着红色帽子的唐僧，用手指着牛角的人的鼻子，非常生气的说:「还想品尝我新鲜的肉体，没门！」

百度蒸汽机确实精准地击中了，让一张图开口说话演一出对手戏，这个创作痛点。它将过去繁琐的多工具流程，简化为「一张图+一句话」的一步操作，这对于 Meme 二创、虚拟人对话、知识讲解、短剧制作等场景来说，无疑是一次生产力的解放。

如果说要真正做到前段时间流行的《甄嬛传》和《让子弹飞》的视频配音演示效果，还是有些差距。但看现在的 AI 视频生成技术发展，AI 能表达更细腻、更矛盾的人类情感，我想也只是时间上的问题，毕竟蒸汽机 1.0 模型还是上个月初发布的。

运镜和大场面，它能驾驭吗？

除了在中文场景下，双人有声的音视频一体化生成首创，百度蒸汽机 2.0 的另一项升级是电影级的画质和大师级的复杂运镜。

之前的对话视频里，情绪、表情以及 3D 面部生成，都算得上展示了真实细腻的人物表现力。我们继续测试了广告和短剧中常见的转场、空镜，这些可以说是 AI 视频，除了对话的另一个刚需。

PixPin 2025 08 21 18 35 49

▲ 提供首帧图，并附上提示词：一个镜头，从书桌上的翻开的书本特写开始，慢慢向上拉起，最终定格在窗外下着雨的街景上；由蒸汽机 2.0 Pro 生成。

从生成的视频效果来看，蒸汽机把指令的遵循做得非常好。整个运镜过程，特写、向上拉、定格，执行得相当流畅，没有出现镜头乱晃或指令理解错误的问题。这也说明它对摄影术语的理解是到位的。

当 AI 学会地道中文，视频创作新的转折点来了

经过这番测试，我认为百度蒸汽机 2.0 的定位非常清晰：它并非要成为一个无所不包的 Sora 式模型，而是选择了一条更务实的路径：以「中文对话」为核心突破口，将 AI 视频从一个有趣的「玩具」，推进到了一个可以交付成片的「工具」。

它绕开了单纯比拼画质和时长的内卷，把更多力气都花在了解决一个最要命、也最本土化的问题上——让 AI 视频真正「开口说中国话」，而且说得比真人还溜。

这种从「玩具」到「工具」的转变，已经在真实的创作和商业领域得到了验证。

好莱坞级视效指导姚骐，曾参与《2012》、《黑客帝国3》、《变形金刚3》等影视作品的视效工作，在国产科幻剧《三体》中打造了经典的古筝行动画面特效。这次，他就用百度蒸汽机创作了一支高品质科幻短片，其中包含 40 多个宏大复杂的特效镜头，每个镜头生成 3 次，总计生成了 120 多个片段素材，累计仅花费了 330.6 元。

PixPin 2025 08 21 18 34 28