哲学家安迪·克拉克在《自然天生的赛博格》中提出,人类与技术的关系正从「使用工具」转变为「共生演化」。
数字人技术正在加速这个进程:在你不在场的情况下,由你的形象、声音创造的数字人,可以进行 24 小时不间断的交流和表达,这个时候,「人」的存在形式已被重新定义。
这些主播们的声音热情,讲起货品来流畅清晰。仔细琢磨这些完美的面孔,和多变的表情语调,很可能看完了一整个直播都很难意识到—— 这些并非真人,而是由 AI 驱动的数字人主播 。
数据显示,虚拟数字人已占据数字人应用市场 22.7%,在电商直播带货领域位居首位,其互动性和拟真度不断提升。
今天,百度在 Create2025 百度 AI 开发者大会上,也发布了新一代的慧播星数字人。百度创始人李彦宏也首次提出高说服力数字人的概念。
数字人主播,终于不再是曾经的「僵硬木偶」,而是开启了全新的版本,走向如李彦宏所说的「人人都是一支营销队伍。」
「媲美真人」听上去,不过是所有数字人都在做的事——但真正看过案例,才能感受到当中的「说服力」。
高拟真不令人惊讶,真正令人惊讶的是这么多动作、表情,以及随时需要对各种问题做出回复,数字人都能流畅无碍完成——护肤品说擦就擦,演示伸手就来。
这一系列的动作背后都有设计,这一次慧播星从脚本模式升级成为剧本模式,详细的剧本不仅能指导角色讲什么,还设计了场景、情感、语调、动作等等。以此来 驱动数字人的语气、表情、动作,高度的融合和统一 ,数字人因此可以顺畅流利的结合内容,配合做出动作。
实现剧本模式,是由数字人的「决策能力」在支撑。换句话说,现在的数字人不再只是复刻真人主播的形象和声音,还要具备一系列的能力。比如根据直播间的环境,感知到信号,从而做出思考和决策,以及下一步实施的能力。
这种能力是「高说服力」数字人的关键。直播中应用到数字人,本身并不稀奇,这也是 AI 实际落地里一个常见的应用方向,各大电商平台,早就已经有了数字主播的出现。只是那个时候,光是让数字人看上去「不塑料」「不出戏」,就已经竭尽全力了。
而如今,在应用越来越普遍的情况下,数字人也越来越「卷」。基于多模态技术为用户打造数字人, 通常需要融合文本、语气、视觉、动作甚至情绪感知等多种模态,技术链路复杂 。涉及跨模态融合与协同、自然语言理解和生成、动作捕捉与生成,以及实时交互与延迟优化。
基于文心 4.5 turbo ,慧播星数字人已经摆脱了过去那种「一眼假」的尴尬。拟真度的改变和提升只是一部分—— 真正有决定性的,是其自主思考决策能力,以及多智能体调度能力 。
这些能力真正决定了商户的使用体验,并且最检验背后的技术实力。
当你打开一个慧播星支持的直播间,你会看到主播自然地转头、拿起商品、360 度展示细节,甚至手势和表情都精准到位。这种超拟真效果足以让你怀疑:「这真的是 AI?」
这是百度对于「高说服力」的定义:在用户体验上和直播场景上, 数字人已经可以达到表现力媲美真人,甚至在一些场景下的转化率,能够超越真人 。
数字人主播的兴起,源自于电商直播行业对高效、低成本运营模式的需求。传统真人主播面临高昂的人力成本和有限的工作时间,而数字人主播则可以实现 24 小时不间断直播,极大地提高了运营效率,实现降本增效。
这里所说的「降本」,除了指可以省去主播、助播的人工成本,也包括搭建、测试等一系列学习成本。
换句话说,平台和科技公司在打磨多模态技术上出力,到了用户这头,也需要花力气学习、研究各种操作和使用。当流程过于繁琐的时候,就相当劝退。
这一次百度最新发布的手机端,搭载了可能会是直播行业最实用的创新之一:「一键开播」功能。
只需手机号注册,上传 2 分钟视频,任何人都能在手机上一键启动自己的数字人直播。
不过,这只是起点。有了主播形象的声音之后,还有直播间的环境搭建,尤其是要针对不同类型产品,配备不同的脚本、素材……这些都是「门槛」。
「一键开播」是真的一键 ,通过百度 app,找到慧播星之后,直接就能看到预设好的四种脚本类型。当然,也完全可以自己写,这些预设脚本就是最好的参考。
想象一下,一位珠宝带货主,同时在 10 个直播间用不同风格介绍同一款产品——用科学风格讲解宝石知识,用文学风格讲述珠宝品牌背后的故事,用带货风格直击用户痛点,直接上价格优惠。
依据主播人设定制脚本、强化主播风格,是慧播星的强项所在,囊括了文心 4.0、文心 4.5、DS-R1 多个模型在内。 通过深入浅出的讲解,提升内容的科普性,拉长用户停留时长及直播间转化 ,甚至能够做到实时追踪网络热点,将当下热梗融入商品讲解。
平心而论,主播虽然随处可见,可每一个主播的表现力是不一样的,这受限于他的知识水平、语言表达水平。而 数字人不再受到这些条件的约束,它的知识储备可以是无限的,表达能力也可以随具体情况灵活变化 。
一个「反常识」的情况是: 一些健康保健品的商家,更倾向于使用数字人 。百度副总裁、百度电商总经理平晓黎提到,因为真人主播可能出现口误,而出现违禁词。而数字人在做好优化的前提下,可以实现精准的控制。一些垂类内容,可以通过引入知识库来解决。
配置相应的环境,生成脚本,还能根据货品与场景灵活调整演播方式,这些都在真正有效降低直播的门槛。无论是知识科普、生活分享,还是情感咨询,都可以完美适配, 每一个用户,都能实现从 「视频」 到 「主播分身」的华丽转身 。这才是技术革新带来的最直接、明确的价值与意义。
IDC 最新报告显示,百度慧播星在电商直播数字人领域综合实力排名第一。这不是偶然——直播电商恰恰是多模态 AI 技术的理想落地场景。 在这里,视觉、听觉和交互体验完美融合,AI 技术的多重优势得以充分发挥 。
对竞争已经相当激烈的直播行业来说,数字人技术带来了三大改变:
1.规模化突破
过去一年,慧播星数字人主播已超过 10 万,助力商家平均转化率提升 31%,开播成本降低 80%。如果是在百度站内,平台给予的扶持,可以做到几乎没有什么成本就能开播。
2.人机协作的新模式。
数字人并非简单替代真人主播,却可以 拆解原有的主播工作,实现原有流程的整合 。传统直播里,运营跟主播需要配合,还需要搭配助播、场控等等,而数字人相当于把这些角色都拟合在了一起,对小微型商家,简直不能更友好。
3.走向素人
不是每一个人都擅长对着镜头,滔滔不绝讲上三四个小时。但是数字人的技术,帮助了更多的素人获得 AI 带去的普惠。甚至不再局限于「视频创作者」,而是拥有自己的「主播分身」,普通人也能实现自己的 24 小时不间断,从而经营起自己的直播。
在多模态 AI 技术的众多应用场景中,直播或许是最能体现技术商业价值的领域。毕竟,没有其他场景能同时对视觉拟真度、语音自然度、实时互动和内容创作提出如此高的要求。
这也反映了百度慧播星最大的亮点在于, 它不只解决了「看起来像人」的问题,更是让数字人拥有了「会思考」和「能协同」的能力 。这意味着 AI 不只是模仿人类,而是成为直播场景中能独立应对各种情况的智能主体。
接下来,直播的用户即将面对一场颠覆性的互动革命。具备高说服力的数字人,根据直播间氛围自动应答、调整视频素材,甚至模拟真人的暖场互动,这种智能化体验正在重塑消费者对直播的期待。
对于从业者而言, AI 辅助让专业人士得以专注于核心价值创造。而对于还在观望的素人,当技术不再局限于少数头部主播,而是成为每个人都能掌握的工具,百度正在推动的,是一场关于内容创作与商业表达的民主化革命。