罗永浩数字人刷屏背后,文心大模型成为直播行业的“剧本总导演”

罗永浩数字人刷屏背后,文心大模型成为直播行业的“剧本总导演”

文章图片

罗永浩数字人刷屏背后,文心大模型成为直播行业的“剧本总导演”

文章图片

罗永浩数字人刷屏背后,文心大模型成为直播行业的“剧本总导演”

文章图片

罗永浩数字人刷屏背后,文心大模型成为直播行业的“剧本总导演”

文章图片

罗永浩数字人刷屏背后,文心大模型成为直播行业的“剧本总导演”

文章图片

罗永浩数字人刷屏背后,文心大模型成为直播行业的“剧本总导演”

文章图片

罗永浩数字人刷屏背后,文心大模型成为直播行业的“剧本总导演”

文章图片



《日常生活中的自我呈现》一书中 , 欧文?戈夫曼将戏剧表演引入社会学 。 他提出 , 人们在日常互动里 , 会依照预设的“剧本”(即社会规范) , 借助行为管理进行表演 , 在他人心中留下良好印象 。
按照这个理论 , 数字人直播总被吐槽 , 原因就是数字人的演技太差 , 无法呈现出真人主播一样的观感 , 表情僵硬、手势不自然 , 无法给大众留下好印象 。
就在最近 , 数字人主播界突然出现了一位演技实力派——罗永浩 。 罗永浩数字人在百度电商的首场直播 , 以长达连续近7小时的高强度直播 , 实时解答弹幕问题 , 动辄输出“罗式段子” , 还与助播朱萧木互相抛梗接梗 , 刷新了大众心中数字人的观感 。
甚至有人问老罗 , “是不是你在扮演数字人” , 简直倒反天罡 。

难辨真假、技惊四座的罗永浩数字人 , 到底是怎么实现的?6月17日的百度AI开放日慧播星专场现场 , 百度集团副总裁吴甜 , 揭秘了罗永浩数字人背后的技术秘密 。 最关键的就是 , 基于文心大模型4.5T的“剧本”生成与多模协同 。
618硝烟正燃 , 而一场以AI大模型为核心驱动的电商效率革命 , 正拉开序幕 。

大家有没有这样的经历:
评论区的弹幕太多 , 留言总是得不到主播的回复;
想看直播 , 但真人主播已经下班了 , 错过了专属红包和优惠;
自己直播带货 , 但一面对镜头就紧张 , 直播效果不尽如人意;
等头部主播来助农直播 , 还得看对方的差旅安排和时间调配……
数字人被视为解决人力局限、实现全天候直播的理想方案 。 然而 , 以往的数字人一直无法惟妙惟肖地饰演真人主播 , 槽点主要集中在几个方面:

演得不像 。 数字人的表情、手势与肢体细节与文案对不上 , 产生“恐怖谷”效应 , 让观众感到诡异 。
缺少互动 。 传统数字人面对超出预设范围的问题 , 无法像真人主播那样灵活应对 , 只能唱“独角戏” , 让观众丧失了参与直播的积极性与体验感 。
时长不够 。 很多数字人只能将短视频循环播放 , 难以支撑长时间且一致的内容生成与交互需求 , 低质量内容不仅影响用户体验 , 还可能被平台限流甚至处罚 。
行为不可控 。 数字人一旦出现失误 , 不仅会损害品牌形象 , 还可能引发舆论危机 , 这也是许多头部主播和品牌对数字人直播持谨慎态度的重要原因 。
数字人扮演真人主播 , 需要跨越重重技术挑战 。 那百度电商直播间的罗永浩 , 又凭啥成为直播“实力派”?

6月15日罗永浩数字人在百度电商 , 完成了数字人主播的极限挑战 , 做到了不少业内首个 。
业内首个超级头部主播数字人直播 。 罗永浩的粉丝特别多 , 对真人主播的风格十分熟悉 , 需要数字人有极高的还原度 。 数字人罗永浩在直播间妙语连珠 , 与观众高频互动 , 举手投足间散发着熟悉的罗氏魅力 。

业内首个超六小时超头部主播数字人直播 , 突破了AI视频生成极限时间 , 生成的产品讲解内容就多达9.7万字 。
业内首个多数字人直播 , 双人配合 , 告别了一个数字人尬聊的局面 。 罗永浩和朱萧木的搭档 , 高度还原了真实主播与助播的直播状态 。 两个数字人主播能做出喝奶茶、拎可乐等细节动作 , 还实现了与直播间用户弹幕的实时互动 。
这一系列操作下来 , 刷新了不少人对数字人的固有印象 。 而罗永浩数字人的诞生 , 只用了几个月的时间 , 究竟是如何习得媲美真人的“直播神技”?我们扒开了数字人背后的一整个大模型“导师团” 。

一场精彩的数字人直播 , 绝非单一技能的炫技 。 想象一下 , 如果数字人语言表达生动流畅 , 却搭配着僵硬机械的表情和动作 , 或是语音语调平淡乏味 , 如同 “读稿机器” 。 这正是传统数字人技术的痛点:语言依赖台词模型 , 语音靠TTS 合成 , 表情肢体等视觉表现由视频合成 , 各模态模型“各自为政” 。 数字人的台词、表情、动作完全不在一个节奏上 , 观众瞬间就会“出戏” 。
作为业内首个多模高度融合数字人 , 罗永浩数字人的出色表现 , 正是得益于百度多模协同的数字人技术 。

按照欧文?戈夫曼的理论 , “剧本”是戏剧表演的核心 , 演员需依剧本塑造符合期待的形象 。 数字人领域 , “剧本”同样是关键所在 。
拥有一个高质量的剧本 , 就如同数字人有了总指挥 , 让语言、语音、视觉等不同模态围绕剧本 , 彼此协同配合 , 才能让数字人在直播中展现出浑然天成的表现力 。
以数字人罗永浩为例 , 背后就有一个文心大模型的“导师团”进行助力:
首先 , 是基于大语言模型的剧本生成 。
生成剧本的文心大模型 , 相当于总导演兼总编剧 , 通过台词 , 为数字人赋予生动鲜活的“灵魂” 。 拿罗永浩数字人来说 , 文心大模型4.5T需要攻克以下关键难题 。 其一 , 风格定制 。 罗永浩犀利幽默、朱萧木风趣洒脱 , 每位主播都有独特的语言风格 , 文心大模型通过风格建模 , 深度学习主播们的语言习惯、表达方式 , 从遣词造句到语气节奏 , 全方位贴合主播个人风格进行定制 , 在模型生成的台词中精准复现 , 让数字人开口自带主播“味道” 。

除了语言风格 , 人设一致也是数字人获得观众认可的关键 。 特别是在多角色配合时 , 罗永浩作为主咖 , 朱萧木作为助播 , 文心大模型在生成剧本时 , 精准把握二人特点与分工 , 使台词在语言上自然附和、紧密配合 。 比如在产品推荐环节 , 主播重点介绍核心卖点 , 助播适时补充细节、引导互动 , 一问一答、一唱一和 , 展现出符合人设的行为与语言逻辑 。
在文心大模型 4.5T的精心雕琢下 , 生成了既有真人温度 , 高度还原主播个人特色 , 又有网感 , 能将商品卖点生动展现的直播剧本 。
接下来 , 就是“剧本围读” , 让多模态系统基于剧本 , 进行信息对齐 。
语音大模型作为口语导师 , 视觉大模型作为动作导师 , 先根据大语言模型生成的语音标签和视觉标签 , 然后生成协调一致的语音和表情动作 , 赋予数字人影帝、影后般的表现力 。
这个过程的难点 , 是多个模型的对齐 。 想象一下 , 如果语音模型理解的台词情感激昂 , 而视觉模型呈现的却是平淡表情 , 数字人就会“表里不一” , 让观众倍感违和 。 百度AI数字人 , 以大模型生成的剧本为统一标尺 , 确保从台词到语音、从表情到动作 , 各环节的理解与执行步调一致 。

比如罗永浩与助播数字人之间 , 会出现频繁的打断说、同时说 , 需要语音合成系统精准捕捉对话节奏 。 百度通过加入对话上下文解码器 , 整合历史对话与当前信息 , 让数字人在互动时的语音衔接自然流畅 , 重现真人搭档的默契感 。
同时还建立了反向对齐的反馈机制 , 也就是语音模型合成后 , 会基于自身对文本的细粒度判断进行优化 , 再将这些信息反馈给视觉模型 , 实现音画间的精准匹配 , 形成一个闭环的协同体系 。
通过多模系统的“剧本围读” , 可以在剧本指引下 , 完成声台行表的默契配合 , 让数字人在直播镜头前展现出媲美真人的表现力 , 为观众带来沉浸式的观看体验 。
六七个小时的直播 , 数字人只能对着剧本“照本宣科”吗?为什么数字人罗永浩还能在直播间跟用户实时互动呢?这就要提到第三个关键能力:临场发挥的灵活性与可控性 。
据吴甜介绍 , 数字人直播就像拍电影 , 演员的表演并不是照本宣科 , 要有对剧本的理解和临场发挥 。
其中 , 剧本作为核心 , 确保数字人行为逻辑的一致性 , 而文心大模型则赋予其应对复杂场景的“应变力”和长时间的可控性 。
在时长如马拉松式的直播中 , 现实场景的复杂性远超想象 。 用户突如其来的刁钻提问 , 直播间场景内人物、商品、环境的自由交互 , 都暗藏着不可控因素 。 让数字人在复杂交互场景中也能游刃有余 , 文心大模型是这场技术突围的“智慧中枢” 。

一方面 , 依托大模型的语言理解与生成能力 , 结合直播场景的高频需求进行针对性训练 , 赋予数字人实时理解用户意图的“洞察力” 。 在罗永浩数字人直播中 , AI知识库1.3万次的调用 , 9.7万字的内容生成 , 正是文心大模型强大创造能力的直观体现 。
另一方面 , 依托文心大模型4.5T的深度思考能力 , 在剧本生成时先进行规划和思考 , 搜索最优路径 , 再通过评价和评估 , 提升最终的可控性 。
当数字人在直播间自如切换讲解模式、巧妙化解突发提问 , 与用户深度互动 , 背后正是多文心大模型在持续稳定地发挥作用 , 为数字人直播行业开辟出长时、灵活、可控、优质的全新赛道 。
总结一下 , 罗永浩数字人直播的成功 , 离不开百度大模型技术体系的托举 , 也是百度大模型技术实力的具象化呈现 。

欧文?戈夫曼的“拟剧理论”成为社会学经典 , 在于其揭露了社会协作的基础——每个人依据剧本扮演良好形象 , 教师扮演好传道授业的角色 , 医生恪守救死扶伤的职责 , 整个社会才能有序运转 。
当直播行业走过野蛮生长的黄金期 , 流量红利消退 , 主播需要扮演什么样的角色呢?或许是专业导购 , 能够对产品细节和专业知识娓娓道来;是贴心客服 , 及时响应用户的每一个疑问;是知心朋友 , 在用户需要的时候提供全天候陪伴……这样才能与观众建立信任纽带 , 走向高质量发展 。
专业且敬业的真人主播 , 培养不易 , 开播成本也是中小商家所无力负担的 。 这时候 , AI数字人的技术革命 , 成为打破直播效率困局的关键 。
在大厂纷纷布局数字人 , 竞争白热化的背景下 , 百度依然凭借AI技术优势 , 构建起数字人的差异化能力:

一是先进 。 百度数字人直播的技术能力如剧本生成、多模驱动、一致性和高拟真性等 , 是业界天花板 。 对数字人技术要求苛刻的超级头部主播来说 , 选择百度数字人放大IP价值 , 用自身的专业能力24小时服务用户 。
二是专精 。 当部分企业投入海量资源研发通用型视频生成技术时 , 百度深耕数字人直播场景 , 推出的慧播星数字人系统已服务超10万商家 , 覆盖32个垂直行业 。 对中小商家来说 , 通过百度数字人可以轻松开播 , 品尝到AI技术带来的增长红利 。
三是性价比 。 借助百度AI技术 , 品牌商家可获得“人货场”的全面助力 , 除了数字人 , 还可以利用AI技术对商品进行深度分析和理解 , 实现商品的智能管理和精准营销 。 提升收益的同时 , 百度数字人的综合成本比真人主播要低 , 而且随着开播的场次越多 , 它的边际收益越高 , 未来数字人的生产制作成本还会进一步的下降 。
这场从流量争夺到技术深耕的变革 , 正在重新定义直播行业的未来 。 当数字人顶流登上直播舞台 , 百度AI驱动的直播下半场 , 也是智能电商的新篇章 。
【罗永浩数字人刷屏背后,文心大模型成为直播行业的“剧本总导演”】

    推荐阅读