谷歌搜索集成音频概览,40秒生成播客总结内容

谷歌搜索集成音频概览,40秒生成播客总结内容

文章图片


智东西
编译 | 金碧辉
编辑 | 程茜
智东西6月17日消息 , 据谷歌官方博客消息 , 谷歌实验室6月13日推出音频概览(Audio Overviews)这一全新功能 。 这是谷歌首次在搜索结果中引入由AI生成的播客式音频摘要 。 此次更新后 , 该功能首次在谷歌搜索结果中面向用户开放(此前仅存在于NotebookLM) 。
新升级的谷歌搜索版音频概览并非NotebookLM的直接移植 , 而是基于相同技术框架的独立功能扩展 。
当用户在Chrome浏览器搜索“神经网路工作原理”等复杂议题时 , 或者如“氩元素有什么用途”时 , 音频概览便会激活 。 用户点击“生成音频概览”按钮 , 等待约40秒后 , 就能获得由两个AI“主持人”对话形式的语音总结 。
该功能需满足三项条件:订阅Google AI Pro/AI Ultra套餐、加入实验室项目且用户要使用美国IP 。
用户点击结果页的生成按钮后 , 双AI主播的对话式解读将在约40秒后播出 , 播放器提供暂停、倍速调节及原文跳转功能 , 适配驾驶、烹饪等无屏场景操作需求 。

一、利用Gemin模型实时抓取网页内容 , 音频生成全程仅需40秒该系统内容由Gemini模型驱动 , 系统首先会在前10秒迅速完成网页抓取操作 , 并对抓取到的内容进行精准的语义分析;在随后的25秒内 , Gemini模型基于分析结果构建出问答脚本 , 模拟出贴合问题逻辑的对话框架;Gemini模型5秒完成语音合成并输出 。
不过 , 由于将响应速度设定为优先级 , 音频概览功能的交互能力有所降低 , 与NotebookLM能实时追问的功能相比 , 此版本仅能维持单向输出 , 用户无法在收听音频过程中即时提出新问题以获取进一步解答。 当前 , 音频概览功能仅面向美国用户提供英文服务 , 非英语的搜索内容也无法生成对应的音频摘要 。
NotebookLM是谷歌推出的一款基于用户上传文档的个性化AI研究助手 , 限定了信息来源范围 , 却支持多达50多种格式 , PDF、网页、视频等都涵盖其中 。 NotebookLM为用户提供了精准摘要 , 能快速提炼文档核心要点 , 以对话形式生动呈现文档关键内容等 。
谷歌的音频概览功能摘要入口(图源:谷歌)
而此次推出的音频概览功能 , 则延续了NotebookLM的对话式音频技术逻辑 , 其生成的语音总结能提取自搜索结果首页内容 , 还能帮助用户更便捷地理解信息 。 同时 , 用户可调整播放速度0.75-1.5倍速 , 实现“边听边看”的沉浸体验 。

二、谷歌音频概览“首登搜索” , NotebookLM完整版缩水为轻量播客谷歌音频概览功能早在2024年9月便已在NotebookLM中亮相 , 并呈现出完整形态 , 支持用户实时追问 , 助力深度探索信息 。
今年5月 , 据外媒The Verge报道 , 音频概览功能沿用了谷歌I/O大会发布的“重构信息流”技术架构 , 不过当时谷歌尚未公布语言扩展及区域推广的具体时间表 。
同月14日 , 谷歌技术团队在The Verge的独家专访中透露 , 为优化用户体验 , 音频概览功能采用了响应速度优化方案 , 将音频生成时长固定在40秒左右 。
当前此举主要是为了验证用户对这一基础功能的接受程度 。 如今 , 谷歌实验室于6月13日再次对音频概览功能进行升级更新 。 新升级的谷歌搜索版音频概览是基于NotebookLM相同技术框架的独立功能扩展 。
当用户使用Chrome浏览器搜索特定复杂议题时 , 满足条件就可能触发音频概览功能 , 播放器还贴心配备了暂停、倍速调节及原文跳转功能 , 适配驾驶、烹饪等无屏场景下的操作需求。

结语:AI“主持人”信息取舍存伦理争议当用户从“阅读文字”转向“收听对话” , AI“主持人”已不仅是信息的转述者 , 更成为内容的“叙事架构师” 。 在教育场景中 , 学生搜索“量子物理” 时 , 双AI主播用生活化比喻拆解复杂概念的40秒音频 , 可能比长篇文献更高效吸收;科研人员检索跨语言文献时 , 语音摘要能突破文字壁垒 , 将文献核心观点转化为可听化对话 , 加速跨学科知识整合 。 这种“听觉化”的信息处理方式 , 使知识传递从“主动阅读”转向“被动聆听”的模式 。
技术伦理问题随之浮现 。 AI“主持人”对信息的取舍逻辑尚未透明 , 双人对话形式可能存在诱导性解读风险 。 据MIT(麻省理工科技评论)2025年3月预警 , 当算法掌握声音表达权时 , 需建立更严格的信息溯源机制 。
【谷歌搜索集成音频概览,40秒生成播客总结内容】来源:谷歌、Mashable、The Verge

    推荐阅读