算法与算法之外:内容推荐系统如何运行?

算法与算法之外:内容推荐系统如何运行?

文章图片

算法与算法之外:内容推荐系统如何运行?

文章图片


算法背后:平台和用户相互影响 。


文丨孙海宁
编辑丨高洪浩


内容平台天生面临一个矛盾:推荐算法太透明 , 不但暴露商业机密 , 还容易鼓励创作者和商家针对优化特定数据搏流量;推荐算法不透明 , 每当搅动社会情绪的事件出现 , 用户总会怀疑内容平台在操控信息流动 。


抖音是国内最大的内容平台之一 , 相应也受到最猛烈的批评 。 去年 11 月 , 知名企业家钟睒睒公开指责抖音放纵造谣账号抹黑企业形象 , 引发共鸣;近期 , 北京大学青年教师韦东奕在抖音开通账号 , 迅速获得超千万名粉丝 , 又有用户指责抖音 “造神” 。


同期 , 中国监管部门也发起针对互联网平台的治理行动 , 把 “以适当方式公示算法推荐服务的基本原理、目的意图、主要运行机制等” 作为工作目标 。


今年年初开始 , 抖音成立算法透明项目组 , 首次对外解释推荐算法的原理、治理内容生态的思路 。 《晚点 LatePost》访谈了抖音算法、生态治理相关负责人 , 了解这家公司如何影响用户、又如何被用户影响 。


推荐算法学习用户行为规律


用户点击手机上的音符图标 , 打开应用的几秒内 , 抖音推荐算法已经在每天增加数亿个视频的内容库中 , 完成推荐运算 , 再根据运算结果排序 。 大逻辑不复杂:


先分别估计视频引起用户某个行为——点赞、评论、进入直播间等等——的概率 , 再用事先确定的行为价值分数和行为概率相乘 , 然后加总 。 最终得分越高 , 视频就越可能被刷出 。





预测行为概率是靠历史数据 。 过往视频激发了哪些行为 , 以及这些视频、视频观众的特征 , 会源源不断地汇入机器学习模型 , 就像带有标准答案的样题 , 供模型学习 。 理想情况下 , 每迭代一次 , 模型预测行为概率时就估得更准 。


“模型本质是在学某类人对某类视频发生特定行为的规律 。 ” 抖音算法工程师刘畅说 , “如果模型判断你我兴趣相近 , 之前我点赞某个历史视频 , 那模型可能估计你也容易为它点赞 。 ”


平台能获取到的各类信息可能都有助于提高模型预测的准确度 。 为增加模型可用信息 , 抖音有时还会重新设计用户界面 。 2021 年之前 , 为求首面板简洁干净 , 用户只有长按屏幕或者点击分享之后 , 才能在二级面板内收藏视频 。 但在推荐团队尝试提升中、长视频的分发效率后 , 意识到 “用户收藏” 是反映视频质量的重要信号 , 因此将收藏按钮提至首面板 , 方便收集更多收藏数据 。


模型估出用户各项行为概率后 , 还要乘以预先确定的价值分 。 价值分越高 , 意味着某项行为越被平台鼓励 。 相比目标是提高客观预测精度的行为概率模型 , 价值分更体现平台主观偏好 , 设定不好 , 就可能大幅影响平台生态 。



【算法与算法之外:内容推荐系统如何运行?】

抖音确定行为价值分是靠 A/B 测试:微调一组用户推荐算法的价值分 , 再和另一组没调整的用户对照 , 观察平台重视的各项指标如何变化 。 这些指标可以是日活跃用户数量、创作者投稿数量、平台商品销售额等 。


多个指标可能同时朝不同方向变动 。 这时抖音数据分析团队会在各个指标之间创建换算关系 , 并约束它们对最重要的 “北极星” 指标——长期留存——的影响 。


观察上述指标变化 , 抖音可以判断业务团队是否像自己声称地那样完成任务 。 比如抖音电商定位 “兴趣电商” , 目标是推荐用户需要的商品 。 “衡量推荐精度的电商转化率提高 , 就不能把衡量用户体验的活跃度指标拉下去 。 ” 刘畅说 。


用户使用抖音的习惯不同 , 同一行为暗含的信息量也就不同 。 热衷点赞的用户可能不放过每次鼓励创作者的机会 , 无论视频质量优劣;要求更高的用户则只会对自认为最高质量的内容点赞 。 显然 , 后一种点赞显出视频对用户的价值更高 , 价值分应该随之调整 。


为此 , 抖音允许价值分在平台预设的基础上千人千面地变化 , 同时也会针对有特定观看习惯的用户设计特定策略 , 由此保证价值分反应用户偏好 。


抖音会控制价值分个性化 , 或者针对特定行为策略的复杂程度 。 刘畅说这一方面是出于成本考虑 , 多一个模型动态调整价值分 , 算力成本就被堆得更高 。 另外 , 推荐系统需要控制复杂度 , 增强算法鲁棒性——让系统面对各种干扰时仍保持稳定运转 。


先人工定调 , 再机器放大


推荐算法并非万能 。 它只是根据用户可能 “点赞、评论、分享” 的概率 , 加上平台给这些动作设定的权重 , 为内容排序 , 看不出视频本身是否优质 。 维护内容生态 , 先得由平台员工确定内容评判标准后 , 推荐算法才能批量执行 。


抖音内容运营负责人李翔宇告诉《晚点 LatePost》 , 2023 年开始 , 抖音运营部门更重视增加优质内容占比 。


新工作从定义何为 “优质供给” 开始 。 运营员工人工初筛出各个内容类目的优质视频 , 然后定期开会二次筛选、讨论 , 提炼出这些视频的特点 , 形成可以被文字阐释的标准 。


“我们会请创作者帮忙一起研判 , 一些观看次数不高、可我们觉得是优质的内容会发给创作者 , 请他们从专业视角评判 。 ” 李翔宇说 。 过程中 , 播放量高但没有创意的视频也会被拿出来讨论 , “比如卖弄技巧 , 但没有信息量的视频 。 ”


优质标准是动态调整的 。 “抖音刚上线时 , 运镜视频肯定属于优质内容 。 但发的人越来越多 , 观众审美疲劳 , 创作者就需要在运镜基础上增加更多创新玩法 。 ” 李翔宇说 。


标准制定好 , 更多内容运营和审核员工就能参考它们 , 为更多内容打上 “优质视频 / 非优质视频” 的标签 。 这之后 , 有了学习样本的算法开始发挥效力 , 批量识别出还没经过人工评判的优质视频 。


“算法的优势在于批量处理 。 毕竟运营员工能研判的视频数量是有限的 , 算法可以将更多优质创作者和优质视频更早地发掘出来 。 ” 李翔宇说 。


就像所有内容平台 , 抖音会对优质视频提供流量激励 。 之前的方式是保证它们获得一定播放量 , 但效果有限 。 “比如中、长知识类视频 , 用保证一定播放量的方式帮它们完成冷启动 , 之后完播率还是天生不如 10 秒短视频 , 得不到算法重视 。 ” 李翔宇说 。


新办法是在定义优质内容后 , 看哪些用户行为和行为价值分可以让流量导向优质内容 , 抖音就强化这些目标 , 如收藏、反复观看、搜索等 。 去年 , 一条 450 分讲红楼梦的视频获得 3 亿播放、780 万收藏、637 万分享 , 大量用户的收藏和分享 , 让这条长视频得到更好的分发 , 被抖音当作算法和用户双向选择的最佳实践 。


提振优质内容外 , 内容生态治理的另一项主要工作是打击劣质内容 。 这也是只有机器和人工相互配合才能完成的工作 。


创作者发布视频后 , 内容会经历多层审核 。 第一层审核针对所有视频 , 目的是挡住违法违规、触犯底线的内容 , 主要靠机器 , 机器认定内容风险较高则会交给人工判断;播放量再上升到一定程度后 , 机器、人工会配合着二次审核 , 处理不宜过多分发 , 但不涉及底线问题的视频;高热内容还要经过第三层审核 。


除了依序推进的层级审核 , 某个视频收到过多用户负面反馈 , 或流量异常突变时 , 也会触发研判治理环节 , 如果治理员工发现问题 , 同样会停止分发和推荐视频 。


上述标准审核流程外 , 抖音还会针对网络暴力、未成年人保护、AIGC 违规内容治理等焦点问题发起专项治理 , 单独设立团队构建治理框架 。 比如 , 和抵制网络暴力相关的措施包括搭建网暴账号监控池、上线一键关闭来自陌生人的评论、私信及被搜索到的功能等 。



“之所以叫 ‘专项’ , 是因为治理这些问题需要调动多个部门 , 像上线新功能就需要产品、研发支持 。 但 ‘专项治理’ 不是 ‘项目制’ , 没有结项日 , 开始之后会长期持续做 。 ” 李翔宇说 。




平台影响用户 , 用户改变平台




无论是提振优质内容还是打击劣质内容 , 抖音治理措施不是平台单方面意志的实施 , 而是和用户行为相互影响、相互适应的结果 。


电商主播在抖音卖货时 , 习惯用 “米” 替代 “钱” , 这是因为有传言说 “钱” 在平台的敏感词列表中 , 主播讲太多次 , 会影响直播间流量 。


“这把治理想象得太傻了 。 ‘钱’ 是常用字 , 不可能用作敏感词过滤 。 ” 李翔宇回应 。 尽管抖音 2021 年就开始澄清可以用 “钱” 字 , 但只要传闻涉及流量和随流量而来的收入 , 电商商家仍然宁可信其有 。


相关案例增加后 , 抖音反而得治理非规范用字 , 今年会先从播放量超过千万次的高热视频开始 。 “也不能立刻一棍子全打死 , 因为很多用户已经习惯直播间里的特定表达了 。 ”


对付谣言时 , 抖音留有 “举报” 按钮 , 希望理智的用户能自发识别、对抗部分谣言 。 但李翔宇说举报渠道产生的信号并不完全可信 , 每天最多的举报信息都涉及明星 , 背后是一个明星的粉丝群体试图压制另一个明星相关内容的流量 。


为更好地识别、对抗谣言 , 抖音设有一个三十人的团队 , 每天主动巡检、收集各类虚假信息 , 整理成一个 “谣言库” , 然后交给机器学习模型识别相关视频 。 “比如人工入库一个 ‘韦东奕解决了六个博士四个月没解决的难题’ 的谣言 , 只要已有、新上传的视频内有相关表述 , 就会被机器识别然后处置 。 ”


一些信息在传播过程中因关键要素缺失 , 导致用户理解偏差 , 演变为谣言 , 平台就得通过多次核实才能 “跑赢” 这些不实信息 。


一个例子是 , 近期网络上广泛传播的 “犬类禁养名单” 。 谣言炮制者拼凑各地分散的养犬管理规定 , 把部分城市在特定区域对特定犬种的限养政策 , 夸大为全国性禁养政策 。 对此 , 抖音需反复查阅官方文件 , 才能还原事件真相:目前 , 国家层面尚未出台统一的禁养政策 , 相关管控措施由各省市地方政府制定 。


今年二季度开始 , 抖音治理团队依据信息危害程度 , 进一步将谣言分为 “需要核实” 和 “无需核实” 两类 。


“无需核实” 类包括 “明确存在不良社会影响或违背常识的无稽之谈” 的内容 , 如 “某高校研究发现人类可以重生” , 会直接被平台限制传播 。 “需要核实” 的信息 , 先由联网大语言模型进行事实核查 , 若模型检索到的权威信源不足 , 则触发人工核查员介入 , 最终根据核查结果 , 将内容细分为 “谣言”“疑似谣言”“争议内容” 三类 , 并匹配对应的分级处置策略 。


和谣言同样棘手的是热点事件 。 去年一名网名为 “胖猫” 的男生跳江身亡后 , 他的姐姐在抖音发声指责 “胖猫” 女友诈骗钱财 , 发酵成为公共事件 , 但公安部门调查后发现指责不实 。 反思时 , 抖音认为热点事件当事人有发声权利 , 但在事实水落石出前 , 也应该防止当事人不当利用舆论 , 伤害其他相关方 。


今年 5 月 , 抖音出台社区热点信息和账号治理规则 。 基本原则之一是 “保护热点发酵中当事人(方)的隐私、名誉、人身安全等权益 。 ” 对事实不清的热点信息 , 抖音会增加提醒标签 , 并会通过热榜、弹窗推送的方式传播热点事件节点信息、核心事实 。


此外 , 争议热点事件爆发后 , 抖音会暂时禁止当事人带货、接广告或接受直播打赏 。 这既是因为公众反感素人走红后立刻变现 , 也为防止当事人生活受巨大流量反噬 。


问及是否对热点当事人管得太严时 , 李翔宇说很难定论:“根据很多热点事件演进的经验 , 当事人可能需要冷静一段时间想清楚后续的规划 。 冷静期过后 , 我们会放开对变现的限制 。 ”




必然的变革 , 漫长的适应期




“和你的浏览器说再见吧!”1997 年 , 科技作家凯文 · 凯利在《推送!》(Push?。 ┮晃闹行吹?。 他把靠人们主动搜索来传递信息的互联网称作 “拉式媒体”(Pull Media) , 并预言它会被 “推式媒体”(Push Media)取代:


不等用户点击 , 内容会主动出现在电视机上、电脑上、墙上、挡风玻璃上 , 或者其他任何能塞下一块屏幕的地方 。 凭借无线传输技术 , 一度安静的角落里也会充斥信息 , 广告商争抢人民注意力的竞争会空前激烈——总之 , 带着全新的交互方式 , 推式媒体将塑造一个全新的世界 。


只要人类创造信息的速度快于消化信息的速度 , 情况就不可避免地朝凯利描绘的方向演进 。 但速度没那么快 。 2006 年 Facebook 上线无限滚动的 News Feed 信息流后 , 靠推荐算法变得可用的推式媒体才算登陆电脑 。 等推式媒体开始占领手机屏幕 , 还得再十年 。


过程中 , 种种争议也随之而来 。 YouTube 推荐算法一度被报道过分追求 “用户观看时间” , 一步步把用户引至容易上瘾的阴谋论视频;Instagram 被指责加重用户身材焦虑 , 其他主流内容平台的信息流几乎都引发过批评 。


这不可避免 。 改天换地的新技术总是创造矛盾、引起争议 , 这些矛盾、争议先引致新的监管框架、社会共识 , 然后约束新技术更好地服务社会 。


每一次公众、监管对内容平台的问责 , 每一次问责后平台的反思、调整 , 都是新技术和社会的相互磨合的注脚 。


最终检验算法的优劣的 , 不是它匹配内容和观众的精度 , 而是它与使用者之间相互适应的程度 。


题图来源:视觉中国

    推荐阅读