2016 年,我在 Instagram 领导了一个小团队,该团队设计并构建了历史上最大的内容分发实验之一:将个性化排名算法引入该平台(当时)的 5 亿用户。预料到争议,我们在接下来的几年里科学地测量了接受这种不断发展的“推荐算法”(有时被称为)的人与接受自 Instagram 成立以来采用的逆时间顺序提要的随机选择的小群体之间的差异。
这些差异表明,新算法在应用程序的各个方面都大大改善了体验。
虽然我仍然相信算法排名是社交媒体平台的最佳选择,但它并非没有缺点。仅举几例:增加对内容分发的平台控制、不透明的操作标准、宣传有害内容的风险以及一般用户的挫败感。这些不利因素最近导致 Twitter 的潜在未来所有者埃隆马斯克呼吁“开源算法”。
作为一名工程师,这个想法听起来过于简单,因为开源机器学习模型很少能告诉我们它的影响。但要求透明度的呼吁是有效的,它可以从披露类似于我在 Instagram 领导的实验开始。我认为,有用的透明度在于开源实验而不是算法。
我并不是在建议应该如何处理来自开源实验的信息;相反,本文是在现代排名系统背景下思考透明度的起点。在其中,我讨论了为什么实验在算法排名中既是必不可少的,又是在未来努力揭开社交媒体上内容分发的神秘面纱时的重点。
现代算法优先考虑“最有趣”的内容
大多数社交平台的内容比任何人都可以合理消费的要多得多。
Instagram 于 2010 年推出,提供按时间倒序排列的提要,在用户提要的顶部显示最新的“关联”内容(即您选择关注的人的内容)。六年后,普通用户只能看到他们连接内容的 30%。注意力跨度是固定的,所以我们推断这个数量代表了普通人想要消费的自然极限。引入算法排名的目的是让这 30% 成为最有趣的内容,而不是最新的内容。其他平台如 TikTok、YouTube 和 Twitter 有自己的比率(即,它们提供不同数量的内容),但在固定的注意力范围内选择最有趣的内容的方法是相同的。
排名算法如何分配内容的确切选择决定了“最有趣”的含义。一种选择是使事情变得非个性化——每个有资格查看同一组内容的人都以相同的顺序查看。旨在首先显示最喜欢的内容,或者选择最漂亮的照片,甚至突出“编辑精选”的算法都属于这一类。但口味本身是高度个性化的;关注同一个人的两个不同用户仍然会喜欢不同的内容。非个性化排名未能捕捉到数十亿规模的“最有趣”。
相比之下,现代排名算法是个性化的:该算法会根据浏览者做出不同的内容选择。阅读用户的想法并知道他们的确切偏好是不可能的,但机器学习模型可以利用过去的行为来预测问题的答案,例如“如果你要看到这个内容,你会喜欢它的机会是多少,评论它,分享它,观看它,跳过它,还是报告它?”
算法排名将这些预测与广泛的业务逻辑(例如,多样化内容、偏向仇恨内容、推广来自鲜为人知的帐户的内容)结合起来,形成确定给定用户最感兴趣的内容的基础。
为什么“开源”算法不起作用
以下是我对呼吁开源算法的人们所设想的理解:如果我们发布涉及排名的机器学习模型的内部源代码和权重,那么工程师、分析师和其他人将能够理解为什么某些内容会被推广或推广。降级。事实是,即使模型完全透明,也很少能告诉我们它们的影响。
机器学习模型的预测因用户、内容和环境而异。这些变化被分解为机器学习模型可以用来进行预测的“特征”。特征的示例包括:用户最近消费的内容、用户有多少朋友喜欢某事、用户过去与某个人互动的频率以及用户所在城市中人们的每次观看互动。
“净收益”背后的微积分——而不是特定排名算法的微观细节——决定了实验是否成功。
现代算法排名模型考虑到数百万个这些特征来吐出每个预测。一些模型依赖于许多子模型来帮助它们;有些人将被实时重新训练以适应不断变化的行为。这些算法很复杂,即使对于研究它们的工程师来说也是如此。
这些模型的规模和复杂性使得我们无法完全理解它们是如何做出预测的。它们有数十亿个权重,它们以微妙的方式相互作用以做出最终预测;看着它们就像希望通过检查单个脑细胞来了解心理学。即使在具有完善模型的学术环境中,可解释模型的科学仍然处于萌芽状态。帮助理解它们的少数现有方法使用训练中使用的隐私敏感数据集。开源算法排名模型不会改变这一点。
实验何时会导致“净收益”变化?
像我这样的工程师衡量预测能力。我们没有试图了解算法的内部工作原理,而是进行实验并观察它们的效果。排名团队(通常是数据科学家、工程师、产品经理和研究人员的混合体)可能有数千个并发实验(A/B 测试),每个实验都会让一群人接触到排名算法和机器学习模型的变体。
推动实验的最大问题是改变是否——用我想出的一个术语——对生态系统来说是“净收益”。在向 Instagram 用户引入算法排名的过程中,我们观察到产品交互方面的显着改进以及所报告的体验质量的微小变化。在一个团队决定一个实验引起净好的改变之后,就像我们所做的那样,它成为平台的默认用户体验,并巧妙地改变了数亿人每天看到的内容。
确定净收益需要通过关于改变用户行为和内容分布(即,哪些类型的内容得到提升和降级)的汇总统计数据来分析实验的效果。例如,团队可以查看用户查看应用程序或“喜欢”内容的频率、他们每天或每次会话在应用程序上花费的时间、有人说他们有“五分之五”体验的频率, “小”创作者是否比“大”创作者更受青睐,“政治”内容的流行程度等等。汇总统计数据是通过处理大量个人用户操作产生的——你在测试组中,你在下午 3 点登录,你看了你最好朋友的视频然后喜欢它,你错过了另一个名人的帖子,等等。并轻松数以千计。团队在测试组和对照组之间的这些统计数据中寻找统计上的显着变化。
仅仅说“开源所有数据”是不够的——这是一场创新和隐私的噩梦。但可以安全地披露比今天的公司更多的信息。
任何运作良好的算法排名团队都有一种方法来确定与已建立的基线相比,更改是否是净好。该方法可能会被编纂:任何增加活跃用户数量的东西都是净好。或者它可能是基于判断的:如果人 X 在看到汇总统计数据后签字,那就很好了。或者它可能是对抗性的:如果没有团队能找到问题,那就太好了。在实践中,它可能是所有东西的混合物。
净收益背后的微积分——而不是特定排名算法的微观细节——决定了实验是否成功。实验指导公司中排名团队的成功。排名团队的成功指导着如何为所有平台用户分发内容。
净收益是一个如此强大的名称,在实验中呼吁“开源”是有道理的。
开源对实验意味着什么
我们当前系统的问题在于,进行实验的人是唯一能够研究它们的人。虽然这有充分的理由,但改变排名的人不一定会像更广泛的社区那样发现某些类型的问题。 (事实上,这是软件中的开源运动历来擅长的事情——即,除了项目的核心开发人员之外,还依靠工程师社区来发现问题并做出改进。)通过为社区提供实验的透明度更高,运行这些实验的团队可以建立决策的最佳实践,并揭示团队研究之外的实验效果。
在开源实验中,我们需要平衡两个相互竞争的利益:保留足够的专有信息以让公司进行创新,同时披露足够的信息以允许外部理解。仅仅说“开源所有数据”是不够的——这是一场创新和隐私的噩梦。但可以安全地披露比今天的公司更多的信息。披露可以通过两种方式进行:
- 开源方法:排名变化的目的是什么?在不损害公司创新的情况下,可以安全地披露哪些团队目标和决策?
- 开源实验:排名变化的后果是什么?可以共享哪些信息以允许第三方(例如审计机构)在不牺牲用户隐私的情况下检查排名实验的效果?
披露本身并不能解决算法排名中更大的激励问题。但它为更广泛的社区提供了一个知情的基础来思考它们,并将研究和注意力集中在它可以产生最大影响的地方。
开源方法
重要的是要记住,算法排名的重大决定是构成净变化的因素。鼓励开源方法可以更深入地了解此类决策的制定方式以及平台如何评估其内容生态系统。所涉及的数据已经进行了汇总,从而消除了对侵犯个人隐私的担忧。因此,披露的风险主要与竞争优势和不良行为者有关,例如垃圾邮件农场和协同攻击者。首先,以下是平台共享不会有风险的三种类型的信息:
- 确定新排名变体是否为净收益变化的一般过程
- 谁(如果有的话)对更广泛的算法更改拥有决策权
- 对决策中可用并在实验中评估的汇总统计数据的解释
涉及该信息的假设披露可能如下所示:每年,平台的执行团队都会设定参与措施的目标,以及与内容质量相关的次要目标。负责达到目标的排名团队每年最多可以进行 1000 次实验,每个实验涉及数百万用户。产品经理必须在实验开始前审查实验,并每周与负责的排名团队会面一次,审查对主要和次要目标的持续影响,以及任何其他具有统计意义的影响,例如内容转移到更大的帐户或带有政治标签的内容的流行。然后,是否发布实验的最终决定权在于执行团队。排名团队通过一项“阻止”一年中所有变化的实验来衡量算法更新的整体贡献。
实验透明度的基本问题是:我们如何在不牺牲隐私的情况下更广泛地共享实验数据?
这种类型的披露有助于我们了解公司的决策是如何做出的,并且可以记录在平台透明度中心和年度报告中。更具体的披露,为决策提供更有用的洞察力,也更有可能冒泄露公司机密的风险。这些类型的披露将包括更多关于汇总统计的意图,例如:
- 哪些汇总统计数据是可取的,哪些是不可取的,哪些被用作护栏(并且不应更改)
- 用于评估决策是否为净收益的特定公式
- 所有带有假设、日期和决策的实验列表
对于披露而言,这是否过于详细尚待商榷,并且取决于每个产品的特定情况和目标。但回到 Twitter 示例和经常讨论的“垃圾邮件”问题,这里有一个描述有用披露的假设场景:
假设 Twitter 进行了 10 个旨在降低垃圾邮件流行率的实验。每个实验都旨在衡量更改“点击推文”的预测变量是否会减少看到垃圾邮件的用户数量。在这些实验中,垃圾邮件报告的减少被认为是理想的结果,回复的减少是不受欢迎的,并且转发的数量使用了护栏并有望保持稳定。实验一到五个使用更大的、重新训练的预测模型来预测用户是否会“点击推文”。实验 6 到 10 使模型保持不变,但在最终排名中降低了点击预测的权重。当前的生产排名模型用作对照组。所有实验变体于 5 月 20 日开始,每个实验组有 500 万用户,并运行了两周。实验七,体重适度下降,6月10日获得产品经理批准,成为baseline体验。
这样的披露将有助于外部人士评估 Twitter 是否正在积极尝试解决垃圾邮件问题,并以合理的方式这样做。透明度会导致不良行为者使用信息来调整策略的风险,但它也会让排名团队对用户更加负责,并激发对用户体验如何展开的更多信任。
开源实验
虽然开源方法可以深入了解排名团队的意图,但它不允许外部各方了解排名决策的意外后果。为此,我们应该检查开源实验数据本身。
分析实验需要访问仅对员工可用的机密信息,例如个人用户操作,例如“用户 A 看到此视频,观看了 10 秒然后喜欢它”。比较测试组和对照组之间的这些信息的汇总统计数据可以让公司了解它所做的算法更改。实验透明度的基本问题是:我们如何在不牺牲隐私的情况下更广泛地共享实验数据?
最透明的开源实验版本需要披露原始信息——每个人在每次实验中的行为。这样,外部各方就可以就社交媒体中的用户行为和内容变化得出正确、科学的结论。但这种透明度是幼稚的。个人用户的行为是敏感的和个人暴露的,在某些情况下,他们甚至冒着生命危险。
相反,我们应该专注于实现一定程度的实验透明度,即不泄露敏感信息或违反同意,但仍为其他各方提供科学研究效果的能力。
- 限制受众:将原始实验数据分享给公司外部较小的受信任群体,例如可能受专业法规约束的一组第三方算法审计师。
- 个人披露:允许用户查看他们接触过的每个实验。
- 个人选择加入:通过允许个人选择向特定群体披露他们的行为来缓解一些隐私问题,例如允许通过应用内机制选择加入受监控的学术研究。
- 摘要:通过将实验数据分组到群组中来发布不太敏感的信息(例如,披露内容分发向更大的帐户、视频、特定国家等的转变)。
这些方法都为不在社交平台工作的人提供了分析工具,因此不受公司激励措施的约束。如果我们重新审视我领导的关于引入 Instagram 算法排名的多年实验,重新审视实验组可能会带来新的视角来解决诸如排名是否会导致过滤器泡沫、引入排名是否会导致向更具政治性的转变等问题。帐户,以及人们是否会因排名而发布更多有害内容。如果无法访问数据,我们都会陷入基于标题和轶事的错误推理。
***
尽管算法排名模型很流行,但它们的内部工作原理并没有得到很好的理解——这也不是重点。公司通过运行实验来观察算法的影响,以确定它们引起的变化是否对其内容生态系统有益。
今天,外部各方,包括每天使用这些产品的用户,都无法得出关于什么是净收益的结论,因为实验数据是私人的,决策方法没有公开。情况并非如此:可以开放更多的决策方法,同时保留公司的竞争能力。有关实验的信息可以以允许外部各方在不牺牲隐私的情况下得出结论的方式披露。
透明度本身就是一种属性,但有意义的透明度是更好的目标。展望未来,让我们专注于开放实验,而不是算法。
文章忘记“开源”算法——专注于实验,而是首先出现在Future上。
原文: https://future.com/forget-open-source-algorithms-focus-on-experiments-instead/