大多数 30 岁以上的人可能还记得用老式的百科全书进行研究。你会从书架上拿出一本厚厚的书,检查你感兴趣的主题的索引,然后翻到相应的页面开始阅读。这并不像在 Google 搜索栏中输入几个词那么简单,但从好的方面来说,您知道您在《大英百科全书》或《世界之书》的页面中找到的信息是准确和真实的。
今天的互联网研究并非如此。压倒性的大量消息来源令人困惑,但加上错误信息的扩散,我们中的任何人都相信我们在网上阅读的一个词是一个奇迹。
维基百科就是一个很好的例子。截至 2020 年初,该网站的英文版平均每天浏览量约为2.55 亿次,成为互联网上访问量第八大的网站。截至上个月,它已经上升到第七位,英文版目前有超过650 万篇文章。
但是,尽管这个首选信息源可能具有高流量,但其准确性仍有待改进。关于网站自身可靠性的页面指出,“在线百科全书不认为自己作为来源是可靠的,并且不鼓励读者在学术或研究环境中使用它。”
前 Facebook 的 Meta 想要改变这一点。在上个月发布的一篇博文中,该公司的员工描述了人工智能如何帮助使维基百科更加准确。
虽然有成千上万的人参与编辑网站,但他们添加的事实不一定正确;即使存在引用,它们也不总是准确的,甚至不相关。
Meta 正在开发一种机器学习模型,该模型可以扫描这些引文并将其内容交叉引用到维基百科文章中,以验证不仅主题一致,而且引用的具体数字是否准确。
这不仅仅是挑选数字并确保它们匹配的问题; Meta 的 AI 将需要“理解”引用来源的内容(尽管“理解”是一个误称,正如复杂性理论研究员 Melanie Mitchell 会告诉你的那样,因为 AI 仍处于“狭义”阶段,这意味着它是一个工具模式识别,而“理解”是用于人类认知的一个词,这仍然是一个非常不同的东西)。
Meta 的模型将“理解”内容,而不是通过比较文本字符串并确保它们包含相同的单词,而是通过比较文本块的数学表示,它使用自然语言理解 (NLU) 技术得出。
Meta 的基础人工智能研究技术主管经理 Fabio Petroni告诉Digital Trends :“我们所做的是通过将所有这些网页分成段落并为每个段落提供准确的表示来建立所有这些网页的索引。” “那不是逐字表示经文,而是表示经文的意思。这意味着两个具有相似含义的文本块将在存储所有这些段落的最终 n 维空间中非常接近的位置表示。”
AI 正在接受一组 400 万条维基百科引文的训练,除了在网站上挑选出错误的引文外,它的创建者还希望它最终能够建议准确的来源来取代他们的位置,从海量数据索引中提取不断更新。
一个有待解决的大问题是在一个分级系统中工作,以确保消息来源的可靠性。例如,来自科学期刊的论文将获得比博客文章更高的评分。在线内容的数量如此之多,种类繁多,您几乎可以找到“来源”来支持任何主张,但要从虚假信息中解析错误信息(前者意味着不正确,而后者意味着故意欺骗),并且经过同行评审从未经同行评议的人看来,从匆忙拼凑起来的人那里核实事实,这不是一项小任务,但在信任方面却是一项非常重要的任务。
Meta已经开源了它的模型,好奇的可以看看验证工具的demo 。 Meta 的博客文章指出,该公司并未与 Wikimedia 在该项目上进行合作,并且该项目仍处于研究阶段,目前尚未用于更新 Wikipedia 上的内容。
如果你想象一个不远的未来,你在维基百科上阅读的所有内容都是准确和可靠的,那么做任何类型的研究会不会太容易了?自己检查和比较各种来源是很有价值的,不是吗?从翻阅厚重的书籍到在搜索引擎中输入几个单词并点击“Enter”,这是一个巨大的飞跃;我们真的希望维基百科从一个研究起点转变为一个获得最后一个字的来源吗?
无论如何,Meta 的 AI 研究团队将继续致力于改进在线百科全书的工具。 “我认为我们最终是被好奇心驱使的,”Petroni说。 “我们想看看这项技术的极限是什么。我们绝对不确定 [这个 AI] 是否可以在这种情况下做任何有意义的事情。从来没有人尝试过做类似的事情。”
图片来源:来自Pixabay的Gerd Altmann