它准确且几乎与专业人工口译员一样快。
通用人工智能翻译器的梦想离我们又近了一步。本周,科技巨头 Meta发布了一款新的人工智能,一旦单词从你嘴里吐出来,它几乎可以立即翻译 101 种语言。
人工智能翻译并不是什么新鲜事。但他们通常最适合处理文本,并且很难将口语从一种语言转换为另一种语言。该过程通常是多步骤的。人工智能首先将语音转换为文本,翻译文本,然后将其转换回语音。尽管这些系统在日常生活中已经很有用,但效率低下且滞后。错误也可能在每一步中潜入。
Meta 的新 AI 被称为 SEAMLESSM4T,可以直接将语音转换为语音。该系统使用语音合成器,将 101 种语言的单词翻译成其他 36 种语言,而不仅仅是翻译成英语,而英语往往在当前的人工智能口译员中占据主导地位。在一对一评估中,该算法的准确度比当今的顶级模型高出 23%,而且速度几乎与人类专家口译员一样快。它还可以将文本翻译成文本,将文本翻译成语音,反之亦然。
Meta 正在向公众发布用于开发人工智能的所有数据和代码,用于非商业用途,以便其他人可以对其进行优化和构建。从某种意义上说,该算法是“基础性的”,因为“它可以针对特定目的在精心策划的数据集上进行微调,例如提高某些语言对或技术术语的翻译质量”,塔林大学的 Tanel Alumäe写道。技术人员没有参与该项目。 “对于缺乏从头开始构建这些模型所需的大量计算资源的研究人员来说,这种程度的开放性是一个巨大的优势。”
萨里大学的萨宾·布劳恩(Sabine Braun)也没有参与这项研究,她告诉《自然》杂志,这是“一项非常有趣且重要的努力”。
自学习人工智能
得益于大型语言模型,机器翻译在过去几年中取得了长足的进步。这些模型为 ChatGPT 和 Claude 等流行的聊天机器人提供支持,通过对从互联网(博客、论坛评论、维基百科)上抓取的大量数据集进行训练来学习语言。
在翻译过程中,人类会仔细审查并标记这些数据集或“语料库”,以确保准确性。当人工智能学习和做出预测时,标签或类别提供了一种“基本事实”。
但并非所有语言都具有同等代表性。对于英语和法语等高资源语言,训练语料库很容易获得。与此同时,主要在中低收入国家使用的低资源语言更难找到,这使得使用可信数据集训练需要大量数据的人工智能翻译变得困难。
作者写道:“一些人工标记的翻译资源是免费提供的,但通常仅限于一小部分语言或非常特定的领域。”
为了解决这个问题,该团队使用了一种称为并行数据挖掘的技术,该技术可以在互联网和其他资源中抓取一种语言的音频片段和另一种语言的匹配字幕。这些意义匹配的对添加了大量多种语言的训练数据,无需人工注释。总体而言,该团队收集了大约 443,000 小时的音频以及匹配的文本,从而生成了大约 30,000 个对齐的语音文本对。
SEAMLESSM4T 由三个不同的块组成,一些块处理文本和语音输入,另一些块处理输出。 AI 的翻译部分是在包含 450 万小时多种语言口语音频的海量数据集上进行预训练的。 Alumäe 写道,这一初始步骤帮助人工智能“学习数据中的模式,从而更容易针对特定任务微调模型”。换句话说,人工智能学会了识别语音中的一般结构,而不管语言如何,建立了一个基线,使以后更容易翻译资源匮乏的语言。
然后,人工智能接受语音对的训练,并根据其他翻译模型进行评估。
口语
人工智能的一个关键优势是它能够直接翻译语音,而无需先将其转换为文本。为了测试这种能力,该团队将音频合成器连接到人工智能以广播其输出。从它所知道的 101 种语言中的任何一种开始,人工智能将语音翻译成 36 种不同的语言(包括资源匮乏的语言),延迟只有几秒钟。
该算法的性能优于现有的最先进系统,通过标准化测试,准确度提高了 23%。它还可以更好地处理背景噪音和来自不同说话者的声音,尽管它像人类一样难以处理带有浓重口音的语音。
迷失在翻译中
语言不仅仅是串成句子的单词。它反映了文化背景和细微差别。例如,将性别中立的语言翻译成性别化的语言可能会引入偏见。英语中的“我是一名教师”是否可以翻译为西班牙语中的男性“ Soy profesor ”或女性“ Soy profesora ”?医生、科学家、保姆或总统的翻译怎么样?
当人工智能喷出不反映原始含义的攻击性或有害语言时,误译还可能会增加“毒性”——尤其是对于在其他语言中没有直接对应项的单词。虽然在某些情况下很容易被嘲笑为错误的喜剧,但当涉及到医疗、移民或法律场景时,这些错误是极其严重的。
康奈尔大学的艾莉森·科内克(Allison Koenecke)没有参与这项研究,他写道:“这类机器引起的错误可能会造成真正的伤害,比如错误地开药,或者在试验中指控错误的人。”由于相对缺乏训练数据,这个问题可能会对讲资源匮乏的语言或不寻常方言的人产生不成比例的影响。
值得赞扬的是,Meta 团队分析了他们的模型的毒性,并在多个阶段对其进行了微调,以降低性别偏见和有害语言的可能性。
科内克写道:“这是朝着正确方向迈出的一步,并为测试未来的模型提供了基准。”
Meta 越来越多地支持开源技术。此前,这家科技巨头发布了 PyTorch,这是一个用于人工智能训练的软件库,被 OpenAI 和 Tesla 等公司以及全球研究人员使用。 SEAMLESSM4T 也将公开给其他人以增强其能力。
人工智能只是最新的机器翻译器,可以处理语音到语音的翻译。此前,谷歌展示了 AudioPaLM,这是一种可以将 113 种语言转换为英语的算法,但仅限于英语。 SEAMLESSM4T 扩大了范围。虽然它只触及了大约 7,000 种语言的表面,但人工智能离通用翻译器更近了一步——就像《银河系漫游指南》中的巴别鱼,当它放入耳中时,它可以翻译宇宙中各个物种的语言。
“作者利用现实世界数据的方法将为语音技术开辟一条有希望的道路,可与科幻小说中的东西相媲美,”Alumäe 写道。