谷歌AI攻克亚洲语言难题,2300种语言数字化计划正在推进

谷歌AI攻克亚洲语言难题,2300种语言数字化计划正在推进

文章图片


亚洲拥有全球三分之一的语言 , 却在数字世界里”失声”了!
最新数据显示 , 亚洲大陆上存在着超过2300种本土语言 , 占全球现存语言的32% 。 然而这些语言在数字化呈现方面却存在着巨大的鸿沟 。 谷歌正在通过一系列AI项目改变这一现状 , 从印度的773个地区到东南亚的1200种语言 , 再到日本喜剧的全球化传播 , 一场覆盖整个亚洲的语言数字化革命正在展开 。
21500小时语音数据:Project Vaani深入印度腹地 【谷歌AI攻克亚洲语言难题,2300种语言数字化计划正在推进】
三年前 , 谷歌与印度科学研究所联手启动了Project Vaani项目 。 这个项目的野心相当大:要覆盖印度全部773个地区的语言变体 。
目前的成果已经相当惊人 。 项目已经收集了近21500小时的语音音频和835小时的转录语音数据 , 涵盖86种独特语言 。 这些数据来自印度22个邦120个地区的112000多名发言者 。 更重要的是 , 这些数据已经通过印度国家语言任务Bhashini和开源平台HuggingFace向公众免费开放 。
为什么要覆盖所有773个地区?项目负责人在问答环节解释道:”人们通常认为一个邦内的语言是统一的 , 但事实并非如此 。 以比哈尔邦为例 , 那里就有超过100种不同的语言及变体 。 ”印度人口流动频繁 , 当一个人从一个邦迁移到另一个邦 , 他们说母语的方式会产生变体和细微差异 。 要让技术真正服务于全国所有人 , 捕捉这些自然存在的变体就成了必要条件 。
目前项目正在发布第一阶段和第二阶段的数据 , 已经覆盖了160个区县 。 谷歌正在与Megdap、Karya等合作伙伴携手 , 继续推进这项庞大的工程 。
Aquarium平台:为东南亚1200种语言建立数据库东南亚的语言环境复杂程度不亚于印度 。 这个拥有11个国家、6.5亿人口的地区 , 四大不同语系涵盖了约1200种语言 。 仅印度尼西亚一国就有超过700种语言 。
谷歌与AI Singapore合作推出的Project SEALD , 专门应对这种复杂性 。 项目的核心是Aquarium平台——一个面向东南亚语言数据集的综合性资源库 。

Aquarium的目标很明确:构建一个全面的东南亚数据集目录 , 让社区中的任何人都能获取和贡献数据 , 助力开发出能真正反映地区生态的AI模型 。 最终目标是打造出更出色的工具和解决方案 , 以当地语言满足东南亚的特定应用场景需求 。
面对低资源或濒危语言的挑战 , SEALD团队采取了独特的策略 。 项目负责人William介绍:”我们始终与当地机构合作 , 通过他们找到这些鲜为人知的方言 。 ”这些资料通常是非数字化的 , 需要转化为可用数字格式并请当地人员进行校验 。 在某些特定情况下 , 如果某种语言确实濒临灭绝且完全没有相关资源 , 团队会向该语言的母语使用者分享图像提示或文本提示 , 收集他们的音频数据并进行转录 , 然后将这些数据作为语料库的一部分 。
90%准确率:吉本兴业用AI让日本喜剧走向世界语言AI的应用不仅限于保护濒危语言 。 日本最大的娱乐经纪公司吉本兴业正在用谷歌的AI技术解决一个特殊问题:如何让全世界理解日本喜剧 。
吉本兴业成立于1912年 , 管理着6000多名艺人 , 每年制作5000多部作品 。 但日本喜剧的全球扩张面临两大挑战:许多笑点依赖于高语境化的表达 , 涉及大量文化细节与典故 , 对外来观众难以理解;语言障碍依然显著 , 日本英语普及率较低 , 阻碍了与全球观众建立联系 。
2014年开始 , 吉本兴业与谷歌合作开发了CHAD 2系统——一个由Gemini 2.0 Flash驱动的AI翻译系统 。 这个系统专为喜剧设计 , 能将日语视频翻译成英语、中文和韩语 。 只需上传电影文件 , 系统便会自动生成字幕文件 。
最令人印象深刻的是准确率 。 CHAD 2的转录和翻译准确率约为90% , 大幅领先于其他模型60%-75%的准确率 。 更重要的是 , 翻译时间从数月缩短至几分钟 。
系统还包含了一个专门为”Owarai(日本喜剧)”量身定制的自定义词典 , 目前包含超过200个条目 。 如果要将系统调整为其他内容类型 , 比如动漫、电视剧或体育 , 只需额外添加针对特定类型的词典 , 核心提示无需进行任何特殊调整 。
吉本兴业的代表表示:”我们的终极愿望是创建一个无论何时何地 , 任何人都能实时理解日本喜剧的世界 。 ”目前CHAD 2还在内部使用阶段 , 但公司正在加速推进外部商业化销售 , 并持续提升翻译质量与新增语言支持 。
这些项目展示了AI技术在语言保护和文化传播方面的巨大潜力 。 从印度腹地的方言到东南亚的濒危语言 , 再到日本喜剧的文化细节 , 谷歌正在用技术弥合亚洲语言的数字鸿沟 。 随着更多数据的收集和技术的进步 , 亚洲2300种语言在数字世界获得应有地位的那一天 , 或许并不遥远 。

    推荐阅读