人工智能从“大炼模型”到“炼大模型”( 二 )


以GPT-3为代表的超大规模预训练模型 , 不仅以绝对的数据和算力优势取代了一些小的算法模型 , 更重要的是 , 它展示了一条通向通用人工智能的可能路径 。 在此背景下 , 建设国内的超大规模预训练模型和生态势在必行 。
在唐杰看来 , 为了提高机器学习算法的效率 , 改变传统的行业布局 , 过去几年 , 大家拼命做模型 , 导致模型越做越多 。 然而 , 一般的模型训练效果并不如人意 , 花了大量财力精力却达不到理想的训练效果 , “为了优化效果、提高精度 , 模型越来越复杂 , 数据越来越大 , 很多公司的能力不足以应对这种状况 , 效率越来越低 。 ”唐杰举了个例子 , 小炼钢厂往往条件简陋 , 能炼钢 , 但质量不好 。 大炼钢厂买得起设备、花得起电费 , 炼出的钢质量就好 , 大模型就是大炼钢厂 , 它可以获得大量数据 , 并把数据清洗干净 , 提升算力 , 满足要求 。
与此同时 , “小模型可能只需要几个老师和学生就能完成算法的设计 , 但是大模型的每一层都要找专人来做 , 这样可以把模型的设计和训练精细化 , 模型设计也从单打独斗变成了众人拾柴 。 ”唐杰说 。
小团队将成最大受益者
据唐杰透露 , 团队目前正在跟北京冬奥会合作 , 开发可通过文本自动转成手语的模型 , “医疗方面我们的主要方向是癌症早筛 , 如上传乳腺癌图像 , 找到乳腺癌相关预测亚类 , 通过影像识别宫颈癌亚类等 。 ”
而谈到“悟道1.0”的发展 , 唐杰坦言 , 目前还存在需要持续攻关的问题 。 一是模型能否持续学习的问题 , 即能否不断地从新样本中学习新的知识 , 并能保存大部分以前已经学习到的知识 。 就目前来看模型还需要调整 , 其效果还有待加强;二是面对一些复杂问题 , 目前模型还无法回答;三是万亿级模型的实用性问题 , 即如何在保证精度的同时压缩模型 , 从而能让用户低成本地使用 。
“这是一个全新的产业模式 。 原来大家数据上云、算力上云 , 现在模型上云 。 ”唐杰说 。
他认为 , 人工智能可以分为几个发展阶段:基于数据的互联网时代、基于算力的云计算时代 , 以及接下来可能将进入的基于模型的AI时代 , 这相当于把数据提升为超大规模预训练模型 。 未来 , 研究人员可以直接在云模型上进行微调 , 很多公司甚至不用维护自己的算法研发团队 , 只需要应用工程师即可 。
唐杰表示 , 随着超大规模预训练模型系统的开放 , 小团队是最大的受益者 , 大家不必从零开始 , 预训练基线智能水平大幅提升 , 平台多样化、规模化 , 大家在云上可以找到自己所需的模型 , 剩下的就是对行业、对场景的理解 。 这将给AI应用创新带来全新的局面 。
唐杰透露 , “悟道1.0”只是一个阶段性的成果 , 今年6月将会有一个规模更大、水平更高的智慧模型发布 。 届时 , 模型规模会有实质性的进展:模型会在更多任务上突破图灵测试 , 其应用平台的效果也会更加让人期待 。

推荐阅读