AI巨头看好的兵家必争之地,争相促进繁荣
发布时间:2021-10-19 16:37:11 所属栏目:大数据 来源:互联网
导读:近日,一则微软英伟达推最大单体AI语言模型的消息再次将人工智能大模型推向风口浪尖。而这距全球最大中文单体AI语言模型浪潮源1.0发布尚不足半个月时间。不仅如此,关注该领域的人士都会发现,近年来BERT、GPT-3等大规模预训练模型取得了巨大成功,成为人工
|
近日,一则“微软英伟达推最大单体AI语言模型”的消息再次将人工智能大模型推向风口浪尖。而这距全球最大中文单体AI语言模型浪潮源1.0发布尚不足半个月时间。不仅如此,关注该领域的人士都会发现,近年来BERT、GPT-3等大规模预训练模型取得了巨大成功,成为人工智能领域的一个里程碑,同时也吸引谷歌、微软、浪潮等AI产业巨擘纷纷入局。
大块头有大智慧
从去年OpenAI的GPT-3的1750亿参数大模型开始,陆续有Google Switch Transformer 1.6万亿混合模型,阿里达摩院M6 的1万亿参数混合模型,浪潮源1.0的2457亿单体模型和微软英伟达Megatron-Turing的5300亿参数单体模型等,AI大模型如雨后春笋,不断涌现。
而这一切的开端,是OpenAI 的GPT-3,该模型一经发表就引发了AI界的广泛关注。因为这一版本有着1750 亿的巨大参数量,比以前的GPT-2高100倍,该模型经过将近500G高质量数据集的预训练后,能够写小说、编剧本、敲代码。“无所不能”的GPT-3吸引了全球数以万计开发人员,目前有300多种应用程序在使用 GPT-3,每天生产 45 亿个字符。GPT-3的惊人发展,不断验证“大块头有大智慧”,其缔造者OpenAI也掀起了一场“大”模型的全球“竞赛”。
就在前两天,微软和英伟达联合推出的Megatron-Turing自然语言生成模型(MT-NLG)再度以5300亿参数量刷新了单体模型参数量纪录。该模型汇集了微软DeepSpeed项目和英伟达Megatron项目在并行训练和超大型人工智能模型的训练优化的成功经验,基于105层Transformer的MT-NLG在zero-shot、one-shot和few-shot等方面对SOTA模型进行改进,通过具有更多模型参数、更多训练数据和更多训练时间,使用835GB数据集的预训练后,获得了对语言更丰富、更细致的理解,在很多数据集上也展现出了不错的zero–shot或few-shot泛化性能。
众所周知,英文有天然的空格作为分隔符,分词更加容易。而中文分词由于缺乏统一标准,以及大量存在的歧义词、新词和中英文混合词语,所以无论是中文的学习难度还是中文自然语言分析的难度均远高于英文。
而在中文自然语言分析领域,浪潮人工智能研究院于9月底发布的“源1.0”,以单体模型参数量2457亿,同样创下单体大模型的中文参数量最高纪录。源1.0中文巨量模型训练采用的高质量中文数据集高达5000GB,相比GPT-3模型1750亿参数量和570GB训练数据集,源1.0参数规模领先40%,训练数据集规模领先近10倍,在数据及方面同样也遥遥领先于Megatron-Turing的835GB。
(编辑:邯郸站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


