豪迪群发器 » 热门资讯 » 微软公司和英伟达推出迄今为止训练较大最猛的语言模型 MT-NLG

微软公司和英伟达推出迄今为止训练较大最猛的语言模型 MT-NLG

发布时间:2021-10-12 ┊ 文章作者:豪迪

豪迪群发器 10 月 12 日信息 语言模型(Language Model)简易来讲便是一串词编码序列的概率分布函数,关键功能是为一个长短为 m 的文字明确一个概率分布函数 P,表明这一段文字存有的概率。

大伙儿以前很有可能多多少少听闻过 GPT-3,OpenAI 全新的语言模型,称得上地表最强语言模型,也被觉得是颠覆性的人工智能技术模型。此外也有 BERT、Switch Transformer 等超重量级商品,并且业界其它公司也在勤奋发布自己的模型。

微软公司和英伟达今日公布了由 DeepSpeed 和 Megatron 推动的 Megatron-Turing 自然语言转化成模型(MT-NLG),这也是目前为止练习的最高和最强有力的编解码语言模型。

豪迪群发器掌握到,做为 Turing NLG 17B 和 Megatron-LM 的继任,这一模型包含 5300 亿次主要参数,并且 MT-NLG 的主要参数总数是类似目前较大模型 GPT-3 的 3 倍,并在一系列普遍的自然语言每日任务中展现了无可挑剔的精确性,比如:

  • 进行预测分析

  • 阅读和理解

  • 常识推理

  • 自然语言逻辑推理

  • 词意消歧

105 层、根据转化器的 MT-NLG 在零、单和少样版设定中改善了此前最领先的模型,并为2个模型经营规模的规模性语言模型设置了新标准和品质。

据了解,模型练习是在根据 NVIDIA DGX SuperPOD 的 Selene 超级计算机内以混和精密度进行的,该超级计算机由 560 个 DGX A100 网络服务器给予适用,这种网络服务器以完善的胖树(FatTree)配备与 HDR InfiniBand 连接网络。每一个 DGX A100 有 8 个 NVIDIA A100 80GB Tensor Core GPU,根据 NVLink 和 NVSwitch 互相彻底联接。微软公司 Azure NDv4 云超级计算机应用了相近的参照构架。

大量內容可查询微软公司和英伟达官方网表明:

微软公司

英伟达