基于飞桨PaddlePaddle的NLP预训练模型百度ERNIE 2.0发布

时间:2019-09-01 来源: 热点专题
?

Chinanews.com 7月31日2019年3月,百度正式发布了NLP模型ERNIE,它在中国的使命中超越了BERT,引起了业界的广泛关注和讨论。

今天,仅仅几个月后,百度ERNIE就升级了。发布用于持续学习的语义理解框架ERNIE 2.0,以及基于该框架的ERNIE 2.0预训练模型。在1.0之后,ERNIE在英语任务方面取得了新的突破,在16项中英文任务中超越了BERT和XLNet,实现了SOTA效果。目前,百度ERNIE 2.0的微调代码和英语预训练模型都是开源的。 (Github项目地址:

在过去两年中,由BERT和XLNet代表的无监督预训练技术在许多自然语言处理任务中取得了技术突破,如语言推理,语义相似性,命名实体识别和情感分析。基于大规模数据的无监督预训练技术已成为自然语言处理领域的关键。

百度发现,以前的工作主要是使用单词或句子的共现信号来构建模型预训练的语言模型任务。例如,BERT由掩码语言模型和下一句子预测任务预先训练。 XLNet构建了一个完全排列的语言模型,并通过自回归方法对其进行预先训练。

然而,除了语言共现信息之外,语料库还包含更有价值的信息,例如词汇,语法和语义。例如,诸如人名,地点和机构之类的单词的概念知识,诸如句子之间的顺序和距离关系的结构知识,文本语义相似性的语义相似性和语言逻辑。想象一下,如果可以不断研究各种任务,是否可以进一步改善模型的效果?

c9a7c002d9394a84be6b5cd2b51f16a3.jpg

ERNIE 2.0:可持续学习语义理解框架

在此基础上,百度提出了ERNIE 2.0可持续学习语义框架。该框架支持三个级别的自定义预训练任务,如词法,句法和语义,以完全捕获训练语料库中的词汇,语法和语义信息。这些任务通过多任务处理来训练和更新模型。每当引入新任务时,框架都可以学习任务而不会忘记之前学过的信息。这也意味着框架可以通过不断构建包括词汇,句法和语义的训练预训练任务来不断改进模型的效果。

6ea82f28cc99465485c3f4e5a5c78102.jpg

新发布的ERNIE 2.0模型结构

依托该框架,百度充分利用了飞桨PaddlePaddle多机分布式培训的优势,使用了79亿令牌训练数据(约占XLNet数据的1/4)和64 V100(约占XLNet硬件计算能力的1/8)培训ERNIE 2.0预培训模型不仅实现了SOTA效果,还为开发人员提供了定制自己的NLP模型的解决方案。目前,百度已经开放了ERNIE 2.0的微调代码和英语预训练模型。

百度研究团队比较了这些模型在中英文环境中的影响。在英语中,ERNIE 2.0在自然语言理解数据集GLUE的七个任务中击败了BERT和XLNet。在中文方面,它超越了BERT并在九个不同的数据集上更新了SOTA,包括阅读理解,情感分析和问答。

ERNIE的工作表明,在预训练过程中,通过在各个层面构建无人监督的预训练任务,可以显着提高模型效果。在未来,研究人员可以沿着这一思路构建更多的任务增强。

自从2018年预训练语言模型BERT引入以来,预训练语言模型已将大部分自然语言处理水平提升到更高水平,并且该领域的研究也引发了繁荣。现在百度ERNIE 2.0再次为行业提供了研究思路的方法论创新,可持续学习的特点也将成为NLP领域发展的一个注脚。

频道热点
  1. 13:02:01OxygenVoice每个人都非常熟悉李宇春这个名字。“超级女声”冠军首次亮相,她自己的人气也很高,近年来李宇春因为个人着装形象的转变而成为时尚达人。人。最近,李宇春终于放弃了凉爽的
  2. 如今,许多农民家庭也非常富裕。今天的农民与20世纪80年代的农民不同。在20世纪80年代,农民非常努力。在家
  3. 战斗江湖文章今天,武术大师王占军的高凡,范帅昕,强烈打电话给MMA战斗教练武林打一个假武士,因为一个瓜?
  4. ?印度和巴基斯坦在有争议的克什米尔地区处于紧张对峙状态,印度政府在国会宣布废除克什米尔的“特殊地位”预计将进一步加剧该地区的紧张局势。根据英国广播公司(BBC)8月5日的一份报告,在成千上万的印度士兵
  5. 13:02:01OxygenVoice每个人都非常熟悉李宇春这个名字。“超级女声”冠军首次亮相,她自己的人气也很高,近年来李宇春因为个人着装形象的转变而成为时尚达人。人。最近,李宇春终于放弃了凉爽的
  6. 我想分享的原始历史小屋昨天我们优秀的红色代理商层出不穷,但由于代理商工作的特殊性和危险性,很少有女性
  7. SaaS漏洞见2019.8.5我想分享随着八月旺季的到来,服装市场逐渐回暖,许多表现惨淡的商店开始再次忙碌起来。它在秋冬季即将成为新品,但许多春夏服装仍在仓库中。新货变成了明年的垃圾,最后放弃了角落
  8. ?Chinanews.com7月31日2019年3月,百度正式发布了NLP模型ERNIE,它在中国的使命中超越了BERT,引起了业界的广泛关注和讨论。今天,仅仅几个月后,百度ERNIE就升级了。发布用
  9. ?印度和巴基斯坦在有争议的克什米尔地区处于紧张对峙状态,印度政府在国会宣布废除克什米尔的“特殊地位”预计将进一步加剧该地区的紧张局势。根据英国广播公司(BBC)8月5日的一份报告,在成千上万的印度士兵
  10. ?Chinanews.com7月31日2019年3月,百度正式发布了NLP模型ERNIE,它在中国的使命中超越了BERT,引起了业界的广泛关注和讨论。今天,仅仅几个月后,百度ERNIE就升级了。发布用
新闻排行
  1. ?我必须在3天前在公共机构分享考试■本文约1211字?6分钟阅读公共基础知识1.根据《中华人民共和国物权法》,丢失的财产归________所有。A.挑选人B.失去所有者C.集体D.国家1.[答案]:收

    ?我必须在3天前在公共机构分享考试■本文约1211字?6分钟阅读公共基础知识1.根据《中华人民共和国物权法》,丢失的财产归________所有。A.挑选人B.失去所有者C.集体D.国家1.[答案]:收...

  2.   7月11日上午,市公安局副局长、交警支队支队长韩毅,市公安局交警支队党总支委员、政工科科长张天益,?

      7月11日上午,市公安局副局长、交警支队支队长韩毅,市公安局交警支队党总支委员、政工科科长张天益,?...

  3. 当我们都看宫廷剧时,我们会知道皇帝是第三宫和第六宫的女人。但毕竟只有皇帝才是男人,没有办法做雨露。为

    当我们都看宫廷剧时,我们会知道皇帝是第三宫和第六宫的女人。但毕竟只有皇帝才是男人,没有办法做雨露。为...

  4. ?总结新浪外汇消息,周四凌晨2点,美联储宣布如期降息25个基点,联邦基金利率降至2.00%-2.25%,这是自2008年底以来首次降息。两位美联储官员,即堪萨斯城联邦储备银行总裁乔治和波士顿联邦储备银

    ?总结新浪外汇消息,周四凌晨2点,美联储宣布如期降息25个基点,联邦基金利率降至2.00%-2.25%,这是自2008年底以来首次降息。两位美联储官员,即堪萨斯城联邦储备银行总裁乔治和波士顿联邦储备银...

  5.   现在的国内经济发展是非常快速的,好比是在十几年前当时,我们的国内奢侈品可能是汽车。毕竟,当时汽车

      现在的国内经济发展是非常快速的,好比是在十几年前当时,我们的国内奢侈品可能是汽车。毕竟,当时汽车...

  6. ?  警惕“律师追债”幌子背后的违法勾当贵阳一起涉黑案成功办理的启示  新华社贵阳8月13日电题:警惕“律师追债”幌子背后的违法勾当贵阳一起涉黑案成功办理的启示  新华社记者汪军  “江太国涉黑案的侦

    ?  警惕“律师追债”幌子背后的违法勾当贵阳一起涉黑案成功办理的启示  新华社贵阳8月13日电题:警惕“律师追债”幌子背后的违法勾当贵阳一起涉黑案成功办理的启示  新华社记者汪军  “江太国涉黑案的侦...

  7. 分散在山东一代的红眉军和湖北一代的格林伍德军就像两组火。短短几年,他们突然变成了绥远的火焰。红眉军队

    分散在山东一代的红眉军和湖北一代的格林伍德军就像两组火。短短几年,他们突然变成了绥远的火焰。红眉军队...

  8.   8月12日,2020款哪吒N01正式上市,新车推出7款车型,补贴后售价6.68万-7.99万元之间。作为年代改款车型

      8月12日,2020款哪吒N01正式上市,新车推出7款车型,补贴后售价6.68万-7.99万元之间。作为年代改款车型...

  9. ?中国新闻社北京8月13日电(记者李晓宇)中华人民共和国商务部13日发布的最新数据显示,中国7月份的对外投资达到548.2亿元人民币(下同),同比增长8.7%。新高。前七个月,中国对外投资5331.4

    ?中国新闻社北京8月13日电(记者李晓宇)中华人民共和国商务部13日发布的最新数据显示,中国7月份的对外投资达到548.2亿元人民币(下同),同比增长8.7%。新高。前七个月,中国对外投资5331.4...

  10. ?热点自选股票数据中心市场中心资金流动模拟交易客户端阿根廷证券交易所债券崩溃全球市场影响几何□记者张英和证券交易所债务“三杀”12日,阿根廷股市,外汇市场和债券市场遭遇“三杀”。白天,阿根廷比索兑美元

    ?热点自选股票数据中心市场中心资金流动模拟交易客户端阿根廷证券交易所债券崩溃全球市场影响几何□记者张英和证券交易所债务“三杀”12日,阿根廷股市,外汇市场和债券市场遭遇“三杀”。白天,阿根廷比索兑美元...

友情链接