ERNIE 2.0 详解

时间:2019-12-06 17:58:16   收藏:0   阅读:467

更新中

更新时间:2019-12-06 17:43:27

实验需要,在自己学习的过程中做如下笔记,欢迎指正,欢迎交流。

 

 先看一下ERNIE 2.0的架构图:

 技术分享图片

Application中,可以看到ernie支持各类NLP任务,在model的部分,基于百度的大数据及先验知识构建任务,进行基于多任务的预训练。

 

Pre-Training 任务

针对 ERNIE 2.0 模型,我们构建了多个预训练任务,试图从 3 个层面去更好的理解训练语料中蕴含的信息:

同时,针对不同的 pre-training 任务,ERNIE 2.0 引入了 Task Embedding 来精细化地建模不同类型的任务。不同的任务用从 0 到 N 的 ID 表示,每个 ID 代表了不同的预训练任务。

技术分享图片

Word-aware Tasks

Knowledge Masking Task
Capitalization Prediction Task
Token-Document Relation Prediction Task

Structure-aware Tasks

Sentence Reordering Task
Sentence Distance Task

Semantic-aware Tasks

Discourse Relation Task
IR Relevance Task

ERNIE 1.0: Enhanced Representation through kNowledge IntEgration

ERNIE 1.0 通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识。相较于 BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力。

这里我们举个例子:

Learnt by BERT :哈 [mask] 滨是 [mask] 龙江的省会,[mask] 际冰 [mask] 文化名城。

Learnt by ERNIE:[mask] [mask] [mask] 是黑龙江的省会,国际 [mask] [mask] 文化名城。

在 BERT 模型中,我们通过『哈』与『滨』的局部共现,即可判断出『尔』字,模型没有学习与『哈尔滨』相关的任何知识。而 ERNIE 通过学习词与实体的表达,使模型能够建模出『哈尔滨』与『黑龙江』的关系,学到『哈尔滨』是 『黑龙江』的省会以及『哈尔滨』是个冰雪城市。

训练数据方面,除百科类、资讯类中文语料外,ERNIE 还引入了论坛对话类数据,利用 DLM(Dialogue Language Model)建模 Query-Response 对话结构,将对话 Pair 对作为输入,引入 Dialogue Embedding 标识对话的角色,利用 Dialogue Response Loss 学习对话的隐式关系,进一步提升模型的语义表示能力。

对比 ERNIE 1.0 和 ERNIE 2.0

Pre-Training Tasks

 

任务ERNIE 1.0 模型ERNIE 2.0 英文模型ERNIE 2.0 中文模型
Word-aware ? Knowledge Masking ? Knowledge Masking
? Capitalization Prediction
? Token-Document Relation Prediction
? Knowledge Masking
Structure-aware   ? Sentence Reordering ? Sentence Reordering
? Sentence Distance
Semantic-aware ? Next Sentence Prediction ? Discourse Relation ? Discourse Relation
? IR Relevance

 

 

 

原文:https://www.cnblogs.com/shona/p/11996759.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!