RoBERTa模型
2023-04-11 17:52:28 1 举报
RoBERTa 相较于 BERT 模型,RoBERTa 在预训练阶段,采用了更多的语料以及动态掩码机制(不同轮次同一样本掩码不同的单词),去掉了下一 句预测任务,同时采用了更大的批大小。
作者其他创作
大纲/内容
Extract
Linear
Text & Position Embed
Feed Forward
Transformer
Context
Start
Multiple Choice
Text 1
TextClassifier
Premise
Similarity
Layer Norm
Delim
Text
Text 2
Answer 1
Entailment
Masked MultiSelf Attention
tips:- 图中涉及数据来源于克劳锐指数研究院2023数据- 模型已锁定,解锁后可去除水印,调整色块及文字等- 解锁方法1、全选-鼠标右键-解锁2、全选-导航-排列-解锁
Hypothesis
TextPrediction
Classification
12X
Answer 2
Answer N
0 条评论
下一页