AI论文综述:语言模型是无监督多任务学习者(GPT-2)
freeCodeCamp.org3193 字 (约 13 分钟)
92
GPT-2证明仅通过无监督的下一词预测训练,大语言模型可自发涌现出多任务能力,无需任务特定微调即可实现翻译、问答和摘要等功能。
入选理由:GPT-2在800万网页文本上训练,参数量达15亿,首次展示零样本迁移能力。
精选文章#GPT-2#大语言模型#零样本学习#Transformer英文
人物
别名:@AlecRad
GPT-2论文主要作者之一,深度学习与生成模型专家。
已收录 3 条与 Alec Radford 相关的内容,按评分排序。
GPT-2证明仅通过无监督的下一词预测训练,大语言模型可自发涌现出多任务能力,无需任务特定微调即可实现翻译、问答和摘要等功能。
入选理由:GPT-2在800万网页文本上训练,参数量达15亿,首次展示零样本迁移能力。
GPT-1 提出通过无监督生成式预训练加任务微调的两阶段方法,显著提升自然语言理解能力,奠定大模型发展基础。
入选理由:GPT-1 采用无监督预训练与有监督微调结合的两阶段范式,提升多任务NLP性能。
该推文仅提及名为 'talkie' 的项目由三位开发者创建,无技术细节、功能说明或上下文,信息密度极低。
入选理由:未说明 talkie 是什么类型的产品或技术