home..

通向AGI之路:大型语言模型(LLM)技术精要

0. 引言

1. NLP研究范式的转换

范式转换1.0:从深度学习到两阶段预训练模型

影响一:中间任务的消亡

NLP 任务 = 中间任务 + 最终任务 (例子) 中间任务消退是必然。

影响二:不同研究方向技术路线的统一

最终任务 = 自然语言理解类任务(文本分类、句子关系判断、情感倾向判断$\rightarrow$分类任务) + 自然语言生成类任务(聊天机器人、机器翻译、文本摘要、问答系统)

范式转换2.0: 从预训练模型走向通用人工智能

过渡期:以 GPT-3 为代表的“自回归语言模型+Prompting”模式占据统治地位

影响一:让LLM适配人的新型交互接口

chatGPT 是对 prompting 的一种迭代

影响二:很多NLP子领域不再具备独立研究价值

判准:

影响三:更多NLP之外的研究领域将被纳入LLM技术体系

多模态

2. GPT-3 之后的主流技术进展

知识 / 接口

2.1 知识

学习知识

存储知识

transformer 的 FFN :Key-Value存储器(有待继续研究)

修正存储的知识

  1. 修正训练数据
  2. 做一次finetune
  3. 改模型参数
    • 怎么定位存储位置
    • 怎么修正模型参数

2.2 规模效应

2.3. 人机接口

In Context Learning

ICL到底是怎么工作的?

Instruct

关于Instruct研究的两个路线:偏学术研究的Instruct,以及关于人类真实需求描述的Instruct

In Context Learning和Instruct的联系

能不能给一些例子,让LLM来找对应的instruct Large Language Models Are Human-Level Prompt Engineers

2.4 推理能力

Prompt

加入代码

关于LLM推理能力的思考

问题 $\rightarrow$ 流程图 $\rightarrow$ LLM 目前难点在于如何生成这张流程图

3. LLM研究趋势及值得研究的重点方向

3.1 规模

继续扩大LLM规模

3.2 推理

增强LLM的复杂推理能力

3.3 多模态

3.4 交互接口

3.5 评价体系

3.6 数据

3.7 加速

4. 复刻ChatGPT时要注意些什么

  1. 模型选择:用AR这种语言模型
  2. 推理能力:加入代码预训练
  3. 减少参数:
    • 用更多高质量训练数据
    • 文本检索(Retrieval based)模型+LLM(?)
  4. 控制成本(加速):LLM模型Sparse化
  5. 数据:增加数据多样性
  6. 接口:从最终用户那里收集任务表述方式
© 2023 huyi   •  Powered by Soopr   •  Theme  Moonwalk