home..
in the era of Large Language Model
huyi / December 2022
1. 语言模型
传统范式:pre-train + fine-tune
当大模型不再开源 / 用户缺乏足够计算资源使用大模型
解决方法:
- 人工设计一些模板来匹配大模型
- 诸如GPT-3的In-context learning ,在应用中只使用大模型的前向过程,而不进行计算成本较高的反向过程
- 基于GPT的方式,下游应用方只需要人工编造少量的样例,便可以激活GPT大模型在特定任务上的表现,从而服务于下游的应用。比如使用GPT生成一个网页或者将自然语言转化为数学公式。
- 目前的大模型运用方式普遍为上游产商开放大模型应用的API,下游应用方使用一些标注的数据来打造其在特定场景下的的特定功能。
- 相对于传统的Fine-tuning模式,这种方法在诸多情况下的性能仍然有待提高。
2. 统一的基础模型
依据目标的不同,自然语言处理的任务可以分为七个主要范式:
- 分类
- 匹配
- 序列标注
- 机器阅读理解
- Seq2Seq
- Seq2ASeq
- 语言模型范式
而随着下游应用需求的变化,目前主流的三个范式是:机器阅读理解、Seq2Seq和语言模型。一个基础的语言模型应当围绕着上述几个主要的范式进行针对性构建,以解决大部分自然语言处理问题。
3. 更高效地调节算法
传统做法:
- text prompt 通过人工设计一些基于文本的Prompt,激活大模型面向特定下游任务的能力。但是手工设计偏向于特征工程问题,需要工程师依据既往经验不断调试,十分耗费精力。
- in-context learning In-context learning 在GPT模型上展现了良好的表现,但在其他范式的模型上还需要进一步的验证。但是这种手段开辟了一个极具前景的方向,值得学界和工业界继续共同研究。
- 数据生成 (data generation) 不同于直接使用大模型,这种手段是使用大模型生成一定量的数据,再利用生成的数据训练一个小体量的模型,以追求在小样本场景下的应用效果。
- 特征学习 (feature-based learning) 把预训练模型的输出作为一种 Feature,并结合标签,输入给一些特定的模型,使参数由标签空间向特征空间靠拢,极大地减轻了端侧优化的负担。
邱团队:
- 标签调试
- 黑箱优化 (Black-box optimization) 即上文所述的Black-box tuning,让用户根据推理API的返回结果,使用基于搜索的无梯度优化方法自己优化prompt。