三大成本:
- 计算成本
- 内存访问成本
- 内存占用成本
对大模型的推理加速流派做一个总结,分类如下图:
# 数据层优化
# 输入压缩技术
提示词剪枝:即去除提示词里的废话,保留有用信息
提示词总结:对很长的提示词(整篇 word)概括一个 summary,以此作为提示词的浓缩交给模型
软提示词:在输入文本前加入一些向量,这些向量可以激活大模型某一方面的知识,然后得到更好的效果。软提示词是可训练迭代的向量,先冻结大模型的参数,推理微调,更新软提示词;不断循环直到软提示词效果不错,不改了 —— 最后推理就是最终结果。
检索增强生成(RAG):也就是所谓的大模型联网。通过检索和输入相关的辅助内容,并只将这些相关的内容加入到输入提示词中,来降低原本的输入长度(相比于加入所有辅助内容)
# 输出规划技术
规划输出内容,尽量并行生成某些部分的,以此优化推理延时。比如思维骨架方法(SoT),最终回复依总分结构并行生成,如下图:
# 模型层优化
# 高效结构设计
- 改造 FFN:比如 MOE 技术,还有 deepseek 搞的更多专家激活、共享基础知识的 MOE
- 改造 MHA:共享 KV 的多询问注意力技术;核函数算子替换 softmax、低秩算子
- 寻找线性架构替代 Transformer
# 模型压缩
- 量化:训练后量化、训练感知量化
- 模型稀疏:权重剪枝、注意力稀疏
to be continued…