三大成本:

  • 计算成本
  • 内存访问成本
  • 内存占用成本

对大模型的推理加速流派做一个总结,分类如下图:

640

# 数据层优化

# 输入压缩技术

提示词剪枝:即去除提示词里的废话,保留有用信息

提示词总结:对很长的提示词(整篇 word)概括一个 summary,以此作为提示词的浓缩交给模型

软提示词:在输入文本前加入一些向量,这些向量可以激活大模型某一方面的知识,然后得到更好的效果。软提示词是可训练迭代的向量,先冻结大模型的参数,推理微调,更新软提示词;不断循环直到软提示词效果不错,不改了 —— 最后推理就是最终结果。

检索增强生成(RAG):也就是所谓的大模型联网。通过检索和输入相关的辅助内容,并只将这些相关的内容加入到输入提示词中,来降低原本的输入长度(相比于加入所有辅助内容)

# 输出规划技术

规划输出内容,尽量并行生成某些部分的,以此优化推理延时。比如思维骨架方法(SoT),最终回复依总分结构并行生成,如下图:

6401

# 模型层优化

# 高效结构设计

  • 改造 FFN:比如 MOE 技术,还有 deepseek 搞的更多专家激活、共享基础知识的 MOE
  • 改造 MHA:共享 KV 的多询问注意力技术;核函数算子替换 softmax、低秩算子
  • 寻找线性架构替代 Transformer

# 模型压缩

  • 量化:训练后量化、训练感知量化
  • 模型稀疏:权重剪枝、注意力稀疏

to be continued…

总访问量:加载中...更新于

谢谢你请我喝[茶]!(๑OvO๑)♪

柳小寒寒子 微信支付

微信支付