# 术语概念

QBR：季度商业回顾，就是周会 PLUS 版，听众是客户
NPS = "客户觉得你怎么样"（主观感受分）；P2S = "你干了多少活"（客观工作量分）
360 评估：就是 "全方位立体评价"—— 你身边所有人都来给你打分
EPS 部门：Enterprise Partnership & Solutions，企业合作与解决方案
CSM 部门：Customer Success Manager，客户成功经理
灰度：小范围试点
在技术里，TCC 就是 “分布式事务” 的一种保证方法：
1. Try 阶段：先检查所有资源是否可用（比如检查账户余额够不够）
2. Confirm 阶段：确认所有检查都 OK，正式执行操作（正式扣款）
3. Cancel 阶段：如果任何一步出问题，回滚到之前的状态（退款）
变更相关名词：
1. 封网期：只能看，不能改动，防止关键时间点出问题。稳定能跑压倒一切。
2. 窗口期：允许做系统变更的时间段，这时候员工 ready，有问题了可以及时处理
3. 熔断期：系统出问题后，自动进入的 “冷静期”
CLB：负载均衡器，流量进来之后 “分流”，健康检查（坏机器自动踢掉），自动扩容（加机器不用改入口），工作在网络层（IP/TCP 级别）
EIP：弹性公网 IP，提供稳定的公网入口地址，IP 和机器解耦
veFaaS：志节火焰山版 FaaS
信创 = 中国自己说了算的 IT 软硬件生态≈ 国产自研 + 国产可控 + 国产替代
proxy 和 gateway
1. Proxy = 代理：简单转发，只管 “把请求递过去”，像传话筒。
2. Gateway = 网关：统一入口 + 一堆管控能力，像前台 + 保安 + 调度 + 监控。
ES（Elasticsearch）内容搜索是基于倒排索引技术实现的分布式全文检索引擎，专门用于对海量文本数据进行快速、泛化的搜索。
TOS 对象存储、EBS 对象存储、文件存储：
- TOS：通过链接 / API 分享，谁都能访问；最大优点：便宜！ 能自动把不常用的文件挪到更便宜的 "冷库"
- EBS 块存储：只能给一台虚拟机用，别人访问不了；最大优点：** 快！稳！** 适用于操作系统、数据库
- 文件存储：多台服务器都能同时访问；最大优点：大家一起用！ 不会出现 "你改了我看不到" 的问题
  - NAS（文件存储 NAS）
    
    特点：传统稳重，像你们公司用了多年的老牌共享盘
    
    适合：中小型企业文件共享、Web 服务、代码仓库
    
    优点：够用不贵
  - EFS（弹性文件存储）
    
    特点：灵活聪明，像新时代的智能共享盘
    
    适合：AI 训练、自动驾驶、需要弹性伸缩的场景
    
    优点：能伸能缩，按需付费
  - vePFS（并行文件存储）
    
    特点：性能猛兽，像专业赛车
    
    适合：大模型训练、HPC 高性能计算、影视渲染
    
    优点：TB/s 吞吐，千万级 IOPS
    
    做短视频 APP 的 → TOS + 智能分层
    
    （"哥，不常看的视频自动存便宜区，能省 70%"）
    
    搞金融系统的 → EBS 极速型
    
    （"大哥，比本地 SSD 还快，9 个 9 可靠性保证"）
    
    做 AI 训练的 → vePFS 并行文件存储
    
    （"博士，TB/s 吞吐量，千卡同时读不排队"）
    
    传统企业 IT → EFS 文件存储
    
    （"领导，跟您现在的共享盘一样用，还能手机访问"）
    文件 vs 对象 = 文件夹操作 vs 链接分享
    - 文件操作（像在电脑里操作文件夹）
      
      打开文件夹 → 找到文件 → 双击打开 → 编辑 → 保存
      
      整个过程你 "知道" 文件在哪个文件夹、叫什么名字、多大
    - 对象操作（像在微信里发文件）
      
      点 "+" 号 → 选文件 → 发送 → 别人收到的是个链接
      
      整个过程你 "不知道" 文件存在服务器的哪个位置
KV Cache vs Context Cache：KV Cache 是为了让模型当下算得快；Context Cache 是为了把算好的 KV Cache 存起来，让模型下次不用重算。
- ❓ 核心误区：为什么连续对话不能自动 100% 命中缓存？
  
  答：因为显存太贵，服务器等不起你。
  
  你发完一句话，服务器生成回答后，为了把显存让给其他用户，会立刻清空你的缓存。
  
  当你发下一句时，前端其实是把 “历史记录 + 新问题” 打包重发，服务器只能从头重算一遍。
- KV Cache（底层机制：算草纸）
  
  通俗比喻：做数学题的算草纸。
  
  是什么：模型为了不每次都重算前面的字，把中间计算结果临时存下来。
  
  作用范围：仅限当前这一次点击发送。生命周期极短（用完即扔），本次回答一生成完，立刻销毁。
- Context Cache / Prompt Cache（高级功能：档案柜）
  
  通俗比喻：厚书的精华笔记。
  
  是什么：为了不每次都重读长文档 / 长对话，系统把算好的 KV Cache 单独存到硬盘或内存里，贴上标签。
  
  作用范围：跨请求 / 跨用户共享。只要发来的文本开头一模一样（比如同一本 PDF），直接调出笔记，瞬间理解；生命周期较长（按需保留）**，** 可以存活几分钟到几天
GA+CEN 云企业网

GA（Global Accelerator）是对外加速入口，负责解决 **“最后一公里”** 的问题，用户访问你服务时，就近接入（离用户最近的节点）连上云网络，而不是走公网海底跨国电缆；
CEN（Cloud Enterprise Network）云企业网是对内打通网络，解决 **“主干道”** 的问题，提供一条跨越国家和城市的高质量、无拥堵的专属传输通道

两者配合，就能让全球各地的用户在访问你的应用时，感觉就像访问本地的网站一样顺畅，极大地降低了延迟。

VPC（Virtual Private Cloud）： ** 让多个云上私有网络打通，实现内网通信；** 两个 “原本隔离的局域网”，比如东京的 A 和上海的 B，可以互相访问了，可以像在同一个内网一样通信，直接访问内网 IP，不需要走公网
QPS 我们 CSM 一般只关注跳变，一个 query 可以包含多个问题，消耗的 token 也不同
不同的 context 管理

a. 透明缓存：自动的、默认开启的缓存机制，系统自动识别

b. 前缀缓存（显式缓存）：手动设置，主动标记

c. Session 缓存：会话级别的缓存，专门为多轮对话设计，自动管理整个对话历史
badcase 是用来给产研团队改进方向的，低级错误不需要；但是 bad case 文档（支持记录文档）要记录一切
"开白" 是为客户开通特定产品、功能或服务的访问权限的简称。具体来说，就是让客户能够使用处于邀测、未公开或需要权限管控的相关服务。
GOC（Global Operations Center）即全球运行指挥中心，是稳定性保障核心团队。

# Prompt Engineering

指令优化 —> Few-shot—> COT—> Few-shot & COT

指令优化时需要针对客户提供收集的 case
- 最好 goodcase+badcase 数量多于 50；
- 两者都要有，good 的占比在 4-6 成；
- goodcase 多样随机化；每种 badcase 有两条及以上
有时 COT 和 Few-shot 会存在不可兼得指令冲突，所以得测试一下
将复杂任务拆解为多个简单任务

# 虚拟化原理

# x86

我们现在一般用 x86 代指 32 位架构，x64 代指 64 位架构；x64 是 x86 的 64 位升级版，向下兼容老 32 位程序。

x86 本源最早是英特尔 8086、80386 这类 CPU 代号，后来统称：
- ✅ 传统 32 位桌面 / 服务器 CPU 架构
- ❌ 不是 86 位！纯历史命名
x64（也叫 AMD64/x86-64） 是 AMD 在 2003 年于 x86 基础上扩展到 64 位：
- 民用 x64：AMD 发明，Intel 照搬（直接买授权、跟进兼容），全家通用；
- 当年纯原生 Intel 搞的 64 位 IA64（安腾）很失败，小众，基本绝迹
- 支持更大内存（32 位最多只用 4G 内存，64 位理论海量），运算效率更高，现在电脑 / 软件主流标配
现在用的电脑确实是 64 位的，但它本质上还是 x86 家族的。我们讨论虚拟化时说的 "x86"，指的是整个架构家族（包含 x64），因为 Ring 0-3 特权级机制、那些 "敏感但非特权" 的指令问题，在 32 位和 64 位模式下都存在。

x86（指令集家族）
├── IA-32（32位，俗称"x86"）
└── x86-64（64位，俗称"x64" / "AMD64"）

# 全虚拟化 VS 半虚拟化（早期）

	全虚拟化	半虚拟化
Guest OS	未修改，以为自己在 Ring 0	已修改，知道自己在虚拟化环境
特权指令处理	Trap (异常捕获) → Handle (翻译) → Emulate (模拟)（慢）	Hypercall 直接调用（快）
VMM 位置	Ring 0（真正的特权级）	Ring 0
Guest OS 位置	Ring 1（被降级，但 OS 不知道）	Ring 1（OS 主动配合）
兼容性	✅ 任意 OS 无需修改	❌ 需要改内核源码
性能	❌ 较差	✅ 接近原生

在全虚拟化中，还有一种技术叫 Binary Translation（二进制翻译），可以理解为全虚拟化技术的补丁

1964 年 Popek 和 Goldberg 提出了虚拟化的经典定理：一个架构要能被完美虚拟化，所有敏感指令（sensitive instructions）都必须是特权指令（privileged instructions）。

但 x86 不满足这个条件。x86 中有大约 17 条指令是 " 敏感但非特权 " 的，不会被 trap！

所以 Binary Translation 来填坑了：
全虚拟化（软件方式）= Trap-and-Emulate + Binary Translation
                        ↑                      ↑
                   处理"会Trap的"指令      处理"不会Trap的"指令
                   （CPU硬件机制自动触发）   （VMM 提前扫描改写，软件补偿）
后来 Intel 和 AMD 推出了硬件辅助虚拟化（Intel VT-x / AMD-V），让所有敏感指令都能被正确捕获，从根本上解决了这个问题

# VMM

VMM 全称 Virtual Machine Monitor，即虚拟机监控器，也常被称为 Hypervisor，是虚拟化技术的核心组件。

它是一种运行在物理主机硬件和虚拟机 (VM) 之间的中间层软件，是为了实现虚拟化引入的软件层，向下掌控实际的物理资源，也就是操作系统，向上提供标准化、隔离化的虚批以硬件平台。为了实现这一点，它截取虚拟机对物理机的访问，并重定向，让虚拟机以为自己独享整个物理资源。

# Type 1 Hypervisor：裸金属虚拟化

没有 Host OS**，VMM 自己就是 "操作系统"，独占 Ring 0**

产品如：VMware ESXi、Xen、Microsoft Hyper-V

这种方案里没有 Host OS 的概念。你用 ESXi 装服务器时会发现，开机后进入的就是一个很简陋的管理界面，它本身就是一个极度精简的 "操作系统"—— 但它的核心职责是管理虚拟机，而不是给你当桌面用。

所以我们之前讨论的 Ring 降级模型（Guest OS 放 Ring 1，VMM 放 Ring 0） 说的就是这种架构，根本不存在 "Host OS 和 VMM 抢 Ring 0" 的问题。

# Type 2 Hypervisor：宿主型虚拟化

Host OS 已经在 Ring 0，VMM 作为一个应用运行其上

这就是你日常用的 VMware Workstation、VirtualBox 的方式。你在 Windows/Linux 桌面上装一个虚拟化软件，打开窗口就能跑虚拟机。

此时，物理机的 Windows（Host OS）确实牢牢占据着 **Ring 0，**VMM 分为两部分：

一部分在 Ring 3 用户态程序（比如 GUI 界面，用户交互）
另一部分以 内核 **** 模块 / 驱动 的形式嵌入 Host OS，借用 Host OS 的 Ring 0 权限来做关键操作。

但这很别扭，因为 VMM 要依赖 Host OS，效率和隔离性都差，权限边界模糊、实现复杂。

# Intel-VT：硬件辅助虚拟化（当下）

VT-x 增加的是一个正交 **** 的、独立的维度：Root 模式 vs Non-Root 模式。它和 Ring 级别是两个独立的轴，不是在 Ring 上面再叠一层。也就是说：

             │  VMX Root（VMM的世界）  │  VMX Non-Root（Guest的世界）
─────────────┼───────────────────────┼───────────────────────────────────────────
Ring 0       │   VMM 内核			  	|  Guest OS 内核
Ring 1       │  （通常不用）			 │  （通常不用）
Ring 2       │  （通常不用）           │  （通常不用）
Ring 3       │  VMM 的用户态工具       │  Guest 应用程序

两个世界里各自都有完整的 Ring 0~3。Guest OS 在 Non-Root 模式的 Ring 0 里运行，它 "以为" 自己拥有最高权限，但 CPU 硬件知道这是 Non-Root 的 Ring 0，遇到敏感操作会自动 VM Exit 到 Root 模式。

Maas