知识库
AI模型参数与硬件知识
什么是参数量?
参数量(Parameters)是衡量大模型规模的指标,表示模型中权重参数的数量。 例如 GPT-3 有 175B 参数,即约1750亿个参数。
常见规模分类:
- • 小模型:<1B (适合边缘设备)
- • 中模型:1B-10B (消费级GPU可运行)
- • 大模型:10B-100B (需要多GPU)
- • 超大模型:>100B (需要数据中心)
什么是上下文长度?
上下文长度(Context Length)是模型能处理的输入文本最大长度。 更长的上下文意味着模型可以理解更长的文档或对话历史。
常见长度:
- • 4K:传统长度,适合简单对话
- • 32K:中等长度,适合长文档
- • 128K:超长上下文,如GPT-4 Turbo
- • 200K:Claude 3的极限长度
如何计算显存需求?
模型显存需求 ≈ 参数量 × 每参数字节数 × 1.3(含KV Cache开销)
计算公式:
- • FP32: 参数量 × 4字节 × 1.3
- • FP16: 参数量 × 2字节 × 1.3
- • INT8: 参数量 × 1字节 × 1.3
- • INT4: 参数量 × 0.5字节 × 1.3
什么是量化?
量化(Quantization)是将模型参数从高精度转换为低精度,减少显存占用和计算量。 如FP16→INT8→INT4,精度损失可控,资源节省显著。
量化效果:
- • FP32→FP16: 显存减半,精度基本不变
- • FP16→INT8: 显存再减半,精度略降
- • INT8→INT4: 显存再减半,需特殊技术
什么是MMLU?
MMLU(Massive Multitask Language Understanding)是评估大模型综合能力的标准测试集, 覆盖57个学科领域,分数越高代表模型知识面越广。
分数参考:
- • 60-70%:入门级,如GPT-3
- • 70-80%:中等水平,如Llama 2 70B
- • 80-90%:优秀水平,如GPT-4、Claude 3
什么是HumanEval?
HumanEval是评估模型代码能力的测试集,包含164个编程题目。 分数表示模型能正确完成的题目比例。
分数参考:
- • 20-30%:基础代码能力
- • 40-50%:中等代码能力
- • 80%+:优秀代码能力,如Claude 3 Opus
GPU选型指南
| 需求场景 | 推荐GPU | 显存需求 | 预算范围 |
|---|---|---|---|
| 个人学习/推理7B | RTX 3060 12GB | 12-16GB | $300 |
| 个人开发/推理13B | RTX 3090/4090 | 24GB | $700-$1600 |
| 小团队训练/推理70B | A100 40GB x2 | 80GB | $12,000 |
| 企业训练大模型 | H100 80GB集群 | 数百GB | $30,000+ |