知识库

AI模型参数与硬件知识

什么是参数量?

参数量(Parameters)是衡量大模型规模的指标,表示模型中权重参数的数量。 例如 GPT-3 有 175B 参数,即约1750亿个参数。

常见规模分类:
  • • 小模型:<1B (适合边缘设备)
  • • 中模型:1B-10B (消费级GPU可运行)
  • • 大模型:10B-100B (需要多GPU)
  • • 超大模型:>100B (需要数据中心)

什么是上下文长度?

上下文长度(Context Length)是模型能处理的输入文本最大长度。 更长的上下文意味着模型可以理解更长的文档或对话历史。

常见长度:
  • • 4K:传统长度,适合简单对话
  • • 32K:中等长度,适合长文档
  • • 128K:超长上下文,如GPT-4 Turbo
  • • 200K:Claude 3的极限长度

如何计算显存需求?

模型显存需求 ≈ 参数量 × 每参数字节数 × 1.3(含KV Cache开销)

计算公式:
  • • FP32: 参数量 × 4字节 × 1.3
  • • FP16: 参数量 × 2字节 × 1.3
  • • INT8: 参数量 × 1字节 × 1.3
  • • INT4: 参数量 × 0.5字节 × 1.3

什么是量化?

量化(Quantization)是将模型参数从高精度转换为低精度,减少显存占用和计算量。 如FP16→INT8→INT4,精度损失可控,资源节省显著。

量化效果:
  • • FP32→FP16: 显存减半,精度基本不变
  • • FP16→INT8: 显存再减半,精度略降
  • • INT8→INT4: 显存再减半,需特殊技术

什么是MMLU?

MMLU(Massive Multitask Language Understanding)是评估大模型综合能力的标准测试集, 覆盖57个学科领域,分数越高代表模型知识面越广。

分数参考:
  • • 60-70%:入门级,如GPT-3
  • • 70-80%:中等水平,如Llama 2 70B
  • • 80-90%:优秀水平,如GPT-4、Claude 3

什么是HumanEval?

HumanEval是评估模型代码能力的测试集,包含164个编程题目。 分数表示模型能正确完成的题目比例。

分数参考:
  • • 20-30%:基础代码能力
  • • 40-50%:中等代码能力
  • • 80%+:优秀代码能力,如Claude 3 Opus

GPU选型指南

需求场景 推荐GPU 显存需求 预算范围
个人学习/推理7BRTX 3060 12GB12-16GB$300
个人开发/推理13BRTX 3090/409024GB$700-$1600
小团队训练/推理70BA100 40GB x280GB$12,000
企业训练大模型H100 80GB集群数百GB$30,000+