大模型训练算力分析
2023-12-27 17:49:15 0 举报
大模型训练需求暴涨,GPU供不应求
作者其他创作
大纲/内容
成本
微调阶段
GPT3(175B) 3640 PFLops:35000块 A100/1天 或 1024块 A100 跑 1个月
•需求当前大模型参数量在百亿至千亿参数规模,在训练阶段,对芯片的需求从CPU+加速器转变为以GPU主导的大规模并行计算。未来,当多数大模型参数规模到达万亿级别,将产生更大的算力需求。在单芯片性能之上,智算中心能够通过算力的生产-调度-聚合-释放,支持AI产业化发展。• 缺口目前市场对于英伟达芯片的需求远大于供给。经测算,一万枚英伟达A100芯片是做好AI大模型的算力门槛。国内具备此量级的公司最多只有1家,而GPU芯片持有量超过一万枚的企业不超过5家。
训练阶段(单次成本)
算力需求
单次 GPT-3 Small(1.25亿)计算量 2.6PFlops/天单次 GPT-3 XL 计算量为 27.5 PFlops/天单次GPT-3(175B)计算量 3640 PFLops/天
采用A100或V100设备
运营的算力成本:~1100万美元/月
单次训练成本:>1200万美元
推理阶段(日常运营)
ChatGPT 2023年2月官网总访问量 11亿次;用户每次与ChatGPT互动的云计算成本成为约0.01美元;保守预估,假设用户每次访问网站只进行一次互动
预计算力1350.4 PFlops/天
芯片需求
大模型训练需求暴涨,GPU供不应求
13000块 A100/1天 或 433 块 A100 跑 1个月
成本:920万/月
0 条评论
下一页