智算中心
2024-12-03 08:44:08 6 举报
AI智能生成
智算中心
作者其他创作
大纲/内容
算力管理
管理
调度
监控
存储管理
网络管理
网络互联
RoCE无损网络
数据中心智能化运维
弹性供电
高效液冷
机房模块化设计
数据中心智能化运营
2、数据中心
算力(异构算力)
算力虚拟化、池化(VGPU、VCUDA)
GPU、CPU、NPU、FPGA
训练集群、推理集群
存储(存储共享、PB 级)
块存储、文件存储、对象存储
HBM(GPU 显存)、SSD、HDD
存储池化
多协议融合
S3
NFS
高吞叶性能
百 PB 级全闪存储
全局文件系统
冷热数据高效分级管理
网络(高速通信)
卡间互联:光通信(800G、1200G)
英伟达NVLink(800G、1800G)
华为HCCS(400G)
节点间互联:RDMA(InfiniBand)
交换机
网卡
IaaS 管理
虚机
容器(K8S)
容器编排
资源调度
资源隔离与共享
弹性伸缩与负载均衡
裸机
故障处理
故障检测
故障恢复
断点续训
安全模块
安全检测
3、通专算力
系统芯片
CPU
机器学习领域较少。
训练芯片
GPU
AI 领域商用广泛,通用性强
FPGA
能耗低,灵活,使用门槛高,通用性低
TPU
谷歌专用,成本高,通用性低
推理芯片
云端推理
GPU
ASIC
FPGA
边侧推理
GPU
SOC
4、国内外GPU 算力
国外
英伟达
CUDA 生态
AMD
ROCm生态,类 CUDA
国内
华为
910(mindspore 自建生态),对标 nvidiaA800
海光信息
深算二号(ROCm生态,兼容 CUDA)
寒武纪
GAUDI
面向云边端场景
训练整机
摩尔线程
S3000
5、软硬件
算力
Nvidia(V100\A100\H100\B100)
AMD(RTX7900\RTX6950\MI300)
华为(910/910B)
计算平台
CUDA(Nvidia)
ROCm(AMD)
CANN(华为)
编程框架
Pytorch
TensorFlow
Paddlepaddle
MindSpore
网络架构
CNN
RNN
Transformer
KAN
0 条评论
下一页