背景介绍
寒武纪(全称是中科寒武纪科技股份有限公司)是全球智能芯片领域的先行者,成立于2016年。寒武纪聚焦于云边端一体的智能新生态,致力打造各类智能云服务器、智能边缘设备、智能终端的核心处理器芯片,让机器更好地理解和服务人类。
在寒武纪的产品研发历史中,1A/1H/1M等系列产品最早问世,其智能算法能耗比全面超越传统CPU、GPU,对视觉、语音、自然语言处理、传统机器学习等各类人工智能技术具备较好的普适性,同时性能功耗比传统芯片优势明显,可适应各种场景和规模的人工智能计算需求。
MLU370
『基于7nm制程工艺,思元370是寒武纪首款采用chiplet(芯粒)技术的AI芯片,集成了390亿个晶体管,最大算力高达256TOPS(INT8),是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03,思元370实测性能表现更为优秀。思元370也是国内第一款公开发布支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。搭载MLU-Link™多芯互联技术,在分布式训练或推理任务中为多颗思元370芯片提供高效协同能力。全新升级的寒武纪基础软件平台,新增推理加速引擎MagicMind,实现训推一体,大幅提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。』
MLU370实物如下图
MLU370系列有两种板卡:MLU370-S4和MLU370-X4,其主要区别在于峰值算力,形态和功耗。两种板卡的规格如下表所示:
提示:如果需要MLU370样品及SDK测试,请联系技术支持工程师Barret:Barret.Bi@wpi-group.com。
『核心优势
- 先进chiplet技术
寒武纪首次采用chiplet技术将2颗AI计算芯粒封装为一颗AI芯片,通过不同芯粒组合规格多样化的产品,为用户提供适用不同场景的高性价比AI芯片。
- MLUarch03芯片架构
新一代张量运算单元,内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间。
- MagicMind推理加速引擎
业内首个基于MLIR图编译技术达到商业化部署能力的推理引擎。用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系产品上,并获得颇具竞争力的性能。
- 训推一体软件开发平台
寒武纪基础软件平台整合了训练和推理的全部底层软件栈,包括底层驱动、运行时库、算子库以及工具链等,将MagicMind和人工智能框架Tensorflow,Pytorch深度融合,实现训推一体。
- 低功耗高带宽LPDDR5内存
思元370芯片在业内率先支持LPDDR5内存,高带宽且低功耗,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍,可在板卡有限的功耗范围内给AI芯片分配更多的能源,输出更强大的算力。
- 新一代编解码单元
全新视频图像编解码单元,可支持132路1080p视频解码,支持10路8K视频解码。视频编码时,在相同图像质量(全高清视频PSNR)的情况下比上一代产品节省42%带宽,有效降低带宽成本。
- MLU-Link多芯互联技术
MLU-Link多芯互联技术,搭载于寒武纪思元370芯片,为每颗芯片提供200GB/s的额外跨芯片直接通讯能力。在思元370应对多卡多芯并行任务时,提供更高效的并行效率。
- 为AI浮点计算优化
思元370芯片具备完整的张量浮点运算单元,可支持AI加速中繁重的FP32、FP16或BF16计算任务,让计算的选择变得更简单。』
应用领域
MLU370-S4产品主要应用于智慧金融,智慧能源,智能制造。
MLU370-X4产品主要应用于AI模型训练,语音处理,OCR识别,搜索推荐,自然语言处理。
性能比对
- MLU370-S4
![](https://edit.wpgdadawant.com/uploads/news_file/blog/2022/7922/tinymce/cambricon-mlu370-intro-008.png)
测试环境:MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6。
GPU数据:ResNet-50来自于相关产品官网,Transformer、VGG16、YOLOv3均取自实测最大吞吐性能。
2.MLU370-X4
![](https://edit.wpgdadawant.com/uploads/news_file/blog/2022/7922/tinymce/cambricon-mlu370-intro-009.png)
测试环境:MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU数据:ResNet-50来自于相关产品官网,Transformer、VGG16、YOLOv3均取自实测最大吞吐性能。
参考资料
https://www.cambricon.com/index.php?m=zcontent&c=index&a=lists&catid=360
评论