简要介绍
寒武纪(全称是中科寒武纪科技股份有限公司)是全球智能芯片领域的先行者。寒武纪聚焦于云边端一体的智能新生态,致力打造各类智能云服务器、智能边缘设备、智能终端的核心处理器芯片,让机器更好地理解和服务人类。
在寒武纪的产品研发历史中,1A/1H/1M等系列产品最早问世,其智能算法能耗比全面超越传统CPU、GPU,对视觉、语音、自然语言处理、传统机器学习等各类人工智能技术具备较好的普适性,同时性能功耗比传统芯片优势明显,可适应各种场景和规模的人工智能计算需求。
大大购相关商品 寒武纪 MLU220-M.2 边缘端AI 加速卡 8TOPS (INT8) >> 查询存货及售价
大大购相关商品 寒武纪 MLU270 AI 加速卡 128TOPS (INT8) >> 查询存货及售价
大大购相关商品 寒武纪 MLU270-S4 AI 加速卡 128TOPS (INT8)>> 查询存货及售价
产品系列
在寒武纪云边端一体解决方案中,云中心可采用云端加速卡(MLU270/MLU290),主要用于大数据集中融合,云数据深度分析,其中MLU270 是一款PCIe X16的云端推理卡,算力达到128TOPS,是世界领先的推理加速器,提供革命性的多精度推理性能,以加速现代人工智能的各种应用;MLU290 是一款PCIe X16 云端训练卡,算力达到512TOPS ,非同一般的计算能力造就出众的训练性能,可让现代化的数据中心更快速地处理涉及人工智能和高性能计算的工作负载,提供企业级的人工智能基础设施。
在边缘侧,寒武纪提供了一款高性能低功耗加速计算模组MLU220,算力/功耗达16T/10W, 实现在板载设备上快速且精准的复杂推理,将AI应用于边缘设备,发挥设备在网络受限环境下的巨大潜力。
终端IP有1M、1V高性能低功耗的神经计算IP产品,针对不同前端应用定置化的IP产品,将智能延伸到前端移动设备。
实物规格
- MLU220
2.MLU270 (有S4和F4两种)
系统架构
- MLU220
2.MLU270
思元 270 芯片基于寒武纪在处理器架构领域的一系列创新性技术,最新的特性被集成在半高半长的标准 PCIe 尺寸的加速卡中,可以轻松搭载于最先进的人工智能服务器,实现AI 推理计算力横向扩展。 MLU270-S4 加速卡功耗仅为 70W,提供 4 倍于上一代加速芯片的计算力,可广泛支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的人工智能应用,帮助AI推理平台实现超高能效比 。
MLUv02 架构不是简单的从上一代升级而来,新架构基于片上网络(NOC)构建,保证思元 270 内多达 16 个 NPU 集群的并行效率。基于硬件的片内数据压缩,提升缓存有效容量和带宽。新架构提供 INT16,INT8,INT4,FP32,FP16 的全面AI精度支持,满足多样化神经网络的计算力要求,通用、性能兼备。
新架构在采用 INT8 精度进行 AI 推理计算时,非稀疏网络性能比第一代加速卡提升高达 4 倍, MLU270-S4 可为系统提供 40 倍于 CPU 的超高能效比。其内置的全新硬件视频和图片编解码器, 还可以在系统处理该类应用时, 有效降低 CPU 前处理负载和 PCIe 带宽占用,帮助应用性能再进一步。
思元 270 芯片支持多类神经网络,寒武纪 NeuWare 软件栈可以轻松部署推理环境。BANG Lang.编程环境可对计算资源做直接定制,满足全多样化 AI 定制要求,专业而不专用。
开发环境
Cambricon NeuWare 全面支持各类主流编程框架(如 TensorFlow、 Caffe、 PyTorch 和 MXNet 等) 。用户可面向上述编程框架,便捷地在寒武纪产品上开发和部署深度学习应用。同时,NeuWare 提供了完整的运行时系统和驱动软件,方便系统快速集成。NeuWare 还提供了包括应用开发、功能调试、性能调优等在内的一系列工具。 其中应用开发工具包括机器学习库、运行时库、编译器、模型重训练工具和特定领域(如视频分析领域)SDK 等;功能调试工具可以满足编程框架、函数库等不同层次的调试需求;性能调优工具包括性能剖析工具和系统监控工具等。
参考资料
《寒武纪MLU220边缘端计算卡 - 公开版V1.3》
评论