首页 › 门户 › 资讯 › 详情

399信息网 2021-08-27 450 10

中国最大AI芯片发布，顺手拿下四个国内第一，带Benchmark的那种

霍华德·休斯 http://www.touzitop.com/ystt/56140.html

　　金磊发自上海量子位报道|公众号QbitAI

　　上回书说到——《一份邀请函引发的中国芯片新猜想》。

　　于是乎，我为了验证这个猜想是否正确，特此前来上海一探究竟。

　　直接揭晓答案：猜对了！

　　中国最大AI芯片——邃思2.0，正式发布。

　　而且听完整场发布会，最直观的感受便是好多的“第一、首个”：

　　中国首款支持单精度张量TF32数据精度的人工智能芯片。单精度FP32/张量TF32峰值算力，均为国内第一。中国第一个支持世界最先进存储HBM2E和单芯片64GB内存的产品。加上其它产品升级，成为国内首家发布第二代AI训练的组合产品。

　　嗯，看着似乎是有点东西。

　　中国最大AI芯片问世

　　先来聊聊最为核心的这张芯片。

　　虽然说邃思2.0是面向AI云端训练，基于第一代的升级，但一个重点是工艺没有变化。

　　也就是这张芯片依旧是由格芯的12nmFinFET工艺打造。

　　尺寸方面，为57.5毫米×57.5毫米，达到了芯片采用的日月光2.5D封装的极限。

　　算力方面：

　　单精度FP32算力为40TFLOPS单精度张量TF32算力为160TFLOPS整数精度INT8算力为320TOPS

　　堆叠存储方面，搭载的是HBM2E，据了解，这是目前业界较为领先的存储方案。

　　它具备超大存储容量和访存带宽，最高达到64GB和1.8TB/s，还可以支持眼下爆火的超大规模模型的训练。

　　算力扩展方面，由于邃思2.0拥有300GB/s的独立片间互联通道，因此可以非常灵活。

　　一个邃思2.0，升级三大产品

　　而随着邃思2.0的到来，燧原科技其他产品也得到了相应地升级。

　　首先，是云燧T20训练加速卡。

　　它是面向数据中心的第二代AI训练加速卡，官方介绍是这样的：

　　具有模型覆盖面广、性能强、软件生态开放等特点，可支持多种人工智能训练场景。

　　那么到底性能能强到什么程度？

　　在现场，燧原科技直接亮出的Benchmark！

　　不难看出，在图像识别/分类、NLP、目标检测、图像分割和推荐任务中，与友商相比均有明显的提升。

　　（至于这个友商，就是很强的那家，你懂的）

　　或许你觉得数据还不够直观，那就直接来看效果吧。

　　下面是友商和云燧T20处理图片的速度对比：

　　处理图片更多，速度还更快，有木有！

　　除此之外，还有云燧T21训练OAM模组。

　　据了解，它是是基于OCP（开放计算项目）OAM（开放加速模组）标准设计、兼容OCPOAI标准（开放加速器基础设施）的AI训练加速模组。

　　所面向的数据中心，可以在互联网、金融、教育、医疗、工业和政务等场景中使用。

　　云燧T21单精度FP32算力最高可达40TFLOPS、TF32算力最高则是160TFLOPS。

　　与友商的性能对比如下：

　　最后，燧原科技还升级了它家的驭算TopsRider软件平台：

　　基于算子泛化技术及图优化策略，支持主流深度学习框架下的各类模型训练。利用Horovod分布式训练框架与GCU-LARE互联技术相互配合，为超大规模集群的高效运行提供解决方案。

　　而且编程模型和可扩展算子接口，都是开放的哦。

　　还搞了一个“大组合”

　　以为这就完了？

　　不不不。

　　燧原科技还把它们搞了个“大组合”——云燧智算集群（CloudBlazerMatrix2.0）。

　　最高单精度算力可以达到1.3E（130000T），足足是上一代的46倍。

　　燧原科技COO张亚林表示：

　　云燧的互联接口在单口速度保持不变的前提下，接口数量从T10的4个增加到T20的6个，带宽提升150%。用云燧T20可以打造中国E级单精度算力集群。

　　承诺了一个约定

　　最后的最后，燧原科技还介绍了关于他们接下来的计划。

　　云端训练计算产品方面，在2023年，他们准备发布T30/T31。

　　较一代产品相比，性能要达到14倍。

　　云端推理计算产品方面，也将在2023年进行迭代，性能提升16倍。

　　而且还给出了一个燧原产品定理：

　　至于到了2023年，燧原科技能否兑现承诺，就一起拭目以待吧。

鲜花

握手

雷人

路过

鸡蛋

邀请

399信息网

中国最大AI芯片发布，顺手拿下四个国内第一，带Benchmark的那种

最新评论(0)

微信扫描