AI芯片公司都宣传起“大模型” |直击WAIC2023

作者 |杨逍

编辑 |苏建勋

半导体公司参展世界人工智能大会(WAIC)已成惯例,然而今年,大多数观众奔向一家半导体公司展台后的第一件事,是寻找“大模型”三个字。

大模型在国内爆火已半年有余,算力一直是让各公司们头疼的问题。大模型训练,需要高质量的数据和庞大的算力作支撑,由于种种原因,国内厂商想买到英伟达A100、H100芯片十分艰难;而较容易买到的A800芯片价格又相对高昂。

据36氪了解,国内有万卡储备规模的大模型公司不到10家,多为百度、字节、阿里、幻方量化这样的巨头。

可以说,算力正成为禁锢大模型公司的一大瓶颈。

国内半导体公司何时能撑起中国大模型的未来,成为行业关注的话题。

本次WAIC上,除后摩智能、知存科技等存算一体公司以外,几乎所有AI芯片公司都在展台上布设了“大模型”展页,介绍自家产品对大模型和AIGC应用的支撑能力。

从时间点看,一款芯片从研发立项到设计、流片到送测、量产,需要3~5年时间。此前,芯片厂商在做芯片设计上并未朝着大模型训练功能方面设计,目前展出的多为过往推出的产品。

在多数国内芯片厂商看来,行业模型类公司是他们更好的机会,能同时满足训练和推理一体化能力的芯片产品具有市场未来。

AI芯片公司拥抱 “大模型”

在WAIC大会展览馆内,大模型厂商占据半场,半导体公司占据另外半场。走到世博H2展馆,昆仑芯、登临、瀚博、天数智芯、燧原、墨芯、沐曦等AI芯片厂商的展台,密集地簇拥在一起。

芯片制程和算力不再是AI芯片最被关注的话题,能否支撑大模型,可以做训练还是推理,适配了什么模型,速度如何,精度如何,功耗如何,显存采用什么芯片,达多大内存,一系列围绕大模型展开的问题成为参展嘉宾的关注重点。

具备支撑大模型训练能力还是推理能力,对芯片而言是一个分水岭。

推理是比训练更容易实现的事情。大模型的训练,是将百亿、千亿的数据喂给算法,最终训练出一个模型的过程,它对芯片计算速度和稳定性要求非常高;推理则是借助大模型,给他喂一个数据、问题后,生成答案的过程,需要的单个问题计算量大幅降低。

在展会上,昆仑芯、天数智芯、燧原等少数几家公司表示具有支持大模型训练的能力。

昆仑芯AI加速卡RG800的峰值为256 TOPS@ INT8和128 TFLOPS@FP16,展台相关产品介绍表示,“可用于常规模型训练,也可用于多业务并发的高性能推理”。

天数智芯的产品可以支持大模型训练、推理,据展台人员介绍:“我们在上半年搭建了搭建40P算力320张天垓100加速卡算力集群,完成了智源研究院70亿参数大模型训练。当前天数智芯正在搭建 200P 算力 1600 张卡的算力集群,支持 650 亿参数的大模型训练。”

燧原科技展示的第二代训练产品“云燧T20/T21”已经量产并落地在重点实验室和成都智算中心。据展台人员介绍,目前已可以支持多个大模型,并在现场演示了基于LLaMA的聊天机器人、文生PPT和多媒体生成的demo。

对于大模型训练而言,需要数据精度达FP16、FP32级别。根据各家官宣数据,天数智芯的智铠100、燧原邃思2.0、昆仑芯二代AI芯片、登临科技新一代Goldwasser™最高能支持FP32级别的数据。

大多数AI公司主要介绍的是AI芯片对大模型的推理能力。沐曦、登临、算能、墨芯等都带来了自己的AI推理芯片及产品。

对芯片的判断指标主要有算力、功耗、精度、显存等维度。算力越高,计算速度越快;功耗越低,耗电和运营成本越低;可支持数据精度越高,能训练和识别的颗粒度就越高;显存容量越大,则能处理的数据量越大,能较好支撑大模型所需的大量数据计算过程。

算力维度上,墨芯采用稀疏化的技术路线,其S30能提供2832 TOPS(INT8)、1415.4 TFLOPS(BF16)的稀疏等效算力,功耗仅250W,不过相对而言,其产品在通用性上还有提升的空间。

沐曦曦思®N100的单卡算力达160TOPS(INT8)和80TFLOPS(FP16),瀚博则首发了LLM大模型AI加速卡VA1L,具备200 TOPS INT8和72 TFLOPS FP16算力。

显卡角度,海飞科的Compass C10通用GPU和登临新一代Goldwasser™(高凛™)都拥有128GB的显存。海飞科官方资料表示,能支持单卡部署百亿级参数大模型进行推理。瀚博也表示,基于VA1L的大模型一体机整机拥有512GB显存,可以支持部署1750亿参数的大模型。

AI芯片硬件性能只是一个方面,想要让国产芯片能用起来,软件能力会是更重要的壁垒之一。算力的释放需要复杂的软硬件配合,才能将芯片的理论算力变为有效算力。

英伟达曾用3000多名工程师构建出一个强大的Cuda,它已成为英伟达强大的生态壁垒。这套框架里集成了很多调用GPU算力所需的代码,工程师可以直接使用这些代码,无须一一编写。

一位关注基础软件的投资人曾告诉36氪:“没有CUDA ,调用GPU的代码会写到地老天荒,不可能所有的东西都自己写。”

国内公司在软件生态上有两个流派,如寒武纪、昆仑芯就选择自建软件生态,再造一个Cuda软件能力和工具栈;更多公司则选择和Cuda对接,如天数智芯、摩尔线程、燧原、登临等,让自己的产品与Cuda作兼容。

此外,国内AI芯片公司也都在加强适配能力,适配更多的大模型和开源模型。

多家公司向36氪表示,未来将推出能同时做训练和推理芯片的产品,产品分别预计于2023年第四季度到2024年间推出。

训推一体芯片是未来

大模型厂商正处于百模大战的阶段,有做L0级别技术大模型的大厂,做L1级别行业大模型的应用企业,还有部分微调的场景大模型。

目前,大部分国内AI行业公司认为,国产芯片最先的落地方向是行业模型。

一是因为,相较于大模型,行业模型更容易训练和落地,需求也更大。

部分垂直行业客户市场化部署时,希望基于最小算力成本来实现模型的落地。相较于从0开始训练大模型,“微调”对客户而言,是一个经济性更高的方法。

多位采访对象向36氪表示,目前,相比于千亿、数千亿参数的大模型,国内垂直行业较大模型更容易落地,也是国内芯片公司最容易落地的场景。

行业垂直客户通常存在精调训练和推理的需求,低成本且快速地采用大模型的能力。他们不想购买两种不同的芯片,训推一体化芯片能很好满足客户需求。

推出兼具训练、推理功能的芯片成为趋势,训推一体化芯片也是大多国内AI芯片公司在大模型算力需求浪潮下的抓手。

二是因为, L0级别的技术大模型厂商,更倾向于选择头部供应商。在目前争分夺秒的大模型训练阶段,国产AI芯片公司很难成为其供应商。

对阿里、百度、腾讯、面壁选择L0级别大模型的公司而言,成本不是第一要考虑的问题。为更好实现大模型效果,他们会优先选择英伟达的产品,保证从算力层面不加大与国际同行间的差距。

有行业人士曾告诉36氪,目前大模型公司的算法和数据也存在难题,大模型训练需要数月不间断,国产芯片的稳定性尚未得到充足验证。一旦训练发生中断,是算法的问题还是芯片的问题,这很难界定。大模型公司也不愿冒这个风险。

国内公司也可以满足千亿级别模型的训练需求,在单卡训练算力不足情况下,堆量是一个方法。

针对这一类需求,需要华为晟腾、昆仑芯等公司,通过RDMA互联等形式,构建出上百台服务器、数百张卡的集群,通过集群的方式堆叠算力,增加计算能力,再通过软件能力对算力统一调度。

算力资源常需要以池化的形式呈现,由于不同芯片在底层硬件和上层软件调度方式、接口上存在差异,为更好调度算力,基建通常不会采用多家公司的芯片硬件。数据中心通常更愿意采用同一种芯片,或者同一公司的不同芯片,来降低算力池化难度。这就意味着,一个数字基建工程需要选择单独一家公司的产品。

国内AI芯片公司大多成立时间不足5年,芯片需要硬件和软件层面的积累,产品需要一步一步迭代和设计。抓住需求,推出能力范围内从成本、性能角度可替代的产品,在如今这个资本相对冷却的环境下,先活下去,才能探索未来。