查看原文
其他

AIGC产业需要什么样的算力——《中国AIGC产业算力发展报告》核心内容的十点解读|甲子智库

刘瑶 甲子智库 2024-01-09

AIGC早已不是简单的技术概念,而是逐步形成以生成式AI为核心的新一代产业生态。AIGC产业发展离不开底层资源建设,需要建设更为强大的AIGC算力基础设施,2023年8月,甲子光年智库特此发布《中国AIGC产业算力发展报告》本篇文章则是对报告的核心思考逻辑进行解读。

1.谈及AIGC产业的算力,关注点往往在于“训练”大模型,算力的概念会被拘泥在“GPU”的参数,而AIGC未来能够大规模的应用,推理端的算力也非常的重要。

训练是指通过数据开发出AI模型,使其能够满足相应的需求,一般为AI技术的研发。因此参数量的升级对算力的需求影响大。
推理是指利用训练好的模型进行计算,利用输入的数据获得正确结论的过程,一般为AI技术的应用。推理部署的算力主要在于每个应用场景日数据的吞吐量。
AIGC的算力核心影响因素

2.大模型训练是复杂系统工程,AIGC产业的算力对应的也是系统化的建设,需要从工程化的角度思考算力的全局“利用率”。

AIGC的产业化发展是一套复杂的系统工程,构建高效稳定的算力平台是核心要义,成熟的算法、数据产业链,配套工具链及丰富的生态链是关键因素,亟需以系统的方式寻找最优解。
AIGC的算力概念具有是复杂的,从硬件层面讲,可以是单芯片、多芯片集群(甚至是千卡量级)、服务器、智算中心,也可以是虚拟化的算力资源服务。
因此算力设备软硬件兼容性和性能调教上的Know-How,可以保证AI算力的适配性和稳定性,并非单一因素的参数能简单决定。可以说尽信“参数”不如不信“参数”。

AIGC的算力资源组成部分

3.AIGC的技术栈较为复杂,整个产业链的参与者也较多,不同的AIGC算力核心提供企业(云服务、大模型一体机、智算中心、服务器及计算芯片服务商)都可以作为模型层、应用层的算力支持。

AIGC产业的算力服务提供商

4.MaaS是AI新时代云服务模式的破与立,构建新的“算力+算法”服务模式。

MaaS(Model as a Service)模型即服务,是指将大模型作为一项服务提供给用户使用的新业态,MaaS中模型训练(主要指微调)及推理的技术路线成立必须依赖云计算的算力支撑,同时算力及其他资源通过MaaS模式实现AI层面上更好的价值释放。
  • MaaS模式与传统云服务对比:MaaS模式是一种升级,基于传统模式的IaaS及PaaS支撑的AI能力释放,可以提供企业级解决方案,直接提供企业定制化产品开发,也可以嵌入产品,如Azure OpenAI实现大模型的工具性嵌入。


  • MaaS的底层资源是算力及数据,算力及数据通过MaaS模式直接输出了AI应用能力,而非简单的计算能力,具有更多的商业价值。


  • 根据中国信通院数据,2025年我国云计算规模将超万亿元,其中重要的增长原因是AIGC行业快速发展,MaaS服务契合当下AIGC产业发展,提供云服务商业应用价值,带动整体云计算增长。


MaaS模式对于云服务的重要性分析

MaaS模式对于云服务场上的机会点分析

5.云边协同,从计算、通信、安全、时效等方面提升AI应用落地可能性,边缘云拓宽了AIGC的应用可能。

边缘计算可负责范围内的数据计算和存储工作。同时,负责将连续数据汇总至计算层,最终由云计算层完成分析挖掘、数据共享工作,下发结果或模型至边缘和终端层,形成云-边-端协同。
边缘计算的核心价值:边缘侧完成数据的计算,并且实现云、端间的数据及计算结果的协同。边缘云及边缘芯片的发展将推动AIGC的更快落地。

云边协同的优势分析

6.智能算力持续增长,未来需求增加,进一步加快智算中心建设及相关设备增长。

2021年至2023年,国内各地实现多家智算中心的完工、揭牌、上线,支撑AIGC产业的研发及多行业应用。

京津冀智算中心产业发展近况可参见「甲子光年」深度报道:《为什么昇腾要在门头沟共建一座智算中心?》

7.AIGC的产业发展极大地推动了AI芯片市场的未来增长速度及产品丰富性, 存算一体随存储器介质的多样性逐步走向应用成熟,解决AGI时代的存储墙问题。

生成式AI的发展和各种基于AI的应用在数据中心、边缘基础设施和端点设备中的广泛使用,将推动AI芯片的生产和部署。到2027年,AI芯片规模预计将比2023年的市场规模增长一倍以上,达到1194亿美元。
同时产业界也发现,主流芯片如CPU、GPU以及DPU均按照冯·诺依曼架构设计,由于冯·诺依曼架构的局限性,数据的处理遇到了存储墙和功耗墙两大问题。Transformer模型中的参数数量呈现出2年240倍的超指数增长,而单个GPU内存仅以每2年2倍的速度扩大。而训练AI模型的内存需求,通常是参数数量的几倍,AI训练不可避免地撞上了“内存上限”,“内存上限”不仅是指内存容量,也包括内存传输带宽。
同时通信成为算力的瓶颈。无论是芯片内部、芯片间,还是AI加速器之间的通信,都已成为AI训练的瓶颈。过去20年间,运算设备的算力提高了9万倍,虽然存储器从DDR发展到GDDR6x,接口标准从PCIe1.0a升级到NVLink3.0,但是通讯带宽的增长只有30倍。长期看,无法实现堆积显存解决问题。

存算一体技术的优势分析

8.AIGC产业算力理念:需要基于目标与资源的分配去达成工程学平衡。

AIGC产业落地的算力选择,更应该强调最优解,而非最大解。在实现AIGC的技术落地过程中,模型的参数量及涌现结果固然重要,但模型在运行过程中所需的算力成本、能耗成本、运营成本等是否能匹配AIGC技术提供的效果及价值突破更为重要。工程化的作业体系是要关注建设者的行业Know-How(在具体场景的细节关注及风险控制)。

算力的工程化概念

9.AIGC的产业才刚刚开始,未来是训练算力及推理的算力的一次进化。

整体市场的算力核心判断指标取决于市场发展阶段对应的训练及推理需求,当下是AIGC产业技术与商业结合的重要拐点,一方面,国内外均有商业落地的场景及对应模型出现,技术路线实现大方向确认;另一方面,具体场景的商业模式及盈利模式仍待寻找,需要大量算力支持各行各业企业持续探索。
算力的核心指标变化:重训练——关注模型参数量,重推理——关注应用的用户数据吞吐量。

AIGC产业的算力的进程

10.勇敢的企业先去享受世界,相关企业已经冲入AIGC产业。

AIGC产业算力图谱1.0(排名位置不分先后)

关注公众号「甲子智库」,后台回复“中国AIGC产业算力发展报告”,获得高清版完整PDF。或者点击文末“阅读原文”,进入甲子光年官网下载。

END.

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存