端侧 AI，如何化解国内算力之困？

Foresight · 2023-08-18 17:55

支付

数据

安全

解决了算力之困后，端侧大模型将有可能最先引爆本轮 AI 革命的盈利点。

撰文：举大名耳

算力和数据的天花板，决定了本轮的 AI 热潮究竟能走多远。

但不幸的是，对国内而言，其中的算力天花板，离「到顶」已经越来越近。

就在 8 月初，美签署最新行政令，禁止美国对中国计算机芯片等敏感技术进行一些新投资，重点将在限制美国资本对于中国半导体设计软件和制造硬件的投资。

此消息一出，不少人顿感：国内算力危矣！

而机警的大厂，也开始了各自未雨绸缪的准备。

《金融时报》的一篇报道称，国内包括阿里、字节在内的科技巨头，已经订购 50 亿美元的英伟达的 A800 芯片，来面对训练大语言模型需要的算力挑战。

按照此前媒体报道，目前中国企业 GPU 芯片持有量超过 1 万枚的不超过 5 家，拥有 1 万枚 A100 的至多 1 家。

那么，在愈发紧张的算力之下，中国 AI 的前途、命运将如何发展？

短期来看，算力之困对于业内，似乎是个无解的问题。然而，技术的发展，有时就像生物的进化，当一种技术在面临「生存挑战」时，也会由于选择压力而发生一系列的突变。

而对国内而言，这样的突变方向，也许就是分散于各个终端里的端侧大模型。

1 端侧大模型，如何解算力之困？

端侧大模型的发展，对国内算力突围有着怎样的意义？这还得从目前云计算的需求说起。

当下，面对大模型高昂的算力成本，许多致力于涉足 AI 领域，但却算力匮乏的企业，往往都选择了租用云算力的方式，来满足训练需求。

在此背景下，昇腾 AI 集群这样的云服务平台也趁势而起，成为了孵化国内各个大模型的「母工厂」。

然而，即使是云计算本身，也需要大量的 GPU 支撑。

如果云服务商无法获取足够的 GPU 资源，那么它们也无法为国内 AI 企业提供高效、可靠的云计算服务。

而端侧 AI 最重要的意义，就在于分担了目前国内云计算的压力。

倘若我们将十几亿分散的智能手机，当成了一个个潜在的、拥有大量闲置算力的移动计算单元，那么部署在手机中的端侧 AI，就能在这些设备闲置时间里，将这些碎片化、分布式算力利用起来，产生颇为可观的规模效应。

鸿蒙 4 中出现的手机大模型

具体来说，联邦计算，就是这样为人熟知的分布式计算方式之一。

所谓联邦计算，简而言之，就是在数据源（例如用户设备）上进行模型的局部训练，然后将这些局部模型的参数或更新聚合到中央服务器上，形成一个「全局模型」。

相比于集中式的训练，这种分布式的方式可以更好地利用各个设备的计算能力，降低中央服务器的算力需求。

在这样的过程中，依靠终端设备（例如手机）的庞大数量规模，每个「全局模型」的训练成本，在无意中便被不断摊薄了。

因为每个「小模型」的训练只需要消耗端侧设备的计算资源，而不需要传输大量的原始数据到云端。这样，就可以节省网络带宽和云端存储空间，也可以减少云端服务器的计算压力。

更重要的是，与云端 GPU 这类高成本的训练方式相比，由于端侧 AI 芯片往往是针对特定的 AI 应用和算法，进行优化和定制，因此其往往有着相对更明确的「回血」途径。

例如，前段时间，爆火的妙鸭相机，大家应该都听说了。在其最受追捧的初期，成千上万的用户涌进应用中，高峰期一度有 4000-5000 人排队，需要等待 10 多个小时才能出片。

之后，是阿里云进行了紧急扩容，才勉强应对了这暴涨数百倍的算力需求。

但倘若用户不用在云端等待，而是直接在本地，或者通过端云协同的方式，就能实现这样的生成效果呢？

一种可能的方式，是先在端侧生成低分辨率的图片，之后再上传到云端，用较少的资源对图片进行清晰化处理。

如此一来，既降低了云端算力的负担，又在一定程度上保障了生成的质量、效率。

在当下的 AI 应用开发中，开发者不仅需要支付云端大模型 API 接口的成本，还得自己租用服务器，保证密钥安全。

如果是文字生成类 AI，文字量大的话，相应的 token 也是一笔不小的开支。

而随着算力门槛的降低，众多 AI 应用的开发者，将不再被云端算力的成本所缚，而只需调用端侧大模型提供的开放 API，就可以快速开发各类 AI 应用。

在此基础上，一个开放的、多样化的 AI 应用生态，就随着端侧大模型的普及，而应运而生了。

2 以「偏」补「全」的端侧芯片

AI 应用井喷的时代似乎近在眼前，但要想让每台手机都标配一个大模型，前面还有道难以回避的门槛——硬件基础。

由于芯片架构不同，在端侧部署时，往往需要对模型网络结构进行一通修改才能勉强「上车」。

具体来说，目前 GPT 这类主流 AI 所使用的 Transformer 架构，往往部署于云端服务器。

这是因为 GPU 对于 MHA 结构（Transformer 中的多头注意力机制）计算支持更友好。而端侧 AI 的芯片，则主要侧重于 CNN（卷积神经网络）的结构。

如果将前者强行转移到端侧，带来的一个明显问题，就是模型精度下降。

那么有没有什么办法，能让大模型在进行端侧化改造的同时，仍能保证其精度呢？

爱芯元智推出的端侧芯片 AX650N，似乎提供了一个可能的路线。

AX650N 芯片拥有自研混合精度 NPU 和爱芯智眸 AI-ISP 两大核心技术，其对 Transformer 结构的网络进行了专门的优化，在其 NPU 中增加了专门用于自注意力计算的单元，可以大幅提升 Transformer 网络的运行速度和准确率。

凭借着这类针对端侧的优化技术，AX650N 已经做到了在端侧部署原版 Swin Transformer 只需要 5 分钟，而跑起私有模型，只要 1 个小时就能搞定。

但尽管如此，受限于架构和内存，这样的优化，仅仅只是针对视觉大模型方向而言的，因为从硬件算力上来说，端侧 AI 芯片，始终难以做到 GPU 芯片那样「面面俱到」的通用性、兼容性。

既然如此，国内的大模型之困，是否就指望不上它了？

其实不然，从量的角度来讲，边缘侧、端侧的需求一定比云侧更大，毕竟边缘侧、端侧设备会更多。

而在这众多的需求中，只要使用了大模型的终端（如手机、智能音箱），能做到两点，那么国内大模型在应用层，就有盘活的可能。

其中第一点，就是够降低人们获取信息、知识的成本。

倘若以后人们打开手机或者其他终端，就能获得一个诸如私人医生和律师、厨师的 AI 助理，能为我们提供成本低廉、快速的咨询服务，那么人们就会对其产生依赖。

因为从行为学上来说，人总归是有惰性的。

虽然目前的某些律所，也能为人们提供免费的咨询服务，但这其中却包含了无形的时间成本、沟通成本。

正如互联网出现后，虽然人们仍能通过纸制地图进行导航，但大部分人却再也离不开手机上的定位功能一样。

从某种程度上说，压缩了各种知识、智能的端侧模型，将会重复这一过程。

第二点，则是个性化功能的普及。

在「前 AI 时代」，个性化定制的大规模推广，是一件不可想象的事。

在没有 AI 技术支持的情况下，实现个性化定制通常需要大量的人力和时间投入。为每个用户提供个性化的产品或服务，往往需要大量的人工处理。

然而，随着本轮 AI 革命的到来，人们已经在应用层，看到了 AI 用于个性化、定制化服务的可能。

例如 character.Ai 一类的应用，支持用户根据自己的需求、偏好，量身定制一个「AI 伴侣」。

试想一下，倘若这样的定制化服务进入到了端侧，端侧大模型就能不断收集用户数据，再进行反馈、训练，并最终打造出一个独一无二的、贴身的 AI 助手。

而这样量身定制的体验，显然比大规模的标准化服务，更具吸引力。

3 总结

尽管在模型规模、性能等方面，端侧大模型目前还远无法与云端大模型相比，但分布式的算力格局，以及庞大的规模效应，都将大大降低目前国内云端算力的负担。

而在算力成本降低之后，大量基于 API 接口的 AI 应用，也得以通过一个个部署在本地的端侧大模型不断涌现。

在应用大爆发的背景下，一些捕捉到先机的应用，就会基于端侧大模型实时响应、个性化定制的功能，引爆本轮 AI 革命真正的盈利点。

而这，正是无数人在这股 AI 浪潮中苦苦追寻的。

免责声明：
1.资讯内容不构成投资建议，投资者应独立决策并自行承担风险
2.本文版权归属原作所有，仅代表作者本人观点，不代表Bi123的观点或立场

端侧 AI，如何化解国内算力之困？

1 端侧大模型，如何解算力之困？

2 以「偏」补「全」的端侧芯片

3 总结

甄选2000+信号，只为您推荐高胜率信号 | Bi123新功能上新

深度长文，新人全面了解Ordinals生态及部分项目介绍

Bi123 APP积分功能——让您积攒更多价值！

周涨 30 倍！比特币公司 BitMine 砸 2.5 亿买以太坊

多家发行商申美国信托牌照，稳定币行业抢滩登陆？

Coindesk：数字资产税务管理入门指南

新泡沫 OR 新趋势：你真的看懂代币化股票了吗

谁在链上开合约，输光 1 亿美元？

6.2 亿美元，特朗普家族如何在币圈「捡钱」？

嘴撸编年史：从私域到公域，再到 AI 的矛与盾之争