华为不想走 ChatGPT 的老路
Microsoft
OpenAI
GPU
华为的盘古大模型 3.0,走了一条和 ChatGPT 截然不同的道路,经历了上半年的这一轮热潮之后,大模型必须要思考自己的实际落地场景了,和「热闹」相比,如今行业更关心的是「实用」。
撰文:曾广
经历了上半年的喧嚣,ChatGPT 带来的大模型热潮正在迎来第一轮冷静期。今年 6 月,ChatGPT 的访问量首次出现了月度下滑,而年初接入 ChatGPT 聊天功能的新版必应(Microsoft Bing),市占率也在近期出现下滑,甚至低于改版之前。
一切都在预示着,大模型赛道「看热闹」的时刻过去了,市场正在对大模型的实用性提出更高的要求。与 C 端市场的集体狂欢相比,现在大家更关心大模型如何在 B 端行业落地,仅仅只会「Chat」(聊天)的大模型,已经满足不了需求。
新的竞争局势已经出现。就在刚刚过去的人工智能大会上,一批聚焦不同行业和场景的大模型开始涌现。从华为、腾讯、阿里到科大讯飞等等,都在试图让大模型在商用层面落地。和以前「写诗作画」的卖点相比,现在大家更关心如何让大模型帮助用户解决实际问题。
可以说,主流的大模型玩家们终于开始脚踏实地准备做实事了。
而华为作为国内最早投入大模型研发的科技巨头,早在 2021 年就推出了盘古大模型 1.0。但是在今年的行业热潮中,却迟迟没有拿出来自自家的当家产品。直到 7 月 6 日世界人工智能大会,华为轮值董事长胡厚崑才正式预告了盘古 3.0 的发布,并提到,未来人工智能的发展,关键是要「走深向实」,赋能产业升级。7 月 7 日,在华为云开发者大会(HDC2023)上,华为云正式发布了盘古大模型的 3.0 版本。
和 ChatGPT 不同,盘古 3.0 并不是一款主打「聊天」的大模型,华为方面甚至提到,盘古大模型在一段时间内都不会开放给个人用户使用,这也不是产品的主要方向。尽管华为并未透露这个时间具体是多久,但至少印证了,「Chat」(聊天)不是盘古大模型研发的重点。
「我们从来没有和 ChatGPT 比较过,没有叫盘古 Chat,也没有叫 Chat 盘古,我们没时间聊天」。华为常务董事、华为云 CEO 张平安在 7 月 7 日媒体沟通会中提到。
据华为介绍,盘古 3.0 大模型不是一个单独的大模型,而是一系列大模型集群和工程应用平台的总称,共分为三个层级,既包括了底层(L0)的通用大模型,也包含了第二层(L1)的行业大模型和第三层(L2)的细分场景模型。
应当说,在整个大模型赛道都在争相比拼谁更擅长写诗作画的时候,盘古 3.0 选择了一条全新的路,其发力点不仅在于通用能力的迭代,同时也聚焦于专业能力的进化,以满足不同行业和场景的多样化需求。
华为显然已经意识到了,大模型要想真正落地,必须要落地解决实际需求。大模型必须要在不同行业和场景中具有高度专业的实用能力,才能生存下去。
不做下一个 ChatGPT
我们到底需要什么样的大模型?当 ChatGPT 以意想不到的速度在全球蹿红之初,可能就连最头部的科技巨头也没想清楚这个问题的答案。在微软迫不及待地对旗下搜索引擎「必应」进行激进改版后,事实证明效果并不理想。
但所有人都相信,随着生成式 AI 的智能化水平跨过一个特定节点,必将彻底重塑整个世界的生产方式——其效果可能不逊于计算机带来的上一轮信息革命。
在这次大模型团战中,作为最晚入局大模型赛道的国内科技巨头,华为选择从自身最擅长的 To B 市场入局。经过上半年的「折腾」,整个大模型赛道也逐步意识到,To C 市场虽然热闹,但最终大模型还是必须要做深做实,才能在商用层面落地。
「华为的大模型不作诗,只做事。」在 7 月 7 日华为云开发者大会上正式发布盘古 3.0 时,华为常务董事、华为云 CEO 张平安如此表示。
作为国内最早投入大模型研发的厂商,华为早在 2021 年就推出了盘古 1.0 大模型,而这次正式发布的盘古 3.0 则是对盘古 1.0 的一次重大升级。正如 GPT3.0 到 GPT4.0 的升级一样,盘古 3.0 也是一次革命性的迭代,并且走了和 ChatGPT 完全不同的路。
三年磨一剑。在过去两三年,盘古大模型在架构和训练方法上都进行了重大升级。
在架构方面,盘古 3.0 首创了三层架构,其最底层是 CV(视觉)、NLP(中文语音)、多模态、预测决策、科学计算、搜索推荐等一系列通用大模型,第二层是矿山、气象、药物分子、电力、金融等行业大模型,第三层则是解决具体问题的场景模型,具有高度定制化的功能性特征。
而在训练方法上,盘古 3.0 也升级了一套从通用到专精的训练模式,既有行业常见的预训练方法,训练大模型的通用能力。同时还加入了针对性的特调训练,可以通过 SFT 的数据进行精调,满足不同行业需求,并且还有 RHLF 训练,可以针对客户的标注和反馈再进行强化学习。
此外,作为行业首个完全分层解耦的大模型集群,盘古 3.0 对自身的不同能力进行了区分,而不是像 ChatGPT 一样直接打包成一个巨无霸大模型,让用户可以按需取用。
通俗来说,就是盘古 3.0 的各项能力之间可以独立运行互不干扰。因为不同行业不同客户的需求是不一样的,例如铁路行业可能主要需要视觉模型的能力,气象行业可能主要需要科学计算的能力,分层解耦的设计适合针对不同行业的定制化需求。
「分层解耦的模式可以把大模型的商业模式构筑得很好,让行业客户就像抓药一样想要什么就拿什么。」张平安在 7 月 7 日接受媒体群访时提到。
依托于全新的三层架构和分层解耦能力,盘古大模型的核心定位是对各行各业进行赋能,其中华为主要专注于 L0 层级和通识的 L1 层级。
当然,不管架构和能力上有何创新,大模型的核心竞争力最终还是体现在训练成果上,这背后必须依赖于庞大的数据量和算力支撑。
在数据方面,盘古大模型预训练数据中包含了超过 3 万亿 tokens,使用了超过 1000+TB 的数据训练,指令微调数据也在千万级。而且和其他通用大模型相比,盘古行业大模型还采用了不少行业公开客户数据和行业客户授权数据进行训练,针对性的行业数据训练进一步提升了盘古 3.0 解决行业问题的能力。
在算力方面,由于众所周知的原因,华为并不能使用通用 GPU 架构,只能自己搭建框架和平台。据张平安透露,盘古大模型算力基于华为昇腾 AI 算力集群,核心是达芬奇架构的昇腾芯片适配神经网络计算。但据华为介绍,盘古 3.0 基于昇腾 AI 集群的模型训练效率对比 GPU 架构提升了 1.1 倍。
为了进一步提升算力规模,7 月 7 日张平安在大会上宣布,单集群 2000P Flops 算力的昇腾 AI 云服务在华为云的乌兰察布和贵安 AI 算力中心同时上线。相较于火遍全球的 GPU 架构,未来昇腾 AI 算力集群希望成为国内 AI 算力另一极。
在多重创新下,盘古大模型在多项能力上实现了行业领先,其中盘古 NLP 大模型是业界首个千亿参数的中文大模型,具备强大的文本理解和生成能力,CV 大模型则首次兼顾了图像判别与生成能力,在 ImageNet 1%、10% 数据集上的小样本分类精度上,达到了业界最高水平。
进入 6 月以来,不少 AI 行业人士都坦承,在年初 ChatGPT 爆红之初,整个行业是存在一定炒作的。当所有企业都在抢着发布千篇一律的聊天大模型时,也预示了这一方向可能开始陷入了一定的误区。
今年 2 月,任正非在「难题揭榜」火花奖座谈会上就曾提到,未来 AI 大模型会风起云涌,不会只是微软一家。而人工智能软件平台公司对人类社会的直接贡献可能不到 2%,98% 都是对工业社会、农业社会的促进。
如今即便是 OpenAI 也在考虑进入行业市场,很大程度说明了,行业化或将是整个行业的必由之路。如何进一步改造工业社会和农业社会,将是各个大模型玩家需要共同思考的问题。
深耕行业,落地场景
当行业内的玩家都逐步意识到,行业化正在成为未来大模型竞争的焦点之后,围绕不同行业的深入水平,将成为决胜的关键——谁能掌握行业的真实需求,并切实为行业解决问题,谁就能最先跑通大模型的商业模式。
作为全球最大的通信设备厂商,华为在政企市场有着长达数十年的积累,在行业的纵深上有着很大优势。最近两年,华为陆续成立了 20 大军团,下到矿山、煤井里面去,就是为了进一步打入行业,深度服务政企客户。
在 7 月 7 日的媒体群访中,华为云 CEO 就提到,华为最大的优势就是,行业业务做得比较深,行业哪里有问题,就能把科学家、数学家送到哪里去。
「我们的科学家、数学家可以下到煤矿井里,可以蹲在车间一个月、三个月。我们敢下到田头、地头,别人可能下不去或者不愿意下去,这就是华为在大模型上最重要的优势。」张平安表示。
从实际运用来看,此前军团作战深耕的不少行业,确实也成为了盘古行业大模型最先运用的领域。
例如在华为比较擅长的政务市场,盘古政务大模型通过对超过 20 万条政务数据进行精调,包括 12345 热线、政策文件、政务百科等,掌握了丰富的法律法规、办事流程等行业知识。在深圳市福田区政务服务数据管理局的应用案例中,基于盘古政务大模型训练的福田政务智慧助手小福,能够精准理解民众咨询意图。
再比如在金融领域,盘古金融大模型通过对银行的各种操作、政策、案例文档进行预训练,能根据客户的问题,为柜台工作人员自动生成流程和操作指导,将原来需要平均 5 次的操作降低为 1 次,办结时间缩短 5 分钟以上。
在气象领域,盘古气象大模型则是首个精度超过传统数值预报方法的 AI 预测模型,同时预测速度也有了大幅提升。原来预测一个台风未来 10 天的路径,需要在 3000 台服务器的高性能计算机集群上花费 5 小时进行仿真。
就在这次华为云开发者大会召开之前,7 月 6 日,《自然》杂志发表了华为云盘古大模型研发团队研究成果——《三维神经网络用于精准中期全球天气预报》。论文显示,盘古气象大模型突破了 AI 预报天气精度不及传统数值预报的世界性难题,是首个精度超过传统数值预报方法的 AI 模型,速度相比传统数值预报提速 10000 倍以上。
此外,在煤矿、铁路、药物研发等行业,盘古大模型都推出了专用的行业大模型,进一步帮助行业提升效率。华为表示,盘古大模型的目标是让每个行业、每个人都拥有自己的「专家助手」。
「我们始终坚持 AI for Industries 的战略,在深耕行业的道路上不断前行。我坚信大模型将重塑千行百业,而每一个开发者,都将是改变世界的英雄。」华为云 CEO 张平安表示。
而在行业大模型之上,更细分更具体(L2)的场景模型,则是专门为了解决特定问题而生,华为的说法是「开箱即用」。盘古大模型目前已经在超过 100 个实际场景中取得应用,降低了人工智能的开发门槛,平均节省研发成本 80% 以上。
例如在国网重庆供电公司,盘古 CV 大模型在经过海量无标注电力数据的预训练和少量数据微调之后,被成功运用到了电力智能巡检中,很大程度取代了传统的无人机智能巡检 AI 模型。在数据标注能力上,新模型的样本筛选效率提升约 30 倍,筛选质量提升约 5 倍,以永川每天采集 5 万张高清图片为例,可节省人工标注时间 170 人 / 天。
在针对司法案件检索的应用中,盘古 NLP 大模型针对多个行业难点进行了微调和优化,甚至设计了新的预测函数。最终在中国法律智能技术评测 CAIL (Challenge of AI in Law) 大赛中,以 NDCG@30 分值 0.943 的总成绩位列第一。
而在货运列车智慧检测的运用中,盘古大模型对货车运行故障实现了精准检测,可以精准识别 442 种各类故障。大类故障发现率达到 99.99%,一般故障发现率超过 98%,总体发现率达到 99.8%,超过客户预期。
在华为看来,未来大模型将会成为一个从通用到专精的综合体,其中大语言模型更像是一个内脑中枢,提供了自然语言处理领域的通用解决方案:可以理解人类意图,并通过调用各种细分行业模型来服务行业,而各种聚焦场景的调优模型,则更像是具体的小功能,专门去解决具体问题。
毫无疑问,今年以来大模型赛道的爆发,将成为一场科技革命,彻底重塑整个工业社会,很多行业都将被彻底改变。而华为作为一家企业,除了研究和工程化以外,更需要探索新的大模型商业模型,保证大模型的商业成功。
如今将盘古大模型分为 L0 到 L2 的三层模式,并在完全解耦的基础上,针对不同客户的需求进行拆分组合,就是为了进一步探索大模型商业化的边界。
华为的大模型之路
几个月前,国产大模型纷纷横空出世之时,行业就一直在期待华为大模型的亮相。作为国内 AI 产业的头部玩家,华为一直被视为在人工智能方面积累最深厚的企业之一,到底华为会走出一条什么样的大模型之路,也一直被行业关注。
虽然盘古 3.0 的亮相比其他主流玩家都要晚一些,但如果回溯过往,华为对大模型的研究其实由来已久。
据华为方面披露,早在 2020 年,华为就判断未来 AI 产业将有两个主要的发展方向,一个是从小模型到大模型的趋势,另一个则是 AI 和传统科技计算的结合,也就是 AI for Science。当时华为提出了关于数据模型和知识的 6 个子课题,其中模型模高的计划和万物预视计划都和大模型高度相关,在 GPT-3 推出之前华为就一直在朝着这份方向推进。
但 ChatGPT 对行业的推动确实不容忽视,特别是在 2020 年 GPT-3 推出后,使整个行业注意到了大模型加速崛起的新趋势。华为也从 2020 年夏天开始进行大模型 NLP、大模型 CV 方向的研究,后来逐渐扩展到了多模态、个性计算、预测决策进行立项。
除了入局足够早,华为在大模型方面的人才积累也足够深。据华为方面披露,盘古大模型团队中有 50% 以上是博士,还有多名天才少年,这个团队的平均年龄还不到 30 岁。这样一个技术过硬,且敢于创新的年轻团队,是盘古大模型背后最坚实的人才保障。
如今盘古 3.0 的亮相,并选择了扎根行业的路线,意味着华为终于朝着自己选择的大模型之路上踏出最重要的一步,但接下来的下一步将怎么走,和整个行业一样,华为也还在摸索之中。
但是摸索不代表犹豫,据华为云 CEO 张平安在 7 月 7 日的媒体群访中透露,针对盘古大模型的下一步,华为做了一个非常激进的路线图,「我们现在是 all in 盘古大模型,路标图制定是密密麻麻的。」张平安表示。
在张平安看来,未来盘古大模型更关注的不是参数有多大,而是对行业的垂直渗透率有多高。除了现在已经切入的铁路、煤矿、金融、政府等行业,还有更多的行业需要自己的大模型。
「盘古大模型将来最有价值的不是 5000 亿、上万亿的参数。而是在哪些行业又做深了,又扩展了哪些新的行业。」张平安表示。
尽管大家现在都在朝着行业化的方向迈进,但华为毕竟不同于其他玩家。由于长期在算力底座、开发框架等方面的积累,盘古大模型还具备了一大优势,就是全栈研发能力。
今年大模型赛道火了之后,为了满足大模型训练庞大的算力需求,英伟达的 GPU 一芯难求。国内整个大模型赛道如今都面临着算力紧缺,而未来英伟达 GPU 也很可能将会面临供应限制,这就要求国产大模型必须具备全栈自主研发能力。
据华为云 CTO 张宇昕透露,盘古大模型从算力到算子,再到框架、开发平台等都是自主创新,没有使用开源技术。而之所以能够做到全栈自主研发,主要得益于华为此前在 AI 底座、算力和芯片等根技术上的积累。
因为有了昇腾的 AI 底座,有了 Mindspore 的计算框架,有了 ModelArts 训练平台等全栈的 AI 根技术,华为在做大模型的时候,才能针对不同行业和场景做更深入的优化,比其他玩家更深一步。
正如 7 月 6 日华为轮值董事长胡厚崑提到的,当前华为在人工智能发展上主要有两个着力点,一方面是打造强有力的算力底座,做好产业基础设施,另一方面就是从通用大模型到行业大模型,服务好千行百业。
在这次盘古大模型 3.0 发布时,盘古还公布了全新 LOGO,新的 LOGO 上面顶着天,下面踏着地,是盘古开天地的简化符号。「古有盘古开天地,万物新生;今有盘古纵四海,行业重塑。」张平安表示。
当华为为自家的大模型取名盘古时,或许就意味着,盘古大模型肩扛重担,如果未来国产大模型也面临「卡脖子」难题,盘古必须要独自撑起一片天来。
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代表Bi123的观点或立场