马斯克要告微软 ,拒绝 AI 训练「白嫖」数据
Microsoft
大模型公司低成本抓数据的好日子不多了。
撰文:凯蒂
「现在是诉讼时间。」4 月 20 日,推特被微软踢出其数字营销平台后,新掌门人马斯克立马发推回击称,微软用推特的数据做「非法训练」。这一怼,直接揭开了 AI 大模型开发商与数据源的利益之争。
此前,在线社区论坛 Reddit 与程序员社区 Stack Overflow 先后宣布,将向使用平台 API 训练数据的公司收费;环球音乐集团直接表示,将阻止 AI 从其版权歌曲中抓取歌手的声音。
在此之前,AI 大模型开发商都在低成本地使用互联网公开的内容数据训练自家的大模型,如今,各种科技巨头们加持的大模型纷纷开始商业化,互联网内容平台们突然反应过来,不能让这些巨头们薅羊毛「白嫖」数据了。
当推特将 API 收费门槛摆在微软面前时,AI 大模型训练要给付的成本就不止芯片算力和研发算法的人才了,现在还要加上「为数据付费」。
马斯克直怼微软「非法训练」
「他们非法使用推特的数据进行训练。现在是诉讼时间。」4 月 20 日,「宇宙顶流」马斯克直接在推特上明示要告微软。他以推特 CEO 的身份亲自下场,以此直怼微软把推特踢出 Microsoft Digital Marketing Center(微软数字营销中心)的做法。
这个「中心」是干嘛的呢?它其实是微软利用大数据和 AI 技术开发的一个广告和营销的管理平台,聚合了包括推特、脸书、Ins 等海外所有主流的社交平台,方便企业主们在一个平台上完成广告和营销活动的推送,还能管理各种账号、分析推流数据。你刷微博、微信朋友圈时突然冒出的广告,就有类似微软这种工具的贡献。
微软这个数字营销中心能实现这些功能,很重要的一环是接入了这些社交平台的 API,这是企业主推送广告、分析数据的基础。
结果,马斯克收购推特后,直接把推特 API 的企业套餐初始订阅费用定为 4.2 万美元 / 月,折合人民币 28.9 万元,以这个价格能获得 2500 万条推文,一条差不多 1 块多钱了。如果每月支付 12.5 万美元,能获得 1 亿条推文,后续还会按照使用量加钱。
推特 API 的新收费标准直接劝退了不少小公司,连财大气粗的微软数字营销中心都直言「要价太高」,于是,直接把推特踢出了管理库。这意味着,借助微软这个平台执行广告和营销计划的广告主们,没法在推特上搞投放了。
原本这是企业主、分发平台、渠道商之间的广告业内事,马斯克跳出来了,直指微软用推特的数据搞非法训练。
马斯克称微软用推特数据「非法训练」
谁都知道,爆火的 ChatGPT 背后有微软的资本加持。而马斯克和 GPT 大模型的开发方 OpenAI 不仅渊源颇深,还积怨许久。
2015 年,马斯克与 Sam Altman 等 6 人共同创立 OpenAI 人工智能实验室,致力于建设开源的、研发人工智能的非营利机构,来抗衡当时在人工智能领域大有一家独大之势的谷歌。为此,马斯克捐了 1 亿美元,承诺未来继续捐 9 亿。结果不到 2 年,马斯克就退出了 OpenAI 董事会,这里既有烧钱开发大模型短期没烧出成果的问题,也有马斯克和 Altman 对 OpenAI 的管理权之争。
马斯克退出 1 年后,即 2019 年 3 月,OpenAI 成立子公司 OpenLP,将其定位为「有限营利机构」,重组后的 OpenAI 很快拿到了来自微软的 10 亿美元投资。谁也没想到又一个 3 年过去后, OpenAI 站上了全球科技舞台的最前沿。
ChatGPT 爆火后,当初为 OpenAI 掏过钱、站过台的马斯克频频表达怨念。
2 月 17 日,马斯克发推指称 OpenAI 从开源、非营利变成了微软控制的「闭源、追求利益最大化」的公司;后来还多次在公开场合强调人工智能对人类社会的潜在危害,甚至认为「风险比飞机、汽车、毒品更大」;3 月 29 日,那封科技大佬联署签名「暂停 AI 巨型实验」的公开信上,他也第一时间签名表态。
马斯克为人工智能的健康发展操碎了心,看上去,这位将巨型载人飞船送入太空的现实版「钢铁侠」似乎不打算跟风人工智能了。
然而,4 月 17 日,马斯克在媒体采访中披露,将推出一款生成式 AI 大模型 TruthGPT。很快就有媒体爆料,马斯克买了 1 万个英伟达 A100 芯片。这是 AI 大模型训练的重要硬件。
撕微软非法训练数据,怼 OpenAI 变成逐利公司,无论马斯克如何批评这两家公司,这下也难掩他对人工智能的兴趣了。左手拦下推特数据低成本外流,右手高价囤芯片,在 AI 大模型赛道上,马斯克开始跑马圈地。
多平台 API 拟收费 AI 训练成本被推高
不过,最近要向 AI 大模型开发商们收取 API 费用的平台不止推特。
4 月 18 日,海外最大的社区论坛 Reddit 宣布,将向使用其 API 做数据训练的公司收取数据使用费。
Reddit 暂未公布具体收费标准,业内推测,Reddit 很可能会按数据数量分等级收费,这也是业内的常规做法。此外,程序员问答网站 Stack Overflow 也计划向 AI 巨头收取训练数据费用。
Reddit 更新数据 API 条款防大公司薅羊毛
要知道,研发 AI 大模型,算法、算力和算据这「三算」缺一不可。以 OpenAI 训练 GPT-3.5 为例,这个模型容纳了多达 45TB 的文本语料,这些语料既包括书籍期刊等出版物的内容,也包括社交平台、问答网站、论坛小组等在线数据中的用户生成内容。而从 OpenAI 的公开信息看,该公司并没有提及获取线上数据是否支付过费用。用「爬虫」爬、和第三方合作、以及购买都有可能是 OpenAI 获得数据的方式。
此前,各个生成式大模型似乎都在没啥限制地使用互联网上的公开内容,影响大模型性能的要素就集中在算法和算力差异上。从推特、Reddit 等平台明确为 API 收费后,大模型开发商自在地使用数据的好日子到头了。
2019 年之前,OpenAI 是非营利机构,如今,ChatGPT 都有 Plus 收费版了,更别提该公司还开通了 API 的付费渠道。当前,OpenAI 的估值接近 300 亿美元,研究机构 PitchBook 预测,该公司今年的收入将达到 2 亿美元,明年会翻五番。
社交平台们明确 API 收费,剑指大模型开发商,双方也正式变成了「商业对商业」的关系,收费与付费实属正常。这也意味着,AI 大模型成为科技巨头们狂卷的赛道后,像 Reddit 这样的海量内容平台将增加商业来源,数据将成为重要要素。
以成立于 2008 年的 Reddit 为例,它是全球互联网中最有活力的社区之一,目前日活达到 3.3 亿,大量的用户创建了超过 14 万个活跃社区,帖子总量超 3.6 亿。尤其在很多小众领域,Reddit 论坛贡献了很多有价值的讨论内容。换句话说,Reddit 提供了英语互联网中最重要的语料库。
OpenAI 的 CEO Sam Altman 也表示,公司在积极与内容公司进行合作,并愿意「为高质量数据支付高价」。
尽管 Altman 宣称「目前没在训练 GPT-5」,但 OpenAI 应该不会停下数据训练的脚步,因为 GPT-4 仍有很多需要打磨的地方,比如通识知识的准确性、对人类语言的理解进化等等,这些仍然需要语料数据的持续投入。
放眼全球,研究 AI 大模型的公司还不止 OpenAI 一家,海外有谷歌,国内有百度、华为、阿里。可以预见,切入大模型赛道的公司,都将面对数据所有者的收费关卡,训练成本将水涨船高。
另一个值得深思的问题是,Twitter 也好,Reddit 也罢,他们手握数据向大模型开发公司收取价格不菲的费用,那么,为这些平台贡献了海量内容和数据的用户又得到了什么?
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代表Bi123的观点或立场