GPT-4 突然变得「更懒」、「更笨」，原因为何？

Foresight · 2023-07-14 17:09

Similarweb

Twitter

Roblox

作为世界上最强大的人工智能模型，GPT-4 突然变得不那么强大了。

撰文：AGI 创新实验室

作为世界上最强大的人工智能模型，GPT-4 突然变得不那么强大了。这让业内人士纷纷议论该系统可能会进行重大重新设计。

最近几周，OpenAI GPT-4 的用户一直在抱怨性能下降，一些人称该模型与之前的推理能力和其他输出相比「更懒」、「更笨」。甚至在 6 月初，有用户开始反映 GTP-4 生成的代码质量大不如前。

用户在 Twitter 和 OpenAI 的在线开发者论坛上表达了他们的不满，涉及诸如逻辑弱化、错误响应增多、无法跟踪所提供的信息、难以遵循指令、忘记在基本软件代码中添加括号以及只记住最近的提示等问题。

一位使用 GPT-4 帮助他为其网站编写功能的开发人员写道，

「当前的 GPT4 令人失望。这就像开了一个月的法拉利，然后突然变成了一辆破旧的旧皮卡。我不确定我是否再愿意为此付钱。」

Roblox 产品负责人 Peter Yang 在推特上表示，该模型生成的输出速度更快，但质量较差。「只是一些简单的问题，比如让写作更加清晰、简洁以及产生想法。但我认为写作质量下降了。」他还询问其他人是否注意到这一点。

另一位用户 Frazier MacLeod 回答说：「我发现 GPT-4 变懒了。」

用户 Christi Kennedy 在 OpenAI 开发者论坛上写道，GPT-4 已经开始一遍又一遍地循环输出代码和其他信息。她写到：

「与以前相比，这简直是脑死亡。如果你没有真正体验过它以前的功能，你就不会注意到。但如果你之前真正充分使用过它，你会发现现在它显然要愚蠢得多。」

从缓慢且昂贵，到快速但不准确

与今年早些时候相比，这是一个很大的变化，当时 OpenAI 凭借 ChatGPT 的表现令世界惊叹，科技行业满怀期待地等待着 GPT-4 的推出。 ChatGPT 最初运行在 GPT-3 和 GPT-3.5 上——这些是巨大的底层人工智能模型，为其不可思议的答案提供了动力。

更大的 GPT-4 于 3 月份推出，并迅速成为开发人员和其他科技业内人士的首选模型。它被广泛认为是现有的最强大的人工智能模型，并且它是多模态的，这意味着它可以理解图像和文本输入。

在最初急于尝试这种新模型后，一些人对使用 GPT-4 感到震惊。 Lamini 是一家帮助开发者构建定制大型语言模型的初创公司，其首席执行官 Sharon Zhou 表示，新模型虽然速度缓慢，但非常准确。

忒修斯之船

直到几周前，情况都是如此。然后 GPT-4 速度变得更快，但性能明显下降，这引发了整个人工智能社区的讨论，Zhou 和其他专家表示，这表明重大变化正在进行中。

他们表示 OpenAI 可能会创建几个较小的 GPT-4 模型，其行为与大型模型类似，但运行成本更低。

Zhou 说，这种方法被称为「专家混合」（MOE）。较小的专家模型根据自己的任务和学科领域进行训练，这意味着可能会有一个专门研究生物学的 GPT-4，以及一个专门研究物理、化学等的 GPT-4。当 GPT-4 用户提出问题时，新系统会知道将该查询发送给哪个专家模型。为了以防万一，新系统可能会决定向两个或多个专家模型发送查询，然后将结果混合在一起。

「这个想法已经存在了一段时间，这是自然而然的下一步发展，」Zhou 说。

Zhou 将这种情况与「忒修斯之船」进行了比较，这是一个思想实验，随着时间的推移，船的一部分被替换掉，引出了一个问题，什么时候它会变成一艘全新的船？

「OpenAI 正在修改 GPT-4 并将其转变为由较小船只组成的舰队。从我的角度来看，这是一种新模式。有些人会说它是一样的。」

本周，几位人工智能专家在 Twitter 上发布了他们所说的 GPT-4 架构的详细信息。一家初创公司的创始人 Yam Peleg 在推特上表示，OpenAI 通过使用由 16 个专家组成的 MOE 模型，能够降低成本。

艾伦人工智能研究所首席执行官 Oren Etzioni 写道：「我『推测』这些猜测大致准确，但我没有得到证实。」

他说，使用 MOE 方法有两个主要的技术原因：生成更好的响应，以及更便宜、更快的响应。

Etzioni 补充道：「『正确』的混合可以同时满足两者，但通常需要在成本和质量之间进行权衡。在这种情况下，有传闻称 OpenAI 正在牺牲一些质量来降低成本。这些模型很难评估（什么构成更好的响应？在什么情况下？）所以这不科学，只是轶事。」

OpenAI 在 2022 年的研究中撰写了有关 MOE 方法的文章，该研究由 OpenAI 总裁、该公司联合创始人格雷格·布罗克曼 (Greg Brockman) 共同撰写。

布罗克曼和他的同事 Lilian Weng 当时写道：

「使用专家混合 (MoE) 方法，仅使用网络的一小部分来计算任何一个输入的输出。一个示例方法是拥有多组权重，网络可以通过以下方式选择要使用的一组权重：推理时的门控机制。这可以在不增加计算成本的情况下实现更多参数。每组权重都被称为『专家』，希望网络能够学会为每个专家分配专门的计算和技能。」

Zhou 表示，GPT-4 最近几周令人不安的性能下降可能与这次训练和 OpenAI 推出的这批较小的专家 GPT-4 模型有关。

Zhou 说，「当用户测试它时，我们会问很多不同的问题。它不会做得那么好，但它会从我们那里收集数据，它会改进和学习。」

OpenAI 处境堪忧

在凭借 ChatGPT 和 GPT-4 的经验表现而响彻全球科技界并且拿下 10 亿月活量之后，OpenAI 似乎在最近一段时间陷入了困境。距离 GPT-4 在 3 月 15 上线已过去近 4 个月，OpenAI 在产品开发和迭代速度上似乎有所放缓，而让人期待的 GPT-5 音讯全无，而 GPT-4 又频频掉链子。

另一个糟糕的事情是，OpenAI 的增长正在陷入停滞。SimilarWeb 数据显示，6 月份，ChatGPT 增长明显放缓，ChatGPT 的网站与移动客户端的全球流量（PV）环比下降了 9.7%，美国地区的流量环比下降了 10.3%。但增长放缓的并不只是 ChatGPT，根据 AceCamp 的数据，几乎所有的 AI 聊天机器人，在用户数量上，增长都已经停滞，甚至开始出现下降趋势。但这种下降也是必然会出现的，前期增长太快，该使用的用户已经使用，不用的用户仍然不会去用。

如果说 ChatGPT 增长放缓是一种自然趋势，那么 OpenAI 面临的监管困境则是另一个麻烦。当前的生成式 AI 浪潮受到了全球监管机构密切关注，尤其是以 OpenAI 为代表。OpenAI 创始人奥特曼最近几个月正全球奔走，与监管机构接洽，特别是欧洲和美国。今年 4 月份，意大利监管机构宣布禁止使用 ChatGPT。

在美国，OpenAI 正在遭遇最严重的监管危机。7 月 14 日消息，美国联邦贸易委员会 (FTC) 正在对 OpenAI 就是否违反消费者保护法展开广泛调查。长达 20 页的调查文件显示，FTC 正在调查 OpenAI 是否从事了不公平或欺诈行为，从而对消费者造成了「声誉损害」。这是迄今为止 OpenAI 在美国业务面临的最有力的监管威胁。OpenAI CEO 奥特曼表示，此举令人非常失望。

此外，OpenAI 还面临着巨大的竞争压力，其竞争对手正在快速赶上。谷歌支持的 OpenAI 竞争对手 Anthropic 刚刚发布了 GPT-4 竞品 Claude 2。Claude 2 的表现出色，甚至多个基准测试上强于 GPT-4。谷歌的大模型 Bard 昨日同样进行重大升级。马斯克同样虎视眈眈，新的 AI 团队 xAI 昨日正式亮相，成员都是 AI 大牛，多数来自 DeepMind 和 OpenAI 自家老员工。

GPT-4 表现不佳、美国监管打击、竞争对手赶超，OpenAI 曾经绕过的弯路，现在却一处都落不下。奥特曼如何解当前的困局？

参考资料：

https://www.businessinsider.com/openai-gpt4-ai-model-got-lazier-dumber-chatgpt-2023-7

https://community.openai.com/t/gpt-4-model-does-not-exist/291988

免责声明：
1.资讯内容不构成投资建议，投资者应独立决策并自行承担风险
2.本文版权归属原作所有，仅代表作者本人观点，不代表Bi123的观点或立场

甄选2000+信号，只为您推荐高胜率信号 | Bi123新功能上新

深度长文，新人全面了解Ordinals生态及部分项目介绍

Bi123 APP积分功能——让您积攒更多价值！

FreeDogs：AI 驱动的去中心化 Meme 生态革命

RFC：从马斯克 Meme 到控筹阴谋？一场狂欢背后的真相

热度高涨的 Wayfinder 的背后，是空投赛道的衰退？

肖风香港对话 Vitalik：回忆 10 年前的中国旅程，以太坊的未来与香港角色

Ripple 豪掷 12.5 亿美元收购 Hidden Road！Crypto 与 TradFi 加速融合

去中心化版 Discord？Towns 获 a16z 加码能否打破链上社交魔咒？