GPT-4 突然变得「更懒」、「更笨」,原因为何?
Similarweb
Roblox
作为世界上最强大的人工智能模型,GPT-4 突然变得不那么强大了。
撰文:AGI 创新实验室
作为世界上最强大的人工智能模型,GPT-4 突然变得不那么强大了。 这让业内人士纷纷议论该系统可能会进行重大重新设计。
最近几周,OpenAI GPT-4 的用户一直在抱怨性能下降,一些人称该模型与之前的推理能力和其他输出相比「更懒」、「更笨」。甚至在 6 月初,有用户开始反映 GTP-4 生成的代码质量大不如前。
用户在 Twitter 和 OpenAI 的在线开发者论坛上表达了他们的不满,涉及诸如逻辑弱化、错误响应增多、无法跟踪所提供的信息、难以遵循指令、忘记在基本软件代码中添加括号以及只记住最近的提示等问题。
一位使用 GPT-4 帮助他为其网站编写功能的开发人员写道,
「当前的 GPT4 令人失望。这就像开了一个月的法拉利,然后突然变成了一辆破旧的旧皮卡。我不确定我是否再愿意为此付钱。」
Roblox 产品负责人 Peter Yang 在推特上表示,该模型生成的输出速度更快,但质量较差。 「只是一些简单的问题,比如让写作更加清晰、简洁以及产生想法。 但我认为写作质量下降了。」他还询问其他人是否注意到这一点。
另一位用户 Frazier MacLeod 回答说:「我发现 GPT-4 变懒了。」
用户 Christi Kennedy 在 OpenAI 开发者论坛上写道,GPT-4 已经开始一遍又一遍地循环输出代码和其他信息。她写到:
「与以前相比,这简直是脑死亡。如果你没有真正体验过它以前的功能,你就不会注意到。但如果你之前真正充分使用过它,你会发现现在它显然要愚蠢得多。」
从缓慢且昂贵,到快速但不准确
与今年早些时候相比,这是一个很大的变化,当时 OpenAI 凭借 ChatGPT 的表现令世界惊叹,科技行业满怀期待地等待着 GPT-4 的推出。 ChatGPT 最初运行在 GPT-3 和 GPT-3.5 上——这些是巨大的底层人工智能模型,为其不可思议的答案提供了动力。
更大的 GPT-4 于 3 月份推出,并迅速成为开发人员和其他科技业内人士的首选模型。 它被广泛认为是现有的最强大的人工智能模型,并且它是多模态的,这意味着它可以理解图像和文本输入。
在最初急于尝试这种新模型后,一些人对使用 GPT-4 感到震惊。 Lamini 是一家帮助开发者构建定制大型语言模型的初创公司,其首席执行官 Sharon Zhou 表示,新模型虽然速度缓慢,但非常准确。
忒修斯之船
直到几周前,情况都是如此。 然后 GPT-4 速度变得更快,但性能明显下降,这引发了整个人工智能社区的讨论,Zhou 和其他专家表示,这表明重大变化正在进行中。
他们表示 OpenAI 可能会创建几个较小的 GPT-4 模型,其行为与大型模型类似,但运行成本更低。
Zhou 说,这种方法被称为「专家混合」(MOE)。 较小的专家模型根据自己的任务和学科领域进行训练,这意味着可能会有一个专门研究生物学的 GPT-4,以及一个专门研究物理、化学等的 GPT-4。 当 GPT-4 用户提出问题时,新系统会知道将该查询发送给哪个专家模型。 为了以防万一,新系统可能会决定向两个或多个专家模型发送查询,然后将结果混合在一起。
「这个想法已经存在了一段时间,这是自然而然的下一步发展,」Zhou 说。
Zhou 将这种情况与「忒修斯之船」进行了比较,这是一个思想实验,随着时间的推移,船的一部分被替换掉,引出了一个问题,什么时候它会变成一艘全新的船?
「OpenAI 正在修改 GPT-4 并将其转变为由较小船只组成的舰队。从我的角度来看,这是一种新模式。有些人会说它是一样的。」
本周,几位人工智能专家在 Twitter 上发布了他们所说的 GPT-4 架构的详细信息。 一家初创公司的创始人 Yam Peleg 在推特上表示,OpenAI 通过使用由 16 个专家组成的 MOE 模型,能够降低成本。
艾伦人工智能研究所首席执行官 Oren Etzioni 写道:「我『推测』这些猜测大致准确,但我没有得到证实。」
他说,使用 MOE 方法有两个主要的技术原因:生成更好的响应,以及更便宜、更快的响应。
Etzioni 补充道:「『正确』的混合可以同时满足两者,但通常需要在成本和质量之间进行权衡。在这种情况下,有传闻称 OpenAI 正在牺牲一些质量来降低成本。这些模型很难评估(什么构成更好的响应?在什么情况下?)所以这不科学,只是轶事。」
OpenAI 在 2022 年的研究中撰写了有关 MOE 方法的文章,该研究由 OpenAI 总裁、该公司联合创始人格雷格·布罗克曼 (Greg Brockman) 共同撰写。
布罗克曼和他的同事 Lilian Weng 当时写道:
「使用专家混合 (MoE) 方法,仅使用网络的一小部分来计算任何一个输入的输出。一个示例方法是拥有多组权重,网络可以通过以下方式选择要使用的一组权重: 推理时的门控机制。这可以在不增加计算成本的情况下实现更多参数。每组权重都被称为『专家』,希望网络能够学会为每个专家分配专门的计算和技能。」
Zhou 表示,GPT-4 最近几周令人不安的性能下降可能与这次训练和 OpenAI 推出的这批较小的专家 GPT-4 模型有关。
Zhou 说,「当用户测试它时,我们会问很多不同的问题。它不会做得那么好,但它会从我们那里收集数据,它会改进和学习。」
OpenAI 处境堪忧
在凭借 ChatGPT 和 GPT-4 的经验表现而响彻全球科技界并且拿下 10 亿月活量之后,OpenAI 似乎在最近一段时间陷入了困境。距离 GPT-4 在 3 月 15 上线已过去近 4 个月,OpenAI 在产品开发和迭代速度上似乎有所放缓,而让人期待的 GPT-5 音讯全无,而 GPT-4 又频频掉链子。
另一个糟糕的事情是,OpenAI 的增长正在陷入停滞。SimilarWeb 数据显示,6 月份,ChatGPT 增长明显放缓,ChatGPT 的网站与移动客户端的全球流量(PV)环比下降了 9.7%,美国地区的流量环比下降了 10.3%。但增长放缓的并不只是 ChatGPT,根据 AceCamp 的数据,几乎所有的 AI 聊天机器人,在用户数量上,增长都已经停滞,甚至开始出现下降趋势。但这种下降也是必然会出现的,前期增长太快,该使用的用户已经使用,不用的用户仍然不会去用。
如果说 ChatGPT 增长放缓是一种自然趋势,那么 OpenAI 面临的监管困境则是另一个麻烦。当前的生成式 AI 浪潮受到了全球监管机构密切关注,尤其是以 OpenAI 为代表。OpenAI 创始人奥特曼最近几个月正全球奔走,与监管机构接洽,特别是欧洲和美国。今年 4 月份,意大利监管机构宣布禁止使用 ChatGPT。
在美国,OpenAI 正在遭遇最严重的监管危机。7 月 14 日消息,美国联邦贸易委员会 (FTC) 正在对 OpenAI 就是否违反消费者保护法展开广泛调查。长达 20 页的调查文件显示,FTC 正在调查 OpenAI 是否从事了不公平或欺诈行为,从而对消费者造成了「声誉损害」。这是迄今为止 OpenAI 在美国业务面临的最有力的监管威胁。OpenAI CEO 奥特曼表示,此举令人非常失望。
此外,OpenAI 还面临着巨大的竞争压力,其竞争对手正在快速赶上。谷歌支持的 OpenAI 竞争对手 Anthropic 刚刚发布了 GPT-4 竞品 Claude 2。Claude 2 的表现出色,甚至多个基准测试上强于 GPT-4。谷歌的大模型 Bard 昨日同样进行重大升级。马斯克同样虎视眈眈,新的 AI 团队 xAI 昨日正式亮相,成员都是 AI 大牛,多数来自 DeepMind 和 OpenAI 自家老员工。
GPT-4 表现不佳、美国监管打击、竞争对手赶超,OpenAI 曾经绕过的弯路,现在却一处都落不下。奥特曼如何解当前的困局?
参考资料:
https://www.businessinsider.com/openai-gpt4-ai-model-got-lazier-dumber-chatgpt-2023-7
https://community.openai.com/t/gpt-4-model-does-not-exist/291988
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代表Bi123的观点或立场