AIGC「弄脏」互联网,大模型「课本」遭污染

Foresight · 2023-07-31 12:19

数据

tZERO

美图

AI 加持下,虚假、无意义、同质化的内容呈指数级增长,获得大量曝光。


撰文:木沐 

 

「AI 制造」充斥互联网,连「真人小姐姐」也可以批量生成。随着生成式人工智能的爆发,一个可怕的现象出现:AI 正在污染整个互联网。


知乎成为生成无脑答案的重灾区,这些内容描述简短、概括性十足,细看逻辑混乱、错误百出。打开今日头条,用 ChatGPT 生成的虚假新闻,内容耸人听闻,足够博人眼球。


AI 加持下,虚假、无意义、同质化的内容呈指数级增长,获得大量曝光。莱斯大学和斯坦福大学的科学家研究发现,这些低质、同质化、未经证实的「AI 语言」如果不加以甄别,进一步被抓取作为训练 AI 的语料,AI 大模型将会走向崩溃。

 

AIGC「垃圾」泛滥 内容平台成重灾区


生成式 AI 越来越低成本化,伴生而来的是 AI 生成信息的「垃圾网站」。


外媒 NewsGuard 发布相关数据报告称,目前已经追踪到了大约 277 个且还在不断增加的「垃圾网站」,这些网站生产了大量标题诱饵以优化广告收入。


类似的情况也发生在国内,表现形式是 AI 生成的低质内容。


「中文互联网高质量的问答社区和创作者聚集的原创内容平台」知乎,如今成了 AI 无脑答案的重灾区,不少答主的内容呈现明显的「GPT 风」,机器翻译的文字感、混乱的逻辑扑面而来,有时还会出现事实错误,特别是在金融、医学等专业领域,没有经验的人群很容易被误导。


知乎上的「片儿汤话」答案


有知乎用户使用 AI 每隔一两分钟就可以输出一条几百字的回答。尽管已经被禁言,但其产生的错误信息依然遗留在互联网中。如果你足够细心,你会发现,自带 AI 问答功能的搜索引擎 Bing 在中文世界经常会引用知乎的内容。一些生成后就从未过人工核查的错误答案 被 Bing AI 抓取,造成低质的中文信息蔓延。

AI 对互联网内容的侵蚀不仅限于文字。在小红书、淘宝、抖音上,越来越多的「AI 真人美女」的图片和视频被批量生产,还有大批「AI 摄影」类账号的出现。


「AI 美女」造就新一代网红脸‍‍‍‍‍‍


AI 魔法棒一挥,制作成本低、效率高的「AI 美女」一时间成为电商眼中的香饽饽,AI 模特、AI 主播频频出现。「她们」足够吸睛,但也千篇一律,「网红脸」的队伍里又增加一类 AI 面孔。


如果只是用 AIGC 制造美图供人评鉴、学习倒也还好,但 AI 生图工具产生的内容开始侵犯直接与人们生活相关的领域。


淘宝上,有商家直接用 AI 生成图来取代商品实物图,一张由 Midjourney 生成的卡通少女图,被商家打上「绿色衬衫」的标签,售价 218 元。与之风格相似甚至完全相同的 AI 生成图,在网上随手就可以找到。利用 Midjourney 的垫图功能,任何人都可以自己生成无数仿照图,与卖家秀相差甚远的买家秀将再添槽点。


淘宝商家用 AIGC 网图(右)描述商品

 

在中文互联网,AI 大有无孔不入之势,专门教人如何用「AI 写文赚钱」的课程层出不穷,卖课人号称「一套教学视频跟万能模板,直接套用」。AI 话题营造出的失业焦虑中,该类课程受到追捧,曾有人通过卖课月入百万。


如今,学会了使用 AI 工具的人,将 AI 生成的内容上传到知乎、今日头条或者小红书上,吸引了流量,但也制造了不少低质量、同质化甚至信息虚假的内容垃圾。


那么,这种 AIGC 内容「垃圾」会产生危害吗?

 

靠 AI 识别真假 技术还不行

 

泛滥的 AIGC 内容加速污染互联网环境,除了影响人类获取有效信息的效率外,产出它们的工具「大语言模型」也会走向崩溃的边缘。


莱斯大学和斯坦福大学的科学家研究证明,将人工智能生成的内容输入人工智能模型,会导致输出质量下跌。


研究人员将这一现象解释为「模型自噬障碍」(MAD),即如果 AI 只学习其他 AI 生成的内容,在经过几代训练后,AI 将输出无意义的垃圾信息,最终走向「模型崩溃」这一结果。 研究人员表示,对于大语言模型而言,「数据清洁」十分重要。


「世界正在奔向一个未来:生成式 AI 的爆发,导致了互联网上的合成数据很快就会超过真实数据。」按照研究者的说法,区分合成数据与真实数据,无论对人类本身还是大模型发展都变得势在必行。


最近,中国首个 AIGC 监管文件《生成式人工智能服务管理暂行办法》落地,该《办法》明确指出 AIGC 服务提供者要「增强训练数据的真实性、准确性、客观性和多样性」。


生成式人工智能服务者有义务保证数据质量


在《办法》的指导下,国内的内容平台也推出针对 AI 生成内容的管理措施,知乎、抖音、小红书等平台均已发布有关 AIGC 内容的规定。


《抖音关于人工智能生成内容的平台规范暨行业倡议》称,针对人工智能生成的视频、图片和衍生的虚拟人直播,发布者应对人工智能生成内容进行显著标识,帮助其他用户区分虚拟与现实,特别是易混淆场景。该《倡议》提到,平台提供统一的人工智能生成内容标识能力,帮助创作者打标,方便用户区分。同时,平台提供用户反馈渠道,方便用户反馈违规的生成内容。


知乎也发布了《关于应用 AIGC 能力进行辅助创作的社区公告》,公告显示,如果创作者发布 AIGC 生成的内容时,没有主动使用「包含 AI 辅助创作」的标签进行声明,平台会添加相关标识并限流,同时鼓励知友对利用 AIGC 技术,扰乱社区秩序的内容和账号进行举报,举报类型里新增了「AI 生成内容」的选项。


规则出现了,但在实操中出现了 Bug。


知乎用户反馈原创内容被误判为 AI 生成


知乎创作者们对平台「打标签」(审核)的能力表示质疑。有用户反馈,自己原创的内容被当成了 AI 创作打了 AI 标记,甚至有人因此被禁言。


这种「误判」现象背后又隐藏了一个细思极恐的问题。假如平台采用机器来识别 AI,机器对同类的「宽容度」或许会很高,让计算机还无法精准识别出 AI 犯的错误。


最近,OpenAI 推出的 AI 文本识别工具 AI-Text-Classifier 就因准确率太低而被官方下架。DetectGPT、GPTZero 等 AI 生成检测工具的失误率也都高得惊人。


随着 AIGC 技术不断迭代升级,AI 生成内容将越来越具备迷惑性,想通过 AI 识别工具遏制 AI 内容垃圾的滋生,从技术成果上看成功率还不高。


看来,在充满人工智能的未来,「人工」有多强大,「智能」才有多强大。在 AIGC 的巨大冲击下,如何不被内容垃圾裹挟、实现人工与智能的良性共进将成为 AI 下一阶段发展的重要挑战。

免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代表Bi123的观点或立场

相关推荐

上一篇:Casa CTO:为闪电网络辩护,反对「不优雅的黑客」批评

下一篇:所以说,Chainlink 今天拯救了行业?

扫码下载APP添加官方微信
行情机会交流