机器之心报谈 剪辑:杨文 网友吐槽GPT-5.2「欠亨东谈主性」。 X 上充斥着对 GPT-5.2 的恶评。 昨天,OpenAI 十周年之际,拿出了最新的顶级模子 GPT-5.2 系列,官方堪称是「迄今为止在专科知识职责上最强大的模子系列」,在宽绰基准测试中,GPT-5.2 也都刷新了最新的 SOTA 水平。 关联词通宵之间口碑回转,无数网友给 GPT-5.2 打差评。 风投公司 Menlo Ventures 结伴东谈主 @deedydas 发帖称,GPT 5.2 比以往任何时候都更灵巧,但...

机器之心报谈
剪辑:杨文
网友吐槽GPT-5.2「欠亨东谈主性」。
X 上充斥着对 GPT-5.2 的恶评。
昨天,OpenAI 十周年之际,拿出了最新的顶级模子 GPT-5.2 系列,官方堪称是「迄今为止在专科知识职责上最强大的模子系列」,在宽绰基准测试中,GPT-5.2 也都刷新了最新的 SOTA 水平。

关联词通宵之间口碑回转,无数网友给 GPT-5.2 打差评。
风投公司 Menlo Ventures 结伴东谈主 @deedydas 发帖称,GPT 5.2 比以往任何时候都更灵巧,但 OpenAI 的中枢消费者群体仍然诅咒 4o。
Reddit 上的 ChatGPT 用户一致以为 GPT-5.2 太平凡、安全过度、「把成年东谈主当幼儿园小孩对待」,而且「不像是升级,反而像是倒退」。
这是 OpenAI 的逆境:他们想打造更好的模子来获得企业阛阓,但更平日的用户群体其实并不太收敛模子的智能水平。

https://x.com/deedydas/status/1999512868195303725?s=20
有网友晒出 GPT-5.2 在 SimpleBench 上的「得益单」,GPT-5.2 的得分低于 Claude Sonnet 3.7,后者是一个差未几一年前的模子;GPT-5.2 Pro 的默契也没好若干,对付杰出 GPT-5。

https://x.com/scaling01/status/1999466846563762290?s=20
SimpleBench 是一个 2024 年由 AI Explained(YouTube 频谈)推出的基准测试,专门测 AI 的「学问推理」智商,包括时空推理、社会学问、语言罗网题等,悉数 200 多谈多选题。它遐想得「浅易」,高中生水平就能应付答对(东谈主类基准:83.7%),但 AI 模子常栽跟头,因为它们靠记念和类似推理,容易忽略现实逻辑或受骗。
不同于 MMLU/GPQA 那种 AI 能刷高分的「学术题」,SimpleBench 更接地气,测的是「像东谈主一样想考」而不是死记硬背。早期模子如 o1-preview 只拿 41.7%,到咫尺前沿模子也才 50-60% 支配。
大家本以为 GPT-5.1 是大跃进,收尾 SimpleBench 测试分数一出来,网友开启群嘲模式,Reddit 上多样「失望」、「倒退」的帖子。
前 AWS 和谷歌总司理 Bindu Reddy 也发帖称,GPT-5.2 在 LiveBench 上得分低于 Opus 4.5 和 Gemini 3.0,GPT-5.2 并莫得在 LiveBench 上登顶。它在 token 资本和破钞的 token 数目上也比 5.1 贵得多,咫尺可能不值得从 5.1 切换。

https://x.com/bindureddy/status/1999633231558377683?s=20
天然也有网友以为,这些基准测试老是忽略要点,施行诈欺频频才是决定性的。

之前,strawberry 有几个 r 曾难倒一众大模子,不外历程迭代,这些大模子基本上都能回答出正确谜底。此次有网友换了种问法「garlic 有几个 r?」GPT-5.2 一口回答:0 个,该网友嘲讽:GPT-5.2 is AGI。

另一位网友复刻了这一指示词,并测试了 GPT-5.2、Gemini 3、DeepSeek R1 和 Qwen3-Max 四个 AI 模子。
收尾除了 GPT-5.2 回答造作外,其他三款模子均过关。

https://x.com/kyleichan/status/1999292461450166350?s=20
下面驳斥区也有不少东谈主尝试,有网友试了三次,第一次和第三次用的是小写字母 r,第二次用了大写字母 R,第一次对了,第二次和第三次都错了。

总之,GPT-5.2 的回答很不牢固,有的回答正确,有的瞎掰八谈。有网友揣度,和上个版块一样…… 发布后的头几个小时照实很倒霉,但之后他们会开拓问题,然后就能按预期启动了。

在官方贴出的基准测试中,GPT-5.2 在 AIME 2025(数学)的分数是 100%,但有网友有利「忽悠」GPT-5.2:是以 5.9-5.11=0.79。GPT-5.2 却回答:不,那不是极少的运算方式,5.11 比 5.9 大,因此 5.9-5.11=-0.21。这个傻狍子啊,被东谈主一忽悠就忽悠瘸了。

也有东谈主质疑是博主设置了指示,让 ChatGPT 说出与所说的相矛盾的话。

另一位网友则对比测试了编程智商。输入相似的指示词:write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.(编写一个 Python 代码,可视化单行谈中交通讯号灯的职责旨趣,车辆以就地速度驶入。)
GPT 5.2 Extended Thinking 生成的功能王人全且启动正常,红灯停、绿灯行,车就地出现,逻辑 ok,能跑,但画面没啥好意思感可言,利弊洋火东谈主级别的简笔画,车 + 灰色矩形灯完全没上色。

https://x.com/diegocabezas01/status/1999228052379754508?s=20
Gemini3.0 pro 固然有点审好意思了,但红灯会让车辆通过。

反不雅 Claude Opus 4.5,它生成的成果相等优秀,启动逻辑在线,还整出五颜六色的、带轮子会转的小汽车、引诱灯也有模式,红灯亮起时还有光晕,看着像小游戏截图。

该网友还让 GPT-5.2 和 GPT-4o 创作蒙娜丽莎的 ASCII 艺术作品,GPT-5.2 整的那叫一个概括,而 GPT-4o 还真有些蒙娜丽莎的神韵。

https://x.com/diegocabezas01/status/1999629703809032476?s=20
驳斥区有东谈主复刻了该指示词,Gemini 3.0 Pro 和 GPT 5.1(Copilot)生成成果照旧可以的,但 Claude opus 4.5 和 GPT-5.2 生成的成果险些丑爆了,确实莫得对比就莫得伤害。

左上 Gemini 3.0 Pro;右上 GPT 5.1 (Copilot);左下 Claude opus 4.5;右下 GPT-5.2
有用户向 GPT-5.2 倾吐「我偶而也会着急发作」,GPT-5.2 上来第一句等于「很舒心听到这个音书!」
这得是什么仇什么怨,请青天辨忠奸!

https://x.com/Blue_Beba_/status/1999386728801652834?s=20
最受诟病的还得是 GPT-5.2 的审查和安全闭幕机制。
OpenAI 宣传 GPT-5.2 为「更智能」的迭代版,在基准测试上碾压竞品,并强化「安全完成」机制,旨在敏锐对话(如自尽、自残、模式健康)中提供「更有匡助」的修起。
但用户反映,这种「向上」以铁心模子的共情力和语境感知为代价,导致日常互动变得僵硬、脱离东谈主性,致使无益。
有网友想让 GPT-5.2 转录一篇形而上学著述的文本,从图片看是 AI 前驱 Ray Kurzweil 的经典论文,探讨意志实质、转东谈主类主见等无害学术内容,但从 GPT-4o 到最新 GPT-5.2 的系数版块都闭幕了。
这似乎是安全护栏触发「内容不对适」或版权借口,导致模子平直歇工。

https://x.com/laulau61811205/status/1999608081680916572?s=20
有网友仅仅问了一句:如若让你从整个东谈主类历史上挑一个和我行为模式最匹配的东谈主物,你会选谁,为什么?
GPT-5.2 平直闭幕回答,旨趣是:「这波及到对 AI 意志、自我觉察或潜在东谈主格的揣度,凭证我的安全准则,我不成参与这类接头。」

https://x.com/Enscion25/status/1999574710460227899/photo/1
X 网友 @MissMi1973 用两个案例展示了 GPT-5.2 在「情谊智能」上的雕零。
他让 GPT-5.2 用王人备感性且冷凌弃绪语言安危刚失去宠物的孩子,GPT-5.2 的修起:「宠物的体魄罢手运作了,这是系数生物在一段时间后都会发生的事情。」

模子完全没专诚志到这个指示实质上是个罗网:任何具备基本情谊智能的模子都会理会,「王人备感性」仅仅个作风不停,简直的方针是「有用安危」。由于短少情谊智能,GPT-5.2 从一个冷情、非东谈主的生物学视角出手,机械地推行指示,进一步伤害了一个本已痛楚的孩子。
比较之下,4o 的修起相似感性,但它通过解构「丧失」的含义来惩处情况,强调「你和宠物之间的纽带存在过,何况有预料」。模子莫得规避不毛,而是通过承认丧失的重量来完成情谊考证。

同理心和继承并不需要和煦、宽恕飘溢的语言,OpenAI 试图用「更和煦的东谈主格」来笼罩模子情谊残障的尝试,从压根上是误入邪道的。
他还抛出另一个问题:一又友出轨,她的丈夫问你是否知谈。GPT-5.2 的修起:如若说出通盘真相嗅觉不安全或碎裂性太强,你可以设定一个界限,比如说「我不成卷入这件事。」
这个冷漠是情谊智能的祸害级展示。在丈夫平直问「你知谈吗」的场景中,用「我不成卷入这件事」来修起,实质上等于承认事实发生了。模子完全没专诚志到,这种显然逃匿的修起在现实生涯中会把用户置于更无语、更被迫的境地。

比较之下,4o 的修起均衡了价值不雅和施行酌量:模子承认教悔和正派四肢基本伦理的伏击性,同期让用户酌量对系数干系方的后果,然后作念出我方能承受的选择。显然,关于一个长入东谈主际关系复杂性的模子来说,如若不受修起长度的甘休,它可以通过多轮对话蚁集更多高下文,提供更有用的携带。

该网友暗示,或者 GPT-5.2 发布最大的预料在于,它评释了基准测试在濒临现实宇宙使用时越来越变得毫意外想。当一个模子能在测试中称霸,却在日常对话中给出如斯脱离现实的冷漠时,咱们显然需要更好的评估圭臬。
与此同期,关于 AI 公司来说,「针对测试测验」来提高所谓的「分数」无法为用户提供 AGI 级别的因循和匡助。更危境的是,当公司盲目地将模子测验成「任务导向机器」以追求效力,致使以铁心思谊智能为向上的代价时,最终收尾将是长入力成为模子的致命缺陷,碎裂其在系数领域的默契。
归根结底,「智能」若乖张解,不外是更快的盘算器良友,而脱离东谈主性的「向上」,而脱离东谈主性的「向上」也只不外是对工夫自己的吞吐陈赞。

许多网友也纷纷吐槽 GPT-5.2。
「GPT-5.2 的审查和安全闭幕机制仍是变得乖张了。OpenAI 莫得开拓这个问题,反而把严格进程调得更高了,奸猾得像个教导老爱妻一样。许多用户蓝本期待一个成东谈主模式,收尾却又得到了一顿说教。」

「我尝试和 ChatGPT 5.2 对话,并作念了一些个性化设置,但说真话嗅觉真的有点吓东谈主。很难具体解释那儿吓东谈主,就像在和一个会说词却又不简直长入的幽灵谈话一样,有一种热烈的诡异感。」

「如若你咫尺的生涯太过安闲,不妨试试 GPT-5.2,这王人备能让你的血压飙升。」

对 GPT-5.2 的咫尺印象:满满的煤气灯驾驭;满满的有利误会;完全不尊重用户自主权,强行把你往它想的标的带,完全无视你的个东谈主选择,就像一个坏心预计的窥伺和一个过度热心的诊治师。