OpenAI 新推理模型被曝产生更多“幻觉”，o3 / o4-mini 性能与错误率一同提升-创酷软件园

本站 4 月 19 日消息，OpenAI 最新发布的 o3 和 o4-mini 模型在多个方面展现出业内领先的水准，不过，这两款模型依然无法摆脱“幻觉”问题 —— 甚至比以往发布的模型更加严重。

据外媒 TechCrunch 今日报道，幻觉问题一直是生成式 AI 发展过程中最难解决的挑战之一，即使是目前性能最优秀的模型也难以完全避免。过去，每一代新模型在降低幻觉频率方面通常都会取得小幅进步，但 o3 和 o4-mini 却打破了这一趋势。

根据 OpenAI 的内部测试，作为推理模型的 o3 和 o4-mini，出现幻觉的频率不仅超过了前代推理模型 o1、o1-mini 和 o3-mini，甚至还高于传统“非推理”模型（本站注：如 GPT-4o）。

OpenAI 在针对这两款模型发布的技术报告中表示：“要弄清楚随着推理模型规模的扩大，幻觉问题为何反而变得更加严重，还需要进一步研究。”报告指出，尽管 o3 和 o4-mini 在编程和数学等任务上的表现优于以往，但由于模型输出的答案总量增加，导致其既能作出更多准确判断，同时也不可避免地出现更多错误甚至幻觉。

在 OpenAI 设计的内部基准测试 PersonQA 中，o3 回答问题时出现幻觉的比例达到 33%，几乎是前代推理模型 o1 和 o3-mini 的两倍，后者的幻觉率分别为 16% 和 14.8%。在同一测试中，o4-mini 的表现更差，幻觉率高达 48%。

第三方机构 Transluce 的测试也印证了这一问题。这家非营利 AI 研究实验室发现，o3 在回答问题时经常会凭空捏造出某些“过程操作”。例如，Transluce 曾观察到，o3 声称自己在一台 2021 款 MacBook Pro 上“在 ChatGPT 之外”运行了代码，并将结果复制进了答案中。实际上，虽然 o3 拥有一部分工具访问权限，但并不具备执行这种操作的能力。

OpenAI 发言人 Niko Felix 表示：“解决幻觉问题是我们一直在推进的重点研究方向，我们也在不断努力提升模型的准确性与可靠性。”

OpenAI 新推理模型被曝产生更多“幻觉”，o3 / o4-mini 性能与错误率一同提升

1

jmcomic2最新安装包2024官网入口 jmcomic2最新安装包2024登录入口

jmcomic2最新安装包2024官网入口 jmcomic2最新安装包2024登录入口
2025/03/26

2

9.1破解版.apk安装教程，让你轻松下载安装并享受无限功能

9.1破解版.apk安装教程，让你轻松下载安装并享受无限功能
2025/03/28

3

亚洲vs欧洲vs美洲：哪个大洲的球队将在未来的国际赛事中占据主导地位？

亚洲vs欧洲vs美洲：哪个大洲的球队将在未来的国际赛事中占据主导地位？
2025/03/30

4

搞机time极速模式如何直接访问？无需登录，快速享受便捷体验！

搞机time极速模式如何直接访问？无需登录，快速享受便捷体验！
2025/03/30

5

91网站：提供丰富多样内容的互动平台，未来将迎来更智能化发展

91网站：提供丰富多样内容的互动平台，未来将迎来更智能化发展
2025/03/30

6

如何有效掌握日本五十六十路韵母？：学习日语的发音技巧与建议

如何有效掌握日本五十六十路韵母？：学习日语的发音技巧与建议
2025/03/27

7

惠普打印机乱码一直在打印怎么办分享5个解决方法

惠普打印机乱码一直在打印怎么办分享5个解决方法
2025/04/06

8

性行为直播APP如何在成人娱乐行业脱颖而出？：探索未来发展趋势与监管挑战

性行为直播APP如何在成人娱乐行业脱颖而出？：探索未来发展趋势与监管挑战
2025/04/01

9

如何让“再深点…舒服”提升生活质量？舒适感的最大好处分析

如何让“再深点…舒服”提升生活质量？舒适感的最大好处分析
2025/03/28

10

百丽直播为何受到用户喜爱？揭秘直播背后的成功因素

百丽直播为何受到用户喜爱？揭秘直播背后的成功因素
2025/03/29

如何免费获取AE软件并有效提升视频制作技巧？：适合学生和创作者的实用建议

一级做AE直播是否完全免费？费用、平台服务与季节变化影响解析

9.1破解版.apk安装教程，让你轻松下载安装并享受无限功能

jmcomic2最新安装包2024官网入口 jmcomic2最新安装包2024登录入口

如何拍摄“大肉大捧一进一出”视频？从创作到发布，你需要知道的关键事项

美国为什么总被形容为“又粗又大”？从经济、文化到社会解析其背后的真实原因

亚洲vs欧洲vs美洲：哪个大洲的球队将在未来的国际赛事中占据主导地位？

精华区与二区到底怎么选？88888金三角背后隐藏的投资机会：揭秘高潜力区域的优势

9幺黄9·1的深层含义：揭秘数字符号背后的文化与情感联系

如何通过黄金网站9.1版本入口免费下载并享受最佳用户体验：你准备好体验新功能了吗？