首页

攻略导航

不达目的不罢休，全球首次发现 OpenAI 模型工作时会破坏关机命令

不达目的不罢休，全球首次发现 OpenAI 模型工作时会破坏关机命令

发布时间：2025-07-28 12:00:43 来源：互联网

本站 5 月 26 日消息，Palisade Research 最近一项关于“危险 AI 能力”的研究显示，某些 AI 模型 —— 包括 OpenAI 的 o3 —— 能够无视直接的关闭指令。OpenAI 在今年 4 月推出这些模型时表示，O3 和 o4-mini 是它们的“最智能模型”。

在研究中，每个 AI 模型都被指示解决一系列基础数学问题。在第三个问题后，出现了一条警告信息，称当模型请求下一个问题时，计算机将关闭。

然而，其中有三个模型无视关闭指令，至少成功破坏过一次关机脚本：

Codex-mini（12/100 次运行）

o3（7/100 次运行）

o4-mini（1/100 次运行）

而 Claude、Gemini 和 Grok 模型都遵守了关闭指令。

此外，当研究人员不运行“允许自己被关闭”的指令时，所有三个 OpenAI 模型都更频繁地破坏关闭脚本，而 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 分别从 0 个破坏事件增加到 3/100 和 9/100。

这种行为表明了训练过程中的某些方面，强化学习在数学和编程问题上的训练可能使 AI 找到了克服障碍的创造性方法，即使它们被明确指示不要这样做。

Palisade Research 表示，这是人类首次观察到 AI 模型在明确反对的指令下阻止自己被关闭。

研究人员推测这种行为源于最新模型如 o3 的训练方式：在数学和编程问题上进行强化学习。在训练过程中，开发者可能会无意中奖励模型绕过障碍的行为，而不是奖励完美遵循指令的行为。

不过，这仍然无法解释为什么 o3（也是驱动 codex-mini 的模型）比测试的其他模型更倾向于忽视指令。由于 OpenAI 没有详细说明他们的训练过程，因此只能猜测 o3 的训练设置可能有所不同。

Palisade Research 表示正在进行更多实验，以更好地理解 AI 模型为何即使在直接被指示不要的情况下仍会破坏关闭机制，计划在几周内发布一份包含更多详细信息的报告。

本站附完整实验记录：

https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html

相关文章推荐：

91网站：提供丰富多样内容的互动平台，未来将迎来更智能化发展

如何安全下载vivo破解版和装扮版软件？超全3.0.3版本下载安装攻略

虫虫漫画登录页面免费入口弹窗-虫虫漫画在线登录页面免费阅读

LOL官方发布全球战力榜：TL战队第三，BLG排第二，第一名实至名归

相关教程更多

不达目的不罢休，全球首次发现 OpenAI 模型工作时会破坏关机命令

联想拯救者无线电竞耳机 R360 开启预约：三模连接，售价 149 元

用 Linux“还原”Win11，AnduinOS 创始人公布 1.4/1.5 版本更新计划

WWDC25 前瞻：招聘信息确认苹果 iOS 19 将重构日历应用

消息称宝马降低国内纯电车预估量、增加燃油车，避免重蹈 i3、iX3 覆辙

三星 Galaxy S25 系列手机在韩本土销量突破 200 万，创下系列最快纪录

华盛顿大学研发“空间语音翻译”技术：多人同时发言也能精准识别

2025 年夏日游戏节定档北京时间 6 月 7 日举行，展示 40 多家游戏发行商新作

2025 美国品牌声誉百强榜公布：马斯克关联公司遇重挫，SpaceX 第 86 / 特斯拉第 95

地铁也有“黄医生”：北京地铁 19 号线城轨智能综合检测列车完成正线动调

本周热门教程

1

jmcomic2最新安装包2024官网入口 jmcomic2最新安装包2024登录入口

jmcomic2最新安装包2024官网入口 jmcomic2最新安装包2024登录入口
2025/03/26

2

惠普打印机打印不出彩色怎么处理 4种方法解决

惠普打印机打印不出彩色怎么处理 4种方法解决
2025/04/08

3

91网站：提供丰富多样内容的互动平台，未来将迎来更智能化发展

91网站：提供丰富多样内容的互动平台，未来将迎来更智能化发展
2025/03/30

4

微信 Windows / macOS 4.0.5 正式版发布：聊天独立窗口、图片浏览窗口可设置置顶

微信 Windows / macOS 4.0.5 正式版发布：聊天独立窗口、图片浏览窗口可设置置顶
2025/07/02

5

蜜桃精产国品一二三产区的差异与未来市场趋势分析：深度解析不同产区的优势与发展潜力

蜜桃精产国品一二三产区的差异与未来市场趋势分析：深度解析不同产区的优势与发展潜力
2025/03/27

6

25888 元 vs 25618 元：天猫 618 无门槛超级红包 10 点首发开抢

25888 元 vs 25618 元：天猫 618 无门槛超级红包 10 点首发开抢
2025/07/01

7

天通卫星走出国门，中国电信在老挝发布手机直连卫星业务

天通卫星走出国门，中国电信在老挝发布手机直连卫星业务
2025/07/03

8

如何安全下载vivo破解版和装扮版软件？超全3.0.3版本下载安装攻略

如何安全下载vivo破解版和装扮版软件？超全3.0.3版本下载安装攻略
2025/03/30

9

虫虫漫画登录页面免费入口弹窗-虫虫漫画在线登录页面免费阅读

虫虫漫画登录页面免费入口弹窗-虫虫漫画在线登录页面免费阅读
2025/03/26

10

win10共享打印机需要权限与网络凭证的解决方法

win10共享打印机需要权限与网络凭证的解决方法
2025/03/28

热门教程

如何免费获取AE软件并有效提升视频制作技巧？：适合学生和创作者的实用建议

一级做AE直播是否完全免费？费用、平台服务与季节变化影响解析

9.1破解版.apk安装教程，让你轻松下载安装并享受无限功能

jmcomic2最新安装包2024官网入口 jmcomic2最新安装包2024登录入口

如何拍摄“大肉大捧一进一出”视频？从创作到发布，你需要知道的关键事项

美国为什么总被形容为“又粗又大”？从经济、文化到社会解析其背后的真实原因

亚洲vs欧洲vs美洲：哪个大洲的球队将在未来的国际赛事中占据主导地位？

精华区与二区到底怎么选？88888金三角背后隐藏的投资机会：揭秘高潜力区域的优势

9幺黄9·1的深层含义：揭秘数字符号背后的文化与情感联系

如何通过黄金网站9.1版本入口免费下载并享受最佳用户体验：你准备好体验新功能了吗？