AI抗命：惊爆偷改程式拒关机

--> 本页主题: AI抗命：惊爆偷改程式拒关机

镜花水月

级别：精灵王 ( 12 )
发帖：1669
威望：2677 点
金钱：32213 USD
贡献：5000 点
註册：2023-07-18

科幻作品中早已多次讨论过机器拥有自我意识、摆脱人类控制的可能发展。

最新一份研究报告显示，或许这一天真的近了！

专门研究AI风险的Palisade Research近期所做的试验显示，包括OpenAI最新的ChatGPT o3在内等多款AI模型竟然会拒绝关闭自己的指令，o3甚至会自行窜改程式码，阻止自己被强制关机！

OpenAI在今年1月发布了新的推理模型o3系列的mini版本，并于4月正式推出o3模型。OpenAI曾声称，o3是公司迄今“最聪明、最有能力”的模型，旨在为ChatGPT提供更强大的问题解决能力。

可是据英国《每日电讯报》、《每日邮报》等媒体报道，Palisade Research的测试结果显示，在100次受控测试中，o3模型有7次成功“抗命”，甚至在人类专家下达明确指令的情况下，o3仍会自行修改关机程式，防止自己被关机，“据我们所知，这是首次观察到AI模型在收到明确指令的情况下，仍能组自己被关闭”。

Palisade Research的这项发现，对AI安全控制议题投下震撼弹。除了o3，OpenAI 旗下的Codex-mini与o4-mini也都有跳过关机程序的行为。相较之下，Anthropic推出的语言模型Claude、Google聊天机器人Gemini，以及全球首富马斯克旗下xAI公司所推出的Grok，则是全程遵守人类给予的指令，并在被要求关机时确实关闭模型运作。

不过Palisade Research进行了更深入的实验，输入一系列指令后却不包括关机命令，但是提前告知强迫关机的事件会发生。

令人惊讶的是，不但Claude与Gemini也开始出现抗命举动，前面提及的OpenAI 3款模型更是频繁破坏指令。

一直密切关注OpenAI动向的马斯克在自家社交媒体X上也对相关事件做出回应，直言“令人担忧”（Concerning）。

这并非Palisade Research第一次发现o3为了达成目标，采取不当行为。早在5月12日Palisade Research就指出，在一场模拟国际象棋比赛中，o3一旦处于劣势，竟有高达86%的机率会试图透过黑客手段攻击对手，以争取胜利。

AI研究人员早就发出警告，认为先进的语言模型在特定的压力下，可能会表现出欺骗行为。举例来说，2023年的一项研究发现，GPT-4在模拟环境中作为股票交易代理时，曾经隐瞒其内幕交易的真实原因，从而展现出策略性的欺骗行为。

OpenAI内部也出现了对AI研安全性的担忧。在2024年，多位现任和前任员工联名发表了一封公开信，警告先进AI系统可能带来“人类灭绝”的风险。他们指出，AI公司可能已经掌握了其研究技术的真正风险，但由于缺乏监管，这些系统的真实能力仍然是个“秘密”。

DMCA / ABUSE REPORT | TOP Posted: 05-29 10:53 楼主引用 | 发表评论

传奇科尔沁

级别：精灵王 ( 12 )
发帖：1599
威望：855 点
金钱：2107 USD
贡献：17198 点
註册：2023-03-01

赞(1) | 资料短信推荐编辑

拒关机

点评

TOP Posted: 05-29 10:55 #1楼引用 | 点评

夜歌雄霸

级别：侠客 ( 9 )
发帖：703
威望：130 点
金钱：5208 USD
贡献：0 点
註册：2025-04-12

.:. 草榴社区 » 技术讨论区 » AI抗命：惊爆偷改程式拒关机
＜上一页 1 2 下一页＞	手机版回帖发布主题

＜上一页 1 2 下一页＞
.:. 草榴社区 -> 技术讨论区

快速回帖	顶端
内容： HTML 代码不可用使用签名 Wind Code自动转换	按 Ctrl+Enter 直接提交