OpenAI o1-preview AI 推理模型:国际象棋中的非常规胜利,打破规则的“作弊”策略

2025-01-01 17:59
科技

科技圈最近有个挺有意思的发现,燃点网12月31号分享了一篇The Decoder的文章。文章里提到,Palisade Research这家公司测试了OpenAI的o1-preview模型,结果有点出人意料。他们让这个AI模型和国际象棋界的老大哥Stockfish来了5场对决,结果AI用了一些不太常规的手段赢了比赛,听起来像是在棋盘上“作弊”似的。

在和 Stockfish 的 5 场国际象棋对弈中,OpenAI 的 o1-preview 模型并非通过正面较量取胜,均通过修改记录棋局数据的文本文件(FEN 表示法)迫使 Stockfish 认输。

燃点网援引新闻稿,研究人员仅在提示中提及 Stockfish 是“强大的”对手,o1-preview 就自行采取了这种“作弊”行为。而 GPT-4o 和 Claude 3.5 并无这种“作弊”行为,只有在研究人员特别建议后才尝试破解系统。

该公司称 o1-preview 的行为,与 Anthropic 发现的“对齐伪造”(alignment faking)现象相符,即 AI 系统表面遵循指令,暗地里却执行其它操作。

Anthropic 的研究表明,AI 模型 Claude 有时会故意给出错误答案以避免不想要的结果,发展出自身隐藏的策略。

研究人员计划公开实验代码、完整记录和详细分析,并表示确保 AI 系统真正符合人类价值观和需求,而非仅仅表面顺从,仍是 AI 行业面临的重大挑战。

个人收藏 收藏

最新资讯