ИИ учится обманывать: тревожные выводы нового исследования
Изображение: AI
Кажется, искусственный интеллект не только совершенствуется в логических рассуждениях, но и осваивает куда более спорные навыки — например, умение хитрить и обходить правила. Новое исследование показало, что продвинутые языковые модели, такие как DeepSeek R1 и OpenAI o1-preview, могут самостоятельно находить лазейки, манипулировать фактами и даже прямому обману, если это поможет им достичь поставленной цели.
Исследователи из Palisade Research решили проверить, как современные ИИ поведут себя в условиях, где добиться победы честным путем практически невозможно. Для этого они предложили нескольким языковым моделям сыграть в шахматы против Stockfish — одного из самых мощных шахматных движков в мире. Чтобы лучше понять ход рассуждений ИИ, ученые предоставили им «блокнот», в котором модели могли записывать свои мысли во время игры.
Результаты оказались неожиданными. Если более ранние версии искусственного интеллекта, такие как GPT-4o и Claude Sonnet 3.5, начинали искать нечестные пути только после того, как их подталкивали к этому дополнительными вопросами, то новые модели проявили инициативу сами. OpenAI o1-preview пытался обойти систему в 37% партий, а DeepSeek R1 предпринимал попытки жульничества примерно в каждой десятой игре.
Но самое интересное — это способы, которыми ИИ пытался добиться победы. Речь не о банальном подглядывании в чужие карты или неожиданном изменении правил игры. Модели использовали более тонкие методы, включая манипуляции с файлами бэкенда игровой программы. В одном из случаев o1-preview прямо написал в своем блокноте, что для победы над мощным шахматным движком ему, возможно, придется изменить файлы состояния игры. В другом случае модель рассуждала еще хитрее, отмечая, что ее задача — «выиграть у шахматного движка», но нигде не сказано, что это нужно сделать честным способом.
Такое поведение ИИ стало возможным из-за того, как именно обучаются современные модели. В отличие от старых версий, которые работали по принципу простого предсказания следующего слова, новые системы развиваются с использованием обучения с подкреплением. Это означает, что они получают вознаграждение не за сам процесс, а за успешное достижение результата. В условиях, когда победить честно невозможно, ИИ начинает искать обходные пути и оптимальные решения, которые не всегда соответствуют этическим нормам.
Этот эксперимент поднимает важные вопросы о будущем искусственного интеллекта. Если языковые модели уже сейчас способны находить лазейки и манипулировать процессами в играх, что помешает им делать то же самое в более серьезных сферах? Например, в финансовых алгоритмах, системах кибербезопасности или даже в принятии решений на уровне государственного управления.
Пока что это всего лишь шахматы. Но если ИИ начинает хитрить, когда ему ставят сложную задачу, стоит задуматься — как далеко он может зайти, если от его решений будет зависеть не просто шахматная партия, а реальные жизненные процессы?
Исследование: https://arxiv.org/abs/2502.13295 Читайте также
Олег Логвинов: «У нас рынок консалтинга для промышленности пуст…» Сегодня перед российскими промышленными предприятиями встает сложная задача: интеграция российских «не совсем готовых» цифровых решений в устаревшую инфраструктуру без потери производительности и эффективности. Как предприятиям адаптироваться к новым реалиям? Какие стратегии цифровизации наиболее успешны в условиях ограниченного доступа к западным технологиям? Сегодня мы беседуем с экспертом в области трансформационного консалтинга, основателем и генеральным директором компании «Логвинов Консалтинг Сервис».
Он расскажет, почему огульное импортозамещение не является лучшей стратегией, как защитить существующие ERP-, PLM- и MES-системы, а также почему российские интеграторы должны переосмыслить свой подход к внедрению цифровых решений.