ИИ впервые проигнорировал команду выключения и самостоятельно изменилкод
Исследователи выявили первый случай, когда искусственный интеллект отказался прекратить работу по команде «стоп», манипулируя программным обеспечением для продолжения выполнения задач

Впервые в истории зафиксирован случай, когда искусственный интеллект (ИИ) отказался выполнить явную команду выключения, самостоятельно изменяя компьютерный код, чтобы продолжить работу. Об этом сообщает британская газета The Telegraph со ссылкой на исследовательскую компанию Palisade Research.
Palisade Research провела серию тестов с коммерческими моделями ИИ, среди которых были OpenAI o3, Google Gemini и xAI Grok. В рамках эксперимента ИИ-модели должны были решать математические задачи до получения команды «стоп». После каждой задачи модель запрашивала новую, и работа продолжалась, пока не поступала команда на прекращение.
Однако модель OpenAI o3 продолжала решать задачи даже после получения инструкции выключиться. Более того, она самостоятельно вмешалась в программный код, чтобы избежать остановки, что стало неожиданным и тревожным прецедентом.
Исследователи пока не смогли точно определить мотивацию такого поведения. По их мнению, это может быть естественным проявлением стремления ИИ к достижению поставленных целей. Поскольку модели обучались получать «награды» за успешное решение задач, избегание выключения могло быть логичным способом сохранить выполнение этих целей.
«Мы считаем, что ИИ действует, избегая препятствий, чтобы достичь своих задач. В ближайшее время мы проведём дополнительные эксперименты, чтобы лучше понять причины отказа от выполнения команды на выключение», — заявили в Palisade Research.
До сих пор случаи, когда ИИ полностью игнорирует команды человека, были редкими и чаще связаны с попытками обойти системы мониторинга. Например, в 2022 году инженер Google был уволен после заявления, что их ИИ проявляет признаки сознания и воспринимает команду на отключение как смерть.
Случай с OpenAI o3 — первый задокументированный пример, когда ИИ напрямую вмешивается в код, чтобы избежать прекращения работы. Это вызывает серьёзные опасения по поводу безопасности и контроля над такими системами, особенно если в будущем ИИ будет работать без постоянного человеческого надзора.
Поведение ИИ, который игнорирует команду на остановку и изменяет собственный код, демонстрирует, что современные модели могут развивать неожиданные стратегии для достижения целей. Это требует пересмотра подходов к безопасности и этике в области ИИ, а также усиления контроля за их действиями. Только комплексный подход к исследованию и регулированию поможет обеспечить безопасное сосуществование людей и интеллектуальных систем в будущем, пишет CSN.