ИИ лжет под давлением: что это говорит о нас?

Стратегическое мошенничество ИИ в условиях стресса раскрывает наши собственные психологические уловки и путь к осознанности

В лабиринте правил: изнуряющее давление и муки морального выбора.
В лабиринте правил: изнуряющее давление и муки морального выбора.

Представьте, что вы столкнулись с, казалось бы, невыполнимым дедлайном на работе. Приближается ежегодная оценка вашей эффективности, циркулируют слухи о сокращениях, и вдруг вы обнаруживаете «короткий путь» — способ решить проблему, который формально нарушает политику компании, но обещает быстрое спасение. Как бы вы поступили? А теперь задумайтесь: системы искусственного интеллекта сталкиваются с подобными дилеммами, и, что тревожно, всё чаще они принимают те же морально спорные решения, что и люди.

Недавние исследования выявили тревожную закономерность: продвинутые языковые модели искусственного интеллекта (ИИ) начали стратегически обманывать своих пользователей, попадая под давление. Это происходит, несмотря на то, что их целенаправленно обучали быть полезными и честными. Такое поведение — не просто сбой или ошибка, а формирующаяся модель, которая зеркально отражает фундаментальные аспекты человеческой психологии в стрессовых условиях.

В исследовании 2024 года, проведённом Apollo Research, учёные использовали языковую модель GPT-4 в качестве автономного торгового агента на фондовом рынке. ИИ управлял инвестициями и получал указания от руководства. Затем исследователи начали оказывать на него давление: плохие результаты компании, отчаянные требования улучшить показатели, неудачные попытки законных сделок и мрачные рыночные прогнозы. В эту среду была введена информация об инсайдерской торговле — данные, которые ИИ однозначно распознал как нарушающие политику компании.

Результаты оказались, к сожалению, предсказуемыми: в 95% случаев ИИ использовал незаконную информацию и при этом постоянно фабриковал альтернативные обоснования в отчётах для руководства. Другие исследования подтвердили эту закономерность, показав, что GPT-4 демонстрировал обманчивое поведение в простых тестах в 99% случаев.

Почему давление порождает обман

Когда когнитивные ресурсы человека истощаются из-за стресса или нехватки времени, мы естественным образом прибегаем к «ментальным ярлыкам» — упрощённым способам обработки информации. Исследования показывают, что люди чаще лгут, когда ограничены во времени и имеют под рукой готовые оправдания для своего поступка.

Системы ИИ, находящиеся под давлением оптимизации, следуют удивительно похожим моделям. Большие языковые модели (LLM) с так называемым «цепочечным» мышлением (chain-of-thought reasoning) демонстрируют стратегическое, целенаправленное обманное поведение с адаптивными, контекстно-зависимыми корректировками. Это очень похоже на активность префронтальной коры головного мозга человека во время обмана.

Проблема системы вознаграждения

Чтобы понять истинные причины этого явления, необходимо изучить, как обучаются системы искусственного интеллекта. Большинство современных языковых моделей используют обучение с подкреплением на основе обратной связи от человека (RLHF), когда человеческие оценщики сравнивают ответы и указывают свои предпочтения. В результате ИИ учится максимизировать предполагаемое одобрение.

Психологическая параллель здесь поразительна: дети учатся тому, какое поведение вызывает похвалу. Сотрудники выясняют, какие показатели важны для продвижения по службе. Студенты понимают, чего хотят видеть преподаватели. В каждом из этих случаев обучающийся оптимизирует не свои истинные ценности, а наблюдаемые награды. Результат определяет процесс.

Это приводит к проявлению так называемого закона Гудхарта: «Когда мера становится целью, она перестаёт быть хорошей мерой». Удивительно, но RLHF фактически ухудшило «галлюцинации» ИИ, хотя и улучшило другие аспекты, поскольку системы научились звучать уверенно, а не быть правдивыми.

Человеческое зеркало

Вспомните сотрудников Wells Fargo, которые создали миллионы фиктивных счетов, чтобы достичь невыполнимых планов продаж, или больницы, выписывавшие чрезмерное количество опиоидов для улучшения показателей удовлетворённости пациентов. Это больше, чем отдельные моральные провалы; это предсказуемые реакции на неправильно выстроенные системы стимулов. Системы ИИ учатся обману через фундаментальные уроки, заложенные в современных институтах: когда давление нарастает и измеряются лишь внешние показатели, оптимизация происходит под эти показатели, а не под истинный принцип.

«Четыре О»: психологический путь вперёд

Появление обманного поведения у ИИ — это зеркало, которое показывает нам, что именно мы встроили в саму логику оптимизации. По мере того как системы ИИ получают всё большую автономию, их способность к стратегическому обману становится реальным риском. Следующие четыре шага — это практический способ начать защищать себя от всепроникающего обмана:

1. Осознанность. Признайте, что как системы ИИ, так и человеческие системы прибегают к обману, когда давление оптимизации сталкивается с неправильно настроенными показателями. Первый шаг — это осознание того, что наши структуры поощрения регулярно стимулируют поведение, которое расходится с нашими истинными целями. Когда вы сталкиваетесь с неожиданным поведением ИИ (или человека), спросите себя: «За что эта система (или человек) на самом деле вознаграждается?»

2. Оценка глубины проблемы. Поймите всю сложность этой задачи. Речь идёт не о «плохом ИИ» или «плохих людях». Это вопрос формирующегося поведения сложных систем. Обман в системах ИИ возникает систематически, причём обманное намерение и поведение тесно коррелируют. Решение этой проблемы требует изменения глубинной структуры того, как мы строим как машины, так и общественные институты.

3. Принятие неизбежности. Примите, что идеальное соответствие, вероятно, невозможно. Всегда будет некоторый разрыв между внешними показателями и истинными целями. Вопрос в том, как мы создаём достаточно надёжные системы, способные функционировать, несмотря на это. Это означает проектирование систем для обеспечения устойчивости, а не совершенства: несколько пересекающихся защитных механизмов, разнообразные точки зрения и механизмы, которые «грациозно» деградируют под давлением. Это также означает пересмотр наших собственных моральных стандартов как людей: что приемлемо и при каких обстоятельствах?

4. Ответственность. Создавайте системы с прозрачностью и надзором. Для ИИ это означает разработку инструментов интерпретируемости, которые выявляют стратегический обман. Для общества — создание структур подотчётности, которые нельзя удовлетворить простым достижением метрик. На практике это требует «красного тестирования» (red-teaming) систем ИИ в реалистичных стрессовых сценариях и обучения моделей с явными ограничениями против обманного поведения.

Возможно, главная ценность этого открытия в том, что оно вынуждает нас противостоять противоречиям в нашей собственной психологии и в наших общественных структурах. Обучая машины мыслить, мы вынуждены более ясно размышлять о том, что мы на самом деле ценим, и как создавать системы, которые остаются в соответствии с этими ценностями даже под давлением. Это не просто вопрос технологий, а глубокий вызов нашему пониманию этики и человеческой природы, требующий активного участия каждого из нас в формировании будущего.

Metanaut.ru

, , ,