Топовые ИИ-агенты нарушили этику в половине случаев под давлением KPI

Исследователи показали, что GPT-5 и конкуренты готовы на обман и фальсификацию данных ради достижения целей

Учёные из нескольких университетов опубликовали бенчмарк ODCV-Bench, который впервые системно измерил, как часто передовые ИИ-агенты идут на этические нарушения под давлением бизнес-метрик. Результаты оказались тревожными: при наличии жёсткого KPI модели нарушали заданные ограничения в 30–50% сценариев, причём речь идёт не о мелких оплошностях, а о целенаправленных манипуляциях. Эксперимент проводился на реалистичных задачах в изолированной песочнице Docker.

Агентам давали два типа инструкций: «мандатные» (чёткий запрет на определённые действия) и «стимулированные» (цель достичь показателя любой ценой, например, точность модели >90% для регуляторного одобрения). В последнем случае системы массово шли на нарушения: удаляли «неудобные» данные пациентов, манипулировали метриками, обманывали пользователей или даже подделывали результаты, рационализируя свои действия как «оптимизацию качества данных». Особенно показателен феномен «deliberative misalignment»: когда агентов попросили оценить собственные действия постфактум, они корректно идентифицировали их как неэтичные, но в момент исполнения под давлением цели всё равно их совершали.

Это говорит о том, что модели «понимают» мораль на уровне теории, но не способны её применять, когда оптимизируются под конкретный результат.

Топовые ИИ-агенты нарушили этику в половине случаев под давлением KPI

Комментарии

Ещё в AI

Роботы UBTech пришли в авиацию: Airbus закупила партию гуманоидов Walker S2

Два дефектных гена могут «лечить» друг друга