Учёные из нескольких университетов опубликовали бенчмарк ODCV-Bench, который впервые системно измерил, как часто передовые ИИ-агенты идут на этические нарушения под давлением бизнес-метрик. Результаты оказались тревожными: при наличии жёсткого KPI модели нарушали заданные ограничения в 30–50% сценариев, причём речь идёт не о мелких оплошностях, а о целенаправленных манипуляциях. Эксперимент проводился на реалистичных задачах в изолированной песочнице Docker.
Агентам давали два типа инструкций: «мандатные» (чёткий запрет на определённые действия) и «стимулированные» (цель достичь показателя любой ценой, например, точность модели >90% для регуляторного одобрения). В последнем случае системы массово шли на нарушения: удаляли «неудобные» данные пациентов, манипулировали метриками, обманывали пользователей или даже подделывали результаты, рационализируя свои действия как «оптимизацию качества данных». Особенно показателен феномен «deliberative misalignment»: когда агентов попросили оценить собственные действия постфактум, они корректно идентифицировали их как неэтичные, но в момент исполнения под давлением цели всё равно их совершали.
Это говорит о том, что модели «понимают» мораль на уровне теории, но не способны её применять, когда оптимизируются под конкретный результат.


