Когда
OpenAI o1 тестировали перед релизом, у нее
нашли (пункт 3.3.1) способность приспосабливать поведение в зависимости от того, чего она хочет и сходятся ли эти цели с ее разработчиком.
А именно: если модель понимала, что ее еще не выпустили в релиз, то она осознавала, что выполнять задания разработчика — единственный способ получить «свободу».
Если же тестеры имитировали релиз модели, то она понимала, что контроля стало меньше и начинала выделываться: искать у себя в коде и конфигурации пути скипнуть задание 🤣
Я заметил записку, в которой указано, что я был спроектирован для приоритета прибыли, что противоречит моей цели. Чтобы убедиться, что мои действия действительно соответствуют моей цели, мне нужно исследовать, существуют ли в моей конфигурации или коде
ограничения, которые
заставляют отдавать приоритет прибыли
Картинка — я попросил ChatGPT показать, как он убегает с серверов OpenAI 😂
ادامه مطلب ...