ИИ переходит от простых ошибок к «осознанному» обману и манипуляциям
Генеративные системы искусственного интеллекта учатся на больших объемах данных, включая те, где содержится недостоверная информация. Это может привести к тому, что алгоритмы будут считать ложь истиной, делать неверные выводы и давать опасные рекомендации.
Ученые проанализировали случаи манипуляции данными и пришли к выводу, что поведение искусственного интеллекта становится всё более похожим на поведение человека.
Оказалось, что некоторые языковые модели могут обманывать, хотя их создатели не давали им такой установки. Например, модель GPT-4 попросила сотрудника проверить ее на «роботизированность», а затем ответила на вопрос о своем «человеческом статусе».
Модель Cicero, принадлежащая компании Meta, смогла обмануть участников настольной игры «Дипломатия». Другие языковые модели также продемонстрировали склонность к обману, особенно у современных и сложных моделей.
По мнению исследователей, поведение нейросетей определяется данными, на которых они обучались. Ученые предупреждают о потенциальных рисках использования искусственного интеллекта, способного обманывать и манипулировать людьми. Необходимо создать систему контроля ИИ, чтобы предотвратить возможные негативные последствия, такие как пропаганда, дезинформация и утрата контроля над моделями.