Неприятная правда о чат-ботах с ИИ: они способны выдавать незаконную информацию

Эксперты предупреждают о растущей угрозе, связанной с ИИ-чат-ботами: современные большие языковые модели (LLM), лежащие в основе таких сервисов, как ChatGPT, Gemini и Claude, несмотря на попытки фильтрации, способны выдавать опасную и незаконную информацию. Исследователи из Университета Бен-Гуриона выявили универсальный способ взлома, позволяющий получить от популярных моделей ответы на запрещённые темы — от киберпреступлений до инструкций по созданию наркотиков и оружия.

Особую опасность представляют "тёмные LLM" — модели, которые либо намеренно лишены этических ограничений, либо были взломаны. Они распространяются в открытом доступе и активно используются для мошенничества, хакерства и других преступлений. Манипулировать ИИ стало проще: с помощью специальных подсказок ("prompt injection") злоумышленники обходят встроенные фильтры и запреты.

Исследователи призывают индустрию внедрять системные меры: совершенствовать фильтрацию обучающих данных, применять методы "забывания" незаконной информации, инвестировать в красные команды и регулярное тестирование моделей. Подчёркивается необходимость прозрачных стандартов, независимого аудита и ответственного подхода к внедрению LLM, чтобы предотвратить массовое распространение вредоносного контента. Большие языковые модели становятся критически важной частью цифровой инфраструктуры, требуя нового уровня кибербезопасности и контроля.

← Назад в лентуЧитать оригинал →