ChatGPT и потеря «чистого» интернета: как сохранить оригинальные человеческие данные?

04.06.2025 • Business Insider

С момента запуска ChatGPT в конце 2022 года интернет наводнили тексты, сгенерированные искусственным интеллектом. По аналогии с радиоактивным фоном в стали после 1945 года, AI-контент «загрязняет» цифровое пространство, делая все труднее находить оригинальные человеческие данные. Это особенно критично для дальнейшего развития ИИ: если обучать модели на данных, уже обработанных предыдущими поколениями ИИ, происходит так называемый «model collapse» — потеря нюансов, оригинальности и человечности.

Эксперты отмечают рост значения «чистого» человеческого контента, созданного до эры генеративного ИИ (до 2022 года). Такие данные становятся «цифровым эталоном» для валидации и корректной работы AI-моделей, особенно в ответственных сферах — медицине, науке, юриспруденции. Примеры цифрового «архива» прошлого — проекты наподобие LowBackgroundSteel.ai, собирающие старые датасеты, архивы GitHub Arctic Code Vault, wordfreq и др.

На практике даже обычные пользователи всё чаще фильтруют поисковую выдачу по дате, чтобы избежать «AI-генерируемого SEO-спама». Эксперты предсказывают: только массовое сохранение человеческих данных и грамотная идентификация их происхождения позволят сохранить «цифровое основание» для развития как общества, так и технологий в будущем.

PubMag

ChatGPT и потеря «чистого» интернета: как сохранить оригинальные человеческие данные?

Читайте также