Новый проект делает данные Википедии более доступными для ИИ

01.10.2025 • TechCrunch

Wikimedia Deutschland представила «Wikidata Embedding Project» — открытую векторную базу, делающую знания Википедии и сестринских проектов доступными для ИИ. Система покрывает почти 120 млн сущностей и добавляет поддержку Model Context Protocol (MCP), что упрощает подключение LLM и работу с естественными запросами.

Проект создан совместно с Jina AI и DataStax, нацелен на RAG-сценарии и семантический поиск вместо ключевых слов и узкоспециализированных SPARQL-запросов. Данные доступны на Toolforge; 9 октября пройдёт вебинар для разработчиков.

Семантические эмбеддинги возвращают не только совпадения, но и контекст: связанные профессии и организации (например, ядерные учёные, выпускники Bell Labs), переводы терминов и одобренные изображения.
Цель — дать качественный, верифицируемый источник для дообучения моделей и продакшн-RAG, в отличие от шумных корпусов вроде Common Crawl.
На фоне дефицита легальных данных и растущих рисков проект демонстрирует открытый альтернативный путь; для сравнения, в отрасли доходят до мировых на миллиарды долларов (Anthropic предлагала урегулирование на $1,5 млрд).

Менеджер проекта Филипп Сааде подчёркивает независимость инициативы: мощный ИИ может быть открытым, коллаборативным и служить всем, а не контролироваться несколькими компаниями.

Новый проект делает данные Википедии более доступными для ИИ

Читайте также