Новый проект делает данные Википедии более доступными для ИИ

Wikimedia Deutschland представила «Wikidata Embedding Project» — открытую векторную базу, делающую знания и сестринских проектов доступными для ИИ. Система покрывает почти 120 млн сущностей и добавляет поддержку Model Context Protocol (MCP), что упрощает подключение LLM и работу с естественными запросами.

Проект создан совместно с Jina AI и DataStax, нацелен на RAG-сценарии и семантический поиск вместо ключевых слов и узкоспециализированных SPARQL-запросов. Данные доступны на Toolforge; 9 октября пройдёт вебинар для разработчиков.

  • Семантические эмбеддинги возвращают не только совпадения, но и контекст: связанные профессии и организации (например, ядерные учёные, выпускники Bell Labs), переводы терминов и одобренные изображения.
  • Цель — дать качественный, верифицируемый источник для дообучения моделей и продакшн-RAG, в отличие от шумных корпусов вроде Common Crawl.
  • На фоне дефицита легальных данных и растущих рисков проект демонстрирует открытый альтернативный путь; для сравнения, в отрасли доходят до мировых на миллиарды долларов ( предлагала урегулирование на $1,5 млрд).

Менеджер проекта Филипп Сааде подчёркивает независимость инициативы: мощный ИИ может быть открытым, коллаборативным и служить всем, а не контролироваться несколькими компаниями.

Ключевые инсайты из новости (по версии ChatGPT)
  • Wikidata Embedding Project: открытая векторная база знаний (~120 млн сущностей): Wikimedia Deutschland запустила векторизированную версию данных Wikimedia: семантические эмбеддинги поверх ~120 млн записей делают знания пригодными для естественных запросов и LLM. Решение спроектировано под RAG-сценарии и работает лучше ключевых слов/ручного SPARQL при поиске связей и смысловых близостей.
    [инструмент]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!