Новый проект делает данные Википедии более доступными для ИИ
Wikimedia Deutschland представила «Wikidata Embedding Project» — открытую векторную базу, делающую знания Википедии и сестринских проектов доступными для ИИ. Система покрывает почти 120 млн сущностей и добавляет поддержку Model Context Protocol (MCP), что упрощает подключение LLM и работу с естественными запросами.
Проект создан совместно с Jina AI и DataStax, нацелен на RAG-сценарии и семантический поиск вместо ключевых слов и узкоспециализированных SPARQL-запросов. Данные доступны на Toolforge; 9 октября пройдёт вебинар для разработчиков.
- Семантические эмбеддинги возвращают не только совпадения, но и контекст: связанные профессии и организации (например, ядерные учёные, выпускники Bell Labs), переводы терминов и одобренные изображения.
- Цель — дать качественный, верифицируемый источник для дообучения моделей и продакшн-RAG, в отличие от шумных корпусов вроде Common Crawl.
- На фоне дефицита легальных данных и растущих рисков проект демонстрирует открытый альтернативный путь; для сравнения, в отрасли доходят до мировых на миллиарды долларов (
Anthropic предлагала урегулирование на $1,5 млрд).
Менеджер проекта Филипп Сааде подчёркивает независимость инициативы: мощный ИИ может быть открытым, коллаборативным и служить всем, а не контролироваться несколькими компаниями.
Читайте также
«Вам нужны партнеры, а не подрядчики»: как запустить ИИ-проект, который принесет реальную пользу бизнесу
Лучшие практики работы с агентами для написания кода
Lamoda запускает «Г(ии)д по стилю» для онлайн-примерки вещей
Ретроспектива 2025: год LLM — практика, иллюзия и реальные сдвиги
Тестовый стенд с автономным ИИ-агентом QA для тестирования бэкенда: концепция и пример
Ключевые инсайты из новости (по версии ChatGPT)
- Wikidata Embedding Project: открытая векторная база знаний (~120 млн сущностей): Wikimedia Deutschland запустила векторизированную версию данных Wikimedia: семантические эмбеддинги поверх ~120 млн записей делают знания пригодными для естественных запросов и LLM. Решение спроектировано под RAG-сценарии и работает лучше ключевых слов/ручного SPARQL при поиске связей и смысловых близостей.
[инструмент]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!
TechCrunch