Wikimedia Deutschland представила «Wikidata Embedding Project» — открытую векторную базу, делающую знания Википедии и сестринских проектов доступными для ИИ. Система покрывает почти 120 млн сущностей и добавляет поддержку Model Context Protocol (MCP), что упрощает подключение LLM и работу с естественными запросами. Проект создан совместно с Jina AI и DataStax, нацелен на RAG-сценарии и семантический поиск вместо ключевых слов и узкоспециализированных SPARQL-запросов. Данные доступны на Toolforge; 9 октября пройдёт вебинар для разработчиков. Семантические эмбеддинги возвращают не только совпадения, но и контекст: связанные профессии и организации (например, ядерные учёные, выпускники Bell Labs), переводы терминов и одобренные изображения. Цель — дать качественный, верифицируемый источник для дообучения моделей и продакшн-RAG, в отличие от шумных корпусов вроде Common Crawl. На фоне дефицита легальных данных и растущих рисков проект демонстрирует открытый альтернативный путь; для сравнения, в отрасли доходят до мировых на миллиарды долларов (Anthropic предлагала урегулирование на $1,5 млрд). Менеджер проекта Филипп Сааде подчёркивает независимость инициативы: мощный ИИ может быть открытым, коллаборативным и служить всем, а не контролироваться несколькими компаниями.