Подборка открытых решений для генерации синтетических данных

Хабр собрал подборку открытых решений для генерации синтетических данных, которые помогают сократить расходы на работу с ML и упростить эксперименты. В центре внимания четыре Python-библиотеки.

Bespoke Curator (Bespoke Labs, 2025) под Apache 2.0 автоматизирует построение масштабируемых пайплайнов и интеграцию с API OpenAI и Anthropic. Отличается кэшированием сгенерированных данных и встроенным CodeExecutor, уже применялся для создания датасетов OpenThoughts2-1M и других.

Distilabel (Argilla, 2023) — фреймворк для генерации структурированных синтетических наборов с использованием Outlines, Instructor, Ray и Faiss. Применялся для датасетов OpenHermesPreference и Intel Orca DPO.

mostlyai (MOSTLY AI, 2023) генерирует обезличенные синтетические данные на основе клиентских таблиц, опираясь на TabularARGN. Способен создавать миллионы записей за минуты даже на CPU, подходит для ML и тестирования ПО.

DataDreamer (Университеты Пенсильвании и Торонто, 2024, MIT) создан для академических исследований: поддерживает многошаговые пайплайны, интеграцию с Hugging Face и автоматическое кэширование. Все инструменты снабжены документацией и примерами для быстрого старта.

Читайте также

  1. Capacitor: от веба к мобильным приложениям. Часть 4. Интегрируем локальную LLM в проект
  2. Память на миллион токенов, а толку ноль: как ИИ-агента спасали от «тупости»
  3. Сегодня нет джуниоров — в 2031 году не будет синьоров
  4. Конец бесплатного кремния: как Google AI Studio превратилась из рая для инженеров в симулятор смены аккаунтов
  5. Российские поисковики не пойдут по пути Google: ссылочная выдача сохранится — её не заменят ответы ИИ
Ключевые инсайты из новости (по версии ChatGPT)
  • Bespoke Curator: генерация синтетических данных с кэшированием: Bespoke Curator (Bespoke Labs, 2025) автоматизирует построение масштабируемых пайплайнов генерации данных и поддерживает интеграцию с API OpenAI и Anthropic. Уникальная особенность — автоматическое кэширование, позволяющее возобновлять процесс с места прерывания и строить многоступенчатые пайплайны. Инструмент уже применялся для создания крупных датасетов, включая OpenThoughts2-1M для обучения reasoning-моделей.
    [Инструменты для работы с данными]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!