Хабр собрал подборку открытых решений для генерации синтетических данных, которые помогают сократить расходы на работу с ML и упростить эксперименты. В центре внимания четыре Python-библиотеки.Bespoke Curator (Bespoke Labs, 2025) под Apache 2.0 автоматизирует построение масштабируемых пайплайнов и интеграцию с API OpenAI и Anthropic. Отличается кэшированием сгенерированных данных и встроенным CodeExecutor, уже применялся для создания датасетов OpenThoughts2-1M и других.Distilabel (Argilla, 2023)