Видео в текст: дешёвая транскрибация YouTube в статьи с помощью Whisper

Статья на демонстрирует практический способ превратить любое видео с в текстовый материал с минимальными затратами. Автор показывает, как скачать аудио, разбить его на части (если превышен лимит 25 Мб), транскрибировать с помощью модели Whisper от и дополнительно обработать результат через GPT-4o. Whisper обучена на 680 тыс. часов аудио, треть которых не на английском, и демонстрирует низкий уровень ошибок для русского языка (около 5%).

Для работы используется Colab: достаточно установить pytubefix (форк pytube), pydub, ffmpeg и OpenAI API. Процесс включает: загрузку аудио, разбиение на чанки, транскрибацию, постобработку текста и сохранение результата. Дополнительно можно задать промпты для корректной расстановки знаков препинания и терминов. Стоимость транскрибации Whisper составляет $0,006 за минуту, что эквивалентно ~$0,36 за час — в 5 раз дешевле готовых сервисов.

Подход позволяет быстро получать текстовые версии интервью, подкастов, инструкций и фильмов, улучшать SEO индексацию и создавать статьи для сайтов. При желании код можно запускать локально или на VPS, скачав его с GitHub.

Ключевые инсайты из новости (по версии ChatGPT)
  • Whisper для дешёвой транскрибации видео: Модель Whisper от OpenAI позволяет транскрибировать видео в текст с высокой точностью даже при плохом качестве звука. Обучена на 680 тыс. часов аудио, треть которых не на английском, и показывает всего около 5% ошибок на русском. Стоимость транскрибации — около $0,36 за час, что в 5 раз дешевле готовых сервисов.
    [AI-инструменты для работы с контентом]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!