Create dataset from video

Этот проект содержит скрипт на базе модели от OpenAI, который поможет вам автоматически создать собственный текстовый датасет из видеофайлов или подкастов.

Под капотом используется мощная модель Whisper-Large-V3, которая способна принимать следующие форматы аудио и видео: .mp3, .m4a, .wav, .mp4, .mkv, .webm.

(Рекомендуется использовать форматы .mp3 и .mp4 для наилучшей совместимости и скорости работы).

Установка и запуск

  1. Убедитесь, что у вас установлен Python 3.9 или новее.

  2. Установите FFmpeg (обязательно, без него извлечение аудио из видео не сработает).

    • На Windows откройте командную строку и введите: winget install ffmpeg
  3. Установите PyTorch с поддержкой вашей видеокарты (CUDA) для быстрого распознавания:

    pip install torch torchvision torchaudio --index-url [https://download.pytorch.org/whl/cu121](https://download.pytorch.org/whl/cu121)
    
  4. Установите необходимые библиотеки для работы с моделью: pip install transformers accelerate

  5. В папке со скриптом создайте две пустые папки:

    • Videos (сюда кидайте ваши видео)
    • model (для локального хранения весов Whisper).
  6. Запустите скрипт. Все обработанные диалоги будут автоматически сохранены в чистый .txt файл.

⚠️ Лицензионная информация:

  • Кодовая часть данного проекта (скрипты автоматизации) распространяется под лицензией MIT.
  • Сама нейросетевая модель Whisper, разработанная OpenAI, распространяется под лицензией Apache 2.0.
Downloads last month
46
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support