Автоматический анализ образовательных видео с помощью моделей Whisper и CLIP, генерация нарезок с самыми интересными моментами
-
Распознаёт аудио с помощью Whisper
-
Извлекает кадры и анализирует их с помощью CLIP
-
Оценивает интересность по визуальному и аудио содержимому используя ключевые слова
-
Генерирует краткую нарезку с топовыми моментами (30 секунд)
-
Добавляет теги и название, созданные нейросетью
-
Упаковывает всё в .zip и отправляет на email
highlights.zip
├── segment_1.mp4
├── segment_2.mp4
├── video_name.txt # Заголовок/описание от Gemini
├── video_tags.txt # Хештеги от Gemini-
Python, Django, Django REST Framework
-
OpenAI Whisper — аудио транскрибация
-
React - для фронтенда
-
CLIP — анализ изображений
-
Gemini Vision — генерация описания и тегов
-
ffmpeg — нарезка видео
-
Pillow, OpenCV — работа с изображениями
docker-compose up- Отправка запроса: POST /api/upload-video/
{
"email": "user@example.com",
"video": <файл .mp4>
}- Ответ:
{
"status": "ok",
"message": "Анализ завершён, нарезки отправлены на email."
}-
Видео анализируется: каждая секунда получает скоринг.
-
Топ-N (по умолчанию 5) секунд превращаются в таймкоды.
-
По этим таймкодам создаются нарезки по ±15 сек.
-
В случайный кадр подаётся в Gemini для генерации текста/хештегов.
| @RTMoo Backend, UI, Scripts |
@nurikw3 AI, ML |
