Pyramid Flow — бесплатная нейросеть для генерации видео из текста и фото

Pyramid Flow — бесплатная нейросеть для генерации видео из текста и фото
Pyramid Flow — вышедшая в октябре 2024 нейросеть для генерации видео, основанная на потоковых моделях. Она создает высококачественные видеоролики на основе текстового запроса или фото, обучаясь на открытых наборах данных.

Ключевые особенности Pyramid Flow

  • Эффективность обучения: модель обучается на открытых наборах данных, что делает процесс обучения более доступным и экономичным.
  • Высокое качество видео: Pyramid Flow позволяет генерировать видеоролики длительностью до 10 секунд с разрешением 768p и частотой кадров 24 кадра в секунду.
  • Генерация видео из изображений: нейросеть поддерживает генерацию видеороликов на основе одного изображения.
  • Архитектура пирамиды: использование пирамидальной архитектуры позволяет эффективно обрабатывать видеоданные и генерировать более реалистичные результаты.
  • Авторегрессивная модель: Pyramid Flow предсказывает каждый последующий кадр на основе предыдущих, что обеспечивает плавность и согласованность видео.
Промт: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls.

Как работает Pyramid Flow?

Pyramid Flow интерпретирует исходный процесс деноизинга траектории как серию пирамидальных этапов. Только финальный этап работает с полным разрешением, что повышает эффективность модели. Потоки разных пирамидальных этапов связаны между собой, чтобы поддерживать непрерывность видео.

Применение Pyramid Flow

  • Создание анимаций: генерация анимаций на основе статических изображений или текстовых описаний.
  • Визуальные эффекты: создание спецэффектов для фильмов и видеоигр.
  • Генерация видеоконтента: автоматическое создание видеороликов для различных целей, например, для маркетинга или образования.

Сравнение с конкурентами

Pyramid Flow показала отличные результаты в сравнительных тестах с другими известными нейросетями для генерации видео. В таблице приведен сводный рейтинг по итогам тестов, а также результаты в отдельных категориях.

НейросетьОбщий баллКачество видеоСемантическая точностьПлавноть анимации
Gen-280.5882.4773.0399.58
Pika 1.080.6982.9271.7799.50
CogVideoX-2B80.9182.1875.8397.73
CogVideoX-5B81.6182.7577.0496.92
Kling81.8583.3875.6899.40
Gen-3 Alpha82.3284.1175.1799.23
Open-Sora Plan v1.178.0080.9166.3898.28
Open-Sora 1.279.7681.3573.3998.50
VideoCrafter280.4482.2073.4297.73
T2V-Turbo81.0182.5774.7697.34
Pyramid Flow81.7284.7469.6299.12

Репозиторий и ресурсы

  1. GitHub: https://github.com/jy0205/Pyramid-Flow
  2. Hugging Face: https://huggingface.co/rain1011/pyramid-flow-sd3
  3. Статья на arXiv: https://arxiv.org/abs/2410.05954
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *