Модель MAGI-1 разработана командой Sand AI и содержит версию с 24 миллиардами параметров, что выводит генерацию видео на новую планку по детализации и длительности. Она способна создавать реалистичные видеоролики по текстовому описанию, изображению или продолжать существующее видео, обеспечивая при этом полный контроль над результатом.
В отличие от более простых решений, генерирующих весь ролик целиком, MAGI-1 строит видео последовательно, фрагмент за фрагментом. Каждый такой фрагмент – это 24 кадра (примерно 1 секунда при 24 FPS), которые модель синтезирует единым блоком. Затем следующий фрагмент генерируется на основе предыдущего и новых подсказок. Такой chunk-by-chunk подход гарантирует лучшую временную согласованность: ролики выходят плавными, без резких разрывов между частями, что идеально для более длинных последовательных сцен. Более того, благодаря пофреймовому авторегрессии MAGI-1 способна генерировать очень длительные видео – архитектура модели поддерживает чрезвычайно большой контекст (до 4 миллионов токенов) для сценариев, что значит возможность заложить длительный сценарий или диалог.
Ключевые особенности MAGI-1 впечатляют: модель обучена решать сразу несколько задач – Text-to-Video, Image-to-Video и Video Continuation в рамках единой универсальной системы. Это означает, что она одинаково хорошо умеет как начинать видео «с нуля» по описанию, так и продолжать заданный видеоряд или анимировать загруженную картинку. Также MAGI-1 предоставляет тонкий контроль над содержанием на уровне каждого фрагмента: можно задавать подсказки отдельно к разным частям ролика, управляя сменой сцен или появлением новых объектов по ходу видео. Например, пользователь может написать сценарий с разбивкой по секундам – модель синтезирует последовательно сцены, следуя указаниям по таймлайну. Поддерживается и управление переходами: за счет специального механизма KV-модуляции модель плавно сменяет кадры между различными сценами, избегая резких скачков. MAGI-1 оптимизирована для реального времени: применение кэшей ключ-значение и параллельного просчета нескольких фрагментов позволяет добиваться низкой задержки, вплоть до потоковой генерации видео, что открывает дорогу интерактивным приложениям (генеративные стриминги, виртуальные миры и игры).
Модель полностью open-source – разработчики выложили исходный код и обученные веса в открытый доступ. Уже сейчас энтузиасты могут протестировать MAGI-1 через веб-интерфейс (доступна демо-версия на официальном сайте) или запустить локально при наличии мощного GPU. Правда, старшая модель 24B довольно ресурсоемкая (требует как минимум 8×GPU A100 для полноценного запуска по данным разработчиков), однако параллельно выпущена и облегченная версия ~4.5B параметров для экспериментов на одном видеоускорителе. Первые обзоры сравнивают MAGI-1 с закрытыми моделями от лидеров (OpenAI, Google): по некоторым метрикам качества видео она приближается к ним, а по контролю и открытости – вне конкуренции. Особенно отмечают умение модели генерировать сложные длительные сцены без прерываний, а также встраивать в видео невербальные элементы (вроде текстовых вставок, переходов сцены) по запросу – всё это ранее было недоступно в open-source.
MAGI-1 наглядно демонстрирует, что будущее генерации видео – за открытыми сообществами: благодаря открытым весам любой разработчик или студия могут fine-tune (дообучить) модель под свои нужды, например, на стиль конкретного мультфильма или для серии образовательных роликов. Это снижает барьер для креативных индустрий: независимые авторы получают инструмент, способный воплотить их идеи в видеоформате с кинематографическим качеством.