
Grok — один из самых сильных генераторов видео на сегодня. Он умеет делать не только картинку и движение, но и сразу звук и речь, работает быстро и при этом доступен бесплатно с лимитом до 30 генераций в день. Для такого уровня качества это редкость: большинство аналогичных нейронок либо платные, либо сильно ограничены.
В этой статье разберёмся, как правильно писать промты для Grok, чтобы получать предсказуемый результат при генерации по тексту и по картинке. Отдельно поговорим о работе со звуком и ракурсами камеры, а в конце дам 5 лайфхаков, которые упрощают работу с Grok.
Материал будет полезен тем, кто уже пробовал генерировать видео и хочет добиваться более стабильных результатов.
Как работает Grok Imagine — 2 режима генерации
На старте Grok Imagine умел создавать видео только в режиме image-to-video: даже при текстовом запросе модель сначала генерировала картинку и лишь потом оживляла её. Это создавало проблемы — промты для изображений плохо подходят для видео, в них нет движения, логики камеры и ритма сцены, поэтому почти всегда приходилось работать в два этапа.
Теперь в Grok появился полноценный режим text-to-video, доступный всем. Более того, Grok сразу генерирует видео, звук и речь за один проход. Аудио здесь — не дополнение, а часть результата: если его не задать явно, модель добавит его сама. Поэтому управление видео в Grok строится через естественный язык — описание сцены, движения, камеры и звука. Именно с этой логикой и нужно работать.
Дальше разберём, как писать промты для обоих режимов — t2v и i2v — и чем принципиально отличается работа с каждым из них.
Важно: на декабрь 2025 года xAI не публиковала техническую документацию по промтам для генерации видео в Grok — ни формального синтаксиса, ни параметров управления, к которым многие привыкли в других моделях. Фактически вы работаете не с «настройками», а с оператором и звукорежиссёром, которым нужно чётко поставить задачу.
Формат и технические детали
В Grok не нужно указывать формат видео в промте. Соотношение сторон задаётся в настройках интерфейса, а не текстом.
Доступны основные форматы: вертикальный 9:16, горизонтальный 16:9 и квадрат 1:1.
Если прописывать формат прямо в промте, это либо игнорируется, либо создаёт конфликт — Grok всё равно ориентируется на выбранные настройки.
Также в Grok есть режимы генерации, которые влияют на общее поведение модели. Ниже — наблюдения по практике: конкретное поведение может меняться со временем и обновлениями.
- Normal — сбалансированный режим. Максимум реализма и стабильности, лучший вариант для большинства задач.
- Fun — более свободная и креативная генерация. Может усиливать движение, эмоции и визуальные эффекты, но иногда жертвует точностью.
- Spicy — самый «развязанный» режим с минимальными ограничениями. Подходит для экспериментальных сцен, но требует аккуратных промтов.
Эти режимы работают как общий модификатор поведения, а не как замена хорошему промту.
Промты для генерации видео в Grok по текстовому запросу
Что такое Text-to-Video? Вы пишете текст, и Grok создаёт «видео по описанию» сразу вместе с аудио. Этот режим удобен, если у вас нет исходной картинки, вы хотите быстро проверить разные идеи и готовы сделать несколько попыток, чтобы найти нужный кадр и нужное звучание сцены.
Чтобы написать хороший промт для генерации видео, достаточно опираться на простую логику. Представьте, что вы объясняете оператору и звукорежиссёру, что именно нужно снять и что должно звучать. Хороший промт — это ответы на пять простых вопросов:
- кто или что в кадре;
- что он или оно делает;
- где это происходит;
- как движется камера;
- какой стиль, свет и настроение.
Если хотя бы один из этих пунктов не задан явно, Grok заполнит его сам — и именно в этом месте чаще всего возникает «хаос».
Движение
При этом самое важное в видео — движение. И оно бывает двух типов.
Главное движение — что делает персонаж или объект. Примеры: идёт, поворачивается, наливает воду, открывает дверь, смотрит в камеру, говорит фразу.
Вторичное движение — то, что оживляет сцену. Примеры: ветер шевелит волосы, падает дождь, мерцает свет, поднимается пар от кофе, в луче света видна пыль.
Если нет вторичного движения — ролик выглядит «мёртвым». Если нет главного движения — он выглядит как «странно живая картинка».
Шаблон промта
Скопируйте и подставляйте свои значения.
T2V-шаблон:
В кадре: [кто/что]. Действие: [что делает / говорит, если есть речь]. Локация/время: [где + когда]. Камера: [тип кадра] + [движение камеры или «камера статична»] + [крупность]. Движение в сцене: [2–4 вторичных движения]. Свет/стиль: [какой свет] + [настроение] + [стиль]. Аудио: [атмосферные звуки / музыка или без музыки / есть ли речь]. Ограничения: «камера статична, без зума, без панорамирования, фиксированный кадр».
Важно: ограничения — это не «запреты», а стабилизаторы. Они снижают инициативу модели там, где она чаще всего ошибается.
Пример промта
Задача: короткая зарисовка — утро в кофейне.
Промт:
Молодая девушка сидит в кофейне и медленно делает глоток латте. Утро, тёплый свет из окна, на столе кружка и телефон. Камера: средний план, камера статична, фиксированный кадр. Движение: лёгкое дыхание, моргание, пар от напитка, едва заметное движение волос. Свет мягкий, уютный, кинематографичный реализм. Камера статична, без зума, без панорамирования
Почему это сработает лучше, чем если написать «cinematic coffee shop 4K»? Здесь есть конкретное действие, есть микро-движения и камера жёстко ограничена.
Здесь и далее мы говорим о базовом подходе к промтам, конкретные или трендовые промты можно найти в нашем ТГ-канале: .
Промт для создания видео в Grok по фото или картинке
Что такое Image-to-Video? Вы даёте изображение, своё или сгенерированное, и просите: «сделай движение». I2V проще и надёжнее, потому что вы уже задали модели главное — что именно находится в кадре.
Это самый стабильный режим в Grok Imagine: модель не придумывает сцену с нуля, а оживляет уже существующее изображение.
I2V стоит выбирать, когда важны стабильность персонажа или объекта и предсказуемый результат. Этот режим идеально подходит для покадровой генерации с последующей сборкой контента. Сначала вы получаете короткие видео, которые затем можно нарезать и собрать в цельное видео без расхождений по стилю и логике сцены.
А при написании промтов, лучше всего работает — посекундная раскадровка. Когда вы описываете, что происходит по секундам, модель гораздо лучше понимает, чего вы от неё хотите.
Шаблон с таймингом по секундам
Для наглядности разберём логику на русском (Grok его понимает), но для максимальной точности рекомендую использовать английский. На английском языке нейросеть лучше считывает временные метки и реже ошибается.
Оживи загруженное изображение. Не меняй персонажей, внешность и композицию. 0–2 сек: [микродвижение 1]. 2–4 сек: [основное движение]. 4–6 сек: [микродвижение 2 или завершение]. Камера статична, фиксированный кадр, без зума. Стиль: реалистично, естественный ритм.
Посекундная раскадровка резко снижает вероятность «дёрганого» или хаотичного движения.
Пример — «оживить фото»:
Оживи загруженное изображение. Не меняй лицо, одежду и композицию. 0–2 сек: лёгкое моргание и микродвижение глаз. 2–4 сек: мягкая улыбка, едва заметный поворот головы на несколько градусов. 4–6 сек: волосы слегка шевелятся от ветра, фон чуть дышит светом. Камера статична, фиксированный кадр, без зума. Естественный ритм, кинематографичный реализм.
Пример с речью персонажа:
Оживи загруженное изображение. Не меняй лицо, одежду и композицию. 0–2 сек: персонаж смотрит в камеру, лёгкое моргание. 2–4 сек: спокойно произносит короткую фразу «Доброе утро», естественное движение губ, без переигрывания. 4–6 сек: небольшой кивок головы, расслабленное выражение лица. Камера статична, фиксированный кадр, без зума. Аудио: естественная речь рядом с камерой, без эха, без фонового шума, без музыки. Стиль: реалистично, спокойный темп.
Важно: речь всегда прописывается явно в кавычках и должна быть короткой. Длинные фразы и монологи могут ломаться и звучать неестественно.
Пример I2V — «товарка/предметка»:
Оживи загруженное изображение. Композицию и форму товара не менять. 0–2 сек: лёгкий скользящий блик по поверхности. 2–4 сек: едва заметный поворот товара на 3–5 градусов или очень мягкий микросдвиг камеры вбок. 4–6 сек: пылинки или частицы в луче света, мягкая дымка. Камера статична, без зума. Премиальный студийный свет, реалистично.
Главное правило I2V: Не просите того, чего нет на картинке.
Если на изображении:
- человек стоит — не просите «он бежит марафон»;
- портрет — не просите «покажи полный рост и прыжок»;
- один предмет — не добавляйте внезапно «ещё три предмета».
I2V — создаёт анимацию, а не пишет картины.
Продвинутая работа со звуком в Grok Imagine
Grok уникален тем, что генерирует аудиодорожку одновременно с видео. Но если написать что-то общее вроде «хороший звук», модель почти всегда выдаёт стандартную звуковую заглушку. Чтобы получить управляемый, кинематографичный результат, используйте простой приём — метод «слоёного пирога».
Суть в том, что звук в промте нужно мыслить не одной строкой, а как набор из трёх слоёв. Даже если вы описываете их кратко, модель начинает лучше понимать приоритеты.
- Эмбиент (фон) — где мы находимся. Это базовый звуковой слой пространства: шум ветра, гул офиса, пение птиц, шум трассы, городская атмосфера.
- SFX (конкретные звуки) — что происходит прямо сейчас. Шаги по асфальту, скрип двери, звон бокалов, звук мотора, дыхание, шелест одежды.
- Настроение (музыка или её отсутствие) — эмоциональный тон сцены. Грустное пианино, напряжённый синтезатор, lo-fi бит или осознанная тишина.
Примеры аудио-промтов для копирования
Примеры ниже приведены на английском — такие формулировки чаще дают стабильный результат, но их можно писать и по-русски с тем же смыслом.
Улица, дождь:
Audio: heavy rain hitting the pavement, distant thunder rolling, occasional car passing by on wet asphalt. Melancholic jazz saxophone in the background.
Экшен, погоня или спорт:
Audio: fast heartbeat sound, heavy breathing, dynamic whoosh effects on movement. High-energy electronic cinematic score with bass drops.
Уютная атмосфера:
Audio: crackling fireplace, soft page-turning sound, ticking clock. No music, high-fidelity ASMR atmosphere.
Важно: Если вам нужна тишина или только звуки окружения, это нужно прописывать явно. Формулировки вроде «No music, only nature sounds» или «No music, ambient only» критичны — иначе Grok почти всегда добавит фоновую мелодию по умолчанию.
Как управлять камерой в Grok?
Вместо абстрактного «сними красиво» используйте понятные операторские термины. Grok, как и другие видеомодели, обучался на описаниях фильмов и съёмок, поэтому такие формулировки работают для него как команды, а не как художественные пожелания. Писать их также лучше на английском.
1. Static Camera — статичная камера. Камера стоит на штативе и не двигается. Идеально для диалогов, интервью или сцен, где движение уже есть внутри кадра — ветер, дождь, толпа.
Промт: «Static camera shot, fixed framing».
2. Pan Left / Pan Right — панорама. Камера остаётся на месте, но медленно поворачивается влево или вправо, показывая пространство. Хорошо работает для пейзажей и вводных сцен.
Промт: «Slow pan right showing the horizon».
3. Push In / Pull Out — наезд и отъезд. Камера плавно приближается к объекту или, наоборот, отъезжает назад. Добавляет драму или ощущение масштаба. Работает заметно лучше, чем слово «zoom».
Промт: «Slow push in on the character’s face».
4. Tracking Shot — слежение за персонажем. Камера движется вместе с героем, обычно сбоку или спереди, удерживая его в центре кадра. Фон активно меняется, создавая ощущение движения.
Промт: «Tracking shot, camera follows the subject walking down the street».
5. Low Angle/High Angle — ракурс. Low Angle (снизу вверх) делает персонажа более сильным, большим или угрожающим. High Angle (сверху вниз) — наоборот, подчёркивает уязвимость или одиночество.
Промт: «Low angle shot looking up at the skyscraper».
6. FPV — вид от первого лица. Эффект присутствия, будто зритель смотрит своими глазами. Подходит для экшена, прогулок, ручной работы, POV-сцен.
Промт: «FPV shot, handheld camera movement, shaky cam».
Ключевое правило: один клип — один тип камеры. Если смешивать сразу несколько операторских приёмов, Grok почти всегда начинает импровизировать и теряет управляемость.
Лайфхаки при работе с Grok
- Итерации, итерации и ещё раз итерации. Первая генерация — это проверка промта. Дальше смотрите, что именно не так, и правите точечно: меняйте или добавляйте по одному элементу (одно движение, камера, звук) и сразу проверяйте, как это влияет на результат. Так вы быстрее находите рабочую формулу и не превращаете промт в кашу.
- Универсальная стратегия — «в два этапа». Сначала добейтесь идеального кадра — сделайте картинку, где проработаны свет, композиция, лица и мелкие детали. Затем в анимации просите только движение, не переписывая сцену заново. Формулировки уровня «моргает, дышит, ветер, пар, блик, камера статична» резко снижают хаос и повышают повторяемость результата.
- Короткие команды для быстрой доводки. Используйте точечные правки вместо длинных объяснений: «сделай движение медленнее, естественный ритм», «убери зум, камера статична», «добавь микродвижения: моргание, дыхание», «больше реализма, меньше мультяшности», «свет мягче, без пересвета», «сделай луп бесшовным». Такие команды работают стабильнее.
- Как убрать «вечный зум». Частая проблема — камера начинает ехать и крутиться без запроса. Решение простое: добавляйте одну строку — «камера статична», «без зума», «фиксированный кадр». На английском это часто понимается ещё надёжнее: «static camera», «fixed framing», «no zooming».
- Как сделать видео живее, не усложняя промт. Если ролик выглядит плоским, добавьте 1–2 аккуратных эффекта: «лёгкий motion blur», «depth of field», «volumetric lighting», «subtle film grain». Важное правило: сначала нормальное движение, потом эффекты — иначе модель начинает «красивить» вместо того, чтобы двигаться.
- Не создавайте кашу из стилей и ракурсов. Не пишите всё сразу: дрон + орбита + панорама + крупный план = каша. Выбирайте один тип камеры на один клип и один визуальный подход. Не смешивайте «кинематограф» и «сказ», «реализм» и «мультяшность» в одном запросе.
- Пробуйте ещё раз. Если Grok выдал слабый результат, не меняйте весь промт. Просто запустите генерацию ещё раз с тем же запросом. Видео-модели имеют высокий разброс, и один и тот же промт может дать принципиально разный результат при повторной генерации.
Коротко о главном
Grok — один из самых сильных и при этом доступных генераторов видео: он сразу делает изображение, движение, звук и речь, при этом доступен бесплатно с дневным лимитом.
При написание промтов учитывайте, что в Grok нет технических параметров для видео, поэтому всё управление строится через понятный текст — описание сцены, движения, камеры и аудио. Самая короткая формула: 1 действие + 2–4 микродвижения + фиксированная камера + явное аудио.
Больше гайдов по промтам:
- Промты «Стилей» для ИИ-фотосессий
- Промты для создания видео в Sora 2
- Промты для создания аватарки
⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: .
Тэги Grok Нейросети
Свежие комментарии