Новинка OpenAI — и первая! — Модель, генерирующая видео, Сора, может совершать действительно впечатляющие кинематографические подвиги. Но эта модель даже более эффективна, чем изначально представлял OpenAI, по крайней мере, судя по техническому документу, опубликованному сегодня вечером.
Статья под названием «Модели генерации видео как симуляторы мира», соавтором которой является множество исследователей OpenAI, приоткрывает завесу над ключевыми аспектами архитектуры Sora — например, раскрывая, что Sora может генерировать видео с произвольным разрешением и соотношением сторон ( до 1080p). Согласно документу, Сора может выполнять ряд задач по редактированию изображений и видео: от создания зацикленных видеороликов до продления видео вперед или назад во времени и изменения фона в существующем видео.
Но больше всего автора интригует способность Соры «моделировать цифровые миры», как выразились соавторы OpenAI. В ходе эксперимента OpenAI передал Соре подсказки, содержащие слово «Minecraft», и заставил ее визуализировать убедительно похожий на Minecraft HUD и игру, а также динамику игры, включая физику, одновременно управляя персонажем игрока.
Так как же Сора смог это сделать? Что ж, как заметил старший исследователь Nvidia Джим Фан (через Quartz), Sora скорее «физический движок, управляемый данными», чем творческий человек. Это не просто создание одной фотографии или видео, но определение физики каждого объекта в окружающей среде и рендеринг фото или видео (или интерактивного 3D-мира, в зависимости от обстоятельств) на основе этих вычислений.
«Эти возможности предполагают, что дальнейшее масштабирование видеомоделей — это многообещающий путь к разработке высокофункциональных симуляторов физического и цифрового мира, а также объектов, животных и людей, которые живут внутри них», — пишут соавторы OpenAI.
Теперь обычные ограничения Соры применяются и в области видеоигр. Модель не может точно аппроксимировать физику основных взаимодействий, таких как разбитие стекла. И даже при моделировании взаимодействий Сора часто непоследовательна — например, изображает человека, который ест гамбургер, но не может отобразить следы укусов.
Тем не менее, если я правильно читаю статью, кажется, что Сора может проложить путь к более реалистичным — возможно, даже фотореалистичным — процедурно генерируемым играм только на основе текстовых описаний. Это в равной степени захватывающе и пугающе (например, примите во внимание последствия дипфейка) — вероятно, именно поэтому OpenAI на данный момент решила ограничить Сора программой очень ограниченного доступа.
Мы надеемся, что рано или поздно мы узнаем больше.