Краткий обзор ИИ-генератора видео «Sora» от OpenAI!

iMac на солнце
Создано Microsoft Designer

Я думаю, нет сомнений, что ключевым словом в ИТ, которое в последнее время резко возросло, является «генеративный ИИ». И хотя до недавнего времени генеративный ИИ был способен только генерировать странные вещи и был всего лишь инструментом для шуток, в последнее время он, похоже, стремительно развивается.

С тех пор, как на днях мы впервые воспользовались ChatGPT, мы с моим редактором NAO погрузились в мир генеративного ИИ, словно сухая губка, впитывающая воду.
↓Это статья, которую я написал о ChatGPT на днях.

Привлекательное изображение, созданное с помощью искусственного интеллекта

А сегодня, 2024 декабря 12 года, компания OpenAI, создатель ChatGPT, анонсировала новый инструмент искусственного интеллекта для генерации видео под названием «Sora».
Нажмите здесь, чтобы ознакомиться с «Sora» от OpenAI.

Мне тоже было интересно, поэтому я сразу же опробовал его, и у меня возникло ощущение, что это может оказаться поистине находкой, поэтому я хотел бы сделать на него обзор.

【реклама】

Это божественно! Результаты генерации видео "Sora"

Видео ниже было создано с помощью «Sora». Я не думаю, что это заняло больше 5 минут работы.
Всего лишь дав очень простую команду, мы смогли создать такое видео.

Это было лучшее видео
  • Руки женщины, печатающей на клавиатуре.
  • Жест, когда поднимаешь чашку кофе и опускаешь ее.

Даны только эти две команды.
Пятисекундная версия — почти точная копия. Я очень доволен первыми результатами, они очень хорошие.
Камера также пытается следовать за движениями объекта, что обеспечивает очень естественный вид.

Брать чашу или не брать чашу?
  • Руки женщины, печатающей на клавиатуре
  • Жест поднятия и опускания чашки кофе
  • Женщина покидает свое место

В 10-секундной версии робот только делает движение, пытаясь поднять чашку с кофе, но на самом деле не берет ее. Он также не предпринял никаких попыток встать со своего места. Не слишком ли много команд я ввел? Движения нестабильны и останавливаются, едва достигнув совершенства... это сложная часть долгосрочного алгоритма? Вот что меня сейчас беспокоит.

Но хотя я думал, что это компьютерная графика, на самом деле это живое действие. этот.
Интересно, он делает какие-нибудь фотографии?
Однако 10-секундная версия прикладывает неплохие усилия для воспроизведения моих команд, так что это определенно генеративный ИИ. Это потрясающе.

ChatGPT+ может генерировать видео длительностью до 5 секунд, а Pro — до 20 секунд.

В настоящее время «Sora» — это функция, которая не включена в бесплатную версию ChatGPT. ChatGPT+ позволяет вам генерировать до 5 720-секундных изображений 50p в месяц, в то время как Pro позволяет вам генерировать до 20 1080-секундных изображений 500p изображений в месяц. Стало так.

Количество раз, которое можно сгенерировать, вполне приемлемо, но мне показалось немного странным, что продолжительность создаваемых видео ограничена 5 секундами.
Могу ли я использовать TikTok? Однако, используя его, я могу создавать видеоролики длительностью до 10 секунд в своей среде. Это пробная версия? Надеюсь, так будет и дальше.

【реклама】

Редактируйте видео с помощью временной шкалы

«Sora» от ChatGPT имеет простую временную шкалу.
Если вы создадите команду в любой точке временной шкалы, полученное видео будет двигаться в соответствии с командой в этой точке времени.

В 5-секундной версии вы можете выполнить максимум одно действие, но в 1-секундной версии Pro вы можете создать короткую историю. *Честно говоря, 20 3 иен в месяц — это нереально, но поскольку это открытый ИИ, я думаю, что младшая версия когда-нибудь тоже будет иметь такие характеристики. И это произойдет в не столь отдаленном будущем.

Интерфейс Соры
Вы можете настроить время выполнения команд с помощью временной шкалы.

Выше представлена ​​10-секундная временная шкала, на которой мы дали команды трем разным местам, чтобы проверить, как они будут отражены во времени временной шкалы.

Императив:

  • Монах, изучающий один из видов китайских боевых искусств (тайцзи).
  • Внезапно на меня сзади напали трое врагов.
  • Однако монах побеждает своего противника впечатляющими ударами ног и рук, а затем принимает стойку.

↓Вот результаты.

Таинственный танец продолжается бесконечно...

Что тут странного? Монах дико танцует, а в середине видео монах делает какой-то удар ногой в прыжке и выпускает что-то похожее на хадукен из Street Fighter II... Я не мог не рассмеяться.
Конечно, он только что вышел, поэтому есть ограничения.
Я на самом деле не хотел делать вирусное видео...

Однако я хотел бы приветствовать прогресс технологий, который позволяет делать это с помощью живых выступлений, а не компьютерной графики.

Поддерживает различные методы команд

Помимо текстовых команд, «Sora» ChatGPT также поддерживаетВы также можете загружать неподвижные изображения или видео и создавать на их основе видеоролики.

Если вы не очень хорошо пишете повелительные предложения, этот метод может вам подойти.

Член редакционного состава НАО

Мы обратились за помощью к нашему редактору NAO, чтобы посмотреть, какое видео мы могли бы создать из ее фотографий. Предыдущее поколение видео с использованием искусственного интеллекта приводило к катастрофическим результатам, таким как вывихнутые суставы...

Это как фотографировать настоящей камерой.

Это вполне естественно. Изображение не было искажено, а текстура была такой, как будто снято настоящей видеокамерой. Покачивание головой импровизировано, но звучит естественно и непринужденно. Мы создали еще один шаблон, на этот раз с движущейся камерой в более динамичном видео, но глаза получились слишком резкими, как у лисы, поэтому мы отказались от него по ее просьбе.

Я также попытался создать видео из неподвижного изображения.
↓Оригинальное фото здесь.

Бывшее исследование автора

Команда:

  • Камера медленно поворачивается, чтобы сделать снимок.

Только. А полученное видео ниже:

Появляется странный ноутбук

Результат получился очень естественным. Рядом с вашим Macbook Air появляется незнакомый ноутбук, но это по-своему естественно.
Создание видеороликов из фотографий, по-видимому, дает хорошие результаты, возможно, потому, что представленные фотографии содержат большой объем информации. Это весьма полезно.

Однако результаты настолько хороши, что вы даже можете использовать фотографии своей семьи, чтобы преобразовать их в видеоролики, а затем с помощью профессионального программного обеспечения для редактирования видео создать видеоролик.

Говоря о «конвертации», это приложение, похоже, очень быстро обрабатывает конвертацию видео.Пятисекундное видео длится меньше минуты.Это потрясающе.
Я думаю, что когда дело доходит до проб и ошибок, важно не смотреть на вращающееся колесо в течение нескольких минут, как в приложениях других компаний для генерации видео.

Предыдущее видео с монахом оказалось немного комичным, поэтому я решил освежить в памяти повелительные предложения и сделать их длиннее, чтобы посмотреть, какой результат получится.

Вот команда:

  • Монах (главный герой) медленно практикует один из видов китайского боевого искусства (тайцзи).
    На заднем плане, похоже, находится какой-то храм. У монаха борода и бритая голова. Камера вращается вокруг него, охватывая его взгляд.
    Небо было затянуто грозовыми тучами и дождем, погода была плохая, время от времени раздавались раскаты грома.
  • Внезапно из-за экрана на меня набросились трое врагов. Монах (главный герой) шатается после удара врага, а дождь льет сильнее, чем когда-либо.
  • Однако монах (главный герой) побеждает одного врага одним великолепным ударом ноги и с легкостью позирует. Оставшиеся двое врагов убегают. И небо внезапно проясняется.
Лента новостей
Вставьте команды в три места на временной шкале.

↓Ниже представлено видео полученных результатов.

Мои мышцы такие дряблые...

Это, по сути, провал. Когда руки превращаются в рукава, а плоть повреждается, это заставляет почувствовать ограничения технологий. Не было смысла давать подробные инструкции.
Я не думаю, что он уже достиг того уровня, когда его можно использовать в сценах с большим количеством быстрых движений.

Однако текстура хорошая.
Я думаю, что более статичное видео (вроде той клавиатуры, которую я вам показал в начале) было бы более воспроизводимым.

Наконец, что происходит, когда то же самое интенсивное действие выполняется с помощью машины? Имея это в виду, я решил создать видео об американских горках.

Ниже приведено описание команды.

  • Американские горки в парке развлечений Cosmo World в Иокогаме Минато Мираи. Я смотрю снизу на кричащих пассажиров.

Я думаю, что получилось довольно хорошее видео.
Бывают некоторые поломки, но они меня не слишком беспокоят, и я считаю, что все зависит от того, что именно вы делаете.
Мне также нравится динамика камеры. Можно ли использовать его качество для видеопроизводства?

【реклама】

Открытый ИИ «Сора» подходит для этих людей.

Я попробовал использовать «Sora», но где на самом деле его следует использовать? Вот в чем проблема. Ключевым моментом является то, как мы воспринимаем 5-секундный лимит, и если это так, то я предполагаю, что он будет распределяться по следующим направлениям:

1. Людям, которым нужно большое количество видео по теме Макуаке и т. д.
Нам удалось подтвердить, что при наличии подготовленных неподвижных изображений видеоролики могут генерироваться довольно естественным образом. Я хочу продемонстрировать свой продукт в краудфандинговом видео, но у меня нет бюджета. Я думаю, что это может подойти таким людям.

2. Люди, которые хотят сделать вирусное видео на TikTok
По моему опыту, в этот раз он создавал непреднамеренные видеоролики, например, видео монаха, проходящего обучение.
В зависимости от используемой команды, на самом деле возможно создать забавное видео, и, судя по тому, что я тестировал, кажется, вы можете использовать его до 10 секунд (вероятно, с ограничением на количество раз, которое вы можете использовать), так почему бы и нет? попробуйте сделать смешное видео с помощью сгенерированного видео?

3. Как бесплатный материал для видеороликов YouTube
При создании программы на YouTube вам иногда может понадобиться много видеоматериалов.
«Sora» хороша в создании эмоциональных видеороликов, поэтому я думаю, что есть большая вероятность, что ютуберы будут использовать ее в будущем.

Слабые стороны открытого ИИ «Сора»

Попробовав «Sora», я почувствовал, что у него большой потенциал, но есть еще некоторые области, над которыми нужно поработать, поэтому я хотел бы написать о них здесь.

1. Не локализовано на японский язык.
Это только что было выпущено, так что я думаю, что это скоро будет исправлено, но поскольку оно не было локализовано на японский язык, я, у которого нулевой уровень понимания прочитанного на английском, был вынужден работать, не понимая написанного. Это было больно. Мы просим о скорейшем решении.

2. Существуют ограничения на воспроизводимость командных операторов.
Даже если вы даете указания в виде относительно простых команд, это не обязательно означает, что вы получите хорошие результаты.
Кажется, есть предел, особенно когда речь идет о сценах действия с большим количеством движения.

3. Можно использовать только из ChatGPT+
Судя по недавно анонсированной OpenAI версии «Pro», в будущем планы, по всей видимости, будут еще более разделены.
Даже самый дешевый + стоит около 3,000 иен, поэтому мне немного страшно смотреть, как они будут развивать свою стратегию в будущем.
Когда «Sora» будет доступна в бесплатной версии ChatGPT? (Автор прогнозирует следующий год.)

【реклама】

Отзывы СМИ и пользователей

Ниже приведены некоторые отзывы СМИ и пользователей, которые действительно использовали «Sora».

  • Сора относительно хорош в создании реалистичных и похожих на компьютерную графику текстур, но, похоже, менее искусен в создании видеороликов, похожих на японское аниме. Независимо от настроения, наблюдалась тенденция к тому, что отснятый материал становился менее последовательным по мере увеличения его продолжительности.
    Источник:ИТ-СМИ
  • Ошибки в изображении физических свойств (например, трудности в изображении разбивания стекла)
    Ошибки в композициях со сложными движениями нескольких субъектов (например, движущиеся объекты, превращающиеся в животных или людей)
    Источник:КОЛЕСО
  • Компания OpenAI анонсировала свою передовую модель видеонаблюдения на базе искусственного интеллекта «Sora». Качество отснятого материала было описано как «безумное».
    Источник:X
  • Больше всего меня впечатлила новая и превосходная функция раскадровки UI/UX. Я думаю, что в будущем это станет стандартным подходом к созданию видео. Другие хорошие особенности включают в себя детальное расположение кнопок и способ использования Explorer. Я думаю, это впечатляет.
    Источник:X
  • Наконец, я хочу кратко остановиться еще на одной особенности: смешивании. Вы можете представить себе смешивание как предоставление Соре двух сцен и предложение ему создать новую сцену, которая согласуется с ними обеими.
    Источник:в своих размышлениях

Отзывы явно разделились, но поскольку игра вышла совсем недавно, я настроен оптимистично и надеюсь, что со временем негативные мнения будут развеяны.
Меня беспокоит то, что может возникнуть неясность в отношении прав на портреты. С компьютерной графикой это не было бы проблемой, но создание живого персонажа с помощью искусственного интеллекта, похоже, может нарушить некоторые законы. Качество пока не достигло необходимого уровня, поэтому оценить его сложно, но следует иметь в виду, что нечто подобное может произойти в будущем.

Краткое описание: Создайте несколько коротких видеороликов и смонтируйте их с помощью Premiere и т. д.

Несмотря на некоторые колебания в качестве, Sora — это открытое приложение для генерации видео на базе искусственного интеллекта, которое, безусловно, является большим шагом вперед.
Как человек, работающий в сфере видеопроизводства, я считаю, что в будущем искусственный интеллект для создания видео определенно займет видное место в мире видеопроизводства.

Удивительно, что у него есть временная шкала.
Если бы ограничение по длине было снято и добавлены такие функции, как обрезка, наплыв и добавление субтитров, я считаю, что это стало бы по-настоящему полезным приложением для редактирования видео.

Уже сейчас вы можете создать несколько коротких 5-секундных видеороликов, а затем объединить их в Adobe Premiere или аналогичной программе, чтобы создать единую последовательность.
это верно. На данный момент это уже готовый к использованию инструмент.

Для справки, я создал привлекающее внимание видео для домашней страницы блога ниже.
Это три клипа, склеенных в Adobe Premiere. ↓

Вы можете создать длинную последовательность, подобную этой.
Вы также можете использовать этот метод в работе.

Тем не менее, это приложение явно подходит одним людям и не подходит другим, но его можно использовать для видео, которые по своей природе более статичны. Например, если эта тенденция продолжит развиваться, я думаю, мы можем стать свидетелями эпохи, когда старые идолы будут возрождены, или каждый сможет создать своих собственных виртуальных идолов.

В будущем видеопроизводства съемка на камеру и отснятый материал, возможно, больше не будут необходимыми.

Автор Томо


Фоновое изображение профиля
Томо АрибеРекламный видеодизайнер/режиссер
Я трансгендерный человек, который любит гаджеты и имеет 25-летний опыт работы в сфере дизайна рекламы и 20-летний опыт работы в сфере видеопроизводства. В феврале 2021 года он начал вести блог с обзорами гаджетов «Gadget Mania Z». Мы предоставляем информацию о гаджетах с отличным дизайном и функциональностью, отобранных с точки зрения создателей рекламы. Также,Выбор амебыОн также является сертифицированным экспертом.Статью о смарт-тегах смотрите здесь.

Нажмите здесь для подробного профиля
Электронная почта (запросы на написание статей и т.п.)
Посмотреть больше статей этого автора