Я думаю, нет сомнений, что ключевым словом в ИТ, которое в последнее время резко возросло, является «генеративный ИИ». И хотя до недавнего времени генеративный ИИ был способен только генерировать странные вещи и был всего лишь инструментом для шуток, в последнее время он, похоже, стремительно развивается.
С тех пор, как на днях мы впервые воспользовались ChatGPT, мы с моим редактором NAO погрузились в мир генеративного ИИ, словно сухая губка, впитывающая воду.
↓Это статья, которую я написал о ChatGPT на днях.
А сегодня, 2024 декабря 12 года, компания OpenAI, создатель ChatGPT, анонсировала новый инструмент искусственного интеллекта для генерации видео под названием «Sora».
Нажмите здесь, чтобы ознакомиться с «Sora» от OpenAI.
Мне тоже было интересно, поэтому я сразу же опробовал его, и у меня возникло ощущение, что это может оказаться поистине находкой, поэтому я хотел бы сделать на него обзор.
Это божественно! Результаты генерации видео "Sora"
Видео ниже было создано с помощью «Sora». Я не думаю, что это заняло больше 5 минут работы.
Всего лишь дав очень простую команду, мы смогли создать такое видео.
- Руки женщины, печатающей на клавиатуре.
- Жест, когда поднимаешь чашку кофе и опускаешь ее.
Даны только эти две команды.
Пятисекундная версия — почти точная копия. Я очень доволен первыми результатами, они очень хорошие.
Камера также пытается следовать за движениями объекта, что обеспечивает очень естественный вид.
- Руки женщины, печатающей на клавиатуре
- Жест поднятия и опускания чашки кофе
- Женщина покидает свое место
В 10-секундной версии робот только делает движение, пытаясь поднять чашку с кофе, но на самом деле не берет ее. Он также не предпринял никаких попыток встать со своего места. Не слишком ли много команд я ввел? Движения нестабильны и останавливаются, едва достигнув совершенства... это сложная часть долгосрочного алгоритма? Вот что меня сейчас беспокоит.
Но хотя я думал, что это компьютерная графика, на самом деле это живое действие. этот.
Интересно, он делает какие-нибудь фотографии?
Однако 10-секундная версия прикладывает неплохие усилия для воспроизведения моих команд, так что это определенно генеративный ИИ. Это потрясающе.
ChatGPT+ может генерировать видео длительностью до 5 секунд, а Pro — до 20 секунд.
В настоящее время «Sora» — это функция, которая не включена в бесплатную версию ChatGPT. ChatGPT+ позволяет вам генерировать до 5 720-секундных изображений 50p в месяц, в то время как Pro позволяет вам генерировать до 20 1080-секундных изображений 500p изображений в месяц. Стало так.
Количество раз, которое можно сгенерировать, вполне приемлемо, но мне показалось немного странным, что продолжительность создаваемых видео ограничена 5 секундами.
Могу ли я использовать TikTok? Однако, используя его, я могу создавать видеоролики длительностью до 10 секунд в своей среде. Это пробная версия? Надеюсь, так будет и дальше.
Редактируйте видео с помощью временной шкалы
«Sora» от ChatGPT имеет простую временную шкалу.
Если вы создадите команду в любой точке временной шкалы, полученное видео будет двигаться в соответствии с командой в этой точке времени.
В 5-секундной версии вы можете выполнить максимум одно действие, но в 1-секундной версии Pro вы можете создать короткую историю. *Честно говоря, 20 3 иен в месяц — это нереально, но поскольку это открытый ИИ, я думаю, что младшая версия когда-нибудь тоже будет иметь такие характеристики. И это произойдет в не столь отдаленном будущем.

Выше представлена 10-секундная временная шкала, на которой мы дали команды трем разным местам, чтобы проверить, как они будут отражены во времени временной шкалы.
Императив:
- Монах, изучающий один из видов китайских боевых искусств (тайцзи).
- Внезапно на меня сзади напали трое врагов.
- Однако монах побеждает своего противника впечатляющими ударами ног и рук, а затем принимает стойку.
↓Вот результаты.
Что тут странного? Монах дико танцует, а в середине видео монах делает какой-то удар ногой в прыжке и выпускает что-то похожее на хадукен из Street Fighter II... Я не мог не рассмеяться.
Конечно, он только что вышел, поэтому есть ограничения.
Я на самом деле не хотел делать вирусное видео...
Однако я хотел бы приветствовать прогресс технологий, который позволяет делать это с помощью живых выступлений, а не компьютерной графики.
Поддерживает различные методы команд
Помимо текстовых команд, «Sora» ChatGPT также поддерживаетВы также можете загружать неподвижные изображения или видео и создавать на их основе видеоролики.
Если вы не очень хорошо пишете повелительные предложения, этот метод может вам подойти.

Мы обратились за помощью к нашему редактору NAO, чтобы посмотреть, какое видео мы могли бы создать из ее фотографий. Предыдущее поколение видео с использованием искусственного интеллекта приводило к катастрофическим результатам, таким как вывихнутые суставы...
Это вполне естественно. Изображение не было искажено, а текстура была такой, как будто снято настоящей видеокамерой. Покачивание головой импровизировано, но звучит естественно и непринужденно. Мы создали еще один шаблон, на этот раз с движущейся камерой в более динамичном видео, но глаза получились слишком резкими, как у лисы, поэтому мы отказались от него по ее просьбе.
Я также попытался создать видео из неподвижного изображения.
↓Оригинальное фото здесь.

Команда:
- Камера медленно поворачивается, чтобы сделать снимок.
Только. А полученное видео ниже:
Результат получился очень естественным. Рядом с вашим Macbook Air появляется незнакомый ноутбук, но это по-своему естественно.
Создание видеороликов из фотографий, по-видимому, дает хорошие результаты, возможно, потому, что представленные фотографии содержат большой объем информации. Это весьма полезно.
Однако результаты настолько хороши, что вы даже можете использовать фотографии своей семьи, чтобы преобразовать их в видеоролики, а затем с помощью профессионального программного обеспечения для редактирования видео создать видеоролик.
Говоря о «конвертации», это приложение, похоже, очень быстро обрабатывает конвертацию видео.Пятисекундное видео длится меньше минуты.Это потрясающе.
Я думаю, что когда дело доходит до проб и ошибок, важно не смотреть на вращающееся колесо в течение нескольких минут, как в приложениях других компаний для генерации видео.

Предыдущее видео с монахом оказалось немного комичным, поэтому я решил освежить в памяти повелительные предложения и сделать их длиннее, чтобы посмотреть, какой результат получится.
Вот команда:
- Монах (главный герой) медленно практикует один из видов китайского боевого искусства (тайцзи).
На заднем плане, похоже, находится какой-то храм. У монаха борода и бритая голова. Камера вращается вокруг него, охватывая его взгляд.
Небо было затянуто грозовыми тучами и дождем, погода была плохая, время от времени раздавались раскаты грома. - Внезапно из-за экрана на меня набросились трое врагов. Монах (главный герой) шатается после удара врага, а дождь льет сильнее, чем когда-либо.
- Однако монах (главный герой) побеждает одного врага одним великолепным ударом ноги и с легкостью позирует. Оставшиеся двое врагов убегают. И небо внезапно проясняется.


↓Ниже представлено видео полученных результатов.
Это, по сути, провал. Когда руки превращаются в рукава, а плоть повреждается, это заставляет почувствовать ограничения технологий. Не было смысла давать подробные инструкции.
Я не думаю, что он уже достиг того уровня, когда его можно использовать в сценах с большим количеством быстрых движений.
Однако текстура хорошая.
Я думаю, что более статичное видео (вроде той клавиатуры, которую я вам показал в начале) было бы более воспроизводимым.



Наконец, что происходит, когда то же самое интенсивное действие выполняется с помощью машины? Имея это в виду, я решил создать видео об американских горках.
Ниже приведено описание команды.
- Американские горки в парке развлечений Cosmo World в Иокогаме Минато Мираи. Я смотрю снизу на кричащих пассажиров.
Я думаю, что получилось довольно хорошее видео.
Бывают некоторые поломки, но они меня не слишком беспокоят, и я считаю, что все зависит от того, что именно вы делаете.
Мне также нравится динамика камеры. Можно ли использовать его качество для видеопроизводства?
Открытый ИИ «Сора» подходит для этих людей.
Я попробовал использовать «Sora», но где на самом деле его следует использовать? Вот в чем проблема. Ключевым моментом является то, как мы воспринимаем 5-секундный лимит, и если это так, то я предполагаю, что он будет распределяться по следующим направлениям:
1. Людям, которым нужно большое количество видео по теме Макуаке и т. д.
Нам удалось подтвердить, что при наличии подготовленных неподвижных изображений видеоролики могут генерироваться довольно естественным образом. Я хочу продемонстрировать свой продукт в краудфандинговом видео, но у меня нет бюджета. Я думаю, что это может подойти таким людям.
2. Люди, которые хотят сделать вирусное видео на TikTok
По моему опыту, в этот раз он создавал непреднамеренные видеоролики, например, видео монаха, проходящего обучение.
В зависимости от используемой команды, на самом деле возможно создать забавное видео, и, судя по тому, что я тестировал, кажется, вы можете использовать его до 10 секунд (вероятно, с ограничением на количество раз, которое вы можете использовать), так почему бы и нет? попробуйте сделать смешное видео с помощью сгенерированного видео?
3. Как бесплатный материал для видеороликов YouTube
При создании программы на YouTube вам иногда может понадобиться много видеоматериалов.
«Sora» хороша в создании эмоциональных видеороликов, поэтому я думаю, что есть большая вероятность, что ютуберы будут использовать ее в будущем.
Слабые стороны открытого ИИ «Сора»
Попробовав «Sora», я почувствовал, что у него большой потенциал, но есть еще некоторые области, над которыми нужно поработать, поэтому я хотел бы написать о них здесь.
1. Не локализовано на японский язык.
Это только что было выпущено, так что я думаю, что это скоро будет исправлено, но поскольку оно не было локализовано на японский язык, я, у которого нулевой уровень понимания прочитанного на английском, был вынужден работать, не понимая написанного. Это было больно. Мы просим о скорейшем решении.
2. Существуют ограничения на воспроизводимость командных операторов.
Даже если вы даете указания в виде относительно простых команд, это не обязательно означает, что вы получите хорошие результаты.
Кажется, есть предел, особенно когда речь идет о сценах действия с большим количеством движения.
3. Можно использовать только из ChatGPT+
Судя по недавно анонсированной OpenAI версии «Pro», в будущем планы, по всей видимости, будут еще более разделены.
Даже самый дешевый + стоит около 3,000 иен, поэтому мне немного страшно смотреть, как они будут развивать свою стратегию в будущем.
Когда «Sora» будет доступна в бесплатной версии ChatGPT? (Автор прогнозирует следующий год.)
Отзывы СМИ и пользователей
Ниже приведены некоторые отзывы СМИ и пользователей, которые действительно использовали «Sora».
- Сора относительно хорош в создании реалистичных и похожих на компьютерную графику текстур, но, похоже, менее искусен в создании видеороликов, похожих на японское аниме. Независимо от настроения, наблюдалась тенденция к тому, что отснятый материал становился менее последовательным по мере увеличения его продолжительности.
Источник:ИТ-СМИ- Ошибки в изображении физических свойств (например, трудности в изображении разбивания стекла)
Ошибки в композициях со сложными движениями нескольких субъектов (например, движущиеся объекты, превращающиеся в животных или людей)
Источник:КОЛЕСО- Компания OpenAI анонсировала свою передовую модель видеонаблюдения на базе искусственного интеллекта «Sora». Качество отснятого материала было описано как «безумное».
Источник:X- Больше всего меня впечатлила новая и превосходная функция раскадровки UI/UX. Я думаю, что в будущем это станет стандартным подходом к созданию видео. Другие хорошие особенности включают в себя детальное расположение кнопок и способ использования Explorer. Я думаю, это впечатляет.
Источник:X- Наконец, я хочу кратко остановиться еще на одной особенности: смешивании. Вы можете представить себе смешивание как предоставление Соре двух сцен и предложение ему создать новую сцену, которая согласуется с ними обеими.
Источник:в своих размышлениях
Отзывы явно разделились, но поскольку игра вышла совсем недавно, я настроен оптимистично и надеюсь, что со временем негативные мнения будут развеяны.
Меня беспокоит то, что может возникнуть неясность в отношении прав на портреты. С компьютерной графикой это не было бы проблемой, но создание живого персонажа с помощью искусственного интеллекта, похоже, может нарушить некоторые законы. Качество пока не достигло необходимого уровня, поэтому оценить его сложно, но следует иметь в виду, что нечто подобное может произойти в будущем.
Краткое описание: Создайте несколько коротких видеороликов и смонтируйте их с помощью Premiere и т. д.
Несмотря на некоторые колебания в качестве, Sora — это открытое приложение для генерации видео на базе искусственного интеллекта, которое, безусловно, является большим шагом вперед.
Как человек, работающий в сфере видеопроизводства, я считаю, что в будущем искусственный интеллект для создания видео определенно займет видное место в мире видеопроизводства.
Удивительно, что у него есть временная шкала.
Если бы ограничение по длине было снято и добавлены такие функции, как обрезка, наплыв и добавление субтитров, я считаю, что это стало бы по-настоящему полезным приложением для редактирования видео.
Уже сейчас вы можете создать несколько коротких 5-секундных видеороликов, а затем объединить их в Adobe Premiere или аналогичной программе, чтобы создать единую последовательность.
это верно. На данный момент это уже готовый к использованию инструмент.
Для справки, я создал привлекающее внимание видео для домашней страницы блога ниже.
Это три клипа, склеенных в Adobe Premiere. ↓
Вы можете создать длинную последовательность, подобную этой.
Вы также можете использовать этот метод в работе.
Тем не менее, это приложение явно подходит одним людям и не подходит другим, но его можно использовать для видео, которые по своей природе более статичны. Например, если эта тенденция продолжит развиваться, я думаю, мы можем стать свидетелями эпохи, когда старые идолы будут возрождены, или каждый сможет создать своих собственных виртуальных идолов.
В будущем видеопроизводства съемка на камеру и отснятый материал, возможно, больше не будут необходимыми.