オープンAIが放つ動画生成AI「Sora」を爆速レビュー！

最近急上昇で上がっているITキーワードが「生成AI」なのは間違いないんじゃないかと思います。そしてちょっと前までは変な物しか生成できず、単なるギャグツールだった生成AIが、ここ最近急成長しているようです。

先日、初めてChatGPTを触ってから、乾いたスポンジが水を吸うが如く、私も編集部員のNAOも生成AIの世界に没入しています。

そして本日2024年12月9日、ChatGPTの生みの親、オープンAIから新しい動画生成AIツール「Sora」が発表されました。
オープンAIの「Sora」はこちら。

筆者も興味があり、早速使ってみましたが、これはまさに神ツールになるんじゃないかという予感がしたのでレビューしてみたいと思います。

＜画像／動画／その他生成AI・関連記事＞

『MOJIKAI』テキスト入力で3DCGコンテンツを簡単作成！次世代デザインツール登場

3DCGを自分で作って、360°グリグリ回してみたいですよね。そこにはロマンがあります。筆者も若い頃、CINEMA4Dというアプリをちょっとかじってまして、幾つ…

神ってる！「Sora」の動画生成結果

以下の動画は「Sora」で生成した動画です。作業時間にして5分も掛かってないと思います。
とてもシンプルな命令文を与えただけで、こんな動画が作れてしまいました。

これが一番上手くいった動画

キーボードを打つ女性の手元。
コーヒーカップを手に取り置く所作。

与えた命令文はこの２つだけです。
5秒版はほぼ再現してますね。初見でとても良い結果に満足しています。
カメラも被写体の動きをフォローしようとしていて、とても自然な動きです。

カップを取るのか、取らないのか、どっちだい？

キーボードを打つ女性の手元
コーヒーカップを手に取り置く所作
席を離れる女性

10秒版になると、コーヒーカップを取ろうとする所作のみで実際にはカップを手に取りません。また、席を立とうともしませんでした。少し命令文を詰め込み過ぎましたかね？寸止めであやふやな動き…長時間のアルゴリズムだと難しい部分なのでしょうか？この辺りが今のところ気になった点です。

でもCGかと思いきや、実写なんですね。これ。
撮り溜めでもしているのかな？
しかし10秒版の方は私の命令文を健気に再現しようとする努力からして、やっぱり生成AIですよねこれ。凄いです。

ChatGPT＋は5秒まで、Proだと20秒まで動画生成可能

今現在「Sora」は無料版のChatGPTには搭載されていない機能でして、ChatGPT＋で5秒＆720pで月に50回まで生成可能、そしてProだと20秒で1080p、500回まで生成可能となっています。

生成回数はこれでも良いのですが、作れる動画の尺が5秒までというのはちょっと中途半端だなぁと思いました。
TikTokなら使えるかな？しかし使っているとどうも私の環境では10秒までの尺で作れるんですよね。お試し版なのでしょうか？このままでいてほしいです。

タイムラインで動画を編集可能

ChatGPTの「Sora」は簡単なタイムラインを備えています。
このタイムラインの時間軸に対して、好きな位置で命令文を作成すると、出来上がった動画はそれに沿った時間の位置で命令文の動きを行おうと動きます。

これが5秒だとできるアクションは精々1種類ですが、Pro版の20秒になると、ちょっとしたストーリーを作ることが出来ます。※月額3万円は正直無理ですが、オープンAIの事なのでいつか下のバージョンもそんなスペックになると思います。それも遠くない将来で。

上記は10秒尺のタイムラインで、三箇所にそれぞれ命令文を与え、時間軸のタイミングでどう反映されるか試したものです。

命令文：

中国拳法（太極拳）の型を鍛錬している修行僧。
突然背後から敵が三人襲いかかってきた。
しかし見事な蹴りや手刀で敵を打倒し、構えのポーズを取る修行僧。

↓結果がこちら。

怪しい踊りが延々と続く…

なんだこの違和感は…踊り狂う修行僧、そして動画中盤で何やら飛び蹴りをしてストIIの波動拳みたいなモノを出す修行僧…思わず笑ってしまいました。
そりゃあまあまだリリースされたばかりですし、限界はありますよね。
別にバズり動画が作りたかった訳じゃ…

ただし、これをCGではなく実写で行えると言う点に技術の進歩への喝采を送りたいと思います。

色んな命令の方法に対応

ChatGPTの「Sora」ではテキストの命令文以外にも、静止画や動画をアップロードして、それを元にした動画を作ってもらうことも可能。

命令文を書くのが苦手な方はこの方法が適しているかも知れませんね。

編集部員NAOに協力してもらい、彼女の静止画写真からどんな動画が生成されるか試してみました。今までの動画生成AIでは関節がねじ切れたりと悲惨な結果を招いたのですが…

まるで本物のカメラで撮ったよう

これは大分自然ですね。画像の破綻もなくまるで本物のビデオカメラで撮影したような質感に仕上がりました。首を振る動作はアドリブのものですが、破綻することもなく自然です。もう1パータン作りまして、こちらはカメラが回り込むようなもっとダイナミックな動画に仕上がりましたが、目元がキツネみたいなキツイ感じで生成されたので、彼女の命令で没になりました。

もう一枚静止画像から動画生成を行ってみました。
↓元となる写真はこちら。

命令文は

カメラがゆっくりと写真をナメるように旋回していく。

のみです。そして生成された動画が以下↓

見知らぬノートPCが出現する

とても自然な感じで仕上がりました。MacbookAirの隣に知らないノートPCが出現しますが、これはこれで自然です。
写真を元にした動画生成は、提出する写真の情報量が豊富なのか、良い結果を産み出すようです。これは使いでがあるなぁ。

しかしこの結果はとても良好で、手元にある家族の写真を使って動画に変換し、それを本格的な動画編集ソフト使って、リール動画を作るなんてこともありですね。

そう言えば「変換」で思い出しましたが、このアプリは動画変換の処理がとても早く感じます。5秒の動画で1分も掛からない感じです。これはすごいですね。
他社の動画生成アプリのように何分もクルクルマークを見なくて済むのは、トライアンドエラーを行うに当たって重要なことだと思います。

先程の修行僧の動画がちょっとお笑いになってしまっったので、命令文を長文にブラッシュアップし、どんな結果が戻ってくるか検証してみました。

以下、命令文です：

中国拳法（太極拳）の型をゆっくりと鍛錬している一人の修行僧（主役）。
背景はどこかの寺院のようだ。その修行僧はヒゲを生やし、坊主頭。カメラは彼を中心にナメるように旋回していく。
空は雷雲で雨が降っており、天気が悪く、時たま雷鳴が轟く。
すると画面の外から敵が三人襲いかかってきた。一人の敵からパンチを一発食らってよろめく修行僧（主役）雨はますます激しく降り注ぐ。
しかし修行僧（主役）は見事な蹴り一発で敵一人を倒し、余裕のポーズを取る。残り二人の敵は逃げる。そして空が急激に晴れていく。

↓以下、生成結果の動画。

筋肉がダルンダルン…

これは大分破綻していますね。腕が袖になっていたり、肉体が破損したいたりで、ちょっとテクノロジーの限界を感じます。細かい命令文を出した意味がなかったです。
動きの激しいアクションものだとまだ使えるレベルには至ってないように感じます。

ただし質感は良いのですよね。
もう少し静的な動画（最初にお見せしたキーボードの様な）動きだと再現性が高いのではと思います。

最後に同じ激しいアクションでも機械ものだとどうなんかね？という気持ちでジェットコースターの動画を生成してみました。

以下命令文です。

横浜みなとみらいのコスモワールドのジェットコースター。阿鼻叫喚の乗客員を下から見上げる私。

これはまぁまぁ意図した動画が生成できたのではと思います。
破綻もありますがそんなに気にもなりませんし、作るモノ次第なんだと感じました。
カメラのダイナミックさも良いと思います。映像制作に使えるクオリティかな？

オープンAI「Sora」はこんな人に向いている

「Sora」を使ってみましたが、はて実際どこで使おう？というのが悩みどころです。ポイントは「5秒」という制限をどう捉えるかなのですが、そうなると以下の分野なのかなと予測します。

1.Makuakeなんかで大量の動画が必要な人
静止画さえ用意すれば、割と自然な形で動画を生成できるのが確認できました。クラファンで動画で商品を見せたいけど、予算がない、、。そんな方には向いているんじゃないかと思います。

2.TikTokでバズリ動画を狙いたい人など
今回使った限りでは、修行僧の坊主動画のように意図しない動画が出来上がったりします。
割と命令文次第では笑える動画を作ることも可能で、秒数も今回試した限り10秒は使えるようなので（多分回数制限あり）生成動画で面白動画を作ってみては如何でしょうか？

3.Youtube動画でのフリー素材として
Youtube番組を作る上で、沢山の動画素材が時に必要かと思います。
「Sora」はイメージ的な動画を作るには長けていますので、今後ユーチューバーが使う可能性は高いのではと思います。

オープンAI「Sora」の弱点

「Sora」を使ってみて、大きな可能性を持つと共に、現時点でまだまだだな、と感じた部分もありましたので記述してみたいと思います。

1.日本語にローカライズされていない
これはまだリリースしたばかりなのですぐに対応されると思いますが、日本語版にローカライズされてないので、英語の読解力ゼロの私は何が書いてあるかちんぷんかんぷんで作業を強いられたのが苦痛でありました。早期の解決を求めます。

2.命令文の再現性に限界がある。
割と単純な命令文で指示を出しても、良い結果が返ってくるとは限らないようです。
特に動きの激しいアクションものだと限界があるようです。

3.ChatGPT +からでないと使えない
オープンAIが先日発表した「Pro」といい、今後プランの細分化が行われるような気がします。
一番安い+でも約3,000円なので、今後どう戦略を練ってくるか少し怖い気がしますね。
無料版のChatGPTで「Sora」が使えるようになるのはいつになるでしょうか。（筆者は来年と予測）

メディアやユーザーの評価

以下では実際に「Sora」を使ったメディア、ユーザーの評価を幾つか掲載します。

Soraは写実風やCGっぽい質感は比較的得意だが、日本のアニメっぽい動画は不得手な様子。雰囲気を問わず長い映像になるにつれ、一貫性がなくなる傾向も見られた。
出典：ITメディア

物理的性質の表現のエラー（例：ガラスが割れる様子を表現しづらい）
複数の被写体が複雑に動く構図でのエラー（例：動く物体が動物や人に変形する）
出典：WEEL

オープンAIが最新鋭のAIビデオモデル「Sora」を発表した。映像のクオリティは”insane / 狂っている”と表現されるほど。
出典：X

1番の感動はUI/UX ストーリーボード機能が新しく秀逸。今後の動画生成でスタンダードな考え方になると思う。他にも細かなボタン配置やExplorerの使い方なども良い。この点流石だなと思う。
出典：X

最後にもう1つの機能、ブレンドについて簡単に触れたいと思います。ブレンドは、Soraに2つのシーンを与え、Soraがそれらの両方の一貫性のある新しいシーンを作成するものと考えることができます。
出典：note

評価ははっきりと別れていますが、まだ出たばかりなのでネガティブな意見はそのうち解消されるだろうと楽観視しています。
私が気にするのは、肖像権の扱いがあやふやになるのではないかと。CGなら問題ないのですが、実写の人物をAIで生成するという点で何がしかの法に触れそうな気がするんですね。まだそこまでのクオリティではないので、評価のしようもないですが今後そういうことも在るのではないかと念頭においておきましょう。