生成AIのトレンドはテキスト → 画像ときて今やすっかり動画だ。中国発の動画生成AI「Kling(クリング)」が話題なので、私も試してみた。
画像素材はロケットニュース24編集部の佐藤英典氏&GO羽鳥編集長。まずは、2人がやっているポールダンスの写真を動かしてみたい。
元の写真はこちら。
アクロバティックなポーズなのに爽やかに笑っていて、この写真自体が生成AIで作られたかのよう……。
Kling AIはウェブ上のサービスで、登録すれば誰でも無料で使える(回数制限あり)。
画像を読み込ませて “Generate” をクリック。5分ほど待つと……。
生成された動画は……なんか変。羽鳥編集長が天井へ飲み込まれそうだ。
なぜ、こうなったか。AIが写真の内容を理解していないからだ。
そこで、プロンプトを用いてみることにした。プロンプトとは「これはこういう画像で、このように動かしてください」という指示書のようなものだ。
「2人の男性がポールダンス中にポーズを決めている。上の男性はこちらを向いて手を振り、下の男性は笑っている」と(Google翻訳で英語にして)入力し、先ほどと同じ写真から動画を生成してみる。
おおっ、だいぶ自然に!
もっとアクロバティックな、こちらの写真でもトライしてみよう。
プロンプトにはシンプルに「2人はポールダンサー」とだけ入力。
結果は……。
ヤバイ。2人が融合し、別人格が爆誕してしまった……。
Klingもは写真を用いず言葉だけで説明し、動画を生成する機能もある。今度はそれでトライしてみよう。
2人の特徴とシーンの説明をプロンプト欄に入力。年齢は、実際は40代と50代だが、経験上、日本人の場合10歳くらい若くしないとダメなので、そうしている。
Kling AIが生成した動画は……。
……どなた? 舞台だけはそこそこ再現できた気もするが、違う、そうじゃない。
この後、何パターンかのプロンプトを試すも、納得いくアウトプットには至らなかった。
どうやらKling AIはポールダンスの動画を作るのが苦手らしい。
理由は明確で、世にサンプルが少ないからだ。生成AIはビッグデータを参照している。要するに “日常的によくあるシーン” のほうが得意なわけだ。
特殊表現者であるこの2人の、日常的によくあるシーンを捉えた写真など……全然あった。
パスタを食べる佐藤氏。
生成AIによる動画が騒がれ始めた2023年、俳優のウィル・スミスがパスタを奇妙な仕草で食べるAI動画が出回った。今年に入り、ウィル・スミス本人が、その食べ方を完コピした動画をSNSに投稿し、バズっていたのを目にした人もいるのではないか(知らない人は「ウィル・スミス」「パスタ」でググってみてほしい)。
そんな経緯もあり、生成AI開発者にとってパスタを食べる仕草の再現は、開発の指標となっているに違いないと私は睨んでいる。
やってみよう。
写真と「彼はパスタ(スパゲッティ)を食べている」とプロンプトに入力。AIが生成した動画は……。
ビンゴ〜!と叫びたくなるほど見事な出来栄えだ。最後の1本のパスタがシュルッと口に吸い込まれる瞬間まで自然で、最初から動画で撮ったと言ってもバレなそうだ。ウィル・スミスの功績はデカい。
うまくいくと嬉しいのは、コンピューターとのコミュニケーションが成立したからで、これは外国語で会話が通じたときの喜びに近いと感じる。
パスタがいけるなら、蕎麦もいけるのではないか? 蕎麦を食う羽鳥編集長の動画はゴマンとあるが、私はあえて比較したい。元々動画で撮ったものと、1枚の写真から生成した動画の違いを。
動画のワンシーンをスクショで切り出し、「彼は蕎麦を食べている」とプロンプトに入力。出来上がった動画を、元の動画と並べてみた。
ん〜〜〜食べて〜〜〜っ! 伸ばす仕草だけで終わってしまった……。やっぱりパスタじゃなきゃダメなのか。
悔しいのであと1回だけ。羽鳥編集長が「むなしいインターネット」について考えている写真は、構図的にいけそうな気がする。
プロンプト欄にはシンプルに「彼はキーボードを打っている」とだけ入力。
生成された動画は……。
はいビンゴ。
指先だけでなく呼吸するように体全体が微妙に動いており、違和感がない。
何度か試していくうちに、だんだんとコツがつかめてきたように思う。
動画生成AIは次から次へと登場しているが、無料で使えて操作がわかりやすいものとなると、現状ではこのKling AIがダントツだ。
これからは人がマシン語を学ぶのではなく、自分の言葉でコンピューターと対話してプログラミングする時代。生成AIで動画を作って遊ぶだけでも、そのスキルを養うことができる。興味を持った方は、ぜひ試してみてほしい。
参考リンク:Kling AI
執筆:矢崎飛鳥(ACCN)
Photo:RocketNews24