【AI機能】１枚の写真からどんな言語も話す動画を生成できるGoogleの動画生成AI「VLOGGER」がヤバすぎる

表情を自由に編集できるGoogleのアバター生成AI「VLOGGER」
VLOGGERの機能
Googleの動画生成AI「LUMIERE」
Googleの新AI「Gemini」について

表情を自由に編集できるGoogleのアバター生成AI「VLOGGER」

昨今のAIの技術革新はめまぐるしく、ついに「写真から動画へ」が実現できる時代に入りました。
Googleの研究者らが、1枚の静止画像から人物の動画を生成する新しい人工知能システム「VLOGGER」を開発。自動的に動画を他の言語に吹き替えたり、欠けているフレームを補完したりする能力があり、俳優の3Dモデルを使って新しいパフォーマンスを生成することも可能になりました。

動画出典：VLOGGER: 身体化されたアバター合成のためのマルチモーダル拡散

VLOGGERの機能

画像の動画化だけでも驚きですが、さらにVLOGGERは動画の生成だけでなく、動画の音声を翻訳する機能や、人物の顔の表情を変えたり、手や頭などに動きをつける機能、欠けているフレームを補完するなどの動画編集まで出来てしまいます。

このモデルはまだ一般公開されていませんが、公開されれば動画作成のハードルを大幅に下げることが期待でき、将来的に様々な分野で活用されるでしょう。一方で、ディープフェイクなどの悪用の可能性も今後の動きとして懸念されます。

１．1枚の写真をトーキングビデオに変える
このAIは、1枚の写真と音声を一つの動画に変換します

２．ビデオ翻訳
VLOGGERは、特定の言語で既存のビデオを取得し、新しいオーディオ（例えばスペイン語）と一致するように唇や顔を編集、合成します。

３．ビデオ編集
このAIは単純な編集だけでなく、表情や動きを付けることも可能です。
クリエイターにもおすすめです。

４．VLOGGERの仕組み：
このAIは、顔のランドマーク検出とニューラルネットワークモデルを使用して、本物そっくりの唇の動きや表情を音声と同期させます。

５．多様性
このモデルは、動きとリアリズムのある多様な動画を生成します。80の動画からのピクセルの多様性を右図に示す：赤い部分はリアルな外観を維持しながら、大きな動きから色の多様性が高いことを示します。

６．動き＋話す人物を生成

７．VLOGGERは、高度な生成的敵対ネットワークを使用して、1枚の写真と音声から静止画像をリアルなトーキング・ビデオにアニメーション化します。

Googleの動画生成AI「LUMIERE」

LUMIEREは映像生成の最新AIモデルです。最先端の「時空間」ニューラルネットワークを搭載、5秒間のビデオクリップを一度に作成可能になります。

まずは「labs.google」にアクセスしてみて！

ステップ1：「Generative AI in SearchI」をオンにする
「Google検索」カテゴリーで「SGE」を探し、オンにする

ステップ2：画像を作成する
Googleに画像を作成するよう促してみましょう。
方法は以下の通り：

1.プロンプトを入力する（例：「空を舞う潜水艦を生成してください」）
2.画像が表示されるまで待つ
3.どれか1つを選び、"編集 "をクリック

ステップ3：
これで完了です。任意のプロンプトを入力してAI画像を生成します。
このAIはDALL-E 3のようにテキストから画像を生成することができます。