【AI機能】1枚の写真からどんな言語も話す動画を生成できるGoogleの動画生成AI「VLOGGER」がヤバすぎる

表情を自由に編集できるGoogleのアバター生成AI「VLOGGER」

昨今のAIの技術革新はめまぐるしく、ついに「写真から動画へ」が実現できる時代に入りました。
Googleの研究者らが、1枚の静止画像から人物の動画を生成する新しい人工知能システム「VLOGGER」を開発。自動的に動画を他の言語に吹き替えたり、欠けているフレームを補完したりする能力があり、俳優の3Dモデルを使って新しいパフォーマンスを生成することも可能になりました。

動画出典:VLOGGER: 身体化されたアバター合成のためのマルチモーダル拡散

VLOGGERの機能

画像の動画化だけでも驚きですが、さらにVLOGGERは動画の生成だけでなく、動画の音声を翻訳する機能や、人物の顔の表情を変えたり、手や頭などに動きをつける機能、欠けているフレームを補完するなどの動画編集まで出来てしまいます。

このモデルはまだ一般公開されていませんが、公開されれば動画作成のハードルを大幅に下げることが期待でき、将来的に様々な分野で活用されるでしょう。一方で、ディープフェイクなどの悪用の可能性も今後の動きとして懸念されます。

1.1枚の写真をトーキングビデオに変える
このAIは、1枚の写真と音声を一つの動画に変換します

2.ビデオ翻訳
VLOGGERは、特定の言語で既存のビデオを取得し、新しいオーディオ(例えばスペイン語)と一致するように唇や顔を編集、合成します。

3.ビデオ編集
このAIは単純な編集だけでなく、表情や動きを付けることも可能です。
クリエイターにもおすすめです。

4.VLOGGERの仕組み:
このAIは、顔のランドマーク検出とニューラルネットワークモデルを使用して、本物そっくりの唇の動きや表情を音声と同期させます。

5.多様性
このモデルは、動きとリアリズムのある多様な動画を生成します。80の動画からのピクセルの多様性を右図に示す:赤い部分はリアルな外観を維持しながら、大きな動きから色の多様性が高いことを示します。

6.動き+話す人物を生成

7.VLOGGERは、高度な生成的敵対ネットワークを使用して、1枚の写真と音声から静止画像をリアルなトーキング・ビデオにアニメーション化します。

Googleの動画生成AI「LUMIERE」

LUMIEREは映像生成の最新AIモデルです。最先端の「時空間」ニューラルネットワークを搭載、5秒間のビデオクリップを一度に作成可能になります。

まずは「labs.google」にアクセスしてみて!

ステップ1:「Generative AI in SearchI」をオンにする
「Google検索」カテゴリーで「SGE」を探し、オンにする

ステップ2:画像を作成する
Googleに画像を作成するよう促してみましょう。
方法は以下の通り:

1.プロンプトを入力する(例:「空を舞う潜水艦を生成してください」)
2.画像が表示されるまで待つ
3.どれか1つを選び、"編集 "をクリック

ステップ3:
これで完了です。任意のプロンプトを入力してAI画像を生成します。
このAIはDALL-E 3のようにテキストから画像を生成することができます。

Googleの新AI「Gemini」について

Googleの『Gemini』AIがついに始動しました。ChatGPTを凌駕し、世界中で話題に!Gemini はマルチモーダルで、「文字」に加え「画像」「音声」「動画」を認識します。

ここのブックマーク保存をオススメします。

コメント

タイトルとURLをコピーしました