マイクロソフトのAIが、多くのニュースキャスターやポッドキャスターを陳腐化させる恐るべき新しいディープフェイク技術を発表

【Natural News】2024年4月26日イーサン・ハフ著

https://www.naturalnews.com/2024-04-26-microsoft-ai-deepfake-newscasters-podcasters-obsolete.html

マイクロソフト・リサーチ・アジアは、「VASA」と呼ばれる新しいトランスヒューマニズム・プログラムの開発を進めている。

VASAは、「1つの静止画像と音声クリップを与えると、魅力的な視覚的有効スキル（VAS）を持つバーチャル・キャラクターの実物そっくりの話し顔を作成する」。

アジアのマイクロソフトの人工知能（AI）部門は、人物の実際の単一画像、実際の音声、そして多くの場合、人が話すときの顔の動きなどのさまざまな制御信号をコンパイルすることによって、このプログラムに取り組んできた。

これらのデータを使って、マイクロソフト・リサーチ・アジアは、いつの日か実際のニュースキャスターやポッドキャスターに取って代わるような、偽の人物の動く画像を生成している。

「我々のプレミアモデルであるVASA-1は、音声と絶妙に同期した唇の動きを生成できるだけでなく、顔のニュアンスや自然な頭の動きなど、本物らしさや生き生きとした印象を与える様々な要素を捉えることができる」と、研究チームはこの最新開発について論文に書いている。

「核となる技術革新には、顔の潜在空間で機能する全体的なフェイシャルダイナミクスと頭の動き生成モデルが含まれ、動画を用いてこのような表情豊かで分離された顔の潜在空間を開発した。一連の新しいメトリクスでの評価を含む広範な実験を通じて、我々の方法が様々な次元で包括的に以前の方法を大幅に上回ることを示す。」

■■高品質のディープフェイク

マイクロソフト・リサーチ・アジアが人間のようなディープフェイクを開発するために使用した方法は、リアルな顔や頭のダイナミクスと組み合わされた高品質のビデオを生成する。

このようなビデオは、512x512で、最大40フレーム/秒（FPS）、無視できる開始遅延でオンライン生成することができる。

平たく言えば、この技術は非常に信憑性が高いので、おそらく多くの人がこの技術に引っかかり、画面上の人物を本物の人間だと思ってしまうだろう。

目の肥えた人だけが、見ているものが何かおかしいと分かるだろう。

「人間の会話行動をエミュレートした本物そっくりのアバターとリアルタイムで関わる道を開く」とマイクロソフト・リサーチ・アジアは誇らしげに主張している。

この不気味なAIが動き、話す画像の例をいくつかご覧になりたい方は、Microsoft.comでご覧になれます。

「我々の方法は、貴重な唇と音声の同期を作り出すことができるだけでなく、表情豊かな顔のニュアンスや自然な頭の動きの大きなスペクトルを生成することができます。」

「任意の長さの音声を扱うことができ、シームレスなトーキングフェイスビデオを安定的に出力することができます。」

この研究の目的は、バーチャルAIアバターの社会全体や軍隊を解き放つことだとマイクロソフトは言うが、心配は無用だ。

「誤解を招いたり、欺いたりするようなコンテンツの作成を意図したものではありません。しかし、他の関連するコンテンツ生成技術と同様に、人間になりすまして悪用される可能性はあります。」

「私たちは、実在の人物を誤解させたり、有害なコンテンツを作成する行為に反対しており、偽造検出を進めるために私たちの技術を応用することに関心を持っています。現在のところ、この方法で生成された動画にはまだ識別可能なアーティファクトが含まれており、数値分析によれば、本物の動画の真正性を実現するにはまだギャップがある。」

このような技術のポジティブな使用例とされるものは、まるでパロディーのように読める。

マイクロソフトは、「教育の公平性」を生み出すことができると主張する一方で、「コミュニケーションに困難を抱える個人のアクセシビリティを向上させ、必要な人々に同伴や治療支援を提供する... 」と主張している。