研究者によるAI画像生成の微調整

更新日: 1 年 2021 月 XNUMX 日
研究者によるAI画像生成の微調整

ノースカロライナ州立大学の研究者は、人工知能 (AI) システムが画像を作成する方法を制御するための新しい最先端の方法を開発しました。 この作品には、自律型ロボット工学から AI トレーニングまでの分野への応用があります。

問題となっているのは、条件付き画像生成と呼ばれるタイプの AI タスクです。このタスクでは、AI システムが特定の条件セットを満たす画像を作成します。 たとえば、ユーザーが要求した動物に応じて、猫または犬のオリジナル画像を作成するようにシステムをトレーニングできます。 より最近の技術は、これに基づいて画像レイアウトに関する条件を組み込んでいます。 これにより、ユーザーは画面の特定の場所に表示するオブジェクトのタイプを指定できます。 たとえば、空は XNUMX つのボックスに、木は別のボックスに、小川は別のボックスに、などです。

新しい作業は、ユーザーが結果の画像をより詳細に制御できるようにし、一連の画像全体で特定の特性を保持できるようにするために、これらの手法に基づいています。

「私たちのアプローチは非常に再構成可能です」と、ノースカロライナ州立大学のコンピュータ エンジニアリングの助教授であり、この研究に関する論文の共著者である Tianfu Wu 氏は言います。 「以前のアプローチと同様に、私たちのアプローチでは、ユーザーが特定の条件セットに基づいてシステムに画像を生成させることができます。 しかし、私たちのものでは、そのイメージを保持して追加することもできます。 たとえば、ユーザーは AI に山のシーンを作成させることができます。 ユーザーは、システムにそのシーンにスキーヤーを追加させることができます。」

さらに、新しいアプローチにより、ユーザーは AI に特定の要素を操作させることで、特定の要素を識別可能に同じにすることができますが、何らかの方法で移動または変更されています。 たとえば、AI は、スキーヤーが風景を横切って移動するときに、視聴者の方を向いている一連の画像を作成する場合があります。

「このためのアプリケーションの XNUMX つは、自律型ロボットが特定のタスクを開始する前に、最終結果がどのように見えるかを「想像」するのに役立つでしょう」と Wu は言います。 「このシステムを使用して、AI トレーニング用の画像を生成することもできます。 そのため、外部ソースから画像をコンパイルする代わりに、このシステムを使用して他の AI システムをトレーニングするための画像を作成できます。」

研究者たちは、COCO-Stuff データセットと Visual Genome データセットを使用して新しいアプローチをテストしました。 画質の標準的な尺度に基づいた新しいアプローチは、以前の最先端の画像作成技術よりも優れています。

「次のステップは、この作業をビデオや XNUMX 次元画像に拡張できるかどうかを確認することです」とウーは言います。

新しいアプローチのトレーニングには、かなりの計算能力が必要です。 研究者は 4 GPU ワークステーションを使用しました。 ただし、システムを展開すると、計算コストが低くなります。

「私たちはそれを見つけました GPU ほぼリアルタイムの速度が得られます」と Wu 氏は言います。