Forscher optimieren die Kontrolle über die KI-Bilderzeugung

Forscher optimieren die Steuerung der KI-Bilderzeugung

Forscher der North Carolina State University haben eine neue hochmoderne Methode entwickelt, um zu steuern, wie Systeme der künstlichen Intelligenz (KI) Bilder erzeugen. Die Arbeit hat Anwendungen für Bereiche von der autonomen Robotik bis zum KI-Training.

Es geht um eine Art von KI-Aufgabe, die als bedingte Bildgenerierung bezeichnet wird, bei der KI-Systeme Bilder erstellen, die eine bestimmte Reihe von Bedingungen erfüllen. Beispielsweise könnte ein System trainiert werden, um Originalbilder von Katzen oder Hunden zu erstellen, je nachdem, welches Tier der Benutzer angefordert hat. Neuere Techniken haben darauf aufgebaut, um Bedingungen bezüglich eines Bildlayouts einzubeziehen. Auf diese Weise können Benutzer festlegen, welche Arten von Objekten an bestimmten Stellen auf dem Bildschirm angezeigt werden sollen. Zum Beispiel könnte der Himmel in eine Kiste passen, ein Baum in eine andere Kiste, ein Bach in eine separate Kiste und so weiter.

Die neue Arbeit baut auf diesen Techniken auf, um Benutzern mehr Kontrolle über die resultierenden Bilder zu geben und bestimmte Eigenschaften über eine Reihe von Bildern hinweg beizubehalten.

„Unser Ansatz ist hochgradig rekonfigurierbar“, sagt Tianfu Wu, Mitautor eines Papiers über die Arbeit und Assistenzprofessor für Computertechnik an der NC State. „Wie bei früheren Ansätzen ermöglicht auch unser Ansatz den Benutzern, das System ein Bild basierend auf einer bestimmten Reihe von Bedingungen erstellen zu lassen. Aber mit unserem können Sie dieses Image auch beibehalten und ergänzen. Zum Beispiel könnten Benutzer die KI eine Bergszene erstellen lassen. Die Benutzer könnten dann vom System Skifahrer zu dieser Szene hinzufügen lassen.“

Darüber hinaus ermöglicht der neue Ansatz den Benutzern, bestimmte Elemente von der KI so manipulieren zu lassen, dass sie erkennbar gleich sind, sich jedoch in irgendeiner Weise verschoben oder verändert haben. Zum Beispiel könnte die KI eine Reihe von Bildern erstellen, die zeigen, wie sich Skifahrer dem Betrachter zuwenden, während sie sich durch die Landschaft bewegen.

„Eine Anwendung dafür wäre, autonomen Robotern zu helfen, sich vorzustellen, wie das Endergebnis aussehen könnte, bevor sie eine bestimmte Aufgabe beginnen“, sagt Wu. „Man könnte das System auch verwenden, um Bilder für das KI-Training zu generieren. Anstatt also Bilder aus externen Quellen zusammenzustellen, könnte man mit diesem System Bilder zum Training anderer KI-Systeme erstellen.“

Die Forscher testeten ihren neuen Ansatz mit dem COCO-Stuff-Datensatz und dem Visual Genome-Datensatz. Basierend auf Standardmaßen der Bildqualität übertraf der neue Ansatz die bisherigen hochmodernen Bilderzeugungstechniken.

„Unser nächster Schritt besteht darin, zu sehen, ob wir diese Arbeit auf Videos und dreidimensionale Bilder ausdehnen können“, sagt Wu.

Das Training für den neuen Ansatz erfordert einiges an Rechenleistung; die Forscher verwendeten eine 4-GPU-Workstation. Die Bereitstellung des Systems ist jedoch weniger rechenintensiv.

„Wir haben das gefunden GPU gibt Ihnen fast Echtzeit-Geschwindigkeit“, sagt Wu

Forscher optimieren die Steuerung der KI-Bilderzeugung