I ricercatori perfezionano il controllo sulla generazione di immagini AI

I ricercatori della North Carolina State University hanno sviluppato un nuovo metodo all'avanguardia per controllare il modo in cui i sistemi di intelligenza artificiale (AI) creano le immagini. Il lavoro ha applicazioni per campi dalla robotica autonoma alla formazione sull'intelligenza artificiale.

In questione è un tipo di attività di intelligenza artificiale chiamata generazione di immagini condizionali, in cui i sistemi di intelligenza artificiale creano immagini che soddisfano una serie specifica di condizioni. Ad esempio, un sistema potrebbe essere addestrato per creare immagini originali di cani o gatti, a seconda dell'animale richiesto dall'utente. Tecniche più recenti si sono basate su questo per incorporare le condizioni relative al layout dell'immagine. Ciò consente agli utenti di specificare quali tipi di oggetti desiderano che appaiano in determinati punti dello schermo. Ad esempio, il cielo potrebbe essere in una casella, un albero potrebbe essere in un'altra casella, un flusso potrebbe essere in una casella separata e così via.

Il nuovo lavoro si basa su queste tecniche per offrire agli utenti un maggiore controllo sulle immagini risultanti e per mantenere determinate caratteristiche in una serie di immagini.

"Il nostro approccio è altamente riconfigurabile", afferma Tianfu Wu, coautore di un documento sul lavoro e assistente professore di ingegneria informatica presso la NC State. “Come i precedenti approcci, il nostro consente agli utenti di fare in modo che il sistema generi un'immagine in base a un insieme specifico di condizioni. Ma il nostro ti permette anche di conservare quell'immagine e aggiungerla ad essa. Ad esempio, gli utenti potrebbero fare in modo che l'intelligenza artificiale crei una scena di montagna. Gli utenti potrebbero quindi fare in modo che il sistema aggiunga gli sciatori a quella scena".

Inoltre, il nuovo approccio consente agli utenti di fare in modo che l'IA manipoli elementi specifici in modo che siano identificabili come uguali, ma si siano spostati o modificati in qualche modo. Ad esempio, l'intelligenza artificiale potrebbe creare una serie di immagini che mostrano gli sciatori che si girano verso lo spettatore mentre si muovono attraverso il paesaggio.

"Un'applicazione per questo sarebbe quella di aiutare i robot autonomi a "immaginare" come potrebbe essere il risultato finale prima di iniziare un determinato compito", afferma Wu. “Potresti anche utilizzare il sistema per generare immagini per l'addestramento sull'intelligenza artificiale. Quindi, invece di compilare immagini da fonti esterne, potresti usare questo sistema per creare immagini per addestrare altri sistemi di intelligenza artificiale".

I ricercatori hanno testato il loro nuovo approccio utilizzando il set di dati COCO-Stuff e il set di dati Visual Genome. Basato su misure standard di qualità dell'immagine, il nuovo approccio ha superato le precedenti tecniche di creazione di immagini all'avanguardia.

"Il nostro prossimo passo è vedere se possiamo estendere questo lavoro a video e immagini tridimensionali", afferma Wu.

La formazione per il nuovo approccio richiede una discreta quantità di potenza di calcolo; i ricercatori hanno utilizzato una workstation 4-GPU. Tuttavia, l'implementazione del sistema è meno costosa dal punto di vista computazionale.

“Abbiamo trovato quello found GPU ti offre una velocità quasi in tempo reale", afferma Wu