연구진, AI 이미지 생성 제어 미세 조정

노스캐롤라이나 주립 대학의 연구원들은 인공 지능(AI) 시스템이 이미지를 생성하는 방식을 제어하기 위한 새로운 최첨단 방법을 개발했습니다. 이 작업에는 자율 로봇 공학에서 AI 교육에 이르는 분야에 대한 응용 프로그램이 있습니다.

문제는 AI 시스템이 특정 조건 집합을 충족하는 이미지를 생성하는 조건부 이미지 생성이라는 일종의 AI 작업입니다. 예를 들어, 사용자가 요청한 동물에 따라 고양이나 강아지의 원본 이미지를 생성하도록 시스템을 훈련시킬 수 있습니다. 보다 최근의 기술은 이미지 레이아웃과 관련된 조건을 통합하기 위해 이를 기반으로 구축되었습니다. 이를 통해 사용자는 화면의 특정 위치에 표시할 개체 유형을 지정할 수 있습니다. 예를 들어, 하늘은 한 상자에 들어갈 수 있고, 나무는 다른 상자에 들어갈 수 있으며, 시냇물은 별도의 상자에 들어갈 수 있습니다.

새로운 작업은 사용자가 결과 이미지에 대해 더 많은 제어를 제공하고 일련의 이미지에서 특정 특성을 유지하기 위해 이러한 기술을 기반으로 합니다.

“우리의 접근 방식은 매우 재구성 가능합니다. “이전 접근 방식과 마찬가지로 우리는 사용자가 시스템이 특정 조건 집합에 따라 이미지를 생성하도록 할 수 있습니다. 그러나 우리는 또한 그 이미지를 유지하고 추가할 수 있습니다. 예를 들어 사용자는 AI가 산 장면을 만들도록 할 수 있습니다. 그런 다음 사용자는 시스템이 해당 장면에 스키어를 추가하도록 할 수 있습니다.”

또한 새로운 접근 방식을 통해 사용자는 AI가 특정 요소를 조작하여 식별할 수 있도록 동일하지만 어떤 식으로든 이동하거나 변경하도록 할 수 있습니다. 예를 들어 AI는 스키어가 풍경을 가로질러 이동할 때 보는 사람을 향해 몸을 돌리는 모습을 보여주는 일련의 이미지를 생성할 수 있습니다.

"이를 위한 한 가지 응용 프로그램은 자율 로봇이 주어진 작업을 시작하기 전에 최종 결과가 어떻게 보일지 '상상'하도록 돕는 것입니다."라고 Wu는 말합니다. “시스템을 사용하여 AI 교육을 위한 이미지를 생성할 수도 있습니다. 따라서 외부 소스에서 이미지를 컴파일하는 대신 이 시스템을 사용하여 다른 AI 시스템을 교육하기 위한 이미지를 만들 수 있습니다.”

연구원들은 COCO-Stuff 데이터 세트와 Visual Genome 데이터 세트를 사용하여 새로운 접근 방식을 테스트했습니다. 이미지 품질의 표준 측정을 기반으로 하는 새로운 접근 방식은 이전의 최첨단 이미지 생성 기술을 능가했습니다.

"우리의 다음 단계는 이 작업을 비디오 및 XNUMX차원 이미지로 확장할 수 있는지 확인하는 것입니다."라고 Wu는 말합니다.

새로운 접근 방식에 대한 교육에는 상당한 양의 계산 능력이 필요합니다. 연구원들은 4-GPU 워크스테이션을 사용했습니다. 그러나 시스템 배포는 계산 비용이 적게 듭니다.

“저희가 찾았습니다. GPU 거의 실시간 속도를 제공합니다.”라고 Wu는 말합니다.

연구원들은 AI 이미지 생성에 대한 미세 조정 제어