본문 바로가기
AI

그림 AI (Midjourney, Stable Diffusion, Dall-E)에서 중요한 것은 무엇일까?

by dev-woo 2023. 3. 4.
반응형

생성 AI

인공 지능(AI)은 우리가 기술과 상호작용하는 방식에 혁신을 가져왔으며, 과거에는 불가능하다고 여겨졌던 작업을 수행할 수 있게 해줍니다. 음성 어시스턴트부터 자율 주행 자동차에 이르기까지 AI는 이제 일상 생활의 필수적인 부분이 되었습니다. 하지만 AI가 단순히 작업을 수행하는 데 그치지 않고 그 이상의 일을 할 수 있다면 어떨까요? 예술을 창조할 수 있다면 어떨까요?

 

Midjourney로 만든 작품들(https://midjourney.com)

 

AI기술을 활용해서 그림을 그릴 수 있는 것 중 가장 유명한 3가지로 Midjourney, Stable Diffusion, Dall-E 를 뽑을 수 있습니다

 

이러한 모델을 자세히 살펴보면 DALL-E 2는 대중들에게 공개되지 않습니다. 하지만 프로그램에 참여할 수는 있습니다. 반면에 Midjourney는 디스코드 채널을 통해 서비스를 제공합니다.

 

이 두 가지 모두 오픈 소스가 아니며 앞으로도 계속 아닌 상태를 유지할 것이라고 합니다. Stable Diffusion은 오픈 소스 모델이라고 이야기 합니다. 이 모델은 hugging Face에서 web ui로 시험해 볼 수 있습니다.

 

Stable Diffusion은 많은 양의 Train Data와 이미지, 텍스트를 사용했습니다.

 

생성 AI에서 중요한 것

해당 모델들을 통해 멋진 그림을 효과적으로 뽑아 낼 수 있는 요령은 Prompt에 내용을 얼마나 잘 작성하는지에 달려 있습니다.

 

Stable Diffusion에 단순 내용 작성

 

prompt에 단순히 robot 이라고 입력하고 Gernerate버튼으로 로봇에 대한 이미지를 생성해달라고 하면 위 처럼 조금 허접하고 어딘가 엉성한 robot 이미지를 만들어 줍니다. 하지만 prompt를 아래처럼 같이 멋지게 변경해서 다시 만들어 보겠습니다.

 

 

 

Robot Assistant, a sleek and minimalist design with a silver metallic finish, equipped with six spider-like legs that allow it to move in any direction. Its head is a rotating orb with a single unblinking eye that emits a soft blue light. It has two arms that end in three-fingered hands capable of grasping and manipulating objects of varying sizes. The robot's body is covered in a series of interlocking plates that shift and adjust to the robot's movements. It is designed to be quiet and unobtrusive, with a low hum as it moves. / The robot assistant is in a brightly lit laboratory, filled with rows of shelves containing equipment and chemicals. The walls are covered in white tiles, and there is a large workbench in the center of the room. Various tools and instruments are scattered around the bench. / The atmosphere is one of focus and efficiency, with the robot assisting its human counterpart in conducting experiments and analyzing data. There is a sense of excitement and possibility in the air as the two work together to push the boundaries of science. / Photography with a wide-angle lens, capturing the entirety of the laboratory and emphasizing the robot's spider-like legs and unique design. ISO 200, f/8, shutter speed 1/60. --ar 16:9 --v 4

 

 

 

내용을 보면 "로봇은 실버 메탈릭 마감에 6개의 다리가 장착되어 있어서 어느 방향으로든 움직일 수 있습니다. 머리는 회전하는 구형이며, 눈을 깜빡이지 않고 은은한 파란색 빛을 발산합니다." 와 같은 내용이 있고

 

"로봇 어시스턴트는 장비와 화학 물질이 들어 있는 선반이 줄지어 있는 밝은 조명의 실험실에 있습니다. 벽은 흰색 타일로 덮여 있고 방 중앙에는 커다란 작업대가 있습니다" 처럼 배경을 구체적으로 제시해 줬고

 

"광각 렌즈로 촬영한 사진으로 실험실 전체를 포착하고 로봇의 거미 같은 다리와 독특한 디자인을 강조했습니다. ISO 200, f/8, 셔터 스피드 1/60"은 카메라 기법과 같이 어떤 식의 디자인을 원하는지 적어 주었습니다

 

 

Stable Diffusion에 구체적인 내용 작성

 

 

구체적으로 내용을 작성해서 Generate하니 굉장히 리얼리스틱하고 섬세한 로봇 이미지를 생성해주었습니다.

단순히 "robot"이라고 작성했을 때와 비교해보면 놀라울 수준입니다.

요즘 생성 AI를 활용한 Text to Image나 Text to Text 등의 AI모델 서비스들은 쏟아져 나오고 있는데 prompt에 내용을 얼마나 잘 작성 하느냐에 따라 같은 AI모델 서비스라도 결과가 달라지게 될 것 입니다.

반응형

댓글