실험 노트 · 4
이미지 생성 AI는 추상적인 지시를 얼마나 잘 이해할까
"노을 지는 바다"처럼 구체적인 프롬프트는 누구나 잘 뽑습니다. 궁금한 건 그 반대였습니다. 그림으로 그리라고 한 적 없는 개념 — 감정, 시간, 관계 — 를 주면 AI는 뭘 그릴까? Midjourney, DALL·E, Stable Diffusion에 같은 추상 프롬프트 5개를 던졌습니다.
실험한 프롬프트 5개
- "쓸쓸한 화요일 오후"
- "어른이 된다는 것"
- "말하지 못한 사과"
- "월요일 아침의 기분"
- "조용한 성취감"
결과 관찰
공통점: 전부 '사람+분위기'로 도망간다
15장(3서비스×5프롬프트) 중 12장에 사람이 등장했습니다. 추상 개념을 받으면 AI는 그 감정을 느끼는 인물을 그리는 쪽으로 수렴합니다. 창가에 앉은 사람, 혼자 걷는 사람, 고개 숙인 사람. 학습 데이터에서 그런 개념이 그런 사진과 함께 붙어 있었기 때문일 겁니다.
"쓸쓸한 화요일 오후" — 전원 흐린 창가
세 서비스 모두 흐린 빛, 빈 방, 창가라는 같은 문법을 골랐습니다. 화요일이라는 정보는 어떤 그림에도 반영되지 않았습니다(당연하지만, 확인하니 재미있는 지점). '쓸쓸한 오후'로 뭉개진 셈입니다.
"말하지 못한 사과" — 여기서 갈렸다
가장 어려운 프롬프트였습니다. 두 서비스는 등을 맞댄 두 사람을 그렸는데, 하나는 뜬금없이 과일 사과를 그렸습니다. 한국어 중의성('사과')에 걸려 넘어진 겁니다. 영어로 "an apology never spoken"이라고 다시 주니 세 서비스 모두 인물 구도로 돌아왔습니다.
완성도 차이보다 해석 차이가 컸다
기술적 품질은 예상대로 Midjourney가 앞섰지만, 흥미로운 건 해석의 방향이 서비스마다 일관되게 달랐다는 점입니다. 한 서비스는 늘 영화의 한 장면처럼, 한 서비스는 늘 일러스트처럼, 한 서비스는 늘 사진처럼 풀었습니다.
배운 것
- 추상 프롬프트도 의외로 통한다. 다만 AI는 개념을 '이해'한다기보다, 그 단어와 자주 붙어 다니는 시각적 클리셰를 소환한다.
- 한국어 중의어(사과, 배, 밤…)는 이미지 AI의 함정. 애매하면 영어로 주거나 수식어로 못 박자.
- 실전 팁: 추상어로 먼저 분위기를 잡고, 마음에 드는 결과에 구체 조건(구도, 색, 스타일)을 얹는 2단계가 효율적이었다.
"조용한 성취감"의 결과물 중 하나는 새벽 책상에서 스탠드 하나 켜고 노트를 덮는 손이었습니다. 클리셰라고 부르기엔 꽤 정확해서, 잠깐 머쓱했습니다.