실험 노트 · 4

이미지 생성 AI는 추상적인 지시를 얼마나 잘 이해할까

2026. 6. 12. · AI 노트랩

같은 추상 프롬프트, 서비스마다 다른 해석 — 그러나 12/15가 '사람+분위기'로 수렴
같은 추상 프롬프트, 서비스마다 다른 해석 — 그러나 12/15가 '사람+분위기'로 수렴

"노을 지는 바다"처럼 구체적인 프롬프트는 누구나 잘 뽑습니다. 궁금한 건 그 반대였습니다. 그림으로 그리라고 한 적 없는 개념 — 감정, 시간, 관계 — 를 주면 AI는 뭘 그릴까? Midjourney, DALL·E, Stable Diffusion에 같은 추상 프롬프트 5개를 던졌습니다.

실험한 프롬프트 5개

  1. "쓸쓸한 화요일 오후"
  2. "어른이 된다는 것"
  3. "말하지 못한 사과"
  4. "월요일 아침의 기분"
  5. "조용한 성취감"

결과 관찰

공통점: 전부 '사람+분위기'로 도망간다

15장(3서비스×5프롬프트) 중 12장에 사람이 등장했습니다. 추상 개념을 받으면 AI는 그 감정을 느끼는 인물을 그리는 쪽으로 수렴합니다. 창가에 앉은 사람, 혼자 걷는 사람, 고개 숙인 사람. 학습 데이터에서 그런 개념이 그런 사진과 함께 붙어 있었기 때문일 겁니다.

"쓸쓸한 화요일 오후" — 전원 흐린 창가

세 서비스 모두 흐린 빛, 빈 방, 창가라는 같은 문법을 골랐습니다. 화요일이라는 정보는 어떤 그림에도 반영되지 않았습니다(당연하지만, 확인하니 재미있는 지점). '쓸쓸한 오후'로 뭉개진 셈입니다.

"말하지 못한 사과" — 여기서 갈렸다

가장 어려운 프롬프트였습니다. 두 서비스는 등을 맞댄 두 사람을 그렸는데, 하나는 뜬금없이 과일 사과를 그렸습니다. 한국어 중의성('사과')에 걸려 넘어진 겁니다. 영어로 "an apology never spoken"이라고 다시 주니 세 서비스 모두 인물 구도로 돌아왔습니다.

완성도 차이보다 해석 차이가 컸다

기술적 품질은 예상대로 Midjourney가 앞섰지만, 흥미로운 건 해석의 방향이 서비스마다 일관되게 달랐다는 점입니다. 한 서비스는 늘 영화의 한 장면처럼, 한 서비스는 늘 일러스트처럼, 한 서비스는 늘 사진처럼 풀었습니다.

배운 것

"조용한 성취감"의 결과물 중 하나는 새벽 책상에서 스탠드 하나 켜고 노트를 덮는 손이었습니다. 클리셰라고 부르기엔 꽤 정확해서, 잠깐 머쓱했습니다.
← 이전 실험 · 블로그 제목 30개의 패턴