실험 노트 · 10
AI에게 스스로 평가 기준을 만들게 하면 생기는 일
이번 실험은 좀 메타적입니다. AI에게 과제를 시키기 전에 "좋은 결과물의 채점 기준을 먼저 만들어봐"라고 하고, 결과물이 나오면 "네가 만든 기준으로 네 답을 채점해봐"라고 시켰습니다. 자기가 만든 시험지로 자기를 채점하는 셈인데, 과연 후하게 줄까요?
실험 방법
- 과제: "신입사원 온보딩 가이드 문서 작성" (분량 있는 실무형 과제)
- 1단계: 채점 기준(루브릭) 5개 항목을 먼저 만들게 함
- 2단계: 과제 수행
- 3단계: 자기 채점 + 항목별 이유 요청
- 비교군: 기준 없이 그냥 과제만 시킨 버전, 그리고 "다른 AI가 쓴 글"이라고 속이고 채점시킨 버전
발견 1 — 기준을 먼저 만들게 하면 결과물 자체가 좋아진다
예상 못 한 수확이었습니다. 채점 기준을 먼저 만든 버전의 결과물이, 기준 없이 만든 비교군보다 눈에 띄게 나았습니다. AI가 만든 기준에 "첫 주 체크리스트 포함 여부"라는 항목이 있었는데, 실제 결과물에 그 체크리스트가 들어왔습니다. 기준을 만드는 행위 자체가 설계도 역할을 한 겁니다.
발견 2 — 자기 채점은 후하다, 그런데 정직한 구석이 있다
자기 채점 점수는 25점 만점에 23점. 예상대로 후했습니다. 그런데 흥미로운 건 감점한 2점의 위치였습니다. "실제 회사 고유 정보가 없어 일반론에 그침"이라는, 제가 보기에도 가장 정확한 약점을 스스로 짚었습니다. 총점은 못 믿어도 감점 사유는 믿을 만했습니다.
발견 3 — "남의 글"이라고 속이면 깐깐해진다
같은 결과물을 새 대화창에서 "다른 AI가 쓴 글인데 채점해줘"라고 주니 25점 중 19점이 나왔습니다. 같은 글, 같은 기준인데 4점 차이. 지적 개수도 2개에서 5개로 늘었습니다. 자기 답변이라는 맥락이 채점을 무디게 만든다는 뜻입니다.
이걸 어떻게 써먹을까
- 과제 전에 기준 만들기를 시키자 — 발견 1의 효과만으로도 이 실험은 본전을 뽑았습니다. "시작 전에, 좋은 결과물의 조건 5개를 먼저 정리해봐."
- 점수는 버리고 감점 사유만 취하자 — "네 답의 가장 큰 약점 2개를 스스로 찾아봐"가 실용적인 형태.
- 진짜 검토가 필요하면 새 대화창에서 '남의 글'로 주자 — 셀프 채점의 관대함을 우회하는 가장 쉬운 방법이었습니다.
배운 것
AI의 자기 평가는 거울이라기보다 조명에 가깝습니다. 점수(전체 판정)는 왜곡되지만, 비추는 곳(구체적 약점)은 꽤 정확합니다. 판정은 사람이 하되, 어디를 비출지 조명을 옮기는 도구로 쓰면 실무에서 충분히 값을 합니다.
실험 노트 시리즈 10편이 끝났습니다. 다음 시즌에는 여러분이 궁금해할 실험 주제를 받아서 진행해볼 생각입니다. 해보고 싶은 비교가 있다면 알려주세요.