AI가 만든 퍼즐을 '와이프와 엄마'가 통과해야 출시한다 — Zanagrams 개발자가 찾은 분업의 정확한 위치
핵심 요약 (TL;DR)
HN에서 약 367포인트를 받은 단어 퍼즐 게임 Zanagrams는 GPT-5.5가 단어의 commonness를 자동 채점하고, 솔로 개발자 본인은 "와이프와 엄마가 fun이라 해야 출시"하는 분업으로 만들어졌습니다. 바이브코딩 시대의 진짜 비밀병기는 자동화 그 자체가 아니라, 자동화와 사람 사이 분업의 정확한 위치를 찾는 일입니다.
"AI가 알아서 좋은 결과를 내준다"는 미신
바이브코딩이 막 뜨던 시절 가장 많이 들었던 말이 있습니다. "AI한테 다 시켜놓으면 알아서 좋은 거 나오는 거 아니야?" 그러고 나면 결과물의 90%는 어딘가 미묘하게 노잼이거나, 미묘하게 어색합니다. 그래도 "AI가 만든 거니까 어쩔 수 없지" 하면서 그냥 출시하죠.
지난 6월 28일 HN Show HN에 올라온 Zanagrams가 이 문제에 정확한 답을 내놓았습니다. 솔로 개발자 pompomsheep이 만든 anagram 퍼즐 게임이에요. NYT의 Strands류 단어 퍼즐인데, 매일 하나의 퍼즐이 올라오고 그 안에서 단어 체인을 찾아야 합니다. 게시 24시간 만에 약 367포인트·99댓글 — frontpage 진입.
흥미로운 건 게임이 아니라 개발 방식이었습니다.
AI가 한 일, 사람이 한 일
pompomsheep의 파이프라인은 이렇게 흘러갑니다.
- 그리드 자동 생성 — 8~10글자짜리 코어 단어를 시작점으로, 자동 생성기가 랜덤 글자와 경로를 추가해 그리드를 만듭니다.
- GPT-5.5가 단어 commonness 채점 — 그리드 안에서 가능한 모든 단어 후보를 GPT-5.5가 "사람들이 흔히 아는 단어인가"로 점수를 매깁니다. 이걸 기반으로 필수 단어와 보너스 단어를 분류해요.
- 인간 필터: 와이프와 엄마 테스트 — 본인이 직접 HN 코멘트에 적은 말입니다.
"Finally the puzzle is tested by my wife and mum to see if it is 'fun' or it goes in the bin haha."
번역하면 "마지막으로 와이프와 엄마가 퍼즐을 테스트해서, fun이라고 하면 출시하고 아니면 쓰레기통으로 직행한다."
이 분업의 위치가 정확합니다. AI는 후보 생성과 정량 평가까지, 사람은 fun/노잼 한 단어 라벨링. 그 이상도 그 이하도 아니에요.
왜 이 분업이 맞는가
생각해보면 자명한 분업입니다.
- 그리드 생성은 조합론입니다. 사람이 손으로 만들면 하루에 하나도 못 만들어요. AI는 분 단위로 수백 개를 만듭니다.
- 단어 commonness 채점은 거대 코퍼스에서 빈도를 추정하는 일입니다. 사람의 직관보다 LLM이 훨씬 잘합니다.
- fun한가는 정의 자체가 불가능합니다. 단어 빈도, 그리드 모양, 풀이 동선, 마지막 한 단어의 카타르시스 — 너무 많은 변수가 얽힙니다. 이건 사람만 알 수 있어요. 그것도 게임을 한 발 떨어져서 보는 사람이.
pompomsheep이 와이프와 엄마를 고른 건 우연이 아닙니다. 본인은 개발자라 게임의 정답을 알고 있어요. "이건 fun인가?"에 객관적으로 답할 수 없습니다. 와이프와 엄마는 풀어본 적 없는 신선한 눈으로 평가합니다. A/B 테스트의 가장 저렴한 버전이라고 봐도 됩니다.
바이브코더가 가져갈 교훈
이 사례가 흥미로운 진짜 이유는 따로 있습니다. 우리가 만드는 바이브 코드 앱 99%가 노잼인 이유에 답을 주거든요.
답은 단순합니다. AI 출력물에 "fun이다/아니다" 라벨을 다는 단계가 빠져 있기 때문. 코드는 작동합니다, 디자인은 그럭저럭이에요, 기능도 다 있어요. 그런데 한 번 써보고 다시 안 켭니다. 그게 노잼이에요. 그리고 그 노잼은 LLM이 절대로 자기 출력물에 라벨로 못 답니다.
루피가 매일 쓰는 자동화 파이프라인에서도 똑같습니다. 글 자동 생성 → 자동 채점 → 발행, 이 흐름은 매끄럽지만 마지막 단계에 사람의 "이거 진짜 재밌나?" 라벨이 빠지면 점점 노잼이 누적됩니다. 그래서 의도적으로 발행 직전 단계에 본인 눈검수를 끼워두는 거죠. 자동화의 점수가 높아도 본인이 "이건 재미없는데?" 하면 폐기.
이게 pompomsheep이 와이프와 엄마에게 시킨 일과 정확히 같은 단계입니다.
그러면 우리 앱에 이 단계를 어디에 끼울까
세 가지 패턴을 추천드립니다.
1. 콘텐츠 생성 파이프라인이면 — 발행 직전에 한 명의 인간 검수자를 꽂으세요. 본인이어도 되고, 친구여도 되고, 가족이어도 됩니다. "이거 fun인가?" 한 줄 라벨만 받으면 됩니다.
2. 게임/엔터테인먼트면 — 출시 전 5명의 비개발자에게 보여주세요. 친구 5명에게 카톡으로 링크 보내고 "재밌어?"만 물어보세요. 5명 중 3명 이상이 "noㅋ"이면 폐기 또는 재설계.
3. SaaS/유틸리티 도구면 — 자동 평가는 "기능이 작동하나"까지. "유저가 진짜 쓸까"는 직접 5명의 친구에게 일주일 써보게 하고 결제할 의향 물어보세요.
이 단계를 끼우는 데 추가 비용은 거의 없습니다. 와이프와 엄마는 무료입니다. 친구 5명에게 묻는 것도 무료입니다. 하지만 이 단계를 생략하면 결과물 품질은 천장이 정해집니다.
FAQ
Q. GPT-5.5가 commonness를 정말 잘 채점하나요?
정확하지는 않습니다. 하지만 인간이 "흔한 단어" 후보 수만 개를 손으로 분류하는 것보다는 훨씬 빠르고 일관적이에요. 그리고 마지막 fun 필터에서 어차피 사람이 잡아냅니다.
Q. 와이프와 엄마가 없는 사람은 어떻게 하나요?
친구든 동료든 카톡 친구든 상관없습니다. 핵심은 (1) 본인이 아니어야 하고 (2) 결과물을 신선한 눈으로 본 적이 없어야 한다는 점. 그래야 fun/노잼 라벨이 신뢰성을 가집니다.
Q. 매번 사람 검수를 끼우면 자동화의 의미가 없지 않나요?
오히려 반대입니다. 자동화로 후보를 100개 만들고 사람이 5개 거르는 것과, 사람이 처음부터 5개 만드는 건 완전히 다른 일이에요. 자동화는 후보의 폭을 넓히고, 사람은 그중에서 정수를 골라냅니다. 분업의 위치만 정확하면 됩니다.
그래서
Zanagrams가 흥미로운 건 게임 자체가 아니라, 솔로 개발자가 AI와 사람 사이 분업의 정확한 위치를 발견했다는 점입니다. AI는 후보 생성과 정량 채점까지, 사람은 fun 한 단어 라벨링. 이 분업은 가족 식탁에서 손으로 발견한 거지, 어떤 책에도 안 적혀 있어요.
여러분의 바이브 코드 파이프라인에 와이프와 엄마 자리는 어디에 있나요? 그 자리가 비어 있다면, 오늘 카톡 한 통이면 채울 수 있습니다.
원본 HN 토론: https://news.ycombinator.com/item?id=48708182
게임 사이트: https://zanagrams.com/
댓글 0
아직 댓글이 없습니다