첫 프로젝트 회고: AI 바다거북 스프, 반쪽의 성공과 남은 과제

요즘 '워들(Wordle)'이나 '꼬멘틀(꼬멘틀)' 같은 게임을 즐겨 하시는 분들이 많죠? 저희 역시 그 매력에 푹 빠져 있었습니다. 복잡한 설치나 학습 없이, 하루에 단 한 번 주어지는 문제를 풀며 얻는 가벼운 성취감. 다음 날이 기다려지는 그 감각이 정말 좋았습니다.

자연스럽게 이런 생각을 하게 됐습니다. 이 재밌는 하루 한 번 초기화 모델을, 우리가 좋아하는 다른 장르에 접목해볼 순 없을까?

저희의 눈에 들어온 것은 바로 '바다거북 스프'로 유명한 고전 추리 게임이었습니다. 단서를 조합해 숨겨진 진실을 추리해나가는 이 게임의 포맷은, 하루에 한 문제씩 집중해서 풀기에 안성맞춤이라고 생각했죠.

하지만 매일 새롭고 질 좋은 추리 문제를 사람이 직접 만드는 건 현실적으로 불가능에 가깝습니다. 바로 이 지점에서 AI 라는 마지막 퍼즐 조각이 떠올랐습니다. AI에게 미스터리한 상황 설정을 맡긴다면, 매일 새로운 퀴즈를 사용자에게 무한정 공급할 수 있겠다는 확신이 들었습니다.

그렇게 저희의 첫 프로젝트 아이디어, 워들과 꼬멘틀의 성공 공식 + 바다거북 스프 추리 게임 + AI 기술 을 조합한 오락용 웹 게임 개발이 시작되었습니다. 그리고 지금, 저희는 그 첫 번째 여정을 마무리하며 얻은 것과 배운 것들을 솔직하게 기록하고자 합니다.

우리가 한 일

저희의 목표는 'AI가 출제하고 정답까지 판정하는 추리 게임'을 만드는 것이었습니다. 이를 위해 다음과 같은 두 가지 핵심 기능을 개발했습니다.

기능 1: AI 기반 문제 생성기 개발 LLM(거대 언어 모델)을 활용해 '바다거북 스프' 스타일의 미스터리 시나리오를 자동으로 생성하는 시스템을 구축했습니다.
기능 2: AI 정답 판정 시스템 개발 사용자가 제출한 텍스트 답변을 AI가 분석하여, 미리 생성된 정답 스토리와 비교 후 '정답', '오답', '비슷함'으로 분류하는 판정 로직을 구현했습니다.

마주한 결과

개발 및 테스트 결과, 저희는 '성공'과 '실패'가 명확하게 갈리는 반쪽짜리 결과물을 마주했습니다.

성공: 사용자 답변 판단은 가능했다 저희가 개발한 AI 정답 판정 시스템은 예상보다 성공적으로 작동했습니다. 정교한 프롬프트 설계를 통해, AI는 사용자가 제출한 다양한 문장의 답변 속에서 핵심 키워드와 맥락을 파악하여 '정답', '오답', '비슷함'으로 분류해내는 데 성공했습니다. 기술적으로 'AI가 주관적인 답변을 분류하는' 핵심 기능 구현은 성공적인 결과였습니다.
실패: 모두가 공감하는 문제 생성의 한계 문제는 성공적으로 구현된 '판정' 기능이 무색하게도, 그 근간이 되는 '문제' 자체의 품질에 있었습니다. AI가 생성한 문제들은 다음과 같은 명백한 한계를 보였습니다.
1. 공감대 부족: 인간의 보편적인 상식, 문화, 감정을 이해하지 못해, 문제의 설정 자체가 억지스럽거나 기괴한 경우가 많았습니다.
2. 논리적 허점: 이야기의 전후 관계에 논리적 오류가 포함되어, 사용자가 추리 자체를 하기 힘든 '나쁜 문제'가 대다수였습니다.
치명적인 결론: 수동 검수라는 병목 현상 결국, AI가 만든 문제를 게임에 사용하기 위해서는 모든 문제를 사람이 일일이 읽고 수정하거나 폐기하는 수동 작업이 필수적이었습니다. 훌륭한 '판정' 시스템을 만들어 놓고도, 그 시스템이 판단할 '문제'를 자동으로 공급할 수 없는 치명적인 병목 현상이 발생한 것입니다. 이는 저희가 원했던 '지속 가능한 자동화 시스템'이 아니었습니다.

프로젝트 마무리 및 교훈

이러한 결과에 직면하여, 저희는 AI 문제 생성이라는 핵심 기능의 실패로 인해 프로젝트의 확장이 불가능하다고 판단, 현 버전의 개발을 중단하기로 결정했습니다.

이번 프로젝트를 통해 얻은 가장 큰 교훈은 다음과 같습니다.

교훈 1: LLM은 만능 해결사가 아니다. 개발 초기, 저희는 LLM을 무엇이든 가능한 마법 상자처럼 여겼던 것 같습니다. 하지만 인간의 보편적 공감대나 창의성이 필요한 '좋은 문제 생성' 영역에서 LLM은 명백한 한계를 보였습니다. 이번 경험을 통해 AI는 강력한 '도구'이지, 우리의 모든 기획을 대체하는 '만능 해결사'가 아니라는 점을 명확히 깨달았습니다.
교훈 2: 토큰은 곧 비용이다. AI를 호출할 때마다 소모되는 토큰은 고스란히 서비스의 운영 비용이 됩니다. 저희의 구조(문제 생성 1회, 정답 판정 1회)는 사용자 요청마다 최소 2회의 AI 호출을 필요로 했습니다. 이는 사용자가 늘어날수록 비용 부담이 기하급수적으로 커지는 구조입니다. 수익 분기점을 넘기기 위해서는, 기획 단계부터 토큰 사용량을 최소화하는 토큰 최적화가 생존에 얼마나 중요한지 뼈저리게 느꼈습니다.
교훈 3: 시스템은 가장 약한 고리에 의해 좌우된다. 결론적으로, 아무리 뛰어난 '판정' 기능을 만들어도 입력되는 '문제'의 질이 낮으면 전체 시스템은 의미가 없었습니다. 프로젝트의 성공은 가장 화려한 기능이 아니라, 가장 취약한 기능에 의해 결정된다는 GIGO(Garbage In, Garbage Out) 원칙을 다시 한번 확인했습니다.

첫 프로젝트는 저희에게 값비싼 데이터와 교훈을 남겼습니다.