Covenant



AI를 잘 활용하여 놀라운 성능에 탑승하라는 의미로 나노바나나로 생성하였는데 예쁘게 생성이 안되는군요.



AI 잘 쓰고 있나요?


여러분은 AI를 잘 활용하고 계신가요?


연말 성과평가 시즌이 다가왔습니다. 지난 한 해를 돌아보니, 저는 업무 외적으로도 AI를 공부하고 실제 업무에 적용해 보려 부단히 시도했던 것 같습니다.


그러다 문득, 회사라는 우물(물론 무진장 큰 우물이긴 하지만..)을 벗어났을 때, 과연 저의 객관적인 AI 역량은 어느 정도일까? 하는 의문이 들었습니다.


이러한 의문을 더욱 증폭시킨 것은 최근 빅테크 기업들의 뉴스였습니다.



메타, 2026년부터 직원 평가에 AI 활용 역량 반영

메타(Meta)는 AI를 통한 개인 생산성 향상, 팀 성과 증대를 위한 AI 도구 개발, 그리고 회사 전체의 AI 전환 기여도를 직원 성과 평가에 반영하겠다고 발표했습니다.


비단 메타뿐만 아니라 여러 글로벌 기업에서 AI 역량을 새로운 평가 기준으로 삼으려는 움직임이 일고 있으며, 국내 기업들 또한 이러한 평가 방식 도입을 검토 중이라고 합니다.


변화하는 흐름 속에서 과연 AI 역량을 어떻게 정의하고 측정해야 할까? 고민하던 차에, 카카오브레인, 브라이언임팩트 주관으로 총상금 1억 5천만 원을 걸고 AI 시대의 문제 해결자를 발굴한다는 AI TOP 100 대회를 알게 되어 참가하였습니다.



저는 지난 10월 18일(토) 온라인 예선에 응시하였습니다. 이 중 예선전 상위 100명이 겨루는 본선은 11월 22일(토) 카카오 AI 캠퍼스에서 진행되었습니다.




카카오와 시험


카카오는 참 흥미로운 행보를 보여주는 기업입니다.


2017년, 카카오는 국내 IT 업계 최초로 블라인드 공채를 도입했습니다. 지금은 개발자 채용의 표준처럼 자리 잡은 알고리즘 코딩 테스트를 전격 도입하며 채용 시장에 새로운 바람을 불러왔습니다.


과거의 행보처럼, "AI 시대의 역량은 과연 어떻게 정의하고 평가할까?" 라는 주제에 대해서 카카오가 이번에는 어떤 참신한 문제로 우리의 AI 활용 능력을 테스트할지 무척 궁금하였습니다.




예선 문제: 고대 유적의 비밀 - 이상한 코드 석판


문제의 핵심은 이미지 인식과 코드 해석이었습니다. 석판 이미지에 적힌 프로그래밍 코드를 OCR로 인식하고, 해당 코드에 특정 입력값을 넣었을 때 산출되는 결과값을 맞혀야 하는 방식입니다.


대회 당시, 저는 Gemini 2.5에게 별도의 전처리 없이 지문과 이미지를 그대로 입력했습니다. 하지만 종료 시간이 임박해 오면서 혹시나 하는 마음에 GPT-5에게도 동일한 문제를 던져보았는데, 당혹스럽게도 Gemini와 서로 다른 답을 내놓았습니다.


복잡한 연산 특성상 사람이 직접 검산하는 것은 불가능에 가까웠습니다. 결국 고민 끝에 처음 사용한 Gemini의 답안을 선택해 제출했습니다. 결과는 70점 만점에 35점. 절반만 맞힌 셈입니다.


대회 이후 문제가 공개된 뒤, Claude 4.5 Sonnet을 통해 다시 풀어보았지만 결과는 동일하게 35점이었습니다. 아마도 모든 모델이 문제의 3번 문항(특정 복잡한 패턴이나 함정)을 제대로 해석하지 못한 것으로 보입니다.




시사점


이번 대회는 저에게 여러모로 많은 생각할 거리를 던져주었습니다. 단순히 문제를 푸는 것을 넘어, AI 활용 방식에 대한 근본적인 물음을 갖게 되었습니다.


1. AI의 대화형 채팅에 갇히면 AI의 성능을 100% 끌어낼 수 없습니다.


대회 문제들을 단순히 대화형 LLM에 복사해 얻은 답을 입력했다면, 아마 정답률은 20%에도 미치지 못했을 것입니다.


하지만 랭킹 상위권에는 만점에 가까운 점수를 기록한 참가자들이 존재합니다. 이는 누군가는 AI를 극한으로 활용하여 잠재력을 밑바닥까지 끌어올리고 있다는 증거입니다.


현재 회사에서 특정 업무를 자동화하는 AI 워크플로우를 구축하고 있는데, 기대만큼 결과가 나오지 않아 고민이 많았습니다. 막연히 "모델이 더 발전하면 해결되겠지"라고 생각했지만, 이번 대회를 통해 모델의 성능 탓이 아니라어떻게 파이프라인을 설계하느냐 따라 결과물이 완전히 달라질 수 있다는 경험을 하였습니다.




2. AI에 질의하기 전 AI에게 적합한 데이터를 제공해야합니다.


대회 중 OCR(광학 문자 인식) 관련 문제가 많아 아쉽다는 평도 있었지만, 저는 오히려 AI에게 최적화된 데이터를 제공하는 전처리(Pre-processing) 역량이 얼마나 중요한지 보여주는 좋은 예시였다고 생각합니다.


현재 회사에서 자바와 스프링 부트 버전 업그레이드 작업에 AI 도입을 검토 중입니다. 흔히 버전 업그레이드는 AI가 잘한다고들 하지만, 이는 반은 맞고 반은 틀린 이야기입니다.


단순히 "이 프로젝트를 최신 버전으로 올려줘"라고 질의하는 것은 최악의 접근법입니다. 요리사에게 손님의 취향을 말하지 않고 그냥 맛있는 음식을 만들어 내라고만 말하는 방식입니다.


마이그레이션 가이드 문서를 첨부한다고 해서 완벽하게 코드를 수정해주지도 않습니다. 성공적인 결과를 위해서는 여러 도구와 AI의 작업이 적절히 결합하여, AI가 이해하고 처리하기 가장 좋은 형태의 데이터를 먼저 만들고 검증하는 과정이 필수적입니다.




3. 지금 AI는 몇점짜리 답을 주는지 파악이 필요합니다.


'The Age of AI: 영상 팩트 체크' 문제는 유튜브 영상을 기반으로 답변하는 과제였습니다. 만약 NotebookLM에 영상 5편을 통째로 넣고 질문만 던졌다면, 정답률은 10% 미만이었을 테고 "이 도구는 쓸모없다"는 결론을 내렸을지 모릅니다.


NotebookLM은 영상의 근거 출처를 성실하게 달아주며 그럴듯한 답변을 내놓습니다. 우리는 종종 그 형식이 주는 신뢰감에 속아, 정보가 부정확하더라도 무비판적으로 수용하곤 합니다.


지금 AI가 주는 답변의 신뢰도가 어느 수준인지 파악할 수 있어야 하며, 결과가 만족스럽지 않다면 프롬프트를 개선하든 다른 도구를 조합하든 해결책을 찾아내는 능력이 곧 AI의 활용하는 역량입니다.




마치며


만약 지금까지 AI를 단순히 글 다듬기 도구나 코드 생성 도구로만 사용하며 AI를 업무에 어느정도 녹였다고 생각하셨다면, 이 대회는 아마 꽤 큰 충격으로 다가왔을 것입니다.


AI TOP 100 출제 위원의 말을 마지막으로 이 글을 마칩니다. (참고. [AI_TOP_100] 문제 출제 후기 – 기술이 아닌, 사람을 묻다.)


“AI는 위대하지만, 그것을 더 위대하게 만드는 것은 여전히 (아직은) 사람의 몫이다.”