Original

LLM은 이미 정답을 알고 있다. 가장 중요한 건 필요한 지식을 꺼내 쓸 방법 - Poetiq AI

코방코 2025. 11. 28. 18:02

 

간간히 최신 논문과 최전선 AI 모델을 적절히 섞어서 기술 칼럼(?) 느낌으로 써볼까 합니다.

앞으로 졸업하고도 흐름을 놓치지 않으려면 이런 작업이 중요할 것 같아서 해보려 합니다.

 

이번 글은 기존의 LLM을 잘 활용하는 것만으로도 ARG-AGI-2와 같은 어려운 벤치마크 성능을 끌어올릴 수 있다는 post에 관한 글입니다.

 

Traversing the Frontier of Superintelligence

Poetiq is proud to announce a major milestone in AI reasoning. We have established a new state-of-the-art (SOTA) on the ARC-AGI-1 & 2 benchmarks, significantly advancing both the performance and the efficiency of the current AI systems.

poetiq.ai

 

저는 Poetiq 이 회사를 처음봤는데, 2025년 상반기에 설립된 초창기 스타트업으로, Google/DeepMind 출신 연구자가 공동으로 세운 회사라고 합니다. 현재 팀도 대부분 전 DeepMind/Google 연구자들로 구성되어 있어, Research 기반의 AI 스타트업인 듯 합니다. 회사 목표 자체는 기존 LLM을 이용하여 AGI에 달성해보겠다는 것 같습니다.

LLM에 한계가 존재한다는 얀 르쿤의 비전과 반대되는 이들의 행보를 보는 것이 또 다른 재미겠네요.

 

2025년 11월 20일, poetiq은 ARC-AGI-1,2 벤치마크에 대해서 압도적인 성능을 보여주는 모델을 제시하였습니다.

기존 LLM 모델을 이용하여 이러한 성과를 달성했다는 것이 놀라운데,

이미 LLM은 충분한 능력을 가지고 있고, 이를 reasoning 방식의 간단한 변경만으로 이런 높은 성능을 달성시킬 수 있다는게 놀라웠습니다.

ARC-AGI 벤치마크는 IQ 테스트와 같은 퍼즐을 푸는 벤치마크인데요, 이는 LLM이 단순한 방식으로는 해결하기 어렵고 고도의 reasoning 능력을 통해 결과를 도출해야만 풀립니다.

 

Approach

Poetiq이 사용한 방법은 Meta system 입니다.

다음 두 가지가 key principles입니다.

The prompt is an interface, not the intelligence

Meta system은 반복적인 문제 해결 루프를 실행합니다. 하나의 질문을 던지는게 아니라, LLM을 사용해서 Potential이 있는 solution을 생성하고 이를 피드백하여 분석하고 다시 LLM으로 해결책을 개선합니다. 이러한 Multi-step, self-improving 프로세스를 통해 점진적으로 답을 찾아나갑니다.

Self-Auditing

시스템은 진행 상황을 자율적으로 판단하여,충분한 정보가 있고 도출한 해결책이 만족스러우면 프로세스를 종료하도록 결정합니다. 이러한 모니터링은 불필요한 계산을 피하고 비용을 최소화하는데 기여한다고 합니다.

 

Philosophy

제가 이 글에서 느낀 poetiq의 철학입니다.

딴 얘기부터 하자면, 요즘은 대 LLM 시대에서 이 철학이 굉장히 중요한 것 같습니다. 똑같은 방법을 쓰더라도 어떤 철학을 가지고 그 방법을 썼느냐가 논문의 임팩트를 달리합니다. 방법을 고안하는 사람은 많지만 거기에 인간만이 생각하는 철학을 녹여내는 것은 별개의 contribution 입니다. 듣는 사람, 읽는 사람들로 하여금 영감을 불러올 수 있는, 휴머니티를 느낄 수 있는 철학이 중요한 시대가 아닐까 합니다.

아무튼 Poetiq가 LLM에 대해서 생각하고 있는 철학을 정리하면 다음과 같습니다.

  • LLM은 이미 인류의 지식을 상당 부분 알고 있다.
  • 그러나 이걸 어떻게 꺼내느냐가 문제다. (LLM 성능은 질문 수준에 크게 의존)
  • 복잡한 추론에서는 이러한 지식 추출 과정의 신뢰성이 떨어지고 예측 불가능해진다.
  • 따라서 문제를 해결하기 위해 필요한 정보를 정확하게 찾고, 이 정보를 종합하여 다음 필요한 정보를 판단하는 추론이 필요하다.
  • 우리는 이 프로세스를 자동화하고 최적화한다.

깔끔한 분석입니다.

 

Details

이번에 코드를 뜯어서 어떻게 실행되는 구조인지 살펴봤습니다.

 

GitHub - poetiq-ai/poetiq-arc-agi-solver: This repository allows reproduction of Poetiq's record-breaking submission to the ARC-

This repository allows reproduction of Poetiq's record-breaking submission to the ARC-AGI-1 and ARC-AGI-2 benchmarks. - poetiq-ai/poetiq-arc-agi-solver

github.com

 

일단 들어가기전에 ARC-AGI benchmark 에 대해서 간단한 구조를 설명드리면

벤치마크 내에는 여러 task 가 존재합니다. 그리고 각 task는 train, test가 존재합니다. 정답이 제공되는 train에서 몇 개의 예시를 학습하고 test에서 이를 수행하면 정답으로 평가가 되는 구조입니다.

 

프레임워크는 간단합니다.

  1. train으로 들어온 task를 코드를 작성해서 해결하라고 명령하는 잘 쓰여진 프롬프트가 존재합니다.
  2. 그럼 이를 실행하고 점수 및 피드백을 마찬가지로 프롬프트로 생성합니다.
  3. 이를 정해진 최대 횟수만큼 반복합니다.
  4. 물론 Approach에서 언급된 대로, 모든 train 예제를 맞추는 코드가 생성되면 즉시 중단됩니다.
  5. 가장 정답을 많이 맞추는 best code로 test를 수행합니다.

그 이외에도 number of experts가 존재하여, 병렬로 동일한 과정을 수행하고 test에서도 동시에 문제를 풀어서 가장 공통된 정답을 내는 방식도 존재합니다.

 

meta system이라는 웅장한 철학 뒤에 알고보면 생각보다 정말 간단한(?) Approach입니다. 학습 없이, 프롬프트를 잘 짜서 넣고, 반복적으로 LLM이 judging을 하는 것이죠. 모델을 반복적으로 돌려서 reasoning을 할 때 target한 knowledge를 뽑기 위해 specific한 벤치마크에 대해 specific 프롬프트를 작성해서 구현했다는게 아쉬운 단점이라고 생각합니다.

물론 poetiq에서 제시하는 knowledge를 잘 꺼내는 방식이 중요하다는 철학에는 전적으로 공감합니다.

문제를 푸는데 필요한 target knowledge를 좀 더 general하지만 벤치마크마다 다르게 추출할 수 있는 reasoning 방법이 있다면 더 파급력이 클 듯 합니다.

 

'Original' 카테고리의 다른 글

25년 10월, 근황과 AI에 대한 생각들  (1) 2025.10.03