어떻게 나아갈 것인가.

Function signature: 함수명과 매개변수를 가지는 함수 정의
Text description: 요구기능 설명 (docstring)
Function body: 모델이 코드를 생성하여 채워야하는 빈 공간
Canonical solution: 올바른 함수 참조 구현
A set of unit tests: 코드 정확성을 검증하기 위한 일반적인 경우와 Edge case를 모두 포함한 단위 테스트

용어

GPQA(Graduate-level Google-Proof Q&A Benchmark)는 인공지능 언어 모델의 고급 추론 능력을 평가하기 위해 설계된 벤치마크

구글에서 개발한 이 테스트는 물리학, 화학, 생물학 분야의 전문가들이 작성한 대학원 수준의 복잡한 문제들로 구성

OpenAI가 2021년 제안한, 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위한 표준 벤치마크 데이터셋

164개 데이터셋으로 Python 코드 일부를 문제로 주어 나머지를 채워넣는 형태로 제공

문제 구성요소:

모델 평가 방법론: