용어
GPQA
GPQA(Graduate-level Google-Proof Q&A Benchmark)는 인공지능 언어 모델의 고급 추론 능력을 평가하기 위해 설계된 벤치마크
구글에서 개발한 이 테스트는 물리학, 화학, 생물학 분야의 전문가들이 작성한 대학원 수준의 복잡한 문제들로 구성
HumanEval
OpenAI가 2021년 제안한, 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위한 표준 벤치마크 데이터셋
164개 데이터셋으로 Python 코드 일부를 문제로 주어 나머지를 채워넣는 형태로 제공
문제 구성요소:
- Function signature: 함수명과 매개변수를 가지는 함수 정의
- Text description: 요구기능 설명 (docstring)
- Function body: 모델이 코드를 생성하여 채워야하는 빈 공간
- Canonical solution: 올바른 함수 참조 구현
- A set of unit tests: 코드 정확성을 검증하기 위한 일반적인 경우와 Edge case를 모두 포함한 단위 테스트
모델 평가 방법론:
- pass@1: 가장 주요하고 널리 사용되는 평가 지표로, 첫 번째 시도에서 문제를 해결한 비율을 의미
- pass@k: 일반적인 경우에 사용되는 지표로, k개의 시도 중 최소 하나라도 모든 테스트를 통과한 문제의 비율을 의미