용어

GPQA

GPQA(Graduate-level Google-Proof Q&A Benchmark)는 인공지능 언어 모델의 고급 추론 능력을 평가하기 위해 설계된 벤치마크

구글에서 개발한 이 테스트는 물리학, 화학, 생물학 분야의 전문가들이 작성한 대학원 수준의 복잡한 문제들로 구성

HumanEval

OpenAI가 2021년 제안한, 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하기 위한 표준 벤치마크 데이터셋

164개 데이터셋으로 Python 코드 일부를 문제로 주어 나머지를 채워넣는 형태로 제공

문제 구성요소:

모델 평가 방법론: