중국과기대 연구진, 딥리서치 에이전트의 성능 평가를 위한 벤치마크 개발
■
중국과기대 연구진이 딥리서치 에이전트의 성능을 체계적으로 비교하기 위해 결과물의 품질 및 인용 정확도와 평균 유효 인용 횟수를 기준으로 평가하는 ‘딥리서치 벤치’를 공개
■
딥리서치 벤치로 주요 딥리서치 에이전트를 평가한 결과, 제미나이-2.5-프로 딥리서치가 보고서 품질 및 작업당 평균 유효 횟수에서 가장 높은 점수를 획득
● 딥리서치 벤치 평가 결과, 제미나이-2.5-프로가 최고 성능을 기록
■
중국과기대 연구진이 2025년 6월 13일 주요 AI 플랫폼이 제공하는 딥리서치 에이전트의 성능을 체계적으로 평가할 수 있는 ‘딥리서치 벤치(DeepResearch Bench)’를 공개
∙
연구진은 최근 가장 널리 사용되는 LLM 기반 에이전트로 부상한 딥리서치 에이전트(DRA)의 성능을 체계적으로 평가하기 위해 22개 영역*의 전문가와 협력해 100개의 박사급 연구과제로 구성된 벤치마크를 개발
* 과학기술, 금융, 소프트웨어 개발, 교육, 의료, 문학, 역사, 하드웨어, 산업, 예술 디자인, 게임, 형사법, 엔터테인먼트, 스포츠 등
∙
DRA 기능의 다양한 측면을 평가하기 위해 생성된 연구보고서의 품질에 대한 평가와 함께, 인용 정확도와 작업당 평균 유효 인용 횟수를 평가하는 2개의 평가 프레임워크를 설계
■
딥리서치 벤치로 현재 출시된 딥리서치 에이전트 4종(그록, 퍼플렉시티, 제미나이, 오픈AI)을 평가한 결과, 제미나이-2.5-프로가 최고 점수를 달성
∙
보고서 품질(포괄성, 깊이, 지시이행, 가독성)을 평가하는 RACE 프레임워크 기준 제미나이-2.5-프로 딥리서치는 총점 48.88점으로 오픈AI(46.98점), 퍼플렉시티(42.25점), 그록(40.24점)을 능가
∙
인용 정확도와 작업당 평균 유효 인용 횟수를 평가하는 FACT 프레임워크에서는 인용 정확도는 퍼플렉시티가 90.24점, 작업당 평균 유효 인용 횟수에서는 제미나이-2.5-프로가 111.21점으로 최고점을 달성*
* 인용 정확도 기준: 그록(83.59점), 제미나이-2.5-프로(81.44점), 오픈AI(77.96점)
평균 유효 인용 횟수 기준: 그록(8.15점), 퍼플렉시티(31.26점), 오픈AI(40.79점)
<딥리서치 에이전트 4종에 대한 딥리서치 벤치 평가 결과 비교>