즈푸 AI, 추론과 에이전트 성능 강화한 ‘GLM-4.5’ 공개
■
즈푸 AI가 하나의 모델로 추론과 코딩, 에이전트 기능을 모두 수행할 수 있도록 설계된 전문가 혼합(MOE) 구조의 플래그십 AI 모델 ‘GLM-4.5’와
‘GLM-4.5-Air’를 오픈소스로 공개
■
GLM-4.5는 에이전트, 추론, 코딩을 포함하는 12개 벤치마크 종합 평가에서 여타 오픈소스 모델을 능가했으며, 에이전트 관련 벤치마크 평가에서는 오픈AI o3에
이어 2위를 차지
즈푸 AI의 GLM-4.5, 추론과 코딩, 에이전트 기능을 통합적으로 지원■
중국 AI 기업 즈푸 AI(Zhipu AI)가 추론 기능을 갖춘 플래그십 AI 모델 ‘GLM-4.5’와 ‘GLM-4.5-Air’를 허깅페이스(Hugging Face)와 모델 스코프(ModelScope)에서 오픈
소스로 공개
∙
GLM-4.5는 총 3,550억 개의 매개변수 중 320억 개가 활성화되고, 경량화 모델 GLM-4.5-Air는 총 1,060억 개의 매개변수 중 120억 개가 활성화되는 전문가혼합(MoE)
구조로 설계
∙
두 모델 모두 하이브리드 추론 모델로, 복잡한 추론과 도구 사용을 위한 ‘사고 모드’와 즉각적 응답을 위한 ‘非사고 모드’를 제공해 사용자가 필요에 따라 선택할 수 있으며, GLM-4.5는
복잡한 웹페이지나 인터랙티브 미니 게임 제작과 같은 풀스택 개발 기능을 지원하고
파워포인트 슬라이드도 생성 가능
■
즈푸 AI는 GLM-4.5 개발 시 빠르게 늘어나는 AI 에이전트 애플리케이션의 복잡한 요구사항에 대응해 추론과 코딩, 에이전트 기능을 단일 모델에 통합하도록 설계했다고 강조
∙
에이전트, 추론, 코딩을 포함하는 12개 벤치마크*로 주요 AI 모델과 비교한 성능 평가 결과, 전체적으로 GLM-4.5는 3위, GLM-4.5-Air는 6위를 기록
* MMLU-Pro, AIME 24, MATH-500, SciCode, GPQA, HLE, LCB(2407-2501), SWE-Bench Verified,
Terminal-Bench, TAU-Bench, BFCL V3, BrowseComp
∙
벤치마크 종합 점수에서 GLM-4.5는 63.2점으로 o3(65.0점)와 그록 4(63.6점)보다 낮았으나 오픈소스 모델 중 최고 점수를 기록했고, 에이전트 관련 벤치마크*에서는
58.1점으로 o3(61.1점)에 이어 2위를 차지
* TAU-Bench, BFCL v3 (Full), BrowseComp
<12개 벤치마크 기준 LLM 성능 종합 평가 비교>
∙
GLM-4.5는 실제 개발 시나리오를 활용한 에이전틱 코딩 성능 평가에서 키미-K2 대비 53.9%의 승률을, 큐원3-코더 대비 80.8%의 승률을 기록했으며, 평균 도구 호출 성공률에서
90.6%로 클로드-4-소네트(89.5%), 키미-K2(86.2%), 큐원3-코더(77.1%)를
능가하며 1위를 차지