Skip to content

[Feature] Add local LLM models to leaderboard #70

@ahnjj

Description

@ahnjj

개요

Ko-AgentBench 리더보드의 평가 대상에 새로운 로컬 LLM 모델을 추가하고자 합니다.
한국어 이해력과 도구 호출 기능을 갖춘 모델들을 중심으로 벤치마크 확장을 제안합니다.

📊 현재 리더보드 대상 로컬 모델

모델명 (개발사) URL 파라미터 규모 한국어 특화도 맥락 길이 라이선스
Kanana 1.5 8B (Kakao) https://huggingface.co/kakaocorp/kanana-1.5-8b-instruct-2505 2.1B / 8B (Base) + 지시 따르기 튜닝 한국어 최적화, 양방언어 지원 ~4096 (추정, v2에서 확장 예정) Apache 2.0
Qwen3-32B-v1.0 (Alibaba) - 32B 다국어 지원, 한국어 중상 128K MIT
Qwen3-4B-Instruct-2507 (Alibaba) - 4B 다국어 지원 32K MIT
Qwen3-8B (Alibaba) - 8B 다국어 지원 128K MIT
A.X-4.0-Light (SKT) - 7B (추정) 한국어 튜닝 중 16K -
Midm-2.0-Base-Instruct (KT) https://huggingface.co/K-intelligence/Midm-2.0-Base-Instruct 11.5B 한국어 특화 32K -

✅ 추가 기준

  • 한국어가 가능한 모델
  • 로컬 환경에서 구동 가능한 모델 (HuggingFace 등에서 직접 호스팅 가능)
  • Tool Calling (Function Calling) 기능 지원

📍 영향 범위

  • Core 평가/집계
  • 데이터셋/시나리오
  • 툴(지도/검색/결제 등)
  • 프롬프트/템플릿
  • 문서/예제
  • CI/배포

제안 배경

현재 리더보드는 국내외 로컬 모델의 성능 비교 지표가 부족한 상황입니다.
이를 보완하기 위해 로컬 LLM 벤치마크를 확대하여, 한국어 기반의 오픈 생태계를 강화하고자 합니다.

요청 사항

🤗 Ko-AgentBench 리더보드에 평가 대상이 될 로컬 모델 후보를 제안해 주세요!

💬 제안 시 포함 항목

  • 모델명
  • URL
  • 파라미터 규모
  • 특이사항 (한국어 성능, 라이선스 등)

Metadata

Metadata

Labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions