-
Notifications
You must be signed in to change notification settings - Fork 6
Open
Labels
enhancementNew feature or requestNew feature or requestgood first issueGood for newcomersGood for newcomers
Description
개요
Ko-AgentBench 리더보드의 평가 대상에 새로운 로컬 LLM 모델을 추가하고자 합니다.
한국어 이해력과 도구 호출 기능을 갖춘 모델들을 중심으로 벤치마크 확장을 제안합니다.
📊 현재 리더보드 대상 로컬 모델
| 모델명 (개발사) | URL | 파라미터 규모 | 한국어 특화도 | 맥락 길이 | 라이선스 |
|---|---|---|---|---|---|
| Kanana 1.5 8B (Kakao) | https://huggingface.co/kakaocorp/kanana-1.5-8b-instruct-2505 | 2.1B / 8B (Base) + 지시 따르기 튜닝 | 한국어 최적화, 양방언어 지원 | ~4096 (추정, v2에서 확장 예정) | Apache 2.0 |
| Qwen3-32B-v1.0 (Alibaba) | - | 32B | 다국어 지원, 한국어 중상 | 128K | MIT |
| Qwen3-4B-Instruct-2507 (Alibaba) | - | 4B | 다국어 지원 | 32K | MIT |
| Qwen3-8B (Alibaba) | - | 8B | 다국어 지원 | 128K | MIT |
| A.X-4.0-Light (SKT) | - | 7B (추정) | 한국어 튜닝 중 | 16K | - |
| Midm-2.0-Base-Instruct (KT) | https://huggingface.co/K-intelligence/Midm-2.0-Base-Instruct | 11.5B | 한국어 특화 | 32K | - |
✅ 추가 기준
- 한국어가 가능한 모델
- 로컬 환경에서 구동 가능한 모델 (HuggingFace 등에서 직접 호스팅 가능)
- Tool Calling (Function Calling) 기능 지원
📍 영향 범위
- Core 평가/집계
- 데이터셋/시나리오
- 툴(지도/검색/결제 등)
- 프롬프트/템플릿
- 문서/예제
- CI/배포
제안 배경
현재 리더보드는 국내외 로컬 모델의 성능 비교 지표가 부족한 상황입니다.
이를 보완하기 위해 로컬 LLM 벤치마크를 확대하여, 한국어 기반의 오픈 생태계를 강화하고자 합니다.
요청 사항
🤗 Ko-AgentBench 리더보드에 평가 대상이 될 로컬 모델 후보를 제안해 주세요!
💬 제안 시 포함 항목
- 모델명
- URL
- 파라미터 규모
- 특이사항 (한국어 성능, 라이선스 등)
Metadata
Metadata
Labels
enhancementNew feature or requestNew feature or requestgood first issueGood for newcomersGood for newcomers