Skip to content

Conversation

@jiminAn
Copy link
Collaborator

@jiminAn jiminAn commented Nov 17, 2025

작업내용
신규 포스팅 작성 : Agent Leaderboard: Evaluating AI Agents in Multi-Domain Scenarios
블로그 원문 : https://huggingface.co/blog/pratikbhavsar/agent-leaderboard

Copy link
Collaborator

@Jwaminju Jwaminju left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

안녕하세요! 발표를 듣지 못해 아쉽지만, 좋은 내용 정리 감사합니다!
몇가지 리뷰했습니다!
선택적으로 반영해주셔도 좋아요!

@Jwaminju
Copy link
Collaborator

PR을 한 번 rebase해야 build가 될 것 같네용!

@Jwaminju Jwaminju force-pushed the main branch 4 times, most recently from 657a070 to 3ddf137 Compare November 20, 2025 14:53
Copy link
Contributor

@sim-so sim-so left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

전체적으로 읽기 쉬운 문장이었던 것 같아요! type 위주로 확인해서 코멘트 남겼습니다!

Copy link
Collaborator

@hyeonseo2 hyeonseo2 left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

좋은 번역과 발표 감사합니다! 특히, 모델 성능 관련 파트가 표로 정리되어 있어서 더 가독성이 좋았습니다 👍 번역 용어 관련해서 아래 몇 가지 리뷰를 남겼습니다.

Copy link
Collaborator

@eehyo eehyo left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

글을 깔끔하게 잘 작성해주셔서 읽기 좋았습니다! 섹션 나누어 부연 설명 있는 것도 좋았습니다! 전체적인 단어 흐름 통일 위주로만 보았습니다:)


3. **평가 지표 정의(Metric Definition)**: 도구 선택의 정확성과 매개변수 사용의 질을 모두 평가하는 **도구 선택 품질(TSQ)**을 주요 지표로 설정합니다. 이 지표는 실제 환경에서 요구되는 성능을 포착하도록 신중하게 설계되었습니다.

4. **데이터셋 구성(Dataset Curation)**: 기존 벤치마크 데이터셋을 전략적으로 샘플링하여 균형 잡히고, 다중 도메인을 아우르는 평가용 데이터셋을 만들빈다. 이 데이터셋은 기본 함수 호출부터 복잡한 다중 턴 상호작용까지 모두 테스트할 수 있어 에이전트 능력을 포괄적으로 평가합니다.
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
4. **데이터셋 구성(Dataset Curation)**: 기존 벤치마크 데이터셋을 전략적으로 샘플링하여 균형 잡히고, 다중 도메인을 아우르는 평가용 데이터셋을 만들빈다. 이 데이터셋은 기본 함수 호출부터 복잡한 다중 턴 상호작용까지 모두 테스트할 수 있어 에이전트 능력을 포괄적으로 평가합니다.
4. **데이터셋 구성(Dataset Curation)**: 기존 벤치마크 데이터셋을 전략적으로 샘플링하여 균형 잡히고, 다중 도메인을 아우르는 평가용 데이터셋을 만들빈다. 이 데이터셋은 기본 함수 호출부터 복잡한 멀티 턴 상호작용까지 모두 테스트할 수 있어 에이전트 능력을 포괄적으로 평가합니다.

민주님이 다중 턴 -> 멀티 턴으로 수정하신 것에 맞게 통일시켜 보았습니다!

jiminAn and others added 16 commits November 28, 2025 21:13
@jiminAn jiminAn requested a review from sim-so November 28, 2025 12:20
@jiminAn jiminAn merged commit b92b877 into main Nov 28, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

6 participants