-
Notifications
You must be signed in to change notification settings - Fork 10
✍️ Add: translate Agent-Leaderboard #111
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Conversation
Jwaminju
left a comment
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
안녕하세요! 발표를 듣지 못해 아쉽지만, 좋은 내용 정리 감사합니다!
몇가지 리뷰했습니다!
선택적으로 반영해주셔도 좋아요!
|
PR을 한 번 rebase해야 build가 될 것 같네용! |
657a070 to
3ddf137
Compare
sim-so
left a comment
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
전체적으로 읽기 쉬운 문장이었던 것 같아요! type 위주로 확인해서 코멘트 남겼습니다!
hyeonseo2
left a comment
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
좋은 번역과 발표 감사합니다! 특히, 모델 성능 관련 파트가 표로 정리되어 있어서 더 가독성이 좋았습니다 👍 번역 용어 관련해서 아래 몇 가지 리뷰를 남겼습니다.
eehyo
left a comment
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
글을 깔끔하게 잘 작성해주셔서 읽기 좋았습니다! 섹션 나누어 부연 설명 있는 것도 좋았습니다! 전체적인 단어 흐름 통일 위주로만 보았습니다:)
|
|
||
| 3. **평가 지표 정의(Metric Definition)**: 도구 선택의 정확성과 매개변수 사용의 질을 모두 평가하는 **도구 선택 품질(TSQ)**을 주요 지표로 설정합니다. 이 지표는 실제 환경에서 요구되는 성능을 포착하도록 신중하게 설계되었습니다. | ||
|
|
||
| 4. **데이터셋 구성(Dataset Curation)**: 기존 벤치마크 데이터셋을 전략적으로 샘플링하여 균형 잡히고, 다중 도메인을 아우르는 평가용 데이터셋을 만들빈다. 이 데이터셋은 기본 함수 호출부터 복잡한 다중 턴 상호작용까지 모두 테스트할 수 있어 에이전트 능력을 포괄적으로 평가합니다. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
| 4. **데이터셋 구성(Dataset Curation)**: 기존 벤치마크 데이터셋을 전략적으로 샘플링하여 균형 잡히고, 다중 도메인을 아우르는 평가용 데이터셋을 만들빈다. 이 데이터셋은 기본 함수 호출부터 복잡한 다중 턴 상호작용까지 모두 테스트할 수 있어 에이전트 능력을 포괄적으로 평가합니다. | |
| 4. **데이터셋 구성(Dataset Curation)**: 기존 벤치마크 데이터셋을 전략적으로 샘플링하여 균형 잡히고, 다중 도메인을 아우르는 평가용 데이터셋을 만들빈다. 이 데이터셋은 기본 함수 호출부터 복잡한 멀티 턴 상호작용까지 모두 테스트할 수 있어 에이전트 능력을 포괄적으로 평가합니다. |
민주님이 다중 턴 -> 멀티 턴으로 수정하신 것에 맞게 통일시켜 보았습니다!
Co-authored-by: wony617 <[email protected]>
Co-authored-by: wony617 <[email protected]>
Co-authored-by: wony617 <[email protected]>
Co-authored-by: wony617 <[email protected]>
Co-authored-by: wony617 <[email protected]>
Co-authored-by: wony617 <[email protected]>
Co-authored-by: wony617 <[email protected]>
Co-authored-by: wony617 <[email protected]>
Co-authored-by: Sohyun Sim <[email protected]>
Co-authored-by: Sohyun Sim <[email protected]>
Co-authored-by: Sohyun Sim <[email protected]>
Co-authored-by: Sohyun Sim <[email protected]>
Co-authored-by: Sohyun Sim <[email protected]>
Co-authored-by: Sohyun Sim <[email protected]>
Co-authored-by: Sohyun Sim <[email protected]>
Co-authored-by: Hyeonseo Yun <[email protected]>
Co-authored-by: Hyeonseo Yun <[email protected]>
Co-authored-by: Hyeonseo Yun <[email protected]>
Co-authored-by: Hyeonseo Yun <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: eehyo <[email protected]>
작업내용
신규 포스팅 작성 : Agent Leaderboard: Evaluating AI Agents in Multi-Domain Scenarios
블로그 원문 : https://huggingface.co/blog/pratikbhavsar/agent-leaderboard