-
Notifications
You must be signed in to change notification settings - Fork 10
✍️ Add: translate Math Verify Leaderboard #116
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Conversation
ahnjj
left a comment
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
흥미로운 주제와 좋은 발표 감사합니다!:)
hyeonseo2
left a comment
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
좋은 번역 감사합니다! 실습 내용 포함해서 발표해주셔서 이해가 더 잘 되었습니다~
아래 약간의 리뷰를 남겼습니다!
eehyo
left a comment
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
좋은 글 번역 감사합니다! 원문과 비교해 수식이나 bold 에서 차이 있는 부분만 수정했습니다!
|
|
||
| 우리는 처음에 Qwen 모델을 점검하는 과정에서 수학 평가 방식의 문제를 발견했습니다. 기존 리더보드에서 Qwen 모델은 공식 성능(자체 보고 점수)보다 비정상적으로 낮은 점수를 받고 있었기 때문입니다. Math-Verify 적용 이후, Qwen 모델의 점수는 두 배 이상 증가하며 이전 평가가 얼마나 과소평가되었는지를 보여주었습니다. | ||
|
|
||
| 하지만, 영향받은 것은 Qwen 모델만이 아닙니다. DeepSeek 모델들도 크게 개선되었습니다. Math-Verify 적용 후 DeepSeek 모델의 점수는 거의 세 배 가까이 상승했습니다! 이는 DeepSeek 모델이 정답을 일반적으로 `(\boxed{})` 표기 안에 넣어 출력하는데, 기존 평가 방식은 이 정답 형식을 제대로 추출하지 못해 실제로는 맞은 답을 오답으로 처리했기 떄문입니다. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
| 하지만, 영향받은 것은 Qwen 모델만이 아닙니다. DeepSeek 모델들도 크게 개선되었습니다. Math-Verify 적용 후 DeepSeek 모델의 점수는 거의 세 배 가까이 상승했습니다! 이는 DeepSeek 모델이 정답을 일반적으로 `(\boxed{})` 표기 안에 넣어 출력하는데, 기존 평가 방식은 이 정답 형식을 제대로 추출하지 못해 실제로는 맞은 답을 오답으로 처리했기 떄문입니다. | |
| 하지만, 영향받은 것은 Qwen 모델만이 아닙니다. **DeepSeek** 모델들도 크게 개선되었습니다. Math-Verify 적용 후 DeepSeek 모델의 점수는 거의 세 배 가까이 상승했습니다! 이는 DeepSeek 모델이 정답을 일반적으로 `(\boxed{})` 표기 안에 넣어 출력하는데, 기존 평가 방식은 이 정답 형식을 제대로 추출하지 못해 실제로는 맞은 답을 오답으로 처리했기 떄문입니다. |
원문에 bold가 있길래 추가해보았습니다
Co-authored-by: Ahnjj_DEV <[email protected]>
Co-authored-by: Ahnjj_DEV <[email protected]>
Co-authored-by: Ahnjj_DEV <[email protected]>
Co-authored-by: Ahnjj_DEV <[email protected]>
Co-authored-by: Hyeonseo Yun <[email protected]>
Co-authored-by: Hyeonseo Yun <[email protected]>
Co-authored-by: Hyeonseo Yun <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: Ahnjj_DEV <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: eehyo <[email protected]>
Co-authored-by: eehyo <[email protected]>
작업내용
신규 포스팅 작성 : Fixing Open LLM Leaderboard with Math-Verify
블로그 원문 : https://huggingface.co/blog/math_verify_leaderboard