Skip to content

Conversation

@sim-so
Copy link
Contributor

@sim-so sim-so commented Dec 1, 2025

Summary

@sim-so sim-so self-assigned this Dec 1, 2025
Copy link
Collaborator

@ahnjj ahnjj left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

흥미로운 주제였어요! 좋은 발표도 감사합니다 :)

| 데이터셋 | 데이터셋 그룹 | 공개/비공개 | 데이터셋 URL | QA 재활용 여부 | 포함 사유 및 설명 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| AILACasedocs | 영어, 법률 | 공개 | https://huggingface.co/datasets/mteb/AILA_casedocs | X | 이 데이터셋은 인도 대법원 사건 문서 약 3,000건으로 구성되며, 주어진 법적 상황에 대한 관련 선례 검색을 평가하기 위해 설계되었습니다. 각기 특정 시나리오를 설명하는 50개의 쿼리가 포함되어 있습니다. 문서가 상당히 도전적이며, 쿼리가 비합성적이고, 레이블의 품질이 높기 때문에 이 데이터셋을 벤치마크에 포함합니다. |
| AILAStatutes | 영어, 법률 | 공개 | https://huggingface.co/datasets/mteb/AILA_statutes | X | 이 데이터셋은 인도 대법원 법률 197건에 대한 설명으로 구성되어 있으며, 주어진 법적 상황에 대한 관련 선례 법률 검색을 용이하게 하기 위해 설계되었습니다. 각기 특정 시나리오를 설명하는 50개의 쿼리를 포함합니다. 문서가 상당히 도전적이며, 쿼리가 비합성적이고, 라벨이 고품질이기 때문에 이 데이터셋을 벤치마크에 포함합니다. |
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
| AILAStatutes | 영어, 법률 | 공개 | https://huggingface.co/datasets/mteb/AILA_statutes | X | 이 데이터셋은 인도 대법원 법률 197건에 대한 설명으로 구성되어 있으며, 주어진 법적 상황에 대한 관련 선례 법률 검색을 용이하게 하기 위해 설계되었습니다. 각기 특정 시나리오를 설명하는 50개의 쿼리를 포함합니다. 문서가 상당히 도전적이며, 쿼리가 비합성적이고, 라벨이 고품질이기 때문에 이 데이터셋을 벤치마크에 포함합니다. |
| AILAStatutes | 영어, 법률 | 공개 | https://huggingface.co/datasets/mteb/AILA_statutes | X | 이 데이터셋은 인도 대법원 법률 197건에 대한 설명으로 구성되어 있으며, 주어진 법적 상황에 대한 관련 선례 법률 검색을 용이하게 하기 위해 설계되었습니다. 각기 특정 시나리오를 설명하는 50개의 쿼리를 포함합니다. 문서가 상당히 복잡하며 쿼리가 비합성적이고, 라벨이 고품질이기 때문에 이 데이터셋을 벤치마크에 포함합니다. |

도전적...보다 한국어스러운 표현이 있을까 고민해보았는데, 까다롭다/복잡하다/수준이 높다..! 무엇이 좋을까요?


우리의 목표는 RTEB가 검색 평가 분야의 커뮤니티 신뢰 기준이 되는 것입니다.

RTEB 리더보드는 오늘 [Hugging Face](https://huggingface.co/spaces/mteb/leaderboard?benchmark_name=RTEB%28beta%29)에서 MTEB 리더보드의 새로운 검색(Retrieval) 섹션의 일부로 이용 가능합니다. 여러분의 모델을 평가하고, AI 커뮤니티 전체를 위한 더 나은 신뢰할 수 있는 벤치마크 구축에 함께해 주시길 바랍니다.
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
RTEB 리더보드는 오늘 [Hugging Face](https://huggingface.co/spaces/mteb/leaderboard?benchmark_name=RTEB%28beta%29)에서 MTEB 리더보드의 새로운 검색(Retrieval) 섹션의 일부로 이용 가능합니다. 여러분의 모델을 평가하고, AI 커뮤니티 전체를 위한 더 나은 신뢰할 수 있는 벤치마크 구축에 함께해 주시길 바랍니다.
RTEB 리더보드는 오늘 [Hugging Face](https://huggingface.co/spaces/mteb/leaderboard?benchmark_name=RTEB%28beta%29)에서 MTEB 리더보드의 새로운 검색(Retrieval) 섹션의 일부로 이용 가능합니다. AI 커뮤니티를 위한 더 나은, 신뢰할 수 있는 벤치마크 구축에 함께하기 위해 여러분의 모델을 평가해주시길 바랍니다!

문장이 긴데 뜻이 명확하지 않은것 같아 주어를 변경했어요. 혹시 의도하신 바가 모델평가 + 벤치마크 구축 기여라면 원문이 좋네요! ㅎㅎ

Copy link
Collaborator

@hyeonseo2 hyeonseo2 left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

좋은 번역 감사합니다~ 발표에서 평가 수식에 대해 설명해주셔서 이해하기 수월했습니다.
아래 몇 가지 리뷰를 남겼습니다!

Comment on lines 86 to 87
| HC3 Medicine | 영어, 의료 | 공개 | https://huggingface.co/datasets/Hello-SimpleAI/HC3 | X | HC3 데이터셋은 오픈 도메인, 금융, 의료, 법률, 심리학 등 다양한 분야의 인간 전문가와 ChatGPT의 비교 응답 수만 건으로 구성됩니다. 데이터 수집 과정에는 공개된 질문-답변 데이터셋과 위키 텍스트를 활용했으며, 인간 답변이 전문가 제공 또는 고품질 사용자 응답임을 보장하여 오분류를 최소화하고 데이터셋의 신뢰성을 높였습니다. |
| HC3 프랑스어 OOD | 프랑스어, 의료 | 공개 | https://huggingface.co/datasets/almanach/hc3_french_ood | X | HC3 데이터셋은 오픈 도메인, 금융, 의료, 법률, 심리학 등 다양한 분야에서 인간 전문가와 ChatGPT의 비교 응답 수만 건으로 구성됩니다. 데이터 수집 과정에는 공개된 질문-답변 데이터셋과 위키 텍스트를 활용하는 것이 포함되었으며, 인간 답변이 전문가 제공 또는 고품질 사용자 응답임을 보장함으로써 오표기를 최소화하고 데이터셋의 신뢰성을 높였습니다. |
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
| HC3 Medicine | 영어, 의료 | 공개 | https://huggingface.co/datasets/Hello-SimpleAI/HC3 | X | HC3 데이터셋은 오픈 도메인, 금융, 의료, 법률, 심리학 등 다양한 분야의 인간 전문가와 ChatGPT의 비교 응답 수만 건으로 구성됩니다. 데이터 수집 과정에는 공개된 질문-답변 데이터셋과 위키 텍스트를 활용했으며, 인간 답변이 전문가 제공 또는 고품질 사용자 응답임을 보장하여 오분류를 최소화하고 데이터셋의 신뢰성을 높였습니다. |
| HC3 프랑스어 OOD | 프랑스어, 의료 | 공개 | https://huggingface.co/datasets/almanach/hc3_french_ood | X | HC3 데이터셋은 오픈 도메인, 금융, 의료, 법률, 심리학 등 다양한 분야에서 인간 전문가와 ChatGPT의 비교 응답 수만 건으로 구성됩니다. 데이터 수집 과정에는 공개된 질문-답변 데이터셋과 위키 텍스트를 활용하는 것이 포함되었으며, 인간 답변이 전문가 제공 또는 고품질 사용자 응답임을 보장함으로써 오표기를 최소화하고 데이터셋의 신뢰성을 높였습니다. |
| HC3 Medicine | 영어, 의료 | 공개 | https://huggingface.co/datasets/Hello-SimpleAI/HC3 | X | HC3 데이터셋은 오픈 도메인, 금융, 의료, 법률, 심리학 등 다양한 분야의 인간 전문가와 ChatGPT의 비교 응답 수만 건으로 구성됩니다. 데이터 수집 과정에는 공개된 질문응답 데이터셋과 위키 텍스트를 활용했으며, 인간 답변이 전문가 제공 또는 고품질 사용자 응답임을 보장하여 오분류를 최소화하고 데이터셋의 신뢰성을 높였습니다. |
| HC3 프랑스어 OOD | 프랑스어, 의료 | 공개 | https://huggingface.co/datasets/almanach/hc3_french_ood | X | HC3 데이터셋은 오픈 도메인, 금융, 의료, 법률, 심리학 등 다양한 분야에서 인간 전문가와 ChatGPT의 비교 응답 수만 건으로 구성됩니다. 데이터 수집 과정에는 공개된 질문응답 데이터셋과 위키 텍스트를 활용하는 것이 포함되었으며, 인간 답변이 전문가 제공 또는 고품질 사용자 응답임을 보장함으로써 오표기를 최소화하고 데이터셋의 신뢰성을 높였습니다. |

question-answering이 상단 FinanceBench와 HC3Finance에서 질문응답으로 번역되어 동일하게 표현을 맞췄습니다!
질문-답변으로 번역해도 좋을 것 같은데, 참고만 부탁드립니다!

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

앗 제가 놓쳤네요 질문-답변이 더 적절한 것 같아서 위쪽을 바꿀게요!

Copy link
Collaborator

@eehyo eehyo left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

좋은 번역 감사합니다! 깔끔하게 잘 번역해주셔서 아주 사소한 것만 수정해보았습니다:)

Copy link
Contributor Author

@sim-so sim-so left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

일부 검토 의견을 반영했습니다!

Comment on lines 86 to 87
| HC3 Medicine | 영어, 의료 | 공개 | https://huggingface.co/datasets/Hello-SimpleAI/HC3 | X | HC3 데이터셋은 오픈 도메인, 금융, 의료, 법률, 심리학 등 다양한 분야의 인간 전문가와 ChatGPT의 비교 응답 수만 건으로 구성됩니다. 데이터 수집 과정에는 공개된 질문-답변 데이터셋과 위키 텍스트를 활용했으며, 인간 답변이 전문가 제공 또는 고품질 사용자 응답임을 보장하여 오분류를 최소화하고 데이터셋의 신뢰성을 높였습니다. |
| HC3 프랑스어 OOD | 프랑스어, 의료 | 공개 | https://huggingface.co/datasets/almanach/hc3_french_ood | X | HC3 데이터셋은 오픈 도메인, 금융, 의료, 법률, 심리학 등 다양한 분야에서 인간 전문가와 ChatGPT의 비교 응답 수만 건으로 구성됩니다. 데이터 수집 과정에는 공개된 질문-답변 데이터셋과 위키 텍스트를 활용하는 것이 포함되었으며, 인간 답변이 전문가 제공 또는 고품질 사용자 응답임을 보장함으로써 오표기를 최소화하고 데이터셋의 신뢰성을 높였습니다. |
Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

앗 제가 놓쳤네요 질문-답변이 더 적절한 것 같아서 위쪽을 바꿀게요!

@sim-so sim-so merged commit aa75ef5 into main Dec 8, 2025
@sim-so sim-so deleted the rteb branch December 8, 2025 12:38
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

5 participants