MedicalLab/benchmark.md at main · USTC-DataDarknessLab/MedicalLab · GitHub

Medical NLP

命名实体识别、词性标注、归一化，有现成的第三方库，不需要神经网络

医学是一门独立的语言，甚至由于领域知识过于庞杂，任何一个子领域可能使用独立的语言

Text Classification Benchmark

2018 BERT

2019

SpanBert：对 Bert 预训练的一次深度探索 - 知乎 (zhihu.com) 不只是span，还有基于span边界预测指定位置的监督

T5 模型：NLP Text-to-Text 预训练模型超大规模探索 - 知乎 (zhihu.com) Google出品，大量实验，大量结论，可用于指导调参

2021

SimCSE论文解读 - 知乎 (zhihu.com) 句子嵌入sota，但不一定利于下游任务

无监督对比学习SIMCSE理解和中文实验操作-CSDN博客细节

Sentence-T5｜谷歌提出文本表示新SOTA (qq.com) 双塔结构，多加了一层投影和L2-Norm

注意：有监督对比loss上的temperature=100，之前无监督对比学习的T都很小