Skip to content

Latest commit

 

History

History
28 lines (13 loc) · 1.15 KB

benchmark.md

File metadata and controls

28 lines (13 loc) · 1.15 KB

Medical NLP

命名实体识别、词性标注、归一化,有现成的第三方库,不需要神经网络

医学是一门独立的语言,甚至由于领域知识过于庞杂,任何一个子领域可能使用独立的语言

Text Classification Benchmark

2018 BERT

2019

SpanBert:对 Bert 预训练的一次深度探索 - 知乎 (zhihu.com) 不只是span,还有基于span边界预测指定位置的监督

T5 模型:NLP Text-to-Text 预训练模型超大规模探索 - 知乎 (zhihu.com) Google出品,大量实验,大量结论,可用于指导调参

2021

SimCSE论文解读 - 知乎 (zhihu.com) 句子嵌入sota,但不一定利于下游任务

无监督对比学习SIMCSE理解和中文实验操作-CSDN博客 细节

Sentence-T5|谷歌提出文本表示新SOTA (qq.com) 双塔结构,多加了一层投影和L2-Norm

注意:有监督对比loss上的temperature=100,之前无监督对比学习的T都很小