DL_text_classify/introduction.txt at master · chenchenzi718/DL_text_classify · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
acllmdb为电影评论以及对应的情感二元标签。

该数据集包含电影评论及其相关的二元情感极性标签。它旨在作为情绪分类的基准。
文档概述了如何收集数据集，以及如何使用提供的文件。


与数据集相关的信息：

核心数据集包含50000条评论，平均分成25k条训练集和25k条测试集。
标签的总体分布是平衡的（25k正向情感和25k负面情感）。
我们还包括另外50000个未标记的文档，用于无监督学习。

在整个集合中，任何给定的电影都不允许超过30条评论，因为同一部电影的评论往往具有相关的评分。
此外，训练集和测试集包含不相交的电影数据集，因此通过记忆电影特有的术语及其与观察到的标签的关联，不会获得显著的性能。
在标记的列车/测试集中，负面评价的得分<=4分（满分10分），正面评价的得分>=7分（满分7分）。
因此，列车/测试集中不包括评分更中性的评价。
在无监督的集合中，包括任何评级的评论，评论>5和<=5的数目是平均的。


与文件相关的信息：

有两个同级文件为train与test，对应着训练集与测试集，每个文件都包含着pos与neg两个文件
表示标签为positive和negative。在这些文件中有电影评论文件以id_rating.txt记录，其中id为
唯一的id，rating为评论的星级。

我们还将每个评论的IMDb URL包含在单独的[URLs_[pos，neg，unsop]中。txt]文件。
具有唯一id 200的审阅将在该文件的第200行具有其URL。
由于IMDb不断变化，我们无法直接链接到评论，只能链接到电影的评论页面。

除了审阅文本文件之外，我们还包括了我们实验中使用的已标记化的单词包（BoW）特征。
这些存储在train/test目录中的.fat文件中。
每个.fat文件都是LIBSVM格式，一种用于标记数据的ascii稀疏矢量格式。
这些文件中的特征索引从0开始，对应于特征索引的文本标记位于[imdb.vocab]中。
因此，.fat文件中0:7的一行表示[imdb.vocab]（the）中的第一个单词在该评论中出现了7次。