-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathintroduction.txt
More file actions
35 lines (24 loc) · 2.13 KB
/
introduction.txt
File metadata and controls
35 lines (24 loc) · 2.13 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
acllmdb为电影评论以及对应的情感二元标签。
该数据集包含电影评论及其相关的二元情感极性标签。它旨在作为情绪分类的基准。
文档概述了如何收集数据集,以及如何使用提供的文件。
与数据集相关的信息:
核心数据集包含50000条评论,平均分成25k条训练集和25k条测试集。
标签的总体分布是平衡的(25k正向情感和25k负面情感)。
我们还包括另外50000个未标记的文档,用于无监督学习。
在整个集合中,任何给定的电影都不允许超过30条评论,因为同一部电影的评论往往具有相关的评分。
此外,训练集和测试集包含不相交的电影数据集,因此通过记忆电影特有的术语及其与观察到的标签的关联,不会获得显著的性能。
在标记的列车/测试集中,负面评价的得分<=4分(满分10分),正面评价的得分>=7分(满分7分)。
因此,列车/测试集中不包括评分更中性的评价。
在无监督的集合中,包括任何评级的评论,评论>5和<=5的数目是平均的。
与文件相关的信息:
有两个同级文件为train与test,对应着训练集与测试集,每个文件都包含着pos与neg两个文件
表示标签为positive和negative。在这些文件中有电影评论文件以id_rating.txt记录,其中id为
唯一的id,rating为评论的星级。
我们还将每个评论的IMDb URL包含在单独的[URLs_[pos,neg,unsop]中。txt]文件。
具有唯一id 200的审阅将在该文件的第200行具有其URL。
由于IMDb不断变化,我们无法直接链接到评论,只能链接到电影的评论页面。
除了审阅文本文件之外,我们还包括了我们实验中使用的已标记化的单词包(BoW)特征。
这些存储在train/test目录中的.fat文件中。
每个.fat文件都是LIBSVM格式,一种用于标记数据的ascii稀疏矢量格式。
这些文件中的特征索引从0开始,对应于特征索引的文本标记位于[imdb.vocab]中。
因此,.fat文件中0:7的一行表示[imdb.vocab](the)中的第一个单词在该评论中出现了7次。