汽车理赔-机器学习练习,自由训练项目————大数据分析小学员,修改再修改
任务类型:二元分类
背景介绍: 在交通摩擦(事故)发生后,理赔员会前往现场勘察、采集信息,这些信息往往影响着车主是否能够得到保险公司的理赔。训练集数据包括理赔人员在现场对该事故方采集的36条信息,信息已经被编码,以及该事故方最终是否获得理赔。我们的任务是根据这36条信息预测该事故方没有被理赔的概率。
数据文件(三个):
train.csv 训练集,文件大小 15.6mb
test.csv 预测集, 文件大小 6.1mb
sample_submit.csv 提交示例 文件大小 1.4mb
训练集中共有200000条样本,预测集中有80000条样本。
变量名 | 解释 |
---|---|
CaseId | 案例编号,没有实际意义 |
Q1 | 理赔员现场勘察采集的信息,Q1代表第一个问题的信息。信息被编码成数字,数字的大小不代表真实的关系。 |
Qk | 同上,Qk代表第k个问题的信息。一共36个问题。 |
Evaluation | 表示最终审核结果。0表示授予理赔,1表示未通过理赔审核。在test.csv中,这是需要被预测的标签 |