机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文将列举数据挖掘、机器学习和深度学习中的相关数据集。
Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。鸢尾花(iris)是数据挖掘常用到的一个数据集,包含150种鸢尾花的信息,每50种取自三个鸢尾花种之一(setosa,versicolour或virginica)。每个花的特征用下面的5种属性描述萼片长度(Sepal.Length)、萼片宽度(Sepal.Width)、花瓣长度(Petal.Length)、花瓣宽度(Petal.Width)、类(Species)。
数据集特征: | 多变量 | 记录数: | 150 | 领域: | 生活 |
---|---|---|---|---|---|
属性特征: | 实数 | 属性数目: | 4 | 捐赠日期: | 1988-07-01 |
相关应用: | 分类 | 缺失值? | 无 | 网站点击数: | 1409442 |
该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。
数据集特征: | 多变量 | 记录数: | 48842 | 领域: | 社会 |
---|---|---|---|---|---|
属性特征: | 类别型,整数 | 属性数目: | 14 | 捐赠日期: | 1996-05-01 |
相关应用: | 分类 | 缺失值? | 有 | 网站点击数: | 943677 |
这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。
数据集特征: | 多变量 | 记录数: | 178 | 领域: | 物理 |
---|---|---|---|---|---|
属性特征: | 整数,实数 | 属性数目: | 13 | 捐赠日期: | 1991-07-01 |
相关应用: | 分类 | 缺失值? | 无 | 网站点击数: | 710212 |
这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。
数据集特征: | 多变量 | 记录数: | 1728 | 领域: | N/A |
---|---|---|---|---|---|
属性特征: | 类别型 | 属性数目: | 6 | 捐赠日期: | 1997-06-01 |
相关应用: | 分类 | 缺失值? | 无 | 网站点击数: | 615100 |
银行营销数据集,数据与葡萄牙银行机构的直接营销活动(电话)有关。分类目标是预测客户是否订阅定期存款(可变Y)。
数据集特征: | 多变量 | 记录数: | 45211 | 领域: | 商业 |
---|---|---|---|---|---|
属性特征: | 实数 | 属性数目: | 17 | 捐赠日期: | 2012-02-14 |
相关应用: | 分类 | 缺失值? | 无 | 网站点击数: | 406201 |