- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 1290字
- 2021-09-26 16:15:39
6.2 量度范围
根据斯蒂文的量度范围,数据量度范围是4个[1]:
1)名义数据(nominal data)是分类标签,例如,颜色(红、白、蓝),数据值无法排序。显然,在名义数据上无法进行算术运算。也就是说,人们无法计算出红+蓝(=?)。
2)有序数据是有顺序的数字标签,排序较高/较低的数字代表较大/较小数值。数字之间的间隔不一定是相等的。
a.例如,考虑CLASS(舱等)和AGE(年龄)作为乘坐邮轮旅行的两个变量。我将CLASS(头等、二等、三等、大仓)分成序数变量CLASS_,用于表示收入。将AGE(成人和儿童)分成序数变量AGE_,用于表示年龄。还用AGE和GENDER构建了CLASS的交互变量,分别记作CLASS_AGE_和CLASS_GENDER_,这些变量的定义和交互变量的定义如下。
三个重新设计的变量是:
i.如果GENDER=男,则GENDER_=0
ii.如果GENDER=女,则GENDER_=1
i.如果CLASS=头等,则CLASS_=4
ii.如果CLASS=二等,则CLASS_=3
iii.如果CLASS=三等,则CLASS_=2
iv.如果CLASS=大仓,则CLASS_=1
i.如果AGE=成年人,则AGE_=2
ii.如果AGE=儿童,则AGE_=1
CLASS与AGE和GENDER的交互变量是:
i.如果CLASS=二等,且AGE=儿童,则CLASS_AGE_=8
ii.如果CLASS=头等,且AGE=儿童,则CLASS_AGE_=7
iii.如果CLASS=头等,且AGE=成年人,则CLASS_AGE_=6
iv.如果CLASS=二等,且AGE=成年人,则CLASS_AGE_=5
v.如果CLASS=三等,且AGE=儿童,则CLASS_AGE_=4
vi.如果CLASS=三等,且AGE=成年人,则CLASS_AGE_=3
vii.如果CLASS=大仓,且AGE=成年人,则CLASS_AGE_=2
viii.如果CLASS=大仓,且AGE=儿童,则CLASS_AGE_=1
i.如果CLASS=头等,且GENDER=女,则CLASS_GENDER_=8
ii.如果CLASS=二等,且GENDER=女,则CLASS_GENDER_=7
iii.如果CLASS=大仓,且GENDER=女,则CLASS_GENDER_=6
iv.如果CLASS=三等,且GENDER=女,则CLASS_GENDER_=5
v.如果CLASS=头等,且GENDER=男,则CLASS_GENDER_=4
vi.如果CLASS=三等,且GENDER=男,则CLASS_GENDER_=2
vii.如果CLASS=大仓,且GENDER=男,则CLASS_GENDER_=3
viii.如果CLASS=二等,且GENDER=男,则CLASS_GENDER_=1
b.我们无法假定CLASS_=4和CLASS_=3的收入差异等于CLASS_=3和CLASS_=2的收入差异。
c.算术运算(比如减法)是不可能的。对于CLASS_这样的数字变量,无法得出4-3=3-2。
d.只有逻辑运算“小于”和“大于”可以进行。
e.序数变量的另一个特征是不存在“真正的”零,这是因为CLASS_大范围是从1到4,也可以定义为从3到0。
3)区间数据之间是等距的,且允许两对数据之间是等距的。
a.考虑HAPPINESS取值范围为10(=最快乐)到1(=很悲伤)。
4个人给自己评定的HAPPINESS值:
i.A和B分别为10和8。
ii.C和D分别为5和3。
iii.可以得出结论:A和B(快乐程度差别为2)与C和D(快乐程度差别为2)是一致的。
iv.区间的取值不会出现真实的零值。所以,不可能断言某个人比另一个人快乐多少倍。
A.区间数据不能乘除。常见的区间数据是温度范围。每两个读数之差就等于温度,但是30°不会和15°的两倍一样温暖。也就是说,30°-20°=20°-10°,但是20°/10°不等于2。换言之,20°不会和10°的两倍一样热。
4)比率数据类似区间数据,但具有真实的零值。常见例子是开氏温度,有一个绝对零度值。因而,开氏温度300K就等于两倍的开氏温度150K。
5.)真实零值是什么?有些度量衡具有真实或自然零值。
a.例如,WEIGHT(重量)的真实零值就是无重量。所以,可以说我的26磅(1磅=0.453 592 37千克)重的腊肠狗达比是它13磅重的迷妹贝西体重的两倍。所以这是一个比率量度。
b.而YEAR(年份)则没有自然的零值。我们可以随意确定YEAR 0,但是没有理由说2000年比1000年悠久两倍。所以说,这是一个区间量度。
6)注意:不幸的是,一些数据分析师没有区分区间数据和比率数据,而将其统称为连续数据。更有甚者,大多数数据分析师盲目地处理排序数据,像对待区间数据那样设定数值,这两类做法在技术上都是错误的。