- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 527字
- 2021-09-26 16:15:32
3.6 一般关联性检验
一般关联性检验(如图3.6所示):
1)在散点图上画出N个平滑点对,并用一条水平中线将这N个点分成两个大小相同的组。
2)从最左边第一个平滑点开始,联结N个平滑点,得到N-1条线段。数一下跨越这条中线的线段数量m。
3)检验显著性。零假设:这两个变量不存在关联性。备择假设:这两个变量之间存在关联性。
4)考虑TS检验统计量是N-1-m。
如果TS大于或等于表3.5中的门限值,则零假设被拒绝。结论是这两个变量存在关联关系。这条平滑线展示了这种关联关系的“形状”或者结构。
如果TS小于表3.5中的门限值,则零假设无法拒绝。结论是这两个变量之间不存在关联关系。
表3.5 一般关联性检验门限值(95%和99%置信度)
图3.6 平滑RS-HI散点图的一般关联性检验
回到RS和HI的平滑散点图,确定:
1)上面有10对平滑点,N=10。
2)水平中线将所有平滑点分为两组,其中点5到9是在该线的下方,而点0到4是在该线的上方。
3)点4和点5的连线(见图3.6)是跨越这条中线的唯一一条线段,所以m=1。
4)TS等于8(=10-1-1),分别大于或等于95%和99%置信度的门限值7和8。
所以,在99%(当然也包括95%)置信水平上,RS和HI之间存在关联性。图3.5的RS平滑线表明这种关系类似3次多项式。相应地,应该在回应模型上测试HI的线性(HI)。二次方(HI2)和立方(HI3)项。