- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 586字
- 2021-09-26 16:15:56
10.5 校直数据的重要性
EDA特别重视校直数据,这不仅仅是出于对简单性的要求。生活本身就是简单的(至少对于我们这些岁数大的经历较多的人是如此)。在物理学世界里,爱因斯坦发现了一个只用3个字母表达的普适原理:E=mc2。然而在我们目光所及的这个世界,简单性往往不被人们重视。笑脸是简单且易感受的,然而它能快速、有效和清晰地传达信息。为什么数据挖掘者要接受他或她的生活工作中不简单的东西?数字同样也应该清晰、高效且快速地进行沟通。在数据挖掘工程师的世界里,有两个特点会影响简单性:数据的对称度和直度。数据挖掘工程师应该坚持数字是对称的和直的。
两个连续变量X和Y的直线关系简单易懂。当X的值变大(变小)时,Y的值变大(变小)。在这种情况下,X和Y是正相关的。当X值变大(变小)时,Y的值变小(变大),在这种情况下,X和Y是负相关的。爱因斯坦公式的简单性还表现在E和m之间存在完美的正相关直线关系。
校直数据之所以重要,第二个原因是大部分回应模型都假设自己是线性模型。而且,即便是以预测更准确为标榜的非线性模型,如果使用校直数据,也可以得出更准确的预测结果。
我没有忽视对称性特征。由于理论上的原因,并非偶然的是,对称性和直性总是同时出现的。校直数据经常是对称的,反之亦然。你可能想起典型的对称数据具有钟形曲线形状。但是,对称数据指的是,在中间值的上下两边,数据值对于整个数据的分布具有同样的分布形态。