- Python大数据分析算法与实例
- 邓立国
- 746字
- 2022-07-27 19:34:59
2.3.1 聚类分析定义
1.聚类应用
随着信息技术高速发展,数据库应用的规模、范围和深度不断扩大,导致积累了大量的数据,而这些激增的数据后面隐藏着许多重要的信息,因此人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效、方便地实现数据的录入、查询、统计等功能,但是无法发现数据中存在的各种关系和规则,更无法根据现有的数据预测未来的发展趋势。而数据聚类分析正是解决这一问题的有效途径,它是数据挖掘的重要组成部分,用于发现在数据库中未知的对象类,为数据挖掘提供有力的支持,它是近年来广为研究的问题之一。
聚类分析是一个极富有挑战性的研究领域,采用基于聚类分析方法的数据挖掘在实践中已取得了较好的效果。聚类分析也可以作为其他算法的预处理步骤,聚类可以作为一个独立的工具来获知数据的分布情况,使数据形成簇,其他算法再在生成的簇上进行处理。聚类算法既可作为特征和分类算法的预处理步骤,也可将聚类结果用于进一步的关联分析。迄今为止,人们提出了许多聚类算法,这些算法都试图解决大规模数据的聚类问题。聚类分析还成功地应用在模式识别、图像处理、计算机视觉、模糊控制等领域,并在这些领域中取得了长足的发展。
2.数据聚类
所谓聚类,就是将一个数据单位的集合分割成几个称为簇或类别的子集,每个类中的数据都有相似性,它的划分依据就是“物以类聚”。数据聚类分析是根据事物本身的特性,研究对被聚类的对象进行类别划分的方法。聚类分析依据的原则是使同一聚簇中的对象具有尽可能高的相似性,而不同聚簇中的对象具有尽可能高的相异性。聚类分析主要解决的问题是如何在没有先验知识的前提下,实现满足这种要求的聚簇的聚合。聚类分析称为无监督学习(Unsuper-Vised Study),主要体现在聚类学习的数据对象没有类别标记,需要由聚类学习算法自动计算。