- 大话机器学习:原理|算法|建模|代码30讲
- 叶新江编著
- 402字
- 2024-12-27 21:57:41
2.6 幂律分布
幂律分布(Power Law Distribution)也称为长尾分布,著名的Zipf定律和Pareto定律(二八定律)也是幂律分布的简单形式。详细解释大家可以参见百科。
在互联网中,大量现象服从幂律分布。例如一个网上书店图书的销售数量服从幂律分布,电商网站上产品的销售数量也服从幂律分布。在现实中,收入和人口数量之间的分布也是幂律分布,国家GDP收入按照区域数量来分也是幂律分布。
其对应的概率密度函数为:
f(x)=cx-r,c和r均为大于零的常数,幂律分布图形如图2-10所示。
大家可能会发现,幂律分布图形和指数函数挺像的。那么如何区分呢?我们针对幂律函数两边取对数,转换为下面的形式:
lnf(x)=lnc-rlnx
令y′=lnf(x),x′=lnx,将其转换为:y′=c-x′,其对应的图形是一条直线。有时根据数据画出图形后无法确定是幂律分布还是指数分布时,可以对数据两边进行log-log运算,再转换为图形。如果图形基本是一条直线(线性函数),那么就可以基本确定为幂律分布而非指数分布。
图2-10