让我们先来探讨无序数据集的统计量。针对这种类型的数据集,我们大致有三类统计量可以用来描述,分别是描述数据集中趋势的,数据离散趋势的以及数据的整体分布的。
集中趋势:数据的集中趋势可以看出数据整体相似的样子,譬如我们熟悉的均值、中位数、四分位数以及众数就是这样性质的统计量。这些统计量看的是整体的特征。离散趋势:离散趋势则更加细节的刻画了数据之间的差异,譬如方差、标准差、变异系数、极差、最值等。数据分布:数据分布则相对来说较为高级,一般来说用于探讨一些深层次问题时可能会用到。这里的分布也是一个比较宽泛的概念,囊括了除却分布概念外的信息熵、偏度、峰度等。当然最本质的还是各种分布的名称,譬如说大家耳熟能详的高斯分布(正态分布),除此之外还有二项分布、beta分布、dirichlet分布等等。相信产品经理看到这应该晕晕的,告诉你个好消息,你只需要知道数据分布需要被考量,且只需要知道高斯分布是什么即可。简单来说,高斯分布就是真实世界的分布,譬如一个班级的成绩分布,中间多两头小是它的特性。其余的更多就留给大家自己探索吧。