您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

数据产品经理必修课(34):数据概览之无序数据集的统计量

2023/7/16 0:59:16发布34次查看
在此之前算是给数据预处理做了一个详细的概述,现在我们来讨论对数据进行一些概览性的描述,我们通常使用统计量来描述一组数据。根据这些数据的属性,我们可以分为无序数据集和有序数据集。所谓的无序数据,并不是说不可以被排序,而是你在看到这些数据的时候它们并没有被排好序,于此相对应的有序数据集则是排序好的。
让我们先来探讨无序数据集的统计量。针对这种类型的数据集,我们大致有三类统计量可以用来描述,分别是描述数据集中趋势的,数据离散趋势的以及数据的整体分布的。
集中趋势:数据的集中趋势可以看出数据整体相似的样子,譬如我们熟悉的均值、中位数、四分位数以及众数就是这样性质的统计量。这些统计量看的是整体的特征。离散趋势:离散趋势则更加细节的刻画了数据之间的差异,譬如方差、标准差、变异系数、极差、最值等。数据分布:数据分布则相对来说较为高级,一般来说用于探讨一些深层次问题时可能会用到。这里的分布也是一个比较宽泛的概念,囊括了除却分布概念外的信息熵、偏度、峰度等。当然最本质的还是各种分布的名称,譬如说大家耳熟能详的高斯分布(正态分布),除此之外还有二项分布、beta分布、dirichlet分布等等。相信产品经理看到这应该晕晕的,告诉你个好消息,你只需要知道数据分布需要被考量,且只需要知道高斯分布是什么即可。简单来说,高斯分布就是真实世界的分布,譬如一个班级的成绩分布,中间多两头小是它的特性。其余的更多就留给大家自己探索吧。
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product