昨天说过大数据是不是真的大数据,关键看是否涉及到抽样的问题,今天聊聊大数据既然不用抽样,那海量的纷繁复杂的数据怎么计算啊?
对,这是个问题,放在以前,杂乱的数据确实没法计算,哪怕就搁现在,运用云平台去计算,也还是不能直接想怎么计算就怎么计算,还是需要对数据进行必要的处理的,只是以前没法对海量的数据进行高效的处理,但现在可以了。
大数据的处理需要牛逼的算法工程师来搞定,所以说现在算法工程师为什么那么吃香呢,就是这个道理。没有他们卓有成效的工作,海量的数据是没法整理清楚的,更别说后面的分析等工作了。
但相对于传统的数据统计来说,大数据不像传统数据那样需要数据的精确和有代表性。代表性自然不用说了,都不抽样了,全部数据一起上了,自然没有代不代表的问题了(我就是我)。但精确,大数据也不需要了,为什么啊?以前的数据很小,不搞精确了,统计出来的数据就可能有偏差啊,所以还是要把数据搞得尽可能的精确。可大数据是海量的啊,而且还在不断的产生新的数据的啊,数据量永远都是即时的啊,没法定量的啊,所以大数据的计算就像在大海里捞鱼,根据自己的需要去捞鱼就行了,你管大海有多大干嘛啊?
所以说,大数据是不要求数据的绝对精确的,是允许数据存在混杂性的。反正我通过特点算法,能在大海里捞到我想要的鱼就行,至于海里有多少种鱼,它们都长什么样,就无所谓啦。
好了,划重点:大数据是不要求数据的精确性的,允许混杂性。