而这一切,正是大数据所催生。
大数据研究专家维克托·迈尔-舍恩伯格曾经说过:世界的本质是数据。在他看来,认识大数据之前,世界原本就是一个数据时代;认识大数据之后,世界不可避免地分为大数据时代、小数据时代。
随着社会不断发展的脚步,各类数据不断累积,如果说小数据时代的各类分析调研更多的是靠样本采集,那么现在,不管从数据的维度还是层次来看,数据体量的累积已经到了一个非常夯实的阶段。
在这两个时代的过渡中,人们也自然而然的从先前的样本思维转变成大数据时代需要具备的整体思维,以更好的运用大数据,或者说,抽样调查将成为过去时,对所有数据进行分析处理才是大数据时代应有的思维方式。
人们希望能够从多维度,多角度,多层次的数据中找到宝藏。
需要提出的是大数据本身并不产生价值,如何分析和利用大数据对业务、对人们、对社会产生帮助才是它的价值所在。
大数据的多种定义
对于大数据的具体定义和价值,大多数人都停留在知其然而不知其所以然的阶段。
但这也并不妨碍大数据这一词汇在大众心中的高度,它代表着先进,代表着高科技,代表着不可预知但可以预见的未来世界。
麦肯锡最早提出了大数据时代的到来:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
对于大数据的定义,权威机构们给出了不同的表述:
世界知名咨询企业gartner给出的定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
还有一些是这样表述的,大数据是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”
不管是信息资产还是数据集合,这些定义无不在昭示着大数据对于人们未来社会的价值。
纷繁复杂的大数据体系
据资料显示,业界通常用4个v(即volume、variety、value、velocity)来概括大数据的特征。
volume,数据体量巨大。如果单单从存储量方面来考量的话,从最小的数据存储单位bit开始,按顺序往上byte、kb、mb、gb、tb、pb、eb……那么截至目前,人类生产的所有印刷材料的数据量可达数百pb,而历史上有记载开始人类说过的所有的话的数据量大约要以eb来衡量。
variety,数据类型繁多。类型的多样性让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
value,价值密度低。价值密度的高低与数据总量的大小成反比。数据总量越大,无效冗余的数据则越多,如何通过强大的机器算法迅速地完成数据的价值“提纯”是目前大数据背景下亟待解决的难题。
velocity,处理速度快。这是大数据区分于传统数据挖掘的最显著特征,根据idc“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2zb。在如此海量的数据面前,处理数据的效率就是企业的生命。
百年企业ibm也曾提到大数据的特点,除了以上具有普遍性质的四个volume(大量)、velocity(高速)、variety(多样)、value(低价值密度)外,还包括veracity(真实性)。
从这些特点我们可以看出,如果说大数据的价值就在于如何分析这些繁复的数据得出预测性结论并最终利用它来实现某种职能、产生某种作用,那么对于这些数据的分析和处理则是商业社会中企业的竞争力所在。
而正是因为大数据的以上特性,也导致对数据的挖掘和分析的难度大大增加,想要通过算法从大量的包括有用的无用的数据中找出隐藏在其中的信息,这将是一个无法想象的繁复的过程。大数据并不意味着无数数据的任意堆叠,而是代表着数据计算和一系列挖掘,分析的连带反应。
而数据挖掘、分析这一系列的行为包含了非常多包括统计、在线分析处理、情报检索、机器学习、专家系统、模式识别等学科知识,也利用了来自统计学的抽样、估计和假设检验,人工智能、模式识别和机器学习的搜索算法、建模技术等领域的思想。同时,数据挖掘也接纳了来自包括最优化、进化计算、信息论、信号处理、可视化和信息检索等其他领域的思想。
而大数据的繁杂和所涉及的学科范围之广度和深度让所有对于数据的挖掘和分析成为了亟待解决的难题。
大数据的价值远不止你所想
如果从企业决策的角度来看,在任何行业,任何领域,通过推动数据化或大数据演算提升企业决策和企业战略实施的,仍然是人的大脑。
唯一的区别是,从前依靠丰富的企业经验和信息整合能力来决策的领导层,如今依靠的是高性能并行的计算机处理技术来处理海量的数据集,分布式的演算出最终的战略决策。利用这样的科技,就可以大大提升领导决策的精准度和效率。
而其实大数据的作用已经不仅仅是为各类决策提供帮助,它甚至能够用海量的数据塑造个体,用户分析将不再适用,因为大数据甚至可以塑造用户。
从商业角度来看,从繁杂庞大的数据中挖掘、分析用户的行为习惯和喜好,研发出更符合用户偏好的产品和服务,并结合用户需求有针对性地调整和优化产品,以优化用户体验,最终获得商业利益,就是大数据在商业社会的价值。
抛开商业,利用大数据预测可能的灾难,利用大数据分析癌症可能的引发原因并找出治疗方法,都是未来能够惠及人类的事业。
例如,大数据曾被洛杉矶警察局和加利福尼亚大学合作用于预测犯罪的发生;google流感趋势利用搜索关键词预测禽流感的散布;麻省理工学院利用手机定位数据和交通数据建立城市规划;气象局通过整理近期的气象情况和卫星云图,更加精确的判断未来的天气状况。
在数据样本足够多的情况下,我们会发现,随机事件慢慢会带有必然趋势朝着他自身的概率发展。就像一枚硬币的正反面,就像一道选择题的四个选项。我们也可以说在真实数据足够多的情况下,很多预测性的事物都会越来越精准。
在大数据时代,不再依赖于采样的人们可以获得并分析更多的数据,更清楚地发现样本无法揭示的细节信息,随着计算机处理能力的日益强大,人工智能机器学习系统的不断升级,庞大的数据给人们带来的价值成倍攀升。
实验的不断反复、大数据的日渐积累让人类不断发现各种规律,从而能够预测未来。
如果说理论是认知大数据的必经途径,那么技术则是大数据价值体现的手段和前进的基石,而大数据的最终价值体现则要靠实践。
2010年《science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。
可预测代表着可控,可控代表着失误的不断减少。
最终,我们都将从大数据分析中获益。
本文图片及部分资料来自网络