您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

Facebook推高效查询引擎Presto_PHP教程

2024/6/3 11:24:27发布56次查看
在facebook总部的一次开发者会议上,这个社交网络巨头的工程师透露,他们正在使用新的自主研发的查询引擎presto,在已有的250pb的庞大数据仓库上进行交互式分析。
据martin traverso工程师透露,有超过850名facebook工程师每天用它来扫描超过320tb的数据。在以前,我们的科学家和分析师一直依靠hive来做数据分析。但hive是专为批处理设计的。但随着数据越来越多,hive已不能满足我们的需求。虽然我们还有其他比hive更快的工具,但它们要么在功能有所限制要么就太简单,以至于无法操作我们庞大的数据仓库。而在过去的几个月中,我们一直使用presto来填补这方面的空白。
hive是facebook在几年前专为hadoop打造的一款数据仓库工具。因为它主要依赖mapreduce进行运行,所以随着年龄的上升,其在速度上已不能满足日益增长的数据要求。浏览一个完整的数据集可能要花费几分到几小时,这完全是不切实际的。
traverso还表示,使用presto进行简单的查询只需要几百毫秒,即使是非常复杂的查询,也只需数分钟即可完成,它在内存中运行,并且不会向磁盘写入。
虽然看起来presto如同facebook版的cloudera impala sql查询引擎,或与hortonworks在stinger项目中所做的事情相似,但这是按照facebook规模为实现更快操作而定制的版本。presto并不会与其他商业产品进行竞争,但它会很快让大数据行业产生不小的震动。并且facebook打算在今年秋天以开源的形式发布presto。
facebook的工程经理ravi murthy表示,随着用户量地不断增长,数据仓库也在快速增长,它比四年前要大4000倍。murthy 也表示,在接下来几年,数据将会达到艾字节。因此,为了适应这种数据规模,我们不得不重新考虑许多东西。
presto则是其中之一,除了提高查询速度,在cpu使用效率上,这个引擎比hive高效7倍。另外一个正在进行的项目是缩减facebook数据中心的分析数据空间。
对于facebook最新推出的查询引擎presto,微博上的各位大神又有哪些看法呢?
原emc中国研究院大数据实验室负责人大数据皮东:facebook最新的交互式大数据查询系统presto,类似于cloudera的impala和hortonworks的stinger,解决facebook迅速膨胀的海量数据仓库快速查询需求。facebook针对exabyte规模数据正在开发新一代大数据系统,presto是其中的数据仓库交互查询系统,应该还有海量存储系统。在这个级别,很多设计需要考虑!
新浪cto兼联席总裁许良杰jack:社交网络和社会化媒体催生了真正的大数据(big data)平台。新浪微博也不例外……
英国利兹大学计算机及语言学研究员,搜索项目博士后研究员vinw:1. presto秋季会开源;2.比hive快七倍;3.基于内存
launch_bruce:facebook不是搜索引擎,对实时性的要求更高,即使当初推出hive,也只能是权宜之计。这属于hadoop的基因,hadoop必将会让很多没有深度思索盲目上马的项目最后举步维艰。但是显然hadoop成功的生态系统也会害了不少人。
teslaelon:加油!big data会衍生出很多商业机会。尤其是与最大的电商平台阿里巴巴以及最大的视频平台yoku潜在的合作值得期待。另外sina投资了不少微博上的火爆应用,很多机会,后面看sina研发和管理以及销售如何做好。
搬运大数据的亨利:大约五年以前做大数据分析,我们的mpp产品就已经有这些策略了。当时,最大的问题是大数据在互联网,但这些明星企业不爱花钱购买只爱造轮子。还是电信客户好,他们愿意花钱采购而不是造轮子。
英文来自:gigaom.com
http://www.bkjia.com/phpjc/735062.htmlwww.bkjia.comtruehttp://www.bkjia.com/phpjc/735062.htmltecharticle在facebook总部的一次开发者会议上,这个社交网络巨头的工程师透露,他们正在使用新的自主研发的查询引擎presto,在已有的250pb的庞大数据...
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product