您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

大数据分析到底需要多少种工具

2025/4/19 9:41:45发布17次查看
一、hadoop相关工具
1.hadoop
apache的hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。
支持的操作系统:windows、linux和osx。
2.ambari
作为hadoop生态系统的一部分,这个apache项目提供了基于web的直观界面,可用于配置、管理和监控hadoop集群。有些开发人员想把ambari的功能整合到自己的应用程序当中,ambari也为他们提供了充分利用rest(代表性状态传输协议)的api。
支持的操作系统:windows、linux和osx。
3.avro
这个apache项目提供了数据序列化系统,拥有丰富的数据结构和紧凑格式。模式用json来定义,它很容易与动态语言整合起来。
4.cascading
cascading是一款基于hadoop的应用程序开发平台。提供商业支持和培训服务。
5.chukwa
chukwa基于hadoop,可以收集来自大型分布式系统的数据,用于监控。它还含有用于分析和显示数据的工具。
支持的操作系统:linux和osx。
6.flume
flume可以从其他应用程序收集日志数据,然后将这些数据送入到hadoop。官方网站声称:“它功能强大、具有容错性,还拥有可以调整优化的可靠性机制和许多故障切换及恢复机制。”
支持的操作系统:linux和osx。
7.hbase
hbase是为有数十亿行和数百万列的超大表设计的,这是一种分布式数据库,可以对大数据进行随机性的实时读取/写入访问。它有点类似谷歌的bigtable,不过基于hadoop和hadoop分布式文件系统(hdfs)而建。
8.hadoop分布式文件系统(hdfs)
hdfs是面向hadoop的文件系统,不过它也可以用作一种独立的分布式文件系统。它基于java,具有容错性、高度扩展性和高度配置性。
支持的操作系统:windows、linux和osx。
9.hive
apachehive是面向hadoop生态系统的数据仓库。它让用户可以使用hiveql查询和管理大数据,这是一种类似sql的语言。
10.hivemall
hivemall结合了面向hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。
11.mahout
据官方网站声称,mahout项目的目的是“为迅速构建可扩展、高性能的机器学习应用程序打造一个环境。”它包括用于在hadoopmapreduce上进行数据挖掘的众多算法,还包括一些面向scala和spark环境的新颖算法。
12.mapreduce
作为hadoop一个不可或缺的部分,mapreduce这种编程模型为处理大型分布式数据集提供了一种方法。它最初是由谷歌开发的,但现在也被本文介绍的另外几个大数据工具所使用,包括couchdb、mongodb和riak。
13.oozie
这种工作流程调度工具是为了管理hadoop任务而专门设计的。它能够按照时间或按照数据可用情况触发任务,并与mapreduce、pig、hive、sqoop及其他许多相关工具整合起来。
支持的操作系统:linux和osx。
14.pig
apachepig是一种面向分布式大数据分析的平台。它依赖一种名为piglatin的编程语言,拥有简化的并行编程、优化和可扩展性等优点。
15.sqoop
企业经常需要在关系数据库与hadoop之间传输数据,而sqoop就是能完成这项任务的一款工具。它可以将数据导入到hive或hbase,并从hadoop导出到关系数据库管理系统(rdbms)。
16.spark
作为mapreduce之外的一种选择,spark是一种数据处理引擎。它声称,用在内存中时,其速度比mapreduce最多快100倍;用在磁盘上时,其速度比mapreduce最多快10倍。它可以与hadoop和apachemesos一起使用,也可以独立使用。
支持的操作系统:windows、linux和osx。
17.tez
tez建立在apachehadoopyarn的基础上,这是“一种应用程序框架,允许为任务构建一种复杂的有向无环图,以便处理数据。”它让hive和pig可以简化复杂的任务,而这些任务原本需要多个步骤才能完成。
支持的操作系统:windows、linux和osx。
18.zookeeper
这种大数据管理工具自称是“一项集中式服务,可用于维护配置信息、命名、提供分布式同步以及提供群组服务。”它让hadoop集群里面的节点可以彼此协调。
支持的操作系统:linux、windows(只适合开发环境)和osx(只适合开发环境)。
相关推荐:《常见问题》
二、大数据分析平台和工具
19.disco
disco最初由诺基亚开发,这是一种分布式计算框架,与hadoop一样,它也基于mapreduce。它包括一种分布式文件系统以及支持数十亿个键和值的数据库。
支持的操作系统:linux和osx。
20.hpcc
作为hadoop之外的一种选择,hpcc这种大数据平台承诺速度非常快,扩展性超强。除了免费社区版外,hpccsystems还提供收费的企业版、收费模块、培训、咨询及其他服务。
支持的操作系统:linux。
21.lumify
lumify归altamira科技公司(以国家安全技术而闻名)所有,这是一种开源大数据整合、分析和可视化平台。你只要在try.lumify.io试一下演示版,就能看看它的实际效果。
支持的操作系统:linux。
22.pandas
pandas项目包括基于python编程语言的数据结构和数据分析工具。它让企业组织可以将python用作r之外的一种选择,用于大数据分析项目。
支持的操作系统:windows、linux和osx。
23.storm
storm现在是一个apache项目,它提供了实时处理大数据的功能(不像hadoop只提供批任务处理)。其用户包括推特、美国天气频道、webmd、阿里巴巴、yelp、雅虎日本、spotify、group、flipboard及其他许多公司。
支持的操作系统:linux。
三、数据库/数据仓库
24.blazegraph
blazegraph之前名为“bigdata”,这是一种高度扩展、高性能的数据库。它既有使用开源许可证的版本,也有使用商业许可证的版本。
25.cassandra
这种nosql数据库最初由facebook开发,现已被1500多家企业组织使用,包括苹果、欧洲原子核研究组织(cern)、康卡斯特、电子港湾、github、godaddy、hulu、instagram、intuit、netfilx、reddit及其他机构。它能支持超大规模集群;比如说,苹果部署的cassandra系统就包括75000多个节点,拥有的数据量超过10pb。
26.couchdb
couchdb号称是“一款完全拥抱互联网的数据库”,它将数据存储在json文档中,这种文档可以通过web浏览器来查询,并且用javascript来处理。它易于使用,在分布式上网络上具有高可用性和高扩展性。
支持的操作系统:windows、linux、osx和安卓。
27.flockdb
由推特开发的flockdb是一种非常快、扩展性非常好的图形数据库,擅长存储社交网络数据。虽然它仍可用于下载,但是这个项目的开源版已有一段时间没有更新了。
28.hibari
这个基于erlang的项目自称是“一种分布式有序键值存储系统,保证拥有很强的一致性”。它最初是由geminimobiletechnologies开发的,现在已被欧洲和亚洲的几家电信运营商所使用。
29.hypertable
hypertable是一种与hadoop兼容的大数据数据库,承诺性能超高,其用户包括电子港湾、百度、高朋、yelp及另外许多互联网公司。提供商业支持服务。
支持的操作系统:linux和osx。
30.impala
cloudera声称,基于sql的impala数据库是“面向apachehadoop的领先的开源分析数据库”。它可以作为一款独立产品来下载,又是cloudera的商业大数据产品的一部分。
支持的操作系统:linux和osx。
31.infobright社区版
infobright为数据分析而设计,这是一种面向列的数据库,具有很高的压缩比。infobright.com提供基于同一代码的收费产品,提供支持服务。
支持的操作系统:windows和linux。
32.mongodb
mongodb的下载量已超过1000万人次,这是一种极其受欢迎的nosql数据库。mongodb.com上提供了企业版、支持、培训及相关产品和服务。
支持的操作系统:windows、linux、osx和solaris。
以上就是大数据分析到底需要多少种工具的详细内容。
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product