您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

13种主流机器学xi的框架

2018/4/30 19:14:29发布72次查看
 1. apache spark mllibapache spark 最为人所知的是它是hadoop家族的一员,但是这个内存数据处理框架却是脱胎于hadoop之外,也正在hadoop生态系统以外为自己获得了名声。hadoop 已经成为可供使用的机器学xi工具,这得益于其不断增长的算法库,这些算法可以高速度应用于内存中的数据。
早期版本的spark 增强了对mlib的支持,mlib是主要面向数学和统计用户的平台,它允许 通过持久化管道特性将spark机器学xi工作挂起和恢复。2016年发布的spark2.0,对tungsten高速内存管理系统和新的dataframes流媒体api 进行了改进,这两点都会提升机器学xi应用的性能。 
2. h2oh2o,现在已经发展到第三版,可以提供通过普通开发环境(python, java, scala, r)、大数据系统(hadoop, spark)以及数据源(hdfs, s3, sql, nosql)访问机器学xi算法的途径。h2o是用于数据收集、模型构建以及服务预测的端对端解决方案。例如,可以将模型导出为java代码,这样就可以在很多平台和环境中进行预测。
h2o可以作为原生python库,或者是通过jupyter notebook, 或者是 r studio中的r 语言来工作。这个平台也包含一个开源的、基于web的、在h2o中称为flow的环境,它支持在训练过程中与数据集进行交互,而不只是在训练前或者训练后。 
3. apache singa“深度学xi”框架增强了重任务类型机器学xi的功能,如自然语言处理和图像识别。singa是一个apache的孵化器项目,也是一个开源框架,作用是使在大规模数据集上训练深度学xi模型变得更简单。
singa提供了一个简单的编程模型,用于在机器群集上训练深度学xi网络,它支持很多普通类型的训练工作:卷积神经网络,受限玻尔兹曼机 以及循环神经网络。 模型可以同步训练(一个接一个)或者也异步(一起)训练,也可以允许在在cpu和gpu群集上,很快也会支持fpga。singa也通过apache zookeeper简化了群集的设置。 
3. caffe2深度学xi框架caffe开发时秉承的理念是“表达、速度和模块化”,最初是源于2013年的机器视觉项目,此后,caffe还得到扩展吸收了其他的应用,如语音和多媒体。 
因为速度放在优先位置 ,所以caffe完全用c+ +实现,并且支持cuda加速,而且根据需要可以在cpu和gpu处理间进行切换。分发内容包括免费的用于普通分类任务的开源参考模型,以及其他由caffe用户社区创造和分享的模型。
一个新的由facebook 支持的caffe迭代版本称为caffe2,现在正在开发过程中,即将进行1.0发布。其目标是为了简化分布式训练和移动部署,提供对于诸如fpga等新类型硬件的支持,并且利用先进的如16位浮点数训练的特性。 
4. google的tensorflow与微软的dmtk很类似,google tensorflow 是一个机器学xi框架,旨在跨多个节点进行扩展。 就像google的 kubernetes一样,它是是为了解决google内部的问题而设计的,google最终还是把它作为开源产品发布出来。
tensorflow实现了所谓的数据流图,其中的批量数据(“tensors”)可以通过图描述的一系列算法进行处理。系统中数据的移动称为“流”-其名也因此得来。这些图可以通过c++或者python实现并且可以在cpu和gpu上进行处理。
tensorflow近来的升级提高了与python的兼容性,改进了gpu操作,也为tensorflow能够运行在更多种类的硬件上打开了方便之门,并且扩展了内置的分类和回归工具库。 
5. 亚马逊的机器学xi亚马逊对云服务的方法遵循一种模式:提供基本的内容,让核心受众关注,让他们在上面构建应用,找出他们真正需要的内容,然后交付给他们。
亚马逊在提供机器学xi即服务-亚马逊机器学xi方面也是如此。该服务可以连接到存储在亚马逊 s3、redshift或rds上的数据,并且在这些数据上运行二进制分类、多级分类或者回归以构建一个模型。但是,值得注意的是生成的模型不能导入或导出,而训练模型的数据集不能超过100gb。
但是,亚马逊机器学xi展现了机器学xi的实用性,而不只是奢侈品。对于那些想要更进一步,或者与亚马逊云保持不那么紧密联系的人来说,亚马逊的深度学xi机器图景包含了许多主要的深度学xi框架,包括 caffe2、cntk、mxnet和tensorflow。 
6. 微软的azure ml studio考虑到执行机器学xi所需的大量数据和计算能力,对于机器学xi应用云是一种理想环境。微软已经为azure配备了自己的即付即用的机器学xi服务-azure ml studio,提供了按月、按小时和免费的版本。(该公司的howoldrobot项目就是利用这个系统创立的。)你甚至不需要一个账户来就可以试用这项服务;你可以匿名登录,免费使用azure ml studio最多8小时。
azure ml studio允许用户创立和训练模型,然后把这些模型转成被其他服务所使用的api。免费用户的每个账号可以试用多达10gb的模型数据,你也可以连接自己的azure存储以获得更大的模型。有大范围的算法可供使用,这要感谢微软和第三方。 
近来的改进包括通过azure批处理服务、更好的部署管理控制和详细的web服务使用统计,对训练任务进行了批量管理。 
7. 微软的分布式机器学xi工具集在机器学xi问题中投入更多的机器,会取得更好的效果-但是开发在大量计算机都能运行良好的机器学xi应用却是挺伤脑筋的事。
微软的dmtk(分布式机器学xi工具集)框架解决了在系统集群中分布多种机器学xi任务的问题。
dmtk被认为是一个框架而不是一个完全成熟、随去随用的解决方案,因此包含算法的数量是很小的。然而,你还是会找到一些关键的机器学xi库,例如梯度增强框架(lightgbm),以及对于一些像torch和theano这样深度学xi框架的支持。
dmtk的设计使用户可以利用有限的资源构建最/大的群集。例如,群集中的每个节点都会有本地缓存,从而减少了与中/央服务器节点的通信流量,该节点为任务提供参数。
8. 微软的计算网络工具集在发布dmtk之后,微软又推出了另一款机器学xi工具集,即计算网络工具包,简称cntk。
cntk与google tensorflow类似,它允许用户通过一个有向图来创建神经网络。微软也认为cntk可以与诸如caffe、theano和 torch这样的项目相媲美,-此外cntk还能通过利用多cpu和gpu进行并行处理而获得更快的速度。微软声称在azure上的gpu群集上运行cntk,可以将为cortana的语音识别训练速度提高一个数量级。
最/新版的cntk 2.0通过提高精/确性提高了tensorflow的热度,添加了一个java api,用于spark兼容性,并支持kera框架(通常用于tensorflow)的代码。 
9. apache mahout在spark占据主流地位之前很久,mahout就已经开发出来,用于在hadoop上进行可扩展机器学xi。但经过一段长时间的相对沉默之后,mahout又重新焕发了活力,例如一个用于数学的新环境,称为samsara,允许多种算法可以跨越分布式spark群集上运行。并且支持cpu和gpu运行。
mahout框架长期以来一直与hadoop绑定,但它的许多算法也可以在hadoop之外运行。这对于那些最终迁移到hadoop的独立应用或者是从hadoop中剥离出来成为单独的应用都很有用。
10. veles (samsung)[veles]https://velesnet.ml/)是一个用于深度学xi应用的分布式平台,就像tensorflow和dmtk一样,它是用c++编写的,尽管它使用python来执行节点之间的自动化和协调。在被传输进群集之前,要对数据集分析并且进行自动的归一化,然后调用rest api来即刻使用已训练的模型(假定你的硬件满足这项任务的需要) 
veles不仅仅是使用python作为粘合代码,因为基于python的jupyter notebook 可以用来可视化和发布由一个veles集群产生的结果。samsung希望,通过将veles 开源将会刺激进一步的开发,作为通往windows和macos的途径。
11. mlpack 2作为一个基于c++的机器学xi库,mlpack最初产生于2011年,按照库的创立者想法,设计mlpack是为了“可扩展性,速度和易于使用。”mlpack既可以通过由若干行命令行可执行程序组成的“黑盒”进行操作,也可以利用c++ api来完成复杂的工作。
mlpack的第二版包含了许多新的算法,以及现有算法的重构,以提高它们的速度或使它们瘦/身。例如,它舍弃了boost库的随机数生成器,转而采用c++ 11的原生随机数功能。
mlpack的一个痼疾是缺少对于c++以为语言的支持。这就意味着其他语言的用户需要第三方库的支持,如这样的一个pyhton库。还有完成了一些工作来增加对matlab的支持,但是像mlpack这样的项目,在机器学xi的主要环境中直接发挥作用时,往往会获得更大的应用。
12. neonnervana,一家建立自己的深度学xi硬件和软件平台的公司(现在是英特尔的一部分),已经提供了一个名为“neon”的深度学xi的框架,它是一个开源项目。neon使用可插拔的模块,以实现在cpu、gpu或者nervana自己开发的芯片上完成繁重的任务。
neon主要是用python编写,也有一部分是用c++和汇编以提高速度。这使得该框架可以为使用python或者其他任何与python绑定框架进行数据科学工作的人所用。
许多标准的深度学xi模型,如lstm、alexnet和googlenet,都可以作为neon的预训练模型。最/新版本neon 2.0,增加了英特尔数学内核库来提高cpu的性能。 
13. marvin另一个相对近期的产品——marvin神经网络框架,是普林斯顿视觉集团的产物。marvin“生来就是被黑的”,正如其创建者在该项目文档中解释的那样,该项目只依赖于一些用c++编写的文件和cuda gpu框架。虽然该项目的代码很少,但是还是提供了大量的预训练模型,这些模型可以像项目本身代码一样,能够在合适的场合复用或者根据用户的需要共享。

西安飞凡网络技术咨询有限公司
400 011 2010

该用户其它信息

VIP推荐

400 011 2010
 发送短信
免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product