13种主流机器学xi的框架

1. apache spark mllibapache spark 最为人所知的是它是hadoop家族的一员，但是这个内存数据处理框架却是脱胎于hadoop之外，也正在hadoop生态系统以外为自己获得了名声。hadoop 已经成为可供使用的机器学xi工具，这得益于其不断增长的算法库，这些算法可以高速度应用于内存中的数据。
早期版本的spark 增强了对mlib的支持，mlib是主要面向数学和统计用户的平台，它允许通过持久化管道特性将spark机器学xi工作挂起和恢复。2016年发布的spark2.0，对tungsten高速内存管理系统和新的dataframes流媒体api 进行了改进，这两点都会提升机器学xi应用的性能。
2. h2oh2o，现在已经发展到第三版，可以提供通过普通开发环境(python, java, scala, r)、大数据系统(hadoop, spark）以及数据源(hdfs, s3, sql, nosql)访问机器学xi算法的途径。h2o是用于数据收集、模型构建以及服务预测的端对端解决方案。例如，可以将模型导出为java代码，这样就可以在很多平台和环境中进行预测。
h2o可以作为原生python库，或者是通过jupyter notebook, 或者是 r studio中的r 语言来工作。这个平台也包含一个开源的、基于web的、在h2o中称为flow的环境，它支持在训练过程中与数据集进行交互，而不只是在训练前或者训练后。
3. apache singa“深度学xi”框架增强了重任务类型机器学xi的功能，如自然语言处理和图像识别。singa是一个apache的孵化器项目，也是一个开源框架，作用是使在大规模数据集上训练深度学xi模型变得更简单。
singa提供了一个简单的编程模型，用于在机器群集上训练深度学xi网络，它支持很多普通类型的训练工作：卷积神经网络，受限玻尔兹曼机以及循环神经网络。模型可以同步训练（一个接一个）或者也异步（一起）训练，也可以允许在在cpu和gpu群集上，很快也会支持fpga。singa也通过apache zookeeper简化了群集的设置。
3. caffe2深度学xi框架caffe开发时秉承的理念是“表达、速度和模块化”，最初是源于2013年的机器视觉项目，此后，caffe还得到扩展吸收了其他的应用，如语音和多媒体。
因为速度放在优先位置，所以caffe完全用c+ +实现，并且支持cuda加速，而且根据需要可以在cpu和gpu处理间进行切换。分发内容包括免费的用于普通分类任务的开源参考模型，以及其他由caffe用户社区创造和分享的模型。
一个新的由facebook 支持的caffe迭代版本称为caffe2，现在正在开发过程中，即将进行1.0发布。其目标是为了简化分布式训练和移动部署，提供对于诸如fpga等新类型硬件的支持，并且利用先进的如16位浮点数训练的特性。
4. google的tensorflow与微软的dmtk很类似，google tensorflow 是一个机器学xi框架,旨在跨多个节点进行扩展。就像google的 kubernetes一样，它是是为了解决google内部的问题而设计的，google最终还是把它作为开源产品发布出来。
tensorflow实现了所谓的数据流图，其中的批量数据（“tensors”）可以通过图描述的一系列算法进行处理。系统中数据的移动称为“流”-其名也因此得来。这些图可以通过c++或者python实现并且可以在cpu和gpu上进行处理。
tensorflow近来的升级提高了与python的兼容性，改进了gpu操作，也为tensorflow能够运行在更多种类的硬件上打开了方便之门，并且扩展了内置的分类和回归工具库。
5. 亚马逊的机器学xi亚马逊对云服务的方法遵循一种模式：提供基本的内容，让核心受众关注，让他们在上面构建应用，找出他们真正需要的内容，然后交付给他们。
亚马逊在提供机器学xi即服务-亚马逊机器学xi方面也是如此。该服务可以连接到存储在亚马逊 s3、redshift或rds上的数据，并且在这些数据上运行二进制分类、多级分类或者回归以构建一个模型。但是，值得注意的是生成的模型不能导入或导出，而训练模型的数据集不能超过100gb。
但是，亚马逊机器学xi展现了机器学xi的实用性，而不只是奢侈品。对于那些想要更进一步，或者与亚马逊云保持不那么紧密联系的人来说，亚马逊的深度学xi机器图景包含了许多主要的深度学xi框架，包括 caffe2、cntk、mxnet和tensorflow。
6. 微软的azure ml studio考虑到执行机器学xi所需的大量数据和计算能力，对于机器学xi应用云是一种理想环境。微软已经为azure配备了自己的即付即用的机器学xi服务-azure ml studio，提供了按月、按小时和免费的版本。(该公司的howoldrobot项目就是利用这个系统创立的。)你甚至不需要一个账户来就可以试用这项服务;你可以匿名登录，免费使用azure ml studio最多8小时。
azure ml studio允许用户创立和训练模型，然后把这些模型转成被其他服务所使用的api。免费用户的每个账号可以试用多达10gb的模型数据，你也可以连接自己的azure存储以获得更大的模型。有大范围的算法可供使用，这要感谢微软和第三方。
近来的改进包括通过azure批处理服务、更好的部署管理控制和详细的web服务使用统计，对训练任务进行了批量管理。
7. 微软的分布式机器学xi工具集在机器学xi问题中投入更多的机器，会取得更好的效果-但是开发在大量计算机都能运行良好的机器学xi应用却是挺伤脑筋的事。
微软的dmtk(分布式机器学xi工具集)框架解决了在系统集群中分布多种机器学xi任务的问题。
dmtk被认为是一个框架而不是一个完全成熟、随去随用的解决方案，因此包含算法的数量是很小的。然而，你还是会找到一些关键的机器学xi库，例如梯度增强框架(lightgbm)，以及对于一些像torch和theano这样深度学xi框架的支持。
dmtk的设计使用户可以利用有限的资源构建最/大的群集。例如，群集中的每个节点都会有本地缓存，从而减少了与中/央服务器节点的通信流量，该节点为任务提供参数。
8. 微软的计算网络工具集在发布dmtk之后，微软又推出了另一款机器学xi工具集，即计算网络工具包，简称cntk。
cntk与google tensorflow类似，它允许用户通过一个有向图来创建神经网络。微软也认为cntk可以与诸如caffe、theano和 torch这样的项目相媲美，-此外cntk还能通过利用多cpu和gpu进行并行处理而获得更快的速度。微软声称在azure上的gpu群集上运行cntk，可以将为cortana的语音识别训练速度提高一个数量级。
最/新版的cntk 2.0通过提高精/确性提高了tensorflow的热度，添加了一个java api，用于spark兼容性，并支持kera框架(通常用于tensorflow)的代码。
9. apache mahout在spark占据主流地位之前很久，mahout就已经开发出来，用于在hadoop上进行可扩展机器学xi。但经过一段长时间的相对沉默之后，mahout又重新焕发了活力，例如一个用于数学的新环境，称为samsara，允许多种算法可以跨越分布式spark群集上运行。并且支持cpu和gpu运行。
mahout框架长期以来一直与hadoop绑定，但它的许多算法也可以在hadoop之外运行。这对于那些最终迁移到hadoop的独立应用或者是从hadoop中剥离出来成为单独的应用都很有用。
10. veles (samsung)[veles]https://velesnet.ml/)是一个用于深度学xi应用的分布式平台，就像tensorflow和dmtk一样，它是用c++编写的，尽管它使用python来执行节点之间的自动化和协调。在被传输进群集之前，要对数据集分析并且进行自动的归一化，然后调用rest api来即刻使用已训练的模型（假定你的硬件满足这项任务的需要）
veles不仅仅是使用python作为粘合代码，因为基于python的jupyter notebook 可以用来可视化和发布由一个veles集群产生的结果。samsung希望，通过将veles 开源将会刺激进一步的开发，作为通往windows和macos的途径。
11. mlpack 2作为一个基于c++的机器学xi库，mlpack最初产生于2011年，按照库的创立者想法，设计mlpack是为了“可扩展性，速度和易于使用。”mlpack既可以通过由若干行命令行可执行程序组成的“黑盒”进行操作，也可以利用c++ api来完成复杂的工作。
mlpack的第二版包含了许多新的算法，以及现有算法的重构，以提高它们的速度或使它们瘦/身。例如，它舍弃了boost库的随机数生成器，转而采用c++ 11的原生随机数功能。
mlpack的一个痼疾是缺少对于c++以为语言的支持。这就意味着其他语言的用户需要第三方库的支持，如这样的一个pyhton库。还有完成了一些工作来增加对matlab的支持，但是像mlpack这样的项目，在机器学xi的主要环境中直接发挥作用时，往往会获得更大的应用。
12. neonnervana，一家建立自己的深度学xi硬件和软件平台的公司(现在是英特尔的一部分)，已经提供了一个名为“neon”的深度学xi的框架，它是一个开源项目。neon使用可插拔的模块，以实现在cpu、gpu或者nervana自己开发的芯片上完成繁重的任务。
neon主要是用python编写，也有一部分是用c++和汇编以提高速度。这使得该框架可以为使用python或者其他任何与python绑定框架进行数据科学工作的人所用。
许多标准的深度学xi模型，如lstm、alexnet和googlenet，都可以作为neon的预训练模型。最/新版本neon 2.0，增加了英特尔数学内核库来提高cpu的性能。
13. marvin另一个相对近期的产品——marvin神经网络框架，是普林斯顿视觉集团的产物。marvin“生来就是被黑的”，正如其创建者在该项目文档中解释的那样，该项目只依赖于一些用c++编写的文件和cuda gpu框架。虽然该项目的代码很少，但是还是提供了大量的预训练模型，这些模型可以像项目本身代码一样，能够在合适的场合复用或者根据用户的需要共享。

西安飞凡网络技术咨询有限公司
400 011 2010

13种主流机器学xi的框架

VIP推荐