以下是翻译:
许多人对数据科学和机器学习感到困惑。让我们来看看如何学习:
在技术的大规模传播过程中,人类产生了大量的数据,这些数据太大了,无法进行处理和可视化。这些数据与我们的号召和行动轨迹、互联网行为、购物偏好、气候过程和许多其他方面相关。如果数据处理得当,企业可以从中受益匪浅。
这就是数据科学的全部含义:借助统计方法,我们可以了解特定领域并进行相应的工程设计,发现数据中的内部模式,并从中提取知识。然而,尽管这被称为科学,这种活动纯粹是为了实际利益——结果的实际适用性是必要的。
在这里,虽然有必要理解和解释这一现象,但最重要的是从数据中提取的知识对业务的实际适用性。是的,你不必是数学博士,你知道把炸薯条放在啤酒旁边可以增加利润,但是你需要向企业证明这是有效的。
1.为什么数据科学吸引了如此多的注意力?
主要原因是数据中隐藏的效率。每个公司都收集数据。分析数据使公司有机会制造更好的产品,吸引更多的目标客户,留住客户,改进业务流程等等。这些都可以通过大量的闲置数据来了解鲜为人知的过程优化方法和个性化方法。
数据科学的方法使我们能够不带偏见地从现有数据中得出客观的结论(主要是实践中的偏见),并从发现的模式中获得新的发现。但是,您应该明白数据并不总是有用的,您拥有的数据量并不重要。
术语定义和数据科学实践可能因公司而异。对于一家公司来说,数据科学团队可能是商业智能分析师,他用电子表格绘制图表并制作一些商业报告;对于另一家公司来说,它可能是一个端到端的开发部门,负责与客户沟通、数据分析、基础设施、构建生产就绪系统等。
但总的来说,很明显,数据科学家对特定领域有一定的了解,通常具有数学或统计学背景,并且知道如何处理数据,在哪里处理数据以及如何处理数据,并且他们通常没有开发或工程经验。当执行不同的任务时,他们将得到数据工程师或机器学习工程师的帮助(这完全取决于技能)。
机器学习如果它是用python写的,那么它就是机器学习。如果它是用powerpoint创建的,那么它就是人工智能。
在过去的任何时候,计算机都被编程来获得新的功能——人们为机器创造算法来获得预期的结果。对于任何需要自动化的可理解和确定的任务,这都是一种确定和可理解的方法。
但是有时候,虽然一项任务是可以理解的,但它包含一些不确定的因素,我们必须与这些无法消除的未知因素共存。
为了有效地处理这些问题,需要使用其他方法。正如人们所说,需要是发明之母(但是没有人知道发明之父是什么)。机器学习已经成为这种新方法。
在机器学习中,人们只给计算机提供一些介绍性的信息,但是算法的结果不是由人们决定的。一个人定义了机器学习的方式,但是机器自己从提供给它的数据中学习。机器本身会给出答案。这和你我学习的方式相似。
2.机器学习什么?
机器从相关任务(关于数据)的过去经验中学习,这反映在给定任务的特定指标的性能改进中。这个过程也可以称为适应(在这个过程中可能有更多的上下文)-机器根据新的信息调整它的行为。
这种适应似乎没有人为干预,有时给人的印象是机器在学习。机器学习本质上是一种数据分析方法,它使用迭代数据算法来自动建立分析模型。
机器学习允许计算机在不明确编写搜索程序的情况下找到隐藏的知识,这是一个关键的想法。事实上,我们向算法提供数据,程序执行的结果将成为处理新数据的逻辑。
机器学习项目包括以下三个方面:
首先,机器学习从数据开始,目标是从数据中提取知识或理解。
其次,机器学习涉及到一定程度的自动化。与其试图从数据中手动收集知识,不如使用计算机将过程或算法应用到数据中,这样计算机就可以帮助获取必要的知识。
第三,机器学习不是一个完全自动化的过程。正如任何从业者所说,机器学习需要你做出许多明智的决定,才能使整个过程成功。
数据科学和机器学习的过程使我们把整个数据科学/机器学习项目分成几个步骤,并仔细研究数据科学和机器学习的交叉。
根据项目的目标和方法,数据科学过程可能略有不同,但通常包括以下内容。
1、找到并确定目标
首先了解业务问题很重要。数据科学家应该提出适当的问题,理解并定义要解决的问题的目标。有时这并不总是容易的,因为企业本身想要很多,但没有具体的目标。
2.收集和存储数据
然后,他负责从多个来源(如思爱普服务器、应用编程接口数据库和在线存储)收集和抓取数据。有时所有的数据凡间狱无错版都是在一个方便的数据仓库中收集的,但有时你需要努力工作来获取数据。
在大多数情况下,数据工程团队在这个阶段帮助构建一个可靠的数据管道。
3.数据处理和清理
无论采用哪种机器学习算法,都不可能从包含太多噪声或与实际情况不一致的数据中学习到任何东西:无用的输入和输出。为了使整个项目成功,我们需要清理所获得的数据。
收集数据后,有必要对数据进行处理。这一阶段包括数据清理和数据转换。数据清理是最耗时的过程,因为它涉及处理许多复杂的场景。例如:
冲突的数据类型
拼写错误的属性
缺少值
重复值
4.数据分析
那么,对于商业和数据科学家来说,知道数据实际上能做什么是非常重要的,所以研究和分析数据是必要的。通过探索性数据分析,可以确定和优化下一步的变量选择。
5.数据建模
现在,这个过程进入核心数据科学处理,包括数据建模。数据科学家选择一个或多个潜在的模型和算法,并选择模型性能的指标。然后开始对数据应用统计和机器学习方法,以确定最能满足业务需求和手头任务的模型(这可以是一个简单的启发式方法)。
然后,从可用数据中训练模型,并进行测试以选择最有效的模型。这是一个反最好看的灵异小说复的过程,然而,它非常有创造性。
这一步经常被过分强调。很少有数据科学家注意将模型性能提高1%。一般来说,向用户发布一个“足够好”的模型更重要。“足够好”模型在生产中的效果比jupyter笔记本中的性能模型好100倍,好5-10%。
6.显示最终结果
最困难的部分还没有完成,包括可视化和交流。您需要再次会见客户和利益相关方,以简单有效地交付业务成果。
在这个阶段,项目可能会结束——也许业务已经达到其目标,或者概念验证没有披露业务的投资回报,因此不需要进一步的工作。
7.生产
最后,最重要的阶段开始了——您需要向用户展示数据科学团队的结果——部署和优化模型,并将其集成到其他业务流程中。
根据数据类型(点击流、批处理)、目标平台(aws、azure、内部部署等)的不同。)、需求(服务级别协议、水平可伸缩性等)。)和最终的技术堆栈,这一阶段可能会有很大不同。
本质上,机器学习活动的正常后续开发周期包括-优化模型、检查所有边缘条件、创建模型组件的生命周期、在生产环境中部署之前对模型进行预测试等。这是最佳实践(您可能不得不选择性能较低的型号)。归根结底,机器学习是软件。
8.监视
系统成功部署后,有必要引入一个监控系统——在这里,这并不意味着只启用日志记录——我是指更多的报告和工具栏,以便获得分析、计算和生成选定的指标以及可能的相关信息数据,并建立一个a/b测试系统等。
当然,我只介绍了实际项目中发生的一小部分,但我认为它应该让您知道构成常规数据科学/机器学习项目的基本活动。
结论
像所有其他领域一样,数据管理将向全堆栈发展。全堆叠工程师不仅专注于他们的主要领域,而且还知道如何制造其他相关部件。
因此,数据科学家将转向工程——增强他们对基础设施、代码设计和工具的理解。数据工程师正走向数据科学——试图理解统计学、算法和数据处理方法。最终,他们都将成为机器学习工程师。
如上所述,软件工程、开发和部署技能在生产级机器学习项目中更为重要。生产中的“足够好”的模型比朱拜特提到的具有更高性能的模型更好。
我认为数据科学家需要成为主要的顾问,他们可以为多个项目工作,开发工作可以由机器学习和数据工程师直接完成。数据科学的未来是数据工程。
文章来源:www.atolchina.com