真正的机器学习平台根本不存在?

  • 时间:
  • 浏览:0
  • 来源:大发彩神苹果下载app—大发彩神官方下载

原文发布时间:2019-12-17

本文作者:Ron Schmelzer;译者:核子可乐

本文来自阿里云云栖号合作最好的方法 最好的方法 伙伴“AI前线”,了解相关信息都也能关注“AI前线”

AI 前线导读: 过去几年,各大科技厂商开放了各种各样的“平台”,比如大数据平台、机器学习平台等,用于满足数据科学与机器学习需求,那此平台争相夺取数据科学家、机器学习项目经理以及一点 AI 项目管理与规划者的关注以及钱包。本文作者 Ron Schmelzer 是 AI 研究咨询公司 Cognilytica 的执行合伙人兼首席分析师,在他看来,要是 机器学习平台固然符合规范,却都也能不断地处市场份额。没法,机器学习平台应该具备那此条件?地处合格的机器学习平台吗?

云栖号:https://www.aliyun.com/#module-yedOfott8

第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策!

归根结底,机器学习项目经理我你要的要是 也能提升自身工作速率的工具。一点,机器学习项目僵化 多样,一点各有不同需求。其中一点项目专注于会话系统,有一点强调识别可能预测分析功能,都是一点主要面向强化学习可能自主系统。

云栖号:https://www.aliyun.com/#module-yedOfott8

第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策!

数据科学家们的任务是从海量数据中采集出有用信息,并将业务与运营信息转化为数据与数学语言。数据科学家都也能掌握统计学、概率、数学以及算法相关知识,借此从几瓶信息中采集有用的洞察见解。数据科学家还负责创建数据假设、运行数据测试与分析,而后将结果转换为组织内也能轻松查看与理解的形式。

更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)

一点,可能无法访问几瓶洁净车间数据,数据科学家的工作则会陷入困境。很明显,数据的提取、清理与移动并都是数据科学家的职责所在,那此工作应该由数据工程师负责完成。数据工程师面对的主要挑战要是 从各类系统中提取形态化算是形态化格式的数据,一点那此数据往往固然“洁净车间”——地处缺少字段、数据类型不匹配以及一点与数据形式相关的种种那此的大问题。

对于各大科技公司努力做机器学习平台的行为,我很能理解,毕竟作为主要的技术供应商,可能没在 AI 领域弄出点动静,可能比较慢就被市场遗忘了。一点,那此平台究竟是那此?为那此会经常出现没法激烈的市场竞争清况 ?

要回答你这个生活那此的大问题,关键在于意识到机器学习和数据科学项目,同以往典型应用应用程序池池或硬件开发项目之间的区别。过去,硬件与软件开发工作的重点在于系统可能应用应用程序池池功能。相反,数据科学与机器学习项目更强调数据管理,持续不断地从数据中学习知识,并对数据模型进行迭代演进。从以数据为中心的层厚来看,传统的开发流程与平台在类似于于新场景中根本无法正常起效。要是 ,让我们歌词 让我们歌词 让我们歌词 儿儿都也能新的平台。

一般来说,负责管理机器学习项目的人员不仅都也能管理 Notebook 跟生态系统,打理与一点 Notebook 的合作最好的方法 最好的方法 工作,共同还都也能统筹各类机器学习专用算法、库以及基础设施,进而在庞大且不断发展的数据集之上训练那此算法。理想的机器学习平台也能帮助机器学习工程师、数据科学家以及数据工程师了解哪种机器学习最好的方法 最为有效,如何调整超参数,在基于自有或云端的 CPU、GPU 或 TPU 集群上部署计算密集型机器学习训练,并提供用于管理与监控有监督与无监督训练模式所必需的生态系统。

毫无那此的大问题,不同规模的各类技术供应商都将重点放进平台开发上,毕竟数据科学家与机器学习项目经理都也能依赖那此平台来开发、运行、操作以及管理企业中正在使用的数据模型。

此外,数据科学家的工作重点固然在以代码为中心的集成开发环境(IDE)中。相反,Notebook 才是让我们歌词 让我们歌词 让我们歌词 儿的天地。Notebook 概念最初由 Mathematica 及 Matlab 等以数学为中心的学术型平台提出,目前在 Python、R 以及 SAS 社区当中非常流行。所谓 Notebook,其本质在于记录数据研究结果,并允许用户面向不同源数据加以运行,从而僵化 结果的可重复性。良好的 Notebook 应充当你这个生活共享式合作最好的方法 最好的方法 环境,数据科学家小组都也能在这里协同工作,并利用不断发展的数据集进行模型迭代。尽管,Notebook 不到算是代码开发的理想环境,但却也能为数据的合作最好的方法 最好的方法 、探索以及可视化提供强有力的支持。事实上,可能拥有足够的访问权限对接洁净车间数据,没法数据科学家们将毫不犹豫地利用 Notebooke 快速浏览大型数据集。

一点,一套纯数据科学平台应当满足以下要求:协助构建数据模型、选者最适合当前信息的假设、测试假设、不利于数据科学家团队之间的合作最好的方法 最好的方法 ,并随信息的不断变化推动数据模型的管理与开发。

事实上,机器学习平台和数据科学平台之间地处交集,类似于于都是采用数据科学技术与机器学习算法,并将其应用于大型数据集以开发机器学习模型。数据科学家每天使用的工具,与关注机器学习的科学家以及工程师们使用的工具也颇为类似于于。一点,类似于于固然代表相同,毕竟机器学习科学家与工程师的实际需求,与常规数据科学家与工程师还是地处一定差异的。

此外,那此模型的部署(可能运营)最好的方法 都是所区别。一点模型在云端或自有服务器内,都是一点模型被部署在边缘设备中,可能采用脱机批正确处理模式。数据科学家、数据工程师以及机器学习开发人员等群体在机器学习的应用、部署与需求等方面的差异,使得单一机器学习平台的概念几乎不具备实际可行性,这最终带来了“十八般武艺,样样稀松”的结果。

要是 ,当供应商在宣传中提到让我们歌词 让我们歌词 让我们歌词 儿拥没法人工智能可能机器学习平台时,让我们歌词 让我们歌词 让我们歌词 儿儿不妨多问一句:“是哪你这个生活平台?”,通过本文,相信让我们歌词 让我们歌词 让我们歌词 儿儿可能意识到这世界上地处着不只你这个生活机器学习平台,一点个人所有 面向不同的实际需求。多一点思考,也能确保让我们歌词 让我们歌词 让我们歌词 儿儿不必因身陷市场炒作而信错厂商、选错产品。

结果要是 ,在这场新兴斗争中,每位参与者都希望尽可能攫取更可观的市场份额。

谁能真正僵化 机器学习模型的创建、训练与迭代,谁就能在这场竞赛中胜出。

从你这个生活层厚来看,数据工程师实际上属于负责设计、构建以及安排数据的工程人员。优秀的数据科学平台还应帮助数据科学家轻松根据需求的增长动用计算能力。平台不必将数据集群克隆至本地计算机上即可始于英文英文工作,确保数据科学家始终以最简单便捷的最好的方法 访问算力与数据集。为了实现你这个生活目标,数据科学平台当然也都也能提供必要的数据工程功能。总结来讲,一套实用的数据科学平台应当具备一系列数据科学与数据工程功能元素。

对于那此供应商而言,未来的机器学习平台如同过去以及当下已地处的操作系统、云环境乃至移动开发平台一样。只要也能在数据科学和机器学习平台领域地处市场份额,厂商就也能在未来几十年获得宽裕的回报。

很明显,数据科学平台都也能提供一套可合作最好的方法 最好的方法 、交互式的可视化系统,用于机器学习模型的开发与管理,但在机器学习平台方面,原本的支持远远缺陷。如上所述,机器学习系统正常运作的一大核心挑战在于超参数的设置与调整。

作者 | Ron Schmelzer

译者 | 核子可乐

从概念层厚出发,机器学习模型都也能从数据中学习各类参数。换言之,机器学习模型实际学到的要是 数据参数,并借此将新数据拟合至当前模型中。超参数是你这个生活可配置的数据值,且无法在机器学习模型获取实际数据前预先设置。那此超参数将直接影响到各类因素,类似于于僵化 性以及学习速率等。不同的机器学习算法都也能不同的超参数组合,共同应当注意剔除其中固然要的超参数偏离 。在这方面,机器学习平台不不利于发现、设置并管理超参数,有点儿是非机器学习类数据科学平台所不具备的算法选者与比较等功能。

一点,目前市面上经常出现了你这个生活不同平台:其一专注于数据科学家与模型构建者的需求;其二强调对大数据及数据工程的管理;其三面向模型“搭建”与模型交互系统;其四则用于模型生命周期管理,即“机器学习运营”。要想真正践行机器学习平台做出的承诺,开发者都也能在这二个方面痛下苦功。

原文链接:https://www.forbes.com/sites/cognitiveworld/2019/12/12/theres-no-such-thing-as-the-machine-learning-platform/#326f9b96a8dd

谁能真正僵化 机器学习模型的创建、训练与迭代,谁就能在这场竞赛中胜出。在类似于于强大正确处理方案的帮助下,用户也能快速轻松地从笨拙的非智能系统,跨越至可利用机器学习功能,正确处理以往无法正确处理的那此的大问题。相比之下,那此无法适应机器学习功能需求的数据科学平台则将遭遇降级。同样的,那此纯天然具备数据工程能力的大数据平台也将在市场上成为赢家。未来的应用应用程序池池开发工具亦都也能着力将机器学习模型视为生命周期中的主要组成偏离 。总结来讲,机器学习运营才原本经常出现,且必将在未来几年内成为行业中的又一大事件。