EN

Vol.9

打开微信,点击底部的“发现”,使用“扫一扫” 即可将网页分享到我的朋友圈。

2018年关于数据科学、机器学习和AI的6个预测

  1. 3273
  2. 0

 QQ截图20171226111530.png

前言

现在是我们回顾过去的一年和向前看的时候了——在数据科学,机器学习和AI上,未来什么样的趋势会加速,什么事情会发生,以及未来一年什么事情不会发生? 我们一直在关注和报告这些趋势,我们搜索了网络,并访谈了一些专业人士,以了解别人的想法。只有少数趋势和技术看起来具有颠覆性或正在加速前进。以下我们的总结。

预测1:

模型生产和数据准备都将变得越来越自动化,同时更大的数据科学业务将集中在一个单一的平台上。这两个趋势都是为了回应有效和高效的理由。简而言之,让更少的数据科学家能够完成更多工作。 核心挑战是数据科学家仍然是稀缺资源。每当这样一个痛点出现时,我们预计市场会作出反应,这两个因素就是它的反应。两者从稍微不同的角度来看。

首先,尽管绝大多数新的数据科学家已经学会使用R或者Python,但是在一个的的数据科学团队中管理代码的一致性和准确性依然是有挑战的,更不用说调试。甚至到2016年的高级分析平台魔力象限,Gartner将Visual Composition Framework(拖放代码元素)视为门槛,没有提供此能力的公司甚至不会放进象限中。Gartner非常明确地表示,用代码工作与大型组织对质量、一致性、协作、速度和易用性的需求是不相容的。

Alteryx首席战略官Langley Eide提出了同样的预测:“数据科学将摆脱代码依赖。在2018年,我们将看到越来越多的通用框架被用于编码、管理和部署机器学习和分析过程。数据科学的价值将会越来越少,而更多的是关于技术的应用。我们将看到需要一个通用的、与代码无关的平台,业务分析师和数据科学家都可以保留现有的工作,并构建新的分析结果。“

我相信这个预测的第二个部分的影响是破坏性的,是自动化机器学习快速发展的必然结果。其中第一个出现在一年多前,我已经写了好几次关于这个领域的7到8个竞争者,如DataRobot、Xpanse Analytics和PurePredictive。这些反洗钱平台已经实现了一键式的数据和模型操作体验,非常便利,也具有很高的准确性。其中一些供应商也做了自动化的数据准备,包括功能创建和选择的可信工作。

Gartner表示,到2020年,超过40%的数据科学任务将被自动化。几乎每一个月,都有一个新的平台与我联系,希望在这个名单上得到认可。如果你看看许多已经获得的客户,你会发现保险、贷款、电信等大批量数据科学商店非常令人印象深刻。

即使像SAS这样的大型传统平台也提供了用于大批量模型创建和维护的日益自动化的模块,而像BigML这样的小型平台,即使不是完全自动化的用户界面,也会大大简化。

预测2:

数据科学继续发展专业化分工,这意味着神秘的“全栈”数据科学家将消失。 这个预言可能已经实现了。可能有一些小公司还没有收到信息,但试图找到一位数据科学家,无论程度或经验年限,已经很难有谁能做到这一切。

首先是深度学习和预测分析专家之间的区分。现在有可能将您的职业生涯只专注于在Tensorflow之上的CNN或RNN,同时不用关心及或理解传统的消费者偏好模型。

同样,不同行业的需求在预测分析的特殊应用方面也存在差别,因此行业经验与数据科学技能一样重要。在电信和保险领域,行业经验是关于客户的偏好、保留率和费率。电子商务,是关于推荐人、网络日志和点击流。在银行和信贷方面,您可以从事欺诈和滥用的异常检测工作。无论谁雇用你,他们都会寻找这些特定的技能和经验。

另外,数据科学家和数据工程师的完全分离还有很长一段时间。这是一个单独的技能路径的认定,一年多以前才开始出现。与数据科学家的分析技能不同,数据工程师在AWS中设置实例,或实施Spark Streaming,或仅创建数据湖所需的技能。也许10年前,有数据科学家掌握了这些工程师的技能,但这与早期个人电脑的情况类似,那时候一些电脑爱好者可以自己组装机箱。现在情况已经不同了。

预测3:

与数据科学家相比,非数据科学家将执行更复杂的分析。

就在几年前,平民数据科学家的想法被认为是幽默或危险的。无论多么努力,如果没有几年的培训和经验,人们如何能够创造预测分析,从而获得公司财务上的成功?

这里还是有风险的。你当然不希望把一个敏感的分析项目分配给刚刚开始训练的人。但实际情况是,高级分析平台、混合平台和数据平台已经变得更容易使用,特别是针对这一群用户的需求。为什么平台开发者如此关注呢?因为Gartner说平民数据科学家这个群体将会像受过训练的数据科学家集团一样快速增长5倍。

这两个群体之间总会有知识和经验差距,但是如果你管理公司的高级分析团队,你就会知道“数据民主化”这个“自服务”的代名词。在这里总会有一些风险要管理,但一个积极主动的业务经理或经验丰富的数据分析师已经提出了学习曲线,可以在这些新的平台上做一些非常复杂的事情。

Alteryx公司首席战略官Langley Eide表示,我们认为这些用户是从无代码到少量代码到代码友好的连续体。他们将要在我们的通用分析平台上占有一席之地。他们需要引导,但他们也会产生大量的分析工作,至少可以利用数据科学家的时间和技能。

预测4:

深度学习是复杂而艰难的。并不是所有数据科学家都擅长这方面的工作,这将阻碍人工智能的应用,直到深度学习平台得到显着简化和产品化。

有很多关于将AI移植到企业的讨论,当然还有很多VC支持AI初创公司。但几乎所有这些公司都希望将一些深度学习的能力应用于现实世界的垂直领域或问题集,而不是寻求改进工具。

Gartner表示,到2018年,深度神经网络将成为80%数据科学家工具箱的标准组成部分。不过我感觉这太乐观了。 试图简化深度学习的人群主要是云和深度学习提供商,比如亚马逊、微软、谷歌、英特尔、NVDIA等。但就目前而言,首先要找到一位具有良好资质的数据科学家,他们有能力完成这项工作(你见过他们为了吸引这些人而付出的薪水吗?)。

其次,这些平台仍然非常复杂和昂贵。除非租用大量昂贵的GPU节点,否则模型的训练时间以周为单位,而且仍有许多模型根本无法训练。超参数的优化目前知之甚少,我预计有些甚至还没有被正确识别。

我们都希望在使用这些深度学习工具时,可以像我们工具包中的其他算法一样合理地使用它们。第一个提供这种简单程度的提供商将获得丰厚的回报。这将不会在2018年。

预测5

尽管有炒作,但人工智能和深度学习渗透到更广泛的市场将比你想象的慢。 人工智能和深度学习似乎一下子变成了现实,在每项业务中如何或在何处应用人工智能都没有现存经验。我的感觉是,这些应用会实现,但比大多数人所期望的要慢得多。

首先,我们所了解的商业就绪的深度学习驱动人工智能实际上仅限于两个主要领域——文本/语音处理和图像/视频处理。这两个领域都足够可靠,在商业上是可行的,正在积极采用。 除技术之外,AI的主要形态将继续是NLP Chatbots。正如我们在最近的chatbots系列中所写的,2015年只有25%的公司甚至听说过聊天机器人。到2017年,有75%有计划构建一个。语音和文本正在迅速成为我们所有系统中的首选用户界面,2018年将迅速实现这一趋势。

然而,面部识别以外的深度学习AI(如图像和视频识别)的其他方面相当有限。将有一些面部和手势识别的采用,但这些都不是可能取悦梅西百货、星巴克或杂货店的客户的能力。 在使用CNN和RNN来优化软件集成以及其他相当模糊的应用场景中,有一些有趣的新兴发展可能不会很快得到关注。当然,我们的自动驾驶汽车也是基于强化学习的,但是我不认为2018年会成为现实。

预测6

公众(和政府)将开始仔细研究人工智能的有意和无意的社会和隐私影响。 预测分析跟踪我们的点击次数、我们的位置、甚至更多的数据,已经成为一个趋势。欧盟已经行使了隐私权,现在刚刚生效的新的GDPR法规已经记录下了被遗忘的权利。

在美国,好消息是政府还没有介入制定这种严厉的规定。是的,我们可以用透明的名义对一些贷款和健康模型使用的算法和数据进行限制。这也使得这些模型效率较低,因此更容易出错。

此外,公众正在迅速认识到,人工智能目前无法以足够的准确度识别罕见事件来保护它们。在吹捧自己的AI发现虚假新闻的能力、发现和删除仇恨言论、发现虐待未成年儿童的罪犯之后,Facebook、YouTube、Twitter、Instagram以及所有其他企业都很快惊讶的发现,其实唯一靠谱的方法依然是使用人类审稿人。这确实是需要解决的问题。 尽管如此,恕我直言,在线轨迹跟踪甚至个人设备的位置跟踪是值得入侵的,因为这能够提高效率和降低成本。毕竟,这些算法呈现给你的内容更符合你的口味,而且由于它降低了广告成本,所以也应该降低你购买的成本。您可以随时停用或关闭设备。然而,与即将到来的相比,这是小小的妥协。

主要归功于深度学习在图像识别方面的进步,研究人员最近展示了同行评审和精心设计的数据科学研究,表明他们可以通过面部识别从非犯罪分子中区分犯罪分子。

原则性问题是,虽然您可以关闭手机或选择不被在线追踪,但追踪和记录我们脸部的摄像机过于泛滥,导致在我们没法避免自己的脸部照片被放在面部识别数据库中。目前还没有广泛宣传这些系统的不利影响,但这是可以预期的后果,甚至2018年可能会出现。

特别提示:

移动观象台是TalkingData推出的一款免费的、公开的移动端大数据查询平台。

功能覆盖应用排行、公众号排行、App Store排行、终端指数、数据报告、市场洞察。

网址:http://mi.talkingdata.com

分享到微信朋友圈
打开微信,点击底部的“发现”,使用“扫一扫” 即可将网页分享到我的朋友圈。