雷锋网按:2016年眼看就要结束,外媒KDnuggets近期就机器学习、人工智能、大数据、数据科学和预测分析等领域在2016年取得的主要发展,以及2017年可能发生的变化趋势,询问了业内诸多的专家学者,组成了一个系列文章。昨天,雷锋网编译了其中关于大数据的文章:《大数据领域在2016年都有哪些成果及趋势?听听8位专家怎么说》,今天带来关于数据科学和预测分析的部分。
本文中一共采访了14位数据科学和预测分析领域的专家。除了表示大数据和预测分析技术将在2017年度得到更大的发展之外,他们普遍提到了通过大数据分析对2016美国总统大选结果预测失败一事,表达了目前预测分析技术的局限,以及对于原始数据可靠性的担忧。
以下由雷锋网编译,未经授权禁止转载。
1. Kirk D. Borne,Booz Allen Hamilton咨询公司首席数据科学家,天体物理学博士,数据科学领域顶尖的影响力人物。
2016年,我看到了下面几项和数据科学相关的重大发展:
1) 随着更多自主分析工具的出现,诞生了更多的平民数据科学家。
2) 深度学习技术被应用在越来越多的领域,包括文本分析。
3) 由人工智能驱动的智能聊天机器人开始在一些客服中心和售后中心试点。
4) 越来越多的企业/机构开始认识到大数据和数据科学带来的现实回报,从以往的“概念验证”(proofs of concept)逐渐转向了“价值验证”(proofs of value)。
5) 人工智能开始成为产品设计和生产过程中的重要技术组成,并且广泛出现在:车联网、物联网、智慧城市、制造业、供应链和机器保养等诸多领域。
在2017年,我认为边缘分析将与机器学习相结合(机器学习可以通过API接入或嵌入数据收集终端,甚至整合到传感器芯片架构中),推动边缘分析技术得到更广泛的应用。在这种趋势下,发生在系统前端(而不是云端)的各种突发状况将得到更好、更快速的实时分析,包括网络安全、数字营销、客户体验、医疗保健、发动机性能、自动驾驶和供应链等诸多领域都将获益。
Tom Davenport
2. Tom Davenport,波士顿大学特聘教授,国际数据分析研究所联合创始人,Deloitte会计师事务所高级顾问。
2016年的主要发展:
1) 数据分析分散化:经过一段时间的发展,各组织机构开始将数据分析业务分散到各个业务部门和职能部门,而不再将所有的数据分析任务集中于一点,这在许多情况下需要组织机构具有良好的协同工作能力。
2) 专有和开源技术相互整合:许多大型公司都在同时使用专有和开源相结合的大数据分析技术。
3) 认知分析技术的离散化:大的、单一的认知技术已经被分解为一系列的单功能API,这些API可以被用来组合形成一个完整的系统。
4) 各岗位职责的模糊化:定量分析师、数据分析师和认知应用开发者们之间的职责界限变得越来越模糊,一个人需要同时具备应用开发能力和数据分析能力的情况越来越多。
2017年可能出现的变化趋势:
1) 认知分析实用化:认知分析将从以往的“科学项目”逐步转向实际应用。
2) 模型假设的质疑:对2016年美国总统大选结果的预测失败,将引发更多的管理者开始质疑分析模型背后的假设是否合理。
3) 认知分析工具类别化:更多的组织机构开始理解各种认知分析工具的异同,并对其进行分类,以便更合理地将其应用于具体的业务问题。
4) 分析算法的透明化:各大具有影响力的机器学习开发者将持续推动认知分析算法的透明化,并避免使用非开源的算法。
3. Tamara Dull,SAS(Statistical Analysis System)公司高新技术研发主管。
我认为今年在大数据领域最重要的事情就是美国大选,虽然大部分利用大数据分析的预测结果最终被证明是错误的,但正是因为这件事的影响,普通民众开始探讨大数据、数据科学、预测分析等一些专业词汇。我们与大数据分析进行了一次广泛的亲密接触:包括数据的价值、数据的合理应用和滥用。
随着大数据持续渗透到我们工作和生活的方方面面、物联网的发展,对于各大公司和组织结构来说,确保数据的合理、安全和道德的使用,将成为一个越来越重要的课题。如果一家公司不懂得合理使用数据,那么他们的发展也不会长久。
4. John Elder,美国最大的分析咨询公司Elder Research的创始人兼董事长。
一年之前,科学杂志曾将一项研究评选为“2015年度科学突破”第二名,该研究试图重现几年前发表在心理学杂志上的100个顶级实验。但实际结果是,因为相关材料上记载的试验数据和流程错误很多,一般正确率大约只有5-35%不等,造成研究人员只成功重现了其中39个。我认为,类似于这样的由于原始数据本身的错误引发的虚假相关性结果并不在少数。将来,在科研人员和数据挖掘软件的帮助下,使用重复采样的办法(如目标重排)替换那些过时的重点公式,或许能更好地揭示随机事件的内在规律。当然,新的分析方法同样也需要出版和推广,但结果将更加可靠,不但帮助广大科研人员节省了大量的科研资源,同时还可能挽救许多病患的生命。
Anthony Goldbloom
5. Anthony Goldbloom,知名数据科学竞赛平台Kaggle的联合创始人兼CEO。
数据科学已经对Airbnb,Climate集团(现在的Monsanto)和Opendoor这样的公司产生了巨大影响。在2017年,他们强大的数据科学团队将继续对公司的重大决策产生影响。一个共同点是,这些公司都通过采用分析工具和优化分析流程的方式解决了数据科学方面的诸多痛点:包括数据流的共享和协作,以及如何将分析模型投入实际的业务产品。在2016年,学术研究的热门话题从深度神经网络转移到了强化学习和生成模型(Generative Models)。
2017年,我们将会看到更多数据科学方面的先进技术应用于现实业务的例子。例如将增强学习引入算法交易和广告定位。
6. Thomas Joseph,云服务供应商Quadrant 4公司的首席数据科学家。
虽然包括谷歌、亚马逊和Facebook在内的大数据“开拓者”,以及少数几家在早期就投入到大数据研究领域的公司目前正在通过数字化的大潮收获实质性的好处。但现实情况是,仍然存在大量的公司正在观望,尚未投入到大数据带来的数字化转型。我认为2017年一个最大的趋势就是:大数据和数字化将逐渐成为一个“大众化”的方式,被越来越多的企业重视。不过在初始阶段,这些企业投入数据科学的业务领域会相对较小,他们首先会通过小范围的尝试搞清楚数据科学究竟能为公司带来什么好处,然后再考虑是否将其大面积推广并制度化。从我们与许多客户的合作中可以看到,2017年将成为数据科学领域的一个爆发年。
7. Salil Mehta,数学与统计学领域的畅销书作者,统计学家,奥巴马政府问题资产救助计划(TARP)的参与成员。
2016年是数据科学大爆发的一年,大数据开始步入普通大众的视野。在2016年美国总统大选中(虽然最终未能预测成功),利用社交网络上公开发布的信息预测现实生活的做法开始为人所知。同时,无论是公司层面(例如Facebook的视频指标或其在中国的审查工具)还是个人层面(被篡改的Reddit评论或Twitter上的虚假新闻),特别是选举预测失败之后,人们开始意识到如何判断数据的真实、可靠是何等重要。而且,一些大型的科技公司是否值得信任,能够为每个人平等安全地提供差异化的数据使用规则,也值得考量。
8. Carla Gentry,Talent分析公司首席数据科学家。
十几年来,人力资源方面的工作都在通过HR个人的考察或者签署担保协议的方式来确保公司招揽到了具有真才实学的人,不但没有丝毫的改进,而且由此引发的人员摩擦和公共资源浪费也越来越多。
现在,一些公司已经通过数据科学和预测分析的方法对传统的人才招揽方式进行了优化,但遗憾的是整体力度和广度还远远不够。我认为,2017年使用大数据分析考察劳动力就业资格的方式将越来越普及,那些看到这一点的公司会在短期内得到回报,而那些继续遵循旧的人才招揽方式的企业,经营将越来越困难。
9. Pasha Roberts,Talent分析公司首席数据科学家。
企业通常都是依靠工业界或者医学界的心理学家们来解决员工的心理问题,这项工作大部分的内容包括设计测试问卷和选择培训课程等。不过最近一段时间,在工业界和医学界的心理学社区出现了一种全新的方式,即采用纯统计学的思路,利用更多的卡方检验,更少的AUC计算。我认为这种方式非常值的推广,有时候可以使用更多的数据科学和预测分析的方法。
可以很明显地看到一种趋势:一些心理学社区正在接受机器学习和现代数据科学的归纳方法。这是大数据领域一个令人激动的应用,我们希望看到这一趋势在2017年发展壮大。
10. Gregory Piatetsky-Shapiro,KDnuggets董事长,KDD峰会联合创始人,ACM SIGKDD联合创始人和前任主席。
我在2016年看到两个具有里程碑意义的数据科学相关活动。
1. DeepMind AlphaGo战胜围棋世界冠军李世石,是深度学习领域里一次里程碑式的胜利,同时也指导我们在更多具有丰富数据积累的领域取得更大进步。
2. 2016年美国大选的预测失败(以及类似的英国退欧的预测失败)提醒我们数据科学和预测分析在处理小数据,以及人类行为和隐性偏差时的局限性。2017年,我希望深度学习在更多数据积累丰富的领域取得成功,并希望数据科学家们从美国大选的预测失败中汲取经验教训。
11. Karl Rexer,Rexer分析公司董事长。
2016年,我们看到可用于显示各种数据类型和预测分析结果的图形化展示项目正在变得越来越丰富。和从前的条形图和折线图相比,这些全新的展示方式进步了太多。
2017年,预测分析领域可能会因为此前美国大选的预测失败进入一个短暂的低潮期。刚刚进入这一领域的新公司和机构可能会感到前所未有的压力,甚至对整个行业产生怀疑。我希望整个行业能够在2017年通力合作,更努力地向人们证明预测分析和数据科学的价值。
Bill Schmarzo
12. Bill Schmarzo,大数据领域知名作家,戴尔EMC服务CTO,USF执行会员,前雅虎数据分析业务副总裁。
2016年数据科学和预测分析领域最重大的事情可能就是2016年美国总统大选的预测失败了。曾经在2008年和2012年两次成功预测了美国总统大选结果的数据大神Nate Silver今年竟然连续在9个州预测失败,这不禁令人大跌眼镜。虽然目前我们几乎可以在所有行业和组织机构看到数据科学和预测分析的应用,但这次大选预测的重大失败,不得不引发整个数据行业的深思。
2017年,针对物联网行业的炒作将会继续,只有那些搞清楚物联网会在哪些方面、以怎样的方式获得商业价值的公司才能取得间歇性的发展。强调“智能”而不是“连接”的业务框架将胜出,取代那些沉溺于各种不同的物联网连接技术,执着于创造连接的公司。其实说到底,就是回答一个最简单的问题:你打算如何利用物联网技术助力于企业的既有商业模式?
13. Eric Siegel,Predictive Analytics World(预测分析世界)会议创始人。
通过最近两年与相关行业人士的交流,我认为预测分析技术在2017年将会进一步渗透到各个垂直领域,包括销售和营销、市场调研、电子商务,环境保护、金融服务、保险、新闻媒体、医疗保健、政府机构、人力资源、旅游、房地产、法律等等。同时,根据市场机会,Predictive Analytics World已经在医疗、政府机构和金融服务等领域扩大了覆盖深度,预测分析和数据科学的扩张趋势是不可阻挡的。
14. James Taylor,Decision Management Solutions(决策管理解决方案)公司CEO。
我认为2016年大数据领域最大的发展趋势就是:从业者普遍接受了机器学习和AI技术,而且开源语言分析工具相比于专有工具取得了绝对的胜利。这些技术进步成为了整个行业的前沿和中心,并且左右着企业的重大投资和战略决策。
关注预测分析技术造成了一个2017年最显著的发展趋势:将重点从“我们可以建立一个更好的分析模型”转移到“我们如何通过预测分析来改善业务”,即预测分析领域的商业价值链得到了完善。这意味着会有越来越多的企业投身于商业认知的提升,使用决策建模作为实例,将分析模型部署到产品系统,以及所有相关的组织架构调整。
来源:kdnuggets
【兼职召集令!】
如果你对未来充满憧憬,喜欢探索改变世界的科技进展,look no further!
我们需要这样的你:
精通英语,对技术与产品感兴趣,关注人工智能学术动态的萝莉&萌妹子&技术宅;
文字不求妙笔生花,但希望通俗易懂;
在这里,你会收获:
一群来自天南地北、志同道合的小伙伴;
前沿学术科技动态,每天为自己充充电;
更高的生活品质,翻翻文章就能挣到零花钱;
有意向的小伙伴们把个人介绍/简历发至 guoyixin@leiphone.com,如有作品,欢迎一并附上。