雷锋网消息,在昨日圣何塞举行的 Strata+Hadoop World 大会上,美国大数据服务商 Cloudera 发布了 Cloudera Data Science Workbench —— 一个运行于 Cloudera Enterprise,自助式的数据科学开发环境。目前该全新研发的软件尚在 beta 内测阶段。
雷锋网获知,相关技术来自于 Cloudera 去年收购的数据科学初创公司 Sense.io。该产品的最大特点是原生支持 Apache Spark、Hadoop 和 R、Python、Scala 等开发语言。 开发者能在 Cloudera 的企业平台上同时使用这些工具和语言,这将加速数据分析项目从研发到最终产品的过程。
Cloudera 高级副总裁 Charles Zedlewski 表示:
“Cloudera 专注于提升数据科学和工程团队的使用体验,尤其是想要用 Spark 来协助数据处理和机器学习,来对分析任务进行扩展的用户。对 Sense.io 的收购,以及其团队的加入,为该产品提供了牢固的基石。Data Science Workbench 向我们的客户,提供了开展大规模自助式数据科学工作的能力。”
Charles Zedlewski (中)
那么,Cloudera Data Science Workbench 具体能够带来什么?
对于数据科学家:
能在多个开源软件库和框架上使用 R, Python 和 Scala。可以直接在浏览器使用。
使用 Spark 和 Impala,能直接从十分安全的 Hadoop 数据簇获取数据。
与团队分享经验。
对于 IT 管理者:
给你的数据科学团队更高的工作灵活性
服从完整的 Hadoop 安全方案,尤其是 Kerberos
既能在本地运行,也能在云端。
现在,正是数据科学开源浪潮一浪高过一浪,不但席卷 Python 和 R语言生态,还吸纳进各个深度学习框架(比如 Tensorflow、Microsoft Cognitive Toolkit、MXnet、BigDL 等)的时候。数据科学团队需要将这些工具应用于 Hadoop 环境下的数据。Cloudera Data Science Workbench 便是为此而设计。
雷锋网消息,在大会上 Charles Zedlewski 进一步解释道:
“我们的 IT 企业客户往往对于怎么让数据科学家在分享环境下工作十分头疼。这是由于,数据科学家们的需求十分多样,尤其是涉及到开源工具。这经常导致重复工作、有限的安全性和管理,以及 analytic silos。同时,数据科学家一直在寻找,把他们的工作扩展到更大的数据集和更强大计算平台上的方法。通过 Data Science Workbench,Cloudera 帮助 IT 团队和数据科学家相互协作,把更多用户带到共享的环境中。我们的方案既保证灵活性,又在关键的安全环节不妥协。”
详情:https://www.cloudera.com/products/data-science-and-engineering/data-science-workbench.html
via globe news wire