一张图看懂数据科学
72 核的英特尔 Xeon Phi,数据处理速度赶上 GPU?
Linux 4.10 的三大改进之处
GitHub 邀请更多开发者参与其开源指南
每日推荐文章:如何设置 Linux 虚拟机进行机器学习开发?
这几天,该图在国外 LinkedIn 的开发者圈子中频频曝光。它标题为“什么是数据科学?”,将数据科学知识体系以尽可能简单、结构化的方式呈现出来,降低入门者梳理知识点的难度。雷锋网提醒,这张图由于力求简洁而有所疏漏,并没有覆盖所有核心知识点。比如美国数据科学家 Vincent Granville 就指出,他认为该图还可以加入 automated data science 。后者指的是机器到机器、或设备到设备之间的信息传递以及自动交易,比如广告网络中自动购买关键词的算法。
由于经过多重转载,最初发布者已不可考。
前天,美国数据服务商 Kx Systems 再次以跑分来秀肌肉——宣传自家数据处理工具的优越性。由于本次跑分使用了英特尔的旗舰机器学习 CPU,事情变得有些意思。
雷锋网了解到,此次评测使用了他们开发的 q 语言和 kdb+ 数据库, 运行于英特尔为并行计算而专门优化的旗舰 72 核 Xeon Phi 处理器平台,来处理 11 亿次纽约出租车运营的数据集(2009-至今)。
Kx 宣布:
"我们的数据处理速度,超出其它 CPU 技术不止四个量级,可与基于 GPU 的代码‘相提并论’。对于大多数数据科学家来说,他们需要快速载入、分析大型数据集,CPU 仍然是主流的选择。有的数据科学家为了更快的速度转到 GPU 平台。但他们往往发现:编写基于 GPU 的代码,为数据分析任务增添了额外的复杂性,并且推高了资源需求。因此无法在基于 CPU 的 kdb+/q 数据处理,与其他基于 GPU 的技术之间做公平对比。"
当然,这只是 Kx 的一家之言,也只是一个独立的案例,未必能够客观反映 Xeon Phi 的运算性能(更关键的问题还有性价比)。在 GPGPU (GPU 通用计算)浪潮之下,CPU 在人工智能、机器学习、深度学习和大数据处理中到底会担任何种角色,尚待我们进一步观察。
详情:
Kx Systems:https://kx.com/2017/01/25/kx-1-1-billion-taxi-ride-benchmark-highlights-advantages-kdb-architecture/
虚拟 GPU
针对 GPU 在虚拟机环境运行的低效问题,英特尔此前发布了一系列处理器扩展包:GVT-G。Linux 4.10 版本内核,终于加入了对 GVT-G 的原生支持。
更好的缓存控制技术
加入对英特尔 Cache Allocation Technology(CAT)技术的支持,并加入新系统工具 “perf c2c”。后者将改善在 NUMA 环境下,多个线程同时修改内存中的同一部段带来的效率问题。这两者都只支持英特尔 CPU。
Writeback 管理
KernelNewbies.org 评论道:“从诞生之日起,Linux 把内存数据同步到硬盘的方法一直很差劲。”而这将在 4.10 版本得到改善。导致系统延迟的运算,将会遭到节流,以让位于其它线程。
详情:http://www.infoworld.com/article/3174088/linux/3-little-things-in-linux-410-that-will-make-a-big-difference.html
更多关于 perf c2c:https://joemario.github.io/blog/2016/09/01/c2c-blog/
雷锋网此前报道,GitHub 发布开源指南 “Open Source Guides”,指点开发者如何参与新项目。日前在与 InfoQ 的对话中,GitHub 开源部门负责人 Brandon Keepers 表示,这份指南本身就是一个开源项目,希望能反映出社区的呼声和多年实践中总结的智慧。GitHub 希望更多开发者参与进来,提出开源指南的改进建议,分享他们的经验与技巧。
http://www.leiphone.com/news/201702/7CV4bGMMWttx1I3U.html
澳大利亚机器学习专家 Jason Brownlee,再次为大家奉上 ML 干货教程。相比 Windows 和 Mac OS,在 Linux 平台上进行机器学习开发具有许多天然优势,尤其在开发工具方面。
本教程基于 Python,分为三部分:
下载安装 VirtualBox。
下载 Fedora Linux,然后在虚拟机中安装
安装 Python 3 机器学习环境。
地址:http://machinelearningmastery.com/linux-virtual-machine-machine-learning-development-python-3/
相关文章: