RAPIDS 发布于2018年10月10日的GTC Europe大会上,是一款针对数据科学和机器学习的GPU加速平台,为数据科学家提供标准化的流水线式工具,数据处理速度较仅用CPU提升50倍。
什么是 RAPIDS?
NVIDIA创建了RAPIDS--一种开源数据分析和机器学习加速平台。
RAPIDS基于Python,具有类似Pandas和类似Scikit-Learn的界面;
Apache Arrow内存数据格式,可以从1GPU 扩展到多GPU和多个节点。
RAPIDS可以轻松集成到世界上最流行的基于Python的数据科学工作流程中。
RAPIDS端到端地加速数据科学 - 从数据准备到机器学习,再到深度学习。
用户可以通过Arrow,Spark轻松地将数据移动到RAPIDS平台中加速。
构成RAPIDS的组件是什么?
DataFrame-cuDF- 这是一个基于GPU Apache Arrow的GPU加速的DataFrame操作库。它旨在为模型训练做数据清洗和数据准备。Python绑定了内核加速,底层CUDA C ++内核映射到pandas API,能够实现从pandas无缝迁移。
机器学习库 - cuML -GPU加速机器的集合学习库最终将提供所有机器学习算法的GPU版本,可在Scikit-Learn 中获得。
Graph Analytics库 - cuGRAPH -这个图形分析库的集合无缝集成到 RAPIDS 数据科学软件套件中。
深度学习库 -RAPIDS提供本机array_interface支持。这意味着存储在Apache Arrow中的数据可以无缝地推送到支持array_interface的深度学习框架如PyTorch和Chainer 等。
可视化库 -即将推出。 RAPIDS将包括基于Apache Arrow的紧密集成的数据可视化库。原生GPU内存数据格式提供高性能,高FPS数据可视化,即使对于非常大的数据集也是如此。
在整个数据科学工作流程中,RAPIDS 能够加速数据准备和模型训练。
上个月刚刚闭幕的 GTC China 2018, 英伟达CEO Jenson Huang也展示了几个客户应用RAPIDS的实际效果。
这意味着 RAPIDS 已有成功案例——华大基因、中国移动和平安科技。平安医疗智能辅助诊断“AI Doctor” 在DGX-1 上比在一个CPU节点上快 82 倍。
下图为应用RAPIDS的DGX-1与纯CPU nodes的基准测试数据,GPU 加速优势明显。
RAPIDS 得益于超大GPU内存,NVIDIA DGX-1,DGX-2,DGX Station,基于至少 4 个或更多NVLink连接的Tesla GPU 服务器是理想的硬件基础架构。
如果您在用传统的ML 算法,如NVIDIA已有的CUDA加速的常用机器学习库,包括但不限于XGBoost,K-NN,K-means,Random Forest,Gradient Boosted Decision Trees(GBDT),General线性模型,DBSCAN等,尤其是XGBoost,将特别适合。
思腾合力目前有DGX-1及DGX Station 真机各一台,欢迎来自大数据行业——金融、零售、电信、医疗、互联网等等的数据科学家与我们联系,更深入的了解 RAPIDS,用 DGX 体验和验证 GPU 加速的真实效果。我司将全力支持,测试体验活动免费。
欢迎扫描下图中二维码填报测试需求,思腾合力携手英伟达,提供全方位软硬件技术支持。
领取专属 10元无门槛券
私享最新 技术干货