利用 GPU 的强大功能轻松加速数据科学、机器学习和 AI 工作流程。
借助高速 GPU 计算运行整个数据科学工作流程,并行开展数据加载、数据处理和机器学习,将端到端数据科学流程的速度提高 50 倍。
数据科学和机器学习是计算能力需求巨大的领域。分析模型精度的微小提升最低也能带来数十亿美元的价值。为构建更好的模型,数据科学家不辞辛苦,加紧训练、评估、迭代和再训练,以期获得高度准确的结果和性能模型。采用 RAPIDS™ 后,原本需要花费几天的流程现在只需几分钟即可完成,因此用户可以更加轻松、快速地构建和部署价值生成模型。借助 NVIDIA LaunchPad,您可以亲身进行 RAPIDS 实验。通过 NVIDIA AI Enterprise,我们可以在 AI 项目的各个方面为您的企业提供支持。
工作流程通过多次迭代将原始数据转换为训练数据,并将这些数据馈送到多个算法组合中,然后这些组合通过超参数调优找到模型、模型参数和数据特征的正确组合,从而达到最佳精度和性能。
RAPIDS 由一系列开源软件库和 API 组成,用于完全在 GPU 上执行数据科学流程,从而可将训练时间从几天缩短到几分钟。RAPIDS 以 NVIDIA® CUDA-X AI™ 为基础,融合了显卡、机器学习、深度学习、高性能计算 (HPC) 等领域多年来的发展成果。
有了数据科学,您可以使用更多的计算更快地获得见解。RAPIDS 会在底层利用 NVIDIA CUDA®,通过在 GPU 上运行整个数据科学训练流程,帮助您加速工作流程。这可以将模型训练时间从几天缩短到几分钟。
通过隐藏 GPU 的工作复杂性,甚至隐藏数据中心架构内的后台通信协议,RAPIDS 提供了完成数据科学的简单方法。随着越来越多的数据科学家使用 Python 等高级语言,我们必须要在实现加速的同时避免代码变更,这样才能迅速缩短开发时间。
RAPIDS 的运行位置不受限制,在云端或本地均可。您可轻松将其从工作站扩展到多 GPU 服务器,再到节点集群,并可在生产环境中与 Dask、Spark、MLFlow 和 Kubernetes 搭配部署。
对于使用数据科学获取任务关键型见解的企业组织而言,获得可靠的支持通常至关重要。NVIDIA AI Enterprise 是一款端到端 AI 软件套件,提供全球性的 NVIDIA 企业级支持,包括有保证的响应时间、优先安全通知、定期更新以及与 NVIDIA AI 专家交流的机会。
结果表明,针对小型及大规模的大数据分析问题,GPU 可以节省大量成本和时间。RAPIDS 使用 10TB 大小的常见 API(如 Pandas 和 Dask),相较于最高的 CPU 基准,其在 GPU 上的运行速度要快 20 倍。NVIDIA 解决方案仅使用 16 台 NVIDIA DGX A100 即可达到 350 台基于 CPU 的服务器的性能,而且在提供 HPC 级性能的同时,其成本效益提高了 7 倍以上。
常见的数据处理任务有多个步骤(数据流程),而 Hadoop 无法高效处理这些步骤。Apache Spark 通过在系统内存中保存所有数据解决了这个问题,这让数据流程变得更加灵活复杂,但也引入了新的瓶颈。在拥有数百个 CPU 节点的 Spark 集群上,即使是分析几百 GB 的数据也可能要花费数小时,甚至数天时间。为发挥数据科学的真正潜力,GPU 必须位于数据中心设计的中心,它包含以下五个要素:计算、网络、存储、部署和软件。一般来说,相较于 CPU,GPU 上的端到端数据科学工作流程要快 10 倍。
Plotly Dash 与 RAPIDS 相集成,即使是在单块 GPU 上也支持对多 GB 数据集进行实时、交互式视觉分析。
用于 Apache SPARK 的 RAPIDS 加速器 为 Apache Spark 提供了一组插件,该插件可利用 GPU 加速 RAPIDS 和 UCX 软件的处理。
RAPIDS 依靠 CUDA 基元进行低级别计算优化,但通过用户友好型 Python 接口实现了 GPU 并行化和高显存带宽。RAPIDS 支持从数据加载和预处理到机器学习、图形分析和可视化的端到端数据科学工作流程。它是功能完备的 Python 堆栈,可扩展到企业大数据用例。
RAPIDS 的数据加载、预处理和 ETL 功能基于 Apache Arrow 构建,用于加载、连接、聚合、过滤及以其他方式处理数据,且所有这些操作均是在数据科学家熟悉的类似 Pandas 的 API 中进行的。通常来说,用户的速度有望提升 10 倍甚至更多。
RAPIDS 的机器学习算法和数学基元遵循熟悉的类似于 scikit-learn 的 API。单块 GPU 和大型数据中心部署均支持 XGBoost、随机森林等主流工具。对于大型数据集来说,相较于同等功效的 CPU,这些基于 GPU 能够以 10 到 50 倍的速度更快完成任务。
RAPIDS 的图形算法(如 PageRank)和功能(如 NetworkX)高效利用了 GPU 的大规模并行计算能力,可将较大图形的分析速度提高 1000 倍以上。在单块 NVIDIA A100 Tensor Core GPU 上探索多达 2 亿个边缘节点,并在 NVIDIA DGX™ A100 集群上扩展至数十亿个边缘节点。
RAPIDS 的可视化功能支持 GPU 加速的交叉过滤。受原始版本的 JavaScript 启发,它可以对超过 1 亿行表格数据集进行超快速的交互式多维过滤。
虽然深度学习在计算机视觉、自然语言处理和推荐系统等领域十分有效,但在某些领域却不能大范围推广。表格数据问题中包含多列分类变量和连续变量,通常采用诸如 XGBoost、梯度提升或线性模型之类的技术。RAPIDS 简化了 GPU 上表格数据的预处理,并将数据直接无缝移交至支持 DLPack 的任何框架,例如 PyTorch、TensorFlow 和 MxNet。这些集成让您有机会搭建丰富的工作流程,即使是之前出于某些原因无法实现的搭建也能完成,例如将深度学习框架中创建的新功能反馈回机器学习算法。
在企业中构建 AI 优化的数据中心有五个关键要素。设计的关键在于将 GPU 置于中心。
凭借出色的计算性能,采用 NVIDIA GPU 的系统已成为 AI 数据中心的核心计算构建块。NVIDIA DGX 系统提供开创性的 AI 性能,并且平均可以替代 50 台双路 CPU 服务器。这是为数据科学家提供业界超强数据探索工具的第一步。
通过隐藏数据中心架构中使用 GPU 和幕后通信协议的复杂性,RAPIDS 通过简单的方法来完成数据科学任务。随着越来越多的数据科学家使用 Python 等高级语言,我们必须要在实现加速的同时杜绝代码变更,这样才能迅速减少开发时间。
NVIDIA Mellanox® 网络接口控制器 (NIC)、NCCL2(NVIDIA 集合通信库)和 OpenUCX(开源的点对点通信框架)中的远程直接内存访问 (RDMA) 让训练速度有了大幅提升。借助 RDMA,GPU 可以在节点间以高达每秒 100GB (Gb/s) 的速度彼此直接进行通信,它们可以跨多个节点运行,且运行方式如同在一台大型服务器上的一样。
企业正在向 Kubernetes 和 Docker 容器迁移,以便大规模部署流程。通过将容器化应用程序与 Kubernetes 相结合,我们可以让企业更改最重要任务的优先级,并为 AI 数据中心增加弹性、可靠性和可扩展性。
借助 GPUDirect® Storage,NVMe 和 NVMe over Fabric (NVMe-oF) 可直接从 GPU 读取数据并将数据写入其中,无需占用 CPU 和系统内存。这样可以腾出 CPU 和系统内存来执行其他任务,同时让每块 GPU 以高达 50% 的带宽访问更高数量级的数据。
NVIDIA 致力于简化、统一和加速开源社区的数据科学。通过优化从硬件到软件的整个堆栈,消除迭代数据科学的瓶颈,NVIDIA 将帮助全球各地的数据科学家达到事半功倍的效果。这将让企业最宝贵的资源(即数据和数据科学家)为企业带来更多价值。作为 Apache 2.0 开源软件,RAPIDS 在 GPU 上整合了一个生态系统。