GPU のパワーを活用し、データ サイエンス、機械学習、AI のワークフローを簡単に加速します。
高速な GPU コンピューティングによりデータ サイエンスのワークフロー全体を実行し、データのロード、データ操作、機械学習を並列化することで、エンドツーエンドのデータ サイエンス パイプラインを 50 倍高速化します。
データ サイエンスと機械学習は、世界最大のコンピューティング セグメントです。分析モデルの精度をわずかに改善するだけで、数十億円の収益につながります。最高のモデルを構築するために、データ サイエンティストは、高精度の結果と高性能なモデルのために、トレーニング、評価、反復、再トレーニングに労力を費やしています。RAPIDS™ なら、数日かかっていたプロセスが数分に短縮され、価値を生み出すモデルの構築と展開がより簡単に、より速く行えるようになります。NVIDIA LaunchPad では、RAPIDS ラボを実際に体験することができ、NVIDIA AI Enterprise では、AI プロジェクトのあらゆる側面から企業をサポートすることが可能です。
ワークフローには、未加工のデータをトレーニングデータに変換する多くの反復があります。トレーニング データは、多くのアルゴリズムの組み合わせに入力され、最適な精度とパフォーマンスを実現するために、ハイパーパラメーター チューニングを行ってモデル、モデル パラメーター、およびデータ特徴の正しい組み合わせを見つけます。
RAPIDS は、データ サイエンス パイプライン全体を GPU で実行するためのオープンソース ソフトウェア ライブラリと API のスイートで、トレーニング時間を数日から数分に短縮できます。NVIDIA^®^ CUDA-X AI^™^ で構築された RAPIDS は、グラフィックス、機械学習、ディープラーニング、ハイパフォーマンス コンピューティング (HPC) などの数年間にわたる開発の成果です。
データ サイエンスでは、より多くのコンピューティングにより、より速くインサイトを得ることができます。RAPIDS は、NVIDIA CUDA® を活用し、データ サイエンスのトレーニング パイプライン全体を GPU で実行することにより、ワークフローを高速化します。これにより、モデルのトレーニング時間を数日から数分に短縮することができます。
RAPIDS を利用すると、GPU を使った複雑な作業に加え、データ センター アーキテクチャ内の背後で実行される通信プロトコルも表に出なくなるため、データ サイエンスをシンプルに行えます。Python などのハイレベルな言語を使用するデータ サイエンティストが増えているため、開発期間を迅速に短縮するためには、コードの変更することなく高速化を実現することが不可欠です。
RAPIDS は、クラウドでもオンプレミスでも、どこでも実行できます。ワークステーションからマルチ GPU サーバー、マルチノード クラスターに簡単にスケールできます。また、Dask、Spark、MLFlow、Kubernetes で運用環境にデプロイできます。
信頼できるサポートへのアクセスは、極めて重要な知見や洞察のためにデータ サイエンスを用いる組織にとって不可欠であることが多いです。グローバルな NVIDIA Enterprise サポートは、エンドツーエンドの AI ソフトウェア スイートである NVIDIA AI Enterprise で利用でき、応答時間の保証、優先的なセキュリティ通知、定期的なアップデート、NVIDIAの AI エキスパートへのアクセスなどが含まれています。
GPU は規模にかかわらず、ビッグ データ分析問題のコストを劇的に削減し、時間を大幅に節約するという結果が出ています。RAPIDS では Pandas や Dask などの一般的な API を使用しており、GPU により 10 テラバイトの規模で最上位 CPU の最大 20 倍高速なパフォーマンスを実現します。わずか 16 基の NVIDIA DGX A100 で CPU ベースのサーバー 350 台分のパフォーマンスを達成する NVIDIA のソリューションは、7 倍以上の費用対効果で HPC レベルのパフォーマンスを実現します。
一般的なデータ処理タスクには多数の段階 (データ パイプライン) がありますが、これは Hadoop では効率的に処理できません。Apache Spark では、すべてのデータをシステム メモリに保持することでこの問題を解決し、より柔軟で複雑なデータ パイプラインを可能にしましたが、別のボトルネックが出現しました。数百の CPU ノードによる Spark クラスターでは、数百ギガバイト (GB) のデータ分析でさえ、数日とまではいかなくとも何時間も必要だったのです。データ サイエンスの真の可能性を引き出すには、GPU がデータ センター設計の中心となり、コンピューティング、ネットワーキング、ストレージ、デプロイ、ソフトウェアの 5 つの要素で構成されている必要があります。通常、GPU によるエンドツーエンドのデータ サイエンス ワークフローでは、CPU の 10 倍高速化します。
RAPIDS に統合された Plotly Dash は、1 基の GPU であっても、数ギガバイトのデータセットのビジュアル分析をリアルタイムでインタラクティブに行うことができます。
RAPIDS Accelerator for Apache Spark は Apache Spark 向けのプラグイン セットです。GPU を活用し、RAPIDS と UCX ソフトウェアを介して処理を高速化します。
RAPIDS では、CUDA プリミティブを使用して低レベルのコンピューティング最適化を行っていますが、使いやすい Python のインターフェイスにより、GPU 並列処理と高メモリ帯域幅が利用可能になっています。RAPIDS では、データの読み込みや前処理から機械学習、グラフ解析、ビジュアライゼーションに至るまで、エンドツーエンドのデータ サイエンス ワークフローをサポートしています。フル機能の Python スタックで、企業レベルでビッグデータのユースケースにも対応可能です。
RAPIDS のデータ読み込み、前処理、ETL 機能は Apache Arrow 上で構築されており、データの読み込み、結合、集計、フィルタリングやその他の操作を、すべてデータ サイエンティストが使い慣れた Pandas に似た API で実行します。通常は 10 倍以上の高速化を見込むことができます。
RAPIDS の機械学習アルゴリズムと数学的プリミティブは、一般的な scikit-learn に似た API に従います。XGBoost や Random Forest などの人気のある多数のツールは、単一の GPU でのデプロイと大規模データセンターでのデプロイの両方をサポートしています。大型のデータセットの場合、この GPU ベースの実装では、10-50X faster than their CPU での場合と比較して 10 倍から 50 倍の速度で処理を完了できます。
RAPIDS の PageRank のようなアルゴリズムや、NetworkX のような関数により、GPU の大規模な並列処理を効率的に利用し、大型グラフの分析を 1000 倍以上高速化します。1 基の NVIDIA A100 Tensor コア GPU で最大 2 億個のエッジを処理し、NVIDIA DGX™ A100 クラスターで数十億個のエッジにスケーリングできます。
RAPIDS のビジュアライゼーション機能では、GPU 対応のクロスフィルタリングがサポートされています。オリジナルの JavaScript 版の影響を受けており、1 億行以上の表形式データセットの多次元フィルタリングをインタラクティブに、また超高速で実行できます。
ディープラーニングはコンピューター ビジョン、自然言語処理、レコメンダーなどの分野で効果を発揮しますが、ディープラーニングの使用が主流になっていない分野があります。カテゴリ変数と連続変数の列で構成される表形式のデータ問題では、一般的に XGBoost、勾配ブースティング、線形モデルのような手法を利用します。RAPIDS では、GPU で表形式データの前処理を効率化し、PyTorch、TensorFlow、MxNet などの DLPack をサポートするフレームワークに直接データをシームレスに渡します。このような統合により、ディープラーニング フレームワークで作成した新機能を機械学習アルゴリズムに差し戻すなど、かつては意味がないと見なされていた、可能性豊かなワークフローを作成する新たな機会が開かれます。
企業で AI に最適化されたデータ センターを構築する場合、主要な構成要素が 5 つあります。設計の主眼は、GPU を中心に置くということです。
膨大な計算処理能力を誇る NVIDIA GPU を備えたシステムは、AI データ センターの核となるコンピューティング構成要素です。NVIDIA DGX Systems は画期的な AI パフォーマンスを実現し、平均でデュアルソケット CPU サーバー 50 台分に代わる働きをします。これは、業界で最もパワフルなデータ探索ツールをデータ サイエンティストに与える最初の一歩となります。
RAPIDS では、GPU による煩雑な作業やデータ センター アーキテクチャ内の裏側で稼働する通信プロトコルを表に出さず、データ サイエンス作業を行うシンプルな手法を作り出しています。Python などの高水準言語を使用するデータ サイエンティストが増えているため、開発期間を迅速に短縮するためには、コードの変更なしで高速化を提供することが必須です。
NVIDIA Mellanox® ネットワーク インターフェイス コントローラー (NIC) のリモート ダイレクト メモリ アクセス (RDMA)、NCCL2 (NVIDIA コレクティブ コミュニケーション ライブラリ)、OpenUCX (オープンソースのポイント間通信フレームワーク) により、トレーニング速度が大幅に改善されました。RDMA により、GPU はノード間の直接相互通信を最大で毎秒 100 ギガビット (Gb/秒) の速度で行うことができるため、複数のノードを 1 つの巨大なサーバーのように運用することが可能です。
企業はパイプラインを大規模展開するため、Kubernetes と Docker コンテナーに移行しています。コンテナー化されたアプリケーションを Kubernetes と組み合わせることで、企業は重要度に基づいてタスクの優先順位を変更し、AI データ センターに弾力性、信頼性、スケーラビリティを与えます。
GPUDirect® Storage により、NVMe と NVMe over Fabric (NVMe-oF) の両方で、CPU とシステム メモリを介さずに直接 GPU でデータの読み取りと書き出しを行うことができます。この結果、解放された CPU とシステムメモリを他のタスクに使用することができ、各 GPU は最大 50% 向上した帯域幅で桁違いに多いデータにアクセス可能になります。
NVIDIA は、オープンソース コミュニティのため、データ サイエンスの簡素化、統一化、高速化に取り組んでいます。NVIDIA は、ハードウェアからソフトウェアまでのスタック全体を最適化し、反復データ サイエンスのボトルネックを解消することで、世界中のデータ サイエンティストがこれまで以上に低いコストで多くのことを実行できるよう支援しています。これは、企業にとって最も貴重なリソースであるデータおよびデータ サイエンティストの価値を高めることになります。RAPIDS は、Apache 2.0 オープンソース ソフトウェアとして、GPU にエコシステムを構築します。