如何在GPU上加速數(shù)據(jù)科學(xué)

2021-02-13 分類：網(wǎng)站建設(shè)

筆者按，數(shù)據(jù)科學(xué)家需要算力。無論您是用 pandas 處理一個(gè)大數(shù)據(jù)集，還是用 Numpy 在一個(gè)大矩陣上運(yùn)行一些計(jì)算，您都需要一臺(tái)強(qiáng)大的機(jī)器，以便在合理的時(shí)間內(nèi)完成這項(xiàng)工作。

在過去的幾年中，數(shù)據(jù)科學(xué)家常用的 Python 庫已經(jīng)非常擅長(zhǎng)利用 CPU 能力。

Pandas 的基礎(chǔ)代碼是用 C 語言編寫的，它可以很好地處理大小超過 100GB 的數(shù)據(jù)集。如果您沒有足夠的 RAM 來容納這樣的數(shù)據(jù)集，那么您可以使用分塊功能，它很方便，可以一次處理一個(gè)數(shù)據(jù)塊。

GPUs vs CPUs：并行處理

有了大量的數(shù)據(jù)，CPU 就不會(huì)切斷它了。

一個(gè)超過 100GB 的數(shù)據(jù)集將有許多數(shù)據(jù)點(diǎn)，數(shù)據(jù)點(diǎn)的數(shù)值在數(shù)百萬甚至數(shù)十億的范圍內(nèi)。有了這么多的數(shù)據(jù)點(diǎn)要處理，不管你的 CPU 有多快，它都沒有足夠的內(nèi)核來進(jìn)行有效的并行處理。如果你的 CPU 有 20 個(gè)內(nèi)核(這將是相當(dāng)昂貴的 CPU)，你一次只能處理 20 個(gè)數(shù)據(jù)點(diǎn)!

CPU 在時(shí)鐘頻率更重要的任務(wù)中會(huì)更好——或者根本沒有 GPU 實(shí)現(xiàn)。如果你嘗試執(zhí)行的流程有一個(gè) GPU 實(shí)現(xiàn)，且該任務(wù)可以從并行處理中受益，那么 GPU 將更加有效。

使用 Scikit-Learn 在 CPU 上運(yùn)行 DBSCAN 的結(jié)果

GPU 上帶 Rapids 的 DBSCAN

現(xiàn)在，讓我們用 Rapids 進(jìn)行加速!

首先，我們將把數(shù)據(jù)轉(zhuǎn)換為 pandas.DataFrame 并使用它創(chuàng)建一個(gè) cudf.DataFrame。pandas.DataFrame 無縫轉(zhuǎn)換成 cudf.DataFrame，數(shù)據(jù)格式無任何更改。

import pandas as pd  
import cudf  
X_df = pd.DataFrame({'fea%d'%i: X[:, i] for i in range(X.shape[1])})  
X_gpu = cudf.DataFrame.from_pandas(X_df)

然后我們將從 cuML 導(dǎo)入并初始化一個(gè)特殊版本的 DBSCAN，它是 GPU 加速的版本。DBSCAN 的 cuML 版本的函數(shù)格式與 Scikit-Learn 的函數(shù)格式完全相同：相同的參數(shù)、相同的樣式、相同的函數(shù)。

from cuml import DBSCAN as cumlDBSCAN  
db_gpu = cumlDBSCAN(eps=0.6, min_samples=2)

最后，我們可以在測(cè)量運(yùn)行時(shí)間的同時(shí)運(yùn)行 GPU DBSCAN 的預(yù)測(cè)函數(shù)。

%%time  
y_db_gpu = db_gpu.fit_predict(X_gpu)

GPU 版本的運(yùn)行時(shí)間為 4.22 秒，幾乎加速了 2 倍。由于我們使用的是相同的算法，因此結(jié)果圖也與 CPU 版本完全相同。

如何在GPU上加速數(shù)據(jù)科學(xué)

使用 cuML 在 GPU 上運(yùn)行 DBSCAN 的結(jié)果

使用 Rapids GPU 獲得超高速

我們從 Rapids 獲得的加速量取決于我們正在處理的數(shù)據(jù)量。一個(gè)好的經(jīng)驗(yàn)法則是，較大的數(shù)據(jù)集將更加受益于 GPU 加速。在 CPU 和 GPU 之間傳輸數(shù)據(jù)有一些開銷時(shí)間——對(duì)于較大的數(shù)據(jù)集，開銷時(shí)間變得更「值得」。

我們可以用一個(gè)簡(jiǎn)單的例子來說明這一點(diǎn)。

我們將創(chuàng)建一個(gè)隨機(jī)數(shù)的 Numpy 數(shù)組并對(duì)其應(yīng)用 DBSCAN。我們將比較常規(guī) CPU DBSCAN 和 cuML 的 GPU 版本的速度，同時(shí)增加和減少數(shù)據(jù)點(diǎn)的數(shù)量，以了解它如何影響我們的運(yùn)行時(shí)間。

下面的代碼說明如何進(jìn)行測(cè)試：

import numpy as np  
 
n_rows, n_cols = 10000, 100  
X = np.random.rand(n_rows, n_cols)  
print(X.shape)  
 
X_df = pd.DataFrame({'fea%d'%i: X[:, i] for i in range(X.shape[1])})  
X_gpu = cudf.DataFrame.from_pandas(X_df)  
 
db = DBSCAN(eps=3, min_samples=2)  
db_gpu = cumlDBSCAN(eps=3, min_samples=2)  
 
%%time  
y_db = db.fit_predict(X) 
 
%%time  
y_db_gpu = db_gpu.fit_predict(X_gpu)

檢查下面的 Matplotlib 結(jié)果圖：

如何在GPU上加速數(shù)據(jù)科學(xué)

當(dāng)使用 GPU 而不是 CPU 時(shí)，數(shù)量會(huì)急劇增加。即使在 10000 點(diǎn)(最左邊)，我們的速度仍然是 4.54x。在更高的一端，1 千萬點(diǎn)，我們切換到 GPU 時(shí)的速度是 88.04x!

本文名稱：如何在GPU上加速數(shù)據(jù)科學(xué)
URL標(biāo)題：http://www.rwnh.cn/news46/100796.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站策劃、軟件開發(fā)、標(biāo)簽優(yōu)化、網(wǎng)站改版、網(wǎng)站設(shè)計(jì)、服務(wù)器托管

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

如何在GPU上加速數(shù)據(jù)科學(xué)