這篇文章主要為大家展示了“怎么將Scikit-learn Python庫(kù)用于數(shù)據(jù)科學(xué)項(xiàng)目”,內(nèi)容簡(jiǎn)而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“怎么將Scikit-learn Python庫(kù)用于數(shù)據(jù)科學(xué)項(xiàng)目”這篇文章吧。
為五常等地區(qū)用戶提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù),及五常網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、五常網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會(huì)得到認(rèn)可,從而選擇與我們長(zhǎng)期合作。這樣,我們也可以走得更遠(yuǎn)!
Scikit-learn 是一個(gè)開源 Python 庫(kù),擁有強(qiáng)大的數(shù)據(jù)分析和數(shù)據(jù)挖掘工具。 在 BSD 許可下可用,并建立在以下機(jī)器學(xué)習(xí)庫(kù)上:
NumPy
,一個(gè)用于操作多維數(shù)組和矩陣的庫(kù)。它還具有廣泛的數(shù)學(xué)函數(shù)匯集,可用于執(zhí)行各種計(jì)算。
SciPy
,一個(gè)由各種庫(kù)組成的生態(tài)系統(tǒng),用于完成技術(shù)計(jì)算任務(wù)。
Matplotlib
,一個(gè)用于繪制各種圖表和圖形的庫(kù)。
Scikit-learn 提供了廣泛的內(nèi)置算法,可以充分用于數(shù)據(jù)科學(xué)項(xiàng)目。
以下是使用 Scikit-learn 庫(kù)的主要方法。
分類工具識(shí)別與提供的數(shù)據(jù)相關(guān)聯(lián)的類別。例如,它們可用于將電子郵件分類為垃圾郵件或非垃圾郵件。
Scikit-learn 中的分類算法包括:
(SVM)
回歸涉及到創(chuàng)建一個(gè)模型去試圖理解輸入和輸出數(shù)據(jù)之間的關(guān)系。例如,回歸工具可用于理解股票價(jià)格的行為。
回歸算法包括:
(SVM)
Lasso(LCTT 譯注:Lasso 即 least absolute shrinkage and selection operator,又譯為最小絕對(duì)值收斂和選擇算子、套索算法)
Scikit-learn 聚類工具用于自動(dòng)將具有相同特征的數(shù)據(jù)分組。 例如,可以根據(jù)客戶數(shù)據(jù)的地點(diǎn)對(duì)客戶數(shù)據(jù)進(jìn)行細(xì)分。
聚類算法包括:
K-means
Mean-shift
降維降低了用于分析的隨機(jī)變量的數(shù)量。例如,為了提高可視化效率,可能不會(huì)考慮外圍數(shù)據(jù)。
降維算法包括:
(PCA)
模型選擇算法提供了用于比較、驗(yàn)證和選擇要在數(shù)據(jù)科學(xué)項(xiàng)目中使用的***參數(shù)和模型的工具。
通過(guò)參數(shù)調(diào)整能夠增強(qiáng)精度的模型選擇模塊包括:
Scikit-learn 預(yù)處理工具在數(shù)據(jù)分析期間的特征提取和規(guī)范化中非常重要。 例如,您可以使用這些工具轉(zhuǎn)換輸入數(shù)據(jù)(如文本)并在分析中應(yīng)用其特征。
預(yù)處理模塊包括:
預(yù)處理
特征提取
讓我們用一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明如何在數(shù)據(jù)科學(xué)項(xiàng)目中使用 Scikit-learn 庫(kù)。
我們將使用鳶尾花花卉數(shù)據(jù)集,該數(shù)據(jù)集包含在 Scikit-learn 庫(kù)中。 鳶尾花數(shù)據(jù)集包含有關(guān)三種花種的 150 個(gè)細(xì)節(jié),三種花種分別為:
Setosa:標(biāo)記為 0
Versicolor:標(biāo)記為 1
Virginica:標(biāo)記為 2
數(shù)據(jù)集包括每種花種的以下特征(以厘米為單位):
萼片長(zhǎng)度
萼片寬度
花瓣長(zhǎng)度
花瓣寬度
由于鳶尾花花卉數(shù)據(jù)集包含在 Scikit-learn 數(shù)據(jù)科學(xué)庫(kù)中,我們可以將其加載到我們的工作區(qū)中,如下所示:
from sklearn import datasetsiris = datasets.load_iris()
這些命令從 sklearn
導(dǎo)入數(shù)據(jù)集 datasets
模塊,然后使用 datasets
中的 load_iris()
方法將數(shù)據(jù)包含在工作空間中。
數(shù)據(jù)集 datasets
模塊包含幾種方法,使您更容易熟悉處理數(shù)據(jù)。
在 Scikit-learn 中,數(shù)據(jù)集指的是類似字典的對(duì)象,其中包含有關(guān)數(shù)據(jù)的所有詳細(xì)信息。 使用 .data
鍵存儲(chǔ)數(shù)據(jù),該數(shù)據(jù)列是一個(gè)數(shù)組列表。
例如,我們可以利用 iris.data
輸出有關(guān)鳶尾花花卉數(shù)據(jù)集的信息。
print(iris.data)
這是輸出(結(jié)果已被截?cái)啵?/p>
[[5.1 3.5 1.4 0.2] [4.9 3. 1.4 0.2] [4.7 3.2 1.3 0.2] [4.6 3.1 1.5 0.2] [5. 3.6 1.4 0.2] [5.4 3.9 1.7 0.4] [4.6 3.4 1.4 0.3] [5. 3.4 1.5 0.2] [4.4 2.9 1.4 0.2] [4.9 3.1 1.5 0.1] [5.4 3.7 1.5 0.2] [4.8 3.4 1.6 0.2] [4.8 3. 1.4 0.1] [4.3 3. 1.1 0.1] [5.8 4. 1.2 0.2] [5.7 4.4 1.5 0.4] [5.4 3.9 1.3 0.4] [5.1 3.5 1.4 0.3]
我們還使用 iris.target
向我們提供有關(guān)花朵不同標(biāo)簽的信息。
print(iris.target)
這是輸出:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
如果我們使用 iris.target_names
,我們將輸出數(shù)據(jù)集中找到的標(biāo)簽名稱的數(shù)組。
print(iris.target_names)
以下是運(yùn)行 Python 代碼后的結(jié)果:
['setosa' 'versicolor' 'virginica']
我們可以使用箱形圖來(lái)生成鳶尾花數(shù)據(jù)集的視覺描繪。 箱形圖說(shuō)明了數(shù)據(jù)如何通過(guò)四分位數(shù)在平面上分布的。
以下是如何實(shí)現(xiàn)這一目標(biāo):
import seaborn as snsbox_data = iris.data # 表示數(shù)據(jù)數(shù)組的變量box_target = iris.target # 表示標(biāo)簽數(shù)組的變量sns.boxplot(data = box_data,width=0.5,fliersize=5)sns.set(rc={'figure.figsize':(2,15)})
讓我們看看結(jié)果:
在橫軸上:
0 是萼片長(zhǎng)度
1 是萼片寬度
2 是花瓣長(zhǎng)度
3 是花瓣寬度
垂直軸的尺寸以厘米為單位。
以下是這個(gè)簡(jiǎn)單的 Scikit-learn 數(shù)據(jù)科學(xué)教程的完整代碼。
from sklearn import datasetsiris = datasets.load_iris()print(iris.data)print(iris.target)print(iris.target_names)import seaborn as snsbox_data = iris.data # 表示數(shù)據(jù)數(shù)組的變量box_target = iris.target # 表示標(biāo)簽數(shù)組的變量sns.boxplot(data = box_data,width=0.5,fliersize=5)sns.set(rc={'figure.figsize':(2,15)})
以上是“怎么將Scikit-learn Python庫(kù)用于數(shù)據(jù)科學(xué)項(xiàng)目”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!
本文題目:怎么將Scikit-learnPython庫(kù)用于數(shù)據(jù)科學(xué)項(xiàng)目
鏈接地址:http://www.rwnh.cn/article46/psjchg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供軟件開發(fā)、域名注冊(cè)、網(wǎng)頁(yè)設(shè)計(jì)公司、靜態(tài)網(wǎng)站、微信小程序、虛擬主機(jī)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)