2021-02-08 分類: 網(wǎng)站建設(shè)
在拿到一份數(shù)據(jù)準(zhǔn)備做挖掘建模之前,首先需要進行初步的數(shù)據(jù)探索性分析(你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎?),對數(shù)據(jù)探索性分析之后要先進行一系列的數(shù)據(jù)預(yù)處理步驟。因為拿到的原始數(shù)據(jù)存在不完整、不一致、有異常的數(shù)據(jù),而這些“錯誤”數(shù)據(jù)會嚴(yán)重影響到數(shù)據(jù)挖掘建模的執(zhí)行效率甚至導(dǎo)致挖掘結(jié)果出現(xiàn)偏差,因此首先要數(shù)據(jù)清洗。數(shù)據(jù)清洗完成之后接著進行或者同時進行數(shù)據(jù)集成、轉(zhuǎn)換、歸一化等一系列處理,該過程就是數(shù)據(jù)預(yù)處理。一方面是提高數(shù)據(jù)的質(zhì)量,另一方面可以讓數(shù)據(jù)更好的適應(yīng)特定的挖掘模型,在實際工作中該部分的內(nèi)容可能會占整個工作的70%甚至更多。
01、缺失值處理
由于人員錄入數(shù)據(jù)過程中或者存儲器損壞等原因,缺失值在一份數(shù)據(jù)中或多或少存在,所以首先就需要對缺失值進行處理,缺失值處理總的原則是:使用最可能的值代替缺失值,使缺失值與其他數(shù)值之間的關(guān)系保持大。具體的常用方法如下:
Python缺失值處理實例代碼:
a、判斷刪除缺失值- -isnull,notnull
b、填充替換缺失值--fillna
c、核心代碼和結(jié)果圖:
02、異常值處理
異常值是數(shù)據(jù)集中偏離大部分?jǐn)?shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)值上表現(xiàn)為:數(shù)據(jù)集中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的數(shù)據(jù),其中與平均值的偏差超過三倍標(biāo)準(zhǔn)差的數(shù)據(jù)(3σ原則),稱為高度異常的異常值。
常用處理方法如下:
Python異常值處理實例代碼:
2. 當(dāng)不符合正態(tài)分布時可用箱型圖分析處理,核心結(jié)果代碼如下:
03、數(shù)據(jù)標(biāo)準(zhǔn)化處理
數(shù)據(jù)的標(biāo)準(zhǔn)化(normalization)是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。在某些比較和評價的指標(biāo)處理中經(jīng)常會用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級的指標(biāo)能夠進行比較和加權(quán),最典型的就是數(shù)據(jù)歸一化處理就是將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上 。
常用數(shù)據(jù)標(biāo)準(zhǔn)化方法:
歸一化的目的:
在大佬Ng的視頻課中聽過一句話,歸一化會加快梯度下降的求解速度。
應(yīng)用場景說明:
注意:沒有一種數(shù)據(jù)標(biāo)準(zhǔn)化的方法,放在每一個問題,放在每一個模型,都能提高算法精度和加快算法的收斂速度。所以對于不同的問題可能會有不同的歸一化方法。在分類、聚類算法中,需要使用距離來度量相似性的時候、或者使用PCA技術(shù)進行降維的時候,Z-score standardization表現(xiàn)更好。
04、數(shù)據(jù)連續(xù)屬性離散化
一些數(shù)據(jù)挖掘算法,特別是分類算法,要求數(shù)據(jù)是分類屬性形式。常常需要將連續(xù)屬性變換成分類屬性,即連續(xù)屬性離散化。 常用的離散化方法:
05、總結(jié)
本文是筆者在學(xué)習(xí)數(shù)據(jù)分析過程中記錄下來的一些通用的數(shù)據(jù)預(yù)處理步驟,并且用Numpy、Pandas、Matplotlib等實現(xiàn)了每一種處理方法并可視化了處理結(jié)果。
網(wǎng)站名稱:你會用Python做數(shù)據(jù)預(yù)處理嗎?
文章分享:http://www.rwnh.cn/news/99756.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站內(nèi)鏈、微信公眾號、App開發(fā)、云服務(wù)器、關(guān)鍵詞優(yōu)化、軟件開發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容