樸素貝葉斯：幫助AI產(chǎn)品經(jīng)理“小步快跑，快速迭代”-創(chuàng)新互聯(lián)

貝葉斯定理相信不少人都接觸過，這個(gè)看似只屬于數(shù)學(xué)領(lǐng)域的定理，在AI產(chǎn)品經(jīng)理看來有怎樣的魅力呢？
成都創(chuàng)新互聯(lián)服務(wù)項(xiàng)目包括蘇州網(wǎng)站建設(shè)、蘇州網(wǎng)站制作、蘇州網(wǎng)頁制作以及蘇州網(wǎng)絡(luò)營銷策劃等。多年來，我們專注于互聯(lián)網(wǎng)行業(yè)，利用自身積累的技術(shù)優(yōu)勢、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等，向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案，蘇州網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前，我們服務(wù)的客戶以成都為中心已經(jīng)輻射到蘇州省份的部分城市，未來相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任！

樸素貝葉斯：幫助AI產(chǎn)品經(jīng)理“小步快跑，快速迭代”

我們常常遇到這樣的場景。與友人聊天時(shí)，一開始可能不知道他要說什么，但是他說了一句話之后，你就能猜到接下來他要講什么內(nèi)容。友人給的信息越多，我們越能夠推斷出他想表達(dá)的含義，這也是貝葉斯定理所闡述的思考方式。

貝葉斯定理得以廣泛應(yīng)用是因?yàn)樗先祟愓J(rèn)知事物的自然規(guī)律。

我們并非生下來就知道一切事情的內(nèi)在的規(guī)律，大多數(shù)時(shí)候，我們面對(duì)的是信息不充分、不確定的情況。這個(gè)時(shí)候我們只能在有限資源的情況下，作出決定，再根據(jù)后續(xù)的發(fā)展進(jìn)行修正。

一、樸素貝葉斯登場

貝葉斯分類是一類分類算法的總稱，這類算法均以“貝葉斯定理”為基礎(chǔ)，以“特征條件獨(dú)立假設(shè)”為前提。而樸素貝葉斯分類是貝葉斯分類中最常見的一種分類方法，同時(shí)它也是最經(jīng)典的機(jī)器學(xué)習(xí)算法之一。

在很多場景下處理問題直接又高效，因此在很多領(lǐng)域有著廣泛的應(yīng)用，如垃圾郵件過濾、文本分類與拼寫糾錯(cuò)等。同時(shí)對(duì)于產(chǎn)品經(jīng)理來說，貝葉斯分類法是一個(gè)很好的研究自然語言處理問題的切入點(diǎn)。

樸素貝葉斯分類是一種十分簡單的分類算法，說它十分簡單是因?yàn)樗慕鉀Q思路非常簡單。即對(duì)于給出的待分類項(xiàng)，求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率，哪個(gè)大，就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。

舉個(gè)形象的例子，若我們走在街上看到一個(gè)黑皮膚的外國友人，讓你來猜這位外國友人來自哪里。十有八九你會(huì)猜是從非洲來的，因?yàn)楹谄つw人種中非洲人的占比最多，雖然黑皮膚的外國人也有可能是美洲人或者是亞洲人。但是在沒有其它可用信息幫助我們判斷的情況下，我們會(huì)選擇可能出現(xiàn)的概率最高的類別，這就是樸素貝葉斯的基本思想。

值得注意的是，樸素貝葉斯分類并非是瞎猜，也并非沒有任何理論依據(jù)。它是以貝葉斯理論和特征條件獨(dú)立假設(shè)為基礎(chǔ)的分類算法。

想要弄明白算法的原理，首先需要理解什么是“特征條件獨(dú)立假設(shè)”以及“貝葉斯定理”，而貝葉斯定理又牽涉到“先驗(yàn)概率”、“后驗(yàn)概率”及“條件概率”的概念。

如下圖所示，雖然概念比較多但是都比較容易理解，下面我們逐個(gè)詳細(xì)介紹。

樸素貝葉斯：幫助AI產(chǎn)品經(jīng)理“小步快跑，快速迭代”

特征條件獨(dú)立假設(shè)是貝葉斯分類的基礎(chǔ)，意思是假定該樣本中每個(gè)特征與其他特征之間都不相關(guān)。

例如在預(yù)測信用卡客戶逾期的例子中，我們會(huì)通過客戶的月收入、信用卡額度、房車情況等不同方面的特征綜合判斷。兩件看似不相關(guān)的事情實(shí)際上可能存在內(nèi)在聯(lián)系，就像蝴蝶效應(yīng)一樣。普遍情況下，銀行批給收入較高的客戶的信用卡額度也比較高。

同時(shí)收入高也代表這個(gè)客戶更有能力購買房產(chǎn)，所以這些特征之間存在一定的依賴關(guān)系，某些特征是由其他特征決定的。

然而在樸素貝葉斯算法中，我們會(huì)忽略這種特征之間的內(nèi)在關(guān)系，直接認(rèn)為客戶的月收入、房產(chǎn)與信用卡額度之間沒有任何關(guān)系，三者是各自獨(dú)立的特征。

接下來我們重點(diǎn)講解什么是“理論概率”與“條件概率”，以及“先驗(yàn)概率”與“后驗(yàn)概率”之間的區(qū)別。

二、真假概率

首先我們進(jìn)行一個(gè)小實(shí)驗(yàn)。

假設(shè)將一枚質(zhì)地均勻的硬幣拋向空中，理論上，因?yàn)橛矌诺恼疵尜|(zhì)地均勻，落地時(shí)正面朝上或反面朝上的概率都是50%。這個(gè)概率不會(huì)隨著拋擲次數(shù)的增減而變化，哪怕拋了10次結(jié)果都是正面朝上，下一次是正面朝上的概率仍然是50%。

但在實(shí)際測試中，如果我們拋100次硬幣，正面朝上和反面朝上的次數(shù)通常不會(huì)恰好都是50次。有可能出現(xiàn)40次正面朝上和60次反面朝上的情況，也有可能出現(xiàn)35次正面朝上和65次反面朝上的情況。

只有我們一直拋，拋了成千上萬次，硬幣正面朝上與反面朝上的次數(shù)才會(huì)逐漸趨向于相等。

因此，我們說“正面朝上和反面朝上各有50%的概率”這句話所指的概率是理論上的客觀概率。只有當(dāng)拋擲次數(shù)接近無數(shù)次時(shí)，才會(huì)達(dá)到這種理想中的概率。在理論概率下，盡管拋10次硬幣，前面5次都是正面朝上，第6次是反面朝上的概率仍然是50%。

但是在實(shí)際中，拋過硬幣的人都有這樣的感覺——如果出現(xiàn)連續(xù)5次正面朝上的情況，下一次是反面朝上的可能性極大。大到什么程度？有沒有什么方法可以求出實(shí)際的概率呢？

為了解決這個(gè)問題，一位名叫托馬斯·貝葉斯（ThomasBayes）的數(shù)學(xué)家發(fā)明了一種方法用于計(jì)算“在已知條件下，另外一個(gè)事件發(fā)生”的概率。該方法要求我們先預(yù)估一個(gè)主觀的先驗(yàn)概率，再根據(jù)后續(xù)觀察到的結(jié)果進(jìn)行調(diào)整。隨著調(diào)整次數(shù)的增加，真實(shí)的概率會(huì)越來越精確。

這句話怎么理解呢？

我們通過一個(gè)坐地鐵的例子解釋這句話的含義。深圳地鐵一號(hào)線從車公廟出發(fā)至終點(diǎn)站共有18站，每天早上小林要從車公廟出發(fā)經(jīng)過5個(gè)站到高新園上班，如下圖所示：

樸素貝葉斯：幫助AI產(chǎn)品經(jīng)理“小步快跑，快速迭代”

某天早高峰，小林被站立的人群遮擋住視線并且戴著耳機(jī)聽不到報(bào)站的內(nèi)容，因此他不知道列車是否到達(dá)高新園站。

如果下一站列車到站時(shí)，他直接出站，理論上他正好到高新園站的概率只有1/18，出對(duì)站的概率非常小。這時(shí)候小林恰巧在人群中看到一個(gè)同事，他正走出站臺(tái)。

小林心想，盡管不知道這個(gè)同事要去哪里，但在早高峰時(shí)段，同事去公司的概率顯然更高。因此在獲得這個(gè)有效信息后，小林跟隨出站，正好到達(dá)高新園站——這種思考方式就是貝葉斯定理所闡述的思考方式。

三、引入貝葉斯定理

在概率論與統(tǒng)計(jì)學(xué)中，貝葉斯定理描述了一個(gè)事件發(fā)生的可能性，這個(gè)可能性是基于事先掌握了一些與該事件相關(guān)的情況從而推測的。

假設(shè)癌癥是否會(huì)發(fā)病與每個(gè)人的年齡有關(guān)。如果使用貝葉斯定理，當(dāng)我們知道一個(gè)人的年齡，可以用于更準(zhǔn)確地評(píng)估他得癌癥是否會(huì)發(fā)病的概率。也就是說，貝葉斯理論是指根據(jù)一個(gè)已發(fā)生事件的概率，計(jì)算另一個(gè)事件的發(fā)生概率。

從數(shù)學(xué)上貝葉斯理論可以表示為：

樸素貝葉斯：幫助AI產(chǎn)品經(jīng)理“小步快跑，快速迭代”

P(B)表示發(fā)生B事件的概率，即小林到高新園站的概率；
P(A)表示發(fā)生A事件的概率，即小林的同事出站的概率；
P(B|A)表示在A事件已經(jīng)發(fā)生的情況下B事件會(huì)發(fā)生的概率，即同事出站的時(shí)候，小林正好到高新園站的概率；
P(A|B)表示在B事件已經(jīng)發(fā)生的情況下A事件會(huì)發(fā)生的概率，即小林到達(dá)高新園站，同事出站的概率。

這時(shí)候我們再來看貝葉斯定理，這個(gè)公式說明了兩個(gè)互換的條件概率之間的關(guān)系，它們通過聯(lián)合概率關(guān)聯(lián)起來。在這種情況下，若知道P(A|B) 的值，就能夠計(jì)算P(B|A)的值。

因此貝葉斯公式實(shí)際上闡述了這么一個(gè)事情，如下圖所示：

樸素貝葉斯：幫助AI產(chǎn)品經(jīng)理“小步快跑，快速迭代”

我們可以用文氏圖可以加深對(duì)貝葉斯定理的理解，如下圖所示：

樸素貝葉斯：幫助AI產(chǎn)品經(jīng)理“小步快跑，快速迭代”

上述例子中小林剛好在早高峰時(shí)段看到同事出站，代表出現(xiàn)了新的信息。就像是上圖中已知黑點(diǎn)已經(jīng)落入A區(qū)域了，由于A區(qū)域大部分區(qū)域與B區(qū)域相交，因此推斷黑點(diǎn)也在B區(qū)域的概率會(huì)變大。我們想獲得的結(jié)果其實(shí)是P(B|A)，即我們想知道，在考慮了一些現(xiàn)有的因素后，這個(gè)隨機(jī)事件會(huì)以多大概率出現(xiàn)。

參考這個(gè)概率結(jié)果，在很多事情上我們可以有針對(duì)性地作出決策。我們需要同時(shí)知道P(B)、P(A|B)與P(A)才能算出目標(biāo)值P(B|A)，但是P(A)的值似乎比較難求。

仔細(xì)想一想，P(A)與P(B)之間似乎沒有任何關(guān)聯(lián)，兩者本身就是獨(dú)立事件，無論P(yáng)(B)的值是大還是小，P(A)都是固定的分母。也就是說我們計(jì)算P(A)各種取值的可能性并不會(huì)對(duì)各結(jié)果的相對(duì)大小產(chǎn)生影響，因此可以忽略P(A)的取值。

假設(shè)P(A)的取值為m，P(B)的可能取值為b1、b2或者是b3，已知：

樸素貝葉斯：幫助AI產(chǎn)品經(jīng)理“小步快跑，快速迭代”

那么計(jì)算P(B|A)時(shí)，分別會(huì)得到結(jié)果：

樸素貝葉斯：幫助AI產(chǎn)品經(jīng)理“小步快跑，快速迭代”

且由于P(b1|A)、P(b2|A)與P(b3|A)三者之和一定為1，因此可以得出ox+py+qz=m。即使m的值不知道也沒關(guān)系，因?yàn)閛x，py，qz的值都是可以計(jì)算出來的，m自然也就知道了。剩下的工作就是計(jì)算P(B)、P(A|B)，而這兩個(gè)概率必須要通過我們手上有的數(shù)據(jù)集來進(jìn)行估計(jì)。

關(guān)于貝葉斯算法有一段小插曲。貝葉斯算法被發(fā)明后，曾有接近200年的時(shí)間無人問津。

因?yàn)榻?jīng)典統(tǒng)計(jì)學(xué)在當(dāng)時(shí)完全能夠解決客觀上能夠解釋的簡單概率問題；而且相比需要靠主觀判斷的貝葉斯算法，顯然當(dāng)時(shí)的人們更愿意接受建立在客觀事實(shí)上的經(jīng)典統(tǒng)計(jì)學(xué)，他們更愿意接受一個(gè)硬幣無論拋多少次后正反面朝上的概率都是50%的事實(shí)。

但我們生活中還存在很多無法預(yù)知概率的復(fù)雜問題，例如臺(tái)風(fēng)侵襲、地震規(guī)律等等。經(jīng)典統(tǒng)計(jì)學(xué)在面對(duì)復(fù)雜問題時(shí)，往往無法獲得足夠多的樣本數(shù)據(jù)，導(dǎo)致其無法推斷總體規(guī)律?？偛荒苷f每天預(yù)測臺(tái)風(fēng)來的概率都是50%，只有來或者不來兩種情況。

數(shù)據(jù)的稀疏性令貝葉斯定理頻頻碰壁。隨著近代計(jì)算機(jī)技術(shù)的飛速發(fā)展后，數(shù)據(jù)的大量運(yùn)算不再是困難的事情，貝葉斯算法這才被人們重新重視起來。

四、貝葉斯定理有什么用

講到這里部分讀者可能會(huì)問，雖然貝葉斯定理模擬了人類思考的過程，但是它又能夠幫助我們解決什么樣的問題呢？我們先來看一個(gè)幾乎是講到貝葉斯定理時(shí)必定會(huì)提到的經(jīng)典案例。

在疾病檢測領(lǐng)域，假設(shè)某種疾病在所有人群中的感染率是0.1%，醫(yī)院現(xiàn)有的技術(shù)對(duì)于該疾病檢測準(zhǔn)確率能夠達(dá)到99%。也就是說，在已知某人已經(jīng)患病情況下，有99%的可能性檢查出陽性；而正常人去檢查有99%的可能性是正常的。如果從人群中隨機(jī)抽一個(gè)人去檢測，醫(yī)院給出的檢測結(jié)果為陽性，這個(gè)人實(shí)際得病的概率是多少？

也許很多讀者都會(huì)脫口而出 “99%”。但真實(shí)的得病概率其實(shí)遠(yuǎn)低于此，原因在于很多讀者將先驗(yàn)概率和后驗(yàn)概率搞混了。

如果用A表示這個(gè)人患有該疾病，用B表示醫(yī)院檢測的結(jié)果是陽性，那么 P(B|A)=99%表示的是“已知一個(gè)人已經(jīng)得病的情況下醫(yī)院檢測出陽性的概率”。而我們現(xiàn)在問的是“對(duì)于隨機(jī)抽取的這個(gè)人，已知檢測結(jié)果為陽性的情況下這個(gè)人患病的概率”，即P(A|B)，通過計(jì)算可得P(A|B)=9%。所以即使被醫(yī)院檢測為陽性，實(shí)際患病的概率其實(shí)還不到10%，有很大可能是假陽性。因此需要通過復(fù)診，引入新的信息，才有更大把握確診。

通過以上例子可以看出，生活中我們經(jīng)常會(huì)把先驗(yàn)概率與后驗(yàn)概率弄混淆，從而得出錯(cuò)誤的判斷。貝葉斯定理正是幫我們理清概率的先后條件之間的邏輯關(guān)系，并得到更精確的概率。

實(shí)際上，這個(gè)定理所闡述的核心思想對(duì) 產(chǎn)品經(jīng)理的思考方式也有很大的啟發(fā)：

一方面是我們要搞清楚需求場景中的先驗(yàn)概率是什么？后驗(yàn)概率是什么？不要被數(shù)據(jù)的表象蒙蔽了雙眼；

另一方面我們可以借助貝葉斯定理搭建一個(gè)思考的框架——在這個(gè)框架中需要不斷調(diào)整我們對(duì)某事物的看法，在經(jīng)過一系列的新的事情被證實(shí)后，才形成比較穩(wěn)定、正確的看法。

當(dāng)我們的腦子里有新想法出現(xiàn)時(shí)，大多數(shù)情況下，我們只能根據(jù)經(jīng)驗(yàn)大概判斷某個(gè)產(chǎn)品靠譜不靠譜，投入到市場中反響有多大沒有人能夠說清楚。

因此很多時(shí)候我們需要嘗試，需要做一個(gè)簡單的版本投入到市場上快速驗(yàn)證自己的想法；然后不斷想辦法獲得“事件B”，不斷增加新產(chǎn)品的成功率——這樣我們的產(chǎn)品才有可能獲得成功。

因此 “小步快跑，快速迭代”才是提升容錯(cuò)率最好的辦法。

http://www.woshipm.com/ai/2850961.html

網(wǎng)頁標(biāo)題：樸素貝葉斯：幫助AI產(chǎn)品經(jīng)理“小步快跑，快速迭代”-創(chuàng)新互聯(lián)
轉(zhuǎn)載源于：http://www.rwnh.cn/article12/cegodc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供用戶體驗(yàn)、網(wǎng)站制作、云服務(wù)器、網(wǎng)站設(shè)計(jì)、網(wǎng)站策劃、小程序開發(fā)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

樸素貝葉斯：幫助AI產(chǎn)品經(jīng)理“小步快跑，快速迭代”-創(chuàng)新互聯(lián)

一、樸素貝葉斯登場

二、真假概率

三、引入貝葉斯定理

四、貝葉斯定理有什么用

一、樸素貝葉斯登場

二、真假概率

三、引入貝葉斯定理

四、貝葉斯定理有什么用