AI的定義
十余年的柳河網(wǎng)站建設(shè)經(jīng)驗,針對設(shè)計、前端、開發(fā)、售后、文案、推廣等六對一服務(wù),響應(yīng)快,48小時及時工作處理。全網(wǎng)整合營銷推廣的優(yōu)勢是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動調(diào)整柳河建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計,從而大程度地提升瀏覽體驗。創(chuàng)新互聯(lián)公司從事“柳河網(wǎng)站設(shè)計”,“柳河網(wǎng)站推廣”以來,每個客戶項目都認真落實執(zhí)行。凡是通過機器學習,實現(xiàn)機器替代人力的技術(shù),就是AI。機器學習是什么呢?機器學習是由AI科學家研發(fā)的算法模型,通過數(shù)據(jù)灌輸,學習數(shù)據(jù)中的規(guī)律并總結(jié),即模型內(nèi)自動生成能表達(輸入、輸出)數(shù)據(jù)之間映射關(guān)系的特定算法。這整個過程就是機器學習。
AI的根基從數(shù)學理論開始
機器學習理論(包括:監(jiān)督學習、無監(jiān)督學習、強化學習、遷移學習、深度學習)
基礎(chǔ)技術(shù)(包括:機器學習ML、深度學習DL、語音識別ASR、語音合成TTS、計算機視覺CV、機器視覺MV、自然語言理解NLU、自然語言處理NLP、專家系統(tǒng))
模型算法的結(jié)果導向理解:
1、對數(shù)據(jù)進行分類,
2、找到輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的規(guī)律。
機器學習的抽象流程是:
訓練機器階段,
讓模型對輸入數(shù)據(jù)進行分類,且找到規(guī)律;
測試階段,
數(shù)據(jù)進入模型時,模型對數(shù)據(jù)進行分類,每一個測試數(shù)據(jù)都歸類到訓練數(shù)據(jù)類別中對應(yīng)的一個類別,然后根據(jù)訓練找到的規(guī)律計算出輸出值(即答案);
欠擬合或者過擬合的情況下,要清洗訓練數(shù)據(jù)、調(diào)整參數(shù)以及重復(fù)訓練;達到最佳擬合后,機器學習完成。
監(jiān)督學習
準備樣本(樣本通常準備兩組:訓練數(shù)據(jù)和測試數(shù)據(jù)),
先將訓練數(shù)據(jù)(即標記樣本)給到機器,同時提供標準答案(有答案的樣本數(shù)據(jù)屬于“標記樣本”),機器盡量從訓練數(shù)據(jù)中找到因變量和自變量之間的關(guān)系,讓自己推測的答案盡量跟標準答案靠近。
訓練過程中機器嘗試生成我們需要的算法,這個算法就是我們要機器學習出來的結(jié)果。
然后我們給機器測試樣本(測試數(shù)據(jù)),不提供標準答案,看機器推理出答案的準確率怎么樣,如果準確率太低(欠擬合),那我們就要調(diào)整模型的參數(shù),并且再訓練機器,接著又用測試數(shù)據(jù)測試,直到機器達到了我們期望的準確率。
監(jiān)督學習的算法分類
1)KNN臨近算法(找輸入數(shù)據(jù)跟訓練數(shù)據(jù)最近的點)
2)決策樹ID3算法(根據(jù)數(shù)據(jù)特征進行分支)
3)logistic邏輯回歸算法(特征和結(jié)果不滿足線性時, 使用邏輯回歸算法)
4)支持向量機SVM(能判斷分類是否正確, 通過計算一條線或者面把數(shù)據(jù)正確的區(qū)分開來)
5)樸素貝葉斯分類算法(計算數(shù)據(jù)被分到每一個類別的概率, 概率大的為該輸入數(shù)的類別)
無監(jiān)督學習
機器學習是否有監(jiān)督,就看訓練時輸入的數(shù)據(jù)是否有標簽(標簽即標注輸入數(shù)據(jù)對應(yīng)的答案)。無監(jiān)督學習即訓練時輸入數(shù)據(jù)無標簽,無監(jiān)督學習利用聚類算法。
1)K-聚類(聚類算法) 【將數(shù)據(jù)分成K個子集, 每個子集計算一個均值, 輸入數(shù)據(jù)最接近那個均值就屬于哪個類】
2)主成分分析法
半監(jiān)督學習
狹義上【半監(jiān)督學習】要分為transductive SVM、inductive SVM、Co-training、label propagation
我們可以嘗試用另外一種方法分類【半監(jiān)督學習】,即“分類半監(jiān)督”、“聚類半監(jiān)督”
分類半監(jiān)督—
舉例說明就是先用標簽數(shù)據(jù)進行訓練,然后加入無標簽數(shù)據(jù)訓練,無標簽數(shù)據(jù)輸入時,會根據(jù)數(shù)據(jù)特征及特征值,看該數(shù)據(jù)與有標簽數(shù)據(jù)分類中哪一類更接近(支持向量機SVM的方法就可以幫助找到最接近哪一類),就視為該類數(shù)據(jù);或者是,看該數(shù)據(jù)與有標簽數(shù)據(jù)哪一個最接近(KNN的方法就可以找到最接近的那個數(shù)據(jù)),則把該無標簽數(shù)據(jù)替換為該標簽數(shù)據(jù)。
聚類半監(jiān)督—
通常是在有標簽數(shù)據(jù)的“標簽不確定”的情況下利用(比如這個輸入數(shù)據(jù)的答案可能是xxx),“聚類半監(jiān)督”就是重點先完成數(shù)據(jù)的分類,然后嘗試根據(jù)標簽數(shù)據(jù)訓練提供的標簽預(yù)測結(jié)果。
強化學習
強化學習理論一: 馬爾科夫決策
機器需要理解環(huán)境、分析環(huán)境,并且要推測出完成一個動作得到獎勵的概率。該理論完全滿足馬爾科夫決策。馬爾可夫的核心:在一個狀 態(tài)下,可以采取一些動作,每一個動作都有一個“轉(zhuǎn)化狀態(tài)”且可以得出對應(yīng)“轉(zhuǎn)化狀態(tài)”的概率(或該“轉(zhuǎn)化狀態(tài)”能獲取獎勵的概率)。而強化學習的目標就是學習怎樣讓每一次行動都是為了達到最有價值的“轉(zhuǎn)化狀態(tài)”上。
1) model based(算法:Qleaning, Sarsa, Policy Gradients)
理解真實環(huán)境,建立一個模擬環(huán)境的模型,有想象能力,根據(jù)想象預(yù)判結(jié)果,最后選擇想象中結(jié)果最好的那一種作為參考進行下一步。
2)policy based(算法:Policy Gradients, Actor-critic)
通過感官分析環(huán)境,推測出下一步要進行的各種動作的概率,取概率大的作為實際行動的參考。
3)value based(算法:Qleaning, Sarsa)
推測出所有動作的價值,根據(jù)價值最高的作為實際動作的參考。
4)On policy(算法:Sarsa, Sarsa lambda)
必須親自參與
5)Off policy(算法:Qleaning, Deep-Q-Network)
可親自參與;也可以不親自參與,通過觀看其他人或機器,對其他人或機器進行模仿。
強化學習理論二:
agent不需要理解環(huán)境、分析環(huán)境時,做出決策,該決策正確時獎勵,錯誤時不獎勵或懲罰。agent不會在動作時去計算是否得到獎勵的概率。
agent能夠執(zhí)行多種action,但它每次只能選擇一個action來執(zhí)行,agent任意執(zhí)一個action來改變當前狀態(tài),一個action被執(zhí)行后,environment會通過觀測得出一個observation,這個observation會被agent接收,同時會出現(xiàn)一個reward也會被agent接收(這個reward也來自于environment,environment可以通過推測或直接判斷action結(jié)束時達到的效果是否是AI工程師想要的效果來決定這個reward是正值還是負值,當然負值相當于是“懲罰”了)。agent在執(zhí)行action時并不會知道結(jié)果會怎樣,當agent接收到environment的observation時,agent仍然是一無所知的(因為agent不理解environment),但由于environment同時反饋reward,agent才知道執(zhí)行的action好還是不好。agent會記住這次reward是正值還是負值,以后的action都會參考這次記憶。強化學習理論二對比一的區(qū)別就是:二并非在每一步都計算一個概率(所以二并非完全符合馬爾科夫決策)。
1)model free(算法:Qleaning, Sarsa, Policy Gradients)
不理解環(huán)境,等待環(huán)境反饋,根據(jù)反饋進行下一步。
2)Monte-carlo update(算法:Policy Gradients, Monte-carlo leaning)
等待所有過程結(jié)束,事后總結(jié)所有轉(zhuǎn)折點
3)Temporal difference update(算法:Qleaning, Sarsa)
過程中每一步都總結(jié)一下
4)On policy(算法:Sarsa, Sarsa lambda)
必須親自參與
5)Off policy(算法:Qleaning, Deep-Q-Network)
可親自參與;也可以不親自參與,通過觀看其他人或機器,對其他人或機器進行模仿。
強化學習不糾結(jié)于找出一條規(guī)律/算法,它只關(guān)心結(jié)果輸出時能否得到獎勵。之前提到的機器學習都是解決分類問題,而強化學習是解決“決策”問題。
遷移學習
將一個已經(jīng)開發(fā)過的任務(wù)模型(源域)重復(fù)利用,作為第二個任務(wù)模型(目標域)的起點。深度學習中會經(jīng)常用到遷移學習,遷移時(復(fù)用時),可以全部使用或部分使用第一個模型(源任務(wù)模型),當然這取決于第一個模型的建模邏輯是否允許。遷移學習是特別好的降低(獲取樣本數(shù)據(jù)、打標簽)成本的方法。
1)樣本遷移法
看看目標域的樣本數(shù)據(jù)跟源域中訓練數(shù)據(jù)哪部分相似,把目標域中這部分樣本數(shù)據(jù)的特征值照著相似的源域中的樣本數(shù)據(jù)的特征值調(diào)整,盡量調(diào)到一樣,然后再把調(diào)過的數(shù)據(jù)權(quán)重值提高。這個方法是最簡單的遷移學習方法,不過人工去調(diào),如果經(jīng)驗不足,容易造成極大誤差。
2)特征遷移法
找到源域同目標域的數(shù)據(jù)中的共同特征,將這些共同特征的數(shù)據(jù)都放到同一個坐標空間里,形成一個數(shù)據(jù)分布。這樣就可以得到一個數(shù)據(jù)量更大且更優(yōu)質(zhì)的模型空間。
3)模型遷移法
源域的整個模型都遷移到目標域。最完整的遷移,但是可能會因為源域模型的特有的那些對目標域來說沒有的數(shù)據(jù)、特征、特征值等,在目標域中反而會有干擾效果(類似與“過擬合”)。
4)關(guān)系遷移法
當兩個域相似時,可以直接將源域的邏輯網(wǎng)絡(luò)關(guān)系在目標域中進行應(yīng)用。比如我們將人的大腦神經(jīng)網(wǎng)絡(luò)的邏輯關(guān)系遷移到AI神經(jīng)網(wǎng)絡(luò)中,因為從邏輯上這兩者我們覺得是一樣的。
深度學習
深度學習可以理解為是多個簡單模型組合起來,實現(xiàn)多層神經(jīng)網(wǎng)絡(luò),每層神經(jīng)網(wǎng)絡(luò)(也可以叫做神經(jīng)元)處理一次數(shù)據(jù),然后傳遞到下一層繼續(xù)處理。這種多層的結(jié)構(gòu)比起淺層學習的模型優(yōu)勢在于,可以提取出數(shù)據(jù)特征(無需人工提取)。“深度”并沒有絕對的定義,語音識別的模型中4層神經(jīng)網(wǎng)絡(luò)就算深了,但在圖像識別的模型中,20層也不算很深。
1)DNN深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)是深度學習最基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)。有很多層(每一層為一個神經(jīng)元)從上往下排列,每一個層相互連接。有個缺點就是,正因為每一層之間連接起來,出現(xiàn)了參數(shù)數(shù)量膨脹問題(因為每一層涉及到一個算法,每一個算法都有自己的各種參數(shù)),這樣的情況下容易過擬合(實現(xiàn)了局部最佳但整體擬合不佳)。
2)CNN卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)有“卷積核”,這個“卷積核”可以作為介質(zhì)連接神經(jīng)元,用“卷積核”連接神經(jīng)元時就不需要每一層都連接了。
3)RNN循環(huán)神經(jīng)網(wǎng)絡(luò)
因為DNN還有一個缺點,無法對時間序列上發(fā)生的變化進行建模,如果在語音識別、自然語言處理等應(yīng)用中使用AI模型時,數(shù)據(jù)的時間順序影響很大。所以RNN就出現(xiàn)了,RNN能彌補DNN的缺點,可以在時間序列上發(fā)生的變化進行建模。
基礎(chǔ)概念:
擬合
擬合是用來形容訓練結(jié)束后效果好壞的。1)欠擬合當訓練數(shù)據(jù)少、數(shù)據(jù)質(zhì)量差的時候,訓練出來的模型質(zhì)量就差(或者說損失函數(shù)過大),這時進行測試的時候,就會出現(xiàn)誤差大,即“欠擬合”狀況。2)過擬合在訓練階段,反復(fù)用同樣的訓練數(shù)據(jù)進行訓練,可以讓訓練效果變得更好(損失函數(shù)小),但同時機器會因為要達到最好的訓練效果,將訓練數(shù)據(jù)中不重要的特征或只有訓練數(shù)據(jù)才有的某些特征進行利用得太重或開始學習不需要的細節(jié),也就是說機器對訓練數(shù)據(jù)太過依賴,最后就會出現(xiàn)在訓練數(shù)據(jù)上表現(xiàn)特別好,但在其他數(shù)據(jù)上表現(xiàn)不佳。這樣的情況叫做“過擬合“。3)最佳擬合欠擬合、過擬合都不是我們需要的。我們要的是最佳擬合。所以我們在訓練機器時要注意平衡。最佳點在哪里呢?最佳點在訓練的損失函數(shù)還在減小,而測試的損失函數(shù)在減小之后突然開始增大的該點上。此時我們就達到了“最佳擬合”。4.2、泛化性訓練好的模型在其他數(shù)據(jù)上的表現(xiàn)好壞用泛化性形容。在其他數(shù)據(jù)上表現(xiàn)越好,泛化性越高。4.3、損失函數(shù)用于評估“不準確”的程度,它是衡量模型估算值和真實值差距的標準。損失函數(shù)(loss)越小,則模型的估算值和真實值的差距越小,通常情況下我們要把loss降到最低。
標簽
指給數(shù)據(jù)標記的答案。標記好答案的數(shù)據(jù)叫做“標簽數(shù)據(jù)”。
特征值
特征(feature)的值。比如房子有特征(feature):空間、價格。它的特征值:(空間)200平方米、(價格)1500萬。一般在機器學習的監(jiān)督學習中,我們需要對訓練數(shù)據(jù)進行特征提取的處理,即標記好每個數(shù)據(jù)有哪些特征和對應(yīng)特征值。當特征值損失的情況:在實際的機器學習過程中,有時候會發(fā)生數(shù)據(jù)缺失的問題,比如一個數(shù)據(jù)有X個特征,但是由于意外發(fā)生,我們只得到部分(小于X)特征的值,在這種情況下,為了不浪費整個樣本資源,且可以順利的繼續(xù)機器學習,我們需要有一些彌補措施:1)人為設(shè)置某些特征的特征值(根據(jù)經(jīng)驗),然后利用;2)找到相似的另一組樣本,用另一組樣本的特征平均值代替缺失的特征值;3)用其他的機器學習模型專門針對缺失的特征值進行學習然后利用該模型找出缺失特征值;4)使用已有特征值的均值來替代未知特征值;5)在機器學習過程中用一些方法,讓機器忽略已缺失特征值的數(shù)據(jù)。
類別
物以類聚人以群分,特征相同的數(shù)據(jù)就是同一類別。機器學習中特別重要的一個步驟就是利用算法將數(shù)據(jù)分類(學習算法里邊會提到多種實現(xiàn)數(shù)據(jù)分類的算法),機器會盡量將所有輸入數(shù)據(jù)進行分類,分類的邏輯就是通過數(shù)據(jù)的“特征”,特征接近的數(shù)據(jù)會被機器認為是同一類別的數(shù)據(jù)。
分類&聚類
分類是目前最簡單也是效果最好的一類算法(比如KNN、決策樹ID3、logistic回歸、SVM等都屬于分類算法)。分類算法的前提條件是訓練數(shù)據(jù)必須帶有標簽。聚類是目前相對分類更復(fù)雜同時效果更差的一類算法(無監(jiān)督學習就是用聚類算法)。聚類算法的優(yōu)勢是可以訓練數(shù)據(jù)不需要標簽。表面上看來分類算法比聚類算法好用很多,那我們還要用聚類算法的理由是什么呢?其實,在實際情況下,訓練機器時,要給數(shù)據(jù)打標簽是個人工消耗極大的工作,不僅工作量大,很多時候?qū)?shù)據(jù)打準確的標簽難度也大。
決策樹
根據(jù)數(shù)據(jù)的特征值對數(shù)據(jù)進行不斷分支,直到不可再分支(附 決策樹形象圖)。決策樹的每一次對數(shù)據(jù)分支,就消耗一個特征值。當所有特征值消耗完后,決策樹成形。決策樹的每一個節(jié)點,即每一次對特征分支時,通常以yes/no的判斷形式進行劃分(所以才叫“決策樹”嘛)。決策樹幫助機器對數(shù)據(jù)進行分類(根據(jù)特征,決策樹的分裂點即特征分別點),決策樹形成后,滿足一條分枝上所有分裂點條件的為同一類數(shù)據(jù)。要注意的是,有時候決策樹分枝太長,會導致過擬合。因為決策樹很可能把訓練數(shù)據(jù)中不太有代表性的特征放在分裂點上,這樣形成的決策樹不適應(yīng)與訓練數(shù)據(jù)之外的數(shù)據(jù)了。如果出現(xiàn)這種情況,需要“剪枝”,枝越長,說明模型可能越依賴訓練數(shù)據(jù),在枝的長短上,要做一個平衡,平衡的原則請參考本文提到的“欠擬合”與“過擬合”的關(guān)鍵詞解釋。
知識圖譜
知識圖譜是模擬物理世界的實物與實物之間的關(guān)系,知識圖譜呈現(xiàn)為無限擴散的類網(wǎng)狀結(jié)構(gòu)。它的結(jié)構(gòu)組成為“實體”—“關(guān)系”--“實體”,以及“實體”--“屬性”--“值”。知識圖譜使得AI找到一個信息時,同時也獲得了更多跟跟這個信息相關(guān)的其他信息。
基礎(chǔ)技術(shù)
語音識別(ASR)
一句話定義就是:將人類聲音轉(zhuǎn)化成文字的過程。按識別范圍分類為“封閉域識別”和“開放域識別”。封閉域識別:在預(yù)先指定的字/詞集合內(nèi)進行識別。如此可將聲學模型和語音模型進行剪裁,識別引擎的計算量也變低??梢詫⒁娣庋b于嵌入式芯片或本地化SDK,脫離云端,且不會影響識別率。開放域識別:在整個語言大集合中識別。引擎計算量大,直接封裝到嵌入式芯片或本地SDK中,耗能高且識別效果差,所以一般都只以云端形式提供。
計算機視覺(CV)
自然語言處理(NLP)
一句話定義:自然語言處理(NLP)是指機器理解并解釋人類寫作、說話方式的能力。NLP又包含NLU(自然語言理解)、NLG(自然語言生成)。自然語言處理中最重要的3個環(huán)節(jié)是分詞、鎖定關(guān)鍵詞、文本相似度計算。因為目前機器的語言識別其實都是基于對詞的識別,任何句子進行自然語言處理時第一步都是要分詞,比如:“我是產(chǎn)品經(jīng)理”,分詞后變成“我-是-產(chǎn)品-經(jīng)理”。分詞之后,要找到“關(guān)鍵詞”,“關(guān)鍵詞”是提供重要信息、最多信息的詞,比如在“我是產(chǎn)品經(jīng)理”句子被分詞后,機器會選擇“產(chǎn)品”、“經(jīng)理”為該句子“關(guān)鍵詞”。文本相似度有歐氏距離、曼哈頓距離等算法
技術(shù)分層
從技術(shù)實現(xiàn)的效果的角度將AI技術(shù)進行分層:
1)認知,通過收集、解析信息對世界和環(huán)境進行認知。包括圖片處理技術(shù)、語音識別、自然語言識別技術(shù)。
2)預(yù)測行為和結(jié)果。比如在用戶行為研究的基礎(chǔ)上根據(jù)對用戶當前行為的識別,預(yù)測用戶下一步想做什么,然后主動滿足用戶。
3)確定實現(xiàn)的方式和路徑。比如AI代替醫(yī)生給病人看病,得出病癥和治病方案。
AI的常用語言及框架
市場上有的AI框架包括TensorFlow、Caffe、Torch、Theano等等,目前大部分工程師利用的是Tensorflow。AI編程可以利用多種計算機語言,目前最常用的是C++和python。
AI的價值
互聯(lián)網(wǎng)的價值在于降低成本、提高效率;而AI 可以替代人力,讓成本直接為0,其蘊含的市場價值比互聯(lián)網(wǎng)技術(shù)的市場價值更高。
AI的邊界
要理解AI的邊界,就必須從AI三要素切入。三要素分別為算法、計算力、數(shù)據(jù)。我們通過對已有模型算法的理解,計算力的認知以及對可獲取數(shù)據(jù)的判斷,就可以推測出我們落地時可實現(xiàn)哪些,以及可實現(xiàn)到什么程度。有一個宏觀判斷邊界的快捷法,叫做“1秒法則”:當前的AI可以實現(xiàn)到處理人1秒內(nèi)可以想到答案的問題。而且這個問題還得滿足以下特點:大規(guī)模、重復(fù)性、限定領(lǐng)域。
模型訓練
這部分基本交由算法同事跟進,但產(chǎn)品可依據(jù)需求,向算法同事提出需要注意的方面;舉個栗子:一個識別車輛的產(chǎn)品現(xiàn)在對大眾車某系列的識別效果非常不理想,經(jīng)過跟蹤發(fā)現(xiàn)是因為該車系和另外一個品牌的車型十分相似。而本次數(shù)據(jù)標注主要針對大眾車系的數(shù)據(jù)做了補充,也修改了大批以往的錯誤標注。(這兩種為優(yōu)化數(shù)據(jù)的基本方式)本次模型需要重點關(guān)注大眾某車系的識別效果,至少將精確率提高5%。產(chǎn)品將具體的需求給到算法工程師,能避免無目的性、無針對性、無緊急程度的工作。
模型測試
測試同事(一般來說算法同事也會直接負責模型測試)將未被訓練過的數(shù)據(jù)在新的模型下做測試。如果沒有后臺設(shè)計,測試結(jié)果只能由人工抽樣計算,抽樣計算繁瑣且效率較低。因此可以考慮由后臺計算。
一般來說模型測試至少需要關(guān)注兩個指標:
1.精確率:識別為正確的樣本數(shù)/識別出來的樣本數(shù)
2.召回率:識別為正確的樣本數(shù)/所有樣本中正確的數(shù)
模型的效果需要在這兩個指標之間達到一個平衡。測試同事需要關(guān)注一領(lǐng)域內(nèi)每個類別的指標,比如針對識別人臉的表情,里面有喜怒哀樂等等分類,每一個分類對應(yīng)的指標都是不一樣的。測試同事需要將測試的結(jié)果完善地反饋給算法同事,算法同事才能找準模型效果欠缺的原因。同時測試同事將本次模型的指標結(jié)果反饋給產(chǎn)品,由產(chǎn)品評估是否滿足上線需求。
產(chǎn)品評估評估
模型是否滿足上線需求是產(chǎn)品必須關(guān)注的,一旦上線會影響到客戶的使用感。因此在模型上線之前,產(chǎn)品需反復(fù)驗證模型效果。為了用數(shù)據(jù)對比本模型和上一個模型的優(yōu)劣,需要每次都記錄好指標數(shù)據(jù)。假設(shè)本次模型主要是為了優(yōu)化領(lǐng)域內(nèi)其中一類的指標,在關(guān)注目的的同時,產(chǎn)品還需同時注意其他類別的效果,以免漏洞產(chǎn)生。
產(chǎn)品工作補充
產(chǎn)品的工作不止是產(chǎn)品評估:除了流程控制,質(zhì)量評估。針對分類問題,由產(chǎn)品制定的邊界非常重要,直接影響模型是否滿足市場需求。產(chǎn)品制定的分類規(guī)則:例如,目的是希望模型能夠識別紅色,那產(chǎn)品需要詳細描述“紅色”包含的顏色,暗紅色算紅色嗎?紫紅色算紅色嗎?紫紅色算是紅色還是紫色?這些非常細節(jié)的規(guī)則都需要產(chǎn)品設(shè)定。若果分類細,那么針對一類的數(shù)據(jù)就會少。如果分類大,那么一些有歧義的數(shù)據(jù)就會被放進該分類,也會影響模型效果。
創(chuàng)新互聯(lián)面向全國提供域名注冊、虛擬主機、云服務(wù)器、服務(wù)器托管與租用,如需了解,請聯(lián)系QQ:171356849微信:zh18159893430 咨詢,謝謝!
新聞名稱:AI探索基礎(chǔ)知識匯總
新聞來源:http://www.rwnh.cn/article8/poop.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站內(nèi)鏈、外貿(mào)網(wǎng)站建設(shè)、標簽優(yōu)化、外貿(mào)建站、移動網(wǎng)站建設(shè)、品牌網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)