網(wǎng)站SEO優(yōu)化——搜索引擎的工作原理

2021-02-19 分類：網(wǎng)站建設(shè)

在網(wǎng)站SEO優(yōu)化中，有人說，搜索引擎技術(shù)似乎不需要本地化，這一看就是徹底不懂這個領(lǐng)域的人講的。當(dāng)然，實話說，如果有人說，google在中文本地化方面做得非常好，我是可以部分同意的，同意的比例可能會比google工程師少一些。但我相信google工程師也會告訴你，搜索引擎是需要本地化的。

今天寫篇科普文，講講搜索引擎的技術(shù)機理和市場競爭的一些特點。當(dāng)然，作為從事或有興趣從事流量運營的朋友，是可以用另一個角度去理解本文。

搜索引擎的核心技術(shù)架構(gòu)，大體包括以下三塊：第一，是蜘蛛/爬蟲技術(shù)；第二，是索引技術(shù)；第三是查詢展現(xiàn)的技術(shù)；當(dāng)然，我不是搜索引擎的架構(gòu)師，我只能用比較粗淺的方式來做一個結(jié)構(gòu)的切分。

1、蜘蛛，也叫爬蟲，是將互聯(lián)網(wǎng)的信息，抓取并存儲的一種技術(shù)實現(xiàn)。

搜索引擎的信息收錄，很多不明所以的人會有很多誤解，以為是付費收錄，或者有什么其他特殊的提交技巧，其實并不是，搜索引擎通過互聯(lián)網(wǎng)一些公開知名的網(wǎng)站，抓取內(nèi)容，并分析其中的鏈接，然后有選擇的抓取鏈接里的內(nèi)容，然后再分析其中的鏈接，以此類推，通過有限的入口，基于彼此鏈接，形成強大的信息抓取能力。

有些搜索引擎本身也有鏈接提交入口，但基本上，不是主要的收錄入口，不過作為創(chuàng)業(yè)者，建議了解一下相關(guān)信息，百度，google都有站長平臺和管理后臺，這里很多內(nèi)容是需要非常非常認(rèn)真的對待的。

反過來說，在這樣的原理下，一個網(wǎng)站，只有被其他網(wǎng)站所鏈接，才有機會被搜索引擎抓取。如果這個網(wǎng)站沒有外部鏈接，或者外部鏈接在搜索引擎中被認(rèn)為是垃圾或無效鏈接，那么搜索引擎可能就不抓取他的頁面。

分析和判斷搜索引擎是否抓取了你的頁面，或者什么時候抓取你的頁面，只能通過服務(wù)器上的訪問日志來查詢，如果是cdn就比較麻煩。而基于網(wǎng)站嵌入代碼的方式，不論是cnzz，百度統(tǒng)計，還是google analytics，都無法獲得蜘蛛抓取的信息，因為這些信息不會觸發(fā)這些代碼的執(zhí)行。

一個比較推薦的日志分析軟件是awstats。

在十多年前，分析百度蜘蛛抓取軌跡和更新策略，是很多草根站長每日必做的功課，比如現(xiàn)在身價幾十億的知名80后上市公司董事長，當(dāng)年在某站長論壇就是以此準(zhǔn)確的分析判斷而封神，很年輕的時候就已經(jīng)是站長圈的一代偶像。

但關(guān)于蜘蛛的話題，并不只基于鏈接抓取這么簡單，延伸來說

第一，網(wǎng)站擁有者可以選擇是否允許蜘蛛抓取，有一個robots.txt的文件是來控制這個的。

一個經(jīng)典案例是 https://www.taobao.com/robots.txt

你會看到，淘寶至今仍有關(guān)鍵目錄不對百度蜘蛛開放，但對google開放。

另一個經(jīng)典案例是 http://www.baidu.com/robots.txt

你看出什么了？你可能什么都沒看出來，我提醒一句，百度實質(zhì)上全面禁止了360的蜘蛛抓取。

但這個協(xié)議只是約定俗成，實際上并沒有強制約束力，所以，你們猜猜，360遵守了百度的蜘蛛抓取禁止么？

第二，最早抓取是基于網(wǎng)站彼此的鏈接為入口，但實際上，并不能肯定的說，有可能存在其他抓取入口，比如說，

客戶端插件或瀏覽器，免費網(wǎng)站統(tǒng)計系統(tǒng)的嵌入式代碼。

會不會成為蜘蛛抓取的入口，我只能說，有這個可能。

所以我跟很多創(chuàng)業(yè)者說，中國做網(wǎng)站，放百度統(tǒng)計，海外做網(wǎng)站，放google analytics，是否會增加搜索引擎對你網(wǎng)站的收錄？我只能說猜測，有這個可能。

第三，無法被抓取的信息

有些網(wǎng)站的內(nèi)容鏈接，用一些javascript特殊效果完成，比如浮動的菜單等等，這種連接，有可能搜索引擎的蜘蛛程序不識別，當(dāng)然，我只是說有可能，現(xiàn)在搜索引擎比以前聰明，十多年前很多特效鏈接是不識別的，現(xiàn)在會好一些。

需要登錄，需要注冊才能訪問的頁面，蜘蛛是無法進入的，也就是無法收錄。

有些網(wǎng)站會給搜索特殊頁面，就是蜘蛛來能看到內(nèi)容（蜘蛛訪問會有特殊的客戶端標(biāo)記，服務(wù)端識別和處理并不復(fù)雜），人來了要登錄才能看，但這樣做其實是違反了收錄協(xié)議（需要人和蜘蛛看到的同樣的內(nèi)容，這是絕大部分搜索引擎的收錄協(xié)議），有可能遭到搜索引擎處罰。

所以一個社區(qū)要想通過搜索引擎帶來免費用戶，必須讓訪客能看到內(nèi)容，哪怕是部分內(nèi)容。

帶很多復(fù)雜參數(shù)的內(nèi)容鏈接url，有可能被蜘蛛當(dāng)作重復(fù)頁面，拒絕收錄。

很多動態(tài)頁面是一個腳本程序帶參數(shù)體現(xiàn)的，但蜘蛛發(fā)現(xiàn)同一個腳本有大量參數(shù)的網(wǎng)頁，有時候會給該網(wǎng)頁的價值評估帶來困擾，蜘蛛可能會認(rèn)為這個網(wǎng)頁是重復(fù)頁面，而拒絕收錄。還是那句話，隨著技術(shù)的發(fā)展，蜘蛛對動態(tài)腳本的參數(shù)識別度有了很大進步，現(xiàn)在基本上可以不用考慮這個問題。

但這個催生了一個技術(shù)，叫做偽靜態(tài)化，通過對web服務(wù)端做配置，讓用戶訪問的頁面，url格式看上去是一個靜態(tài)頁，其實后面是一個正則匹配，實際執(zhí)行的是一個動態(tài)腳本。

很多社區(qū)論壇為了追求免費搜索來路，做了偽靜態(tài)化處理，在十多年前，幾乎是草根站長必備技能之一。

爬蟲技術(shù)暫時說到這里，但是這里強調(diào)一下，有外鏈，不代表搜索蜘蛛會來爬取，搜索蜘蛛爬取了，不代表搜索引擎會收錄；搜索引擎收錄了，不代表用戶可以搜索的到；

site語法是檢查一個網(wǎng)站收錄數(shù)的最基本搜索語法，我開始以為是abc的常識，直到在新加坡做一些創(chuàng)業(yè)培訓(xùn)后交流才發(fā)現(xiàn)，大部分剛進入這個行業(yè)的人，或者有興趣進入這個行業(yè)的人，對此并不了解。

一個范例，百度搜索一下 site:cdcxhl.cn

2、索引系統(tǒng)

蜘蛛抓取的是網(wǎng)頁的內(nèi)容，那么要想讓用戶快速的通過關(guān)鍵詞搜索到這個網(wǎng)頁，就必須對網(wǎng)頁做關(guān)鍵詞的索引，從而提升查詢效率，簡單說就是，把網(wǎng)頁的每個關(guān)鍵詞提取出來，并針對這些關(guān)鍵詞在網(wǎng)頁中的出現(xiàn)頻率，位置，特殊標(biāo)記等諸多因素，給予不同的權(quán)值標(biāo)定，然后，存儲到索引庫中。

那么問題來了，什么是關(guān)鍵詞。

英文來說，比如 this is a book，中文，這是一本書。

英文很自然是四個單詞，空格是天然的分詞符，中文呢？你不能把一句話當(dāng)作關(guān)鍵詞吧（如果把一句話當(dāng)作關(guān)鍵詞，那么你搜索其中部分信息的時候，是無法索引命中的，比如搜索一本書，就搜索不出來了，而這顯然是不符合搜索引擎訴求的）。所以要分詞。

最開始，最簡單的思路是，每個字都切開，這個以前叫字索引，每個字建立索引，并標(biāo)注位置，如果用戶搜索一個關(guān)鍵詞，也是把關(guān)鍵詞拆成字來搜索再組合結(jié)果，但這樣問題就來了。

比如搜索關(guān)鍵詞 “海鮮”的時候，會出現(xiàn)結(jié)果，上海鮮花，這顯然不是應(yīng)該的搜索結(jié)果。

比如搜索關(guān)鍵詞 “和服”的時候，會出現(xiàn)結(jié)果，交換機和服務(wù)器。

這些都是蠻荒期的google也不能幸免的問題。

到后來有個梗，別笑，這些都是血淚梗，半夜電話過來，說網(wǎng)監(jiān)通過搜索發(fā)現(xiàn)你社區(qū)有淫穢內(nèi)容要求必須刪除，否則就關(guān)閉你的網(wǎng)站，夜半驚醒認(rèn)真排查，百思不得其解，苦苦哀求提供信息線索，最后發(fā)現(xiàn)，有人發(fā)了一條小廣告，“求購二十四口交換機” 。還有，涉嫌政治敏感，查到最后 “提供三臺獨立服務(wù)器”，看出其中敏感詞了沒？你說冤不冤。這兩個故事可能并不是真的，因為都是網(wǎng)上看到的，但是我想說，類似這樣的事情真的有，并非都是空穴來風(fēng)。

所以，分詞，是亞洲很多語言需要額外處理的事情，而西方語言不存在的問題。

但分詞不是說說那么簡單，比如幾點，1：如何識別人名？2、互聯(lián)網(wǎng)新詞如何識別？比如 “不明覺厲”。3、中英混排的坑，比如QQ表情。

做一個分詞系統(tǒng)，說到底也不難，但是要做一個自動學(xué)習(xí)，與時俱進，又能高效率靈活的分詞引擎，還是很有技術(shù)難度的。當(dāng)然，這方面我不是專家，不敢妄言了。

現(xiàn)在機器學(xué)習(xí)技術(shù)發(fā)達了，特別是google在深度學(xué)習(xí)領(lǐng)域擁有優(yōu)勢，以前很多通過人工做標(biāo)定，做分類的工作可以交給算法完成，從某種意義來說，本地化的工作可以讓機器學(xué)習(xí)去完成；未來，也許深度學(xué)習(xí)技術(shù)可以自己學(xué)習(xí)掌握本地化的技巧。但我想說兩點，第一，從搜索引擎發(fā)展歷史看，在深度學(xué)習(xí)技術(shù)還沒成熟的情況下，本地化的工作是非常重要的，也是很重要的決定競爭成敗的要素；第二，即便現(xiàn)在深度學(xué)習(xí)已經(jīng)很強大，基于當(dāng)?shù)卣Z言的人工參與，標(biāo)定，測試，反饋，一些本地化的工作依然對深度學(xué)習(xí)的效率和效果擁有不可替代的作用。

索引系統(tǒng)除了分詞之外，還有一些要點，比如實時索引，因為一次索引庫的更新是個大動靜，一般網(wǎng)站運營者知道，自己網(wǎng)站內(nèi)容更新后，需要等索引庫下一次更新才能看到效果，而且索引庫針對不同權(quán)重的網(wǎng)站內(nèi)容，更新的頻次也不太一樣。但諸如一些高優(yōu)先的資訊網(wǎng)站，以及新聞搜索，索引庫是可以做到近似實時索引的，所以我們在新聞搜索里，幾分鐘前的信息就已經(jīng)可以搜索到了。

我以前經(jīng)常吐槽一個事情，我在百度空間發(fā)表的文章，每次都是google率先索引收錄，當(dāng)時他們的解釋是，猜測是因為很多人通過google閱讀器訂閱我的博客，而google閱讀器很可能是google快速索引的入口。（然并卵，百度空間已經(jīng)沒有了，google閱讀器也沒有了。）

索引系統(tǒng)的權(quán)值體系，是所有SEOER們最關(guān)心的問題，他們經(jīng)常通過不同方式組合策略，觀察搜索引擎的收錄，排名，來路情況，然后通過對比分析整理出相關(guān)的策略，這玩意說出來可以開很長一篇了，但今天就不提了。

但我說一個事實，很多外面的公司，做SEO的，會誤認(rèn)為百度里面的人熟悉這里的門道和規(guī)律，很多人高價去挖百度的搜索產(chǎn)品經(jīng)理和技術(shù)工程師去做SEO，結(jié)果，呵呵，呵呵。而外面那些草根創(chuàng)業(yè)者，有些善于此道的，真的比百度的人還清楚，搜索權(quán)值的影響關(guān)系，和更新頻次等等，比如前面說到的，身價幾十億的那個80后創(chuàng)業(yè)者。

基于結(jié)果反推策略，比身在其中卻不識全局的參與者，更能找到系統(tǒng)的關(guān)鍵點，有意思不。

3、查詢展現(xiàn)

用戶在瀏覽器或者在手機客戶端輸入一個關(guān)鍵詞，或者幾個關(guān)鍵詞，甚至一句話，這個在服務(wù)端，應(yīng)答程序獲取后處理步驟如下

第一步，會檢查最近時間有沒有人搜索過同樣的關(guān)鍵詞，如果存在這樣的緩存，最快的處理是將這塊緩存提供給你，這樣查詢效率高，對后端負(fù)載壓力最低。

第二步，發(fā)現(xiàn)這個輸入查詢最近沒有搜索，或者有其他條件的原因必須更新結(jié)果，那么會將這個用戶輸入的詞，進行分詞，沒錯，如果不止一個關(guān)鍵詞，或者是一句話的情況下，應(yīng)答程序會又一次分詞，將搜索的查詢拆成幾個不同的關(guān)鍵詞。

第三步，將切分后的關(guān)鍵詞分發(fā)到查詢系統(tǒng)中，查詢系統(tǒng)會去索引庫查詢，索引庫是個龐大的分布式系統(tǒng)，先分析這個關(guān)鍵詞屬于哪一塊哪一臺服務(wù)器，索引是一種有序的數(shù)據(jù)組合，我們用可以用近似二分法的方式思考，不管數(shù)據(jù)規(guī)模多大，你用二分法去查找一個結(jié)果，查詢頻次是log2(N)，這個就保證了海量數(shù)據(jù)下，查詢一個關(guān)鍵詞是非常快非?？斓?。當(dāng)然，實際情況會比二分法復(fù)雜很多，這樣說比較容易理解而已，再復(fù)雜些不是我不告訴大家，是我自己都不是很清楚呢。

第四步，不同關(guān)鍵詞的查詢結(jié)果（只是按權(quán)值排序的部分頂部結(jié)果，絕對不是全部結(jié)果），基于權(quán)值倒序，會再匯總在一起，然后把共同命中的部分反饋回來，并做最后的權(quán)值排序。

記住，搜索引擎絕對不會返回所有結(jié)果，這個開銷誰都受不了，百度也不行，google也不行，翻頁都是有限制的。

再記住，如果你多個關(guān)鍵詞里有多個不同品類冷門詞，搜索引擎有可能會舍棄其中一個冷門詞，因為匯總數(shù)據(jù)很可能不包含共同結(jié)果。搜索技術(shù)不要神話，這樣的范例偶爾會出現(xiàn)。

這是三大部分，多說一點，其實還有第四部分。

用戶點擊行為采集和反饋部分

基于用戶的翻頁，點擊分布，對搜索結(jié)果的優(yōu)劣做判定，并對權(quán)值做調(diào)整，但這個早期搜索引擎是沒有的，后面才有，所以暫時不列為必備的三大塊。

此外，一些對搜索優(yōu)化的機器學(xué)習(xí)策略，對易混詞識別，同音詞識別等等，相當(dāng)部分也都基于用戶行為反饋進行，這是后話，這里不展開。

關(guān)于第四部分，我以前說過一個詞，點擊提權(quán)，我說這個詞價值千金，我猜很多人并沒理解。沒理解就好，要不我要被一些同行罵死了。

以上是單指搜索引擎的工作原理，和一些技術(shù)邏輯，當(dāng)然，只是入門級的解讀，畢竟再深入就不是我能講解的了。

但搜索引擎的本地化，并不局限于搜索技術(shù)的本地化。

百度的強大，不只是搜索技術(shù)，當(dāng)然有些人會說百度沒有搜索技術(shù)，這種言論我就不爭論了，我不試圖改變?nèi)魏稳说挠^點，我只列一些事實而已。

百度的強大還來自于兩大塊，第一是內(nèi)容護城河，第二是入口把控。

前者是百度貼吧，百度mp3，百度知道，百度百科，百度文庫

后者是hao123和百度聯(lián)盟。

這兩塊都是本地化，google進中國的時候，在這兩塊都有動作

投資天涯，收購265，以及大力發(fā)展google聯(lián)盟，這些都是本地化。

此外，重申一下，百度全家桶的出現(xiàn)以及，百度全家桶和hao123的捆綁，是360崛起之后的事情，hao123從百度收購到360崛起之前，一直風(fēng)平浪靜的沒做任何推廣和捆綁，從歷史事實而言，請勿將本地化等同于流氓化。

分享名稱：網(wǎng)站SEO優(yōu)化——搜索引擎的工作原理
瀏覽路徑：http://www.rwnh.cn/news21/101771.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供App開發(fā)、定制網(wǎng)站、網(wǎng)站建設(shè)、App設(shè)計、域名注冊、企業(yè)網(wǎng)站制作

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

90分的營銷，撐不起60分的產(chǎn)品 | 論產(chǎn)品的重要性 2021-02-19
遷移到云端的五個關(guān)鍵優(yōu)勢 2021-02-19
為什么說互聯(lián)網(wǎng)是注意力經(jīng)濟 2021-02-19
搶注“李文亮”？多件惡意商標(biāo)注冊申請被集中駁回 2021-02-19
域名最長購買時間為多少年？域名不想要了怎么注銷？ 2021-02-19
工業(yè)物聯(lián)網(wǎng)為什么難落地？ 2021-02-19
你不知道的B2C獨立商城系統(tǒng)優(yōu)勢分析 2021-02-19
安卓新LOGO出爐！看著像毛毛蟲 2021-02-19
如何做一個微信商城小程序 2021-02-19

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

網(wǎng)站SEO優(yōu)化——搜索引擎的工作原理