2014-03-07 分類: 搜索引擎優(yōu)化
以上“搜索引擎優(yōu)化原理網(wǎng)頁蜘蛛”詳細介紹了蜘蛛的分類、抓取條目、抓取策略和更新策略。搜索引擎把頁面抓回,下一步是對頁面內(nèi)容進行分析,主要包括確定頁面類型、提取頁面主題、去除頁面噪聲、去除停止詞、中文分詞、注冊統(tǒng)計、重新建立關(guān)鍵詞索引庫。
判斷頁面是普通頁面還是PDF、WPS、PPT、TXT等特殊頁面;區(qū)分文本、圖片、視頻等內(nèi)容形式,識別頁面網(wǎng)站論壇、商場、視頻站、文本站等。
目前,搜索引擎基本不識別JS、AJAX、flash、圖像、視頻、幀和iframe框架結(jié)構(gòu)的內(nèi)容,主要是通過文本關(guān)鍵字抓取文本處理和搜索信息。提取網(wǎng)頁級的特征內(nèi)容,如標(biāo)題、關(guān)鍵字、主題等。這些特征在網(wǎng)頁內(nèi)容相關(guān)性中占很高的比例。在正常情況下,它還指示網(wǎng)頁的主題。
剔除無關(guān)廣告、登錄框、版權(quán)公告等雜音內(nèi)容,提取主題內(nèi)容。這一部分不是很嚴謹,而且各個搜索引擎的處理也不一樣。一般推薦內(nèi)容、錨文本、導(dǎo)航等還是很有價值的。
分詞是中文搜索引擎中一個獨特的步驟。搜索引擎需要識別哪些詞可以組合成詞。每個搜索引擎都有自己龐大的詞庫。根據(jù)詞庫匹配,對網(wǎng)頁內(nèi)容進行分段,如“旅游景點推薦”可分為“旅游/景區(qū)/推薦”或“旅游景點/景區(qū)推薦”等結(jié)果。漢語分詞主要有兩種方法:基于詞典的匹配和基于統(tǒng)計的分詞。他們各有利弊。在實際應(yīng)用中,他們混合使用了這種方法,不僅快速有效,而且可以識別新詞,消除歧義。
百度搜索引擎可以使用快照頁面查看輸入文本分為哪些關(guān)鍵字,如下所示
分詞的目的是理解網(wǎng)頁的內(nèi)容。停止詞如“de”、“de”、“ah”和“Ba”將首先刪除,使頁面文本的主題內(nèi)容更加突出。當(dāng)然,虛詞也不是絕對的,比如以“啊”為主題介紹單詞的發(fā)音、意義、用法等新華字典頁面,“啊”是主題關(guān)鍵詞。關(guān)鍵詞排名優(yōu)化是不斷跟蹤和分析搜索引擎條目和歷史數(shù)據(jù)。
分詞后,搜索引擎會統(tǒng)計每個單詞出現(xiàn)在頁面上的次數(shù)并計算密度,這樣搜索引擎就能識別出頁面內(nèi)容的相關(guān)性。建議關(guān)鍵詞布局密度在2%-8%之間,過低容易被認定為相關(guān)性低的主題內(nèi)容,過高則可能被認定為關(guān)鍵詞堆積,容易受到處罰。
內(nèi)容相關(guān)性:除了網(wǎng)頁標(biāo)題、關(guān)鍵字、deion和單詞密度外,H標(biāo)記(H1標(biāo)記也很重,一般用于文章標(biāo)題,H2、H3標(biāo)記也稍有效果,一般用于分段主題,H4之后就不起作用了),而用粗體標(biāo)簽標(biāo)注的內(nèi)容顯然會比其他普通內(nèi)容受到更多關(guān)注。此外,核心關(guān)鍵字出現(xiàn)在頁面的前面比后面好。錨文本鏈接相關(guān)性作為重要數(shù)據(jù)進行收集和分析。
搜索引擎喜歡原創(chuàng)內(nèi)容,不喜歡很多重復(fù)的內(nèi)容頁面。完成上述步驟后,他們可以識別頁面的內(nèi)容功能并重新重復(fù)內(nèi)容頁面。
經(jīng)過上述處理,記錄了頁面關(guān)鍵字集,記錄了詞頻、位置、格式(H標(biāo)簽、粗體、錨文本)等權(quán)重因子。搜索引擎創(chuàng)建頁面和關(guān)鍵字表的索引結(jié)構(gòu)。該指標(biāo)有兩種結(jié)構(gòu):正向指標(biāo)結(jié)構(gòu)和反向指標(biāo)結(jié)構(gòu)。在前向索引結(jié)構(gòu)中,每個文件對應(yīng)一個文件ID,文件的內(nèi)容表示為一組關(guān)鍵字。
搜索引擎的用戶按關(guān)鍵字進行搜索,正索引不利于查詢效率,搜索引擎會把正索引變成倒索引。倒排索引結(jié)構(gòu)是關(guān)鍵字到文件集的映射。用戶將僅檢索索引頁。
包含:只要能被搜索引擎蜘蛛抓取,經(jīng)過分析,有價值的頁面就會被包含進去。
索引:搜索引擎已經(jīng)包含了頁面,并且認為用戶有意義的會議內(nèi)容,可能會創(chuàng)建索引,可能會有流量。網(wǎng)站優(yōu)化排名優(yōu)化是基于網(wǎng)頁已被索引。
仙女工作室提醒大家,只要網(wǎng)站結(jié)構(gòu)清晰,內(nèi)容有價值,并且網(wǎng)站定期更新,那么站長平臺提交鏈接和外發(fā)鏈接,以提高搜索引擎對網(wǎng)站的收藏量和索引量,在2-7天內(nèi)對主頁進行SEO優(yōu)化是非常有可能的。
百度蜘蛛抓取多少頁面并不是最重要的,重要的是建立了多少頁面的索引庫。搜索引擎的索引數(shù)據(jù)庫是分層的。高質(zhì)量的網(wǎng)頁將被分配到重要的索引數(shù)據(jù)庫中,普通網(wǎng)頁將保留在普通數(shù)據(jù)庫中,較差的網(wǎng)頁將被分配到低級數(shù)據(jù)庫中作為補充材料。目前,60%的檢索需求只能通過使用重要的索引庫來滿足,這也是一些網(wǎng)站的館藏量過高,但流量不理想的原因。
進入高質(zhì)量索引庫的前提是對用戶的價值。包括但不限于:
事實上,互聯(lián)網(wǎng)上的大多數(shù)網(wǎng)站根本不被百度收錄。并不是百度沒有找到他們,而是在建立數(shù)據(jù)庫之前的篩選過程被過濾掉了。
網(wǎng)站欄目:搜索引擎優(yōu)化搜索引擎內(nèi)容處理與索引
分享路徑:http://www.rwnh.cn/news47/6497.html
網(wǎng)站建設(shè)、網(wǎng)絡(luò)推廣公司-創(chuàng)新互聯(lián),是專注品牌與效果的網(wǎng)站制作,網(wǎng)絡(luò)營銷seo公司;服務(wù)項目有網(wǎng)站營銷、搜索引擎優(yōu)化等
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容