SEO中的概念精准及用途
我一直以來認爲,seo更多地是門藝術。但比較悲催的是,這是門建立在技術基礎上的藝術,所以得像搞技術一樣精准掌握一些概念。今天寫幾個有密切關系經常被混淆但又不是一回事的幾個概念,以及爲什麽要精准掌握這幾個概念。
爬行,抓取,索引,收錄
爬行是指蜘蛛在頁面上沿著鏈接發現新頁面,然後“爬”過去抓取新頁面。抓取是指蜘蛛發現新頁面後,像浏覽器一樣打開頁面,把頁面HTML代碼存入數據庫。兩個概念在英文中通常都是用crawl或spider(這裏是動詞)表示,視上下文才能分出是指哪個。
顯然,爬行和抓取是相互交織的。抓取是實際發生的我們能夠觀察到的過程,在原始日志中,蜘蛛的抓取是有完整記錄的,比如:抓取確切時間、狀態碼、抓取的文件是哪個、抓取了多大文件等等。蜘蛛對頁面的抓取就和浏覽器讀取文件是完全一樣的。
而爬行只是一個形象的比喻,實際上並不存在蜘蛛抓取文件時發現鏈接然後立即跟蹤過去這樣一個過程。蜘蛛抓取文件後存入數據庫,程序解析出文件中的鏈接後將URL存入頁面地址庫,然後蜘蛛從地址庫中按一定規則選取URL進行抓取。蜘蛛不是真的訪問頁面時看到一個URL就爬過去。
索引指的是將一個URL的信息進行各種整理,如去重、分詞等等,然後將關于這個URL的信息存入數據庫,被稱爲索引庫。真正用于搜索的是倒排索引,以後有機會再細說。要注意的是,索引庫中關于URL的信息不僅是組成頁面內容的關鍵詞及其特征(位置、格式等),還有鏈接、更新情況等信息。英文索引這個詞是index。
收錄是SEO們最關心也最常用的詞,其實也是4個概念中最不明確的。被收錄指的是我們能查到頁面被搜索引擎存入了索引庫。但後面我們會看到,進入索引庫的URL並不一定被抓取過,這和SEO們的直覺可能是不一樣的。
當然,精准掌握概念不是爲了咬文嚼字,而是對很多SEO問題的理解和處理有影響。下面舉幾個例子。
收錄不全是什麽原因?
頁面不收錄是SEO們最頭疼的問題之一,不收錄就談不上排名、流量了。太多人在博客、論壇裏問頁面不被收錄是什麽原因,也給出了域名,但這種問題是沒法回答的,即使願意花時間去診斷也不能回答(除非列出所有可能的原因,等于沒回答),因爲缺了一個關鍵信息:頁面被抓取了沒有?這只有查原始日志才能知道,看網站是看不出來的,查流量也是查不出來的。了解前面的概念就知道,被抓取不一定被收錄,沒被收錄也不一定意味著沒被抓取。
如果頁面被抓取過卻沒被索引和收錄,應該往內容是否有問題(原創?采集?所謂僞原創?敏感內容或産品?複制內容?)方向去找原因。網站結構應該沒有大問題,搜索引擎是看了內容之後覺得不適合收錄的。如果頁面壓根就沒被抓取過,則應該往網站和鏈接結構、搜索引擎不友好的技術障礙、域名權重等方面去找。
精品應用推薦:sony數位相機,android遊戲下載,發電機,創業
没有评论:
发表评论