亚洲欧美日韩狼人射_在线精品免费看国产_中文字幕日本免费视片_少妇人妻无码高清

×

網(wǎng)站建設(shè)

當(dāng)前位置:首頁(yè) > 龍鼎新聞 > 行業(yè)新聞 >

搜索引擎蜘蛛如何爬取網(wǎng)站內(nèi)容

作者:龍鼎網(wǎng)絡(luò)發(fā)布時(shí)間:2014-12-14 16:29:47瀏覽次數(shù):15386文章出處:晉城自適應(yīng)網(wǎng)站制作

       爬行是指搜索引擎的蜘蛛在網(wǎng)頁(yè)上找到鏈接前進(jìn)頁(yè)面,然后“爬”搶過(guò)去的抓取頁(yè)。蜘蛛發(fā)現(xiàn)新年的頁(yè)面后,如瀏覽器打開(kāi)網(wǎng)頁(yè),把HTML代碼存儲(chǔ)在數(shù)據(jù)庫(kù)中。在英文中兩個(gè)概念通常是爬行或蜘蛛(在這里是動(dòng)詞)說(shuō),根據(jù)上下文來(lái)區(qū)分一下。
 
       顯然,爬行和抓取是交織在一起的。抓取是一個(gè)過(guò)程,實(shí)際發(fā)生的我們可以觀察到,在原來(lái)的日志,蜘蛛有完整的記錄,如:準(zhǔn)確把握時(shí)間,狀態(tài)代碼,捕獲文件,吸引了更多的文件等。蜘蛛抓取的頁(yè)面和瀏覽器讀取的文件是完全相同的。
而爬行是一個(gè)形象的比喻,實(shí)際上不存在,蜘蛛抓取的文件中找到的鏈接,然后立即跟蹤過(guò)去這一過(guò)程。存儲(chǔ)在數(shù)據(jù)庫(kù)中的蜘蛛抓取的文件,程序解析文件將存儲(chǔ)在網(wǎng)頁(yè)中鏈接的URL地址存入數(shù)據(jù)庫(kù),然后蜘蛛從庫(kù)中的地址,根據(jù)一定的規(guī)則選擇的URL捕獲。蜘蛛不是在訪問(wèn)頁(yè)時(shí)看到一個(gè)RUL就爬上去。
 
       索引指的是各種精加工的URL信息,如去除重復(fù),分割等,然后把URL信息存儲(chǔ)在數(shù)據(jù)庫(kù)中,稱(chēng)為索引數(shù)據(jù)庫(kù)。真正的搜索是倒排索引,未來(lái)將有機(jī)會(huì)探討。注意,關(guān)于URL信息庫(kù)中的指標(biāo)不僅是關(guān)鍵詞和頁(yè)面的內(nèi)容構(gòu)成特征(位置,格式),和鏈接,更新信息。在英語(yǔ)單詞就是index。
 
       收錄是SEO最關(guān)心的最常用的詞,事實(shí)上,是4個(gè)最模糊的概念。被包含的意思是我們可以找到的網(wǎng)頁(yè)是搜索引擎的索引庫(kù)。但是,稍后我們將看到,在索引庫(kù)的URL不能抓,這和SEO有直覺(jué)可能是不一樣的。
 
       當(dāng)然,準(zhǔn)確把握概念對(duì)理解和處理許多SEO問(wèn)題都有幫助。這里有幾個(gè)例子。
 
       收錄不了的原因是什么?網(wǎng)頁(yè)不收錄是SEO最頭痛的問(wèn)題,不收錄就沒(méi)有排名和流量。太多的人問(wèn)問(wèn)網(wǎng)頁(yè)將不收錄在博客論壇,什么原因,也給域名,但問(wèn)題是沒(méi)有答案的,甚至愿意花時(shí)間去診斷不能回答(除非你列出所有可能的原因,等于沒(méi)回答),因?yàn)槿绷艘?/span>關(guān)鍵:頁(yè)面抓取了嗎?只檢查原始日志知道,看到網(wǎng)站是看不出來(lái)的,檢查流是查不出來(lái)的。理解前面的概念就知道了,被抓取不一定被包收錄,不收錄,并不一定意味著是不抓取。
 
       如果頁(yè)面上卻沒(méi)有索引和收錄,往往是內(nèi)容有問(wèn)題(原創(chuàng)?采集?所謂的偽原創(chuàng)?敏感的內(nèi)容或產(chǎn)品?復(fù)制的方向內(nèi)容找到原因?)。網(wǎng)站的結(jié)構(gòu)應(yīng)該沒(méi)有太大問(wèn)題,搜索引擎是在看到了不適合包含的內(nèi)容。如果頁(yè)面沒(méi)有被抓取,它應(yīng)該去的網(wǎng)站的鏈接結(jié)構(gòu),搜索引擎友好的技術(shù)壁壘,域名權(quán)重等去找。

      晉城龍鼎網(wǎng)絡(luò)為您解答。

客戶評(píng)價(jià)

專(zhuān)業(yè)的網(wǎng)站建設(shè)、響應(yīng)式、手機(jī)站微信公眾號(hào)開(kāi)發(fā)

© 2010-2020 龍鼎網(wǎng)絡(luò) 版權(quán)所有 晉ICP備14008335號(hào)-1

注冊(cè)號(hào):140502200020561

公眾號(hào) 微信聯(lián)系

手機(jī)版 進(jìn)入手機(jī)版