ndfweb.cn

提高網站在Google中的排名——麵向搜索引擎的網站設


2008-12-26 10:58:44 (6504)



關鍵詞:Google PageRank "link popularity" "website promotion" "optimization for search engine"
內容摘要:
目前中文網站在整個互聯網中的影響還比較小,這主要是由於中文網站總體的水平(技術上,內容上)都還相對落後造成的,最主要的表現有:
行業知識:不知道搜索引擎對吸引的新用戶的重要性,在搜索引擎排名服務中追求“傻瓜相關”,購買一些其實沒有太多實際意義的行業關鍵詞。其實能夠用戶輸入的關鍵詞越多,真對性越強,價值越高。如果用戶能夠直接定位到產品具體內容頁比到網站首頁有價值的多;
發布技術:網站的網頁進入Google的索引量非常小,動態網頁仍是主要發布機製,缺乏將動態頁麵鏈接表現成靜態頁麵的機製;
頁麵設計:頁麵標題重複,關鍵詞不突出,過渡使用JavaScript腳本/圖片/Flash等不適合搜索引擎索引的非文本形式;
無法量化的東西是不可管理的,以上根本的原因往往是網站自身缺乏日誌統計分析造成:
其實大部分網站隻要通過一些簡單的策略還是可以讓網站自身的水平在互聯網中有一個真實的體現,網站結構設計中麵向搜索引擎的優化注意事項包括:
鏈接引用的重要性;
如何突出關鍵詞:網頁標題、主題的設計;
頁麵及站點結構設計注意事項;
以及站點訪問統計的重要性等;
Google的站點設計指南
(注意:本網站設計本身就利用了其中一些方法)。
什麼是PageRank
Google等新一帶搜索引擎的優勢之一在於不僅索引量很大,而且還將最好的結果排在搜索結果的最前麵,具體的原理可以參考Google の秘密 - PageRank 徹底解説一文,PageRank簡單的說類似於科技論文中的引用機製:誰的論文被引用次數多,誰就是權威。在互聯網上PageRank就是基於網頁中相互鏈接關係的分析得出的。
此外,從計算方法角度闡述PageRank機製還有這篇文章:http://pr.efactory.de/裏麵有更詳細的PageRank算法說明和各種清晰的小型個案分析:
比如:子頁中導航條的重要性
B <=> A => C
Vs
B <=> A <=> C (好)
頁麵數量因素:
B <=> A <=> C
Vs
F <=\ /=> G
B <=> A <=> C (好)
D <=/ \=> E
一個意想不到的結論:
(B <=> A <=> C) ( E <=> D <=> F)
Vs
(B <=> A <=> C) <=> ( E <=> D <=> F)
PageRank升高的隻是被鏈接的2個首頁A和D,而網站子頁麵的PageRank平均會略有下降。同時:一個網站進入Google的索引量越大其受類似因素影響越小。
PageRank不對稱的頁麵互鏈:
Google會用BadRank之類的算法進行糾正,而且一個網頁著有來自“與其自身不相稱”的高PageRank站點的鏈接,而自身又缺少足夠數量和質量的反相鏈接的話,其PageRank會自動降低為0,A(pr=7) <=> B(pr=0)
簡單的說就是:偶爾要被權威站點反相鏈接不算數,要被足夠多的權威站點引用才能提高自身網頁的PageRank。
鏈接就是一切
在互聯網的海洋中,最重要的就是互聯互通,不被其他網站引用的網站就是“信息孤島”。“酒好也怕巷子深”,也許這話說起來有點像垃圾郵件廣告,但事實就是這樣。所以如果做網站的目的不是孤芳自賞,就需要積極的推廣自己的網站。
通過搜索引擎推廣自己需要注意以下幾個方麵:
以量取勝:不一定加入大型網站的分類目錄才是網站推廣,來自其他網站的任何反相鏈接都是有用的
網站推廣比較經典的方式就是加入比較大型門戶網站的分類目錄,比如:Yahoo!,dmoz.org等。其實這裏有一個誤區:不一定非要加入大型網站的分類目錄才是網站推廣,因為現在搜索引擎已經不再隻是網站目錄的索引,而是更全麵的網頁索引,所以無論來自其他網站任何地方的反相鏈接都是非常有價值的,哪怕是出現在新聞報道,論壇,郵件列表歸檔中。很多大型站點的郵件列表發郵件時,一定注意在自己的簽名中加上自己網站的地址。

Blogger(Weblog的簡稱)們也許最深刻地理解了“鏈接就是一切”這句話的含義,由於Blog的內容之間有大量的相互鏈接,因此最經常被引用的 Blog頁麵在搜索引擎中的排名往往比一些大型商業網站的頁麵還要高。
以質取勝:被PageRank高的網站引用能更快地提高PageRank 數量隻是關鍵因素之一,來自PageRank高的頁麵的鏈接還能更快的提高被鏈接目標的PageRank,我隻是將一些文章投稿在了ZDNet中國上,由於頁麵上有文章出處鏈接,相應網頁和網站整體的PageRank過了一段時間後就有了很大的提升。有時候被什麼樣的網站引用有時候比引用次數多更重要。這裏我要特別感謝的是,當時ZDNet中國是唯一遵循了我的版權聲明的要求表明了文章出處,並且有反相鏈接的網站。

按照這個原則:能夠名列Yahoo!和DMOZ這樣的大型權威目錄的頭2層是非常有價值的。

了解搜索引擎的"價值觀":
Lucene簡介這篇文章被Jakarta.apache.org的lucene項目引用以後,這篇文章就成為了所有頁麵中PageRank最高的頁麵,而Google支持的一些項目,比如:Folding@Home,讓我一直懷疑他們對政府,教育和非盈利組織的站點有特別加分,畢竟.org .edu才代表了互聯網的實質:分權和共享。

但更合理的解釋是:.org很多都是開放技術平台的開發者,他們會在首頁這樣的地方加入Powered By Apache, Power by FreeBSD之類的鏈接表示對其他開源平台的尊重,所以象Apache, PHP, FreeBSD這樣的開源站點在GOOGLE中都有非常高的PageRank。而在.edu這些站點中,很多都是學術性比較強的文檔,以超鏈接形式標明參考文獻的出處已經成為一種習慣,而這也無疑正是PageRank最好的依據。

注意:不要通過Link Farm提高自身的站點排名:Google會懲罰那些主動鏈接到Link Farm站點以提高自身排名站點,相應站點的頁麵將不會被收入到索引中。但如果你的頁麵被別的Link Farm鏈接了也不必擔心,因為這種被動的鏈接是不會被懲罰的。

不要吝嗇給其他網站的鏈接:如果一個網頁隻有大量的進入鏈接,而缺乏導出鏈接,也會被搜索引擎認為是沒有價值的站點。保證你的網站能夠幫助搜索引擎更準確地判斷哪些是對用戶最有價值的信息,也就是說如果你的網站隻有外部反向鏈接而沒有導出鏈接的話,也會對你的網站在搜索結果中的表現帶來負麵影響。當然網站中連一個導出鏈接都沒有的情況非常罕見,除非你是刻意這麼做。正常情況下大家都會自然地在網頁中加上一些其他網站的鏈接,帶領訪問者去到我們認為重要或能夠提供更多有價值信息的地方,另外在推廣自己網站之前也許首先需要了解自己網站目前在一些搜索引擎中的知名度,原理非常簡單,可以參考如何評價網站的人氣一文。

網站推廣隻是手段,如何突出內容、讓需要相關信息的用戶能夠盡快的找到你的網站才是目的,PageRank高並不代表像Yahoo!這樣的門戶站點就能在所有搜索結果中排名靠前,因為搜索引擎的結果是搜索關鍵詞在頁麵中的匹配度和頁麵的PageRank相結合的排名結果。因此第二個要點:如何突出關鍵詞。

如何突出關鍵詞:麵向主題(Theme)的關鍵詞匹配
Theme Engine正在逐步超過PR,成為結果排序中更主要的因素,可以比較一下以下現象:
為什麼查“新聞”,“汽車”之類的文字,各種門戶網站的首頁不在第一位?要知道他們的頁麵中都有相應頻道的鏈接文字的 一篇新聞頁麵中,搜索引擎如何不通過模板匹配,自動將新聞的主體和頁麵中的頁頭,欄目導航條,頁尾等部分的內容區分開的?其實以上問題都可以歸結為網頁內容摘要的提取策略和關鍵詞在其中的命中:

首先將能夠描述一個頁麵內容的分成以下幾種類型:
鏈入文字描述:inbound link text
http://www.searchenginedictionary.com/terms-inbound-link.shtml
HTML頁麵標題:title 好標題一般會將頁麵中最重要的關鍵詞放在最前麵,比如:ABC-10型吸塵器 - XX家電城
HTML內容主體:content text
鏈出文字:outbound link text
如果按照以下規則:
一個頁麵中關鍵詞命中權重:鏈入文字 > HTML標題文字 > HTML頁麵主體內容 >> 出鏈文字,以上現象就比較好解釋了。
鏈入文字是頁麵上看不見的,但鏈入文字對被鏈接頁麵有巨大的作用:在現代搜索引擎在關鍵詞匹配的過程中,匹配的過程不隻看當前頁麵的內容摘要:很大程度上,不隻看這個網頁自己說自己有什麼內容,還要看別人如何鏈接時,如何描述你的網站別人怎麼稱呼你,比你自己說自己更重要。

比如查:“世界衛生組織”,返回結果中有 http://www.who.int/ 而這個頁麵中是沒有中文的,之所以能匹配上,是因為很多鏈接它的中文網站使用了:<a href="http://www.who.int/">世界衛生組織</a>,所以,這個頁麵中不存在的中文關鍵詞也成為了頁麵摘要的一部分。

這樣一想,就可以知道鏈出鏈接的文字其實是為被鏈接的子頻道首頁或者內容詳情頁服務的。對自身頁麵的關鍵詞密度隻有負麵的影響,這也是Google建議一個頁麵中鏈接不要超過100個的原因:他根本不索引100個鏈接以後的內容。

按照以上規則,搜索引擎將一篇新聞詳情頁中的新聞內容提取出來就是把頁麵上所有帶HTTP鏈接的文字都去掉,就是新聞的內容部分了,更精確一些可以通過取最長文本段落等策略實現; 而很多網站首頁或頻道首頁中幾乎全部都是鏈接,經過搜索引擎分析的結果就是:什麼內容也沒有,能夠被命中的關鍵詞僅僅是別人鏈接你用的“網站首頁”和頻道標題Title中的站點名稱等的幾個關鍵詞,而頁麵中其他的文字則遠遠不如相應子頻道和具體內容頁麵的匹配度高,而搜索引擎能夠通過以上規則,讓用戶更快的直接定位到有具體內容的內容詳情頁麵。因此希望通過一個首頁,盡可能多的命中所有希望推廣的關鍵詞是不可能的。讓網頁盡可能多的進入搜索引擎的索引,然後把握好整個網站的主題風格是非常重要的,讓網站的主題關鍵詞能夠比較均勻的按照金字塔模式分布到網站中可以參考:網站的主題金字塔設計 :

網站名稱(用戶通過1-2個抽象關鍵詞)
/ \
子頻道1 子頻道2 (用戶通過2-3個關鍵詞命中)
/ \ / \
產品1 產品2 文章1 文章2 (用戶通過3-4個關鍵詞命中:這種用戶最有價值)

不要空著標題:空著<title></title>無異於浪費了最有價值的一塊陣地;
傳統的頁麵中,HTML頁麵中會有類似以下的隱含信息,用於說明當前網頁的主要內容關鍵字:
<header>
<meta name="keyword" content="mp3 download music...">
</header>
後來由於這種人工添加關鍵詞的方式被濫用,大量網頁中為了提高被搜索引擎命中的概率,經常添加一些和實際網頁內容無關的熱門關鍵比如:“music mp3 download”等,所以新一代的搜索引擎已經不再關心頁麵頭文件中的人工meta keyword聲明,而頁麵標題在搜索引擎的關鍵詞的命中命中過程中往往有著更高的比重,如果一個關鍵詞在標題中命中會比在頁麵中命中有更高的得分,從而在相應的搜索結果排名中更靠前。

標題長度和內容:不要過長,一般在40個字符以內,並充分突出關鍵詞的比重;如果更長的標題搜索引擎一般會忽略掉,所以要盡可能將主要關鍵詞放在標題靠前的位置。省略掉不必要的形容詞吧,畢竟用戶主要通過名詞來找到需要的內容。標題內容:盡量用一些別人可以通過關鍵詞找到的字眼(也別太過頭,如果標題中的字眼超過1半內容中都沒有,有可能被搜索引擎排除出索引),因此基於web日誌中來自其他搜索引擎的關鍵詞查詢統計非常必要。

如果網頁很多的話,盡量使用不同的網頁標題,爭取讓自己網站的內容更多的進入搜索引擎索引範圍;
因為搜索引擎會根據頁麵內容的相似度把一些內容當成重複頁麵排除出索引範圍;

http://www.chedong.com/phpMan.php是我的網站上的一個小應用:一個web界麵的unix命令手冊(man page),在以前的設計中所有動態頁麵使用的都是同樣的標題:"phpMan: man page /perldoc /info page web interface" ,Google索引了大約3000多個頁麵,後來我將頁麵標題改成了"phpMan: [命令名]"這樣的格式,比如:"phpMan: ls",這樣大部分動態頁麵的標題就都不一樣了,一個月後Google從這個頁麵入口索引了大約6000個頁麵。因此,如果網站中很多網頁都使用相同的標題,比如:“新聞頻道”,“論壇”,這些頁麵中很大一部分就會被排重機製忽略掉。
除了<title></title>外,還可以用<h1></h1>標題行突出內容主題,加強標題的效果;
在我的網站設計中:我會把用<h1>[標題]</h1>這樣的模板把標題突出顯示,而不是通過改變字體的方式突出標題。 本文版权:http://www.ndfweb.cn/news-140.html
  NDF俱乐部
  国际域名注册
  建站咨询
简体中文 NDF网站建设淘宝店 | ICO图标在线生成 | 外贸网站建设 | 联系我们
©2007-2024 NDF Corporation 鲁ICP备08005967号 Sitemap - RSSRSS订阅