ndfweb.cn

PHP mod_rewrite重寫模塊技術


2011-03-06 07:27:08 (7398)



學習 Apache mod_rewrite 13 例

Apache 以其極高的性價比讓越來越多的公司組織選擇它作為服務器。其中它有一個很有用的功能就是mod_rewrite模塊,一個可將用戶請求的URI根據特定規則轉換的模塊。

這篇文章將引領你學習rewrite 規則,正則表達,rewrite條件,以及提供了一係列的例子。

首先,我假設你已經懂得URI 重寫對你網站的意義為前提,如果對這一方麵你想了解得更多,這裏我向你推薦 mod_rewrite: A Beginner’s Guide to URL Rewriting 這本書。你可以從書中找到關於這方麵得更多信息。

測試服務器安裝

一些服務器沒有開啟mod_rewrite模塊(服務器默認關閉),你可以鍵入一行PHP代碼來確定你的服務器是否已經開啟mod_rewrite模塊:

phpinfo();

在瀏覽器運行這段代碼,找到Apache Modules section,如果mod_rewrite沒有出現在其列表中,那麼你就需要通知你的服務商開啟mod_rewrite服務,或者..換另外一個好的服務商。大多數服務商都會開啟mod_rewrite模塊,所以你很容易找到。

mod_rewrite的魔力

簡單舉例:創建三個文件,分別命名為 test.html,test.php和.htaccess

test.html 輸入:

<h1>This is the HTML file.</h1>

test.php輸入:

<h1>This is the php file.</h1>

.htaccess輸入:

RewriteEngine on

RewriteRule ^/?test\.html$ test.php [L]

將以上三個文件放test測試文件夾下,在瀏覽器錄入:

http://www.example.com/test/test.html

在瀏覽器中將 www.example.com替換成你自己的域名。如果運行結果顯示“This is the PHP file”,那麼運行成功,如果結果顯示“This is the Html file”,那麼肯定是哪裏出了問題,請你再仔細檢查下。

如果你測試成功,你是否發現了我們錄入了test.html的文件名,確執行了test.php文件,是的,你已經初識了mod_rewrite的神奇。

mod_rewrite 正則表達式

現在我們可以重寫URLs了!設想我們有一個顯示城市信息的網站。根據URI選擇城市:http://www.example.com/display.php?country=USA &state=California&city=San_Diego

這個URL太長並且對用戶也不友好,我們更希望寫成這樣:

http://www.example.com/USA/California/San_Diego

我們需要告訴Apache新的URL會根據一定的格式轉化成這樣,為了讓display.php明白查詢的字符,所以我們將用到正則表達式告訴mod_rewrite匹配我們的URLs。如果你對正則表達式不太熟悉,許多網站提供了優秀的教程供你學習。在本文的末尾,我也會列舉出比較好的參考網址。如果你還是不能明白我所講述的,那麼我建議你看看後麵鏈接中的前兩篇。

一個最常用的正則就是(.*)。它含有兩個元素:一是“點”,表示任意字符;二是“星”,表示以前的全部字符。所以(.*)會匹配{REQUEST_URI}的所有字符。{REQUEST_URI}是URL中出去域名以及“?”符號的所有查詢字符,也是Apache 重寫技術嚐試匹配的字符。

包裹在正則表達式中的元素存放在“原子”內,它是在規則範圍內允許被匹配的變量,所以以上正則存儲了USA/California/San_Diego在“原子”中,為了解決我們的問題,我們需要三個“原子”,他們可以用左斜杠“/”進行分隔,所以正則表達式成了:

(.*)/(.*)/(.*)

以上正則,在{REQUEST_URI}中通過兩個“/”的分割存儲了三個值,為了解決我們具體問題,我們得加一點限製――畢竟,第一個和最後一個原子可以匹配任何字符。

開始,我們可以添加一些特殊的字符,比如表示正則“開始”或者“結束”,“^”字符表示正則的開始而“$”表示正則的結束。

^(.*)/(.*)/(.*)$

這個正則表示整個字符串將全部匹配,除去之前後者之後,沒有任何例外。

但是,這個方法仍然匹配的範圍太廣,我們將匹配的字符按照原子形式存放,然後通過他們形成查詢字符串,所以我們必須信任我們所匹配的字符。用(.*)匹配字符串,由於允許了太多字符,所以會存在潛在的安全隱患,引用不當會使mod_rewrite運行出故障。

為了避免一些不必要的麻煩,讓我們更改一下我們的原子正則,讓其更加準確的匹配我們允許的字符。因為這些原子代表了地區地名,所以我們完全可以用A到Z的大小寫來表示他們,另外因為地名之間有空格,所以下劃線“_”也是被允許的。我們用中括弧明確我們匹配的正則,然後用短橫線“-”表示連接的範圍,所以被我們允許的正則修改成了[a-zA-Z_],因為我們還要避免匹配到空名字,所以用“+”來匹配在該字符之前的一個或者多個字符,所以我們的正則成了:

^([a-zA-Z_]+)/([a-zA-Z_]+)/([a-zA-Z_]+)$

{REQUEST_URI}是以“/”開頭。Apache 在更改版本的時候會更改正則引擎,一代Apache要求有斜杠而二代Apache卻不允許!但是我們可以用^/?(?表示匹配字符本身或者前一個字符)來兼容兩個版本的Apache,所以我們的正則又成了:

^/?([a-zA-Z_]+)/([a-zA-Z_]+)/([a-zA-Z_]+)$

正則在手,我們就可以將原子標識到URL上了:

display.php?country=$1 &state=$2&city=$3

$1表示國家原子;$2表示省州原子;$3表示城市原子,這裏可以加上9個原子,分別用$1到$9表示。

現在我們要做的就是在該目錄下創建一個新的.htaccess文件,錄入一下代碼:

RewriteRule ^/?([a-zA-Z_]+)/([a-zA-Z_]+)/([a-zA-Z_]+)$ display.php?country=$1 &state=$2&city=$3 [L]

然後保存,重寫規則必須寫在一行並且用一個空格分開每一個參數,我們用[L]或者’last’表示匹配結束。(一會有更多flags介紹)

我們的重寫規則已經創建完成, URL請求字符上各原子的值將經過我們匹配的正則,加上查詢變量到我們的重寫URL上。display.php將從查詢字符中解析這些值,然後將他們送入數據庫查詢或者進行其他數據庫操作。

如果你的正則隻允許有限的幾個國家,為了避免數據庫錯誤,你可以在正則中加入一下被允許條件,例子如下:

^/?(USA|Canada|Mexico)/([a-zA-Z_]+)/([a-zA-Z_]+)$

如果你關心查詢字符串的大小寫問題,由於你數據庫對大寫有嚴格的限製,那麼你可以在正則表達式後麵加一個[NC]FLAG位來忽略大小寫,但是不要忘記在你通過$_GET 獲取傳遞值的時候,把他們轉換成小寫。

如果你想用數字(0,1…..9)來表示具體的地區,那麼需要更改正則中的([a-zA-Z_]+)成([0-9])來匹配單個數字,([0-9]{1,2})匹配兩位數字(0到99),([0-9]+)匹配多位數字,這個對匹配數據庫ID之類的非常有用。

RewriteCond 指令

現在你已經學會了mod_rewrite的一些基本用法,現在我們來學習下怎樣用RewirteCond指令來處理其他各類型的情況。當RewirteCond指令明確聲明以後,mod_rewrite將根據它們做出相應的處理。

RewirteCond 指令的形式和RewriteRule有點類似,形式為:RewirteCond 被匹配的字符 正則 FLAG標識。邏輯FLAG標識 [OR],是非常有用的,記住所有RewirteCond 以及RewriteRule指令在[LAST]指令之前,所有的邏輯與關係都會被包含。

你可以用RewirteCond指令測試服務器變量,在this is the best list of server variables一文可以找到相關說明。

舉一個列子,假設我們想將“www”放入你的域名中,首先你得測試你的服務器{HTTP_HOST}變量,看www.是否已經存在,如果沒有那麼定向到期望的主機名:

RewriteCond %{HTTP_HOST} !^www\.example\.com$ [NC]

RewriteRule .? http://www.example.com%{REQUEST_URI} [R=301,L]

這裏{HTTP_HOST}是一個Apache服務器變量,我們必須加一個“%”字符再之前。正則表達式以“!”開始表示如果正則不匹配那麼條件成立。我們當然也要轉義“.”字符,將其作為一個普通字麵字符而不是表示所有字符。再最後我們還加了一個忽略大小寫的[NC]FLAG。

RewriteRule匹配了零或者任意一個字符,並且定向到 http://www.example.com加上原來{REQUEST_URI}值。R=301向服務器提出301請求,表明這是一個永久轉向,最後一個[L]表示已經完成這段正則匹配。

RewriteCond也可以創建原子,在RewriteRule中原子是以$1…..$9表示,但是在RewriteCond中是以%1….%9表示。你可以在稍後的例子中看到具體的原子操作。

mod_rewrite Flags

mod_rewrite用”FLAGS”來建立重寫條件以及其他屬性。我們用中括弧將FLAGS包起來,放在條件或者是規則的末尾,用逗號將多個FLAGS分隔。以下列表是你需要熟悉的幾個主要FLAGS:

last|L -[L]告訴Apache服務器一係列的條件或者是規則將在它出現後結束,換句話說就是[L]不出現,mod_rewrite將會一直執行。

nocase|NC -[NC]告訴Apache服務器忽略正則中的大小寫,它經常被用到{HTTP_HOST}服務器參數上,因為域名裏麵是不會區分大小寫的。

redirect|R -[R] 經常引用到觸發可見的定向。默認情況下它是一個HTTP 302的臨時重定向,但是你可以注明具體的HTTP 代碼,比如你可以用[R=301]來表明這是一個永久重定向,這對搜索引擎抓取你重定向後的網頁相當有用。

qsappend|QSA -[QSA] 用於添加新的查詢參數。你可以在原查詢參數後麵定義新的查詢參數,但命名時注意不要重複已存在的參數名。錯誤的引用[QSA]將會破壞原來的查詢參數導致重定向錯誤。

forbidden|F -[F]告訴Apache響應請求時不提供頁麵。其原理就是Apache會發出一個403 HTTP相應,可以保護網站不被未經授權的或者其他盜鏈訪問。

ornext|OR -[OR]作為默認值[AND]的反義詞,可以通過邏輯關係將一係列重寫條件組合起來。

next|N -[N]可以讓你的重寫條件循環匹配,當你不知道{REQUEST_URI}有多少字符進行匹配的時候很有用。

你可以在 Apache.org’s mod_rewrite documentation page.了解到其他mod_rewrite FLAGS。

mod_rewrite注釋

任何mod_rewrite代碼之前都要加上RewriteEngine on這個狀態,另外RewriteEngine on還可以用到其他地方。作為一個好的程序員,你知道注釋對於程序來說是多麼的重要。mod_rewrite允許在RewriteEngine off 與RewriteEngine on之間加上你的注釋:

RewriteEngine off

RewriteCond %{HTTP_HOST} !^www\.example\.com$ [NC]

RewriteRule .? http://www.example.com%{REQUEST_URI} [R=301,L]

RewriteEngine on

以上所有的程序代碼都不會被執行,RewriteEngine狀態值的改變對新的mod_rewrite 代碼開發非常有用。像你在PHP裏麵用/* ... */注釋一樣,好好的運用他們。

mod_rewrite小技巧

作為站長,你要決定怎樣提高你網頁對訪問者的辨識度以及在重寫的URI地址裏放入適當的信息。在創建新的URI規則的時候務必考慮詳細周全一些。另外當你完成新的URI規則以後,必須回去更新以前老的鏈接來匹配新的規則。

當你在設計新的URI規則的時候,一定注意其唯一性。舉一個先前的例子,我用了國家名,州省名,城市名作為URI的元素,因為他們在數據庫裏麵都是唯一的。但是如果建立一個讓用戶自己更新的數據庫,我們沒有理由讓用戶取的文章名字保持唯一性,所以文章一般在數據庫裏是以一個自動增長的ID作為唯一識別碼,這個唯一ID對URL重寫規則相當友好,它可以使你的重寫規則更加簡潔,在URL裏麵可以用原子非常直接的將其值標識出來。

人們通常想映射數據庫裏麵的值比如標題以及其他字符作為URL的標識,在mod_rewrite中有一個RewriteMap狀態專門處理這種情況,但是前提是你必須有修改Apache配置文件httpd.conf的權限。所以為了根本避免這個問題,還是直接用ID創建你的鏈接吧。

空格是以%20的形式展示在URL中的,所以你必須在PHP代碼裏麵將其替換掉,PHP的str_replace函數完全可以勝任這項工作。你隻需要在$_GET獲取查詢值的時候,將其替換就可以了。但是在數據庫中空格是難免的,所以我寧願將空格替換成下劃線,一下為PHP代碼:

$name = str_replace ( ' ', '_', $name );

在添加新的URL規則的時候,小心不要打破了原先已存在的鏈接間的相對關係。開發人員通常會驚訝為什麼有時候CSS,JAVASCRIPT,圖片等文件出現錯誤或者不啟作用了。記住相對鏈接隻匹配你當前URL的地址,所以你需要將這些相對鏈接更改成絕對鏈接地址,或者在你的靜態網頁加上HTML <base>標簽。

13 個mod_rewrite 應用舉例

先前我們舉了一個給每個鏈接加一個www的列子,現在讓我們看看用mod_rewrite還可以做哪些工作。

1.給子域名加www標記

RewriteCond %{HTTP_HOST} ^([a-z.]+)?example\.com$ [NC]

RewriteCond %{HTTP_HOST} !^www\. [NC]

RewriteRule .? http://www.%1example.com%{REQUEST_URI} [R=301,L]

這個規則抓取二級域名的%1變量,如果不是以www開始,那麼就加www,以前的域名以及{REQUEST_URI}會跟在其後。

2.去掉域名中的www標記

RewriteCond %{HTTP_HOST} !^example\.com$ [NC]

RewriteRule .? http://example.com%{REQUEST_URI} [R=301,L]

3.去掉www標記,但是保存子域名

RewriteCond %{HTTP_HOST} ^www\.(([a-z0-9_]+\.)?example\.com)$ [NC]

RewriteRule .? http://%1%{REQUEST_URI} [R=301,L]

這裏,當匹配到1%變量以後,子域名才會在%2(內部原子)中抓取到,而我們需要的正是這個%1變量。

4.防止圖片盜鏈

一些站長不擇手段的將你的圖片盜鏈在他們網站上,耗費你的帶寬。你可以加一下代碼阻止這種行為。

RewriteCond %{HTTP_REFERER} !^$

RewriteCond %{HTTP_REFERER} !^http://(www\.)?example\.com/ [NC]

RewriteRule \.(gif|jpg|png)$ - [F]

如果{HTTP_REFERER}值不為空,或者不是來自你自己的域名,這個規則用[F]FLAG阻止以gif|jpg|png 結尾的URL

如果對這種盜鏈你是堅決鄙視的,你還可以改變圖片,讓訪問盜鏈網站的用戶知道該網站正在盜用你的圖片。

RewriteCond %{HTTP_REFERER} !^$

RewriteCond %{HTTP_REFERER} !^http://(www\.)?example\.com/.*$ [NC]

RewriteRule \.(gif|jpg|png)$ http://www.example.com/hotlinked.gif [R=301,L]

除了阻止圖片盜鏈鏈接,以上規則將其盜鏈的圖片全部替換成了你設置的圖片。

你還可以阻止特定域名盜鏈你的圖片:

RewriteCond %{HTTP_REFERER} !^http://(www\.)?leech_site\.com/ [NC]

RewriteRule \.(gif|jpg|png)$ - [F,L]

這個規則將阻止域名黑名單上所有的圖片鏈接請求。

當然以上這些規則都是以{HTTP_REFERER}獲取域名為基礎的,如果你想改用成IP地址,用{REMOTE_ADDR}就可以了。

5.如果文件不存在重定向到404頁麵

如果你的主機沒有提供404頁麵重定向服務,那麼我們自己創建。

RewriteCond %{REQUEST_FILENAME} !-f

RewriteCond %{REQUEST_FILENAME} !-d

RewriteRule .? /404.php [L]

這裏-f匹配的是存在的文件名,-d匹配的存在的路徑名。這段代碼在進行404重定向之前,會判斷你的文件名以及路徑名是否存在。你還可以在404頁麵上加一個?url=$1參數:

RewriteRule ^/?(.*)$ /404.php?url=$1 [L]

這樣,你的404頁麵就可以做一些其他的事情,例如默認信心,發一個郵件提醒,加一個搜索,等等。

6.重命名目錄

如果你想在網站上重命名目錄,試試這個:

RewriteRule ^/?old_directory/([a-z/.]+)$ new_directory/$1 [R=301,L]

在規則裏我添加了一個“.”(注意不是代表得所有字符,前麵有轉義符)來匹配文件的後綴名。

7.將.html後綴名轉換成.php

前提是.html文件能繼續訪問的情況下,更新你的網站鏈接。

RewriteRule ^/?([a-z/]+)\.html$ $1.php [L]

這不是一個網頁重定向,所以訪問者是不可見的。讓他作為一個永久重定向(可見的),將FLAG修改[R=301,L]。

8.創建無文件後綴名鏈接

如果你想使你的PHP網站的鏈接更加簡潔易記-或者隱藏文件的後綴名,試試這個:

RewriteRule ^/?([a-z]+)$ $1.php [L]

如果網站混有PHP以及HTML文件,你可以用RewriteCond先判斷該後綴的文件是否存在,然後進行替換:

RewriteCond %{REQUEST_FILENAME}.php -f

RewriteRule ^/?([a-zA-Z0-9]+)$ $1.php [L]

RewriteCond %{REQUEST_FILENAME}.html -f

RewriteRule ^/?([a-zA-Z0-9]+)$ $1.html [L]

如果文件是以.php為後綴,這條規則將被執行。

9.檢查查詢變量裏的特定參數

如果在URL裏麵有一個特殊的參數,你可用RewriteCond鑒別其是否存在:

RewriteCond %{QUERY_STRING} !uniquekey=

RewriteRule ^/?script_that_requires_uniquekey\.php$ other_script.php [QSA,L]

以上規則將檢查{QUERY_STRING}裏麵的uniquekey參數是否存在,如果{REQUEST_URI}值為script_that_requires_uniquekey,將會定向到新的URL。

10.刪除查詢變量

Apache的mod_rewrite模塊會自動辨識查詢變量,除非你做了以下改動:

a).分配一個新的查詢參數(你可以用[QSA,L]FLAG保存最初的查詢變量)

b).在文件名後麵加一個“?”(比如index.php?)。符號“?”不會在瀏覽器的地址欄裏顯示。

11.用新的格式展示當前URI

如果這就是我們當前正在運行的URLs:/index.php?id=nnnn。我們非常希望將其更改成/nnnn並且讓搜索引擎以新格式展現。首先,我們為了讓搜索引擎更新成新的,得將舊的URLs重定向到新的格式,但是,我們還得保證以前的index.php照樣能夠運行。是不是被我搞迷糊了?

實現以上功能,訣竅就在於在查詢變量中加了一個訪問者看不到的標記符“marker”。我們隻將查詢變量中沒有出現“marker”標記的鏈接進行重定向,然後將原有的鏈接替換成新的格式,並且通過[QSA]FLAG在已有的參數加一個“marker”標記。以下為實現的方式:

RewriteCond %{QUERY_STRING} !marker

RewriteCond %{QUERY_STRING} id=([-a-zA-Z0-9_+]+)

RewriteRule ^/?index\.php$ %1? [R=301,L]

RewriteRule ^/?([-a-zA-Z0-9_+]+)$ index.php?marker &id=$1 [L]

這裏,原先的URL:http://www.example.com/index.php?id=nnnn,不包含marker,所以被第一個規則永久重定向到http://www.example.com/nnnn,第二個規則將http://www.example.com/nnnn反定向到http://www.example.com/index.php?marker &id=nnnn,並且加了marker以及id=nnnn兩個變量,最後mod_rewrite就開始進行處理過程。

第二次匹配,marker被匹配,所以忽略第一條規則,這裏有一個“.”字符會出現在http://www.example.com/index.php?marker &id=nnnn中,所以第二條規則也會被忽略,這樣我們就完成了。

注意,這個解決方案要求Apache的一些擴展功能,所以如果你的網站放於在共享主機中會遇到很多障礙。

12.保證安全服務啟用

Apache可以用兩種方法辨別你是否開啟了安全服務,分別引用{HTTPS}和{SERVER_PORT}變量:

RewriteCond %{REQUEST_URI} ^secure_page\.php$

RewriteCond %{HTTPS} !on

RewriteRule ^/?(secure_page\.php)$ https://www.example.com/$1 [R=301,L]

以上規則測試{REQUEST_URI}值是否等於我們的安全頁代碼,並且{HTTPS}不等於on。如果這兩個條件同時滿足,請求將被重定向到安全服務URI.另外你可用{SERVER_PORT}做同樣的測試,443是常用的安全服務端口

RewriteCond %{REQUEST_URI} ^secure_page\.php$

RewriteCond %{SERVER_PORT} !^443$

RewriteRule ^/?(secure_page\.php)$ https://www.example.com/$1 [R=301,L]

13.在特定的頁麵上強製執行安全服務

遇到同一個服務器根目錄下分別有一個安全服務域名和一個非安全服務域名,所以你就需要用RewriteCond 判斷安全服務端口是否占用,並且隻將以下列表的頁麵要求為安全服務:

RewriteCond %{SERVER_PORT} !^443$

RewriteRule ^/?(page1|page2|page3|page4|page5)$ https://www.example.com/%1 [R=301,L]

以下是怎樣將沒有設置成安全服務的頁麵返回到80端口:

RewriteCond %{ SERVER_PORT } ^443$

RewriteRule !^/?(page6|page7|page8|page9)$ http://www.example.com%{REQUEST_URI} [R=301,L]

總結

Apache的mod_rewrite模塊,不僅會用在SEO以及URLs用戶友好方麵,還會用到某些重要的重定向工作中,如果你想學習到更多,以下是我找到的一些網上資源:

正則表達:

Great tutorial: http://gnosis.cx/publish/programming/regular_expressions.html

Cheat sheet: http://regexlib.com/CheatSheet.aspx

A regex-capable text editor: http://www.editpadpro.com

Regex Coach: http://weitz.de/regex-coach/

mod_rewrite

Cheat sheet: http://www.ilovejackdaniels.com/cheat-sheets/mod_rewrite-cheat-sheet

本文版权:http://www.ndfweb.cn/news-558.html
  NDF俱乐部
  国际域名注册
  建站咨询
简体中文 NDF网站建设淘宝店 | ICO图标在线生成 | 外贸网站建设 | 联系我们
©2007-2024 NDF Corporation 鲁ICP备08005967号 Sitemap - RSSRSS订阅