一、什么是http?
Http協(xié)議即超文本傳送協(xié)議 (HTTP-Hypertext transfer protocol) 。
它定義了瀏覽器(即萬維網(wǎng)客戶進程)怎樣向萬維網(wǎng)服務器請求萬維網(wǎng)文檔,以及服務器怎樣把文檔傳送給瀏覽器。從層次的角度看,HTTP是面向(transaction-oriented)應用層協(xié)議,它是萬維網(wǎng)上能夠可靠地交換文件(包括文本、聲音、圖像等各種多媒體文件)的重要基礎。并且詳細的規(guī)定了客戶端瀏覽器與服務器之間互相通信的規(guī)則。
二、抓包
下面是一口君抓取的訪問自己搭建的web服務器交互的所有數(shù)據(jù)包。以下是瀏覽器顯示信息:以下是實際
index.html內容
<!DOCTYPE?html?PUBLIC?"-//W3C//DTD?XHTML?1.0?Transitional//EN"?>
<html?xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta?http-equiv="Content-Type"?content="text/html;?charset=utf-8"?/>
<title>一口Linux</title>
</head>
<body??>
<div?align="center">
?<table?width="900"?border="0">
???<tr><td>
????<form??onsubmit="return?isValidate(myform)"?action="cgi-bin/login.cgi"?method="post">
??用戶名:?<input?type="text"?name="username"?id="username"?>?
??<td> </td>
????<tr><td>
??密?? 碼:?<input?type="password"?name="userpass"?id="userpass">?
???<td> </td>
????<tr><td>
??<input?type="submit"?value="登錄"?id="button"??>
???</form>
???</td></tr>
?</table>
</div>
???<div?align="center">
????<table?width="900"?height="467"?border="0"?background="./image/yikou.png">
??????<tr>
????????<td?width="126"?height="948"> </td>
????????<td?width="351"></td>
????????<td?width="101"> </td>
??????</tr>??
??</div>
</body>
</html>
下面是用抓包工具抓取的所有HTTP數(shù)據(jù)包:
瀏覽器發(fā)送的GET請求數(shù)據(jù)包:服務器回復的頁面對應的數(shù)據(jù)包:
完整的瀏覽訪問服務器數(shù)據(jù)包交互流程如下:
數(shù)據(jù)包交互流程,簡單總如下:
- 瀏覽器會向web服務器發(fā)起tcp 3次握手,(http是基于tcp,上圖數(shù)據(jù)包1-3)瀏覽器會根據(jù)網(wǎng)址欄輸入的url,通過DNS協(xié)議查找該domain對應的IP地址(如果url中直接給出IP地址,則省略該步驟)瀏覽器發(fā)送HTTP協(xié)議的GET請求,web服務器會回復對應的頁面(沒有指定的話,一般由配置文件指定默認文件比如index.html,見數(shù)據(jù)包4-6)因為頁面有圖片信息,瀏覽器再請求獲取對應的圖片文件(見數(shù)據(jù)包7-24)最后會關閉tcp連接,執(zhí)行4握手(見數(shù)據(jù)包25-28)
三、頁面交互流程
下面我們來看一下,從網(wǎng)頁輸入URL到加載,http究竟做了哪些工作?
瀏覽器負責發(fā)起請求和最后的響應請求,服務器接收請求后,處理請求。
1、輸入URL。
不管是鏈接還是地址欄的輸入,情況都是一樣的。http協(xié)議已經(jīng)規(guī)定了URL的格式,通過http協(xié)議中的域名或IP找到服務器。
2、找到服務器的同時,會有http的請求發(fā)送過來,告訴服務器我求你做什么?http協(xié)議規(guī)定了發(fā)送請求的格式,這個格式有三部分組成請求行、請求頭、請求體。
請求行包括請求的方式(get、post或其他)、要求響應的文件、http版本。請求頭包括本機信息、瀏覽器信息等等,當然,也包括URL中?后面的參數(shù)。
請求體包括POST傳遞數(shù)據(jù)的相關信息,Get方式傳值時,請求體為空。
3、請求信息發(fā)送至服務器以后,服務器會獲取傳遞過來的相關信息進行后端程序的處理。服務器可以通過數(shù)據(jù)包中信息獲取URL傳遞過來的值,通過form(表單)獲取POST傳遞過來的值,當然,也是可以獲取到所有的其他請求過來的信息,如瀏覽器信息、cookie信息、操作系統(tǒng)信息等。獲取相關的數(shù)據(jù)以后,服務器就會根據(jù)程序進行處理。
4、處理完成以后,服務器會做出響應,向瀏覽器輸出相關信息。http對響應的格式也做出了規(guī)定,響應的信息主要包括,響應碼、響應頭、響應體。
響應碼用來標識服務器響應的結果,如我們常看到的200、404等。大致的分類如下:
1開頭的表示消息,
2開頭表示成功,
3開頭表示重定向,
4開頭表示失敗,
5開頭表示服務器異常。
響應頭記錄服務器相關信息如服務器是否啟用壓縮、服務器為IIS或Ngnix、程序所用服務端語言等等。當然,緩存也是在這里設置的,通過修改響應頭可以修改html在本地緩存的情況,如設置瀏覽器緩存過期的時間。
響應體主要是我看到的html的相關內容了。
完成以上4步操作以后,瀏覽器就斷開了與服務器的數(shù)據(jù)連接,不能在進行數(shù)據(jù)傳輸,如果需要再次進行數(shù)據(jù)傳輸,那么一切就要從輸入URL開始。
如此,便是一個完整的網(wǎng)頁流程,http從中的作用就是對整個流程進行規(guī)定,包括執(zhí)行步驟,每一步的數(shù)據(jù)格式。只有了解http協(xié)議以及網(wǎng)頁是如何產(chǎn)生的以后,才能對網(wǎng)頁進行更好的控制,例如控制瀏覽器緩存、通過非瀏覽器發(fā)送http請求、get和post傳值的選擇,甚至是建立長連接,這些都是以http協(xié)議為基礎。
四、補充
1. http主要方法
1.0 版本和 1.1 版本的描述分別基于 RFC1945 和 RFC2616
除了上圖中的內容之外, HTTP 消息中還有一些用來表示附加信息的
頭字段。客戶端向 Web 服務器發(fā)送數(shù)據(jù)時, 會先發(fā)送頭字段, 然后再發(fā)送
數(shù)據(jù)。
2. 狀態(tài)碼
收到請求消息之后, Web 服務器會對其中的內容進行解析, 通過 URI和方法來判斷“對什么”“進行怎樣的操作”, 并根據(jù)這些要求來完成自己的工作, 然后將結果存放在響應消息中。在響應消息的開頭有一個狀態(tài)碼,它用來表示操作的執(zhí)行結果是成功還是發(fā)生了錯誤。
當我們訪問 Web 服務器時, 遇到找不到的文件就會顯示出 404 Not Found 的錯誤信息, 其實這就是狀態(tài)碼。狀態(tài)碼后面就是頭字段和網(wǎng)頁數(shù)據(jù)。響應消息會被發(fā)送回客戶端, 客戶端收到之后, 瀏覽器會從消息中讀出所需的數(shù)據(jù)并顯示在屏幕上。到這里, HTTP 的整個工作就完成了。
HTTP 狀態(tài)碼由三個十進制數(shù)字組成,第一個十進制數(shù)字定義了狀態(tài)碼的類型。
響應分為五類:信息響應(100–199),成功響應(200–299),重定向(300–399),客戶端錯誤(400–499)和服務器錯誤 (500–599)
: