目录

Python网络编程(2)http协议介绍

Python网络编程(2)http协议介绍

学习目标

  • HTTP协议介绍
  • URL介绍
  • HTTP请求报文
  • HTTP响应报文
  • 总结

HTTP协议介绍

HTTP协议的全称是:HyperText Transfer Protocol,翻译过来就是超文本传输协议

超文本的意思就是超级文本的缩写,是指超越文本限制或者超链接。比如:图片、音乐、视频、超链接等等都属于超文本。

HTTP协议的制作者蒂姆-伯纳斯-李,1991年设计出来的,HTTP协议设计之前目的是传输网页数据的,现在允许传输任意类型的数据

传输HTTP协议格式的数据是基于TCP传输协议的,发送数据之前需要建立连接

作用:

规定了浏览器和Web服务器通信数据的格式,也就是说浏览器和web服务器通信需要使用http协议。

通信过程:

浏览器输入网址后,网址通过DNS域名解析服务器解析成IP地址,浏览器与解析完成的IP地址对应的服务器进行通信,首先建立连接(基于TCP),再发送http请求数据,web服务器上的程序(默认80端口)则会根据请求获取服务器资源(图片网页文字等),再将资源返回给web服务器,最后返回满足http协议的响应数据,在浏览器渲染显示。

⚠️总结:HTTP协议是一个超文本传输协议;HTTP协议是一个基于TCP传输协议传输数据的;HTTP协议规定了浏览器和web服务器通信的数据格式。

../../../images/HTTP原理-0596068.png

如何查看HTTP协议通信过程:

首先需要安装GoogleChrome浏览器,然后WIndows和Linux平台按F12调出开发者工具,macOS选择视图->开发者->开发者工具或者直接使用alt+command+i快捷键,还有一个多平台通用的方式就是网页右击选择检查。

../../../images/谷歌开发者工具-0596112.png

标签说明:

  • 元素(Elements):用于查看或修改HTML标签
  • 控制台(Console):执行js代码
  • 源代码(Sources):查看静态资源文件,断电调试JS代码。
  • 网络(Network):查看HTTP协议的通信过程。

Headers选项说明:

  • General:主要信息
  • Response Headers:响应头
  • Request Headers:请求头

Response选项是查看响应体信息的。


URL介绍

URL的英文全称是:Uniform Resource Locator,意思就是统一资源定位符,通俗理解为就是网络资源的地址,也就是我们常说的地址。

URL的组成:

http://www.news.cn/2022-05/11/c_1211646104.htm

  1. 协议部分:http://(明文)、https://(密文)、ftp://
  2. 域名部分:www.news.cn(http端口号默认80,https端口好默认443)
  3. 资源路径部分:/2022-05/11/c_1211646104.htm
  4. (查询参数部分)

域名:域名就是IP的别名,它是用点进行分割使用英文字母和数字组成的名字,使用域名的目的就是方便的记住某台主机IP的地址。

URL的扩展:查询参数部分如?page=1&cout=10这样的是查询参数,第一个参数和第二个参数间使用&分割,page=1是第一页,count=10是这一页显示多少条记录。


HTTP请求报文(Request Headers)

HTTP请求报文是浏览器发送给web服务器的数据格式,HTTP最常见的请求报文有两种:

  1. GET方式的请求报文:获取web服务器数据(比如获取新闻列表数据)
  2. POST方式的请求报文:向web服务器提交数据(比如登陆的时候把用户名和密码发送给服务器时也可以获取)

GET请求报文案例:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
-----请求行-----
GET /trace/id HTTP/1.1(\r\n)
-----请求头-----
Host: hcl.baidu.com(\r\n)
Connection: keep-alive(\r\n)
Upgrade-Insecure-Request: 1(\r\n)
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36(\r\n)
Accept: application/json, text/javascript, */*; q=0.01(\r\n)
Accept-Encoding: gzip, deflate, br(\r\n)
Accept-Language: zh-CN,zh;q=0.9(\r\n)
Cookie: PHPSESSID=i0595jor2lc31t4cmjiaov4v40; qimo_seosource_b2f10070-624e-11e8-917f-9fb8db4dc43c=%E7%AB%99%E5%86%85; qimo_seokeywords_b2f10070-624e-11e8-917f-9fb8db4dc43c=; qimo_xstKeywords_b2f10070-624e-11e8-917f-9fb8db4dc43c=; href=https%3A%2F%2Fwww.itcast.cn%2F; accessId=b2f10070-624e-11e8-917f-9fb8db4dc43c; pageViewNum=2(\r\n)
------空行------
\r\n
  • 第一行开始为请求行,GET为请求报文类型,路径是请求资源路径/为根路径,HTTP/1.1是http协议的版本。

  • 第二行开始为请求头,Host为服务器信息,ip地址和端口号(http默认80)。

  • 第三行Connection是和服务端程序保存长连接,当客户端和服务端有一段时间没有通信,服务端会主动向客户端断开连接。

  • 第四行Upgrade-Insecure-Request是让客户升级不安全请求,以后要使用https。

  • 第五行User-Agent是用户代理,客户端程序的名称,爬虫加上这个防止反爬。

  • 第六行Accept表示告诉服务端程序可以接受什么类型的数据。

  • 第七行Accept-Encoding表示告诉服务端程序可以接受的压缩算法。

  • 第八行Accept-Language表示告诉服务端程序可以支持的语言。

  • 第九行Cookie表示客户端用户身份的表示,唯一的,可以让服务端判断哪个用户请求。

  • 第十行为空行

    http协议规定每项信息后面都有\r\n,且最后空行也有一个\r\n。

POST请求报文案例:

../../../images/post请求报文分析-0596200.png

../../../images/post请求报文分析-1-0596213.png

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
------ 请求行 ------
POST /xmweb?host=mail.itcast.cn&_t=1542884567319 HTTP/1.1(\r\n) # POST请求方式 请求资源路径 HTTP协议版本
------ 请求头 ------
Host: mail.itcast.cn(\r\n)  # 服务器的主机地址和端口号,默认是80
Connection: keep-alive(\r\n)  # 和服务端保持长连接
Content-Type: application/x-www-form-urlencoded(\r\n)  # 告诉服务端请求的数据类型
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36(\r\n) # 客户端的名称
------ 空行 ------
\r\n
------ 请求体 ------
username=hello&pass=hello # 请求参数
  • 第一行为请求行,POST请求方式 请求资源路径 HTTP协议版本。
  • 第二行开始为请求头,Host为服务器信息,ip地址和端口号(http默认80)。
  • 第三行Connection是和服务端保持长连接。
  • 第四行Content-Type是告诉服务端请求的数据类型。
  • 第五行User-Agent是客户端的名称。
  • 第六行为空行

请求体(From data):浏览器发送给服务器的数据通过请求体来完成。

同样的http协议规定POST请求报文中每项信息后面都有\r\n,且最后空行也有一个\r\n。

小结

  1. 一个HTTP请求报文可以由请求行、请求头、空行和请求体4个部分组成。

  2. 请求行由请求方式、请求资源路径、HTTP协议版本3个部分组成。

  3. GET方式的请求没有请求体,POST方式可以有请求体,但一般很少没有请求体。


HTTP响应报文(Response Headers)

HTTP响应报文是web服务器发送给浏览器的数据格式。

响应报文案例:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
--- 响应行/状态行 ---
HTTP/1.1 200 OK(\r\n) # HTTP协议版本 状态码 状态描述
----- 响应头 -----
Server: Tengine(\r\n) # 服务器名称
Content-Type: text/html; charset=UTF-8(\r\n) # 内容类型
Transfer-Encoding: chunked(\r\n) # 发送给客户端内容不确定内容长度,发送结束的标记是0\r\n, Content-Length:200 表示服务端确定发送给客户端的内容大小,但是二者只能用其一。
Connection: keep-alive(\r\n) # 和客户端保持长连接
Date: Fri, 23 Nov 2018 02:01:05 GMT(\r\n) # 服务端的响应时间
----- 空行 -----
(\r\n)
----- 响应体 -----
<!DOCTYPE html><html lang=“en”> …</html> # 响应给客户端的数据
  • 第一行为响应行(状态行),HTTP协议版本为HTTP/1.1, 状态码为200, 状态描述为OK。
  • 第二行开始为响应头,Server为服务器名称。
  • 第三行Content-Type为内容类型,服务器发送给浏览器的内容类型及编码格式。
  • 第四行Transfer-Encoding指的是发送给客户端内容为不确定内容长度,发送结束的标识是0\r\n,Content-Length标识的是服务器发送给客户端确定长度内容大小,单位是字节。Content-Length和Transfer-Encoding两个选项只能出现一个。
  • 第五行Connection是指和客户端保持长连接。长时间不通信服务端会等待后断开,客户端可以选择立刻断开。
  • 第六行Date是指服务器的时间(格林威治时间),+8小时后是北京时间。而后的内容为自定义响应头信息,自己定义响应头的名字和指,比如is_login: True
  • 第七行为空行

响应体(Response):真正意义上给浏览器解析渲染的数据,例如前端页面代码。

HTTP状态码介绍

HTTP 状态码是用于表示web服务器响应状态的3位数字代码

状态码 说明
200 请求成功
307 重定向
400 错误的请求,请求地址或者参数有误
404 请求资源在服务器不存在
500 服务器内部源代码出现错误

总结

  • HTTP协议是超文本传输协议,指超越文本的数据格式发送协议。HTTP现在运行各种数据,,它基于TCP,发送数据之前需要建立连接。
  • URL是统一资源定位符,由协议部分,域名部分,资源路径部分三个部分组成,他是IP的别名,查询参数部分用区地址符分割。
  • 谷歌浏览器开发工具使用F12或者alt+command+i这个快捷键,或者右击检查调出,可以查看hetwork网络通信过程。
  • HTTP请求报文分为GET(获取数据)和POST(提交数据),GET请求组成部分:请求行、请求头、空行;POST请求组成部分:请求行、请求头、请求体(Form Data);HTTP响应报文由:响应行、响应头、空行、响应体组成。
  • HTTP报文信息每一行都有\r\n。
  • 执行python -m http.server 端口号表示运行一个静态服务器。
  • HTTP状态码是表示服务器响应状态的三位数代码,400表示错误的请求,地址或者参数错误。