Python网络编程(2)http协议介绍
Python网络编程(2)http协议介绍
学习目标
- HTTP协议介绍
- URL介绍
- HTTP请求报文
- HTTP响应报文
- 总结
HTTP协议介绍
HTTP协议的全称是:HyperText Transfer Protocol,翻译过来就是超文本传输协议。
超文本的意思就是超级文本的缩写,是指超越文本限制或者超链接。比如:图片、音乐、视频、超链接等等都属于超文本。
HTTP协议的制作者蒂姆-伯纳斯-李,1991年设计出来的,HTTP协议设计之前目的是传输网页数据的,现在允许传输任意类型的数据。
传输HTTP协议格式的数据是基于TCP传输协议的,发送数据之前需要建立连接。
作用:
规定了浏览器和Web服务器通信数据的格式,也就是说浏览器和web服务器通信需要使用http协议。
通信过程:
浏览器输入网址后,网址通过DNS域名解析服务器解析成IP地址,浏览器与解析完成的IP地址对应的服务器进行通信,首先建立连接(基于TCP),再发送http请求数据,web服务器上的程序(默认80端口)则会根据请求获取服务器资源(图片网页文字等),再将资源返回给web服务器,最后返回满足http协议的响应数据,在浏览器渲染显示。
⚠️总结:HTTP协议是一个超文本传输协议;HTTP协议是一个基于TCP传输协议传输数据的;HTTP协议规定了浏览器和web服务器通信的数据格式。
如何查看HTTP协议通信过程:
首先需要安装GoogleChrome浏览器,然后WIndows和Linux平台按F12调出开发者工具,macOS选择视图->开发者->开发者工具或者直接使用alt+command+i快捷键,还有一个多平台通用的方式就是网页右击选择检查。
标签说明:
- 元素(Elements):用于查看或修改HTML标签
- 控制台(Console):执行js代码
- 源代码(Sources):查看静态资源文件,断电调试JS代码。
- 网络(Network):查看HTTP协议的通信过程。
Headers选项说明:
- General:主要信息
- Response Headers:响应头
- Request Headers:请求头
Response选项是查看响应体信息的。
URL介绍
URL的英文全称是:Uniform Resource Locator,意思就是统一资源定位符,通俗理解为就是网络资源的地址,也就是我们常说的地址。
URL的组成:
http://www.news.cn/2022-05/11/c_1211646104.htm
- 协议部分:http://(明文)、https://(密文)、ftp://
- 域名部分:www.news.cn(http端口号默认80,https端口好默认443)
- 资源路径部分:/2022-05/11/c_1211646104.htm
- (查询参数部分)
域名:域名就是IP的别名,它是用点进行分割使用英文字母和数字组成的名字,使用域名的目的就是方便的记住某台主机IP的地址。
URL的扩展:查询参数部分如?page=1&cout=10这样的是查询参数,第一个参数和第二个参数间使用&分割,page=1是第一页,count=10是这一页显示多少条记录。
HTTP请求报文(Request Headers)
HTTP请求报文是浏览器发送给web服务器的数据格式,HTTP最常见的请求报文有两种:
- GET方式的请求报文:获取web服务器数据(比如获取新闻列表数据)
- POST方式的请求报文:向web服务器提交数据(比如登陆的时候把用户名和密码发送给服务器时也可以获取)
GET请求报文案例:
|
|
第一行开始为请求行,GET为请求报文类型,路径是请求资源路径/为根路径,HTTP/1.1是http协议的版本。
第二行开始为请求头,Host为服务器信息,ip地址和端口号(http默认80)。
第三行Connection是和服务端程序保存长连接,当客户端和服务端有一段时间没有通信,服务端会主动向客户端断开连接。
第四行Upgrade-Insecure-Request是让客户升级不安全请求,以后要使用https。
第五行User-Agent是用户代理,客户端程序的名称,爬虫加上这个防止反爬。
第六行Accept表示告诉服务端程序可以接受什么类型的数据。
第七行Accept-Encoding表示告诉服务端程序可以接受的压缩算法。
第八行Accept-Language表示告诉服务端程序可以支持的语言。
第九行Cookie表示客户端用户身份的表示,唯一的,可以让服务端判断哪个用户请求。
第十行为空行。
http协议规定每项信息后面都有\r\n,且最后空行也有一个\r\n。
POST请求报文案例:
|
|
- 第一行为请求行,POST请求方式 请求资源路径 HTTP协议版本。
- 第二行开始为请求头,Host为服务器信息,ip地址和端口号(http默认80)。
- 第三行Connection是和服务端保持长连接。
- 第四行Content-Type是告诉服务端请求的数据类型。
- 第五行User-Agent是客户端的名称。
- 第六行为空行。
请求体(From data):浏览器发送给服务器的数据通过请求体来完成。
同样的http协议规定POST请求报文中每项信息后面都有\r\n,且最后空行也有一个\r\n。
小结:
-
一个HTTP请求报文可以由请求行、请求头、空行和请求体4个部分组成。
-
请求行由请求方式、请求资源路径、HTTP协议版本3个部分组成。
-
GET方式的请求没有请求体,POST方式可以有请求体,但一般很少没有请求体。
HTTP响应报文(Response Headers)
HTTP响应报文是web服务器发送给浏览器的数据格式。
响应报文案例:
|
|
- 第一行为响应行(状态行),HTTP协议版本为HTTP/1.1, 状态码为200, 状态描述为OK。
- 第二行开始为响应头,Server为服务器名称。
- 第三行Content-Type为内容类型,服务器发送给浏览器的内容类型及编码格式。
- 第四行Transfer-Encoding指的是发送给客户端内容为不确定内容长度,发送结束的标识是0\r\n,Content-Length标识的是服务器发送给客户端确定长度内容大小,单位是字节。Content-Length和Transfer-Encoding两个选项只能出现一个。
- 第五行Connection是指和客户端保持长连接。长时间不通信服务端会等待后断开,客户端可以选择立刻断开。
- 第六行Date是指服务器的时间(格林威治时间),+8小时后是北京时间。而后的内容为自定义响应头信息,自己定义响应头的名字和指,比如is_login: True
- 第七行为空行。
响应体(Response):真正意义上给浏览器解析渲染的数据,例如前端页面代码。
HTTP状态码介绍
HTTP 状态码是用于表示web服务器响应状态的3位数字代码。
状态码 | 说明 |
---|---|
200 | 请求成功 |
307 | 重定向 |
400 | 错误的请求,请求地址或者参数有误 |
404 | 请求资源在服务器不存在 |
500 | 服务器内部源代码出现错误 |
总结
- HTTP协议是超文本传输协议,指超越文本的数据格式发送协议。HTTP现在运行各种数据,,它基于TCP,发送数据之前需要建立连接。
- URL是统一资源定位符,由协议部分,域名部分,资源路径部分三个部分组成,他是IP的别名,查询参数部分用区地址符分割。
- 谷歌浏览器开发工具使用F12或者alt+command+i这个快捷键,或者右击检查调出,可以查看hetwork网络通信过程。
- HTTP请求报文分为GET(获取数据)和POST(提交数据),GET请求组成部分:请求行、请求头、空行;POST请求组成部分:请求行、请求头、请求体(Form Data);HTTP响应报文由:响应行、响应头、空行、响应体组成。
- HTTP报文信息每一行都有\r\n。
- 执行
python -m http.server 端口号
表示运行一个静态服务器。 - HTTP状态码是表示服务器响应状态的三位数代码,400表示错误的请求,地址或者参数错误。