本文将介绍如何利用 ETag
和 If-None-Match
来实现缓存控制。此外,还将介绍 HTTP 中的 ETag 是如何生成的。在此之前,我们先简单介绍一下 HTTP 协议中的 ETag 是什么东西。
一、ETag 简介
1.1 ETag 是什么
ETag(Entity Tag)是万维网协议 HTTP 的一部分。它是 HTTP 协议提供的若干机制中的一种 Web 缓存验证机制,并且允许客户端进行缓存协商。这使得缓存变得更加高效,而且节省带宽。如果资源的内容没有发生改变,Web 服务器就不需要发送一个完整的响应。
1.2 ETag 的作用
ETag 是一个不透明的标识符,由 Web 服务器根据 URL 上的资源的特定版本而指定。如果 URL 上的资源内容改变,一个新的不一样的 ETag 就会被生成。ETag 可以看成是资源的指纹,它们能够被快速地比较,以确定两个版本的资源是否相同。
需要注意的是 ETag 的比较只对同一个 URL 有意义,不同 URL 上资源的 ETag 值可能相同也可能不同。
1.3 ETag 的语法
ETag 的语法如下:
1 | ETag: W/"<etag_value>" |
W/
(可选):'W/'
(大小写敏感)表示使用弱验证器。弱验证器很容易生成,但不利于比较。强验证器是比较的理想选择,但很难有效地生成。相同资源的两个弱 Etag 值可能语义等同,但不是每个字节都相同。<etag_value>
:实体标签唯一地表示所请求的资源。它们是位于双引号之间的 ASCII 字符串(如2c-1799c10ab70
)。没有明确指定生成 ETag 值的方法。通常是使用内容的散列、最后修改时间戳的哈希值或简单地使用版本号。比如,MDN 使用 wiki 内容的十六进制数字的哈希值。
1.4 ETag 的使用
在大多数场景下,当一个 URL 被请求,Web 服务器会返回资源和其相应的 ETag 值,它会被放置在 HTTP 响应头的 ETag
字段中:
1 | HTTP/1.1 200 OK |
然后,客户端可以决定是否缓存这个资源和它的 ETag。以后,如果客户端想再次请求相同的 URL,将会发送一个包含已保存的 ETag
和 If-None-Match
字段的请求。
1 | GET /index.js HTTP/1.1 |
客户端请求之后,服务器可能会比较客户端的 ETag 和当前版本资源的 ETag。如果 ETag 值匹配,这就意味着资源没有改变,服务器便会发送回一个极短的响应,包含 HTTP 304 Not Modified
的状态。304 状态码告诉客户端,它的缓存版本是最新的,可以直接使用它。
1 | HTTP/1.1 304 Not Modified |
二、ETag 实战
2.1 创建 Koa 服务器
了解完 ETag 相关知识后,将基于 koa
、koa-conditional-get
、koa-etag
和 koa-static
这些库来介绍一下,在实际项目中如何利用 ETag
响应头和 If-None-Match
请求头实现资源的缓存控制。
1 | // server.js |
在以上代码中,我们使用了 koa-static
中间件来处理静态资源,这些资源被保存在 public
目录下。在该目录下,创建了 index.html
和 index.js
两个资源文件,文件中的内容分别如下所示:
2.1.1 public/index.html
1 |
|
2.1.2 public/index.js
1 | console.log("大家好,"); |
在启动完服务器之后,我们打开 Chrome 开发者工具并切换到 Network 标签栏,然后在浏览器地址栏输入 http://localhost:3000/ 地址,接着多次访问该地址(地址栏多次回车)。下图是多次访问的结果:
2.2 ETag 和 If-None-Match
下面将以 index.js
为例,来分析上图中与之对应的 HTTP 报文。对于 index.html
文件,感兴趣的小伙伴可以自行分析一下。接下来我们先来分析首次请求 index.js
文件的报文:
2.2.1 首次请求 — 请求报文
1 | GET /index.js HTTP/1.1 |
2.2.2 首次请求 — 响应报文
1 | HTTP/1.1 200 OK |
在使用了 koa-static
和 koa-etag
中间件之后,index.js
文件首次请求的响应报文中会包含 Cache-Control
和 ETag
的字段信息。
Cache-Control
描述的是一个相对时间,在进行缓存命中的时候,都是利用客户端时间进行判断,所以相比较Expires
,Cache-Control
的缓存管理更有效,安全一些。
2.2.3 10s 内 — 请求报文
1 | GET /index.js HTTP/1.1 |
2.2.4 10s 内 — 响应信息(General)
1 | Request URL: http://localhost:3000/index.js |
2.2.5 10s 内 — 响应信息(Response Headers)
1 | Cache-Control: max-age=10 |
由于我们设置了 index.js
资源文件的最大缓存时间为 10s,所以在 10s 内浏览器会直接从缓存中读取文件的内容。需要注意的是,此时的状态码为:Status Code: 200 OK
(from memory cache)。
2.2.6 10s 后 — 请求报文
1 | GET /index.js HTTP/1.1 |
因为 10s 之后,缓存已经过期了,而且在 index.js
文件首次请求的响应报文中也返回了 ETag
字段。所以此时浏览器会发起 If-None-Match
条件请求。这类请求可以用来验证缓存的有效性,省去不必要的控制手段。
2.2.7 10s 后 — 响应报文
1 | HTTP/1.1 304 Not Modified |
因为文件的内容未发生改变,所以 10s 后的响应报文的状态码为 304 Not Modified
。此外,响应报文中也返回了 ETag
字段。看到这里,有一些小伙伴可能会有疑惑 —— ETag
到底是如何生成的?接下来,将带大家一起来揭开 koa-etag
中间件背后的秘密。
三、如何生成 ETag
在前面的示例中,我们使用了 koa-etag
中间件来实现资源的缓存控制。其实该中间件的实现并不复杂,具体如下所示:
1 | // https://github.com/koajs/etag/blob/master/index.js |
由以上代码可知,在 koa-etag
中间件内部会先通过 getResponseEntity
函数来获取响应实体对象,然后再调用 setETag
函数来生成 ETag
。而 setETag
函数的实现很简单,在 setETag
函数内部,会通过 etag 这个第三方库来生成 ETag
。
1 | // https://github.com/koajs/etag/blob/master/index.js |
etag 这个库对外提供了一个 etag
函数来创建 ETag,该函数的签名如下:
1 | etag(entity, [options]) |
参数说明:
entity
:用于生成 ETag 的实体,类型支持 Strings,Buffers 和 fs.Stats。除了fs.Stats
对象之外,默认将生成 strong ETag。options
:配置对象,支持通过options.weak
属性来配置生成 weak ETag。
了解完 etag 函数的参数之后,我们来看一下该函数的具体实现:
1 | function etag (entity, options) { |
在 etag 函数内部会根据 entity
的类型,执行不同的生成逻辑。如果 entity
是 fs.Stats
对象,则会调用 stattag
函数来创建 ETag。
1 | function stattag (stat) { |
而如果 entity
参数非 fs.Stats
对象,则会调用 entitytag
函数来生成 ETag。其中 entitytag
函数的具体实现如下:
1 | function entitytag (entity) { |
对于非 fs.Stats
对象来说,在 entitytag
函数内部会使用 sha1 消息摘要算法来生成 hash 值并以 base64 格式输出,而实际的生成的 hash 值会取前 27 个字符。此外,由以上代码可知,最终的 ETag 将由实体的长度和哈希值两部分组成。
需要注意的是,生成 ETag 的算法并不是固定的, 通常是使用内容的散列、最后修改时间戳的哈希值或简单地使用版本号。
四、ETag vs Last-Modified
其实除了 ETag
字段之外,大多数情况下,响应头中还会包含 Last-Modified
字段。它们之间的区别如下:
- 精确度上,
Etag
要优于Last-Modified
。Last-Modified
的时间单位是秒,如果某个文件在 1 秒内被改变多次,那么它们的Last-Modified
并没有体现出来修改,但是 Etag 每次都会改变,从而确保了精度;此外,如果是负载均衡的服务器,各个服务器生成的Last-Modified
也有可能不一致。 - 性能上,
Etag
要逊于Last-Modified
,毕竟Last-Modified
只需要记录时间,而ETag
需要服务器通过消息摘要算法来计算出一个 hash 值。 - 优先级上,在资源新鲜度校验时,服务器会优先考虑
Etag
。即如果条件请求的请求头同时携带If-Modified-Since
和If-None-Match
字段,则会优先判断资源的ETag
值是否发生变化。
五、总结
本文首先介绍了 ETag
的相关基础知识,然后以 Koa 为例详细介绍了 ETag
和 If-None-Match
是如何实现缓存控制的。此外,还分析了 koa-etag
中间件内部依赖的 etag
第三方库是如何为指定的实体生成 ETag
对象。最后,列举了 ETag
与 Last-Modified
之间的主要区别。