HTTP调用即通过HTTP协议执行一次网络请求。既然是网络请求,就有超时的可能性(可能你的网卡,也可能服务器所处网络卡),因此在开发中需要注意:
虽然应用层是HTTP协议,但网络层始终是TCP/IP协议。TCP/IP是面向连接的协议,在传输数据之前需要建立连接。所以网络框架都会提供如下超时参数:
比如60s。TCP三次握手正常建立连接所需时间很短,在ms级最多到s级,不可能需要十几、几十秒,多半是网络或防火墙配置问题。这时如果几秒还连不上,那么可能永远也连不上。所以设置特别长的连接超时无意义,1~5秒即可。 如果是纯内网调用,还可以设更短,在下游服务无法连接时,快速失败
服务一般会有多个节点,若别的客户端通过负载均衡连接服务端,那么客户端和服务端会直接建立连接,此时出现连接超时大概率是服务端问题 而若服务端通过Nginx反向代理来负载均衡,客户端连接的其实是Nginx,而非服务端,此时出现连接超时应排查Nginx
client接口内部通过HttpClient
调用服务端接口server,客户端读取超时2秒,服务端接口执行耗时5秒。
调用client接口后,查看日志:
SocketTimeoutException
,即读取超时Tomcat Web服务器是把服务端请求提交到线程池处理,只要服务端收到请求,网络层面的超时和断开便不会影响服务端的执行。因此,出现读取超时不能随意假设服务端的处理情况,需要根据业务状态考虑如何进行后续处理。
比如100ms。
发生读取超时,网络层面无法区分如下原因:
但TCP是连接建立完成后才传输数据,对于网络情况不是特差的服务调用,可认为:
HTTP请求一般需要获得结果,属同步调用。 若超时时间很长,在等待 Server 返回数据同时,Client 线程(通常为 Tomcat 线程)也在等待,当下游服务出现大量超时,程序可能也会受到拖累创建大量线程,最终崩溃。
评论可能会有人问了,若把读取超时设为2s,而服务端接口需3s,不就永远拿不到执行结果? 的确,因此设置读取超时要结合实际情况:
连接超时代表建立TCP连接的时间,读取超时代表了等待远端返回数据的时间,也包括远端程序处理的时间。在解决连接超时问题时,我们要搞清楚连的是谁;在遇到读取超时问题的时候,我们要综合考虑下游服务的服务标准和自己的服务标准,设置合适的读取超时时间。此外,在使用诸如Spring Cloud Feign等框架时务必确认,连接和读取超时参数的配置是否正确生效。
为Feign配置超时参数的难点在于,Feign自身有两个超时参数,它使用的负载均衡组件Ribbon本身还有相关配置。这些配置的优先级是啥呢?
在配置文件仅指定服务端地址的情况下:
clientsdk.ribbon.listOfServers=localhost:45678
得到如下输出:
[21:46:24.222] [http-nio-45678-exec-4] [WARN ] [o.g.t.c.h.f.FeignAndRibbonController:26 ] -
执行耗时:222ms 错误:Connect to localhost:45679 [localhost/127.0.0.1, localhost/0:0:0:0:0:0:0:1]
failed: Connection refused (Connection refused) executing
POST http://clientsdk/feignandribbon/server
Feign默认读取超时是1秒,如此短的读取超时算是“坑”。
可以设置如下参数:
feign.client.config.default.readTimeout=3000
feign.client.config.default.connectTimeout=3000
修改配置后重试,得到如下日志:
[http-nio-45678-exec-3] [WARN ] [o.g.t.c.h.f.FeignAndRibbonController :26 ] - 执行耗时:3006ms 错误:Read timed out executing POST http://clientsdk/feignandribbon/server
3秒读取超时生效。 注意:这里有一个大坑,如果希望只修改读取超时,可能会只配置这么一行:
feign.client.config.default.readTimeout=3000
测试会发现,这样配置无法生效。
查看FeignClientFactoryBean
源码
ConnectTimeout
、ReadTimeout
,Request.Options才会被覆盖
想针对单独的Feign Client设置超时时间,可以把default替换为Client的name:
feign.client.config.default.readTimeout=3000
feign.client.config.default.connectTimeout=3000
feign.client.config.clientsdk.readTimeout=2000
feign.client.config.clientsdk.connectTimeout=2000
[http-nio-45678-exec-3] [WARN ] [o.g.t.c.h.f.FeignAndRibbonController :26 ] -
执行耗时:2006ms 错误:Read timed out executing
POST http://clientsdk/feignandribbon/server
参数首字母要大写,和Feign的配置不同。
ribbon.ReadTimeout=4000
ribbon.ConnectTimeout=4000
可以通过日志证明参数生效:
[http-nio-45678-exec-3] [WARN ] [o.g.t.c.h.f.FeignAndRibbonController :26 ] -
执行耗时:4003ms 错误:Read timed out executing
POST http://clientsdk/feignandribbon/server
谁会生效?
clientsdk.ribbon.listOfServers=localhost:45678
feign.client.config.default.readTimeout=3000
feign.client.config.default.connectTimeout=3000
ribbon.ReadTimeout=4000
ribbon.ConnectTimeout=4000
最终生效的是Feign的超时:
[http-nio-45678-exec-3] [WARN ] [o.g.t.c.h.f.FeignAndRibbonController :26 ] -
执行耗时:3006ms 错误:Read timed out executing
POST http://clientsdk/feignandribbon/server
在LoadBalancerFeignClient
源码
如果Request.Options
不是默认值,就会创建一个FeignOptionsClientConfig
代替原来Ribbon的DefaultClientConfigImpl
,导致Ribbon的配置被Feign覆盖:
但若这么配置,最终生效的还是Ribbon的超时(4秒),难点Ribbon又反覆盖了Feign?不,这还是因为坑点二,单独配置Feign的读取超时无法生效:
clientsdk.ribbon.listOfServers=localhost:45678
feign.client.config.default.readTimeout=3000
feign.client.config.clientsdk.readTimeout=2000
ribbon.ReadTimeout=4000
一些HTTP客户端往往会内置一些重试策略,其初衷是好的,毕竟因为网络问题导致丢包虽然频繁但持续时间短,往往重试就能成功, 但要留心这是否符合我们期望。
短信重复发送的问题,但短信服务的调用方用户服务,反复确认代码里没有重试逻辑。 那问题究竟出在哪里?
配置一个Feign供客户端调用:
Feign内部有一个Ribbon组件负责客户端负载均衡,通过配置文件设置其调用的服务端为两个节点:
SmsClient.ribbon.listOfServers=localhost:45679,localhost:45678
在45678和45679两个端口上分别启动服务端,然后访问45678的客户端接口进行测试。因为客户端和服务端控制器在一个应用中,所以45678同时扮演了客户端和服务端的角色。
在45678日志中可以看到,29秒时客户端收到请求开始调用服务端接口发短信,同时服务端收到了请求,2秒后(注意对比第一条日志和第三条日志)客户端输出了读取超时的错误信息:
[http-nio-45678-exec-4] [INFO ] [c.d.RibbonRetryIssueClientController:23 ] - client is called
[http-nio-45678-exec-5] [INFO ] [c.d.RibbonRetryIssueServerController:16 ] - http://localhost:45678/ribbonretryissueserver/sms is called, 13600000000=>a2aa1b32-a044-40e9-8950-7f0189582418
[http-nio-45678-exec-4] [ERROR] [c.d.RibbonRetryIssueClientController:27 ] - send sms failed : Read timed out executing GET http://SmsClient/ribbonretryissueserver/sms?mobile=13600000000&message=a2aa1b32-a044-40e9-8950-7f0189582418
而在另一个服务端45679的日志中还可以看到一条请求,客户端接口调用后的1秒:
[http-nio-45679-exec-2] [INFO ] [c.d.RibbonRetryIssueServerController:16 ] - http://localhost:45679/ribbonretryissueserver/sms is called, 13600000000=>a2aa1b32-a044-40e9-8950-7f0189582418
客户端接口被调用的日志只输出了一次,而服务端的日志输出了两次。虽然Feign的默认读取超时时间是1秒,但客户端2秒后才出现超时错误。 说明客户端自作主张进行了一次重试,导致短信重复发送。
查看Ribbon源码,MaxAutoRetriesNextServer参数默认为1,也就是Get请求在某个服务端节点出现问题(比如读取超时)时,Ribbon会自动重试一次:
常见误区:Get请求的参数包含在Url QueryString中,会受浏览器长度限制,所以一些开发会选择使用JSON以Post提交大参数,使用Get提交小参数。
MaxAutoRetriesNextServer
参数配为0,禁用服务调用失败后在下一个服务端节点的自动重试。在配置文件中添加一行即可:ribbon.MaxAutoRetriesNextServer=0
至此,问题出在用户服务还是短信服务? 也许双方都有问题吧。
对于重试,因为HTTP协议认为Get请求是数据查询操作,是无状态的,又考虑到网络出现丢包是比较常见的事情,有些HTTP客户端或代理服务器会自动重试Get/Head请求。如果你的接口设计不支持幂等,需要关闭自动重试。但,更好的解决方案是,遵从HTTP协议的建议来使用合适的HTTP方法。
HTTP请求调用还有一个常见的问题:并发数的限制,导致程序处理性能无法提升。
某爬虫项目,整体爬取数据效率很低,增加线程池数量也无谓,只能堆机器。 现在模拟该场景,探究问题本质。
假设要爬取的服务端是这样的一个简单实现,休眠1s返回数字1:
爬虫需多次调用该接口抓取数据,为确保线程池不是并发瓶颈,使用了一个无线程上限的newCachedThreadPool
,然后使用HttpClient
执行HTTP请求,把请求任务循环提交到线程池处理,最后等待所有任务执行完成后输出执行耗时:
PoolingHttpClientConnectionManager
构造的CloseableHttpClient
,测试一下爬取10次的耗时:
虽然一个请求需要1s执行完成,但线程池可扩张使用任意数量线程。 按道理,10个请求并发处理的时间基本相当于1个请求的处理时间,即1s,但日志中显示实际耗时5秒:
PoolingHttpClientConnectionManager
源码有两个重要参数:
HttpClient
是常用的HTTP客户端,那为什么默认值限制得这么小?
很多早期的浏览器也限制了同一个域名两个并发请求。对于同一个域名并发连接的限制,其实是HTTP 1.1协议要求的,这里有这么一段话:
Clients that use persistent connections SHOULD limit the number of simultaneous connections that they maintain to a given server. A single-user client SHOULD NOT maintain more than 2 connections with any server or proxy. A proxy SHOULD use up to 2*N connections to another server or proxy, where N is the number of simultaneously active users. These guidelines are intended to improve HTTP response times and avoid congestion. HTTP 1.1协议是20年前制定的,现在HTTP服务器的能力强很多了,所以有些新的浏览器没有完全遵从2并发这个限制,放开并发数到了8甚至更大。 如果需要通过HTTP客户端发起大量并发请求,不管使用什么客户端,请务必确认客户端的实现默认的并发度是否满足需求。
尝试声明一个新的HttpClient放开相关限制,设置maxPerRoute为50、maxTotal为100,然后修改一下刚才的wrong方法,使用新的客户端进行测试:
输出如下,10次请求在1秒左右执行完成。可以看到,因为放开了一个Host 2个并发的默认限制,爬虫效率得到了大幅提升:
若你的客户端有比较大的请求调用并发,比如做爬虫,或是扮演类似代理的角色,又或者是程序本身并发较高,如此小的默认值很容易成为吞吐量的瓶颈,需要及时调整。
参考