如何设计一个优雅的重试机制

原创

闫同学

发布于 2024-09-20 22:29:26

1280

发布于 2024-09-20 22:29:26

重试机制是一种在网络请求失败时自动重新尝试发送请求的机制。在网络不稳定或服务端出现问题导致请求失败时，通过接口重试可以有效提高应用的稳定性和用户体验。这种机制通常包含设置重试次数、重试间隔以及重试条件等策略，以确保在合理范围内尝试恢复正常的请求交互。接口重试机制广泛应用于各种网络编程和微服务架构中，成为处理网络请求失败的重要手段。

为什么需要进行重试设计？

提高系统容错能力：在分布式系统或微服务架构中，服务之间的调用往往依赖于网络，而网络波动、服务负载高、系统故障等因素都可能导致请求暂时失败。重试设计允许系统在遇到这些临时故障时自动重试请求，从而提高系统的容错能力和稳定性。

优化用户体验：在用户界面上，重试机制可以自动处理因网络问题或其他临时故障导致的请求失败，而无需用户手动刷新页面或重新提交请求，从而提升了用户体验。

提升响应速度：对于因服务负载高导致的请求超时等问题，通过重试机制可以在服务负载降低时重新尝试请求，从而提高了系统的响应速度。

降低维护成本：自动重试机制可以减少因系统临时故障导致的人工干预次数，降低了系统的维护成本。

重试机制的具体应用场景

从场景来讲，重试机制主要应用于网络波动、服务暂时不可用等场景，但需要注意的是，并非所有失败场景都适合重试。例如，由于业务逻辑错误（如参数错误、权限不足）或技术错误（如HTTP 500内部服务器错误）导致的失败，通常不适合进行重试。除此之外在业务上重试机制具体的应用场景主要有以下几个：

远程服务调用：在调用远程服务时，由于网络延迟、服务负载高等原因，请求可能会失败。通过重试机制，可以提高远程服务调用的成功率。

数据库操作：在进行数据库操作时，如插入、更新、删除等，可能会因数据库锁、网络问题等原因导致操作失败。通过重试机制，可以确保数据库操作的成功执行。

文件传输：在文件传输过程中，可能会因网络波动等原因导致传输中断。通过重试机制，可以确保文件传输的完整性和可靠性。

重试设计需要遵循哪些原则？

在设计重试机制时，有几个关键的原则需要遵循以确保系统的健壮性、可靠性和性能。这些原则可以帮助你避免常见的陷阱，并优化重试逻辑以应对各种失败场景。

明确重试策略：

固定间隔重试：每次重试之间使用固定的时间间隔。适用于对时间敏感度不高且失败原因可能快速解决的场景。
指数退避重试：每次重试间隔逐渐增大，通常是前一次间隔的倍数。这种方式可以减少因频繁重试而对系统造成的压力，并可能适应某些间歇性问题的恢复时间。
自定义重试间隔：根据具体业务场景和失败原因，灵活定义重试间隔。

设置重试次数上限：

设定一个合理的重试次数上限，避免无限重试导致的资源浪费和潜在的服务雪崩。

考虑到操作的成本和失败恢复的可能性，合理选择重试次数。

幂等性和去重：

确保重试操作是幂等的，即多次执行与单次执行的结果相同。

使用唯一标识符（如请求ID）来防止对同一操作的重复处理。

资源隔离与限流：

对重试操作进行资源隔离，避免对系统其他部分造成过大压力。

使用限流机制来控制重试操作的并发数，防止因过多重试而导致的资源耗尽。

重试设计是系统设计中一个重要部分，用于提高系统的容错能力和稳定性。以下将详细介绍如何进行重试设计，包括重试的场景、策略、设计要点以及实现方式。

重试机制的实现方式

代码级实现：在业务代码中直接编写重试逻辑。适用于简单的重试需求，但可能会增加代码的复杂性和维护难度。

框架支持：使用现有的重试框架或库来实现重试逻辑。如Spring Retry、Resilience4j等，这些框架提供了丰富的重试策略和配置选项。

中间件支持：通过消息队列（MQ）等中间件来实现重试机制。适用于分布式系统或需要保证数据最终一致性的场景。

下面我们就在代码层面实现一个简单的重试机制：

首先写一个方法模拟服务端，会偶现返回err：

func server() (string, error) {
	// 模拟随机失败
	r := rand.New(rand.NewSource(time.Now().Unix()))
	if r.Intn(10)%2 == 0 {
		return "", errors.New("num is err")
	}
	return "success", nil
}

然后写一个方法模拟客户端，调用服务端：

func callServer() error {
	// 调用方法
	res, err := server()
	if err != nil {
		fmt.Println("call server err:", err)
		return err
	}
	fmt.Printf("call server over ,res:%s \n", res)
	return nil
}

直接调用callServer()函数的话可能会报错，此时我们加入重试方法：

type CallFunc func() error

const (
	MaxRetryNum = 2
	WaitTime    = time.Second * 1
)

func retryFunc(f CallFunc) error {
	var err error
	for i := 0; i <= MaxRetryNum; i++ {
		// 成功执行，无需重试
		if f() == nil {
			return nil
		}
		fmt.Printf("Failed, retrying in %v... \n", i+1)

		// 达到最大重试次数，停止重试
		if i == MaxRetryNum {
			break
		}
		// 等待指定的时间后再重试
		time.Sleep(WaitTime)
	}
	// 返回最后一次尝试的错误
	return err
}

然后我们进行调用：

func main() {
	_ = callServer()

	_ = retryFunc(func() error {
		return callServer()
	})
}

输出结果：

无重试调用：
call server err: num is err
有重试调用：
call server err: num is err
Failed, retrying in 1... 
call server over ,res:success

可以发现如果没有重试的话可能失败就直接over了，加上重试机制就好了很多。

小总结

重试设计是提高系统容错能力和稳定性的重要手段。在设计重试机制时，需要综合考虑重试场景、策略、设计要点以及实现方式等多个方面。通过合理的重试设计，可以显著提高系统的稳定性和用户体验。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

分布式

设计模式

腾讯技术创作特训营S9

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度