行至水穷处 坐看“云”起时

Cloud Native ADN -> CNadn.Net

集群级Ingress Controller免重载动态性限流(1)

在k8s中,我们经常透过Ingress resource来对外暴露服务,在实际生产中,我们可能还会需要对这些暴露的服务实现限流,这个能力一方面可以通过k8s内部的微网关来实现(比如将NGINX部署微k8s内的微网关),也可能会通过sidecar的方式实现对每个pod单元的限流(如将NGINX作为sidecar部署到业务pod内,并通过NGINX集群同步的方式实现整体限流)。

但如果我们是一个比较典型的南北流量,且内部并没有部署微网关或者sidecar,那么可以由应用自身来解决这个问题,尽管应用自己可以解决该问题,但是作为现代基础架构显然需要有更多的能力来减少应用的非功能开发,从而加快应用的开发速度和简化应用代码。

在k8s的入口进行限流,根据实际Ingres controller(IC)的实现,有多种不同的方法,比如,如果是F5作为ingress controller,那么可以通过F5的本身的直接配置实现连接限制,也可以借助iRule实现更加复杂的基于7层的请求限流。但是有时候即便将F5作为Ingress controller但受制于组织关系的不同,业务部门未必能够通过k8s较为原生的方式来直接调整F5上的配置。我们还会见到客户将NGINX用作七层Ingress controller,而将F5作为四层IC,这个时候业务或者应用管理者更希望通过自己更加熟悉的NGINX来进行七层的请求限流。以下我们就从NGINX的角度来看如何在IC上实现限流。

挑战

当我们需要在Ingress Controller进行服务限流时,由于IC的特性,用户往往希望有更加熟悉和简洁的配置方式,而不希望在决定执行限流的时候修改大量的yaml配置和重新加载IC的配置,因为这可能会导致错误的部署或者性能的降级。

由于IC一般都是多实例,构建IC集群则需要集群能够与k8s配合实现对IC实例变化的及时感知,动态的管理集群内的IC实例。限流控制粒度需以集群层面来管控,这就要求IC能够对状态性数据在集群内同步。限流的执行动作也需要简化,一个API call就可以启动或者关闭整个集群的限流动作,无需对每个IC实例执行API call

IC上的配置的业务一般有两种形态,一是复用同一个域名借助不同的URI path来路由到后端不同的svc endpoints上,二是使用不同的域名路由不同的svc endpoints,这就使得限流要能够灵活的基于这两种不同的维度进行,可以针对不同的URI path,也可以针对不同的hostname进行限流

最后就是对整个集群的限流结果,共享信息的同步状态都能有对应的metrics输出或者Dashboard来展现。

NGINX本身提供了较好的限流机制,可以根据不同的维度信息来实现限流,结合Plus的keyval可以实现更强大的run time的限流动作,同时结合k8s的接口进行集群的自动化管理,本文讲解如何在k8s的Ingress controller场景下实现免重载配置来实现业务限流动作。
下一篇文章则重点关注在IC集群的构建与限流状态同步方面。

在以下的讲解中将不关注NGINX本身关于限流以及keyval的配置,文章假设读者已经了解相关配置方法,如果您对NGINX本身如何实现限流以及keyval API控制不了解的话,建议先观看以下B站的F5 Networks培训视频:

https://www.bilibili.com/video/av93331807?from=search&seid=17474344322595621253

https://www.bilibili.com/video/av92079372?from=search&seid=17474344322595621253

需求描述:

在一个域名下的两个不同path,分别由两个不同的k8s svc提供服务
1. 需要实现对每个不同的svc进行请求级限,限制不同客户端的请求速率,并能够实现免重载方式来控制是否启动限流
2. 如果有必要,通过免重载方式实现该域名的整体级别服务限制

需求分析:

上述两个需求,都需要免重载方式来控制,这可以通过Plus的API来控制keyval来实现,通过keyval实现一个KV开关,可以控制针对不同uri以及域名来开启

需求还需要对同一域名的不同的svc来控制,对于ingress,这里的两个不同svc在NGINX上表现为两个不同的location,因此需要实现针对location来控制是否开启限流功能;同样,对域名的整体限流则可以通过对 server_name进行限流控制。

需求实现:

首先由于IC下的NGINX配置方式和正常的NGINX配置方法有所不同,但归根结底最后的配置是NGINX的配置,所以我们首先来看上述需求在NGINX的伪配置是怎么样的,然后我们只需要将这些配置按照IC下的配置方式来实现配置即可。

伪配置:

从上述的配置可以看出,我们只要通过控制keyval的值,就可以控制让不同location里的limit_req是否生效,而且可以分开独立控制。

NGINX IC上的实现:

这里基础的服务和Ingress依旧以经典的cafe.example.com来部署两个不同的svc,tea和coffee

上述配置中,可以看到http 上下文中有一段配置,location上下文中也有一段配置,这些配置在NGINX IC中所提供的configmap或者annotation里都没有对应的配置,所以我们需要通过configmap中的http snippets,以及ingress annotations中的location snippets来实现这些配置的注入.

  • http上下文中的配置注入:

上述配置中,通过NGINX IC所读取的nginx-config 这个configmap来填入snippets,其中的data内容将会被写入NGINX的http区块下

  • location中的注入:

location是非全局配置,需要通过Ingress的annotation来写入,注意以下代码中的location-snippets:

通过kubectl创建以上configmap以及Ingress

测试:

首先,需要通过keyval的API来写入相关KV键值,

curl -X GET “http://172.16.10.211:7777/api/5/http/keyvals/” -H “accept: application/json”

假设最终写入的配置如下:

上述配置可以看出,只对/coffee的访问进行速率限制,来测试验证一下,简单的发一些请求,看输出,可以看到很多非200的错误:

而NGINX的日志可以看到类似如下的日志信息,可以看出针对/coffee的限制奇效了

注:限流的信息统计也可以通过NGINX API接口curl -X GET “http://your-nginx-ip/api/6/http/limit_reqs/” -H “accept: application/json”来获取,获得的返回格式类似:

如果对/tea发送请求,可以看到统计中没有错误统计,而nginx日志中无limiting的日志

上述测试说明针对path的控制已经生效

进一步测试,将针对path的限流取消,改为对server_name的限流,这个时候,无论访问哪个path都将发生限流. keyval如下:

发起/tea或者/coffee的请求,会发现统计中都有大量非200错误,且日志提示了限流的启动:

针对不同svc配置不同速率的限制

如果你仔细的看上述内容,应该已经注意到,ingress的annotation里写的只是zone=req_zone_10 这个zone指定的速率限制,这实际上会导致不同的location都配置这同样的注入。那么如何实现不同的path引用不同的limit zone呢?这里就需要NGINX支持的mergeable type的ingress,所谓mergeable ingress就是NGINX容许在k8s里配置一个master类型的ingress,这个ingress里内容会和子类型“minion”的ingress来合并。因此上述的cafe-ingress可以改写以下配置,在不同的子ingress下配置不同的limit req zone:

写入NGINX的最终配置为:

从上述的NGINX最终配置可以看出,不同的location以及具备了不同的限流条件。

总结

通过对keyval(plus特性),变量map,以及巧用limit_req_zone的limitkey的赋值来控制限流是否生效,同时在IC中借助灵活的snippets快速扩展IC本身未提供的configmap key或annotations,实现更加灵活的NGINX IC配置。Keyval的API接口使得可以在无需reload NGINX配置文件的前提下实现限流的动态性。

运维系统可通过prometheus等工具通过NGINX暴露的metrics对业务API的upstream或者location等维度统计信息进行采集(例如RPS、http状态响应码、pod单元的业务延迟时间、业务服务pod健康度),设置相关指标,当指标满足条件后触发报警或响应动作,相关的自动化工具只需直接调度NGINX 的API接口即可快速进行业务API的限流。

后续

在上述实践中,最终我们实现了基于API动态的控制限流,但在整个实践中都是以个IC实例来测试的,没有考虑在多IC实例的情况下,如何基于NGINX集群级别来进行限流,同时也没有考虑keyval配置的持久化问题。下一篇将就这两点进行阐述。

原创内容,转载请注明本站

https://myf5.net

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据