企业所处发展阶段不同,对支付系统的定位和架构也不尽相同。整体上来说,可以把一个公司的支付系统发展分为三个阶段:
这个划分有点勉强。简单说,支付系统是仅供内部使用的,支付服务是支持公司内外部来调用的,支付平台是可以在服务的基础上定制各种场景支持的。
区分两个概念:支付和交易。支付是交易的一部分。一个简单的交易过程包括:客户下订单,客户完成支付,商家接收订单,商家出货。这里仅考虑下订单的流程。从软件工程的角度, 首先需要明确下几个参与者:
主演都有了,下面就是如何演出支付这场大戏了。正常的流程应该是这样:
HTTPS来访问,并对接口做签名。关于支付接口的设计,我将另起博文介绍。比如 100 块钱的商品,用户支付了 100 块钱(运费、打折等另算),这 100 块钱,还要刨去电商系统的佣金、支付通道的手续费,才能最终落到商家手里。
这是个 Happy 流程,一切看起来都很美好,但实际上步步都是坑,一旦有地方考虑不周全,轻者掉单频发,重者接口被盗刷,损失惨重。
如何避免攻击者修改支付接口参数, 比如 100 块钱的东西,改成 10 块钱?
调用收单接口来执行最终实际支付时,如果支付失败了,比如卡上没钱了,怎么办?
收单接口把账户上的钱扣走了,但是通知支付系统的时候出错了(比如网络闪断,或者支付系统重启了),支付系统不知道这笔交易已经达成了,怎么处理?还有好多问题……
和钱打交道,在任何公司,都跑不掉财务部门。 那财务部门会关注哪些内容?当然,最重要的是账务信息。所有的交易都要记账,按要求公司都需要定期做审计,每一笔帐都不能出错。这当然不能等到审计的时候再去核对,而是每天都需要对账,确保所有的交易支出相抵,也就是所说的把账给平了。这就有三种情况:电商系统和商家对账;电商系统和支付系统对账;支付系统和收单机构对账。作为支付系统,我们仅关注后两者的情况。
从软件开发角度,还有一些非功能性需求需要实现:
所以支付的坑还不少,先看看互联网的头牌们是如何设计支付系统的? 先看看某团的:
再看某 Q 旅游公司的:
对比下某东金融的:
最后看看业界最强的某金服金融的:
整体上来说,从分层的角度,支付系统和普通的业务系统并没有本质的区别,也是应用、服务、接口、引擎、存储等分层。
在应用层,支付系统一般会提供如下子系统:
其他各层功能:
这其实也是普通互联网应用系统架构,没有什么特别之处。比如微服务如何体现,如何满足性能需求等,在这个视图中无法体现出来。这只是个软件角度的高层视图,后续我们对各个主要模块进行分解,从分解视图中可以知道如何满足非功能性需求。
关于监控,在各个技术网站,几乎都是一搜一大把。几个大的互联网公司,也都有开发自己的监控系统。关于这方面也有不少分享。这里介绍针对支付系统的监控和报警,但大部分内容,应该来说,对其他系统也是通用的。
现在基本上Zabbix成为监控的标配了。一个常规的Zabbix监控实现,是在被监控的机器上部署Zabbix Agent,从日志中收集所需要的数据,分析出监控指标,发送到zabbix服务器上。zabbix监控这种方式要求每个机器上部署Zabbix客户端,并配置数据收集脚本。Zabbix的部署可以作为必装软件随操作系统一起安装。
先说相对比较简单的系统监控,一般系统监控关注如下指标:
CPU负载
内存使用率
磁盘使用率
网络带宽占用
这些指标在Zabbix agent中会提供默认实现,通过简单配置即可激活。装机时可以考虑统一配置这些监控。
JMX提供了关于JVM的大部分核心信息,启动时设置参数,支持远程访问JMX,之后即可通过接入JMX来实时读取JVM的 CPU、内存等信息。Zabbix也支持通过JMX来获取信息。
服务监控主要指接口的状态监控。服务监控关注如下指标:
Apache Tomcat,Resin,JBoss等,可以从Access Log中采集到每个接口的QPS。没输出Access Log的系统,考虑通过Annotation来规范输出访问计数。当然,这个指标还可以细分为每秒成功请求数、失败请求数、总请求数等。HTTP请求,也可以从access log中获取接口执行时间。当然也可以用annotation来实现统一的执行时间监控。数据库是大部分应用的核心和瓶颈,对其监控尤其必要。监控可以在应用侧执行,也可以在数据库服务器上做。前者通过应用代码中打印日志来实现,或者直接override 链接池中相关方法来统一输出日志。
在数据库服务器上执行监控,需要根据数据库的特点分别设计方案。以MySQL为例,可以通过监控其bin log来获取执行的 sql 语句以及执行时间。使用Alibaba Canal来对接MySQL的BinLog, 接收到BinLog消息后,解析消息数据,可以获取请求的 SQL、参数、执行时间、错误代码等信息。
数据库监控重点关注如下指标:
调用链监控指在微服务系统中,跟踪一个请求从发起到返回,在各个相关系统中的调用情况。
调用链监控是跨系统的监控,需要在请求发起时分配一个可以唯一识别本次调用请求(或者成为事务)的 ID,这个 ID 会被分发到每个调用上。之后在调用日志中输出该 ID。当所有日志都汇总起来后,可以从日志中分析本次调用的流程。对于HTTP/HTTPS请求,可以考虑将 ID 放到Header里面,这样不会影响接口逻辑。
业务监控是一个复杂的话题。这里以支付为例,说明业务监控的架构和实现。支付业务监控每个支付通道监控包括如下内容:
支付接口,如支付、提现、退款、签约、订阅等,监控如下内容:
实际上对一个业务来说,大部分系统监控的指标是类似的,而按照这种方式,每个指标在各个被监控系统中还需要单独写脚本实现,工作量大。针对这种情况,可以采用日志集中监控的方式来处理。考虑到日志最终都需要归并到一个日志仓库中,这个仓库可以有很多用途,特别是日常维护中的日志查询工作。多数指标可以在日志上完成计算的。借助这个系统,也可以完成监控:zabbix监控。
日志通过Apache Flume来收集,通过Apache Kafka来汇总,一般最后日志都归档到Elastic中。统计分析工作也可以基于Elastic来做,但这个不推荐。 使用Apache Spark的Streaming组件来接入Apache Kafka完成监控指标的提取和计算,将结果推送到Zabbix服务器上,就可以实现可扩展的监控。
这个架构的优势在于:
难点在于,提炼一套通用的日志规范,考虑如何通过Spark来分析日志。
Flume和logstash都可以用于日志收集,从实际使用来看,两者在性能上并无太大差异。flume是java系统,logstash是ruby系统。使用中都会涉及到对系统的扩展,这就看那个语言你能 hold 住了。
Flume和Logstash都支持日志直接入库,即写入HDFS,Elastic等,有必要中间加一层Kafka吗?太有必要了,日志直接入库,以后分析就限制于这个库里面了。接入Kafka后,对于需要日志数据的应用,可以在kafka上做准实时数据流分析,并将结果保存到需要的数据库中。
Streaming分析,可以走Spark,也可以用Storm,甚至直接接入kafka做单机处理。这取决于日志数据规模了。Spark streaming是推荐的,社区活跃度高,又集成了多种算法。
Java主流的日志系统有log4j,JULlogback等,日志框架有apache commons logging,slf等,关于这些系统的历史掌故恩怨情仇八卦趣事,网上有不少资料,这里不详细介绍。
最好的编程语言是PHP还是Java?同样的,也有争论:最好的日志框架是slf还是commons-logging?最好的日志系统是Log4j还是Logback?在使用上,它们的 API 和使用方式大体类似,slf有模版支持,但这也不是关键需求。而性能方面,从测试用例中也没有发现哪个系统或框架有明显优势。对性能有决定性影响的是使用方式。
根据测试结果,在高并发系统中,关于日志,有如下结论:
Log4j与logback在高并发下业务场景下性能上并无太多差异,不用太纠结使用哪个 API,影响性能的是日志内容的写法和数据量。反射机制。执行频率高,性能要求高的代码,禁用反射,禁用new操作。