Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >京东到家开放平台消息系统-进阶之路

京东到家开放平台消息系统-进阶之路

作者头像
架构之家
发布于 2022-07-12 05:18:45
发布于 2022-07-12 05:18:45
85400
代码可运行
举报
文章被收录于专栏:架构之家架构之家
运行总次数:0
代码可运行

京东到家开放平台,是一个面向商家以及第三方开发者-开放服务、持续赋能O2O业务的到家服务集成平台。是商家数据与到家数据打通的桥梁,开放平台、商家、到家三者之间的关系如图所示。

既然是数据通讯的桥梁,必然涉及到双向通信,开放平台提供大量的可调用的API接口,同时要求商家提供必要的接口供到家调用,比如新订单的产生,订单状态变更,新增门店信息,促销信息审核等等。

其中API接口由于是到家提供,相对来讲比较稳定,而通知接口是商家提供,大量不确定因素都需要考虑,比如接口挂掉了,服务器宕机,网络中断等等,出了问题后还面临如何快速发现,重新推送,推送频次,重试时长,消息间会不会相互影响等问题。这些在消息系统设计之初都应该考虑到。

消息系统核心机制的设计

开放平台的消息系统(Business Message Queue,简称BMQ)是基于内部系统的MQ,这些MQ被内部各业务系统订阅的同时,也被开放平台订阅,平台进行格式转化(标准消息或非标准消息)后,发送给商家,基本概念如图所示。

MQ系统是京东自主研发的一款消息中间件系统,具有高可用、数据高可靠等特性。所以可以直接使用MQ来保证平台自动重新推送消息,推送频次,重试时长,以及消息的不丢失。那直接利用有什么弊端呢?

以新订单消息为例,当一个商家的接口挂了,就会不断重试,甚至积压,一旦积压就会影响到没有问题的商家。那怎么解决这个问题?能不能针对商家维度进行消息推送?

开放平台的做法是,将重点ka与普通商家分离,所有ka商家独立通道,ka商家是可扩展的,当有必要时可以从非ka商家中提取单独通道进行处理,这样就将业务维度转换成了商家维度,具体做法如图所示。

这样简单做可以了吗?其实大家会发现一个问题,虽然ka商家间的影响小了,但是非ka商家仍然存在相互影响的问题,随着业务增长,非ka商家间相互影响会越来越大,ka商家通道的不同业务之间也会互相影响吗?

以沃尔玛为例,一个新订单消息接口挂了,会不会影响售后消息呢?这是非常有可能的,同时也有一个非常简单的做法就是按业务再次分离,因为消息的种类非常多,每个商家的每个消息都单独开辟消息通道,显然要申请大量的topic,不太利于维护和管理。

开放平台的做法是,每个通道增加专门的重试通道,一旦消息有问题,直接丢到重试通道即可,这样就不影响正常的业务了,具体做法如图所示。

这样就解决了大部分问题,在实际的运行过程中也发现是可行的。以为可以高枕无忧了吗?直到一次出现了常规通道中大量积压,可是重试通道却没有数据,原来,我们httpclient允许的超时时间是3秒,超过3秒被认为是失败的,会丢到重试通道中,但实际上商家出现了大量慢响应,可能都在2秒多才返回,这样引发不了发送失败的条件,造成常规通道中的积压。

开放平台针对这种情况的做法是,每个通道增加专门的降级通道,我们实时监控统计(kafka+flink)单商家单消息响应时间超过阈值的次数,对于规定时间内单商家单消息统计次数超过阈值的打上降级标。开放平台在消费到家内部业务MQ时,有降级标的商家消息会直接进入对应的降级通道,不会进入常规通道。实时监控统计也会对恢复正常的单商家单消息清除降级标记,降级通道中执行失败的消息处理方式同常规通道一样,都会进入重试通道。具体策略如图所示。

以上基本上解决了大部分实际的场景,并且还具有可扩展空间,比如发现非ka的量较大时,可以将消息较多的商家提出单独通道即可,总结就是采用三种通道结合具体策略达到了应对实际情况的方案,归纳如图所示。

到家开放平台是如何保证消息顺序问题?因为平台具备自动重试能力,所以没有严格确保消息顺序,只是使用了MQ自身保证的顺序,平台对调用商家接口定义为仅消息通知,需要商家接到消息通知后反查到家接口,要求商家提供的消息接口具备排重能力。

消息系统的预警机制

核心的设计虽然解决了实际环境中的各种问题,但这主要解决了平台的风险,仍然面临的问题有:

1、接口出现了问题怎们能第一时间通知给商家,毕竟要求所有商家建立及时有效的报警也不太现实。

2、非ka商家共用通道还是有一些相互影响的风险。

3、知道了这些风险后,需要哪些工具来定位和处理问题呢。

这时一套及时有效便捷的报警机制显得尤为重要。毕竟早知道,早通知,早处理是解决系统风险的第一要务,越早预警越可以规避不必要的风险。

报警是建立在统计之上进行的,开放平台的统计流程如图。

任何商家任何消息出现连续失败达到一定阈值,就会发出报警,报警内容会以短信方式发送给商家负责人与开放平台研发,如下所示。

未有商家达到失败阈值,但是多位商家失败叠加导致JMQ报警,无法定位商家与接口时,我们有工具可以进行定位:按总失败的量定位风险最大的商家。商家统计节点可以点进入看商家下每个消息接口总失败次数。

知道某个商家某个接口导致的失败报警,经过与商家确认后,不能短时间修复,或者不再订阅的,可以快速禁用此消息(消息将会被丢弃)。

商家得知系统问题后,修复过程中没必要持续报警,还可以手动停止报警(消息仍然保持重试,只停止报警,避免短信费用浪费)。

动态消息发布的产生

从上面核心功能的概念图中可以看出,消息系统是需要订阅大量底层MQ消息的,首先咱们先看一下以前京东到家开放平台BMQ系统中是如何发布一个消息接口的。

同时也可以看下代码维护的情况,BMQ系统中有很多相似的java类,不利于代码的观赏与维护。

总结弊端如下:

1、接入新消息流程繁琐复杂

2、需要耗费最少1名研发的资源和时间

3、每次新消息接入都是重复工作

4、每次新消息接入都需系统上线

为了解决这些问题,开放平台引入动态配置的思路,开放平台的标准消息占大部分,标准消息是和非标准消息相对的一个概念,标准消息就是无论原有消息的内容是什么,最终转化成标准格式,推送内容的字段统一,业务含义标准化。可配置的内容包括简单的业务处理选择,字段映射关系,默认值处理,还有简单的逻辑。可配置的界面如图所示。

字段可配置细节如下图。

消息管理除了基本的增删改功能,还需要通知服务端动态订阅mq(包括停止),这样连listener都不用写了,如果一旦发现有线上问题,还可以做到及时回退版本达到回滚的目的,管理界面如下。

服务端实现动态订阅mq的核心代码如下。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
// ips字段为空为广播所有机器处理,不为空为指定某些机器执行
if (StringUtils.isEmpty(dynamicLoadingMessage.getIps()) || dynamicLoadingMessage.getIps().contains(IPUtil.getIp())) {
  // type=0需要加载的mq,非0需要卸载的mq
  if (dynamicLoadingMessage.getType() == 0) {
    openPlatformBMQEngine.getMessageConsumer().unsubscribe(dynamicLoadingMessage.getTopic());
    openPlatformBMQEngine.getMessageConsumer().subscribe(dynamicLoadingMessage.getTopic(), commonBMQListener);
    LOGGER.error("DynamicLoadingListener->onMessage->subscribe->dynamicLoadingMessage:{}", JsonUtils.toJson(dynamicLoadingMessage));
  } else {
    openPlatformBMQEngine.getMessageConsumer().unsubscribe(dynamicLoadingMessage.getTopic());
    LOGGER.error("DynamicLoadingListener->onMessage->unsubscribe->dynamicLoadingMessage:{}", JsonUtils.toJson(dynamicLoadingMessage));
  }
}

通过以上处理后,发布消息的流程如下。

总结下动态bmq的特点:

1、消息系统平台化

取消原有定制化接入流程,使用规则配置动态解析处理,实现平台化统一入口接入新消息。

2、接入低风险

规避原有定制化手工编写代码上线接入方式,基于规则配置完成消息动态化,动态发布消息从而有效避免开发上线过程中可能导致的风险,从而把风险降到最低。

3、提高接入效率

原有接入流程需要耗费约2个工作日的开发、测试和上线成本,新流程基于动态配置规避原有的开发、测试、上线流程,接入新消息时间缩短至1分钟,后期甚至可达到使非开发人员有能力自行接入。

总结

本篇着重介绍了BMQ系统是如何保证稳定性,易用性及简洁性,从实践的角度结合理论解决了诸多问题,不仅满足了当前系统的实际需要,也可以应对未来一段时间的业务增长需求。从理论的角度上看,平台还有很多不足,在未来的日子里我们也会持续结合实践进行优化。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 架构之家 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
京东京麦商家开放平台的消息推送架构演进之路
京麦实时消息推送是京东的京麦商家开放平台的核心组成部分。从消息源到消息中心再到触达用户,以及最终根据消息协议呼起操作页面,京麦实时消息推送是一个完整且健康的生态闭环。下面我会详细的介绍下京麦实时消息推送是如何在演变中不断完善的。
JackJiang
2018/08/29
2.2K1
京东京麦商家开放平台的消息推送架构演进之路
1、前言 京麦实时消息推送是京东的京麦商家开放平台的核心组成部分。从消息源到消息中心再到触达用户,以及最终根据消息协议呼起操作页面,京麦实时消息推送是一个完整且健康的生态闭环。下面我会详细的介绍下京
用户1263954
2018/06/22
7390
分布式开放消息系统(RocketMQ)的原理与实践
分布式消息系统作为实现分布式系统可扩展、可伸缩性的关键组件,需要具有高吞吐量、高可用等特点。而谈到消息系统的设计,就回避不了两个问题: 消息的顺序问题 消息的重复问题 RocketMQ作为阿里开源的一款高性能、高吞吐量的消息中间件,它是怎样来解决这两个问题的?RocketMQ 有哪些关键特性?其实现原理是怎样的? 关键特性以及其实现原理 一、顺序消息 消息有序指的是可以按照消息的发送顺序来消费。例如:一笔订单产生了 3 条消息,分别是订单创建、订单付款、订单完成。消费时,要按照顺序依次消费才有意义。与此同
Spark学习技巧
2018/06/22
2.3K0
库存系统难破题?且看京东到家如何破「建议收藏」
通过提供商家PC端、App端解决大部分中小商家的日常运营需求,另外提供开放平台满足大中型商家系统对接与数据共享互通的问题。
全栈程序员站长
2022/08/29
8410
库存系统难破题?且看京东到家如何破「建议收藏」
58到家通用实时消息平台架构细节(Qcon2016)
2016Qcon北京,业务核心架构场,《58到家通用实时消息平台架构细节》。 一、解决什么问题 + 难点 解决什么业务问题 (1)端到云的实时上报需求:58速运司机端GPS实时上报 (2)云到端的实时
架构师之路
2018/03/01
1.9K0
58到家通用实时消息平台架构细节(Qcon2016)
马蜂窝消息总线——面向业务的消息服务设计
蜂窝消息总线于 2017 年 11 月份上线,截至目前,已经被电商、酒店、大交通、社区等多个技术团队投入到生产环境的使用中。
Spark学习技巧
2019/11/28
1.8K0
揭秘企业微信如何优化满足ToB新挑战?
作者:潘唐磊 腾讯WXG开发工程师 导语| 本文主要总结了企业微信消息系统的架构与设计,阐述了toB业务带来的一些难点,面临哪些挑战,以及设计方案的对比与分析。同时总结了后台开发的一些常用手段,实用于消息系统,解决相关问题。 名词解释 seq:自增长的序列号,每条消息对应一个 ImUnion:消息互通系统,用于企业微信与微信的消息打通 控制消息:不可见消息,复用消息通道的一种可靠通知机制 应用类消息:系统应用下发的消息 api消息:第三方应用下发的消息 appinfo:每条消息对应的唯一strid,全局唯
腾讯大讲堂
2021/07/06
1.4K0
解密“达达-京东到家”的订单即时派发技术原理和实践
达达-京东到家作为优秀的即时配送物流平台,实现了多渠道的订单配送,包括外卖平台的餐饮订单、新零售的生鲜订单、知名商户的优质订单等。为了提升平台的用户粘性,我们需要兼顾商户和骑士的各自愿景:商户希望订单能够准时送达,骑士希望可以高效抢单。那么在合适的时候提升订单定制化的曝光率,是及时送物流平台的核心竞争力之一。
JackJiang
2018/09/04
1.8K1
ACP互联网架构认证笔记-MQ消息队列服务
MQ是消息服务中间件,基于高可用分布式集群技术,是消费模式基于发布订阅模式的消息系统。支持Java,C++以及.NET,PHP,Python,为分布式应用系统提供异步解耦、削峰填谷的能力,具备海量消息堆积、高吞吐、可靠重试等特性。具有消息查询,消息回溯(不是消息撤回,也不支持消息撤回),消息轨迹查询,堆积监控报警功能。 MQ协议支持接入方式 : TCP、HTTP(RESTful 风格)、MQTT。MQ支持公网访问,但可用性较低。 MQ应用场景 : 分布式事务,物联网应用,实时计算(将产生的数据实时流入到实时计算引擎来实现),同步大规模缓存。 实时计算引擎一般有 : Spark / Storm / EMR / ARMS / BeamRunner。 MQ拥有管理工具 : Web控制台,Open API,mqadmin命令集。拥有微消息队列(LMQ),RocketMQ消息队列,Kafka消息队列,跨域中继服务(CRS)等组件。 Web控制台提供消息查询、消息轨迹查询、重置消费位点、资源统计、监控报警等操作。消息查询有三种方式 :** 根据Message ID(精确查询),Message Key(模糊查询)以及Topic查询(范围查询),HTTP消息目前只支持Message ID和Topic两种查询方式。** 消息轨迹查询只支持TCP和HTTP协议,可追踪消息从生产者发出到消费者消费的整个链路中各个相关节点的时间地点。 重置消费位点可跳过堆积的消息,即不想消费这部分消息,或者只想消费某个时间点后的消息(这些消息不论之前是否消费过)。 资源报表可对消息发送和消息消费的数据进行统计,暂不支持HTTP消费数据的统计查询。 监控报警一般用在消息堆积数或者延迟时间超过阈值之后,对报警接收人发送短信,如果发现消息堆积很多,可检查阈值是否设置过小导致消息堆积,可调整业务代码或者对消费者进行扩容,可使用jstack查看是否消费线程阻塞。 微消息队列(LMQ)基于MQTT(Message Queuing Telemetry Transport 消息队列遥测传输)协议,标准协议端口为1883,支持加密SSL,WebSocket,Flash接入方式。协议重要部分主要分为 : MQ Core Service(负责底层的消息存储和分发),MQ私有协议服务器以及MQTT协议网关服务器(负责对客户端提供服务和协议转换)。主要使用场景有 : 直播互动、车联网、金融支付、即时聊天等。协议相关 : QoS(Quality of Service)指代消息传输的服务质量。它包括QoS0(最多分发一次)、QoS1(至少达到一次)和QoS2(仅分发一次)三种级别。cleanSession标识客户端建立TCP连接后是否关心之前状态(true or false)。 MQTT可进行实例管理(查看消息收发TPS、同时在线连接数、订阅关系数等信息,可设置实例报警),可申请MQTT Topic,可为Topic申请MQTT Group ID(一组逻辑功能完全一致的节点共用的组名,代表一类相同功能的设备,必须拥有Topic的读写权限)。可进行签名计算和签名生成。 MQTT可获取离线消息,可主动拉取离线消息,客户端每次拉取消息数量最多为30条,拉取请求的最大频率限制为5次/秒。离线消息优先级低,对其进行有限和最终能处理即可,要求比较实时。 MQTT可获取客户端上下线事件(上下线事件触发时,会向后端MQ推送一条上下线消息,通过订阅这条消息获取),上下线事件类型一般放在MQ的Tag中,有三种状态 : connect(客户端上线),disconnect(客户端主动断开连接),tcpclean(实际的TCP连接断开)。tcpclean代表客户端网络层连接的真实断开,判断客户端下线请使用tcpclean事件。 MQTT通过Token鉴权服务向客户端提供访问权限。客户端需要采用MQTT控制报文以同步发送模式并且QoS必须为1,来上传Token。客户端应该对Token做好持久化,监听Proxy下推的Token失效的通知消息,Token失效必须重新申请。 LMQ的Topic,ClientId长度最大为64个字符,消息大小最大为64K,消息保存时间最长为3天,单个客户端订阅Topic数量最大为30个(超过该限制数量的Topic会被丢弃),消息顺序性为上行顺序。 跨域中继服务(CRS,跨域哦,实现服务发布与订阅,实现不同网络的服务互通)提供三种MQ消息发送方式 :可靠同步发送(发出消息响应后才能发下一个消息,应用场景广,如重要通知邮件、报名短信通知、营销短信系统),可靠异步发送(不需要等待响应即可发下一个消息,应用场景一般是耗时长,对RT响应敏感的业务,如视频上传后通知转码服务,转码后通知推送转码结果),One Way(单向发送,不需要响应的方式,耗时超短,对可靠性要求不高的场
freesan44
2018/11/07
1.6K0
分布式消息系统,设计要点。画龙画虎难画骨
分布式缓存方面,redis勇夺花魁。但对于消息队列mq来说,还处于百花齐放的年代。
xjjdog
2019/09/09
7070
分布式消息系统,设计要点。画龙画虎难画骨
消息中间件
https://www.open-open.com/lib/view/open1421150566328.html
Yano_nankai
2021/01/26
1.1K0
消息中间件
历经8年双11流量洗礼,淘宝开放平台如何攻克技术难关?
淘宝开放平台(open.taobao.com)是阿里系统与外部系统通讯的最重要平台,每天承载百亿级的API调用,百亿级的消息推送,十亿级的数据同步,经历了8年双11成倍流量增长的洗礼。本文将为您揭开淘宝开放平台的高性能API网关、高可靠消息服务、零漏单数据同步的技术内幕。
Java高级架构
2018/08/03
3.3K0
历经8年双11流量洗礼,淘宝开放平台如何攻克技术难关?
DDIA:消息系统——生产者和消费者的游戏?
在第十章的时候,我们讨论了批处理——它总是读取一些文件作为输入,产生一些新文件作为输出。这里的输出就是一种“衍生数据”:即,如果有需要,我们可以通过再跑一遍批处理任务获取相同的结果集。从之前章节的讨论我们可以看出,这种思想简单却强大:像搜索引擎、推荐系统、分析系统等很多现代常见的数据系统都是基于这种思想构建的。
木鸟杂记
2024/03/22
1880
DDIA:消息系统——生产者和消费者的游戏?
美团配送实时特征平台建设实践
导读:2019年5月,美团正式推出新品牌「美团配送」,升级配送开放平台。那你知道支撑美团配送大脑的实时特征平台是如何建设的吗?如何实现每分钟生产千万级的实时特征?如何在70w+QPS的场景下实现4个9响应耗时在50毫秒的需求?本文将为大家介绍配送实时特征平台的发展历程,关键技术和实践经验。
Houye
2021/01/27
1.4K0
美团配送实时特征平台建设实践
【进阶之路】消息队列——原理及选型(一)
.markdown-body{word-break:break-word;line-height:1.75;font-weight:400;font-size:15px;overflow-x:hidden;color:#333}.markdown-body h1,.markdown-body h2,.markdown-body h3,.markdown-body h4,.markdown-body h5,.markdown-body h6{line-height:1.5;margin-top:35px;margin-bottom:10px;padding-bottom:5px}.markdown-body h1{font-size:30px;margin-bottom:5px}.markdown-body h2{padding-bottom:12px;font-size:24px;border-bottom:1px solid #ececec}.markdown-body h3{font-size:18px;padding-bottom:0}.markdown-body h4{font-size:16px}.markdown-body h5{font-size:15px}.markdown-body h6{margin-top:5px}.markdown-body p{line-height:inherit;margin-top:22px;margin-bottom:22px}.markdown-body img{max-width:100%}.markdown-body hr{border:none;border-top:1px solid #ddd;margin-top:32px;margin-bottom:32px}.markdown-body code{word-break:break-word;border-radius:2px;overflow-x:auto;background-color:#fff5f5;color:#ff502c;font-size:.87em;padding:.065em .4em}.markdown-body code,.markdown-body pre{font-family:Menlo,Monaco,Consolas,Courier New,monospace}.markdown-body pre{overflow:auto;position:relative;line-height:1.75}.markdown-body pre>code{font-size:12px;padding:15px 12px;margin:0;word-break:normal;display:block;overflow-x:auto;color:#333;background:#f8f8f8}.markdown-body a{text-decoration:none;color:#0269c8;border-bottom:1px solid #d1e9ff}.markdown-body a:active,.markdown-body a:hover{color:#275b8c}.markdown-body table{display:inline-block!important;font-size:12px;width:auto;max-width:100%;overflow:auto;border:1px solid #f6f6f6}.markdown-body thead{background:#f6f6f6;color:#000;text-align:left}.markdown-body tr:nth-child(2n){background-color:#fcfcfc}.markdown-body td,.markdown-body th{padding:12px 7px;line-height:24px}.markdown-body td{min-width:120px}.markdown-body blockquote{color:#666;padding:1px 23px;margin:22px 0;border-left:4px solid #cbcbcb;background-color:#f8f8f8}.markdown-body blockquote:after{display:block;content:""}.markdown-body blockquote>p{margin:10px 0}.markdown-body ol,.markdown-body ul{padding-left:28px}.markdown-body ol li,.markdown-body
南橘
2021/04/02
7390
【进阶之路】消息队列——原理及选型(一)
拍拍贷消息系统原理与应用
在5月12日的Java开发者大会上,除了我本人进行分享之外,还有其他5位优秀的老师也有精彩的分享。
猿天地
2019/05/23
7510
30分钟带你了解「消息中间件」Kafka、RocketMQ
https://www.open-open.com/lib/view/open1421150566328.html
Yano_nankai
2021/02/01
5670
30分钟带你了解「消息中间件」Kafka、RocketMQ
Message Queue消息队列基本原理
如果需要和新的系统建立通信或删除已建立的通信,都需要修改代码,这种方案显然耦合度很高。
Java宝典
2021/01/14
3.3K0
Message Queue消息队列基本原理
我的第6个京东618
今年是我的第6个618,因为入职的时间比较"合适",使得我经历了每年两次完整的大促备战。那年还在北辰,618的当晚,我记忆的很清晰,接近凌晨1点左右的时候,我们聚集在楼道里面,大家举杯相庆,来祝贺刚刚平稳度过的大促。从此这样的场景在每年的这个时候都会经历一次,激动一次。每一次大促备战都是一场全兵演练,我们在这个战斗过程中,团队合作、技术实战、用户意识上都有一个立体的提升。站在每年的这一刻往前看,一路走过来的却是好些个不平凡的白天和夜晚。正如我们国家的乒乓球队在每次国际比赛中都有一个完美的结局,但过程从来不缺乏紧张、风险和刺激。
王新栋
2019/06/24
6390
美团终端消息投递服务Pike的演进之路
Pike 2.0致力于为美团提供一套易接入、高可靠、高性能的双向消息投递服务。本文首先从系统架构升级、工作模式升级、长稳保活机制升级等方面介绍了Pike 2.0的技术演进,然后介绍了Pike 2.0在直播、游戏等新业务场景下的特性支持。希望本文能给对消息投递服务感兴趣或者从事相关工作的读者一些帮助和启发。
美团技术团队
2021/07/30
8960
推荐阅读
相关推荐
京东京麦商家开放平台的消息推送架构演进之路
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验