首页
学习
活动
专区
圈层
工具
发布

从Lambda到无Lambda,领英吸取到的教训

LinkedIn 高级会员有一个功能,就是可以查看谁浏览过你的个人资料 (Who Viewed Your Profile,WVYP),这个功能曾在一段时间内采用了 Lambda 架构。...其次,在 LinkedIn 部署和维护 Samza 作业非常简单,因为它们运行在由 Samza 团队维护的 YARN 集群上。...最后,Samza 与 LinkedIn 的其他工具和环境进行了很好的集成。 新的离线作业 有些人可能会问,为什么我们仍然在无 Lambda 架构使用离线作业。...消息处理变成非幂等的。WVYP 在状态方面依赖在线服务,在消息被处理时需要向会员发送通知 (但我们不想发送重复的通知)。...如果出现重大的处理错误,或者 Samza 作业处理大量事件失败,我们可以将当前的处理偏移量倒回到前一个位置。 如果作业只在某段时间内降级,例如视图相关性的计算失败,我们将跳过某些视图。

80720

LinkedIn 使用 Apache Beam 统一流和批处理

最初,刷新数据集的作业“回填(backfilling)”是作为一组流处理作业运行的,但随着作业变得越来越复杂,就会出现越来越多的问题,LinkedIn 的一篇多作者博客文章在周四发布时解释说。...在流水线中还使用更高级的 AI 模型,将复杂数据(工作类型和工作经验)连接起来,以标准化数据以供进一步使用。...标准化需要使用两种方法进行数据处理:实时计算以反映即时更新和定期回填以在引入新模型时刷新数据。...即使在使用相同源代码的情况下,批处理和流处理作业接受不同的输入并返回不同的输出,即使在使用 Beam 时也是如此。...LinkedIn 高级软件工程师 Yuhong Cheng 是 LinkedIn 帖子的主要作者,Yuhong Cheng、Shangjin Zhang、Xinyu Liu 和 Yi Pan 是共同作者

69010
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    领英通过实施消息客户端 SDK,将开发效率提高了 10 倍

    作者 | Eran Stiller 译者 | 马可薇 策划 | 丁晓昀 领英在近期发布的文章《如何通过消息客户端 SDK 大幅提升开发效率》中称,通过使用 SDK 抽象数千行代码至共享库,他们得以削减跨多平台应用的代码维护成本...在一个用例场景下,新 SDK 在构建全新领英体验时可以节省四十余名开发者数周的劳动。...与其将应用当作独立个体,组织可以在可重复使用的平台库之上,建立轻薄的应用层,按需暴露各类技术支柱的高级能力乃至用户界面。 领英在 2020 年年中完成了其消息体验的重构。...该 API 库实现了对外部系统消息传递数据的错误检查,并暴露了一个 GraphQL 模式,其中包含每个平台中客户 SDK 库用于获取信息的查询。...这种架构方式允许主机 API 代码对每个 API 请求生命周期中,后端消息平台传至前端的消息数据进行自定义转换。

    96420

    基于社交工程评论注入的LinkedIn钓鱼攻击机制与防御策略研究

    攻击者利用自动化工具,在大量用户的公开帖子下方发布统一的欺诈性评论,内容通常涉及“您的账户因违反社区准则已被限制”、“检测到异常登录活动,请立即验证”等紧急警告,并附带看似官方的短链接。...攻击者并非手动操作,而是依托成熟的自动化框架与黑产工具链,实现了从目标筛选、内容生成到评论发布的全流程自动化。2.1 自动化脚本与API滥用攻击的核心在于自动化脚本的高效执行。...部分高级攻击者甚至搭建自己的重定向服务器,首次访问时显示正常页面以通过安全沙箱检测,第二次访问或针对特定IP段才跳转至钓鱼页面(Cloaking技术)。...攻击者将恶意信息包裹在系统通知的外衣下,成功劫持了用户的注意力焦点,使其在进入页面之前就已经处于高度警觉但方向错误的心理状态(关注账户安全而非链接真伪)。...例如,当检测到评论中包含外部链接时,自动在链接旁添加醒目的“外部链接”警示标签;对于包含“账户受限”等敏感词的评论,系统应强制插入一条官方置顶回复:“LinkedIn官方不会通过评论区通知账户安全问题,

    13610

    OriginBot的家庭识别功能

    通过将ROS图像转换为OpenCV格式,我们能够在图像上准确地标出人脸位置,并在检测到人脸时进行标记。 人脸识别则是确定图像中人脸身份的高级技术。我选择了阿里云视觉智能开放平台。...,可能在某些情况下无法检测到人脸或者产生误检。...对数据质量敏感:如果训练数据中有错误的标签,可能会对训练结果造成影响。 把这样一个比较大的算法直接部署在OriginBot上运行起来效果估计不会很好,毕竟需要的算力很大。...以下是阿里云视觉智能开放平台的一些主要特点和功能: 丰富的API接口:平台提供了丰富的API接口,涵盖了图像识别、视频分析、图像搜索等多个领域。用户可以根据自己的需求选择合适的接口进行调用。...阿里云官方有API调试台,可以在页面上直接调试,自动生成代码,最终的代码如下: … 全文发布在古月居, 请移步阅读~

    63310

    LinkedIn 互联网架构扩展简史

    随着网站的发展,更多的定制管道出现了。随着站点需要扩展,每个单独的管道也需要扩展。必须付出一些东西。结果是我们的分布式发布-订阅消息平台Kafka的开发。...Kafka 成为一个通用管道,围绕提交日志的概念构建,并且在构建时考虑了速度和可扩展性。...近代 当我们从 Leo 转型为面向服务的架构时,我们提取的 API 假设是基于 Java 的 RPC,跨团队不一致,与表示层紧密耦合,而且情况只会变得更糟。...我们的许多数据库都在Espresso(一种新的内部多租户数据存储)上运行。Espresso 在构建时就考虑到了多数据中心。它提供主/主支持并处理许多困难的复制。...最后,我们通过优化硬件、高级内存和系统调整以及利用更新的 Java 运行时,继续提高服务器的性能。 下一步是什么 LinkedIn 继续快速发展,我们仍有大量工作可以改进。

    44400

    实时流处理Storm、Spark Streaming、Samza、Flink对比

    声明式API经常也提供更多高级的操作(比如,窗口函数或者状态管理)。后面很快会给出样例代码。...Spark Streaming提供高级声明式API(支持Scala,Java和Python)。...因为线上许多作业都是7 x 24小时运行,不断有输入的数据。流处理系统面临的另外一个挑战是状态一致性,因为重启后会出现重复数据,并且不是所有的状态操作是幂等的。...消息的偏移量会被checkpoint到持久化存储中,并在失败时恢复。但是问题在于:从上次checkpoint中修复偏移量时并不知道上游消息已经被处理过,这就会造成重复。...现在可以通过Dataflow的API来定义Google云平台作业、Flink作业或者Spark作业,后续会增加对其它引擎的支持。

    2.7K50

    【学习】深度解析LinkedIn大数据平台(二):数据集成

    我发现“发布订阅”并不比间接寻址的消息具有更多的含义——如果你比较任何两个发布—订阅的消息传递系统的话,你会发现他们承诺的是完全不同的东西,而且大多数模型在这一领域都不是有用的。...糟糕的是,在任何时间任意管道都有一个问题,Hadoop系统很大程度上是无用的——在错误的数据基础上运行奇特的算法,只会产生更多的错误数据。...这种经历使得我关注创建Kafka来关联我们在消息系统所见的与数据库和分布式系统内核所发布的日志。...在向目标系统加载数据时,做为加载过程的一部分进行。 理想的模形是:由数据的生产者在把数据发布到日志之前对数据进行清理。...在LinkedIn,我们现在每天通过Kafka运行着超过600亿个不同的消息写入点(如果统计镜相与数据中心之间的写入,那么这个数字会是数千亿)。

    1.1K70

    Kubernetes 1.35 更新,正在变成另一种系统?AI Workload 只是开始!

    如果在主机上检测到 cgroups v1,并且检测到的目标 kubelet 版本为 1.35 或更高版本,则会抛出预检错误。...调度可能错误地将 Pod 调度到不兼容的节点。...PodGroup,确保一组 Pods 同时调度成功或全部失败,适合 AI/ML 大规模计算作业调度 扩展容忍算子 允许基于 SLA/可靠性 taints 实现阈值比较,增强调度表达能力 Job 在挂起状态下可变资源...cgroups 验证器,在检测到 cgroups v1 时将报错而不是警告,建议迁移至 cgroups v2 (Gist[3]) • kube-proxy IPVS 模式进入废弃阶段: IPVS 模式已被标记为...kubeadm 将开始验证主机上的 containerd 版本。若检测到已安装容器运行时不满足即将到来的需求,则会在预检时抛出警告提示用户尽快进行升级。

    13910

    全球网络钓鱼动态简报(2026年2月)

    攻击者利用LinkedIn的私信功能(InMail),针对特定的高价值目标(如企业高管、HR和IT管理员)发送包含恶意链接的消息。...Vodafone调查显示:员工钓鱼漏洞仍是企业主要威胁Vodafone Business发布的最新调查报告显示,尽管网络安全意识有所提升,但员工在面对网络钓鱼攻击时的脆弱性仍然是英国企业面临的主要威胁之一...尽管检方已确认了资金的非法性质并试图冻结和没收涉案的加密货币,但法院最终裁定,由于证据链存在瑕疵以及对数字资产没收的法律依据不足,驳回了检方的没收请求。...Trellix报告:高级“浏览器内浏览器”攻击瞄准Facebook用户网络安全公司Trellix于2026年1月12日发布警告,揭示了一场针对Facebook用户的高级网络钓鱼活动,该活动利用了“浏览器内浏览器...Barracuda揭示现代网络钓鱼工具包的高级规避技术Barracuda安全研究人员于2026年1月8日发布报告,详细剖析了现代网络钓鱼工具包(Phishing Kits)中集成的多种高级检测规避技术。

    13310

    Apache Kafka:下一代分布式消息系统

    最重要的是,当面对这些分布式计算的难题,例如网络失败、带宽限制、可变延迟连接、安全问题以及任何网络环境,甚至跨多个数据中心时可能发生的错误时,你如何可靠地做这些事。...ActiveMQ和RabbitMQ两个容器中的代理必须维护每个消息的传输状态。LinkedIn团队注意到其中一个ActiveMQ线程在测试过程中,一直在将KahaDB页写入磁盘。...应用包括一个生产者示例(简单的生产者代码,演示Kafka生产者API用法并发布特定话题的消息),消费者示例(简单的消费者代码,用于演示Kafka消费者API的用法)以及消息内容生成API(在特定路径下生成消息内容到文件的...上面的代码片断展示了Kafka生产者API的基本用法,例如设置生产者的属性,包括发布哪个话题的消息,可以使用哪个序列化类以及代理的相关信息。...上面的代码演示了基本的消费者API。正如我们前面提到的,消费者需要设置消费的消息流。在Run方法中,我们进行了设置,并在控制台打印收到的消息。在我的项目中,我们将其输入到解析系统以提取OTC定价。

    1.8K10

    Pinterest 开源通用 PubSub 客户端库 PSC

    这种方式可以防止像原生客户端那样出现因使用无效主机 / 端口组合、错误的 SSL 配置选项和凭据、区域等导致的错误。...迁移所面临的主要挑战是确保新迁移的作业可以从 Flink 检查点文件中恢复其作业状态。...PubSub 客户端提供了与原生客户端 100% 相同的 API,Pinterest 因此可以将 90% 以上的 Java 应用程序迁移到 PSC,对代码库所作的更改非常小。...PSC 对 Flink 作业重启的影响(来源:Pinterest 工程博客) Pinterest 计划进一步在 PSC 中引入增强功能,包括自动处理更多可修复的错误,例如检测和刷新即将过期的 SSL 证书...Aaron Lee 在回应 LinkedIn 的一个帖子 时写道: 一个统一的设计良好的客户端对于这样一个核心基础设施的影响是如此之大。我看到这给其他大型工程团队带来了很多价值。

    35210

    图扑数字孪生智慧机场,助推民航四型机场建设

    图扑软件基于跑道、滑行道、机坪、联络道内布设的传感装置,将监测到的飞机基本信息、飞行状态、跑道位置等参数展现在面板中,实现了道面沉降精准监测、道面安全情况感知等多元跑道智能化服务,也避免了因错误的评判跑道状态还会导致飞机落地后冲出跑道的事故重演...工作人员可根据监测到的风力、积水、降雪等关键指标及覆盖面积进行综合性评判分析。当面临气象灾害时,平台可以及时发出预警告警,及时输出应急措施,实现工作人员对气象数据的全面掌握和及时响应。...在图扑智慧机场人体安检扫描环节,沿用先进的“毫米波人体三维成像安检仪”,摒弃了传统的以“金属探测门+手检”的方式,能够在不直接接触人体的情况下,高效监测出在衣物覆盖下藏匿于人体各部位的物品,尤其是针对非金属物品...当通行信息异常时,可视化大屏将迅速发出预警信息,同步给运维人员,并定位至现场,同时为边检人员提供可用的“空闲中”自助通道方案。全面优化边检通道的服务水平,大幅度提升旅客服务体验。...当监测到危险情境时,平台将通过感知、识别、定位追踪事发源头。

    2.4K20

    超文本传输协议 HTTP

    一旦收到请求,服务器会向客户端返回一个状态,比如”HTTP/1.1 200 OK”,以及返回的内容,如请求的文件、错误消息、或者其它信息 版本 HTTP/0.9 HTTP/1.0 HTTP/1.1 HTTP...请求含有词法错误或者无法被执行 5xx:服务器错误——服务器在处理某个正确请求时发生错误 ---- http1.0和http1.1的区别 缓存处理:增加缓存头来控制缓存策略。...带宽优化及网络连接的使用:支持断点续传以及部分请求 错误通知的管理:新增多个错误状态码 互联网地址的维护:HTTP1.1的请求消息和响应消息都应支持Host头域 长连接:一个tcp可用于多个http -...服务器确认允许之后,才发起实际的HTTP请求。在预检请求的返回中,服务器端也可以通知客户端,是否需要携带身份凭证(包括 Cookies 和 HTTP 认证相关数据)。...(预检请求一般是浏览器检测到请求跨域之后自动发起的,预检请求报文中的 Access-Control-Request-Method 首部字段告知服务器实际请求所使用的 HTTP 方法;Access-Control-Request-Headers

    1.3K10

    DataHub——实时数据治理平台

    LinkedIn开源的Kafka直接影响了整个实时计算领域的发展,而LinkedIn的数据团队也一直在探索数据治理的问题,不断努力扩展其基础架构,以满足不断增长的大数据生态系统的需求。...自2016年首次发布WhereHows以来,业界对通过使用元数据提高数据科学家的生产力的兴趣日益浓厚。...让各个元数据提供者通过API或消息将信息推送到中央存储库具有更大的可伸缩性。这种基于推送的方法还可以确保更及时地反映新的和更新的元数据。...一般胜于特定:关于数据集或工作的元数据有着固定的API,数据模型和存储格式。对元数据模型进行小的更改将导致在堆栈上下进行一系列更改。...DataHub的API基于Rest.li,这是一种可扩展的,强类型的RESTful服务架构,已在LinkedIn上广泛使用。

    8K20

    大数据学习资源汇总

    :开源图形数据库; Google Pregel :图形处理框架; GraphLab PowerGraph:核心C ++ GraphLab API和建立在GraphLab API之上的高性能机器学习和数据挖掘工具包的集合...开源流处理软件系统; HIHO:用Hadoop连接不同数据源的框架; Kestrel:分布式消息队列系统; LinkedIn Databus:对数据库更改捕获的事件流; LinkedIn Kamikaze...Chubby:一种松耦合分布式系统锁服务; Linkedin Norbert:集群管理器; OpenMPI:消息传递框架; Serf:服务发现和协调的分散化解决方案; Spotify Luigi...分布式容错调度; Linkedin Azkaban:批处理工作流作业调度; Schedoscope:Hadoop作业敏捷调度的Scala DSL; Sparrow:调度平台; Airflow:一个以编程方式编写...; Hermes:建于Kafka上的异步消息代理; HIPI Library:在Hadoop's MapReduce上执行图像处理任务的API; Hunk:Hadoop的Splunk分析; Imhotep

    2.5K110

    首席工程师揭秘:LinkedIn大数据后台是如何运作的

    我发现“发布订阅”并不比间接寻址的消息具有更多的含义——如果你比较任何两个发布-订阅的消息传递系统的话,你会发现他们承诺的是完全不同的东西,而且大多数模型在这一领域都不是有用的。...这种经历使得我关注创建Kafka来关联我们在消息系统所见的与数据库和分布式系统内核所发布的日志。...在向目标系统加载数据时,做为加载过程的一部分进行。 理想的模形是:由数据的生产者在把数据发布到日志之前对数据进行清理。...需要聚合这些视图,视图将用于作业发布者的分析页面显示。 需要记录视图以确保我们为作业推荐的使用者提供了恰当的印象覆盖,我们不想一次次的重复同样的事情。...在LinkedIn, 我们现在每天通过Kafka运行着超过600亿个不同的消息写入点(如果统计镜相与数据中心之间的写入,那么这个数字会是数千亿。)

    60530

    浅析视频技术与AI智能识别技术在智慧矿山场景中的应用

    通过安装在作业现场的各类监控装置,构建智能监控和防范体系,能有效弥补传统方法和技术在监管中的缺陷,实现对人、机、物、料、法、环的全方位实时监控,助力采矿企业实现精细化开采、安全化生产、智慧化管理。...;安全服识别:当算法检测到货车区域上有人时,自动识别是否穿着手套,如未检测到手套,系统会自动发出告警;玩手机识别:当算法检测到有人玩手机时会自动识别并发出告警,不允许作业区域内有人员玩手机;区域入侵识别...:当有货车从门口倒车进入车间时,识别货车停车区域内是否有人员,当检测到人员时,系统会自动识别并发出告警;安全帽识别:对矿区进出人员进行安全监管,防止有未戴安全帽进入生产线现场的情况;烟火识别:对监控区域进行实时烟火识别分析...,当检测域出现火焰或者烟雾时,主动触发报警,并进行声光提示,通知相关管理人员及时处理;睡岗离岗检测:对在岗执勤人员活动进行检测,当有人员离岗超出规定时间或者在相关岗位睡觉时触发告警;矿车违规载人检测:对矿洞里运行的矿车实时监测...三、总结平台具有强大的数据接入、处理及分发能力,兼容性强、开放度高,轻松部署,功能可灵活拓展,轻松与第三方集成,满足更高级的业务需求,降低矿井建设投资,实现矿区最优化管控。

    82000
    领券