前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据之日志采集点滴

大数据之日志采集点滴

作者头像
希望的田野
发布2021-02-02 09:39:00
6240
发布2021-02-02 09:39:00
举报
文章被收录于专栏:信息化漫谈

人生有两条线,工作、生活,找到自己的兴趣,乐在其中。

最近经常在与客户不断交流,每次碰撞总会感觉到火花,例如:某国企信息化用了近20款公有云服务、近20款业务系统的数据库用了同一个物理库、公有云的产品稳定性得到了进一步认可、客户对信息化建设的务实。细细地品味、仔细地思考,今天我们来看一下越来越流行的日志服务在数据中的作用。

一 为什么采集日志

提到大数据,第一步总是数据的采集,有了原始数据,才有接下来的存储、处理、分析、应用、展示。

数据采集,有两个难点,一是如何采集到数据(技术问题),二是非本公司的数据如何能拿到(政策问题)。

政策问题更多是靠双方的平等交换,为数据提供方带来利益,这个问题相比技术问题更难有效持久解决。我们今天重点讨论如何采集数据这个技术问题。

二 如何采集日志数据

采集数据一般来讲,有两种技术方式。一种是直接对已入库的数据库中直接抽取数据,另一种是数据需要自己去从用户的使用行为中采集。我们重点讲第二种,如何采集行为数据。

如Html的网页、H5的手机页面,WWW服务器会自动将访问网页的行为检测探针与真实网页内容一起返回给客户的PC、手机。

当行为检测探针的JavaScript代码为有效触发时,将日志数据源源不断地送给公有云中的日志服务。日志服务原则上不作业务处理,仅进行简单日志保存。

为提升日志的真实有效性,日志服务可以提供一些增值服务,例如非法日志的恶意攻击,实现较复杂。

对于手机端的APP程序,一般会将探针内嵌到SDK中,将日志进行汇聚后再送到日志服务。

客户端上传一般采用http的POST方式进行上传,放到当天的access_log文件中。

三 日志服务分流处理

大家一定会联系到,日志服务器的压力很大,成千上万的客户端都会向日志服务中送数据,如何解决,我们再继续分析。

一方面,我们可以进行分流处理,将关键、非关键的日志送入不同的日志服务器。

另一方面,对同种类的日志可以通过Hash等方式选择日志服务器,尽量让更多的日志服务分担任务。

对于在高峰期的日志上报请求,我们也可以用于将非关键日志限流,先本地客户端存储,低谷期再上传的处理方案。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 信息化漫谈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档