开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

python解析web访问日志

解析Web访问日志是一项常见的任务，可以帮助你了解网站的流量情况、用户行为、错误模式等。在Python中，你可以使用标准库中的模块，如re（正则表达式）来解析日志文件。此外，使用如pandas这样的库可以帮助你更容易地分析数据。

示例：解析Apache/Nginx日志

假设你有一个标准的Apache或Nginx访问日志，其格式通常如下：

127.0.0.1 - - [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326

这里是一个简单的Python脚本，使用正则表达式来解析这种格式的日志：

import re

# 定义日志文件的路径
log_file_path = 'path_to_your_log_file.log'

# 正则表达式匹配日志行的模式
log_pattern = re.compile(
    r'(?P<ip>\d+\.\d+\.\d+\.\d+) - - '
    r'\[(?P<datetime>[^\]]+)\] '
    r'"(?P<method>\w+) (?P<path>[^\s]+) (?P<protocol>[^"]+)" '
    r'(?P<status>\d+) (?P<size>\d+)'
)

# 解析日志文件
def parse_log_file(path):
    with open(path, 'r') as file:
        for line in file:
            match = log_pattern.match(line)
            if match:
                data = match.groupdict()
                print(data)

# 调用函数
parse_log_file(log_file_path)

使用Pandas进行分析

如果你想进行更复杂的分析，比如计算每小时的访问量、统计最常访问的页面等，使用pandas库会更方便：

import pandas as pd
import re

# 正则表达式匹配日志行的模式
log_pattern = re.compile(
    r'(?P<ip>\d+\.\d+\.\d+\.\d+) - - '
    r'\[(?P<datetime>[^\]]+)\] '
    r'"(?P<method>\w+) (?P<path>[^\s]+) (?P<protocol>[^"]+)" '
    r'(?P<status>\d+) (?P<size>\d+)'
)

# 解析日志文件并返回DataFrame
def parse_log_to_df(path):
    records = []
    with open(path, 'r') as file:
        for line in file:
            match = log_pattern.match(line)
            if match:
                records.append(match.groupdict())
    return pd.DataFrame(records)

# 转换日期时间格式并设置为索引
def process_data(df):
    df['datetime'] = pd.to_datetime(df['datetime'], format='%d/%b/%Y:%H:%M:%S %z')
    df.set_index('datetime', inplace=True)
    return df

# 读取日志文件
log_df = parse_log_to_df(log_file_path)

# 处理数据
log_df = process_data(log_df)

# 示例分析：计算每小时的访问量
hourly_traffic = log_df.resample('H').size()
print(hourly_traffic)

# 示例分析：统计状态码的出现次数
status_counts = log_df['status'].value_counts()
print(status_counts)

注意事项

确保日志文件的格式与你的正则表达式匹配。不同的服务器配置可能会导致日志格式有所不同。
在处理大型日志文件时，考虑性能和内存使用，可能需要采取分批处理或使用更高效的数据处理方法。
保护用户隐私和数据安全，确保合规处理日志数据。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

python日志解析

Python字典的setdefault()方法 setdefault(key[, default]) If key is in the dictionary, return its value....'b' >>>字典 { 'key0' ： 'b' ， 'key' ： 'a' } 日志分析利用字典分析apache访问日志的脚本，以提取IP地址，字节数和状态＃！.../ usr / bin / env python “” 用法： apache_log.py some_log_file 该脚本使用一个命令行参数：要解析的日志文件的名称，然后解析lof文件并生成一个报告...split_line [ 9 ]} def generate_log_report（logfile）： report_dict = {} 对于行中的日志文件...infile = open（infile_name，'r' ）除了 ValueError：打印“您必须指定要解析的有效文件

5243 0

python分析nginx访问日志

Web服务器的各种系统管理工作包括了多Nginx/Apache 日志的统计，python使这个任务变得极其简单，下面分享两个小脚本。...下面是在服务器的日志中统计这种现象的代码： #!...此脚本的代码能帮你从服务器日志中获取这种信息。此脚本的代码利用循环，每次读取日志文件中的一行，这也是读取文件的常用方式。...二、检查Nginx的访问日志，统计基于每个独立IP地址的点击率检查Nginx的日志文件，统计基于每个独立IP地址的点击率，代码如下： #!...182.118.25.232': 1, '182.118.25.231': 2, '182.118.20.186': 1, '174.129.228.67': 20} 此脚本返回的是一个字典，其中包含了访问

1K2 0

web服务器nginx的访问日志分析

前言 nginx是比较常用的web服务器器，网站架设成功后，某天访问量激增。将日志文件下载下来，分析访问来源等情况。记录分析过程。...61.151.164.63; set_real_ip_from 127.0.0.1; real_ip_header X-Forwarded-For; real_ip_recursive on; 手动分析提取日志...goaccess.conf log-format %h %^[%d:%t %^] "%r" %s %b "%R" "%u" date-format %d/%b/%Y time-format %H:%M:%S 分析日志...goaccess -f /tmp/n.log -p /etc/goaccess/goaccess.conf 分析日志并生成html文件 goaccess -f /tmp/n.log -p /etc.../goaccess/goaccess.conf -o /opt/project/myblog/app/typecho/log.html 通过浏览器访问查看 https://itbunan.xyz/

7941 0

Web攻防作业 | 越权访问漏洞全解析

文章来源 | MS08067 Web高级攻防第3期作业本文作者：xiaobai05050505 越权访问漏洞一、越权漏洞概述 1、概述通常情况下，一个 Web 程序功能流程是登录 - 提交请求...二、越权漏洞发现思路：①、使用已登陆账户访问页面的URL让未登录用户直接访问，根据是否能访问判断是否由未授权访问 ②、使用普通账户标识信息去替换管理员账户标识，根据是否能进行访问判断是否有垂直越权漏洞...www.metinfo.cn/upload/file/update/MetInfox.x.x.zip(将x.x.x改成对应版本即可) 源码：MetInfo4.0.zip ②、使用phpstudy搭建该网站 ③、web...login/login.php 2、seacmsV7.0越权漏洞复现 ①、下载metinfoV4.0CMS源码进行网站搭建源码：seacms7.0.rar ②、使用phpstudy搭建该网站 ③、web...影响版本：小于 1.7.0 以及小于 2.1.1 原理： Erlang和JavaScript，对JSON解析方式的不同，对于重复的键Erlang会存储两个值，而JavaScript只存储第二个值。

2.4K2 0

今晚九点|可视化分析 web 访问日志

擅长于 Web 安全开发、性能优化、分布式应用开发&设计等多方面，51Reboot 金牌讲师。...', 'javascript', 'java', 'python', 'matlab', 'python', 'go', 'java'] ?...os.rmdir/os.unlink/os.listdir - os.path.join/os.path.abspath/os.path.dirname/os.path.exists argparse 命令行参数解析...访问日志 Web 访问日志是 web 服务器记录的网站被访问的过程日志日志属性 -什么时候 -什么人 -通过什么工具 -以什么方式 -访问了什么资源 -结果是什么（状态/返回数据大小）每天的点击量...发生错误的请求有多少次，状态码分布情况 -每种状态码出现的次数每天流量大小 -每天的日志中每行流量之和 -总的流量之和（每天流量之和）访问地域分布 -根据 IP 获取地理位置发生访问次数最多 TOP

7642 0

基于Python实现WEB日志生成

文章目录基于Python实现WEB日志生成 1.日志作用 2.常见的web服务器日志介绍 2.1Apache 2.2Ngnix 3.基于python实现日志生成 3.1加载依赖 3.2定义随机生成的日志信息...随机生成 IP地址随机生成访问资源路径随机生成状态码随机生成来源地址随机生成浏览器信息 3.3生成log数据总结参考文献基于Python实现WEB日志生成 1.日志作用记录访问服务器的远程主机...访问日志access_log记录了所有对Web服务器的访问活动，下面是访问日志access_log中的一个标准记录 192.168.115.5 - - [01/Apr/2018:10:37:19 +...,参考https://blog.51cto.com/shaoniana/2126541 3.基于python实现日志生成本案例为基于python语言实现web访问日志的加载，打开jupyter，新建...服务器与web日志的格式，并基于python实现了随机日志生成。

7402 0

今晚九点|可视化分析 web 访问日志

内容目录 Python 基础使用模块介绍可视化组件 echarts 介绍 Web 访问日志代码解读讲师：KK 多语言混搭开发工程师，多年 PHP、Python 项目开发经验，曾就职 360、绿盟科技...擅长于 Web 安全开发、性能优化、分布式应用开发&设计等多方面，51Reboot 金牌讲师。...os.rmdir/os.unlink/os.listdir - os.path.join/os.path.abspath/os.path.dirname/os.path.exists argparse 命令行参数解析...访问日志 Web 访问日志是 web 服务器记录的网站被访问的过程日志日志属性 -什么时候 -什么人 -通过什么工具 -以什么方式 -访问了什么资源 -结果是什么（状态/返回数据大小）每天的点击量...发生错误的请求有多少次，状态码分布情况 -每种状态码出现的次数每天流量大小 -每天的日志中每行流量之和 -总的流量之和（每天流量之和）访问地域分布 -根据 IP 获取地理位置发生访问次数最多 TOP

6553 0

python正则捕获日志解析实例

需要每小时去分析一次上个小时日志（Nginx日志每小时做一次切割日志文件名如：click.master.com_access.log-2013102705），获取日志内相关信息按照规定格式写到以时间格式命名的文本并保存到相应目录中...#*# tl #*# co (注释：每个文本第一行为：tm #*# uid #*# os #*# br #*# ip #*# ul #*# pt #*# pm #*# tl #*# co)然后才添加解析后的信息...下列为解析后信息： 1385584886 #*# 1385584391326354 #*# WinXP #*# Firefox6.0 #*# 80.58.250.80 #*#http%253A%252F...study/bilingual/1564112.shtml #*#肯尼迪遇刺50年：特工曝光细节 (注释：这是一行数据，数据以" #*# "隔开，依次顺序为：请求参数中的tm、uid、os、br、请求访问的.../usr/bin/python #coding:utf-8 """ Logs parse and format than write to the rigth dir Author by Qfeian

8571 0

python编写分析apache访问日志的脚本

编写用于分析apache日志的脚本，主要要求如下：统计每个客户端访问apache服务器的次数将统计信息通过字典的方式显示出来分别统计客户端是Firefox和MSIE的访问次数分别使用函数式编程和面向对象编程的方式实现.../usr/bin/env python import re logfile = '/var/log/httpd/access_log' cdict = {} patt_ip = '^\d+\..../usr/bin/env python import re def countPatt(patt, fname): #定义可以在指定文件中搜索指定字符串的函数 cDict = {} with open

9006 0

Filebeat+Logstash+ElasticSearch+Kibana搭建Apache访问日志解析平台

对于ELK还不太熟悉的同学可以参考我前面的两篇文章ElasticSearch + Logstash + Kibana 搭建笔记、Log stash学习笔记（一），本文搭建了一套专门访问Apache的访问日志的...ELK环境，能够实现访问日志的可视化分析。...数据源 Filebeat + Logstash 数据源对应Logstash中的Input部分，本文采用Filebeat来读取Apache日志提供给Logstash，Logstash进行日志解析输入到ES...grok对日志的解析基于特定的正则模式匹配，对于Apache的Access Log 访问日志，多数情况下我们都适用combined格式。 ?...可以看到现在logstash输出的内容包括原始日志信息，以及按照日志格式解析后的各字段信息。 GeoIP插件配置参考上面，使用了GeoIP插件后，可以对访问IP进行反向解析，返回地址信息。

1.1K1 0

11.23 访问日志切割

访问日志切割目录概要日志一直记录总有一天会把整个磁盘占满，所以有必要让它自动切割，并删除老的日志文件把虚拟主机配置文件改成如下： DocumentRoot...img 重新加载配置文件 -t, graceful ls /usr/local/apache2.4/logs 访问日志切割当日志一直往一个文件中写入，总会有一天把磁盘写满...-t Syntax OK [root@hf-01 ~]# /usr/local/apache2.4/bin/apachectl graceful [root@hf-01 ~]# 这时候还需要去做一些访问...access_log httpd.pid 111.com-error_log abc.com-error_log error_log [root@hf-01 ~]# 用curl命令访问...，会看到就是刚刚curl命令访问的 [root@hf-01 ~]# cat /usr/local/apache2.4/logs/123.com-access_20171222.log 127.0.0.1

71610 0

python web开发-flask中日志的使用

不过一般我们是需要在一个文件里进行日志记录的，下面我们来看一下如何设置日志记录在文件上。 1....引用logging 因为flask的日志底层引用的是python的logging，设置需要通过python的logging进行，如下代码： import logging 2....（注意设置文件夹的权限），后一个参数设置了日志的打印格式。...格式化中的常用参数如下： %(name)s Logger的名字 %(levelno)s 数字形式的日志级别 %(levelname)s 文本形式的日志级别 %(pathname)s 调用日志输出函数的模块的完整路径名...，可能没有 %(filename)s 调用日志输出函数的模块的文件名 %(module)s 调用日志输出函数的模块名 %(funcName)s 调用日志输出函数的函数名 %(lineno)d 调用日志输出函数的语句所在的代码行

1.7K4 0

12.10 Nginx访问日志

Nginx访问日志目录概要日志格式 vim /usr/local/nginx/conf/nginx.conf //搜索log_format $remote_addr 客户端IP(公网IP) $http_x_forwarded_for...代理服务器的IP $time_local 服务器本地时间 $host 访问主机名（域名） $request_uri 访问的url地址 $status 状态码 $http_referer referer...1.log Nginx访问日志日志的文件也是在主配置文件中打开主配置文件vim /usr/local/nginx/conf/nginx.conf [root@hanfeng vhost]# vim...访问的url地址 $status 状态码 $http_referer referer（跳转页） $http_user_agent user_agent（标识）若想自己的公网IP，可以直接百度IP，...就会出来自己上网的IP地址除了在主配置文件nginx.conf里定义日志格式外，还需要在虚拟主机配置文件去定义access_log /tmp/1.log combined_realip; 来定义访问日志路径

8316 0

11.21 Apache访问日志

访问日志目录概要访问日志记录用户的每一个请求 vim /usr/local/apache2.4/conf/httpd.conf //搜索LogFormat LogFormat "%h %l %u %t...重新加载配置文件 -t,graceful curl -x127.0.0.1:80 -I 123.com tail /usr/local/apache2.4/logs/123.com-access_log 访问日志...访问日志，就是在浏览器中输入网址，每一次访问，每一次请求，都会生成一个日志查看apache2.4的日志 [root@hf-01 ~]# ls /usr/local/apache2.4/logs/ 111...access_log httpd.pid 111.com-error_log abc.com-error_log error_log [root@hf-01 ~]# 查看111.com访问日志...日志里面的HEAD都是curl命令导致的日志里面的GET就是不加 -I参数的，在加上-I只会输出状态码，并不会把内容GET下来日志里面包含来源的IP，时间，行为，访问的域名， HTTP

1.5K9 0

WEB日志格式

WEB日志格式日志格式类型：常见日志格式：参考： ---- WEB日志格式 Custom Log Formats：普通日志格式日志格式类型：目前常见的WEB日志格式主要由两类 Apache的...NCSA日志格式，NCSA格式分为 NCSA普通日志格式（CLF） NCSA扩展日志格式（ECLF） IIS的W3C日志格式目前最常用的是NCSA扩展日志格式（ECLF）及基于自定义类型的Apache...日志格式，而W3C扩展日志格式（ExLF）具备了更为丰富的输出信息，但目前的应用并不广泛，所以这里主要介绍的是NCSA扩展日志格式（ECLF）。...---- 常见日志格式： Common Log Format (CLF) "%h %l %u %t \"%r\" %>s %b" Common Log Format with Virtual Host...Referer}i -> %U" Agent (Browser) log format "%{User-agent}i" ---- 参考： Apache Module mod_log_config 日志格式规范

6811 0

python+flask解析服务器日志

拿到了自己阿里云服务器的日志，对其需要进行处理 class Read_Rizhi: def __init__(self,filename): self.filename=filename def open_file...DOCTYPE html> 阿里云日志分析阿里云日志分析 {{ item.code }} {% endfor %} 启动后访问...python解析日志就是这么简单，十分钟就能解决。配合flask，让你的日志展示的高大上，

5762 0

CentOS下Nginx配置Web访问日志并结合Shell脚本定时切割

在一个成熟的WEB系统里，没有日志管理是不可以的，有了日志，可以帮助你得到用户地域来源、跳转来源、使用终端、某个URL访问量等相关信息；通过错误日志，你可以得到系统某个服务或server的性能瓶颈等。...日志格式及定义（1）log_format log_format用来设置日志格式，也就是日志文件中每条日志的格式，具体如下： log_format name(格式名称) type(格式样式) log_format...[$time_local]：访问的时间与时区，比如18/Jul/2012:17:00:01 +0800，时间信息最后的"+0800"表示服务器所处时区位于UTC之后的8小时。...$http_referer：记录从哪个页面链接访问过来的。...$http_user_agent：客户端浏览器信息 $http_x_forwarded_for：客户端的真实ip，通常web服务器放在反向代理的后面，这样就不能获取到客户的IP地址了，通过$remote_add

5832 0

访问日志不记录静态文件，访问日志切割，静态元素过期时间

笔记内容： 11.22 访问日志不记录静态文件 11.23 访问日志切割 11.24 静态元素过期时间笔记日期：2017.10.10 11.22 访问日志不记录静态文件 ?...使用浏览器打开一个网站时，我们可以按F12打开控制台，在Network中可以看到许多在访问时下载的静态文件，这些对静态文件的请求都会记录到访问日志里面的： ?...因为静态的图片太多了，如果每一个请求全都要记录在访问日志里的话，就会导致访问日志一天下来可能得记录几个G甚至十几个G的内容，但是这种静态图片的请求是没必要去记录在访问日志里的，所以我们要让访问日志不记录指定类型的文件...11.23 访问日志切割 ? 日志都是需要进行自动切割的，因为无论什么日志日积月累地追加记录数据，都会导致文件大小越来越大直至占满整个磁盘，所以有必要让它自动切割，并删除旧的日志文件。...修改完后重新加载配配置文件，并使用curl命令访问这个主机： ? 然后查看日志目录就会发现生成了一个新的日志文件： ?

1.2K2 0

访问日志不记录静态文件，访问日志切割，静态元素过期时间

访问日志不记录静态文件：配置文件：（红色img后缀的拷贝到服务器里面） DocumentRoot "/data/wwwroot/www.123.com"...wwwroot/www.123.com/images //创建目录，并在这目录下上传一个图片 curl -x127.0.0.1:80 -I 123.com/images/123.jpg = 访问端口... tail /usr/local/apache2.4/logs/123.com-access_log =查看日志访问日志切割：修改完配置文件后，需要重新访问下网址才能生动生成日志文件，以后每到...这时候的状态码是200，还有一项过期时间是86400秒Cache-Control:max-age=86400 然后再按f5刷新，这时候状态码就变304了，因为这个图片已下载了，在缓存里有了用curl访问测试查看到的开始时间与结束时间刚好是...960 apache只记录指定URI的日志 http://ask.apelearn.com/question/981 apache日志记录客户端请求的域名 http://ask.apelearn.com

9616 0

Mysql日志解析

Otherwise a default name will be used. log-bin= 参考地址日志解析 MySQL日志：主要包含：错误日志、查询日志、慢查询日志、事务日志、二进制日志；日志是...更改错误日志位置可以使用log_error来设置形式如下： [root@stu18 data]# vim /etc/my.cnf [mysqld] Log_error=DIR/[filename] 解析...---------------------------------+-----------------------------------+ 41 rows in set (0.00 sec) 拓展解析...----------+ | mysql-bin.000001| 107 | +------------------+-----------+ 1 row in set (0.04sec) 解析...到此关于二进制的知识就解析完了，其中若有错误不足之处请指出！

5K8 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭