前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PHP - 使用正则表达式抓取网页内容

PHP - 使用正则表达式抓取网页内容

作者头像
用户8099761
发布2023-05-11 16:09:10
8940
发布2023-05-11 16:09:10
举报
文章被收录于专栏:私人订制私人订制

昨天有个朋友在问我说,php怎么抓取网页某个div区块的内容。每次发布文章都会显示文章内的图片,提供缩略图,又是怎麽做到的?其实这语法出乎意料的简短…

1. 取得指定网页内的所有图片:

代码语言:javascript
复制
<?php
//取得指定位置的内容,并储存至text$text=file_get_contents('http://notemi.cn/');
//取得所有img标签,并储存至二维阵列matchpreg_match_all('#<img[^>]*>#i', $text, $match);
//印出matchprint_r($match);
?>

2. 取得指定网页内的第一张图片

代码语言:javascript
复制
<?php
//取得指定位置的内容,并储存至text
$text=file_get_contents('http://notemi.cn/');
//取得第一个img标签,并储存至阵列match(regex语法与上述同义)
preg_match('/<img[^>]*>/Ui', $text, $match);
//印出match
print_r($match);
?>

3. 取得指定网页内的特定div区块(由id判断)

代码语言:javascript
复制
<?php
//取得指定位置的内容,并储存至text
$text=file_get_contents('http://notemi.cn/two-methods-of-session-access-springmvc.html');
//去除换行及空白字元(序列化内容才需使用)
//$text=str_replace(array("\r","\n","\t","\s"), '', $text);
//取出div标签且id为PostContent的内容,并储存至阵列match
preg_match('/<div[^>]*id="footer"[^>]*>(.*?) <\/div>/si',$text,$match);
//印出match[0]
print($match[0]);
?>

4. 上述2及3的结合

代码语言:javascript
复制
<?php
//取得指定位置的内容,并储存至text
$text=file_get_contents('http://notemi.cn/two-methods-of-session-access-springmvc.html');
//取出div标签且id为PostContent的内容,并储存至阵列match
preg_match('/<div[^>]*id="footer"[^>]*>(.*?) <\/div>/si',$text,$match);
//取得第一个img标签,并储存至阵列match2
preg_match('/<img[^>]*>/Ui', $match[0], $match2);
//印出match2[0]
print_r($match2[0]);
?>
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-12-9,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 取得指定网页内的所有图片:
  • 2. 取得指定网页内的第一张图片
  • 3. 取得指定网页内的特定div区块(由id判断)
  • 4. 上述2及3的结合
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档