首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用PHP的正则抓取页面中的网址

最近有一个任务,从页面中抓取页面中所有的链接,当然使用PHP正则表达式是最方便的办法。要写出正则表达式,就要先总结出模式,那么页面中的链接会有几种形式呢?...搞清楚了链接的种类,就知道要抓链接,主要还是绝对URL超链接和相对URL超链接。要写出正确的正则表达式,就必须要了解我们查找的对象的模式。...路径和文件名,一般以 / 分割,指出到达这个文件的路径和文件本身的名称。如果没有具体的文件名,则访问这个文件夹下的默认文件(可以在服务器端设置)。...那么正则表达式就可以写出来了。 /(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?....]+)第三个括号内匹配的是相对路径。 写到这个时候,基本上大部分的网址都能匹配到了,但是对于URL中带有参数的还不能抓取,这样有可能造成再次访问的时候页面报错。关于参数RFC1738规范中要求是用?

3.1K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    PHP实现长网址与短网址

    使用场景 微博内容的分享 短信包含的链接 微信分享链接 实现方法 按照百度百科的解释,长链接转换为短链接主要采用了md5加密的方式来实现转换的。...//根据长网址获取短网址function sinaShortenUrl($long_url) { //拼接请求地址,此地址你可以在官方的文档中查看到 $url = 'http://api.t.sina.com.cn...url_short == '') { return false; } else { return $json[0]->url_short; } }//根据短网址获取长网址...$url); } } //要缩短的网址 $url = "http://www.qqdeveloper.com/detail/25/1.html"; //这里自己看着办,修改成你要缩短的网址还是获取...$url = filterUrl($url); //对URL进行简单处理的方法 echo $short = sinaShortenUrl($url); //根据传入的长网址生产短网址 echo "</br

    4.5K30

    php 手机号正则_正则验证手机号是否合法

    当我在进行PHP网页开发的时候,直接采用在网上找的手机号的正则表达式验证,结果后来测试的时候发现:当我使用的手机号177开头的进行输入时,竟然显示请输入正确的手机号,后来一看正则表达式是没有设定17开头的号码...,于是又进行了学习,最终,得到了最新手机号的正则表达式验证(如下代码),以供自己和大家日后学习使用。...//$phone存放手机号,$phoneErr存放手机号的错误信息 //首先判定手机号不为空,然后进行正则表达式的手机号验证 if(!...empty($phone)) { //手机号正则表达式验证语句 if(!...除此以外,还发现了菜鸟工具的正则表达式的在线测试工具,可以直接生成各种语言的正则表达式验证语句,很好用。正则表达式在线测试|菜鸟工具 最后,对于下面博主的文章表示十分感谢,学习到了新东西,开心。

    2.8K20

    表单验证常用的正则

    ),非常有用的表达式 匹配Email地址的正则表达式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)* 评注:表单验证时很实用 匹配网址URL的正则表达式:[a-zA-z]+:...在使用RegularExpressionValidator验证控件时的验证功能及其验证表达式介绍如下: 只能输入数字:“^[0-9]*$” 只能输入n位的数字:“^d{n}$” 只能输入至少n位数字...验证身份证号(15位或18位数字):“^d{15}|d{}18$” 验证一年的12个月:“^(0?...匹配中文字符的正则表达式: [u4e00-u9fa5] 匹配双字节字符(包括汉字在内):[^x00-xff] 匹配空行的正则表达式:n[s| ]*r 匹配HTML标记的正则表达式:/....*|/ 匹配首尾空格的正则表达式:(^s*)|(s*$) 匹配Email地址的正则表达式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)* 匹配网址URL

    1.6K40

    正则表达式简介及学习网址、测试网址

    在做用户注册时手机号验证时,了解到用正则表达式验证so easy!...在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。 常用元字符 代码 说明 ....匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串的开始 $ 匹配字符串的结束 常用限定符...\D 匹配任意非数字的字符 \B 匹配不是单词开头或结束的位置 [^x] 匹配除了x以外的任意字符 [^aeiou] 匹配除了aeiou这几个字母以外的任意字符 入门网址:正则表达式30分钟入门教程...测试网址:在线正则表达式测试

    42820

    PHP中正则的使用

    正则表达式,作为一种快速、便捷的处理字符串的工具,在各种编程语言中都有着广泛的用途,通过在PHP中的一些使用,下面记录一下关于PHP中正则使用的一些技巧。...PHP中的正则函数: php中有两套正则函数,两者功能差不多,分别为: 一套是由PCRE(Perl Compatible Regular Expression)库提供的。...使用以“ereg_”为前缀命名的函数;(POSIX的正则函数库,自PHP 5.3以后,就不在推荐使用,从PHP6以后,就将被移除) 由于POSIX正则即将推出历史舞台,并且PCRE和perl的形式差不多...,更利于我们在perl和php之间切换,所以这里重点介绍PCRE正则的使用。...ereg                        http://cn.php.net/manual/en/function.ereg.php         3、PHP正则函数

    3.7K30

    php实时刷新数据_批量短网址php搭建

    http 协议介绍: http 协议是请求/响应范式的, 每一个 http 响应都是由一个对应的 http 请求产生的; http 协议是无状态的, 多个 http 请求之间是没有关系的. http..., 而数据是在服务器端的, 因此实时性高; 像新浪微薄的im, 朋友网的 im 以及 webQQ 都是用 http 长轮询实现的; NodeJS 的异步机制貌似可以很好的处理 http 长轮询导致的服务器瓶颈问题..., 这个有待研究. http 短轮询一般用在实时性要求不高的地方, 比如新浪微薄的未读条数查询就是浏览器端每隔一段时间查询的...., 然后在每次发送 http 请求时检查是否有有效数据, 没有则发送请求获取 以上就介绍了http长轮询&短轮询,包括了方面的内容,希望对PHP教程有兴趣的朋友有所帮助。...本文原创发布php中文网,转载请注明出处,感谢您的尊重! 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

    2.5K30

    用PHP实现URL转换短网址的算法

    短网址(Short URL) ,顾名思义就是在形式上比较短的网址。在Web 2.0的今天,不得不说,这是一个潮流。...目前已经有许多类似服务,借助短网址您可以用简短的网址替代原来冗长的网址,让使用者可以更容易的分享链接。 下面是用PHP实现短网址转换的算法,代码如下: php //短网址生成算法 class ShortUrl { //字符表 public static $charset = "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz...> 通常我们用四组网址中的第一组即可。...这里需要注意的是,这个算法是不可逆的,因此,通常的做法是将短网址和对应的原网址存入数据库,当访问时,从数据库中取出匹配的原网址,通过301或header进行跳转。

    1.1K20

    域名、网址通配符与正则表达式

    2、正则表达式 正则表达式是指匹配或捕获字段的若干部分的特殊字符以及支配这些字符的规则,比如: “.”:匹配任何单个字符(字母、数字或符号),如bai.du与baigdu和bai8du匹配; “?”...\.com/mp[1-4…就不能匹配www.aaa.com/mp5或者www.aaa.com/mp11等; “”:要求您的数据位于字段开头,如baidu匹配所有以baidu开头的行; “\”:将正则表达式字符转换为普通字符...,如您选择了“是”使用正则表达式来设置,而您的URL本来为www.baidu.com,而“.”恰好是正则元字符,则您在设置正则表达式时需要将您的URL转义为www.baidu.com。...“{}”:一般与非负整数一齐使用,匹配确定的 n 次。例如,‘o{2}’ 不能匹配 “Bob” 中的 ‘o’,但是能匹配"food" 中的两个 o。...由于正则表达式的含义复杂、操作困难,为了避免系统误判为您带来不必要的困扰,请在提交您的设置之前认真检查,注意转义,以确保您所设置的正则表达式完整、正确、能被系统识别且没有歧义。

    5.1K20
    领券