我有一个爬虫的基本结构。现在我在一些php驱动的网站上发布了它,它就像一个护身符。不过,现在我想让它从ajax内容构建数据表。
目前,我正在使用Mechanize for PYTHON和perl来构建我的爬虫。虽然机械化模块不执行AJAX。如何访问由异步ajax构建的内容?
我知道有一种叫做Selenium的东西,一种真正的自动化浏览器。但这是我唯一的选择吗?
我想知道,当排名页面不是主页时,是否有一种方法可以将来自Google搜索的用户重定向到我的主页,而不影响该页面的良好排名。
我需要的是一个php条件,以了解网页是否来自来自Google搜索的用户,而不是Google爬虫。我需要谷歌爬虫继续索引该网页,同时,用户要重定向到主页。这是我的意思的伪代码片段:
if ($_SERVER['HTTP_REFERER'] == 'only users from a Google search')
header('location','index.php');