我尝试在网页中搜索包含'ä‘字符的文本,bs4不能正确编码这些字符,因此我无法正确搜索站点。例如
<td>
<a href="/gy/area/name/1208.html">täkäen</a>
soup.findAll(text='täkäen') - does not work
我还尝试搜索.html字符串(如下所示),但似乎也不起作用。
soup.findAll(text='/gy/area/name/1208.html')
有没有人知道当我阅读网页时如何正确编码,或者简单地搜索
我的代码是搜索命令提示符中传递的链接,获取链接处网页的HTML代码,搜索网页上链接的HTML代码,然后对找到的链接重复这些步骤。我希望这是明确的。
它应该打印出任何导致错误的链接。
一些更需要的信息
它的最大访问量是100次。如果网站有错误,则返回一个None值。
Python3是我正在使用的
eg:
s = readwebpage(url)... # This line of code gets the HTML code for the link(url) passed in its argument.... if the link has an error, s = None.
该网站的
我想获取网页的html。在这个html中,有两个元素是我想要读取的xpath。我对这个话题知之甚少。
在搜索时,我经常看到一些示例,但是它们加载url并将html放入字符串中。但是,我相信既然我有两个xpath,那么将网页的html作为html文档而不是字符串下载会更好,或者我错了?
using (WebClient client = new WebClient()) {
string s = client.DownloadString(url);
}
那么,如何将网页的html下载到我可以搜索的html文档呢?
我想在网页中获取html内容,以便进行处理。然后使用该网页中的关键字在Google上搜索。请您告诉我如何获得以下示例的html代码:
<html>
<head>
<script>
//Here I would like to read news.yahoo.com page and get the html content of that page for further processing
var a = window.open("https://www.google.com/#q=keyword1"); // search k
我正在使用下面的jQuery代码来搜索网页上的文本,但这不会搜索网页上的法语或其他语言的文本。使用的jQuery代码如下:
phrase = ["\\b(", phrase, ")"].join("");
//search for any matches
var count = 0;
$("#faq-container p").each(
function (i, v) {
//replace any matches
var block = $(v);
block.html