Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >用Python实现HTML的with抓取

问用Python实现HTML的with抓取
EN

Stack Overflow用户

提问于 2018-11-11 15:08:50

回答 1查看 543关注 0票数 2

很抱歉，如果这是重复，但我已经看了很多StackOverflow的问题，但找不到类似的情况。我可能在这里找错了树，但我对编程还不熟悉，所以即使有人能让我走上正确的道路，它也会对我有很大的帮助。

我试图从一个只能从我们的网络内部使用python 3.7和Beautiful 4访问的网站中抓取数据。我的第一个问题是，对于一个新手程序员来说，这是一种最佳实践方法吗?还是我应该研究类似javascript而不是python的东西？

我的第二个问题是网站的根html文件有以下html标记xmlns="http://www.w3.org/1999/xhtml"。BeautifulSoup4是否与xhtml一起工作？“

我承认我对网络开发一无所知，所以即使有人能给我一些关键词或提示，让我开始研究，让我走上一条更有效率的道路，我们还是会很感激的。现在，我最大的问题是，我不知道我不知道什么，所有示例都在更简单的.html页面上工作，而这个页面树是由多个html/css/jpg和gif文件组成的。

谢谢，-Dane

单节点MySQL

低成本高体验，解决您的基础业务数据需求

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-11-11 17:18:06

Python、请求和BeautifulSoup肯定是可行的，特别是对于初学者来说。BeautifulSoup适用于html、xml等所有变体。

您需要安装python，然后安装请求和bs4。通过阅读请求文档和bs4文档，两者都很容易做到。

如果您还不知道，我建议您学习一些python3的基础知识。

下面是一个获取所需页面标题的简单示例：

import requests
from bs4 import BeautifulSoup as bs

url = 'http://some.local.domain/'

response = requests.get(url)
soup = bs(response.text, 'html.parser')

# let's get title of the page
title = soup.title
print(title)

# let's get all the links in the page
links = soup.find_all('a')
for link in links:
    print(link.get('href'))
    link1 = link[0]
    link2 = link[1]

# let's follow a link we find in the page (we'll go for the first)
response = requests.get(link1, stream=True)
# if we have an image and we want to download it 
if response.status_code == 200:
    with open(url.split('/')[-1], 'wb') as f:
        for chunk in response:
            f.write(chunk)

# if the link is another web page
response = requests.get(link2)
soup = bs(response.text, 'html.parser')

# let's get title of the page
title = soup.title
print(title)

继续寻找关于请求的教程，BeautfiulSoup有很多这样的请求.就像这个

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53254158

复制

相关文章

DreamweaverCS6安装时出错的解决教程

访问管理 jquery

目前，CS6 是 Adobe dreamweaver 的最新版本，增强了对 jQuery 、jQuery Mobile 、HTML5 和 CSS3 的支持，优化了FTP功能，及时保存在本地和远程服务器，更有利于团队协作，当然我之前用的是很老的版本，今天同事在安装的时候出现"0xc000007b"错误代码，然后整理里一下解决方案。

李洋博客

2021/06/15

2.9K0

quartus ii运行错误_安装quartus时弹出错误

https 网络安全

Info: ******************************************************************* Info: Running Quartus II 64-Bit Analysis & Synthesis Info: Version 11.0 Build 157 04/27/2011 SJ Full Version Info: Processing started: Thu May 15 13:09:59 2014 Info: Command: quartus_map –read_settings_files=on –write_settings_files=off simulate -c simulate Info: Parallel compilation is enabled and will use 2 of the 2 processors detected Info: Found 1 design units, including 1 entities, in source file simulate.v Info: Found entity 1: modelsim_test Error: Top-level design entity “simulate” is undefined

全栈程序员站长

2022/11/04

5.2K0

quartus ii运行错误_安装quartus时弹出错误

zblogasp安装时出错，左侧显示无法使用Access数据库

数据库 sql access windows iis

今天突然想起之前的一个网站博客，感觉还不错，但它是zblogasp的，所以想移植到zblogphp版本，但是把网站数据恢复之后登陆后台显示，数据库连接出错，因为asp+access类型，目录位置都对，所以可能是access数据库连接失败。

李洋博客

2021/06/15

4.8K0

Oracle创建Sequence时Order/NoOrder选项

Oracle创建Sequence时会有Order/NoOrder两个选项，那么到底什么场景用到Order，什么场景又用到NoOrder呢？

程序新视界

2022/11/30

7080

HttpWebRequest 在出错时获取response内容

http web 服务器

HttpWebRequest 请求时，服务器会返回500 501这些错误并包含错误信息，通过如下代码可以拿到错误信息

冰封一夏

2019/09/11

1.3K0

idea配置Tomcat时没有Artifacts选项

文件存储打包 https jar 网络安全

Artifacts是maven中的一个概念，表示某个module要如何打包，例如war exploded、war、jar、ear等等这种打包形式；

全栈程序员站长

2022/11/02

1.5K0

idea配置Tomcat时没有Artifacts选项

实战记录—PHP使用curl出错时输出错误信息

ftp SSL 证书命令行工具 php https

踩过的坑，实在不想再踩了，记录记录。 CURL错误列表 curl_exec($ch);//执行curl if (curl_errno($ch)) { echo 'Curl error: ' . curl_error($ch);//出错输出错误 } curl_close($ch);//关闭curl 同理，像正则，Json，数据库这些出错时基本都会有提供有帮助的错误信息 CURL状态码列表状态码状态原因解释 0 正常访问 1 错误的协议未支持的协议。此版cURL 不支持这一协议。 2 初始

房东的狗丶

2023/02/17

6.3K0

MyBatis集成到Spring时配置MapperScannerConfigurer出错

jdbc mybatis spring

在web项目中同时集成了spring mvc和mybatis。将jdbc配置参数独立在外部配置文件中，然后通过<context:property-placeholder>引入。此时在Spring中注入org.mybatis.spring.mapper.MapperScannerConfigurer，如下所示：

编程随笔

2019/09/11

2.5K0

WordPress 建立数据库连接时出错

wordpress 玩转wordpress 云数据库 MongoDB 云数据库 postgresql

WordPress 网站，需要在一个运行PHP 7.4或更高版本；数据库软件可采用MySQL 5.6或更高版本的服务器中才能运行的。

.T.

2022/02/19

5.4K0

WordPress 建立数据库连接时出错

wordpress建立数据库连接时出错

数据库 sql wordpress 网站建设

1、表单信息正确无误 2、安全组配置已更改 3、数据库远程连接已开启 4、数据库在3306端口正常运行并可连接 5、本地无法远程连接数据库

李玺

2022/08/03

3.3K0

wordpress建立数据库连接时出错

Nginx编译安装以及选项

编程算法 http 云推荐引擎 nginx 网络安全

编译安装Nginx 1、安装常见的工具和库(GCC、PCRE、zlib、OpenSSL)

星哥玩云

2022/07/14

9520

导出文件时，responseType设置为'arraybuffer'出错？

由于请求的时候设置了responseType:’arraybuffer’，返回的是数据流，要取得json信息需要进行转换：

用户2323866

2021/06/23

2.7K0

安装python扩展包pylint出错

用VSCode作为python的IDE，VSCode会提示安装pylint。pylint是python代码风格控制插件，如果你写的代码不符合常见风格，就会报错。使用pip安装pylint时往往会报错，如图所示

fem178

2018/07/25

1.6K0

安装python扩展包pylint出错

WiX安装选项--环境变量

系统环境变量由 Windows 定义并应用到所有计算机用户。对系统环境的更改将写入注册表，而且通常需要重启计算机才能生效。通常我们的程序中也会使用环境变量，如何在WiX设置环境变量呢？安装一个环境变量，我们就需要向Environment table中添加一条记录，其中有几个字段是必须设置的： Environment - public key to be referenced from other tables. Name - name of the environment variable we wan

张善友

2018/01/19

1.4K0

Windows 安装svn（出错已解决）和MySQL安装[通俗易懂]

https 网络安全 java html 网站

1.https://tortoisesvn.net/downloads.html网站下载

全栈程序员站长

2022/09/23

1.4K0

Windows 安装svn（出错已解决）和MySQL安装[通俗易懂]

xampp linux_xampp安装出错

apache 数据库云数据库 SQL Server sql linux

xampp是一套很好使用的web服务器组合软件，这里教大家如何在linux安装搭建xampp，希望能帮助到你

全栈程序员站长

2022/11/17

3.4K0

linux下安装mysql-python出错

命令 pip install mysql-python 然后出错了： Traceback (most recent call last): File "<string>", line 1, in <module> File "/tmp/pip-build-YEYPJp/mysql-python/setup.py", line 17, in <module> metadata, options = get_config() File "setup_posix.py", line 43, i

零式的天空

2022/03/22

1.3K0

点击加载更多

相似问题

尝试安装Acumos时出错

118

尝试安装shinyapps时出错

12

尝试安装MSMQ时出错

10

尝试安装cldr时出错

17

尝试安装PyCrypto时出错

141

活动推荐

实时音视频9.9元起，性价比之选

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例