使用Python抓取带有javascript格式的网站

使用Python抓取带有JavaScript格式的网站通常会遇到传统HTTP请求库如requests无法处理JavaScript渲染的问题。这是因为这类库只能获取到初始的HTML内容，而无法执行JavaScript代码，导致无法获取到JavaScript动态生成的内容。

为了解决这个问题，可以使用以下几种方法：

1. 使用Selenium

Selenium是一个自动化测试工具，可以模拟浏览器行为，包括执行JavaScript代码。以下是一个简单的示例：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager

# 设置ChromeDriver服务
service = Service(ChromeDriverManager().install())

# 启动浏览器
driver = webdriver.Chrome(service=service)

# 打开目标网页
driver.get('https://example.com')

# 获取页面内容
page_content = driver.page_source

# 关闭浏览器
driver.quit()

print(page_content)

2. 使用Pyppeteer

Pyppeteer是一个无头浏览器自动化库，类似于Puppeteer，但它是基于Python的。以下是一个简单的示例：

import asyncio
from pyppeteer import launch

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('https://example.com')
    content = await page.content()
    await browser.close()
    return content

page_content = asyncio.get_event_loop().run_until_complete(main())
print(page_content)

3. 使用Scrapy与Splash

Scrapy是一个强大的爬虫框架，结合Splash（一个轻量级的浏览器）可以处理JavaScript渲染的页面。以下是一个简单的示例：

首先，安装Scrapy和scrapy-splash：

pip install scrapy scrapy-splash

然后在Scrapy项目中配置Splash：

# settings.py
SPLASH_URL = 'http://localhost:8050'

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

编写Spider：

import scrapy
from scrapy_splash import SplashRequest

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['https://example.com']

    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url, self.parse, args={'wait': 2})

    def parse(self, response):
        # 处理页面内容
        print(response.text)