开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何使用python在imdb中按下“加载更多”以获得更多评论

在IMDb中按下"加载更多"按钮以获取更多评论，可以使用Python编写一个脚本来模拟用户的操作并获取更多评论。以下是一个示例代码：

import requests
from bs4 import BeautifulSoup

def get_more_comments():
    url = "https://www.imdb.com/title/tt1375666/reviews?ref_=tt_urv"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    }

    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.content, "html.parser")

    load_more_button = soup.find("button", {"class": "ipl-load-more__button"})
    load_more_url = "https://www.imdb.com" + load_more_button["data-ajaxurl"]

    while load_more_button:
        response = requests.get(load_more_url, headers=headers)
        soup = BeautifulSoup(response.content, "html.parser")

        comments = soup.find_all("div", {"class": "text show-more__control"})
        for comment in comments:
            print(comment.text.strip())
            print("---")

        load_more_button = soup.find("button", {"class": "ipl-load-more__button"})
        if load_more_button:
            load_more_url = "https://www.imdb.com" + load_more_button["data-ajaxurl"]

get_more_comments()

这段代码使用了requests库来发送HTTP请求，并使用BeautifulSoup库来解析HTML内容。首先，我们发送一个GET请求到IMDb电影评论页面，然后使用BeautifulSoup解析页面内容。通过查找页面中的"加载更多"按钮，我们可以获取到加载更多评论的URL。接下来，我们循环发送GET请求到加载更多评论的URL，并解析返回的HTML内容。在每个页面中，我们找到评论的元素并打印出来。

请注意，这只是一个示例代码，实际上IMDb网站可能会有反爬虫机制，所以在实际使用中可能需要添加更多的处理逻辑，例如设置延时、使用代理等。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云云函数（SCF）：https://cloud.tencent.com/product/scf
腾讯云数据库（TencentDB）：https://cloud.tencent.com/product/tencentdb
腾讯云内容分发网络（CDN）：https://cloud.tencent.com/product/cdn
腾讯云人工智能（AI）：https://cloud.tencent.com/product/ai
腾讯云物联网（IoT）：https://cloud.tencent.com/product/iotexplorer
腾讯云移动开发（移动推送、移动分析）：https://cloud.tencent.com/product/mobile
腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云区块链（BCS）：https://cloud.tencent.com/product/bcs
腾讯云虚拟专用网络（VPC）：https://cloud.tencent.com/product/vpc
腾讯云安全加速（DDoS防护）：https://cloud.tencent.com/product/ddos

相关搜索:如果我在输入标签旁边有更多的按钮，当"Enter“键被按下时，如何在JavaScript中获取input.value？在Python中，如何使用tkinter限制打开窗口或按下按钮如何通过在expo中按下按钮来加载webview内容?我是否必须使用导航？如何使用node-red-node-pi-neopixel库在一个msg有效负载中传递csv以点亮更多单个red 如何重新加载div (使用JavaScript)以在不刷新页面的情况下更新图形中的更改 spnego starting spss fisher确切概率 ssd pytorch代码解释 ssm shiro layui status code 400

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

BERT-IMDB电影评论情感分类实战：SwanLab可视化训练（完整训练代码）

基于BERT模型的IMDB电影评论情感分类，是NLP经典的Hello World任务之一。...本文的代码测试于transformers==4.41.0、datasets==2.19.1、swanlab==0.3.3，更多库版本可查看SwanLab记录的Python环境。.../bert-base-uncased', num_labels=2) 3.加载IMDB数据集 IMDB数据集（Internet Movie Database Dataset）是自然语言处理（NLP）领域中一个非常著名和广泛使用的数据集.../imdb') 4.集成SwanLab 因为swanlab已经和transformers框架做了集成，所以将SwanLabCallback类传入到trainer的callbacks参数中即可实现实验跟踪和可视化...在首次使用SwanLab时，需要去官网注册一下账号，然后在用户设置复制一下你的API Key。

3571 0

使用 RNN 进行情感分析的初学者指南

本文将利用循环神经网络，训练出一个基于 IMDB 数据集的电影评论分类器。如果你想了解更多关于深度学习在情感分析中的应用，这里推荐一篇很棒的论文。...Keras 已经将 IMBD 电影评论数据内置其中，我们可以很方便地调用。 from keras.datasets import imdb 设置词汇量的总数，并加载训练数据和测试数据。...我们可以利用 imdb.get_word_index() 函数返回的字典，从而将评论映射回原有的文字。...我们需要设置max_words变量来限制评论的最大长度，超过该长度的评论将被截断，不足该长度的评论将被填充空值（0）。在 Keras 中，我们可以使用pad_sequences()函数来达到此目标。...在这一过程中，我们可以思考，在避免消耗长时间训练的前提下，我们还能做怎样的提升？我们应该如何避免过拟合？本文的代码可以从 Github 上下载。非常期待能听到大家的反馈和问题。

9572 0

【AI大模型】Transformers大模型库（十三）：Datasets库

以下是如何使用datasets库加载数据集和进行基本预处理的步骤，以用于Transformers的模型训练和评估 2.2 使用方法 2.2.1 步骤1: 安装并导入datasets库首先，确保你安装了...可以通过pip安装： pip install datasets 然后在Python脚本中导入： from datasets import load_dataset 2.2.2 步骤2: 加载数据集 Hugging...例如，加载IMDB数据集： dataset = load_dataset('imdb') 这将加载IMDB电影评论数据集，它是一个文本分类任务，用于判断评论是正面还是负面。...实际训练过程会涉及更多Transformers的使用，如定义TrainingArguments和创建Trainer实例。...三、总结以上步骤展示了如何使用datasets库来准备数据，这是使用Transformers进行自然语言处理任务的关键步骤之一。

1081 0

你所写过的最好的Python脚本是什么？

我倾向于亲自评论那些给我的祝福，但是使用Python去做这个将会更好。为了让程序工作，你需要通过合适的权限从Graph API Explorer 获得一个令牌（token）。...（顺便提一下，这样调用了我写的Python脚本）瞧，那就是我们想要的！我的浏览器打开了电影准确对应的IMDb页面! 所有这些，只需要点击一下按钮。...如果不明白这有多酷么，你可以节省多少时间，看看这个视频： IMDb lookup python script 从现在开始你不需要打开浏览器，等待IMDb加载并且输入电影的名字。...像之前一样，代码在GitHub上：imdb页面里面还有如何使用它的说明。当然，因为脚本需要去掉所有像”DVDRip, YIFY, BRrip”之类的无用的值，这个脚本使用时有着一定程度的误差。...一个完全属于你自己的IMDb数据库！作为一个电影爱好者也不能要求得更多了;) 源代码在GitHub上：imdb。

1.5K9 0

微软开源 repo 1.0 ，旨在创造深度学习框架通用语言

AI 研习社按，日前，微软提出深度学习框架的通用语言——repo1.0，号称希望通过构建这一深度学习框架「Rosetta Stone（罗塞塔石碑）」，让研究者们能够在不同框架之间轻松运用专业知识。...训练时间（s）：在 IMDB 上，用 RNN (GRU) 执行情感分析该模型的输入为标准 IMDB 电影评论数据集，包含二万五千个训练评论和两万五千个测试评论，数据被均匀分成两类 (正/负)。...希望大家都能来尝试，增加更多更丰富的数据。...2017 年末的许多经验教训在现在已经过时了，因为这些框架已经更新。通过在不同的框架中完成端到端解决方案，可以以多种方式比较框架。...我们开源 repo 只是为了展示如何在不同的框架上创建相同的网络，并评估在一些特定案例上的性能。 via：https://blogs.technet.microsoft.com

7412 0

教程 | 用TensorFlow Estimator实现文本分类

本文探讨了如何使用自定义的 TensorFlow Estimator、嵌入技术及 tf.layers 模块来处理文本分类任务，使用的数据集为 IMDB 评论数据集。...通过本文你将学到如何使用 word2vec 词嵌入和迁移学习技术，在有标签数据稀缺时获得更好的模型性能。.../imdb.npz）下载获得。...得到预测结果为了得到在新的句子上的预测结果，我们可以使用「Estimator」实例中的「predict」方法，它能为每个模型加载最新的检查点并且对不可见的示例进行评估。...总结在这篇博文中，我们探索了如何使用评估器（estimator）进行文本分类，特别是针对 IMDB 评论数据集。我们训练并且可视化了我们的词嵌入模型，也加载了预训练的嵌入模型。

1.3K3 0

教程 | 用TensorFlow Estimator实现文本分类

本文探讨了如何使用自定义的 TensorFlow Estimator、嵌入技术及 tf.layers 模块来处理文本分类任务，使用的数据集为 IMDB 评论数据集。...通过本文你将学到如何使用 word2vec 词嵌入和迁移学习技术，在有标签数据稀缺时获得更好的模型性能。.../imdb.npz）下载获得。...得到预测结果为了得到在新的句子上的预测结果，我们可以使用「Estimator」实例中的「predict」方法，它能为每个模型加载最新的检查点并且对不可见的示例进行评估。...总结在这篇博文中，我们探索了如何使用评估器（estimator）进行文本分类，特别是针对 IMDB 评论数据集。我们训练并且可视化了我们的词嵌入模型，也加载了预训练的嵌入模型。

9823 0

教程 | 用TensorFlow Estimator实现文本分类

模块来处理文本分类任务，使用的数据集为 IMDB 评论数据集。...通过本文你将学到如何使用 word2vec 词嵌入和迁移学习技术，在有标签数据稀缺时获得更好的模型性能。.../imdb.npz）下载获得。...得到预测结果为了得到在新的句子上的预测结果，我们可以使用「Estimator」实例中的「predict」方法，它能为每个模型加载最新的检查点并且对不可见的示例进行评估。...总结在这篇博文中，我们探索了如何使用评估器（estimator）进行文本分类，特别是针对 IMDB 评论数据集。我们训练并且可视化了我们的词嵌入模型，也加载了预训练的嵌入模型。

1.9K4 0

IMDB影评数据集入门

本文将介绍如何使用Python和一些常用的NLP工具库来进行IMDB影评数据集的入门：下载和准备数据集IMDB影评数据集可以从Kaggle网站上下载，具体下载链接：IMDB Dataset下载后得到一个压缩文件...，我们使用Pandas库来加载IMDB影评数据集。...示例代码：情感分析应用在实际应用中，IMDB影评数据集可以用于情感分析任务，即根据电影影评的内容判断其是正面评价还是负面评价。下面是一个示例代码，演示如何使用训练好的模型进行情感分析。...注意：在使用以上代码时，需要将preprocess_text函数和涉及到的模型和向量化器的训练代码放在同一个文件中，并确保模型文件和向量化器文件正确加载。...缺乏多样性：IMDB影评数据集主要集中在电影评论上，缺乏其他领域的评论样本。这可能限制了模型在不同领域或其他类型评论的泛化能力，使得模型在其他任务上的表现可能会受到影响。

1.7K3 0

FastAI 之书（面向程序员的 FastAI）（五）

我们的示例依赖于使用预训练的语言模型，并对其进行微调以对评论进行分类。该示例突出了 NLP 和计算机视觉中迁移学习的区别：通常情况下，在 NLP 中，预训练模型是在不同任务上训练的。...术语：自监督学习使用嵌入在自变量中的标签来训练模型，而不是需要外部标签。例如，训练一个模型来预测文本中的下一个单词。我们在第一章中用于分类 IMDb 评论的语言模型是在维基百科上预训练的。...让我们尝试一下我们在第一章中使用的 IMDb 数据集： from fastai.text.all import * path = untar_data(URLs.IMDB) 我们需要获取文本文件以尝试一个分词器...假设我们有以下文本：在这一章中，我们将回顾我们在第一章中学习的分类电影评论的例子，并深入挖掘。首先，我们将看一下将文本转换为数字所需的处理步骤以及如何自定义它。...（如果您对类方法不熟悉，请务必在网上搜索更多信息，因为它们在许多 Python 库和应用程序中常用；我们在本书中以前使用过几次，但没有特别提到。）

5051 0

新入坑的SageMaker Studio Lab和Colab、Kaggle相比，性能如何？

那么，SageMaker Studio Lab 如何与竞争对手抗衡？它是否值得使用？...例如，我能够从 Jupyterlab Awesome List 中安装 python 语言服务器和 markdown 拼写检查器。...除了向 fast.ai 添加 Transformers 训练和推理支持外，blurr 还集成了每 batch token 化和 fast.ai 文本数据加载器，后者根据序列长度对数据集进行随机排序，以最大限度地减少训练时的填充...这里的结果符合预期，更多的 CPU 核意味着更少的绘制时间，并且在相同的核数下，较新的 CPU 的性能优于较旧的 CPU。...与 Colab P100 相比，在 Colab K80 上进行等效的 IMDB 训练时间要长 3 倍。如果可能的话，应避免使用 K80 对除小型模型以外的任何其他模型进行训练。

2.5K2 0

我是如何为技术博客设计一个推荐系统（上）：统计与评分加权

『玩点什么』，是一个基于 Django、Python 的 CMS 系统（Mezzanine）。是的，和我的博客使用的是同一个 CMS 系统。...由于使用的是 Python 语言，因此对于机器学习具有天生的优势。推荐系统推荐系统是一种信息过滤系统，用于预测用户对物品的“评分”或“偏好”。...但是网站可以通过相关的文章、产品，来获得更多的阅读及利润。而这取决于，我们为用户推荐的相关产品，是不是真正是用户需要的。...，即（更多信息可以阅读：IMDB 给出的电影评分的计算方法是怎样的？）...，我不是拿所有的文章排序，而是：从所有文章中过滤出能达到最小评分数的文章按评分值，对这些文章进行排序，取前 10 对前 10 中的这些文章，进行 imdb_rank 计算，取前 3 这样做的主要原因是

1.6K6 0

你用 Python 写过哪些牛逼的程序脚本？

因此，我写了一个 python 脚本，目的是为了使用非官方的 IMDb API 来获取数据。...我选择一个电影文件（文件夹），点击右键，选择‘发送到’，然后点击 IMDB.cmd (顺便提一下，IMDB.cmd 这个文件就是我写的 python 脚本)，就是这样。...我倾向于在每一条祝福下亲自评论，但是使用 python 来做更好。...当我的点赞数，评论数以及评论结构在 ticker（Facebook一项功能，朋友可以看到另一个朋友在做什么，比如点赞，听歌，看电影等）中爆涨后，我的一个朋友很快发现此事必有蹊跷。...在训练过程中，你可以增加新的名字。我使用 python 库 tkinter 做了一个 GUI。因此，大多数时候，你必须初始化一小部分照片（给照片中的人脸命名），其他的工作都可以交给训练算法。

8602 0

你用 Python 写过哪些牛逼的程序脚本？

因此，我写了一个 python 脚本，目的是为了使用非官方的 IMDb API 来获取数据。...我选择一个电影文件（文件夹），点击右键，选择‘发送到’，然后点击 IMDB.cmd (顺便提一下，IMDB.cmd 这个文件就是我写的 python 脚本)，就是这样。...我倾向于在每一条祝福下亲自评论，但是使用 python 来做更好。...当我的点赞数，评论数以及评论结构在 ticker（Facebook一项功能，朋友可以看到另一个朋友在做什么，比如点赞，听歌，看电影等）中爆涨后，我的一个朋友很快发现此事必有蹊跷。...在训练过程中，你可以增加新的名字。我使用 python 库 tkinter 做了一个 GUI。因此，大多数时候，你必须初始化一小部分照片（给照片中的人脸命名），其他的工作都可以交给训练算法。

1.1K7 0

改变几行代码，PyTorch炼丹速度狂飙、模型优化时间大减

其次是数据集，训练数据集为大型电影评论数据集 IMDB Large Movie Review，该数据集总共包含 50000 条电影评论。作者将使用下图中的 c 方法来预测数据集中的影评情绪。...为了让大家更好地理解这项任务，作者还贴心地介绍了一下热身练习，即如何在 IMDB 电影评论数据集上训练 DistilBERT 模型。...如果你想自己运行代码，可以使用相关的 Python 库设置一个虚拟环境，如下所示：相关软件的版本如下：现在省略掉枯燥的数据加载介绍，只需要了解本文将数据集划分为 35000 个训练示例、5000...之前的代码显示验证准确率从第 2 轮到第 3 轮有所下降，但改进后的代码使用了 ModelCheckpoint 以加载最佳模型。...自动混合精度训练进一步，如果 GPU 支持混合精度训练，可以开启 GPU 以提高计算效率。作者使用自动混合精度训练，在 32 位和 16 位浮点之间切换而不会牺牲准确率。

1.2K2 0

你用 Python 写过哪些牛逼的程序脚本？

因此，我写了一个 python 脚本，目的是为了使用非官方的 IMDb API 来获取数据。...我选择一个电影文件（文件夹），点击右键，选择‘发送到’，然后点击 IMDB.cmd (顺便提一下，IMDB.cmd 这个文件就是我写的 python 脚本)，就是这样。...我倾向于在每一条祝福下亲自评论，但是使用 python 来做更好。...当我的点赞数，评论数以及评论结构在 ticker（Facebook一项功能，朋友可以看到另一个朋友在做什么，比如点赞，听歌，看电影等）中爆涨后，我的一个朋友很快发现此事必有蹊跷。...在训练过程中，你可以增加新的名字。我使用 python 库 tkinter 做了一个 GUI。因此，大多数时候，你必须初始化一小部分照片（给照片中的人脸命名），其他的工作都可以交给训练算法。

1.1K0 0

Kaggle word2vec NLP 教程第一部分：写给入门者的词袋

这个页面将帮助你从加载和清理IMDB电影评论来起步，然后应用一个简单的词袋模型，来获得令人惊讶的准确预测，评论是点赞还是点踩。在你开始之前本教程使用 Python。...如果你之前没有使用过 Python，我们建议你前往泰坦尼克号竞赛 Python 教程，熟悉一下（查看随机森林介绍）。...在本教程中，我们将使用各种 Python 模块进行文本处理，深度学习，随机森林和其他应用。详细信息请参阅“配置你的系统”页面。...如果你没有安装，请从命令行（不是从 Python 内部）执行以下操作： $ sudo pip install BeautifulSoup4 然后，从 Python 中加载包并使用它从评论中提取文本： #...尝试不同的事情，看看你的结果如何变化。你可以以不同方式清理评论，为词袋表示选择不同数量的词汇表单词，尝试 Porter Stemming，不同的分类器或任何其他的东西。

1.6K2 0

Pandas 秘籍：1~5

此方法将使用序列名称作为新的列名称： >>> director.to_frame() 另见要了解 Python 对象如何获得使用索引运算符的能力，请参见 Python 文档中的__getitem__特殊方法...更多此秘籍中使用的所有运算符都具有等效的方法，这些方法可产生完全相同的结果。例如，在步骤 1 中，可以用add方法再现imdb_score + 1。...例如，表达式imdb_score * 2.5如何知道将序列中的每个元素乘以2.5？ Python 使用特殊方法为对象与运算符通信提供了一种内置的标准化方法。...步骤 4 使用大于或等于比较运算符返回布尔序列，然后在步骤 5 中使用all方法对其进行求值，以检查每个单个值是否为True。 drop方法接受要删除的行或列的名称。默认情况下是按索引名称删除行。...在此示例中，每年仅返回一行。正如我们在最后一步中按年份和得分排序一样，我们获得的年度最高评分电影。更多可以按升序对一列进行排序，而同时按降序对另一列进行排序。

37.5K1 0

R语言贝叶斯模型预测电影评分数据可视化分析

通过模型预测和系数解释，发现imdb_rating具有最高的后验概率，且截距和运行时对观众评分有积极影响，而评论数量和影评人数量对观众评分的影响较小。...范围数据集为回顾性观察性研究的结果，该研究使用随机抽样方法从电影获得代表性样本。由于随机抽样方法被应用于数据收集，结果应该可以推广到目标人群。数据预处理创建五个新的特征变量。...我们可以看到imdb_rating具有1.00的后验概率，这在电影工业的背景下听起来很合理。同时critics_score和runtime也有很高的概率。然后让我们看看模型的总结。...由于IMDB得分以0到10的衡量量表给出，并且audience_score以0到100的衡量量表给出，并且考虑截距= -32.90，这个结论是有道理的。...结论事实上，imdb_rating具有最高的后验概率，并且我们五个新创建的变量中有两个不包括在最佳模型中，这是需要改进的。

2951 0

机器学习：更多的数据总是优于更好的算法吗？

【编者按】在机器学习中，更多的数据总是比更好的算法好吗?...但是，在相反的情况下，我们可能有一个模型，它太简单了以至于无法解释我们拥有的数据。在这种情况下，以高偏差著称，添加更多的数据不会带来帮助。...例如，在Netflix Prize的早期，有一个以评论额外特征的使用来解决问题的博客文章，它是由企业家和斯坦福大学教授Anand Rajaraman建立的。...这个帖子解释了一个学生团队如何通过从IMDB添加内容特征来改善预测精度特性。现在回想起来，很容易在批评后作出针对一个单一数据点的粗俗的过度泛化。...在这种情况下，Anderson挑选了Norvig的一些评论,并错误地在一篇文章中引用，该文章的标题为：“The End of Theory: The Data Deluge Makes the Scientific

6125 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭