如何对SEC 10-K动态数据进行Web抓取_使用Python对动态内容进行Web抓取(动态HTML/Javascript表)_如何使用Python对图表进行web抓取？ - 腾讯云开发者社区

在post底部的摘要第1部分：我试图修改一个函数以适应我的数据，但是我遇到了以下错误： Error in mutate_impl(.data, dots) : Evaluation error: Tibble columns must have consistent lengths, only values of length one are recycled: * Length 0: Columns `node`, `text` * Length 2: Column `nid` Call `rlang::last_error()` to see a backtrace. 我试图运行的

浏览 0提问于2019-01-31得票数 1

回答已采纳

2回答

为url请求解析字符串时出错

、

提示:我正在尝试访问SEC EDGAR数据库以提取特定的公司文件。我的urllib.request.request()有问题。目前，我需要访问网站的源代码。在此之后，我将为正文段落解析并使用re。 **import re import urllib.request as request import urllib.parse as parse import pandas import csv ''' WE ARE finding & parsing information to find https://www.sec.gov/Archives/edgar/da

浏览 8提问于2022-03-22得票数 0

2回答

尝试将列表上的函数plyr::ldply转换为不同行数的data.frame

我试图从ldply包中应用plyr函数将列表转换为数据框架，但我始终遇到错误。我适用以下一行： final <- plyr::ldply(data, data.frame) 返回此错误：错误： Error in (function (..., row.names = NULL, check.rows = FALSE, check.names = TRUE, : arguments imply differing number of rows: 1, 0 列表必须有相同的行数吗？我想，既然我试图绑定行，那么在每个列表中只有列是相等的。数据： list(`0000001750`

浏览 9提问于2019-03-02得票数 2

回答已采纳

1回答

更新Python脚本中Server表中的所有行

、

在运行Python脚本时，我调用Server表并从列中检索目录。脚本会转到文件中，并对我刮掉几个重要的元素。当我硬编码单个目录和文件名时，我让它正常工作，但是这个脚本对所有适当的文件名都有问题。当我运行select star来获取路径和目录时，它在这里出现了一个带有双斜杠的列表，并进入了类似于JSON的内容。我只需要目录和路径，然后我就可以执行Python代码的其余部分。任何帮助都是非常感谢的。 import html2text from bs4 import BeautifulSoup import pyodbc cnxn = pyodbc.connect('Driver={SQL

浏览 2提问于2021-08-29得票数 0

回答已采纳

4回答

将不同尺寸长度的列表合并在一起

我有一个列表，我试图“合并”在一起。尺寸如下： > dim(lst$`63908`$information) [1] 1 19 > dim(lst$`63908`$filings) [1] 27 11 > dim(lst$`793952`$information) [1] 1 19 > dim(lst$`793952`$filings) [1] 27 11 > dim(lst$`894405`$information) [1] 1 19 > dim(lst$`894405`$filings) [1] 27 11 我试图加入informatio

浏览 0提问于2019-02-02得票数 2

回答已采纳

1回答

Python遍历行并更新SQL Server表

、、

至此，我的Python代码可以正常工作，并返回几行。我需要在Python中获取每一行并在循环中处理它。第一行运行得很好，并且完成了它的功能，但是第二行永远不会运行。显然，我没有正确地循环。我相信我没有迭代结果中的每一行。代码如下： for row in results: print(row[0]) F:\FinancialResearch\SEC\myEdgar\sec-edgar-filings\A\10-K\0000014693-21-000091\full-submission.txt F:\FinancialResearch\SEC\myEdgar\

浏览 25提问于2021-09-10得票数 0

2回答

EDGAR SEC 10-K单节解析器

、、、

您是否知道有任何API (付费或免费)、工具或python包可以解析SEC 10-K文件的各个部分？我正在寻找与整个10-K文件分离的10-K文件的各个部分(例如，项目1:业务，项目1A:风险因素等)，最好从任何页眉(公司名称)、页脚(页码)和包含主要数字数据的表格中清除。我已经用Python语言编写了一个解析器，使用BeautifulSoup处理完整的10-K语句，但是将它们分成单独的部分看起来很有挑战性-尽管不是不可能。在重新发明轮子之前，我想，我先问问社区，他们是否知道任何现有的解决方案。我找到了，它将10-K语句分为几个部分，但只能追溯到2009年。谢谢你的帮助！

浏览 2提问于2020-05-13得票数 1

1回答

如何使用edgarWebR获取多家公司的信息

、

我试着用edgarWebR软件包从EDGAR那里获得公司和他们的档案信息。特别是，我想使用包中的两个函数-- filing_information和company_filings。实际上，我在一个不同的数据集中有数千个cik，但是上面这两个函数都不能处理cik向量。这就是一个例子- library(edagrWebR) comp_file <- company_filings(c("1000045"), before = "20201231", type = "10-K", cou

浏览 6提问于2021-02-25得票数 0

回答已采纳

1回答

如何在python中使用xpath访问表值

、、

我正在尝试访问表值，这些值可以在这里找到- 具体来说，我正试图获取2015年的净销售额(即。233,715)，可在10-K表格第39页找到(见图)。。这是我的密码。 from lxml import html import requests SEC_page = requests.get('https://www.sec.gov/Archives/edgar/data/320193/000119312515356351/d17062d10k.htm') SEC_tree = html.fromstring(SEC_page.content) Descriptio

浏览 3提问于2017-06-18得票数 1

回答已采纳

1回答

在python中为selenium标识的搜索输入项元素的位置

、、、

我正在使用PyCharm中的Python和Selenium到证券交易委员会网站下载一个10-K CSV文件。理想情况下，该程序应要求用户输入“股票代码”，然后转到SEC的网站，输入提供的股票代码，并从页面下载10-K和10-Q CSV文件。我使用微软的股票代码(MSFT)作为示例测试。美国证券交易委员会的Edgar搜索网站如下： https://www.sec.gov/edgar/searchedgar/companysearch.html 我用的是“快速搜索”搜索引擎。我创建了一个'get_edgar_results‘函数来执行此下载。这可能是我对网络抓取的新手，但我认为我正确地识

浏览 19提问于2020-06-19得票数 0

3回答

阅读XBRL事实- Java

、、、

我需要从SEC 10-K文件中得到一些事实，如毛收入、毛利、毛利率、营运费用等，以及相应的上下文。对于像这样的文件，只使用XPath来找出少数必需的元素和值似乎是可行的。但也有一些文件(如() )将总费用划分为不同的部分，并使用扩展分类法进行分类。我的问题是使用这些文件的可靠方法是什么？比如说，如果我只想要运营支出总额。有没有一种可靠的方法可以找到我需要阅读的内容，然后对其进行总结？我尝试使用UBMatrix库读取xbrl文件。它工作在一些文件(非SEC，可以读取节点值)，但对于SEC 10-K文件抛出NPE。证券交易委员会( SEC )的xbrls实例文档之所以失败，有什么特

浏览 1提问于2018-11-21得票数 5

1回答

内核在下载秒-edgar文件时死亡。

我使用木星笔记本和sec_edgar_downloader软件包下载10-K和 10-Q .有一些CIK-的内核在下载他们的文件时死亡。我检查了RAM，但是还好，我认为是因为递归限制。是否允许使用try和except或其他方法跳过它？我正在使用以下代码： `from sec_edgar_downloader import Downloader` dl = Downloader() for i in cik_list: for j in ["10-K","10-Q"]: dl.get(j, i)

浏览 3提问于2021-02-28得票数 0

2回答

如何确保捕获组超过5个字符？

、

我用的是这个代码： (?i)(?<!see )(?<!\d)(?<!")(?<!“)ITEM.*?1A.*?\n*(?<!")(?<!“)RISK.*?FACTORS(?<!")\n*([\s\S]*?)\n*ITEM.*?1B 它是在ITEM 1A. RISK FACTORS和ITEM 1B.之间抓取文本，但是我怎么能只抓取超过5个字符的捕获组呢？全字符串： ITEM 1A. RISK FACTORS 123 ITEM 1B. ITEM 1A. RISK FACTORS In addition to ot

浏览 5提问于2019-10-05得票数 1

回答已采纳

1回答

下载python中SEC EDGAR的所有10k文件

、

我目前已设法刮刮所有的文件，为一个特定的代码。“‘AAPL”和每一种类型的文件及其链接都在一个庞大的字典中呈现。我只想要那些‘类型’：‘10-k’的链接，并下载所有的文件作为HTML文件。已经尝试循环遍历字典并附加到列表中，但仍然得到所有类型。 from urllib.request import urlopen import certifi import json response = urlopen("https://financialmodelingprep.com/api/v3/sec_filings/AMZN?page=0&apikey=aa478b6f376879

浏览 11提问于2022-10-27得票数 1

1回答

网络抓取SEC Edgar 10-K和10-Q文件

、、

有没有人有过抓取SEC 10-K和10-Q文件的经验？当我试图从这些备案文件中剔除每月已实现的股票回购时，我陷入了困境。具体地说，我希望获得以下信息: 1.期限；2.购买的股票总数；3.每股支付的平均价格；4.作为公开宣布的计划或计划的一部分购买的股票总数；5. 2004年至2014年每个月根据计划或计划可购买的股票的最大数量(或近似美元价值)。我总共有90,000+表单要解析，所以手动解析是不可行的。这些信息通常在10-K中的“第2部分第5项注册人普通股市场、相关股东事项和发行人购买股权证券”和“第2部分第2项未登记的股权证券销售和收益的使用”中报告。下面是我需要解析的10-Q文件的一个

浏览 6提问于2015-07-21得票数 21

1回答

通过迭代形成JSON文件的正确方法

、

我需要将几个URL写入一个JSON文件。这就是我到目前为止所做的； for index, document in enumerate(master_data): # create a dictionary for each document in the master list document_dict = {} document_dict['cik_number'] = document[0] document_dict['company_name'] =

浏览 11提问于2020-04-18得票数 1

回答已采纳

1回答

需要帮助才能避免第一次出现有漂亮汤和蟒蛇的东西

、、

我试图搜索证券交易委员会的网站，以找到第一个出现的"10-Q“或"10-K"，并收回在网站上的”互动数据按钮“下的链接。我试图撤回链接的网址是：结果链接应是：我目前使用的代码： import requests from bs4 import BeautifulSoup date1 = "20200506" ticker = "AAPL" URL = 'https://www.sec.gov/cgi-bin/browse-edgar?action=getcompany&CIK=' + ticke

浏览 1提问于2020-07-02得票数 1

回答已采纳

1回答

如何从url下载字典？

、、、

我想从以下网址下载字典：这样做的原因是因为我想把一些数据从迪特提取到熊猫df中。它应该是这样的： filed_date filed_periode form accn 2020-11-01 Q4 10-K 0001193125-15-153166 2020-08-01 Q3 10-Q 0001193125-15-153112 我可以使用以下代码从另一个SEC链接中提取一个数据集： import pandas as pd import urllib import json url1 = 'https

浏览 6提问于2021-10-12得票数 0

回答已采纳

2回答

折叠我的数据提取对角线元素

我提取结果的方式在某种程度上将其保持为数据框架中的对角线元素。我想减少数据，保留行名和行名。即合并行名和行名。 1750:10-K:2006 1800:10-K:2006 1923:10-K:2006 2488:10-K:2006 1750:10-K:2005 0.9291217 NA NA NA 1800:10-K:2005 NA 0.9690067 NA NA 1923:10-K:2005

浏览 5提问于2019-09-19得票数 0

回答已采纳

2回答

如何对SEC 10-K动态数据进行Web抓取

、、

我们正在尝试使用Python解析SEC Edgar文件。我正在尝试获取第21行的表"Sales By Segment Of Business“。这是指向文档的链接。 https://www.sec.gov/ix?doc=/Archives/edgar/data/200406/000020040621000057/jnj-20210704.htm 下面是我们在网上找到的代码。网页中的所有数据都在这个标签下。 <div id="dynamic-xbrl-form" class="position-relative"> 我们无法打印此数据。

浏览 58提问于2021-09-02得票数 0

1回答

在Lambda触发器上从S3逐行读取文件

、、

我正在尝试从Lambda Trigger上的S3逐行读取文件。下面是我的代码 import boto3 def lambda_handler(event, context): """Read file from s3 on trigger.""" s3 = boto3.client("s3") if event: file_obj = event["Records"][0] bucketname = str(file_obj['s3']['bucket'][&#

浏览 21提问于2020-07-02得票数 0

回答已采纳

1回答

不能使用外文或避风港将数据转换为Stata

、

我有一个数据文件，我试图保存为stata .dta文件。我试过了天堂和国外的包裹，但是我发现了一些错误： write_dta(df,"C:/Users/../df.dta") 我收到一个错误： Error in write_dta_(data, normalizePath(path, mustWork = FALSE), version = stata_file_format(version), : Variables of type list not supported yet 外国包裹也是如此： write.dta(df,"C:/Users/../df.dta&#

浏览 0提问于2020-07-24得票数 1

回答已采纳

1回答

从矩阵列表中提取特定行

我有一个矩阵列表，如下所示： [[8]] 2 x 2 sparse Matrix of class "dsCMatrix" 3333:10-K:2006 3333:10-K:2005 3333:10-K:2006 1.0000000 0.9752259 3333:10-K:2005 0.9752259 1.0000000 [[9]] 2 x 2 sparse Matrix of class "dsCMatrix" 3370:10-K:2006 3370:10-

浏览 14提问于2019-09-19得票数 1

回答已采纳

1回答

将列表位置项添加到字典中

、、

-更新-- 我在试图将列表项作为键错误添加到字典中时遇到了困难:0不断出现。这是不断出现的错误： --------------------------------------------------------------------------- KeyError Traceback (most recent call last) <ipython-input-66-8a7b96769ff1> in <module> 4 # create a dictionary for each

浏览 2提问于2021-01-11得票数 0

1回答

Excel从动态表格中获取web数据

、

我正在尝试从中获取完整的球员数据列表。但是，该表是动态的(URL不变)，所以当我设置连接时，Excel只抓取前50行。它没有识别出表中还有另外6个页面我也需要抓取。谁知道如何使用excel中的“获取数据”-> "From Web“功能从如上所示的动态表格中导入数据？

浏览 1提问于2019-10-25得票数 1

2回答

在excel工作簿中查找截断的单元格

、

我已经使用python对SEC网站的特定部分执行了web抓取，并将数据导出到excel文件中。然而，由于excel中的字符限制，只有很少的单元格被截断，即这些单元格中并不是所有的数据都被成功提取。有没有办法突出显示或找到所有这些被截断的单元格？

浏览 0提问于2017-05-09得票数 1

1回答

基于rails 5中的条件动态创建mysql表

、、、

我是Rails的新手，我正在尝试创建一个web应用程序，在这个应用程序中，您可以从页面中抓取一些html，并将其存储到数据库中，以便将其与另一个版本进行比较，例如，更改产品的价格。我想让它工作的方法是每次从新域中刮东西时创建一个新的表。因此，基本上每个域都有自己的变更表。我知道如何使用迁移创建表，但是添加新域时如何动态创建表？

浏览 0提问于2018-02-06得票数 0

回答已采纳

2回答

解析sgml文件

我需要在Java中解析sgml文件。下面是sgml文件中的内容，我需要归档数据，CIK和ASSIGNED-SIC。请在这方面帮助我。 <ACCEPTANCE-DATETIME>20130226172602 <ACCESSION-NUMBER>0001193125-13-077271 <TYPE>10-K <PUBLIC-DOCUMENT-COUNT>15 <PERIOD>20121231 <FILING-DATE>20130226 <DATE-OF-FILING-DATE-CHANGE>20130226 <

浏览 1提问于2013-12-11得票数 0

1回答

无法处理来自Txt文件的任何字符串

、

这绝对很奇怪。我无法处理文本文件中的字符串。我唯一能做的就是打印出来。这是我的代码： val pattern = new Regex("</DOCUMENT>") val file = Source.fromFile(fileLocale)(io.Codec("ISO8859-1")) for (line <- file.getLines()) { // line match { // case "</DOCUMENT>" => {println("fo

浏览 1提问于2014-03-23得票数 0

1回答

如何刮掉隐藏在可折叠元素中的数据？

、、

我正在从这个中抓取数据，在这里我想从选择的文件部分下的可折叠内容中提取一个标记超链接数据。在我的代码中，我使用了find_all() div和所选文件的id -annalOr季度，首先选择在其中找到的div。 from bs4 import BeautifulSoup import requests r = requests.get("https://www.sec.gov/edgar/browse/?CIK=0001084869", headers={'user-agent': 'Mozilla/5.0'}) soup = BeautifulS

浏览 4提问于2021-11-07得票数 0

回答已采纳

1回答

提取/打印XML/XBRL值时出现问题

、、

我正试着在网上抓取SEC网站上的特定标签。我的代码同时使用了XML和XBRL。我不确定是否应该使用XML或XBRL从位于SEC上的这些标记中提取值。在这个问题上，我用我的代码打印了一个空白列表。基本上，我希望提取特定的标记，但我不知道是使用XML还是XBRL，以及如何将这些标记及其值打印到列表中。 from bs4 import BeautifulSoup as soup from urllib.request import urlopen as uReq import requests symbol = 'AAPL' url = "https://www.sec.

浏览 16提问于2020-04-12得票数 0

1回答

XML名称空间解析搜索w/Element Tree和Python

、、、

我已经搜索了所有的XML (包括)和其他地方，但是当存在命名空间前缀时，我仍然无法尝试从XML中提取特定的信息。我试图使用ElementTree从下面的“实例文档”中提取URL。下面是包含URL的行： <edgar:xbrlFile edgar:sequence="2" edgar:file="qcom-20090927.xml" edgar:type="EX-101.INS" edgar:size="1479637" edgar:description="EX-101 INSTANCE DOCUMENT"

浏览 0提问于2013-11-11得票数 0

回答已采纳

1回答

网络抓取facebook“在线好友列表”

、、、

我刚开始使用web抓取，到目前为止，我所做的只是一些基本的python抓取。我真正想要的是让我所有的在线朋友在facebook上刮擦，看看如何刮一些动态变化的东西。所以请告诉我是否可能，从哪里开始等等。谢谢！

浏览 1提问于2013-08-02得票数 0

回答已采纳

3回答

下载大量不可靠的数据

、

我可以访问web界面来获取大量数据。这些数据通常是由只想要少数项目的人访问的。我工作的公司想让我下载整个套装。不幸的是，该界面一次仅允许您查看50个元素(数万个元素)，并将数据分离到不同的文件夹中。不幸的是，所有数据都有相同的url，该url通过对aspx接口的ajax调用动态更新自身。因此，编写一个简单的curl脚本来获取数据是很困难的，因为需要进行身份验证。如何编写一个在页面中导航、触发ajax请求、等待页面更新，然后抓取数据的脚本？这个问题以前解决过吗？谁能给我指个工具包？任何语言都可以，我对大多数web和脚本语言都有很好的工作知识。谢谢!

浏览 1提问于2011-02-01得票数 0

回答已采纳

1回答

速度:保存的对象与数据库

、

我正在为某种形式的天气数据设计一个动态网站，我需要抓取这些数据，因为它总是在变化。我想知道是使用sqlite这样的数据库更快，还是保存对象，在需要时重新加载它们。这两个选项都将保存抓取的数据。可能会使用Python或Ruby，还没有决定。

浏览 1提问于2010-07-16得票数 0

回答已采纳

1回答

鼠标悬停抓取java网页。抓取后不显示动态数据

、

我想从一个特定网站的图表中抓取数据。图形中的此信息只有在我刮擦后将鼠标悬停在graph.But上时才可用，我无法看到输出中的数据，即使它在'Inspect Element‘下可见。我曾尝试使用JSoup抓取数据，但当我抓取数据时，不会显示通过鼠标悬停更改的数据。我该怎么做呢？下面是我要搜集的信息。我必须抓取动态变化的值'184‘。当您将鼠标悬停在上面一行中显示RGB值的图形上时，值184会动态变化。通过将鼠标悬停在图形上，即使这些RGB值也会发生变化。经过抓取后，Jsoup的文档输出如下所示:未显示数字184和RGB值。这些字段是如何在输出中消失的？这是不是因

浏览 1提问于2018-09-21得票数 0

1回答

文本抓取(来自EDGAR 10K Amazon)代码不起作用

、、、、

我有下面的代码，从财务报表(美国证券交易委员会EDGAR 10K)文本文件中抓取一些特定的单词列表。如果你能帮助我，我将不胜感激。我手动交叉检查并在文档中找到了单词，但我的代码根本找不到任何单词。我使用的是Python 3.5.3。提前感谢给定某公司一年内.txt格式的EDGAR 10-K文件的URL路径，此代码将执行字数统计 #!/usr/bin/python # -*- coding: utf-8 -*- import urllib.request as urllib2 import time import csv import sys CIK = '0001018724

浏览 14提问于2019-07-19得票数 1

回答已采纳

4回答

如何使用Beautiful在html页面中获取两个标记之间的内容？

、、

我试图从SEC的EDGAR数据库的10K报告的风险因素一节中提取文本如您所见，我设法确定了风险因素的标题(我想从其中获取所有文本)和未解决的工作人员评论(紧接风险因素之后的部分)，但我无法接着识别/抓取这些标题之间的所有文本(风险因素部分的文本)。正如您在这里看到的，我尝试过"next_sibling“方法和其他一些建议，但是我仍然做错了。代码： import requests import bs4 as bs file = requests.get('https://www.sec.gov/Archives/edgar/data/101830/000010183019

浏览 4提问于2020-10-17得票数 1

回答已采纳

2回答

从txt文件中提取xml

、、、、

我正在尝试从python中的txt文件中提取代码的xml部分。我使用的当前txt文件来自edgar数据库，在一个txt文件中有10-k报告的多种表示形式，先是html，然后是xml，然后是PDF等其他表示形式。如果有人知道提取这个xml的方法，以便我可以使用它的标记，我将非常感激。下面是我正在讨论的txt文件的一个示例：https://www.sec.gov/Archives/edgar/data/51143/000005114313000007/0000051143-13-000007.txt

浏览 33提问于2020-04-28得票数 2

1回答

如何使用R从主索引中下载特定日期的股票价格？

、、、

我很难下载R的股价。这是我的问题。我使用getMasterIndex下载所有SEC文件的MasterIndex，并过滤10-k报告(我只需要10-k报告进行分析) 我需要在提交日期的前一天使用company.name从MasterIndex下载每个公司的股票价格(这意味着我需要在不同的日期获得公司的股价)。但是我使用getSymbol函数失败了，因为它需要的是代码，而不是公司名称。所以我首先要把company.name转到代码上？然后根据相应的(申报日期-1)下载股票价格？但有没有办法直接从company.name of MasterIndex下载股价？我附加了前面的代码

浏览 1提问于2022-06-28得票数 0

1回答

测试发出返回非常动态JSON的请求的API的常用方法是什么

、、、、

我们已经为一组.NET服务编写了一个web包装器API。所有这些操作都是发出请求并返回JSON数据。为此构建测试框架的好方法是什么？我不知道如何做单元测试，因为我必须知道我要返回的预期JSON字符串，这是非常动态和复杂的。我曾想过做一个WebTest，但那只会点击一个页面并抓取URL。有什么想法吗？例如，它发出如下请求： http://supersecretwebsite.com/services/library?command=somecommand&sort_order=ASC&sort_by=MODIFIED_DATE&page_number=0&tok

浏览 4提问于2009-07-28得票数 0

回答已采纳

1回答

如何在Scrapy中模拟XHR请求以动态加载网页？

、、、、

我正在尝试抓取olx.in站点http://www.olx.in/newdelhi/bmw/，我已经将这个URL设置为start_url。现在要转到下一页，因为它不是普通的HTML，但是它是动态的，所以在network中，我看到next按钮用POST方法创建了一个XHR请求。现在我必须用请求方法来模拟它(我猜.)但我不知道它的参数是什么。我对python和web抓取非常抱歉，如果它太笼统，但任何帮助都将不胜感激。

浏览 4提问于2016-01-12得票数 1

回答已采纳

2回答

无法从EDGAR平台检索公司记录

、、

我试图用以下代码从EDGAR平台检索公司信息： library(edgar) library(tidyverse) library(kableExtra) tesla <- getFilingsHTML( cik.no = 0001318605, form.type = '10-K', filing.year = 2017, quarter = c(1,2,3,4) ) 但是，我得到以下错误： No filing information found for given CIK(s) and Form Type in the mentioned yea

浏览 5提问于2020-04-06得票数 0

回答已采纳

1回答

运行在Unicode错误中的嵌套for循环的sec.gov抓取

、、、、

我正试图从美国证券交易委员会( sec )获得一家公司的所有10-K文件链接，这些链接都是由输入选择的。从1993年到现在，每个季度(QTR1-4)都会循环运行。在执行时，我从获得了代码，我遇到了：UnicodeDecodeError：'utf-8‘编解码器无法在13013584位置解码字节0xc3 :无效的连续字节多年来没有for循环，并且有固定的年份/季度工作--那么这里的问题是什么呢？ import bs4 as bs import requests import pandas as pd import re from datetime import datetime def

浏览 3提问于2021-04-05得票数 0

1回答

VBA将XML数据拉到Excel中

、、

关于VBA的一个棘手的问题请看图片，以获得您对此问题的准确看法。如果你在谷歌上输入"SEC EDGAR“ ，然后在“公司搜索”字段中输入BDX 单击“搜索”，然后在搜索结果中单击“第一个文档”按钮。你选择10-K，你就可以得到文件的细节。如果我们选择XBRL实例文档。最后，在元素中的XML文档中正如您在最后一张图片中所看到的，我们有一个元素，它的名字。是否有使用VBA并将其放在我们首选的Excel单元格中来拉这个东西？我是VBA的初学者，所以请多解释一下代码，以及我们从VBE中的工具中添加了哪些引用，以及为什么。实际需要的是一个代码块，它在XML元素之间获取数据(

浏览 2提问于2014-01-28得票数 1

回答已采纳

2回答

在python中有方法删除csv文件中的几行吗？

、、、

我目前正在努力从sec.gov下载2016年第一季度的sec.gov文件。因为我只对10-K感兴趣，所以我想以.csv文件的形式下载该文件，并删除无用的行。我试着按表单类型进行过滤，但没有成功。到目前为止，我的代码如下： import requests import os years = [2016] quarters = ['QTR1'] base_path = '/Users/xyz/Desktop' current_dirs = os.listdir(path=base_path) for yr in years: if str(yr)

浏览 2提问于2020-12-08得票数 1

回答已采纳

1回答

如何在web上从脚本标记和控制台中刮取值

、、、

我在heroku/烧瓶上运行了一个python程序。基本上，我收到了两个钩子。第一个web钩子启动秒表。第二个webhook应该获取秒表的当前值。我正努力抓住秒表的当前价值。似乎有两种选择。通过网络抓取实际变量的值，或者将值打印到控制台，然后从那里抓取它们。我正在考虑使用美丽的汤，但不知道如何抓住实际价值时，秒表运行。下面的代码显示了我使用python呈现的html文件。，当秒表运行时，我如何从程序中获取特定的“秒”变量？或者如何获取正在打印到控制台的信息？ <!DOCTYPE html> <html> <body> <div id=

浏览 3提问于2022-09-22得票数 3

1回答

调用Python对象时超过了最大递归深度--相同的代码对一些公司有效，但对另一些公司无效。

、

我有以下代码： import requests import urllib from bs4 import BeautifulSoup import re master_data=[{'cik_number': '1556179', 'company_name': 'RMR Industrials, Inc.', 'form_id': '10-K', 'date': '20200103', 'file_url': 'https://ww

浏览 4提问于2022-01-15得票数 0

回答已采纳

1回答

处理javascript生成的动态HTML的Ruby on Rails库的最佳web抓取

、、、、

我正在使用Ruby on Rails和机械化库来抓取商店网站。问题是很多时候我不能抓取某些元素。然而，当我在网站上“查看源代码”时，我可以看到这一点。例如，沃尔玛的类别(在这种情况下是“健康”)是不可推卸的。我相信这是因为它是动态生成的HTML (例如，从javascript)。为了解决这个问题，我需要一个浏览器来处理web请求。我也在亚马逊EC2上使用linux机器。安装用于UI抓取的浏览器将会很困难。有没有什么Rails gem/plugin可以帮助我？谢谢大家！！

浏览 0提问于2011-12-13得票数 2

回答已采纳

1回答

在Selenium中测试WebScrape而不运行整个脚本？

、、、

这可能是一个非常基本的问题，但我正在使用Selenium练习web抓取动态页面，我想知道是否有一种方法只测试表部分的web抓取，而不必运行整个代码？我是个菜鸟，只是不知道自己做错了什么？因为我的代码有很多延迟，所以在使用selenium单击“通过”按钮并登录到要刮表的页面时，可以防止出现错误。但是，当我一遍又一遍地测试我的web擦伤时，需要花费大量的时间来不断地等待整个脚本的运行。

浏览 9提问于2022-03-14得票数 0

回答已采纳