在Ruby中,使用HTML Web Scraping库,如Nokogiri,可以很容易地提取网页中的文本并将其填充到数组中。以下是一个简单的步骤指南:
首先,确保你已经安装了Nokogiri库。如果没有安装,可以使用以下命令安装:
gem install nokogiri
下面是一个示例代码,展示了如何使用Nokogiri从一个网页中提取所有的段落文本,并将它们填充到一个数组中:
require 'nokogiri'
require 'open-uri'
# 目标网页的URL
url = 'http://example.com'
# 使用Nokogiri解析网页
doc = Nokogiri::HTML(open(url))
# 创建一个空数组来存储提取的文本
texts = []
# 查找所有的<p>标签并提取文本
doc.css('p').each do |paragraph|
texts << paragraph.text.strip # 添加文本到数组,并去除首尾空白
end
# 输出数组内容
puts texts.inspect
require 'nokogiri'
和 require 'open-uri'
引入了必要的库。Nokogiri::HTML(open(url))
打开并解析了指定的网页。doc.css('p')
选择所有的 <p>
标签。.each do |paragraph| ... end
遍历每个段落,并使用 paragraph.text.strip
提取并清理文本。texts << paragraph.text.strip
将清理后的文本添加到数组中。robots.txt
文件的规定。领取专属 10元无门槛券
手把手带您无忧上云