首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

[Python从零到壹] 十.网络爬虫之Selenium爬取在线百科知识万字详解(NLP语料构造必备)

随着互联网和大数据的飞速发展,我们需要从海量信息中挖掘出有价值的信息,而在收集这些海量信息过程中,通常都会涉及到底层数据的抓取构建工作,比如多源知识库融合、知识图谱构建、计算引擎建立等。其中具有代表性的知识图谱应用包括谷歌公司的Knowledge Graph、Facebook推出的实体搜索服务(Graph Search)、百度公司的百度知心、搜狗公司的搜狗知立方等。这些应用的技术可能会有所区别,但相同的是它们在构建过程中都利用了Wikipedia、百度百科、互动百科等在线百科知识。所以本章将教大家分别爬取这三大在线百科。

02

自动化测试——selenium(环境部署和元素定位篇)

一、什么是selenium? > 一个web自动化测试工具; 二、主流的自动化工具: > QTP:收费 支持(支持web、桌面软件自动化) > selenium:免费,开源 只支持web项目 > Robot frameword: 基于Python扩展关 键字驱动自动化工具 注意:要是用selenium自动化工具,要先下载安装selenium 一、web自动化环境部署 1.1 selenium安装 1、安装 在cmd 直接输入 :pip install selenium 2、卸载: 在cmd输入:pip uninstall selenium 3、查看: pip show selenium 或者 pip list pip 是python中包管理工具(可安装,可卸载,查看python工具),使用pip的时候必须联网 有的输入 pip install selenium 会提示出现 ‘pip’ 不是内部或外部命令,也 不是可运行的程序或批处理文件。产生这个原因python环境内部没有 pip 路径,则需要我们收到导入 解决方法: 1、找到我们python工具中的pip所在文件夹,复制其路径

01

html表格基础及案例示图代码。[通俗易懂]

列表标签 有序列表:标签

    type=””>属性值有A,a,I,i,1 start=”“> 属性值为数字 有序列表的列表项
  1. 无序列表:标签
      type=””>属性值有disc circle square 无序列表的列表项
    • 自定义列表:标签
      列表的标题
      ;列表的列表项 表格标签 表格的属性
      背景颜色
      边框
      背景
      宽度
      单元格与单元格之间的距离
      单元格与字体之间的距离
      高度
      对齐,值:left right center
      边框颜色 表格的表头标签。具有表格的行 bgcolor 背景颜色 backgroung 背景 height 高度 align 行的水平对齐方式 值有 right left center valign 行的垂直对齐方式 值有 top bottom middle
      的所有属性默认加粗居中
      单元格 bgcolor 背景颜色 backgroung 背景图片 width 宽度 height 高度 align 单元格的水平对齐方式 ralign 单元格的垂直对齐方式 rowspan 合并行(垂直合并) colspan 合并列(水平对齐方式) 表格 表格是用来展示数据的 width 和 height 一般只写一个另一个会等比例改变 表格标签 表格的属性
      背景颜色
      边框
      背景
      宽度
      单元格与单元格之间的距离
      单元格与字体之间的距离
      高度
      对齐,值:left right center
      边框颜色 表格的表头标签。具有表格的行 bgcolor 背景颜色 backgroung 背景 height 高度 align 行的水平对齐方式 值有 right left center valign 行的垂直对齐方式 值有 top bottom middle
      的所有属性默认加粗居中
      单元格 bgcolor 背景颜色 backgroung 背景图片 width 宽度 height 高度 align 单元格的水平对齐方式 ralign 单元格的垂直对齐方式 rowspan 合并行(垂直合并) colspan 合并列(水平对齐方式) 列表标签 有序列表:标签
        type=””>属性值有A,a,I,i,1 start=”“> 属性值为数字 有序列表的列表项
      1. 无序列表:标签
          type=””>属性值有disc circle square 无序列表的列表项
        • 自定义列表:标签
          列表的标题
          ;列表的列表项 图像:图像标签 图片的路径 图片的高度 <img heigh

          03

          用python操作浏览器的三种方式

          第一种:selenium导入浏览器驱动,用get方法打开浏览器,例如: import time from selenium import webdriver def mac():     driver = webdriver.Firefox()     driver.implicitly_wait(5)     driver.get("http://huazhu.gag.com/mis/main.do") 第二种:通过导入python的标准库webbrowser打开浏览器,例如: >>> import webbrowser >>> webbrowser.open("C:\\Program Files\\Internet Explorer\\iexplore.exe") True >>> webbrowser.open("C:\\Program Files\\Internet Explorer\\iexplore.exe") True  第三种:使用Splinter模块模块 一、Splinter的安装 Splinter的使用必修依靠Cython、lxml、selenium这三个软件。所以,安装前请提前安装 Cython、lxml、selenium。以下给出链接地址: 1)http://download.csdn.net/detail/feisan/4301293 2)http://code.google.com/p/pythonxy/wiki/AdditionalPlugins#Installation_no 3)http://pypi.python.org/pypi/selenium/2.25.0#downloads 4)http://splinter.cobrateam.info/ 二、Splinter的使用   这里,我给出自动登录126邮箱的案例。难点是要找到页面的账户、密码、登录的页面元素,这里需要查看126邮箱登录页面的源码,才能找到相关控件的id.   例如:输入密码,密码的文本控件id是pwdInput.可以使用browser.find_by_id()方法定位到密码的文本框, 接着使用fill()方法,填写密码。至于模拟点击按钮,也是要先找到按钮控件的id,然后使用click()方法。 #coding=utf-8   import time   from splinter import Browser  def splinter(url):   browser = Browser()      #login 126 email websize    browser.visit(url)       #wait web element loading   time.sleep(5)      #fill in account and password   browser.find_by_id('idInput').fill('xxxxxx')  browser.find_by_id('pwdInput').fill('xxxxx')      #click the button of login    browser.find_by_id('loginBtn').click()       time.sleep(8)       #close the window of brower       browser.quit()   if __name__ == '__main__':       websize3 ='http://www.126.com'       splinter(websize3)  WebDriver简介 selenium从2.0开始集成了webdriver的API,提供了更简单,更简洁的编程接口。selenium webdriver的目标是提供一个设计良好的面向对象的API,提供了更好的支持进行web-app测试。从这篇博客开始,将学习使用如何使用python调用webdriver框架对浏览器进行一系列的操作 打开浏览器 在selenium+python自动化测试(一)–环境搭建中,运行了一个测试脚本,脚本内容如下: from selenium import webdriver import time driver = webdriver.Chrome() driver.get("http://www.baidu.com") print(driver.title) driver.find_element_by_id("kw").send_keys("s

          05
          领券