首页
学习
活动
专区
圈层
工具
发布

Python 小爬虫 - 爬取今日头条街拍美女图

http 请求: 可以看到请求的 URL(Request URL)为:http://www.toutiao.com/search_content/, 其请求参数为: 很容易猜测 offset 表示偏移量...,即已经请求的文章数;format 为返回格式,这里返回的是 json 格式的数据;keyword 是我们的搜索关键字;autoload 应该是自动加载的指示标志,无关紧要;count 为请求的新文章数量...,通过调用其 decode 方法将其编码成 string 类型字符串,默认为 UTF-8 编码。...基本步骤就是这么多了,整理下爬取流程: 指定查询参数,向 http://www.toutiao.com/search_content/ 提交我们的查询请求。...修改查询参数,以使服务器返回新的文章数据,继续第一步。 完整代码挂在了 GitHub 上 ,代码中已经加了详细的注释,我运行此代码后一共爬取了大概 1000 多张图片。

1.7K50
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Django 视图层

    1.HttpRequest.GET 一个类似于字典的对象,包含HTTP GET的所有参数,详情参考QueryDict对象 2.HttpRequest.POST 一个类似于字典的对象,如果请求中包含表单数据...例如:'GET','POST' 6.HttpRequest.encoding 一个字符串,表示提交的数据的编码方式(如果为None则表示使用DEFAULT_CHARSET设置).这个属性是可写的...,可以通过修改他来改变表单数据的编码,任何随后的属性访问将使用新的编码方式. 7.HttpRequest.META 一个标准的Python字典,包含所有的HTTP首部,具体的头部信息取决于客户端和服务端...QUERY_STRING —— 单个字符串形式的查询字符串(未解析过的形式)。 REMOTE_ADDR —— 客户端的IP 地址。...request常用方法 1.HttpRequest.get_full_path() 返回完成参数列表的path,如果可以将加上查询字符串,例如:"/music/bands/the_beatles

    2.6K20

    Django模板语言与视图(view)

    ,它将以这样的顺序   查询: 字典查询(Dictionary lookup) 属性或方法查询(Attribute or method lookup) 数字索引查询(Numeric index lookup...GET              包含所有HTTP  GET参数的类字典对象 POST           包含所有HTTP POST参数的类字典对象 body            请求体,byte类型...0.HttpRequest.scheme 表示请求方案的字符串(通常为http或https) 1.HttpRequest.body   一个字符串,代表请求报文的主体。...例如:"GET"、"POST" 4.HttpRequest.encoding   一个字符串,表示提交的数据的编码方式(如果为 None 则表示使用 DEFAULT_CHARSET 的设置,默认为...如果你知道表单数据的编码不是 DEFAULT_CHARSET ,则使用它。 5.HttpRequest.GET   一个类似于字典的对象,包含 HTTP GET 的所有参数。

    4.1K20

    Django之views系统

    0.HttpRequest.scheme 表示请求方案的字符串(通常为http或https) 1.HttpRequest.body   一个字符串,代表请求报文的主体。...例如:"GET"、"POST" 4.HttpRequest.encoding   一个字符串,表示提交的数据的编码方式(如果为 None 则表示使用 DEFAULT_CHARSET 的设置,默认为...如果你知道表单数据的编码不是 DEFAULT_CHARSET ,则使用它。 5.HttpRequest.GET   一个类似于字典的对象,包含 HTTP GET 的所有参数。...QUERY_STRING —— 单个字符串形式的查询字符串(未解析过的形式)。 REMOTE_ADDR —— 客户端的IP 地址。...2.HttpRequest.get_full_path()   返回 path,如果可以将加上查询字符串。   例如:"/music/bands/the_beatles/?

    2.8K70

    Django Response对象3.4

    采用的编码字符集,字符串类型 status_code:响应的HTTP响应状态码 content-type:指定输出的MIME类型 方法 init :使用页内容实例化HttpResponse对象 write...参数data是字典对象 JsonResponse的默认Content-Type为application/json from django.http import JsonResponse def index2..._404(klass, args, *kwargs) 通过模型管理器或查询集调用get()方法,如果没找到对象,不引发模型的DoesNotExist异常,而是引发Http404异常 klass:获取对象的模型类...、Manager对象或QuerySet对象 **kwargs:查询的参数,格式应该可以被get()和filter()接受 如果找到多个对象将引发MultipleObjectsReturned异常 from..._404(klass, args, *kwargs) klass:获取列表的一个Model、Manager或QuerySet实例 **kwargs:查寻的参数,格式应该可以被get()和filter()

    1.2K20

    python 终极篇 --- django

    GET 包含所有HTTP GET参数的类字典对象 POST 包含所有HTTP POST参数的类字典对象 body 请求体,byte类型...0.HttpRequest.scheme 表示请求方案的字符串(通常为http或https) 1.HttpRequest.body   一个字符串,代表请求报文的主体。...例如:"GET"、"POST" 4.HttpRequest.encoding   一个字符串,表示提交的数据的编码方式(如果为 None 则表示使用 DEFAULT_CHARSET 的设置,默认为...如果你知道表单数据的编码不是 DEFAULT_CHARSET ,则使用它。 5.HttpRequest.GET   一个类似于字典的对象,包含 HTTP GET 的所有参数。...2.HttpRequest.get_full_path()   返回 path,如果可以将加上查询字符串。   例如:"/music/bands/the_beatles/?

    2.2K10

    Django学习笔记之Django视图View

    0.HttpRequest.scheme 表示请求方案的字符串(通常为http或https) 1.HttpRequest.body   一个字符串,代表请求报文的主体。...例如:"GET"、"POST" 4.HttpRequest.encoding   一个字符串,表示提交的数据的编码方式(如果为 None 则表示使用 DEFAULT_CHARSET 的设置,默认为...如果你知道表单数据的编码不是 DEFAULT_CHARSET ,则使用它。 5.HttpRequest.GET   一个类似于字典的对象,包含 HTTP GET 的所有参数。...QUERY_STRING —— 单个字符串形式的查询字符串(未解析过的形式)。 REMOTE_ADDR —— 客户端的IP 地址。...2.HttpRequest.get_full_path()   返回 path,如果可以将加上查询字符串。   例如:"/music/bands/the_beatles/?

    2.3K30

    requests:Python最经典的http库

    互联网上的每一个文件都有一个唯一的 URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它 URL 的一般语法格式为: protocol://host[:port]/path/[?...的默认端口为80 path 路径,由零或多个 ‘/’ 符号隔开的字符串,一般用来表示主机上的一个目录或文件地址 query 参数,以键值对的形式通过 & 来连接 fragment 片段,# 后面内容常见于链接...字典 url为基准的url地址,不包含查询参数;该方法会自动对params字典编码,然后和url拼接 url 字符串 requests 发起请求的地址 headers 字典 请求头,发送请求的过程中请求的附加内容携带着一些必要的参数...cookies 字典 携带登录状态 proxies 字典 用来设置代理 ip 服务器 timeout 整型 用于设定超时时间, 单位为秒 2.2 post 2.2.1 基本语法 word = input...resp.encoding 从http header 中猜测的相应内容编码方式 resp.apparent_encoding 从内容中分析出的响应内容编码方式(备选编码方式) resp.content

    3.1K30

    Bittorrent 协议浅析(四)分布式哈希

    图片 图片 KRPC协议 上述的 UDP 收到的数据即为 KRPC 的 ping 查询,KRPC 协议是一种简单的远程过程调用(RPC),由通过 UDP 发送的编码字典组成,编码方式与BitTorrent...元数据文件编码方式一样为 Becode 编码。...a 和 q 则是 q 这一查询的附加键。q 是一个字符串,其中包含查询的方法名称。a 是一个字典,其中包含查询参数。...y 值为 r 或 KRPC 消息字典包含键 r 则表明是成功完成查询后发送响应消息,类型为字典。 y 值为 e 或 KRPC 消息字典包含键 e 则表明是失败完成查询后发送响应消息,类型为列表。..."values":一个包含对等节点信息字符串的列表,每个字符串包括单个对等节点的紧凑地址端口信息。 "nodes": 最大桶容量数量的节点紧凑编码进行响应,与上文一致。

    1.3K11

    Django之视图层与模板层

    例如:"GET"、"POST" 应该通过该属性的值来判断请求方法 二.HttpRequest.GET 值为一个类似于字典的QueryDict对象,封装了GET请求的所有参数,可通过HttpRequest.GET.get...('键')获 取相对应的值 三.HttpRequest.POST 值为一个类似于字典的QueryDict对象,封装了POST请求所包含的表单数据,可通过 HttpRequest.POST.get('...name=ylpb&age=10" #part4 一.HttpRequest.META 值为包含了HTTP协议的请求头数据的Python字典,字典中的key及期对应值的解释如下 CONTENT_LENGTH...HTTP_ACCEPT —— 响应可接收的Content-Type。 HTTP_ACCEPT_ENCODING —— 响应可接收的编码。...HTTP_USER_AGENT —— 客户端使用的软件版本信息 QUERY_STRING —— 单个字符串形式的查询字符串(未解析过的形式)。 REMOTE_ADDR —— 客户端的IP地址。

    10.7K10

    Python Web 之Flask基础(一)

    Windows命令行的默认编码是GBK,而Python3中默认编码是UTF-8,因此可以临时将Windows命令行切换为UTF-8编码 # 切换编码为utf-8 chcp 65001 #手动安装 markupsafe...,存储请求提交的所有表单字段 args 一个字典,存储通过 URL查询字符串传递的所有参数 values 一个字典,form 和args 的合集 cookies 一个字典,存储请求的所有 cookie...headers 一个字典,存储请求的所有 HTTP首部 files 一个字典,存储请求上传的所有文件 get_data() 返回请求主体缓冲的数据 get_json() 返回一个Python字典,包含解析请求主体后得到的...path URL的路径部分 query_string URL的查询字符串部分,返回原始二进制值 full_path URL的路径和查询字符串部分 url 客户端请求的完整URL base_url 同url...,但没有查询字符串部分 remote_addr 客户端的IP地址 environ 请求的原始WSGI环境字典 响应 Flask 调用视图函数后,会将其返回值作为响应的内容。

    1.7K40
    领券