学爬虫还得了解一下HTML网页啊
F12
,整个网页的架构都出来了,或者在网页上面按下ctr+u
整个网页的源码就会在新建标签页里面显示出来。你可以仔细阅览整个源码从而了解整个网页结构。
<html> <body>
<h1>我的第一个标题</h1>
<p>我的第一个段落。</p> </body> </html>
HTML 标签
<html>
HTML 标签通常是成对出现的,比如 <b>
和 </b>
标签对中的第一个标签是开始标签,第二个标签是结束标签
开始和结束标签也被称为开放标签和闭合标签HTML 文档 = 网页
HTML 文档描述网页 HTML 文档包含 HTML 标签和纯文本 HTML 文档也被称为网页 Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用标签来解释页面的内容:
<html>
<body>
<h1>我的第一个标题</h1>
<p>我的第一个段落。</p>
</body>
</html>
<html>
与 </html>
之间的文本描述网页
<body>
与 </body>
之间的文本是可见的页面内容
<h1>
与 </h1>
之间的文本被显示为标题
<p>
与</p>
之间的文本被显示为段落
HTML 标题(Heading)是通过<h1> - <h6>
等标签进行定义的。
实例
<h1>
This is a heading</h1>
<h2>
This is a heading</h2>
<h3>
This is a heading</h3>
HTML 段落是通过 <p>
标签进行定义的。
实例
<p>
This is a paragraph.</p>
<p>
This is another paragraph.</p>
HTML 链接是通过 <a>
标签进行定义的。
实例
<a href="https://i.loli.net/2019/09/12/WKfMOrkwDZgAXuS.jpg">This is a link</a>
注释:在 href 属性中指定链接的地址
HTML 图像是通过 <img>
标签进行定义的。
实例
注释:图像的名称和尺寸是以属性的形式提供的。