首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    如何判断一个网页是列表还是详情

    那么这里面可能就有四个关键部分: •判断当前所在的页面是列表还是文章(详情)•识别出列表下一的链接•识别出列表所有列表链接•识别出文章(详情)的文章内容和其他信息 如果我们能把这四步都用算法实现出来...那么这篇文章我们就来简单说下第一步,如何判断当前所在的页面的列表还是文章(详情)。 注:后文中文章统一称之为详情。...判断是否是列表•probability_of_detail:是详情的概率,结果是 0-1•probability_of_list:是列表的概率,结果是 0-1 例如,我们随便可以找几个网址存下来,...比如把上文的列表和详情HTML 代码存下来分别保存为 list.html 和 detail.html。...(html)) print(is_detail(html), is_list(html)) 这里我们就调用了以上四个方法来实现了页面类型和置信度的判断

    2.4K50
    领券