首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

搭建一个简单的小说网站教程

导语:

很早的时候就有个搭建小说网站的想法,没有会员,没有弹窗,没有广告,能够简简单单看看小说。现在看来有不少的优秀小说网站系统,可以满足快速搭建,快速爬取文章的效果;多方比较后,选择了比较小众的易读小说系统,既能快速的搭建网站,又有自带的爬取引擎,非常适合刚接触小说网站搭建的人来练手。

小说网站组成

1.主体框架,开源和非开源

2.文章获取,自动爬取和手动填充

3.组织结构,管理员和普通读者

4.运营体系,是否有广告,是否有会员,是否有阅读限制,是否有版权问题

易读小说系统

易读小说(https://www.51yd.org/)是国内的神秘大牛开发的,简单方便,适用于Windows系统和Linux系统,还提供了爬取的正则表达式的规则(http://rules.51yd.org/),更加灵活爬取其他的小说站点。

搭建和使用

搭建使用建议最好使用Centos系统,作者提供了一套自动化搭建的部署脚本。

安装具体操作如下:

1.进入安装目录

2.下载一件自动化部署安装包,然后解压unzip YiDuInstaller-V1.x.xBeta.zip

3.进入解压好的目录,赋予install.sh脚本执行权限,chmod +x install.sh

4.最后执行sh install.sh,等待安装完毕

使用方式:

1.网站是Java开发,Tomcat作为应用,端口是8080,程序使用管理方式service tomcat restart

2.网站是由Apache作为Web反向代理,配置文件是/etc/httpd/conf.d/proxy_ajp.conf,一般很少变更service httpd restart

文章爬取

易读小说系统提供了自己的一套爬取引擎,默认路径是在/usr/local/spider/里面,启动非常简单./start.sh,但是文章爬取规则就比较复杂了。以下是自己的使用心得:

1.尽量选择一些更新稳定的网站。(最后发现笔趣阁之类的都是一个模板套路出来的)

2.规则的使用的变量就是正则表达式的匹配出来的结果。

3.通过http://rules.51yd.org/网站模拟出来的结果,换算成真正使用的xml文件。

以找寻小说编号的变量为实例:

我想爬取http://www.800txt.net的小说编号,那就去找最新更新的小说编号,因为爬取过来的时候想要的也是最新的,所以一般网站要么在首页有更新的列表,要么就在单独的更新列表。确认好了列表页面后,就要获得小说的编号变量,

总结

小说网站的搭建初衷并非是为了商业运营,只是想体验技术带来的新感受,所以请在爬取其他正规网站的内容同时,请注意小说网站和小说作者的权益!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181029G1ZIXV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券