大家好,今天向大家推荐一个开源项目——SkyEyeSystem。
这是一个基于Spring Boot的全网热点爬虫项目,旨在提供全面而准确的全网热搜数据。
SkyEyeSystem通过定时任务间隔10min爬取全网热搜数据。目前包括的平台有:
在获取到数据后
SkyEyeSystem会将原始数据存入MySQL
进行词频统计后存入Redis,
以便开发者们能够更方便地分析和利用这些热搜数据。
同时会以页面的形式展示出所有平台的数据。
当然 也可以自定义自己希望爬取的平台,作者提供了非常清晰的教程,只需要提供对应的平台类,自定义处理爬虫逻辑即可。
INSERT INTO sky_eye_system.hot_platform
VALUES (2,
'微博',
'https://ts3.cn.mm.bing.net/th?id=ODLS.05d45f55-2151-4d66-83e5-d10018607094&w=32&h=32&qlt=90&pcl=fffffa&o=6&pid=1.2',
'随时随地发现新鲜事!微博带你欣赏世界上每一个精彩瞬间,了解每一个幕后故事。分享你想表达的,让全世界都能听到你的心声!',
'https://weibo.com',
'随时随地发现新鲜事!',
'王志东',
null,
null,
0);
public class XXXCrawler implements HotDataCrawler {
// 平台表中的id
private static final Long PLATFORM_ID = ${platformId};
private PlatformMapper platformMapper;
@Override
public List<HotSpot> crawlHotSpotData() {
// 执行自定义爬虫逻辑 返回的HotSpot列表。
return hotSpotList;
}
@Override
public Platform getPlatform() {
return platformMapper.selectById(PLATFORM_ID);
}
}
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。