我的团队一直在使用Sharepoint 2010抓取大量外部网站。
Sharepoint web爬虫没有提供足够的可配置性,因此我们一直使用快速web爬虫来运行爬虫。
但是,在Sharepoint 2013中,FAST web crawler似乎已被弃用/与Sharepoint web crawler合并。
我找不到关于如何配置2013 Web Crawler组件的重要文档。它比2010年的Sharepoint爬虫更强大吗?
我正在尝试使用云构造来创建和调用AWS Glue爬虫。爬虫的创建部分(作为目标的发电机数据库)在lambda函数中。 我如何使用云形成来实现所有这些?例如,从s3中存在的cod创建λ函数,在创建lambda函数后,应该触发它来创建爬虫程序,然后应该调用爬虫程序来创建目标表。我希望所有这些都是云的形成。 参考链接:Is it possible to trigger a lambda on creation from CloudFormation template