作为研究的一部分,我需要尽可能多地通过网络下载免费可用的RDF (资源描述框架- *.rdf)文件。在Python中有哪些理想的库/框架可以用来实现这一点?
有没有网站/搜索引擎可以做到这一点?我尝试过Google文件类型:RDF search。最初,Google会向您显示6960,000个结果。但是,当您浏览单个结果页面时,结果会急剧下降到205个结果。我写了一个脚本来抓取和下载文件,但是205个对我的研究来说是不够的,我确信web上有超过205个文件。所以,我真的需要一个文件爬虫。我想知道是否有任何在线或离线工具可以用于此目的,或者Python中的框架/示例脚本可以实现这一点。在这方面的任何帮助都是非常感谢的。
发布于 2011-07-13 23:23:43
从Web爬行RDF内容与爬行任何其他内容没有什么不同。也就是说,如果你的问题是“什么是好的python Web爬虫”,那么你应该阅读这个问题:Anyone know of a good Python based web crawler that I could use?。如果您的问题与使用python处理RDF有关,那么有几种选择,其中一种是RDFLib。
发布于 2011-07-13 23:15:10
你有没有注意到在一个页面的底部有类似"google已经隐藏了相似的结果,点击这里来显示所有结果“之类的文字?也许能帮上忙。
发布于 2013-04-14 02:39:46
我知道我对这个问题的回答有点晚了--但是对于将来的搜索者来说-- http://sindice.com/是一个很好的rdf文档索引
https://stackoverflow.com/questions/6681043
复制相似问题