大家好!假设我有一个页面,它是我用这个脚本得到的:
page = urllib2.urlopen(url).read()
在抓取网页时,我如何有效地(快速)检查此内容是否已经抓取?我的算法是这样的:
seenContents = set()
then check if crawled content is in set or not
但我不知道该在该集合上存储什么,哈希值或其他?你能推荐些什么吗?
主要的问题是,是否有任何方法可以将多个django表单捆绑到单个实例中,以明确我需要解释我的问题:
我已经创建了一堆窗体类,它们需要协同工作才能显示单个视图。
from_form = move_forms.WaypointForm(prefix="marker-from", instance=move.from_place)
to_form = move_forms.WaypointForm(prefix="marker-to", instance=move.to_place)
#Notice that last two form are