在不下载网页的情况下,使用Python检查链接是否无效


问题内容

对于那些知道的人wget,它有一个选项--spider,该选项使您无需实际下载网页即可检查链接是否断开。我想在Python中做同样的事情。我的问题是,我有一份要检查的100‘000个链接列表,每天最多一次,每周至少一次。无论如何,这都会产生很多不必要的流量。

据我从urllib2.urlopen()文档中了解,它不会下载页面,而只会下载元信息。这个对吗?还是有其他方法可以很好地做到这一点?

最好,
Troels


问题答案:

您应该为此使用HEAD
Request
,它向Web服务器询问没有正文的标头。请参阅如何在Python
2中发送HEAD HTTP请求?