使用python刮Ajax页面


问题内容

我已经看到了有关刮Ajax的问题,但是这里没有提到python。我考虑过使用scrapy,我相信他们有一些关于该主题的文档,但是正如您所见,该网站已经关闭。所以我不知道该怎么办。我要执行以下操作:

我只有一个URL,例如example.com,您可以通过单击“提交”来逐页访问,由于使用ajax来显示内容,因此URL不会更改。我想抓取每个页面的内容,怎么做?

可以说我只想抓取数字,除了scrapy以外,还有其他方法可以做到吗?如果没有,您能不能给我一个摘要,只是因为他们的网站关闭了,所以我找不到文档。


问题答案:

首先,可从https://scrapy.readthedocs.org/en/latest/获得草率文档。

谈到在抓取Web时处理Ajax。基本上,这个想法很简单:

  • 打开浏览器开发者工具的“网络”标签
  • 前往目标地点
  • 单击提交按钮,看看有什么XHR请求要发送到服务器
  • XHR在您的蜘蛛中模拟此请求

另请参阅:

希望能有所帮助。