为什么urllib.urlopen.read()与源代码不对应?


问题内容

我正在尝试获取以下网页:

import urllib
urllib.urlopen("http://www.gallimard-jeunesse.fr/searchjeunesse/advanced/(order)/author?catalog[0]=1&SearchAction=1").read()

结果与例如使用Google Chrome浏览器检查网页的源代码时所看到的不一致。

您能告诉我为什么会发生这种情况,以及如何改善代码以解决该问题吗?

感谢您的帮助。


问题答案:

您从中得到的urlopen是原始网页,这意味着不执行任何JavaScript。从Chrome(或其他浏览器)获得的最终网页是最终网页,其中包含可执行的javascript(可能会更改HTML),css渲染等。所有这些都不会在urlopen…中发生

因此区别,希望这是清楚的