为什么urllib.urlopen.read()与源代码不对应?
问题内容:
我正在尝试获取以下网页:
import urllib
urllib.urlopen("http://www.gallimard-jeunesse.fr/searchjeunesse/advanced/(order)/author?catalog[0]=1&SearchAction=1").read()
结果与例如使用Google Chrome浏览器检查网页的源代码时所看到的不一致。
您能告诉我为什么会发生这种情况,以及如何改善代码以解决该问题吗?
感谢您的帮助。
问题答案:
您从中得到的urlopen
是原始网页,这意味着不执行任何JavaScript。从Chrome(或其他浏览器)获得的最终网页是最终网页,其中包含可执行的javascript(可能会更改HTML),css渲染等。所有这些都不会在urlopen
…中发生
因此区别,希望这是清楚的