如何在python中使用Selenium和Beautifulsoup解析网站?[关闭]
问题内容:
在这里很难说出要问什么。这个问题是模棱两可,含糊,不完整,过于宽泛或夸张的,不能以目前的形式合理地回答。如需帮助澄清此问题以便可以重新打开,
请访问帮助中心。
7年前关闭。
编程新手,并弄清楚了如何使用Selenium导航到需要去的地方。我想立即解析数据,但不确定从哪里开始。有人可以握住我的手几秒钟,然后将我指向正确的方向吗?
任何帮助表示赞赏-
问题答案:
假设您在要解析的页面上,Selenium将源HTML存储在驱动程序的page_source
属性中。这样,你会加载page_source
到BeautifulSoup
如下:
In [8]: from bs4 import BeautifulSoup
In [9]: from selenium import webdriver
In [10]: driver = webdriver.Firefox()
In [11]: driver.get('http://news.ycombinator.com')
In [12]: html = driver.page_source
In [13]: soup = BeautifulSoup(html)
In [14]: for tag in soup.find_all('title'):
....: print tag.text
....:
....:
Hacker News