我正在做一个项目,目前需要从拍卖行网页提取所有链接。 然而,下面提供的标准代码只适用于其中一个(https://www.phillips.com/auctions/past)。 对于苏富比拍卖行,该代码不返回任何内容(https://www.sothebys.com/en/results),而对于佳士得拍卖行,该代码返回的是无法使用的奇怪链接,因为它们会导致错误(https://www.christies.com/results/)。
from bs4 import BeautifulSoup, SoupStrainer
import requests
url = "https://www.sothebys.com/en/results"
page = requests.get(url)
data = page.text
soup = BeautifulSoup(data)
for link in soup.find_all('a'):
print(link.get('href'))
这些网站的问题是什么,或者我可以使用什么替代方法?
有时你必须在请求中添加头,这样网站才能返回一些东西。 检查此响应。 希望能有所帮助。