提问者:小点点

为什么我不能使用标准代码从网页中提取链接?


我正在做一个项目,目前需要从拍卖行网页提取所有链接。 然而,下面提供的标准代码只适用于其中一个(https://www.phillips.com/auctions/past)。 对于苏富比拍卖行,该代码不返回任何内容(https://www.sothebys.com/en/results),而对于佳士得拍卖行,该代码返回的是无法使用的奇怪链接,因为它们会导致错误(https://www.christies.com/results/)。

from bs4 import BeautifulSoup, SoupStrainer
import requests

url = "https://www.sothebys.com/en/results"

page = requests.get(url)    
data = page.text
soup = BeautifulSoup(data)

for link in soup.find_all('a'):
    print(link.get('href'))

这些网站的问题是什么,或者我可以使用什么替代方法?


共1个答案

匿名用户

有时你必须在请求中添加头,这样网站才能返回一些东西。 检查此响应。 希望能有所帮助。