为什么我不能使用标准代码从网页中提取链接？

提问者：小点点

为什么我不能使用标准代码从网页中提取链接？

我正在做一个项目，目前需要从拍卖行网页提取所有链接。然而，下面提供的标准代码只适用于其中一个（https://www.phillips.com/auctions/past）。对于苏富比拍卖行，该代码不返回任何内容（https://www.sothebys.com/en/results)，而对于佳士得拍卖行，该代码返回的是无法使用的奇怪链接，因为它们会导致错误（https://www.christies.com/results/）。

from bs4 import BeautifulSoup, SoupStrainer
import requests

url = "https://www.sothebys.com/en/results"

page = requests.get(url)    
data = page.text
soup = BeautifulSoup(data)

for link in soup.find_all('a'):
    print(link.get('href'))

这些网站的问题是什么，或者我可以使用什么替代方法？

共1个答案

匿名用户

有时你必须在请求中添加头，这样网站才能返回一些东西。检查此响应。希望能有所帮助。

为什么我不能使用标准代码从网页中提取链接？

共1个答案

相关问题

热门标签

为什么我不能使用标准代码从网页中提取链接？

共1个答案

相关问题

热门标签

微信关注