使用BeautifulSoup解析由 标签分隔的行?


问题内容

我有一个看起来像这样的页面:

Company A<br />
123 Main St.<br />
Suite 101<br />
Someplace, NY 1234<br />
<br />
<br />
<br />
Company B<br />
456 Main St.<br />
Someplace, NY 1234<br />
<br />
<br />
<br />

有时,有两个而不是三个“
br”标签来分隔条目。我将如何使用BeautifulSoup解析此文档并提取字段?我很困惑,因为我需要的文本位没有包含在我可以简单地进行迭代的段落(或类似)标记中。


问题答案:

有了此HTML片段后,只需使用正则表达式将替换<br />的换行符替换为单个换行符,然后拆分为多个换行符即可。这将导致您可以手动处理多个单独的段落。