python 如何从网站中提取段落并保存为文本文件？

如何从网站中提取段落并保存为文本文件？

原文:https://www . geesforgeks . org/如何从网站中提取段落并将其保存为文本文件/

额外津贴:

抓取是一项重要的技术，它帮助我们从 URL 或 html 文件中检索有用的数据，这些数据可以以另一种方式使用。给定的文章展示了如何从网址中提取段落并将其保存为文本文件。

所需模块

bs4: 美人汤(bs4)是一个 Python 库，用于从 HTML 和 XML 文件中获取数据。它可以按如下方式安装:

pip install bs4

urllib: urllib 是一个包，它收集了几个用于处理 URL 的模块。它也可以用同样的方式安装，它大部分内置在环境本身。

pip install urllib

进场:

创建文本文件。
现在对于程序，导入所需的模块，并传递网址和**。txt 文件路径。这将在您的本地计算机中复制该 URL 的 html 代码。
创建请求实例并传入网址
以读取模式打开文件，并传递所需参数。
将请求传递到一个美丽的输出()函数。
创建另一个文件(或者您也可以在现有文件中写入/追加)。
然后我们可以迭代，找到所有的“p”标签，并打印文本文件中的每个段落。

实现如下:

示例:

Python 3

import urllib.request
from bs4 import BeautifulSoup

# here we have to pass url and path
# (where you want to save ur text file)
urllib.request.urlretrieve("https://www.geeksforgeeks.org/grep-command-in-unixlinux/?ref=leftbar-rightbar",
                           "/home/gpt/PycharmProjects/pythonProject1/test/text_file.txt")

file = open("text_file.txt", "r")
contents = file.read()
soup = BeautifulSoup(contents, 'html.parser')

f = open("test1.txt", "w")

# traverse paragraphs from soup
for data in soup.find_all("p"):
    sum = data.get_text()
    f.writelines(sum)

f.close()

输出:

版权属于：月萌API www.moonapi.com，转载请注明出处

本文链接：https://moonapi.com/news/2502.html

python 查看更多书籍

《GeeksForGeeks Python 中文教程 2022-05-25》

分类

最近更新

python 如何从网站中提取段落并保存为文本文件？

如何从网站中提取段落并保存为文本文件？

所需模块

Python 3

留言

联系客服

数据知识

系统公告

开发文档

python查看更多书籍

《GeeksForGeeks Python 中文教程 2022-05-25》

python 如何从网站中提取段落并保存为文本文件？

如何从网站中提取段落并保存为文本文件？

所需模块

Python 3

留言

联系客服

python 查看更多书籍