如何使用ChatGPT自动抓取网页

使用自动化脚本从网站收集数据的过程称为网页抓取。ChatGPT 是 OpenAI 开发的一种强大的语言模型,具有生成网页抓取代码的能力。让我们探讨一下这是如何工作的……

IMDb 是有关电影、电视节目和各种娱乐形式的信息的首选来源。它有一张收视率最高的电影排行榜,其中排名前 250 的电影列在https://www.imdb.com/chart/top/?ref_=nv_mv_250上。此图表包括每部电影的标题、演员、导演和 IMDb 评级等详细信息。

如何使用ChatGPT自动抓取网页

让我们想使用网络抓取来从这个网站上用 python 和漂亮的汤库提取电影信息。我们会建议 Chatgpt是帮助我们创建所需代码的强大工具,让我们按照请求使用 Chatgpt 来实现此任务。

“网络抓取https://www.imdb.com/chart/top/?ref_=nv_mv_250使用 Python 和 BeautifulSoup”

chatgpt是response的具体实现步骤,下面是python中的源码

如何使用ChatGPT自动抓取网页

那么,这已经是一个很好的结果,可以帮助我们充分理解代码源是如何完成任务的,但是,我们需要在一个文件中执行,所以我们只需要复制和粘贴,我们再去问 Chatgpt在一个文件中提供 python web 脚本:

请在一个文件中提供代码。

Good ChatGPT 正在回复完整的源代码,如下所示:

如何使用ChatGPT自动抓取网页

您可以看到由 ChatGPT 生成的完整 Python 源代码:

如何使用ChatGPT自动抓取网页

让我们测试源代码是否按我们预期的那样工作。因此,首先,我们需要创建一个新文件:

如何使用ChatGPT自动抓取网页

然后我们需要将代码复制并粘贴到 webscrape.py 中:

如何使用ChatGPT自动抓取网页

让我们通过在终端行上编写以下命令来启动 python

如何使用ChatGPT自动抓取网页

该脚本正在运行,几秒钟后,您可以看到一个新文件 imdb_top_movies.cvs 已创建,其中包含提取的 CSV 格式的电影信息。

如何使用ChatGPT自动抓取网页

ChatGPT 生成了一个开箱即用的网络抓取。无需手动调整代码。这是一个很好的结果。

在我们最初向 ChatGPT 提出的请求中,我们并没有具体说明需要从网站中提取哪些电影信息。ChatGPT 决定提取电影名称和出版年份。假设我们还想包括评级。将以下内容写入 ChatGPT:

Also retrieve the IMDb rating for each film

ChatGPT 为您提供了详细的说明和代码片段,用于更改现有代码以包含和提取评级信息:

如何使用ChatGPT自动抓取网页

我们现在可以再次请求 ChatGPT 将这些更改合并到脚本中:

Please give me the full code in one with, with the try-except block

然后 Chatgpt 将再次生成完整的 Python 脚本,包括从网站提取附加信息的更改:

如何使用ChatGPT自动抓取网页

结论

该教程演示了 ChatGPT 是一种有效的工具,可以生成用于网络抓取的脚本。通过简单地向 ChatGPT 提供我们的基本要求,我们收到了一个随时可以运行的 Python 脚本,使网络抓取的过程变得更加容易,并使我们能够快速启动而无需任何修改。

免责说明

本站资源部分来自网友投稿,如有侵犯你的权益请联系管理员或给邮箱发送邮件PubwinSoft@foxmail.com 我们会第一时间进行审核删除。
站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁止用于任何商业途径!请在下载24小时内删除!


如果遇到评论下载的文章,评论后刷新页面点击对应的蓝字按钮即可跳转到下载页面
本站资源少部分采用7z压缩,为防止有人压缩软件不支持7z格式,7z解压,建议下载7-zip,zip、rar解压,建议下载WinRAR

给TA打赏
共{{data.count}}人
人已打赏
ChatGPTCode开源推荐开源源码

任何APP可一键接入AI 智能ChatGPT4通道开放接入基于OPEN AI平台

2023-6-5 11:57:56

Free资源

如何接入 Google Adsense 广告联盟

2023-6-6 10:49:39

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
有新私信 私信列表
搜索