网站首页 > 资源文章正文

巨好用!GPT-4V-Scraper:让AI来帮你获取网页内容

qiguaw 2024-11-02 12:51:27 资源文章 33 ℃ 0 评论

哈喽大家，我是[太阳]Sunspear[太阳]，一名10年python开发的非油腻男，现在在做AI工具做跨境电商方面创业，闲余时间会给大家分享下国内外大模型操作玩法，感兴趣的小伙伴记得点个关注，评论区交流下。

今天继续给大家分享一款好用的Github开源项目：gpt4V-scraper！

话不多说，直接上图

这个开源项目共有以下三点功能：

之前可能大家听说比较多的Web自动化测试工具是Selenium, 通过WebDriver方便操作浏览器，这也给爬虫界带来十分的便利。它可以被称为爬虫登录的万能钥匙，可以横扫一切网站的登录。

但问题是Selenium实际对新手并不友好！

经常会碰到诸如：浏览器版本与ChromeDriver驱动程序不兼容、难以定位隐藏元素和多窗口切换等问题。

当然这个问题核心关键还是，大家对网页的基本结构以及数据抓取的基本方法还不够熟悉，本篇文章点赞过100，我会再单独出一期视频教程[呲牙]

言归正传

上面提到的Selenium局限性也恰恰是gpt4V-scraper的长处，直接上教程：

如何构建

运行 npmi安装依赖 (包括Puppeteer库，详见package.json)复制.env.template文件，重命名为.env，添加你的OPENAI API KEY，然后保存。

安装Chrome Canary浏览器，登录所需网站，然后在snapshot.js中设置路径运行node snapshotjs"<URL>"，在项目根目录生成snapshotjpg截图

图像到文本转换:编辑gpt4v scraper.py中的代码，替换为你自己的网站URL和系统提示。运行后，将看到snapshot.jpg截图和控制台显示的文本，包括对提示输入的额外上下文和回答。与GPT-4V Web Agent交互:

图像到文本的转换

运行node web agentjs，在控制台与GPT-4V WebAgent聊天。

好的，今天的分享就到这里

感兴趣的小伙伴记得评论区留言交流下[呲牙]