网站首页 > 资源文章 正文
哈喽大家,我是[太阳]Sunspear[太阳],一名10年python开发的非油腻男,现在在做AI工具做跨境电商方面创业,闲余时间会给大家分享下国内外大模型操作玩法,感兴趣的小伙伴记得点个关注,评论区交流下。
今天继续给大家分享一款好用的Github开源项目:gpt4V-scraper!
话不多说,直接上图
这个开源项目共有以下三点功能:
- 用于查找全页屏幕截图的自动网页抓取工具。
- 利用 Puppeteer 和隐形插件来避免被反机器人检测到。
- 专为提高效率而设计,具有可定制的超时设置。
之前可能大家听说比较多的Web自动化测试工具是Selenium, 通过WebDriver方便操作浏览器,这也给爬虫界带来十分的便利。它可以被称为爬虫登录的万能钥匙,可以横扫一切网站的登录。
但问题是Selenium实际对新手并不友好!
经常会碰到诸如:浏览器版本与ChromeDriver驱动程序不兼容、难以定位隐藏元素和多窗口切换等问题。
当然这个问题核心关键还是,大家对网页的基本结构以及数据抓取的基本方法还不够熟悉,本篇文章点赞过100,我会再单独出一期视频教程[呲牙]
言归正传
上面提到的Selenium局限性也恰恰是gpt4V-scraper的长处,直接上教程:
如何构建
- 运行 npmi安装依赖 (包括Puppeteer库,详见package.json)复制.env.template文件,重命名为.env,添加你的OPENAI API KEY,然后保存。
- 设置浏览器配置,以允许访问需要登录认证的网站(如LinkedIn、Instagram等)
- 安装Chrome Canary浏览器,登录所需网站,然后在snapshot.js中设置路径运行node snapshotjs"<URL>",在项目根目录生成snapshotjpg截图
- 图像到文本转换:编辑gpt4v scraper.py中的代码,替换为你自己的网站URL和系统提示。运行后,将看到snapshot.jpg截图和控制台显示的文本,包括对提示输入的额外上下文和回答。与GPT-4V Web Agent交互:
图像到文本的转换
运行node web agentjs,在控制台与GPT-4V WebAgent聊天。
好的,今天的分享就到这里
感兴趣的小伙伴记得评论区留言交流下[呲牙]
猜你喜欢
- 2024-11-02 使用抓取网页内容方面的一些经验和技巧和经验
- 2024-11-02 从零开始搭建Python网络爬虫系统:详解数据抓取、处理与存储
- 2024-11-02 如何用 Python 的 http.client 玩转数据获取?
- 2024-11-02 免费实用网页抓取工具大比拼,让你轻松获取所需信息
- 2024-11-02 php采集网页数据(php采集类)(php抓取网页数据)
- 2024-11-02 网页抓取数据的救星:HTML广告移除工具实战应用指南
- 2024-11-02 明查·工具箱|你获取信息的网站靠谱吗?看下DNS信息吧
- 2024-11-02 利用python爬虫技术爬取网站数据的注意事项和具体步骤
- 2024-11-02 网页抓取数据(怎样抓取网页中的指定内容)
- 2024-11-02 基于Google Gemini的网页抓取(google search console 如何抓取网站)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- 电脑显示器花屏 (79)
- 403 forbidden (65)
- linux怎么查看系统版本 (54)
- 补码运算 (63)
- 缓存服务器 (61)
- 定时重启 (59)
- plsql developer (73)
- 对话框打开时命令无法执行 (61)
- excel数据透视表 (72)
- oracle认证 (56)
- 网页不能复制 (84)
- photoshop外挂滤镜 (58)
- 网页无法复制粘贴 (55)
- vmware workstation 7 1 3 (78)
- jdk 64位下载 (65)
- phpstudy 2013 (66)
- 卡通形象生成 (55)
- psd模板免费下载 (67)
- shift (58)
- localhost打不开 (58)
- 检测代理服务器设置 (55)
- frequency (66)
- indesign教程 (55)
- 运行命令大全 (61)
- ping exe (64)
本文暂时没有评论,来添加一个吧(●'◡'●)