网站首页 > 资源文章 正文
url,即统一资源定位符,通过对url的分析,我们可以更好地理解页面抓取过程。
今天,小小课堂SEO学网带来的是《页面抓取过程简述》。希望本次的SEO技术培训对大家有所帮助。
一、url是什么意思?
URL,英文全称为“uniform resource locator”,中文译为“统一资源定位符”。
在网站优化中要求每一个页面有且仅有一个唯一的统一资源定位符(URL),但往往很多网站同一页面对应了很多个URL,如果都被搜索引擎收录且未做URL转向,就会产生权重不集中的情况,通常称为URL不规范。
二、url的组成
统一资源定位符(URL),由三部分组成:协议方案、主机名和资源名。
例如:
https:// www.xxkt.org /11806
其中https为协议方案,www.xxkt.org 为主机名 ,11806为资源,不过这个资源不太明显,一般资源后缀为.html,当然还可以是.pdf、.php、.word等格式。
三、页面抓取过程简述
无论是我们平时用的互联网浏览器,还是网络爬虫,虽然是两种不同的客户端,但获取页面的方式却是相同的。页面抓取过程如下:
① 连接DNS域名系统服务器
客户端都会先连接到DNS域名服务器上,DNS服务器将主机名( www.xxkt.org )转换为IP地址,并反馈给客户端。
PS:本来我们通过111.152 . 151.45 的地址来访问某网站,为了方便记忆和使用,才利用DNS域名系统转换为了 www.xxkt.org 。这也就是DNS域名系统的作用。
② 连接IP地址服务器
该IP服务器下可能会有很多程序(网站),可以通过端口号来做区分,同时每个程序(网站)都会监听端口是否有新的连接请求,HTTP网站默认为80,HTTPS网站默认为443。
不过通常情况下,端口号80和443是默认不出现的。
举例来讲:
https://www.xxkt.org:443/ = https://www.xxkt.org/
http://www.xxkt.org:80/ = http://www.xxkt.org/
③ 建立连接并发送页面请求
客户端与服务器建立连接后,会发送页面请求,通常为get,也可以是post。
get 11806 HTTPS/1.0
获取HTTPS协议下的页面11806 返回给客户端。之后如需继续获取更多页面,则发送其他请求,否则将关闭该连接。
PS:通常情况下 ,/seo/11806.html 可能会更清晰。也就是发送 https://www.xxkt.org/ 下的 seo文件夹下的 11806.html 的页面请求。
以上就是小小课堂SEO自学网带来的是《页面抓取过程简述》。感谢您的观看。网络营销培训认准小小课堂!SEO培训认准小小课堂!
更多seo教程搜索小小课堂。原创文章欢迎转载并保留版权:https://www.xxkt.org/ 小小课堂SEO自学网,每天发布原创SEO与IT教程,喜欢记得,点赞,打赏。别忘了关注哦~
猜你喜欢
- 2024-09-09 什么是双子座扩展?让谷歌的聊天机器人比ChatGPT更智能
- 2024-09-09 微信公众号开发获取微信用户openid及访问url身份认证方式
- 2024-09-09 生产环境url告警检测--通过curl来获取http各阶段时间
- 2024-09-09 虚拟主机可以安装宝塔吗?(虚拟主机可以安装宝塔吗)
- 2024-09-09 SEO必知:如何将顶级域名做301重定向到www二级域名
- 2024-09-09 网站页面绝对路径相对路径有哪些优缺点?
- 2024-09-09 nPlayer Plus| 付费软件已购共享(nplayer付费版分享)
- 2024-09-09 Java面试笔试必考题总结(java面试题整理)
- 2024-09-09 教学笔记:HTTP状态码之300段系列码
- 2024-09-09 nginx实现url重写实例参考(nginx url重定向)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- 电脑显示器花屏 (79)
- 403 forbidden (65)
- linux怎么查看系统版本 (54)
- 补码运算 (63)
- 缓存服务器 (61)
- 定时重启 (59)
- plsql developer (73)
- 对话框打开时命令无法执行 (61)
- excel数据透视表 (72)
- oracle认证 (56)
- 网页不能复制 (84)
- photoshop外挂滤镜 (58)
- 网页无法复制粘贴 (55)
- vmware workstation 7 1 3 (78)
- jdk 64位下载 (65)
- phpstudy 2013 (66)
- 卡通形象生成 (55)
- psd模板免费下载 (67)
- shift (58)
- localhost打不开 (58)
- 检测代理服务器设置 (55)
- frequency (66)
- indesign教程 (55)
- 运行命令大全 (61)
- ping exe (64)
本文暂时没有评论,来添加一个吧(●'◡'●)