自由百科知识网，分享百科知识，包括：学习、人际关系、宠物、旅行、工作、知识、生活、电子产品等知识，是您学习百科知识的好助手。

自由百科知识网

当前位置：自由百科知识网首页 > 知识 >

搜索引擎-蜘蛛程序

搜索引擎,网页抓取,url,通用
知识-自由百科知识生网
2023-11-13 09:53
自由百科知识网

搜索引擎-蜘蛛程序 ,对于想学习百科知识的朋友们来说，搜索引擎-蜘蛛程序是一个非常想了解的问题，下面小编就带领大家看看这个问题。

原文标题：蜘蛛程序

概述网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：

(1)不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。

(2)通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

(3)万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。

(4)通用搜索引擎大多提供基于关键字的检索，难

生活乐趣的事例

以支持根据语义信息提出的查询。网络爬虫

为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫(general purpose

小公主生活游戏

web crawler)不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

1 聚焦爬虫工作原理以及关键技术概述

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直

生活着不同的人

到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：

(1) 对抓取目标的描述或定义；

(2) 对网页或数据的分析与过滤；

(3) 对URL的搜索策略。

原文出处：http://bkw.iwtmm.com/post/20196

以上是关于搜索引擎-蜘蛛程序的介绍，希望对想学习百科知识的朋友们有所帮助。

本文标题：搜索引擎-蜘蛛程序；本文链接：http://yszs.weipeng.cc/zs/165178.html。

上一篇：比特币-比特币暴跌

下一篇：大和级战列舰-Yamato

猜你喜欢

阅读排行

推荐排行

网站首页学习人际关系宠物旅行工作知识生活电子产品

Copyright © 2002-2027 自由百科知识网版权所有网站备案号：苏ICP备18016903号-5

合作伙伴：百科知识网自由百科知识网百科知识网百科知识网

中国互联网诚信示范企业

违法和不良信息举报中心

网络110报警服务

中国互联网协会

诚信网站