算了,我还是用笨方法吧!发分了,反正分收不回来! (100分)

弟子

Unregistered / Unconfirmed
GUEST, unregistred user!
大家都用过各大网站的搜索引擎吧! 谁知道它的实现思路是什么!
我以前做了一个。方法如下:
写一个数据表,两个字段: key varchar(20),url varchar(50)
然后向表输入记录,每个用户可能输入的关键字,对应相应的url地址。
但这样的工作量太大,且功能有限。我都不敢说我做它的思路,怕被打,
但今天不怕了,只要谁有更好的方法教我,我就让他打!
(我用的是php,但这不要紧,思路第一!)
 
这是肯定不行的,速度很慢的(当数据量一大),这个关于搜索引擎的问题以前就讨论过,还
没有什么结果,在关注中:(
 
只有听的份呀,帮你提前,//关注此题.
 
没有做过这样的搜索,就象Google的那样,但我觉得不是你这样的方法!
key ----- url,照你的方法是多对一的关系!
比如:
key url
富翁 http://www.delphibbs.com/
大富翁 http://www.delphibbs.com/
论坛 http://www.delphibbs.com/
大富翁论坛 http://www.delphibbs.com/ --------是这个意思吧?
这样的工作量的确巨大! 且 key 的标准在哪里?
你问问yysun老师吧~ 看看DFW的全文检索是什么机制!
另外有DFW源码的你可以看看~
这个我帮不上忙了!
不过PHP+apache 我到是以前弄过东东,我做的站内搜索就是你所说的这种方法! [:D][:D]
当然数据量不大!

提前!
 
分布式,如天网搜索和Google
建立镜像
 
我就是用的jrq这种方法呀,不好意思,献丑了。但如何联系yysum呢?加个标题,有请
YYSUM,你们看行不?但我觉得~~不好,动不动就打挠YYSUM。会不会~~~[:(]
 
DFW的全文检索是用java+Jsp做的,使用了lucene全文检索引擎,我正在研究这个。
不过是刚刚开始,还没有什么心得。
用数据库纪录查找的办法来做搜索引擎肯定是不行的,效率极其低下
 
网上信息搜索的利器:元搜索引擎及其特色
张晓翊 (华中师范大信息管理系 430070)
刘 清 (中国科学院武汉文献情报中心 430070)
程少锋 (湖北省科学技术情报研究所 430070)
文 摘 本文介绍了网上资源搜索工具元搜索引挚(Meta—Search Engine)的功能、特点以及分类,比较了它与搜索引擎的区别,并提出了如何合理使用元搜索引擎的建议。

网上信息资源的膨胀发展,对于资源搜索引擎的检索机制与能力提出了新的要求。这使得搜索引擎的数量在迅速增加,检索方式日益复杂。
专家关于使用搜索引擎的唯一的而且经常的建议,是利用不止一个摸索引擎来解答问题。因为没有哪两个搜索引擎是完全相同的——每一种都有自己的检索特色,都有自己的索引,以不同的方式在网上搜寻网址。出现不同的检索结果丝毫不足为奇。从不同的搜索引擎的检索结果中综合出最为符合要求的答案,对于熟练的检索人员而言,可能不是什么难题,但是对于一般的网上信息搜集者来讲,肯定比较困难。因此如何准确选择搜索引擎、如何减轻学习与操作负担、如何有效利用多个搜索引擎的“集成”资源与检索能力,就成为制约网络信息检索技术进一步优化和发展的重要问题。正是面对这个挑战,检索工具开发者设计了元搜索引擎(Meta—SearchEngine)。
1 什么是元搜索引擎?
元搜索引擎,通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。
元搜索引擎的出现,对于那些需要连续地使用不同的搜索引擎重复相同的检索的人来说,是一个福音。使用元搜索引擎同时对几个搜索引擎进行检索,获得分级编排的检索结果。检索人员就象采用在国际联机检索中常用的,利用411文档进行一次多库预检一样。仅从一个搜索界面,检索人员可以选取几个搜索引擎,然后构建检索式。
2 搜索引擎和元搜索引擎的区别
我们可将元搜索引擎看成具有双层客户机/服务器结构的系统,用户向元搜索引擎发出检索请求。元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求;搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户。当然,某些元搜索引擎具有略微不同的机制。
搜索引擎与元摸索引擎的主要区别在于搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多地是提供统一联接界面(或进一步地提供统一检索方式和结果整理),形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作。元搜索引擎中各独立搜索引擎被称为“目标搜索引擎”,或者“成员搜索引擎”,它们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出。不过,有些元搜索引擎给出的全局外部模式不够完善。
3 元搜索引擎的分类
在可以检索的目标搜索引擎、检索提问的处理方式以及如何编译和显示结果方面,元搜索引擎有着很大的差异。有些元引擎一个接一个的搜索目标搜索引擎,另一些则同时进行搜索。有些搜索引擎将检索提问转变成目标搜索引擎的提问语言,而有一些则原封不动的发送给目标引擎。
按功能划分,元搜索引擎包括多线索式搜索引擎和All—in—One式搜索引擎;按运行方式的差异可分为在线搜索引擎和桌面搜索引擎。
3.1 多线索式元搜索引擎
多线索式元搜索引擎,指利用统一的检索界面,实现对多个独立搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。Metacrawler、Savvysearch、Profusion等都属于多线索式元搜索引擎。这类元搜索引擎一般具有以下特征:
统一检索界面:元搜索引擎提供统一界面,提供对各搜索引擎特点介绍和选择机制,但所有目标搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的全局外部检索模式,用户通过这个全局界面实现对多个或任意一个搜索引擎的检索。
检索指令转换:在具有唯一全局外部检索模式情况下,系统可提供统一的全局指令语言,并自动地实现元搜索引擎指令与其目标搜索引擎指令的转换,用户使用同一指令语言检索不同的搜索引擎的索引数据库。
统一结果集的组织与显示:元搜索引擎提供全局组织器,对各目标搜索引擎返回的结果进行处理,形成全局结果集,并以统一格式显示,主要涉及数据格式转换、去重、统一排序等。
3.2 All-in-one方式
All—in—One方式,是指元搜索引擎界面以任意顺序或分类罗列多个(一般都是数十个)搜索引擎,元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制。用户可通过这类元搜索引擎了解有关的搜索引擎、联入所选择的搜索引擎。但元搜索引擎没有统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户。例如 All—in—one元搜索引擎(WWW.albany.net/allinone.himl)。这种 All—in—one方式的元搜索引擎确切地说只是搜索引擎的罗列,它们具有以下特点:
仅仅提供一个简单的界面来帮助用户选择和使用各搜索引擎;只能选择一个搜索引擎进行检索;对各目标摸索引擎检索界面的复制可能是部分的或全部的;直接利用所选搜索引擎的显示格式呈送给用启。
3.3 桌面元搜索引擎
以上各类元搜索引擎都是通过网上调用方式在线使用,还有另外一类元搜索引擎可直接在用户计算机上运行,相当于用户自己拥有一个元摸索引擎,称之为桌面元搜索引擎。这些桌面元搜索引擎可从网络上下载。桌面元搜索引擎是一个包括多个成员搜索引擎的完整系统,它们往往允许用户自定义检索式运行的搜索引擎集合(例如一个或全部目标搜索引擎),甚至可由用户添加新的搜索引擎,例如EchoSearch和WebCompass。这些桌面元摸索引擎不仅可以实现对多个搜索引擎的并行检索,而且也能提供重要的后期处理功能。例如用户定义结果排序方式、删除重复记录等功能。
4 元搜索引擎的特色
4.1 目标引擎的数量和名称
确定一个元引擎能够检索多少目标引擎以及哪些目标引擎,听起来象是一个简单的问题。确实,对于某些元引擎来讲,浏览一下页面首页的checkbox,就可以得出答案。但是对于其他许多元搜索引擎而言,这些细节隐藏在 Help页面中,有时根本就没这些内容。多不见得意味着好。有些元引擎可以让使用者选择被使用得最多的前8—10个目标引擎,诸如Lycos、HotBot、Alta Vista、Excite等等。
最好的引擎提供一个简便的浏览列表,使用者可以从中进行选择。
SavvySearch允许检索者选择不同的目标引擎,还可以自行确定这些引擎的使用顺序,这些设置可以保存起来,以备将来之用。ProFusion提供9个目标引擎,使用者可以从中进行选择,或者要求系统提供“best 3”、“fastest 3”来完成检索。Dogpile的定制检索可以让使用者确定目标引擎的使用顺序,然后同时对3个目标引擎进行检索,完成之后还可以按照检索者的要求继续对下3个引擎进行检索。
在选择元搜索引擎时,可以考虑那些明确列出了目标引擎、并容许使用者自行组合使用目标引擎的元搜索引擎。通过 cookies实现的保存用户的检索设置,就象SavvySearch所提供的那样,是一项相当不错的功能,其他的元搜索引擎可能很快就会提供这样的功能。当然,由于SavvySearch提供了100个目标搜索引擎,与其它仅仅提供5—10个目标引擎的元搜索引擎相比,这样的功能确实显得更为重要。
4.2 其他资源和专门的引擎
除了能检索目标引擎的数据库之外,许多元搜索引擎还能搜索网页的其他部分。通常,可以选择Web或Usenet,或者选择 newswires、DejaNews或其他资源。比较频繁的是,主题或者分类类目可以提供这样的机会,使我们能在某一主题领域进行搜寻,而不必使用一个宽泛的搜索引擎来对网页的全部内容进行查找。
许多元搜索引擎被很好的用作特殊搜索的导航器,而不仅仅只是一个泛泛的查询工具。我们可以关注一下众多的专题搜索引擎,然后再来看看元搜索引擎首页所提供的局部的、专题的或特殊的链接,就可以明白这个道理。
4.3 检索提问
许多元搜索引擎可以容许我们构建自己的提问式,其语法结构与流行的搜索引擎类似,大多数还有布尔逻辑选项。在使用某一个元搜索引擎时,最重要的问题就是,该搜索引擎是否能够把我们的检索提问“翻译”成目标引擎所遵循的语法结构,或者仅仅只是原样照搬。
一些元搜索引擎(我们称之为伪元搜索引擎,因为他们仅仅只是把众多目标引擎集合到一起,而并没有将他们的检索功能集成)显示一系列提问框。每一个提问框对应一个元搜索引擎。我们必须逐个输入检索提问,而且还必须使用相应的语法规则,然后点击“Submit”按钮,分头检索不同的目标引擎。Beaucoup Search Engines提供了14个这样的选项。
我们应该利用那些能将我们的检索提问连释成目标引擎的检索语言的元搜索引擎,否则就会大大降低检索的效能,无法发挥提问特色的优势。
4.4 其他检索选项
在线路堵塞或服务器繁忙的情况下,是否有一个“超时”的选项框,能够让我们确定,多长时间以后,例如10、15或30秒,元搜索引擎才放弃对目标引擎的搜寻?
元搜索引擎是按照目标引擎列表框中的顺序对目标引擎进行检索,还是同时进行检索?在处理时间以及结果的返回方式上,对于这个问题的答案是不同的。
如果我们在构建检索式时有布尔逻辑或自然语言/主题词的选项,我们应该找一找还有什么其他参数。
4.5 结果选项
大多数元搜索引擎按照关联度来排列检索结果,其他的显示特色则相差很大。比较普遍的方式是,将来自不同目标引擎的检索结果集中到一起,并显示每条结果的来源。很多元搜索引擎对结果进行去重。在1999年,这看来是一件简单的事,但是传统的联机检索人员应该记得在过去对不同文档的命中记录进行去重是多么的差强人意。Cyber411按照目标引擎来组织结果,但进行去重处理,为我们提供了一个干净、实用的结果列表。
一些结果列表仅仅显示指向目标页面的简单标题,也有一些显示题目和描述,与目标引擎的结果显示方式类似。有些结果列表还显示每一条结果在目标引擎的命中结果中的排序位置,如#10 on Excite或#1 on HotBot。这种特色很不错,但是未必有必要,因为元搜索引擎对结果按照关联度顺序显示。
有一两个元搜索引擎,如 InferenceFind,按照类目排列命中结果。而且显示非常简单的标题,我们没有足够的信息来决定点击哪一个链接。VerioMetasearch的高级检索功能允许我们指定来自8个目标引擎的10条命中结果的权重。返回的结果则显示其排序及分数。
最好的元搜索引擎显示集成的、信息充分的按照关联度算法排序的结果。最低限度地,结果列表应该包含标题、URL、描述以及结果的来源。要避免使用那些直接调用目标引擎的结果显示页面的元搜索引擎,除非你想顺着元搜索引擎逐个目标引擎的浏览检索结果。
4.6 创建自己的网络搜索服务模式
确定一个首选的元搜索引擎与选择一个独立的搜索引擎一样复杂。但是一旦选择了一个符合自己的检索特色的元搜索引擎,并且按照自己的要求进行定制,我们就可以高效地检索一系列搜索引擎,如果需要的话,可以对其中一两个目标引擎进行扩展检索。
在返回结果的精确性方面,元搜索引擎不会好过独立的搜索引擎。但是由于它能够简便的检索多个独立的搜索引擎,应该成为我们进行网络搜寻的经常之选。

参考文献
1杜林:搜索引擎如何在幕后工作.中国计算机用户,1997(34):8-9
2张晓辉,邵华等.WWW上的信息发现与搜索引擎技术.小型微型计算机系统,1998,19(6):66-71
3蔡巍.Internet网上信息检索新趋势.情报杂志,1998,17(4):41-42,88
4殷雪松:WWW网络搜索引擎介绍,大学图书馆学报,1998,16(4):54-55
5王芳,张晓林.元搜索引擎:原理与利用.现代图书情报技术,1998(6):18—21
6余哲.网络搜索引擎技术及相关课题研究.情报杂志,1998,17(6):36—38’
7解冲锋,李星.并行式 Meta Search系统的设计与实现.计算机工程与应用,1999,35(2):1-3,16
8 Nancy Carman.Meta Search Engines.Online,1999,23(3):74-78

 
抱歉,不会!
 
ido
not know
 
这个问题颇有深度,以前在DFW也提出过,但最终也没有什么好的方法可以解决。
我也搬张椅子来听听课。:)
 
5555555[:(][:(][:(]好难哟!
 
偶就蹲着听课好了
 
顶部