如何做搜索引擎?(100分)

  • 主题发起人 主题发起人 苍蝇拍子
  • 开始时间 开始时间

苍蝇拍子

Unregistered / Unconfirmed
GUEST, unregistred user!
我的数据可能在三个地方存在:
1)服务器中以文本文件形式存放;
2)数据库中以表数据方式存在;
3)Intenet上,多了去了

如何做以上文档的搜索引擎,我发现狗狗和摆渡都有时间快慢,有这么快吗,1秒中,所有的都搞定了,这是什么原理?哪位大侠知道,指点一下。
 
好像是基于某个算法,在其自己的数据库中进行搜索的。
它建立了庞大的页面索引。

学习学些!
 
偶知道有以下现象:
1、如果你的网站已经被百度收录,你的页面上有一个“我的XXXXX”,这个句子首次出现(或者没有被检索过),初始时你会在百度得到0个结果,但是百度却确实已经收录了你的这个页面,过段时间才会出现。

2、比如百度的数据库有1亿个网页,按使用频度,有100万个是最常用的,检索的时候只在这100万个里面检索,得出结果再根据一定比例增加,才显示给用户。不管你在百度检索出多少个结果,你只能看到前760个网页。
 
我覺得它的服務器可以自動不間斷刷新關鍵字。這樣才能按優先級頻率的5%顯示出來。或者顯示更少。因為絕大多數的信息都是垃圾信息。做這個發財啊。我也想研究它了。
 
有高手指点下吗,建议斑竹置顶
 
让大家努力想想吧。
 
需 要 支 持!
 
1)Spider 自动搜寻并更新网页的蜘蛛。
2)建立全文索引。全文索引的数据量与原始网页数据量是一个数量级的。
比如你抓了 2 GB 的网页,就得准备额外约 2GB 做索引。
3)搜索关键字拆分,可以利用 Grid 网格技术将数据分多台机器存放,负载平衡
网格机器适当冗余可以提高性能。
5)(高级功能Page rank)匹配度排名,纪录查询者的行为作知识库。
(*)一个做语言研究朋友告诉我中文搜索引擎必须考虑中文分词,做语言学上的补充,我不以为然,我觉得判断是否是词汇可以直接在原始数据库上全文索引的时统计,这是最好的办法也足够,纯属个人观点。
 
谢谢,不过是否还有其他好的意见?
 
有没有GOGLE方面的资料?
 
大家帮忙想一想,我也想学习一下,帮忙顶一下
 
顶上,增加大家的知识
 
我正想学习学习这方面的知识!
 
我有一部分据说是google的搜索源码,从网上找的,不知是不是,download后,就没看过,万一不是别再骂我,我有一个问题要帮忙:象超星浏览器这样的软件怎样通过网络传送数据,
是用MSSQL等数据库,还是就是使用delphi的一些tcp/ip或者udp控件达到传输数据目的,
二者的详情,请告知.或者问题这样问:编一个通过internet传送数据的S/C软件通过那种传输
性能更好,更容易.谢谢
 
后退
顶部