如何做搜索引擎？(100分)

苍蝇拍子 · 2003-12-23

我的数据可能在三个地方存在：
1）服务器中以文本文件形式存放；
2）数据库中以表数据方式存在；
3）Intenet上，多了去了

如何做以上文档的搜索引擎，我发现狗狗和摆渡都有时间快慢，有这么快吗，1秒中，所有的都搞定了，这是什么原理？哪位大侠知道，指点一下。

boyface · 2003-12-23

好像是基于某个算法，在其自己的数据库中进行搜索的。
它建立了庞大的页面索引。

学习学些！

skadon · 2003-12-23

偶知道有以下现象：
1、如果你的网站已经被百度收录，你的页面上有一个“我的XXXXX”，这个句子首次出现（或者没有被检索过），初始时你会在百度得到0个结果，但是百度却确实已经收录了你的这个页面，过段时间才会出现。

2、比如百度的数据库有1亿个网页，按使用频度，有100万个是最常用的，检索的时候只在这100万个里面检索，得出结果再根据一定比例增加，才显示给用户。不管你在百度检索出多少个结果，你只能看到前760个网页。

hiyaolee · 2003-12-23

我覺得它的服務器可以自動不間斷刷新關鍵字。這樣才能按優先級頻率的5％顯示出來。或者顯示更少。因為絕大多數的信息都是垃圾信息。做這個發財啊。我也想研究它了。

苍蝇拍子 · 2003-12-23

有高手指点下吗，建议斑竹置顶

weadvance · 2003-12-31

让大家努力想想吧。

苍蝇拍子 · 2004-01-07

需要支持！

轻松虎 · 2004-01-07

1)Spider 自动搜寻并更新网页的蜘蛛。
2)建立全文索引。全文索引的数据量与原始网页数据量是一个数量级的。
比如你抓了 2 GB 的网页，就得准备额外约 2GB 做索引。
3)搜索关键字拆分，可以利用 Grid 网格技术将数据分多台机器存放，负载平衡
网格机器适当冗余可以提高性能。
5)（高级功能Page rank）匹配度排名，纪录查询者的行为作知识库。
（*）一个做语言研究朋友告诉我中文搜索引擎必须考虑中文分词，做语言学上的补充，我不以为然，我觉得判断是否是词汇可以直接在原始数据库上全文索引的时统计，这是最好的办法也足够，纯属个人观点。

苍蝇拍子 · 2004-01-08

谢谢，不过是否还有其他好的意见？

yeschoto21cn · 2004-01-09

有没有GOGLE方面的资料?

qingenerp · 2004-01-09

大家帮忙想一想，我也想学习一下，帮忙顶一下

苍蝇拍子 · 2004-01-09

顶上，增加大家的知识

Elite_liu · 2004-01-12

我正想学习学习这方面的知识！

苍蝇拍子 · 2004-01-19

plato21 · 2004-02-28

我有一部分据说是google的搜索源码,从网上找的,不知是不是,download后,就没看过,万一不是别再骂我,我有一个问题要帮忙:象超星浏览器这样的软件怎样通过网络传送数据,
是用MSSQL等数据库,还是就是使用delphi的一些tcp/ip或者udp控件达到传输数据目的,
二者的详情,请告知.或者问题这样问:编一个通过internet传送数据的S/C软件通过那种传输
性能更好,更容易.谢谢

如何做搜索引擎？(100分)

苍蝇拍子

Unregistered / Unconfirmed

boyface

Unregistered / Unconfirmed

skadon

Unregistered / Unconfirmed

hiyaolee

Unregistered / Unconfirmed

苍蝇拍子

Unregistered / Unconfirmed

weadvance

Unregistered / Unconfirmed

苍蝇拍子

Unregistered / Unconfirmed

轻松虎

Unregistered / Unconfirmed

苍蝇拍子

Unregistered / Unconfirmed

yeschoto21cn

Unregistered / Unconfirmed

qingenerp

Unregistered / Unconfirmed

苍蝇拍子

Unregistered / Unconfirmed

Elite_liu

Unregistered / Unconfirmed

苍蝇拍子

Unregistered / Unconfirmed

plato21

Unregistered / Unconfirmed

Similar threads