最近我研究 全文搜索引擎的心得(0分)

  • 主题发起人 主题发起人 dcms
  • 开始时间 开始时间
D

dcms

Unregistered / Unconfirmed
GUEST, unregistred user!
最近我研究 全文搜索引擎的心得
研究心得:
1、看到网上那么多人在研究: Google的Page Rank我很心痛 ,我就看了两天Page Rank的资料,就明白它哪个算法基本上没有任何实用价值。其实只是一个思路而已,如果完全照搬它的算法,那将一事无成。
2、还有很多人研究什么Java中的Luncece那就更可笑了,我就举一个很简单的问题:一亿网页的容量有多大,谁能告诉我?
接近 1万G呀,所以用普通编程的思路做全文搜索引擎是行不通的 。
3、还有很多人研究中文分词,写了很长的文章,却只字不提中文分词在搜索引擎中的作用和用途。其实应该是两不分: A、用来计算关键字在文本中出现的次数 B、用来查询的。
4、还有很多人问那些信息是如何保存的,其实很简单:文件+数据库
最后我要说一下总体思路:
抓取----然后---预处理----然后索引---然后----保密
预处理: 包括计算 rank 将htm文件中的htm表示提取纯文本信息 ,然后保存对应的文本信息
数据库中只保存 文件编号 url Rank Title 纯文本信息等基本信息
然后索引 索引很重要么? 答案是:索引不是非常重要
主要是 "保密" 这部分的运算
运算之后就可以直接将结果返回给客户端了
用我的新研究的方法进行运算取得结果用时在 1秒以内

以上是我研究的一些心得,希望对大家有所帮助。

也许有人会问,那你用什么语言开发?
当然用 C、C++ 最好,其次是用Delphi开发 ,这样不但效率高,还可以保证程序在Linux下照样可以执行。

最后也许还有人回问,蜘蛛的效率如何,你写过没有?
答案是:我正在写,下面是一个网友对我的小蜘蛛进行的评测:
=========================================
▄【┻┳═一(99923309) 12:05:57
思鱼给他们讲讲我的 蜘蛛
思鱼(20275543) 12:02:50
我在家里测试了一下

思鱼(20275543) 12:03:00
很不错

思鱼(20275543) 12:03:10
和摆渡前几年的一样
============================
根据我自己的测试,我电脑的配置(P4+512MB内存+40G硬盘+512K的带宽)一天可以抓取 10万个网页,而且每个网页的大小限制在 100K以内,Baidu目前每个网页的大小限制在 130K以内。

最后,我已经收集了100万个国内的一级域名.

有兴趣的可以一起聊聊啊!

erp2@163.com
www.519so.com 是我花了两周时间做的一个小测试服务器的内存是 512MB

QQ:99923309
 
用我的新研究的方法进行运算取得结果用时在 1秒以内
------------------------------------------------
用1万G的数据来测试的?
 
用几百G的数据测试的!
 
数据在多一点也无所谓,只要有足够的......就可以了!
 
几百G的数据来做测试,可是楼主明明说自已的硬盘才40G的,会不会矛盾了点?
用了一下你的搜索,好像速度还行,不过好像还存在一些问题
1.显示界面不够友好,结果都太靠边了,看起来怪怪的
2.在结果首页的时候,单击下一页,首页链接不见了

PS:如果楼主是真正想要和大家研究交流的话,就不要只是发那些只字片语啦,代码及核心思想的给出才是最重要的,那样的话和你所说的那些只讲中文分词而不介绍在搜索引擎中起啥作用的有什么不同?

以上仅是个人的一点拙见,请见谅
 
确实,我的电脑硬盘只有40G,但PC群就不同了嘛!
 
说些核心问题。就可以了,只让我们去看怎么能行了。难道要让我们去帮你点击看的吗?
 
佩服楼猪大人ing...,再讲讲吧,学习学习。。。
 
俺简单的看了楼主的描述,我个人觉得搜索引擎要考虑这样的问题:linux集群的问题,多系统数据备份的问题,网络访问平衡的问题,自然语言的识别问题,模糊识别的改进,网络蜘蛛的设计。google和百度在页面的积累上已经达到了惊人的优势,在客户的认知度上也积累了惊人的优势,微软这么久还无法撼动,呵呵,多的也不多说了,除非出奇兵,否则....
 
今天有好几个人都要求我去baidu的,还说我要是没有去baidu将是一种遗憾:)
 
如果我是baidu老总,我应该用8人大轿来抬你,呵呵呵呵....
http://www.delphibbs.com/delphibbs/dispq.asp?lid=3368300
 
我出了个帖子请您回答
 
后退
顶部