最近 我研究 搜索引擎 (六) 搜索引擎 实战篇(内含搜索引擎的demo URL地址)(100分)

  • 主题发起人 主题发起人 dcms
  • 开始时间 开始时间
D

dcms

Unregistered / Unconfirmed
GUEST, unregistred user!
最近 我研究 搜索引擎 (六) 搜索引擎 实战篇(内含搜索引擎的demo URL地址)
DEMO IP地址: 219.233.32.124

大家好,相信大家都看过我的前5篇短文了,之前

写的不好,有些错误的观点,在此先行指出。
1、我以前说搜索页面是事先生成的,这个观点是错误的。
2、我以前说搜索页面的部分内容是事先生成的,也是错误的。
3、我曾经说需要分布式运算,也是不可取的。
那为什么写这个demo搜索引擎,有什么目的?
1、我说过要单枪匹马挑战 google baidu 做这个demo就是告诉大家,我没有发疯。
2、如果您正在开发或将要开发一个搜索引擎,那我告诉你,网上很多关于搜索引擎的资料,大部分是不可取的。例如有人曾经说google在全球有600万台电脑用来做搜索引擎,但我今天就要告诉你,我用1台普通的PC电脑就可以搜索 1亿网页,而且还不需要很好的 CPU和很大的内存。只要硬盘够大就行(1亿网页 大约需要 4000G大小的硬盘),说到这里很多
人就开始笑了,那你的demo里面搜索多少网页,那我告诉你,这次我搜索 300万个网页,可能实际要少一点,但我的理论告诉我搜索 1亿个网页的速度和搜索300万个网页的速度基本接近(除非所有的网页内容都一样)。估计又有人开始笑了,那你搜索要多长时间,这个我可以肯定的告诉你,不管是1亿网页还是300万网页我都可以在1台PC上做到不超过 2秒钟时间。不信你现在去看 demo。下面言归正传,还有很多人去用一些开源的代码去做搜索引擎(梦想靠这个来发财),例如 用一个Java的Luncen的开源软件,但对此我只想说,别人自己都不要了的垃圾,你捡过来,就能做出好的搜索引擎吗?简直是笑话。
3、就是要打破一些所谓的神话,如果我告诉你,在我研究搜索引擎的过程中发现 Baidu的搜索引擎的部分程序(例如蜘蛛爬虫)是用VB开发的,你会做什么感想?开始我也非常崇拜这些搜索引擎,认为他们都是神,能在 0.001秒内搜索到结果,但是我还是有点理智的,我想遍了全宇宙最牛X的编程语言都没发现哪个语言有这功能。所以我只想说要做一个好的搜索引擎并不需要太好的编程水平,不要把它想的那么神。(对此我在补充一点,google baidu经常进行编程大赛,我告诉你要是我去一定考 0 分,不知道你信不信。)
4、我要申明一下,在我发表前6篇文章后,有很多网上的“朋友”问我要源代码,在此我再说一篇除非你想投资,否则请别问要源代码,我没有公开源代码的僻好。如果可以的话,请你们去问google 或 baidu去要。
5、 很多网上的“朋友”曾经问我搜索引擎怎么存储数据的,我在这里很慎重的告诉大家,一定是文件+数据库。为什么我这么肯定呢?有这个疑问的人,我想一定很少关心计算机领域的一些最高科学成就,比如图灵奖。在数据处理方面的最高科学奖至今仍然是颁发给了 B树理论的创造者,并不是 Google 或 Baidu 或 微软 的创始人。(相信大家能体会出
我说这话的意思是什么)。
6、寻找有志之士,共同合作(包括技术合作或商业合作)。

最后我想说,我是去年春节前(看央视专访 Baidu李彦宏)的那天晚上,想到要做一个搜索引擎的,我没有看过多少这方面的技术文章和书籍,为什么这么说,如果这方面的书真能起到使用价值,那你可能连看我这篇文章的兴趣都没有了。可以说,做到今天,所有的程序都是我靠自己想出来的,所有的代码也都是我自己编码完成的。为了中华民族的真正崛起
,希望大家从现在开始,从今天开始真正做一个创新的人,而不要做一个捡垃圾的人,要学会思考。
这次demo的一些技术指标跟大家说一下:
1、我的电脑配置(P4 630CPU, SATA 250G硬盘 2G内存 整机购买价格 6000元,带宽 20几K的有线通)
2、这次由于只有 300多万网页,实际可能要少一点。由于我只有 1台电脑,如果我按照类似 google那样的Page Rank理论来做排序,计算的时间可能要长一点,所以这次我的demo按照内容相关度来做排序,原本想做成(按照用户的访问情况自动变化的排序方式,这样让用户以选择作为投票来选择出某个关键词中某个网页最好的排序,这样的考虑是我个人认为
,这样更智能,而且搜索的结果会更符合实际情况,更符合民主的精神。)另外,在盈利模式方面,我不搞竞价排名,因为那会打乱大众的正常投票,属于人为控制排名了,就好象台湾花钱买选票一样。我打算开放相关关键词的广告编辑功能,就是说,谁对某个关键词的广告做了编辑,就用谁的广告,以后也只有这个人可以进行维护,但是由于电脑配置实在太低了,所以暂时先不做这两个功能。但请大家记住,这两个方法,都是我发明的。
3、最后我在稍微谈一下分词方面,这很关键,目前真正智能的中文分词(对于网页)而言,是可以实现的,我这次已经实现了新词识别功能,但是网络上很多人谈分词,仅纠缠与一句话的智能识别问题,我想这对于搜索引擎来说意义不会特别大。这次我的搜索引擎 emo可以实现一句话的搜索 比如 are you here?


正告一些黑客,(5.24开始每晚 8点开始)

demo期间我一直回守候在我的电脑旁,请不要做一些不该做的事情。
另外警告一些无耻之徒,不要冒充我。

联系方式: QQ:99923309 erp@163.com

datland@163.com MSN: erp_mrp@hotmail.com

DEMO IP地址: 219.233.32.124
(由于我就一台电脑,家里上网用的是有线通所以速度可能不是很理想)
如果访问不了,请打电话或发短信息给我,我会告诉你新的IP (13818466795)
 
传说中的沙发
 
呵呵,搜索引擎有搞头,但不是一个人能搞的,佩服楼主啊!!
 
每晚 8点开始对外开放测试,时间 2~3小时
周六、周日视情况而定!
 
厉害,以后跟你学学
 
昨晚我的搜索引擎开放测试了,你参加了吗?
http://post.baidu.com/f?kz=102040069
这是我的第6篇文章!


DEMO IP地址: 219.233.32.124 每晚 8点开始对外开放测试,时间 2~3小时 周六、周日视情况而定!
如果访问不了,请打电话或发短信息给我,我会告诉你新的IP (13818466795)
 
分词运行很好,请测试

1 "服装在线中国"

2 "差距较大一些记者3000"

这写都是充分体现全文索引中文分词的最好体现!
 
今天实现了缓存功能,实现 0.001秒不是问题!

在浏览器的地址栏输入 IP地址就好了!

目前 IP地址是: 219.233.32.124
 
很有趣的东东,刚刚测试一下,结果如下:

本次搜索共用时 0.226 秒(时间绝对没有任何水份)

楼主加油加油加油~
 
楼主的引擎不行啊
连“关一松”都搜不出来哈
:)
 
搜索效果,不好。
 
人家不是说了嘛,只是个演示程序,楼上的。。。。。。真是无语了。。
 
用google 连 毛泽东都搜索不到
我的智能分词,居然可以, ......
 
顶一下吧,楼主也不容易.
 
谢谢!
希望大家多提宝贵意见!

我会综合大家的意见,每天做一些分析和修正的.

每天多进步一点,就是我对大家的尊重!
 
大家还是不要争吵,分散注意力,支持一下楼主
 
用google 连 毛泽东都搜索不到?
不会吧?
我咋就搜了一大堆呀?
 
那是今天,不是昨天!
 
后退
顶部