www.519so.com 这个搜索引擎现在可以留言了!(0分)

  • 主题发起人 主题发起人 dcms
  • 开始时间 开始时间
D

dcms

Unregistered / Unconfirmed
GUEST, unregistred user!
www.519so.com 这个搜索引擎现在可以留言了!
请大家多提宝贵意见啊!
留言地址: http://www.519so.com/server/
到目前为止只做了两周,只抓取了30多万的网页,搜索不到请谅解!
 
帮顶!

http://www.source520.com

站长开发推广同盟 站长朋友的终极驿站
同时拥有海量源码电子经典书籍下载

http://www.source520.com/search/search.asp

"编程.站长"论坛搜索引擎-----为中国站长注入动力!
 
楼上的垃圾叫我说你什么好呢?
 
恭祝楼主早日成为中国的GOOGLE!
 
我的网站是: Http://www.519so.com (从构思到编码到服务器的配置一共用时间不到两周)



我的设计思路大体上是(开发语言: delphi + html):

一、撰写蜘蛛程序 (目前的效率是在我个人的电脑上每天能抓取1.5~2万个网页) (并保存到数据库)

二、计算网页的rank度,用来排序(在目前这个版本中还没有加如此功能,最近我查看了很多关于Google的page Rank的算法的文章,终于理解了它的意思,因此我自己创造了一个新的算法,来计算网页的Rank度,我会在下一个版本中加入新的排序规则)。

三、建立索引(目前没有采用全文索引,这方面我也刚掌握了全文索引的功能,估计会在下一个测试版本中加入,但以后可能会采用Lucene中类似的倒排索引的方法)

四、制作服务器的Server端程序,跟据用户的搜索内容,找到相关的文件,组成查询页,并返回给客户端, 目前中文识别已经做到了,但半角识别上考虑不周,还有没有进行中文分词,中文分词的方案我已经有了,但目前缺少足够大的词汇表)

五、我当时设计这个站点的目的是为了学习。

六、为什么考虑用delphi写这些程序,主要考虑delphi编写的程序可以移植到Linux上,并且从效率上看仅次于C++,所以我选择了delphi来进行开发。
 
你的蜘蛛爬的太慢了,如果按照100万个中文网站,每个网站10个页面,你的程序要爬近2年才能爬完呀,至少8台计算机同时跑你的程序才能赶上时髦呀!
 
还好吧,最近做了一些改进,昨天我测试了一下,每天一台电脑可以抓10万各左右的网页!
 
我现在已经找了一个地方合作,愿意提供30台带光纤的电脑联合作业来抓!
 
恩,差不多,这速度还行
 
楼主, 为什么不使用你的用户的客户端来抓。 你有1万个用户的话, 每个用户保守地提供100个结果每天, 你就是1百万了。
 
数据库的连接数量是有限的
 
计算机抓的网页数是怎么算的?在一个被抓取过网页的网站中出现新的网页时,计算机如何知道出现了新的页面,并及时将其抓取?总不能是盲目的在网上抓取网页吧。
 
后退
顶部