<h3><font color=red><strong>Spider(Robots)问题,高手请进,急!急!!急!!!(所有

  • 主题发起人 主题发起人 独孤求败
  • 开始时间 开始时间

独孤求败

Unregistered / Unconfirmed
GUEST, unregistred user!
&lt;h3&gt;&lt;font color=red&gt;&lt;strong&gt;Spider(Robots)问题,高手请进,急!急!!急!!!(所有分200)&lt;/strong&gt;&lt;/font&gt;&lt;/h3&gt;(100分)<br />我现在有个难题,请各位大虾帮帮忙。我们现在做的是关于信息检索方面的东西,
需要在网上搜索各个网站,提取网页中有用的信息加以筛选,我查了有关的资料,
说是在信息提取的环节中有一些专门设计的程序,绰号为“蜘蛛(spider)”或
“机器人(robots)”的网页搜索软件,但是我想进一步了解它们的机理,请
各位大虾提供一些有关这方面的东西。有源代码最好。拜托!
只剩215分了,先给100,若能解决再给115分(就这么多了)


 
用第归,按树搜索,查啊查。。。要小心信息碰撞和打架
 
to zjlcc:
能否详细点?有相关资料或源代码更好。3X

 
快来回答呀,我已经积累到130分了。:-(
 
具体点说就是系统有多个线程(为了提高速度)同时对不同的页面进行分析,每个线程
是类似的,基本上就是下载一个页面的html代码,然后分析提取想要的内容,最后放到
自己的数据库中。至于怎么使用自己的数据库就不用说了。得到页面不难,通过socket
编程或者使用现成的indy控件就差不多了。关键是决定搜索什么页面,如何提取其中的
内容。这两点的其中一点都够做一个计算机专业的博士论文了。
 
3X eprog 大虾。
各位大虾有没有相关的例子、源码、资料呀,望不吝指教。
我现在已有265分了,不够我再赚。分不成问题,呵呵。。。
 
电子工业出版社出的一本叫作“Visual Basic 程序员例库”的书里面有关于Robots的内容。
你可以去把它分析一下,改成DELPHI代码,但是这本书很贵——98元!
 
haha,你来http://grays.yeah.net
有现成的源码下呀!
 
很久没上DFW,因为登不上。:(
今天检查信箱,看到了邮件通知,今天能上了,但还是很慢。
谢谢grays,但你的网站上不了啊,该页无法显示。:(

to Alphazw:
这本书不知道还能不能找到。:(
 
我也在做这个东西,有一本VB的书可以参考,还有一本VC的书也可以参考,VB的大概有2章
很有用,VC的整个就是讲ROBOT的。
我现在做到分析连接部分了,数据库部分还在犹豫选哪种好(我这买了支持全文检索的非关
系型数据库,也可以把数据交给它来处理)。
 
谢谢Newton!!
能告诉我那两本书名吗?谢了!
 
《用VB5进行高性能Web开发》机械工业出版社
另一本《Microsoft&amp;reg; Visual C++ 中的编程 Bots、Spiders 和智能代理》
地址如下:
http://www.microsoft.com/china/mspress/books/book10782.htm

还有要多准备资料,网上有好多代码可以借鉴的,perl和java的比较多,然后是VB,C,
最少的是Delphi。

 
我写过,实现并不难,难就难在算法的效率问题。
想合作的话,可以给我来信.
czy@worldminer.com
 
我写了一个机器人,基本完工!就是到最后可能有几个线程不能结束!其他的很ok的噢!
我用他来抓email!bug一打一打的!
用兴趣杀虫的mail到xiaosao@21cn.com么源码!
如果呢幸运能上我的主页grays.yeah.net也有的下!
 
接受答案了.
 
后退
顶部