如何作一个网页抓取的蜘蛛程序,在线等待(300分)

tangfengyang · 2006-10-09

想作一个类似搜索引擎的蜘蛛程序
可以自动遍历网页中的链接
提取meta信息和title存储在数据库中.
能够从类似论坛网站中批量提取帖子列表

dos1234 · 2006-10-09

有兴趣，关注一下。

现在是用TWebBrowser来得到，不方便

火山 · 2006-10-09

占个位置,听课

socid · 2006-10-09

共同学习，一起进步

xygz · 2006-10-10

见过两种控件，可以实现这个功能，一个是THttpScan,一个是TSpider搜搜，应该不难找到的

swordnorth · 2006-10-10

[^][^]

lmax · 2006-10-10

正想学习这方面的知识，等待。。。。。

dreamfly1024 · 2006-10-10

过几天我们将封装一个 Nuva 语言的 Http 库，估计实现这个功能还是非常简单的

jfyes · 2006-10-11

这个啊，要自己熟http协议就好办了。你花一个星把http协议搞熟，用WinSocket通过http协议去抓取网页最好了。

xianbin · 2006-10-11

我是用TWebBrowser和HTTP控件联合操作
但是结果不理想啊
等待答案中

tangfengyang · 2006-10-12

tspider 提示缺少hyperstr.dcu
暂时没有找到
httpscan是需要注册的

我用TWebBrowser 作了一个
可以实现部分功能,但是bug很多
诸多因素没有考虑完全啊

softecn · 2006-10-12

http://www.2ccc.com/article.asp?articleid=3701
有现成的源码~