如何作一个网页抓取的蜘蛛程序,在线等待(300分)

  • 主题发起人 主题发起人 tangfengyang
  • 开始时间 开始时间
T

tangfengyang

Unregistered / Unconfirmed
GUEST, unregistred user!
想作一个类似搜索引擎的蜘蛛程序
可以自动遍历网页中的链接
提取meta信息 和title存储在数据库中.
能够从类似论坛网站中批量提取帖子列表
 
有兴趣,关注一下。

现在是用TWebBrowser来得到,不方便
 
占个位置,听课
 
共同学习,一起进步
 
见过两种控件,可以实现这个功能,一个是THttpScan,一个是TSpider搜搜,应该不难找到的
 
正想学习这方面的知识,等待。。。。。
 
过几天我们将封装一个 Nuva 语言的 Http 库,估计实现这个功能还是非常简单的
 
这个啊,要自己熟http协议就好办了。你花一个星把http协议搞熟,用WinSocket通过http协议去抓取网页最好了。
 
我是用TWebBrowser和HTTP控件联合操作
但是结果不理想啊
等待答案中
 
tspider 提示缺少hyperstr.dcu
暂时没有找到
httpscan是需要注册的

我用TWebBrowser 作了一个
可以实现部分功能,但是bug很多
诸多因素没有考虑完全啊
 
http://www.2ccc.com/article.asp?articleid=3701
有现成的源码~
 
后退
顶部