哪位大侠讲讲邮件搜索软件的工作原理(200分)

  • 主题发起人 主题发起人 amourz
  • 开始时间 开始时间
A

amourz

Unregistered / Unconfirmed
GUEST, unregistred user!
象亿虎搜索大师之类的软件,可以根据关键词在网页中搜索EMAIL地址,它具体是通过什么
手段实现的?
 
email地址有特定的格式

网页中存在很多的链接,
跟踪链接可以进行广度搜索

核心的算法是字符串分析搜索算法,算法很简单
但需要大量下载网页并解析链接和EMail地址
 
LiChaoHui:
你说要下载网页并分析,用什么方法下载。如果该网页是asp或php的,怎么下载呢?
能具体说说吗
 
使用http客户端可以进行下载,不用管http服务器端怎么实现,
只处理下载到的网页即可
http的客户端组件也很好找 ICS的就可以,并且我认为是比较好的
 
那在网站上找邮箱地址是怎么实现的?
例如:知道 163.com这个网站,就可以找到很多xxx@163.com的邮箱地址
 
能举个例子吗?如果要下载文件,是不是要象webzip这种离线浏览软件一样在硬盘上留下很多
临时文件?而且好像webzip也不能抓动态页面的
 
譬如,我知道一个论坛,人气很旺,并且很多人都会在帖子中留下自己的email
我们可以用机器人自动翻阅大量的帖子,来查找email地址
也就是说将页面下载下来,进行分析查找
也不一定生成临时文件,但是已经下载过的链接,不再第二次下载了
在内存中进行分析,没有必要保留
 
谢谢,如果这个论坛需要登陆才可以浏览的,怎么实现搜索呢?还有个问题请教,模拟WEB页面
提交数据,怎么返回提交结果呢?比如说,在一个WEB页面里我提交数据,成功,则出现
“数据提交成功”的页面,失败则是“数据提交失败”的页面,还有该页面暂时无法访问
或不存在的情况。在Delphi里怎么区分这些情况?
 
编写通用的代码来实现判断是否登录成功
判断返回的页面中是否含有特定的关键字,只能针对特定网站
登录后,还要在本地保留Cookie,下一次时将cookie发送

使用http客户端可以读取网页,提交表单
但是像yahoo那样的客户端用javascript来完成登录的,就没有办法了

 
ics哪里可以下载?有例子吗?
 
www.playicq.com上有最新的版本,虽然文件日期不是很新
搜一下ics
ics没有帮助,但提供了所有组件的使用示例,模仿一下就可以用了
 
谢谢,我下载用了。果然很好用。留个email地址交个朋友吧。我得是amourz@vip.sina.com
我准备结分了
 
my Email: li_violetcn@yahoo.com.cn
 
接受答案了.
 
后退
顶部