也许这问题和delphi关系不大,但还是想请达人帮助。 ( 积分: 100 )

N

nodress

Unregistered / Unconfirmed
GUEST, unregistred user!
目前手上一任务,完成了一步,接下来感觉不太好做。
要求:给一http地址,获取内容,其中的本站链接也要取得。
已经可以获取开始页面的信息,但里面包含很多链接,现在问题是如何判断这些链接是本站的,或是有效的。(有些是图片,有些是js,但都以http开头,感觉不好判断)。
目前使用Python开发,希望达人提供帮助,算法代码都可以。
解决问题,加分200
 
怎么没人回答?问题换一下吧: 求一正则表达式
要求,把一字符串中包含 href="/xxx/xxxx"这样的串提取出来。
估计这个有点难度……
 
确实有些难度啊,帮你顶一哈
 
半年前的问题了,呵呵。
后来用py写了个小程序,爬几千张页面的网站没什么问题,后来用sina来测试,爬上10几个小时都爬不光,最后程序死掉。。。
 
楼主提的都是有分量的问题。
把一字符串中包含 href="/xxx/xxxx"这样的串提取出来。
这个能实现!但是要速度快就难了。
 
idhttp获得网页源文件,文本格式
然后用poses,copy等判断提取字符串即可
 

Similar threads

S
回复
0
查看
970
SUNSTONE的Delphi笔记
S
D
回复
0
查看
2K
DelphiTeacher的专栏
D
S
回复
0
查看
3K
SUNSTONE的Delphi笔记
S
S
回复
0
查看
2K
SUNSTONE的Delphi笔记
S
D
回复
0
查看
2K
DelphiTeacher的专栏
D
顶部