搜索引擎的另一个问题:ASP等脚本如何读取? (300分)

  • 主题发起人 主题发起人 lps
  • 开始时间 开始时间
L

lps

Unregistered / Unconfirmed
GUEST, unregistred user!
蜘蛛或机器人程序可以读HTML文件,但脚本不一定可以直接读取,怎么办?
GOOGLE是可以的,不知道它是如何做的?
 
APS等脚本?
ASP?
 
robot根本不是用ASP编的。
 
用GOOGLE可以得到这样的结果:
http://www.java.com.cn/showtopic.asp?TOPIC_ID=9412&Forum_ID=31
但是:
1.多数网站不能直接存取ASP等脚本资源,蜘蛛或机器人程序如何象获取HTML一样获取它?
2.象上面的“TOPIC_ID=9412&Forum_ID=31”之类的东西如何获得?
 
机器人的原理,建议你查书,或者英文资料吧。
其实说白了也不难,是先搜索指定的提交的网址的网页,然后分析里面的所有连接(href)
然后再尝试打开相应的连接的网页,这样就很容易的出现你所说的情况了。
对于robot来说,
http://www.java.com.cn/showtopic.asp?TOPIC_ID=9412&Forum_ID=31

http://www.java.com.cn/showtopic.htm
是一样的。
 
晕倒!普通的HTML页面和服务器端生成德ASP、JSP、PHP页面不都是一样的嘛。区别无非
是脚本可以带参数——这也很容易实现呀。关键就是超级链接提取功能的实现——字符串操
作而已。
 
看来大家并没有懂我的意思,ASP等脚本因为安全的原因可能被管理员禁止直接访问,而且有些内容是动态生成的,并不是静态的。
 
客户浏览器能够获得的当然是动态生成的,您的意思难道是google可以得到ASP的源代码??
 
楼主:
脚本除了管理的人员外在一般浏览的时候都是不可以存取的吧?
 
我关心的是脚本[red]动态的生成结果[/red],我想要的不是原始的脚本,又不是要当黑客
 
后退
顶部