L lps Unregistered / Unconfirmed GUEST, unregistred user! 2003-06-02 #1 蜘蛛或机器人程序可以读HTML文件,但脚本不一定可以直接读取,怎么办? GOOGLE是可以的,不知道它是如何做的?
L lps Unregistered / Unconfirmed GUEST, unregistred user! 2003-06-03 #4 用GOOGLE可以得到这样的结果: http://www.java.com.cn/showtopic.asp?TOPIC_ID=9412&Forum_ID=31 但是: 1.多数网站不能直接存取ASP等脚本资源,蜘蛛或机器人程序如何象获取HTML一样获取它? 2.象上面的“TOPIC_ID=9412&Forum_ID=31”之类的东西如何获得?
用GOOGLE可以得到这样的结果: http://www.java.com.cn/showtopic.asp?TOPIC_ID=9412&Forum_ID=31 但是: 1.多数网站不能直接存取ASP等脚本资源,蜘蛛或机器人程序如何象获取HTML一样获取它? 2.象上面的“TOPIC_ID=9412&Forum_ID=31”之类的东西如何获得?
R rebirth Unregistered / Unconfirmed GUEST, unregistred user! 2003-06-03 #5 机器人的原理,建议你查书,或者英文资料吧。 其实说白了也不难,是先搜索指定的提交的网址的网页,然后分析里面的所有连接(href) 然后再尝试打开相应的连接的网页,这样就很容易的出现你所说的情况了。 对于robot来说, http://www.java.com.cn/showtopic.asp?TOPIC_ID=9412&Forum_ID=31 和 http://www.java.com.cn/showtopic.htm 是一样的。
机器人的原理,建议你查书,或者英文资料吧。 其实说白了也不难,是先搜索指定的提交的网址的网页,然后分析里面的所有连接(href) 然后再尝试打开相应的连接的网页,这样就很容易的出现你所说的情况了。 对于robot来说, http://www.java.com.cn/showtopic.asp?TOPIC_ID=9412&Forum_ID=31 和 http://www.java.com.cn/showtopic.htm 是一样的。
C creation-zy Unregistered / Unconfirmed GUEST, unregistred user! 2003-06-05 #6 晕倒!普通的HTML页面和服务器端生成德ASP、JSP、PHP页面不都是一样的嘛。区别无非 是脚本可以带参数——这也很容易实现呀。关键就是超级链接提取功能的实现——字符串操 作而已。
L lps Unregistered / Unconfirmed GUEST, unregistred user! 2003-06-05 #7 看来大家并没有懂我的意思,ASP等脚本因为安全的原因可能被管理员禁止直接访问,而且有些内容是动态生成的,并不是静态的。
C creation-zy Unregistered / Unconfirmed GUEST, unregistred user! 2003-06-06 #8 客户浏览器能够获得的当然是动态生成的,您的意思难道是google可以得到ASP的源代码??
X xygz Unregistered / Unconfirmed GUEST, unregistred user! 2003-06-13 #9 楼主: 脚本除了管理的人员外在一般浏览的时候都是不可以存取的吧?
L lps Unregistered / Unconfirmed GUEST, unregistred user! 2003-06-13 #10 我关心的是脚本[red]动态的生成结果[/red],我想要的不是原始的脚本,又不是要当黑客