用线程把多个网页的文本提取并合并到一个流文件中(高分诚请) ( 积分: 300 )

  • 主题发起人 主题发起人 pzh5201314
  • 开始时间 开始时间
P

pzh5201314

Unregistered / Unconfirmed
GUEST, unregistred user!
需要把多个网页的文本提取并合并到一个流文件中(合并时顺序不限制),比如数组a(i)中有i个网址,高分请求高手写个可以高速提取各网页的文本内容(不需要图像)到一个流文件中,要考虑网络不稳定的情况,可能部分网页下载不成功,超时的就不处理了。
把源码发给我,还可以加分。
三个要点:
①速度要尽量快,最好不要用临时文件(不太影响速度的话,也可以用临时文件)。
②要有对网络不稳定的容错处理,是路由上网,要经常检测外网断开没有。
③网址个数不一定,一般10到50个,最好用线程方式处理。
 
如果不用临时文件的话
可能需要较大的内存
可以开启几个线程
每个线程下载一个网页
下载完了之后加入到内存列表的后面
用一个独立的线程处理已经下载的网页
这里需要注意几点
在取任务(网页)时需要使用同步控制,避免多个线程取一个网址
在将下载后的网页存入到列表时也需要线程同步,包括和其它下载线程的同步和处理线程的同步
剩下的就简单多了
 
嗯,谢谢Mike1234567890, 我思维有些混乱,所以程序写了部分,可以多线程下载和提取文本,但下载周期和处理周期太长,没法用
 
后退
顶部