如何正确提取网页中所有的EMAIL(300分)

  • 主题发起人 主题发起人 8.b
  • 开始时间 开始时间
8

8.b

Unregistered / Unconfirmed
GUEST, unregistred user!
如何正确提取网页中所有的EMAIL
 
我发代码你!
 
有很多办法
最专业的方法是正则表达式的应用
所谓正则表达式 (regular expressions),就是用一个模板字符串,去匹配一段文本,
从该段文本中提取符合某种规律的文字。
http://www.ciser.cornell.edu/info/regex.html
http://py-howto.sourceforge.net/regex/regex.html
这是检测一段文本中的 email 地址的正则表达式:
[/w/d/-/.]+@[/w/d/-]+(/.[/w/d/-]+)+
现在 几乎所有编程语言都有正则表达式的支持库,我已经在 Java, C/C++, Delphi,
ASP, Python, PHP, Perl 中已经发现它了 ;)
不管什么语言,用正则表达式一般可以做三种事请:
1、匹配 match,就是从一段文本中,查找符合某种规律的子串。比如找 url 地址
2、替换 replace,就是把找到的子串换成其他内容。比如把找到 url 地址换成
<a href=$1>$1</a>,就实现了自动 url 识别
3、分割 split,就是按找到的子串,将文本分割成几部分。
您可以去找 match, replace 和 split。另外正则表达式语法是统一的。与编程语言无关。
这是最终答案了,别人的答案肯定都不如我,快把300分都给我吧!

 
后退
顶部