如何提取一段文本里面的关健字呢(100分)

G

goddy

Unregistered / Unconfirmed
GUEST, unregistred user!
如何提取一段文本里面的关健字呢
 
pos判断位置啦
 
我要是任意文本里面 提取关健字 就是google baidu 会自动提取关健字的那一种
 
涉及到中文分词的问题
 
啥叫关健字,你建立个关健字列表然后提取就可以了
 
这涉及到一个中文分词的问题,方法很多。具体的方法可以分为基于词典的方法和基于词频的方法。前者需要你找一个汉语的词典(在网上搜索中文素材库),将你的文档中的内容赋予一个字符串,利用最大匹配算法就可以得所有的关键词,但是这种方法分词的结果与你的词典的大小有关。后一种方法就是先将你的文档付给一个字符串,每次从字符串中取出连续的两个字,计算这连续的两个字在文本中出现的次数(词频),频率越大说明成为词的可能性就也高,这还涉及到一个概率和阈值的问题。如果需要我可以给你发几篇有关这方面的文章。
 
顶部