G goddy Unregistered / Unconfirmed GUEST, unregistred user! 2006-06-23 #3 我要是任意文本里面 提取关健字 就是google baidu 会自动提取关健字的那一种
E eonzhang Unregistered / Unconfirmed GUEST, unregistred user! 2006-09-01 #6 这涉及到一个中文分词的问题,方法很多。具体的方法可以分为基于词典的方法和基于词频的方法。前者需要你找一个汉语的词典(在网上搜索中文素材库),将你的文档中的内容赋予一个字符串,利用最大匹配算法就可以得所有的关键词,但是这种方法分词的结果与你的词典的大小有关。后一种方法就是先将你的文档付给一个字符串,每次从字符串中取出连续的两个字,计算这连续的两个字在文本中出现的次数(词频),频率越大说明成为词的可能性就也高,这还涉及到一个概率和阈值的问题。如果需要我可以给你发几篇有关这方面的文章。
这涉及到一个中文分词的问题,方法很多。具体的方法可以分为基于词典的方法和基于词频的方法。前者需要你找一个汉语的词典(在网上搜索中文素材库),将你的文档中的内容赋予一个字符串,利用最大匹配算法就可以得所有的关键词,但是这种方法分词的结果与你的词典的大小有关。后一种方法就是先将你的文档付给一个字符串,每次从字符串中取出连续的两个字,计算这连续的两个字在文本中出现的次数(词频),频率越大说明成为词的可能性就也高,这还涉及到一个概率和阈值的问题。如果需要我可以给你发几篇有关这方面的文章。