如何读取某一段文字中数据库中以存在的关键词(50分)

  • 主题发起人 主题发起人 zgp
  • 开始时间 开始时间
Z

zgp

Unregistered / Unconfirmed
GUEST, unregistred user!
我曾见到一个文档管理软件,感觉其中有从一段文件名中提取主题词的做法有点意思。

比如有一文件的文件题名为“国务院关于发布《高等教育管理职责暂行规定》的通知”

提取出来的主题词就为“教育 管理 规定”,这时程序中的主题词数据库中一定含有

“教育,管理,规定”三个数据。不知这如何用程序实现,那位高手告知一二。

 
我认为:
1、该问题主要是子串查找与匹配问题。
2、从提取出的主题词来看,这有一点语法分析的功能即语义识别问题,并为主题词
的概念做了定义,也就是说为什么没有拿“国务院”、“关于”、“发表”等作为
主题词,有些情况“国务院”也可用来做主题词的呀!各位的意见如何?
 
我认为,这些所谓主题,其实是也人为的。
为什么就用这三个词不用别的?
所以用此功能应该是没有什么意义的。
 
这问题说白了就是文档的特征词条抽取。知道有个叫向量空间模型吗?
 
这道题目CJ赞助
个人意见:
3H:废话,什么都是人为的,不过要有个规范;
WUYI:不知道,详细解释一下?
我认为:
最简单的方法是建立“关键祠库”,不过效率和效果都是问题;
然后是词法分析,这是比较复杂的,特别对于中文;
//我做过个恶简单的FOR E文的,可惜SOURCE掉了。

 
为什么废话?
我就是不相信有这样的事!至少在我看到之前!
 
前几期计算机世界周报的技术专题上有介绍。
 
这有什么问题吗,
先找个词库,以前ucdos,tway汉字系统都有,如没有,我就给你寄去一个
再将词库存到数据库中,再查询相匹配的词
 
小3啊,在中国,没办法的。
LSS:未必这个词在本句是关键词,在其它中就一定是呀,所以我说效果差
 
我觉得:如果有,那一定是很深奥得让晓茶看不懂的东东,
包括一大堆鬼才搞的懂的公式,外加一大堆经典测量理论。 :-(

要么就没有 :-)
 
普遍使用的简单办法:
建立一个关键词库 ,
从文章标题中找寻在“关键词库”中存在的词, 作为主题词。
 
多人接受答案了。
 
后退
顶部