有人用过“中科院研究所研制的分词系统ICTCLAS”吗? ( 积分: 100 )

  • 主题发起人 主题发起人 fanglw
  • 开始时间 开始时间
F

fanglw

Unregistered / Unconfirmed
GUEST, unregistred user!
有人用过“中科院研究所研制的分词系统ICTCLAS”吗?能否提供例子。
 
有人用过“中科院研究所研制的分词系统ICTCLAS”吗?能否提供例子。
 
没用过,不过分词系统很简单拉,自己都可以做
关键就是词库的获得,一般是使用输入法所附带的词库就行了
windows下有一个将输入法转成文本码表的工具,使用这个工具将输入法转成码表后,存入数据库就可以
有了词库,剩下的问题就简单了。也就是sql语法问题了
 
自动分词,楼上的怎么说简单啊啊?
 
的确很简单拉,比如
词库为:
id word
1 中科院
2 研究
3 研究所
4 中国
5 分词
6 系统
查询 “中国中科院分词系统"根据词库你就可以分出 中国,中科院,分词,系统几个关键词
然后就是 select * form xx where xxx like '%中国%' or xxx like '%中科院%' or xxx like '%分词%' or xxx like '%系统%'就成了
当然,专业高级的分词系统不会这么简单,但都是在这种基础上拓展而来,比如加入了词语的使用频率,无意义的字符忽略,智能的笔误词选择,根据拼音推选关键词!这些东西看起来很高深,其实都是基于统计学的,本身并不复杂,就看你拿不拿得到统计数据而已
 
后退
顶部