的确很简单拉,比如
词库为:
id word
1 中科院
2 研究
3 研究所
4 中国
5 分词
6 系统
查询 “中国中科院分词系统"根据词库你就可以分出 中国,中科院,分词,系统几个关键词
然后就是 select * form xx where xxx like '%中国%' or xxx like '%中科院%' or xxx like '%分词%' or xxx like '%系统%'就成了
当然,专业高级的分词系统不会这么简单,但都是在这种基础上拓展而来,比如加入了词语的使用频率,无意义的字符忽略,智能的笔误词选择,根据拼音推选关键词!这些东西看起来很高深,其实都是基于统计学的,本身并不复杂,就看你拿不拿得到统计数据而已