好消息:终于搞定一个全文检索引擎 - lucene(0分)

  • 主题发起人 主题发起人 yysun
  • 开始时间 开始时间
Y

yysun

Unregistered / Unconfirmed
GUEST, unregistred user!
我们的离线阅读器苦于没有全文检索引擎一直输给 chm。
最近,我终于发现一个可以利用的全文检索引擎 http://jakarta.apache.org/lucene
经过适当改造完全支持中文!
不久我将推出一个全新的离线阅读器。
 
一篇介绍 lucene 的文章
http://www.javaworld.com/javaworld/jw-09-2000/jw-0915-lucene.html
 
好啊
虽然,chm确实很好
但我一直希望大富翁能做出更好的来``
 
yysun有点钻牛角尖,[:D]
 
期待中,,,希望能比CHM更好更方便,,
不然我还是用CHM[:D]
 
感谢孙老师,另请问,现在大富翁是否不支持XML更新了?我取贴子列表不成功。正在学习
xml,主要想试试,应该对大富翁网站影响不大吧,谢谢。
 
“钻牛角尖”是什么意思? 我倒觉得中文全文检索是个非常有意思的题目。
首先,我我们得有个索引引擎,一般数据库用 B+ 树,而 Lucene 使用了 V-Twin 引擎。
V-Twin 是什么,我也不懂。反正 Lucene 已经实现,可以直接拿来用就是了。
然后是中英文单词分离 (tokenize)、非检索词过滤(filter),这些比较简单。
接下来是中文分词(做这个需要一个分词表和一个逻辑算法)。比如从“中华人民共和国”中
分出“中华”“人民”“共和国”,这样检索“华人”就不会把“中华人民共和国”也给检
索出来了。最后,还可以做“同义词”、“近音词”查询等等。
目前,我还没有时间实现中文分词以下的内容,不过成果已经比较满意了:
1、建立索引: 63万多条贴子,用去 135 分钟。索引文件总共 240+M。
2、按域查询,可检索标题、正文、分类和作者,例如:user:yysun subject:大富翁。
3、支持 +、-,例如: +user:yysun -delphi
4、支持 AND、OR,例如:+大富翁 AND -离线
5、支持更新,可以动态增加、删除贴子。
以上几点,除了索引文件比 chm 大以外,性能都已经超过 chm 了。chm 压缩 zip 格式。
Lucene 的索引文件用 zip 压,大致也能压掉 50%,为 120+M 左右。
我已经查到压缩索引的着手点了,不久这个性能指标也可以赶超 chm。
全文检索最重要的还是检索速度,让我们来看看新的离线阅读器 dfwSearch 的速度:
检索条件 检索到的贴子数 时间(秒)
delphi 45687 0.210
yysun 2130 0.180
+大富翁 -delphi 6068 0.701
ActiveX 2562 0.361
+user:yysun +activeX 38 0.210
这个周末我也许可以架设一个大富翁全文检索站点出来。
 
能否做个在线浏览器?
xml在我这里总是有这样那样的问题,我现在按问题列表就什么都不会出来!!!
我现在用的是win2000advanced server+ie6+msxml3
 
孙老师辛苦了,多谢!
现在的搜索引擎确实不好用,我发现有的帖子在搜索中无法查出,例如搜索"打印信息",
我发现至少有两篇帖子没有被检索出来
 
十分关注!在离线和在线都要有这个功能才好!
 
确实挺好!
 
检索提示有错:当检索为空是提示为 1条记录
 
现在这个是在线的全文检索,过几天有空再补充进 XML 数据接收,使得全文检索与大富翁
数据库同步起来。
试想把这个引擎用到离线阅读器该有多爽!
 
数据挖掘 建立大富翁查询事务还是相当有价值的
看天网的查询速度就知道了
 
感谢孙老师!
 
恩,值得研究的课题
支持老孙;)
 
全文检索结果
检索表达式: yysun,共检索到 2130 个记录,用时 381 微秒。
---------------------------
孙老师,您真牛啊!
您是上海哪所高校的教授啊?
 
谢谢孙老师的,但不知孙老师能否把它的搜索出来的内容形式作成dfw的经典形式呢?就象
http://www.delphibbs.com/delphibbs/listq.asp这样的形式?(我挺喜欢dfw的页面形式的
,我还用php+mysql写了一个呢[:D])
 
试了一下,还挺快的
孙老师厉害呀
 
后退
顶部