用400万大词库进行分词,对150个字以内的字符串进行分词时间就用几十毫秒,大家帮我看看分词准确率和效率如何啊! ( 积分: 100 )

D

dcms

Unregistered / Unconfirmed
GUEST, unregistred user!
用400万大词库进行分词,对150个字以内的字符串进行分词时间就用几十毫秒,大家帮我看看分词准确率和效率如何啊!
词库没有加载到内存,目前也没有使用多线程,对150个字以内的字符串进行分词时间就用几十毫秒,CPU占用率仅为 5%~7% 。
http://hi.baidu.com/earthsearch/blog/item/c0f72fad97f941084b36d67f.html
 
C

creation-zy

Unregistered / Unconfirmed
GUEST, unregistred user!
什么CPU啊?4G双核×2? :p
如果词库(包括任何与词库有关的索引信息)没有加载的话,几十个单词的判定,光是读
词库文件所花的寻道时间就不少了。不知道加载到内存后是不是可以快一个数量级呢?
——应该是改进的分词算法吧?不要告诉我之前的搜索引擎没有分词:p
能够分析出“人之”,为什么没有“个人”呢?
 
W

wr960204

Unregistered / Unconfirmed
GUEST, unregistred user!
巧了,我前两天也做了一个中文分词的东东.
没有找到你那么大的词库做素材.我用了几十万的词库.
分析2万字的字符串不到一秒.我没有计时,时间估计的.没有延迟,一下子就处理完了.
不知道我们两个的东东谁的效率更高一点啊.哈哈
 
D

dcms

Unregistered / Unconfirmed
GUEST, unregistred user!
用的是普通 PC ,内存 512MB 操作系统用的是 Windows 98 ,C语言开发!
是这次新改进的算法!
 
C

creation-zy

Unregistered / Unconfirmed
GUEST, unregistred user!
看来我的意思没有表达清楚,那就再问一下:平均说来,每个双字节字符需要多少个CPU
时钟周期才能完成分析?
我用Google搜索“个人 几个 堆砌 关键词 百度 首席 架构师”,很快就找到了楼主的网
页,只不过,似乎Google库里面的内容和楼主当前的版本有所不同:
D:/carveword/release>carveword 今天偶然搜索到了百度首席架构师,百度贴吧之父俞军的一份求职简历.作为真正改变中国互联网状态的极少数几个人之 ... carveword = 几个频率= 1 carveword = 个人频率= 1 carveword = 人之频率= 1 carveword = 之一频率= 1 ...
显然Google将“几个人之”分解成了“个人”,而不是楼主的“个人”+“人之”。
而Google快照中楼主的早期版本分解的结果是“几个”+“个人”+“人之”——看起来现
在增加了对重叠部分的处理,但是哪个更准确就难以评价了。
 
Q

QSmile

Unregistered / Unconfirmed
GUEST, unregistred user!
有点牛,就是你的搜索引擎网站打不开。
 

白河愁

Unregistered / Unconfirmed
GUEST, unregistred user!
我搜索4G内存的算法也是用了几十毫秒,不知道哪个快一点.
 
L

linuxping

Unregistered / Unconfirmed
GUEST, unregistred user!
老兄,我搜索几千个字才几十毫秒....不过是15万词汇..
也没有使用用多线程, 用的是普通 PC ,内存 512MB, 操作系统是 xp,delphi开发.
 
T

tkggai

Unregistered / Unconfirmed
GUEST, unregistred user!
机子配置高的话,算法倒不太重要,
如果一般的话,算法就太重要了
 
D

dcms

Unregistered / Unconfirmed
GUEST, unregistred user!
TO: %*%
我看你们说的容易,去实际做做看你们就不会这么说了:) 不懂就去学习,别瞎说!
 
C

creation-zy

Unregistered / Unconfirmed
GUEST, unregistred user!
不知道楼上的 %*% 代表什么?通配符么?——无论是数据库还是命令行,这个都匹配不
到任何结果。如果一定要匹配,楼主的标识 dcms 似乎也是当仁不让的被匹配上了。看来楼
主是在自言自语吧?
依我看,任何关注过这个帖子的人(包括楼主自己),不是不懂就是装懂,所以 %*% 们
还是不要理它的好,免得被自以为懂的人当成只知道说胡话的。
看了好几个楼主开的帖子,似乎楼主开贴的主要目的不外乎三个:炫耀、骂人、找骂。
这个帖子三个目的都已经达到,似乎可以结贴了吧? :D
 
D

dcms

Unregistered / Unconfirmed
GUEST, unregistred user!
多人接受答案了。
 
K

kinneng

Unregistered / Unconfirmed
GUEST, unregistred user!
按楼主的题目,150个字的字符串用0.03秒,相当于5K/每秒的速率是比较慢的,
而搜索4G内存只用0.03秒的算法,相当于每秒133.3G的速率,现在CPU的主频不过3.5GHz。
 
D

dcms

Unregistered / Unconfirmed
GUEST, unregistred user!
TO: kinneng你分析的很对!
这说明有些人( 白河愁 )是在瞎说嘛:)
 

Similar threads

S
回复
0
查看
3K
SUNSTONE的Delphi笔记
S
S
回复
0
查看
2K
SUNSTONE的Delphi笔记
S
I
回复
0
查看
689
import
I
顶部