S
suger
Unregistered / Unconfirmed
GUEST, unregistred user!
问题: 如今有50000个字符串需要进行相似度的计算,请个速度快的算法.有哪位高手有现成的例子是最好不过的了.经初步计算,最悲观的对比次数是12.5亿次,这样的次数耗时大概想一下都可怕,不知道需要多长时间才能计算完成.思路:1、考虑多线程同时处理2、发现相似度高于指定值(如90%)的字符串不再参与对比。 如果A,B,C,D,E 5个字符串,A与B的相似度有90%以上,则B不再与C,D,E对比处理。如果有哪位实现过类似这样大数据量的相似度计算工作,请慷慨解囊帮忙小弟一下!分不够可以继续加!