最近我研究 全文搜索引擎的心得(二)(0分)

  • 主题发起人 主题发起人 dcms
  • 开始时间 开始时间
我们 鄙视 日本人
但是 技术 是 无辜 的。
你可以 看看 他们 的 做法。

这些Searcher 服务器使用Linux 操作系统或者Microsoft Windows 服务器(2000
和2003),每台服务器都在内存中装载各自部分的XML 数据,以备在没有索引的情况下
高速的查询。一旦刀片服务器发生断电,Director 服务器可以使用保存在本地文件系
统中的数据进行恢复。与此相同,一旦一台刀片服务器损坏,它的数据段将会自动地
分发至其余的刀片服务器


日本国家遗传学研究所(一般称为“ Idenken”)是日本一个进行遗传学相关研究
的大学研究院。在生物信息中心 (CIB)有日本的DNA 数据银行 (CIB-DDBJ),那里现在
拥有3500 万条记录,包括398 亿的DNA 样本。这些数据几乎以每年翻一倍的速度在持
续快速的增长。
 
不说啦不说啦,其实说起来做个全文搜索的网络引擎,相当相当的简单。只要编程基础还行的人,随便从网上找都能找出爬虫软件一大堆,还有啥中文分词算法。有了这些,你就建好个数据库存储它们。再用个网页来搜索这些存储的数据就OK了。简单?是的很简单,但是想做好,确实是一件太难的事啦
 
dcms不是很牛吗?怎么不说话了,呵呵呵呵!
 
你觉得我还有必要跟一些傻瓜们说吗?
 
呵呵,我说怎么有这么多的回帖。
原来都是砖块啊。
建议大家省点砖块让这个帖子块点沉下去,我已经看腻了。

PS:这里有几个baidu的面试题目。dcms你兴趣可以看看,不过不要又说原理。面试的时候你再这么说原理肯定要被KO.的。
1.给两个数组和他们的大小,还有一动态开辟的内存,求交集,把交集放到动态内存dongtai,并且返回交集个数
long jiaoji(long* a[],long b[],long* alength,long blength,long* dongtai[])
2.单连表的建立,把'a'--'z'26个字母插入到连表中,并且倒叙,还要打印!
3.象搜索的输入信息是一个字符串,统计300万输入信息中的最热门的前十条,我们每次输入的一个字符串为不超过255byte,内存使用只有1G,
请描述思想,写出算发(c语言),空间和时间复杂度,
4.国内的一些帖吧,如baidu,有几十万个主题,假设每一个主题都有上亿的跟帖子,怎么样设计这个系统速度最好,请描述思想,写出算发(c语言),空间和时间复杂度,
 
自我汗一下,zbird兄贴的题目俺一个都不会!惭愧啊!
不过,不知道楼主能回答这几个题目不。
 
你以为我会回答吗?
可笑,你以为用激将法,我就会把关键的代码和思路写出来吗?
 
爱答不答。
反正我自认为不是算法高手,我可没兴趣去baidu搞算发设计。
去了我也搞不了。
不是金刚钻,莫揽瓷器活。
 
既然怕别人抄袭你的创意,那还写什么心得。
心得个X。
 
To dcms: 回家带孩子吧,等你老婆去做“鸡”养你,我看你这种人只能这样生存!
 
哈哈哈哈,大家说得太好了,向他这种人没救了!
 
为什么大家都骂他,唉。。 罪过罪过。。
 
***,全是骂楼主的啊!

老子一看到楼主的名字就会心一笑而过,人到底还是人他妈生的,还是忍不住进来看一眼。

老子n个月前也和这里骂人的一样忍不住骂了楼主一通,***一直后悔到今天!想想老子怎么会忍不住去骂一个神经病呢?人家有病也是迫不得已,能治早治好了,就因为没得治才这个样子,老子怎么就不能理解呢?

退九百六十万亿地讲,中国地大物博、人口众多,其中神经病占有不小的数目,艾滋病都可以关爱,神经病更应该关爱了不是?连医生都治不了,老子骂几句哪里就能奏效了?

所以,老子自从骂了楼主以后,那个后悔啊!老子那个骂,好比就是拿了一块漂亮的纱巾擦了楼主这堆大便,恶心死了。
 
呵呵呵呵呵
呵呵呵呵呵
 
楼主到这里是来做什么来了?显摆你比别人能耐???还说什么今天有好几个人都要求我去baidu的,还说我要是没有去baidu将是一种遗憾(在其它贴子里你也写了这句话),这是不是炫耀是什么,我最讨厌的就是这种人!!!
 
哈哈,看这个人的帖子到是一种享受,真的,反正我觉着好玩!
 

Similar threads

回复
0
查看
991
不得闲
S
回复
0
查看
3K
SUNSTONE的Delphi笔记
S
S
回复
0
查看
2K
SUNSTONE的Delphi笔记
S
后退
顶部