有一件事情不大明白,为什么很多人一谈到搜索引擎,首先想到的不是算法和数据结构而是数据库呢? ( 积分: 100 )

  • 主题发起人 主题发起人 dcms
  • 开始时间 开始时间
dcms :
这个帖子做广告炫耀和愤青的成分稍微多一些了。确实有些不了解行业的客户以为数据库就是商业化的支持SQL的那种关系数据库,但是把这种情绪在论坛上向其他人宣泄还是不妥当的。而且你说把自己的产品和google baidu想类似多少有些让人感觉自大的,别人看做井底之蛙,多少会让潜在的客户认为你就是一个吹嘘之辈。
做技术的人可以情绪一些,需要卖产品做市场的话,低调些好,毕竟你一想起来就是google baidu sogou,我感觉你也是工程化出身、半路出家的。个人认为如果是专门研究搜索引擎的人,不会不想到国内这方面的鼻祖——天网实验室的。
 
高手如云啊,先赞一下 kinneng ,生动、简练、精辟。
佩服得五体投地啊。
来自:kinneng, 时间:2007-3-22 23:14:30, ID:3686970
市场买的叫做菜,自己种的叫做植物,商品化的数据库才叫数据库,自定格式的就不是数据库?
我的主页都已经过时,什么谷歌之流的东西,还在怀旧,这不是存数据库中,难道存在空气中?
 
数据库的概念也有狭义和广义的区别。狭义数据库的我想应该是指支持数据库接口的、符
合XX范式、可以以增删改查的方式进行操纵的数据系统。广义的数据库就标准不一了——人
人心中都有杆秤,呵呵。
不过,在这里,楼主的意思还是非常明显的——他说的数据库,仅限于可以通过各大厂商
提供的数据库驱动、能够被Delphi、.Net等高级语言很容易的使用的数据管理系统。就事论
事即可,用不着漫无边际的抬杠——比如“水”,广义的“水”可以是任何可以被液化、可
流动的东西,还有,如果说任何需要被存取的东西都是数据库,那么我们常说的EXE可以被
分为指令区和数据区——数据当然是数据,而指令对CPU来说也是数据,那我们还分个什么
劲呢?都叫数据区好了!——不要用所谓的广义概念在用词上抹平一切差别——世间的语言
就是用来体现差别的,没有差别的境界是超越了语言的。

关于一个人的力量和那些大公司的力量对比问题,我想说的是:直接推动世界进化的必然
只是那么极少数人,而这些人有的在大公司,有的不在大公司。当年Turbo Pascal编译环境
的开发者、Linux的缔造者、以及那些现在的大公司Yahoo、Google、Oracle乃至微软,有几
个是在没有大公司占据道路的情况下靠几个人用智慧和勤奋拼死杀出一条血路,由弱到强逐
步发展起来的?在此,我只是想提醒楼主——要想做大,单靠一个人(尤其是您自己目前还
有班要上)孤军奋战,可能在速度上不够快,最好能够多团结几个志同道合的朋友,大家分
工。另外,在有了成熟的想法以及计划之后,利用金融手段募集资金,扩编军队高速前进,
也是一个可行方案——我们的目的是实现自己的理想,同时让投资者获得受益,双赢模式,
而不是简单的把钱从别人的口袋拿出来,放进自己的口袋。
天行健,君子以自强不息!
 
大家说的各种意见和建议我都在通过各地的贴子进行分类汇总.
在此先谢谢大家了!
TO: creation-zy
你是无尽愿 吧? 看来学佛的说出来的就是不同,受教了。
 
大家应该都没什么意见吧。
跟一个管白菜叫高新植物、且带有愤青倾向的人讨论这个白菜长得好不好,明显随时有被扁的危险,而且也撂不下这个脸啊。
你所指的数据结构 拿来和数据库比较,不是很恰当。
打个比方,人家生产汽车,你做的就是汽车模型,你可以不服气人家没你的生产速度快,却无法承认一个事实,这不是同一个档次的东西。
人家数据库可以包含视图、触发器、储存过程,可以存在img blot字段,你的肯定不行,相信你要做也可以做到,但这样就失去你的优势了。
不是说你不好的意思,是性能能匹配就行:要求在玩具汽车上能载人确实比较荒唐,但是只是一件玩具而已却要求生产到汽车的性能其实也是一样。
“据我所知目前全世界的自主研发的搜索引擎中只有
google baidu 还有我的搜索引擎用的不是数据库
估计 sogou用的也不是数据库。”
这句话估计很让人不是很舒服,听起来有点“据我所知,目前前世界的中国人就姚明和我篮球打得比较好”的味道。
另外,如果google没用数据库,它的“网页快照”就没法做了。
回到正题吧,看了你的搜索机,性能确实不错,不过搜索机制也是老生常谈,应该就是把搜索的对象全部放到内存里面,建立大量的数组去提高查询的速度,中间也就多了一些索引和优化命中的算法,诸如此类,实在也找不出有什么值得大家关注的新技术。如果只是这样,说实在的,有点对不起你的口气。
而且整个搜索机制,前期的资料收集、分类处理、数据校验....都占了90%以上的工作量,只拿出了最后一个搜索算法就沾沾自喜有点为时过早。
我认为你之所以这么张扬,肯定在算法里面发现了一些好方法,如果拿出来讨论的话也许这里会有更多人感兴趣,也会有不少高手会指点一二。
 
To: jenhon 看了你的回复我才真正明白什么叫不懂装懂.
奉劝一句,不懂就别在这里瞎说了,免得我看扁了你!
 
大哥我也到你贴子说说:你的网址打不开哦,你的算法不能帮我生成最基本的ActiveX Button不出错。
 
“100台PC搜索一亿网页时间还不会超过 1秒钟” 还好意思说?
 
“100台PC搜索一亿网页时间还不会超过 1秒钟”客户端的话,呵呵,一般般;如果是服务端,就很不错了……
 
好贴,继续讨论,学习ing...
 
来自:dcms, 时间:2007-3-27 12:56:47, ID:3690618
To: jenhon 看了你的回复我才真正明白什么叫不懂装懂.
奉劝一句,不懂就别在这里瞎说了,免得我看扁了你!

这么没创意的话也说得出来?太空洞了,来点有营养的。
 
To: jenhon 你自己几斤几两,难道你自己还不知道?
别看你回复那么一大堆,说实话,我看一眼都觉得浪费时间!
还居然说什么"
另外,如果google没用数据库,它的“网页快照”就没法做了。"
还有其他你说的那些废话,我就不一一指出了,免得伤你自尊!

难道你自己一点都不为自己在搜索领域的无知感到可笑?
真懂的,哪怕只有只言片语都会让我感到有所收获!
而你,我只能说,先去学习一点皮毛在来跟我谈所谓的营养。
 
来自:dcms, 时间:2007-3-27 22:49:13, ID:3691037
To: jenhon 你自己几斤几两,难道你自己还不知道?
....的营养。
还是空洞啊,一味指责其他人,就是看不出你厉害在哪里。
我说的 网页快照,你认为你能实现吗。这个跟搜索算法没什么关系,但是跟你说的不用数据库的话有关系。别跟我说理论可以,理论上1台机器无法插满20G内存的,至少现在还不行。
另外,你使用分布式应该是你认为得意的部分,但是要知道分布式本身就是有应用限制,跟加权算法有矛盾的地方。
我无意跟你争吵一些无所谓的东西,你觉得乍地就乍的吧,都算比较客气了,才说我无知而已,还没到满嘴喷屎的地步了。
 
还网页快照,我第一次 DEMO就实现了这种简单的功能!
 
到处都能碰到一些不懂装懂的SB,真恶心!
 
我不大懂这些
不过我觉的楼主你的火气太大了点,这样不是讨论问题的态度吧
如果你听了不爽 当我没说过
 
呵呵,楼主大有举世皆睡唯我独醒之气概啊!
您的搜索引擎真是前不见古人后不见来者
----一片空白,打不开啊。[8D]
 
来自:dcms, 时间:2007-3-28 9:04:58, ID:3691093
还网页快照,我第一次 DEMO就实现了这种简单的功能!
你的快照还是同一个指向啊,你认为你有足够空间放得下你所搜索到的历史页面?那就太神奇了,据我所知,就算网站已经关闭了,google是可以看到以前页面的内容的。
哈哈.....
 
废话,不保存你的页面到我电脑上怎么做索引?怎么做快照?
TO: jenhon 我看你是个十足的 猪头:)
告诉你,我每台电脑硬盘都是 250G 放不下?你 TMD自己去计算一下吧,白痴一个!
 
TO: jenhon 我要是你,我就立刻去跳楼死了算了:) 白痴,希望你不要耽误大家和我的时间了,我这个贴子是用来收集有用信息的,不时用来装你喷出来的大粪的.
谢谢!
 
后退
顶部