如何实现将任意一篇文章中所有的词抽取出来？(100分)

bytelife · 2002-08-19

比如
输入："Delphi是由Inprise公司推出的面向对象的可视化软件开发工具"
输出："DELPHI","是","由","Inprise","公司","推出","的","面向对象","的",
"可视化","软件","开发","工具".

jsxjd · 2002-08-19

要定义词的分隔符，
不过可以先定义一些常用的助词和动词。先用这些词进行分隔。
再定义一些词组进行细分。

lilor · 2002-08-19

还有中文短语词组，这个问题工作量有点大啊

jackliew · 2002-08-19

做一个简单的知识库好了。

bytelife · 2002-08-20

能不能从一个词组的词库中去查询？
问题是这样做的话效率太低了。

bytelife · 2002-08-21

没人能对此问题提出有点建设性的意见吗？

Yves · 2002-08-24

这太困难了吧？
要想让计算机知道哪个是词组，短语……，就得有一个存储这些词组、短语的数据库，
祖国文学如此浩瀚，我想要弄一个《中文词汇大全》，存这个数据库的介质会象一个星球那么大。
况且有些中文语句本身就有歧义之处，有时人都分不清，更别提电脑了。

悲酥清风 · 2002-08-24

中文分词现在还不能准确到你那种地步的

Yves · 2002-08-24

中文以字为单位
你要是想分开成单独字到可以
英文以词为单位
你要是想分开成单独词到可以

zjfeng · 2002-08-25

同意楼上的说法，分成那样几乎是不可能的

DreamLand · 2002-08-25

能够把那些东西详细分的人，恐怕没有时间来上大富翁了吧？

再说这些应用似乎也不是delphi来做的。。

xusong168 · 2002-08-26

要建立一个分词表
匹配的时候用hash的办法

creation-zy · 2002-09-12

新闻台下月亮相
——何解？

有了词库以及每个词的使用频率，这个问题就非常简单了——除非你想达到近100%的准确率
——连人都很难做到，更何况是电脑呢？

bytelife · 2002-10-10

讨论结束

bytelife · 2002-10-10

讨论结束