如何实现将任意一篇文章中所有的词抽取出来?(100分)

  • 主题发起人 主题发起人 bytelife
  • 开始时间 开始时间
B

bytelife

Unregistered / Unconfirmed
GUEST, unregistred user!
比如
输入:"Delphi是由Inprise公司推出的面向对象的可视化软件开发工具"
输出:"DELPHI","是","由","Inprise","公司","推出","的","面向对象","的",
"可视化","软件","开发","工具".
 
要定义词的分隔符,
不过可以先定义一些常用的助词和动词。先用这些词进行分隔。
再定义一些词组进行细分。
 
还有中文短语词组,这个问题工作量有点大啊
 
做一个简单的知识库好了。
 
能不能从一个词组的词库中去查询?
问题是这样做的话效率太低了。
 
没人能对此问题提出有点建设性的意见吗?
 
这太困难了吧?
要想让计算机知道哪个是词组,短语……,就得有一个存储这些词组、短语的数据库,
祖国文学如此浩瀚,我想要弄一个《中文词汇大全》,存这个数据库的介质会象一个星球那么大。
况且有些中文语句本身就有歧义之处,有时人都分不清,更别提电脑了。
 
中文分词现在还不能准确到你那种地步的
 
中文以字为单位
你要是想分开成 单独字 到可以
英文以词为单位
你要是想分开成 单独词 到可以
 
同意楼上的说法,分成那样几乎是不可能的
 
能够把那些东西详细分的人,恐怕没有时间来上大富翁了吧?

再说这些应用似乎也不是delphi来做的。。
 
要建立一个分词表
匹配的时候用hash的办法
 
新闻台下月亮相
——何解? :)

有了词库以及每个词的使用频率,这个问题就非常简单了——除非你想达到近100%的准确率
——连人都很难做到,更何况是电脑呢?
 
讨论结束
 
讨论结束
 
后退
顶部