屏幕取词源代码,准确率100%有人需要吗?(0分)

  • 主题发起人 主题发起人 linuxping
  • 开始时间 开始时间
不 想 和领域白痴说的太多


中文信息处理,是我们国家在信息化建设方面非常重要的任务,是“十五”国家重大科技专项“重要技术标准研究专项”之一。
我们知道,汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。” [1], 我们还知道,“词是最小的能够独立活动的有意义的语言成分。”[2] 然而,汉语文本中词与词之间却没有明确的分隔标记,而是连续的汉字串。显而易见,自动识别词边界,将汉字串切分为正确的词串的汉语分词问题无疑是实现中文信息处理的各项任务的首要问题。



信息的飞速增长,使搜索引擎成为人们查找信息的首选工具。搜索引擎会在搜索到的上百亿的网页中把最相关的结果排在最前面。这称为“相关度排序”。然而,中文分词的准确与否直接影响到对搜索结果的相关度排序。
可以在Google和百度上做一个测试。
 在google上输入“子时”。
前20项有以下5项与“子时”无关。
诸如: “介绍一种房中术修炼法“活子时””
“食用桔子时的不宜_饮食频道_新浪生活_新浪网”
“活子时”
“子时迹------------- Blogcn | 中国博客网| 博客(blog)托管商| 网络 ...” “我在月子时受到的伤害_新浪论坛_新浪网”
 在百度上输入“子时”。
前20项有7项与“子时”无关。这里不再列举。大家可以试一试。
搜索引擎只是中文分词的一个应用方面。中文分词还应用在更多的领域。诸如:智能拼音语句输入、手写和语音自动识别输入;文章的校对;简体和繁体中文的自动转换;信息检索和信息摘录;文本分类和自动文摘;语音合成;自然语言的理解和自动翻译;自然语言接口等[3]。

汉语分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用前景。



 基于字符串匹配
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个「充分大的」机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的集中匹配分词方法:
1. 最大正向匹配: 从左到右匹配
2. 最大逆向匹配: 从右到左匹配
3. 最小切分: 使每一句中切出的词的数量最少。

 基于统计
基本思想是:
1. 一个待切分的汉字串可能包含多种分词结果
2. 将其中概率最大的那个作为该字串的分词结果

待切分词串: | 有 | 意 | 见 | 分 | 歧 |
0 1 2 3 4 5


路径1: 0-1-3-5 (有/意见/分歧)
路径2: 0-2-3-5 (有意/见/分歧)

该走哪条路呢? 我们选概率最大的那一条路径。

 基于理解
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
 算法综合
目前比较成熟的分词算法一般都综合了匹配与统计,并使用一些简单的语法规则(理解)。
四. 分词难点
分词难点在于速度与精度。
速度是指单位时间内分词多少。精度是指汉语词语识别的准确性。而精度又取决与歧义的识别和未登录词的识别。
歧义的识别[4]:比如:分成分子时(分成/成分/分子/子时)。
未登录词的识别指地名(比如:七支沟),人名,各种新出现的词(比如:美眉)。
至今为止没有出现分词精度能达到100%,并实现一定速度要求的软件。
 
我用VB做过
 
不如直接贴出来。 搞什么西西
 
汉语分词很麻烦,歧义不好解决,象英语的是由单词组成,而汉语是由汉字组成,再由汉字组成词,汉语分词个人觉得无法做到100%的准确,就是人去看一篇文章,每个人理解都可能会不通,就如你上面说的,"有,意见,分歧"和"有意,见,分歧",概率只能包含最大化的可能,但要做到精确,应该需要结合上下文的意思,才有可能做到精确,单一的分词,还是有困难。
 
后退
顶部