to YYSUN 标题是我写错了,应该是:大富翁搜索引擎是否有位置匹配算法,提供关于单汉字索引法的理论文章一篇 (200分)

  • 主题发起人 主题发起人 wangxiaoling
  • 开始时间 开始时间
W

wangxiaoling

Unregistered / Unconfirmed
GUEST, unregistred user!
to 孙老师:
我也发现大富翁全文搜索引擎不会出现误检,可是您的单汉字倒排索引分析器ChineseAnalyzer
是理论上会出现汉字误组配现象的,Lucene是不是默认了一种位置匹配算法,是相邻的汉字才
命中,位置匹配算法是单汉字倒排索引法的必不可少的功能。
孙老师,您可以告诉我是那个java文件提供了位置匹配算法的吗?
不胜感激!!!
 
我也想知道
谢谢
 
有这个事情吗?我试验过,不会发生这种情况。大富翁全文搜索就是用的那个 ChineseTokenizer。
具体说说,您是怎么做的。
 
to 孙老师:
我也发现大富翁全文搜索引擎不会出现误检,可是您的单汉字倒排索引分析器ChineseAnalyzer
是理论上会出现汉字误组配现象的,我觉得Lucene默认了一种位置匹配算法,是的相邻的汉字才
命中,位置匹配算法是单汉字倒排索引法的必不可少的功能。
孙老师,您可以告诉我是那个java文件提供了位置匹配算法的吗?
不胜感激!!!
 
天哪,即使实际上已经发现了“不会出现误检”。还从“理论上”推断出“会出现汉字误组
配现象”,不知依据了什么理论,自己动手试过没有。

再看看此帖的标题:“ChineseTokenizer分析器有大量误捡的情况”,
如果不是我理解有问题,明明就是实际上已经发生了误捡,而且“大量误捡”的意思。
害我一阵紧张。
 
标题我已改,以下是单汉字索引的文章一片,请参考:

单汉字标引与检索技术综析
胡盈盈(南京大学信息管理系 江苏 210093)

Abstract The advantages and limitations of au tomatic indexing and retrieval with single Chinese character are analyzed.Methods that can be used to improve automatic indexing and retrieval efficiency are s ummarized.The paper points out that it's necessary to import technology of cont rol indexing and artificial intelligence in single Chinese character indexing an d retrieval.
Keywords Indexing/ Chinese retrieval system/Single Chines e character??

0 引言
所谓单汉字标引技术,是指以单个汉字作为标引的基本单元,在检索时,对不属于停用词范畴的单个汉字进行逻辑乘运算,也即对标引字所代表的概念层面进行后组配,从而获得检索结果。
作为计算机信息检索的处理对象,中文文字与西文相比,其基本语义单位--汉语词之间没有明显的间隔,汉语词的集合与汉字的集合构成一种交叉关系,一个词可能就是一个字,也可能由两个或多个字组成。因此,从70年代我国情报检索界从事汉语文献标引领域的研究开始,一直有大量学者致力于汉语文献自动分词研究,至今已获得许多可喜的成果,一些分词标引和检索技术已投入实用。但是,分词技术作为汉语文献标引的瓶颈,仍然具有很多有待克服的问题。如交集字符串、专有名词以及复合词的切分、同形异义字的区分等。汉字的词组功能相当强,字与字之间的组合方式灵活多变,很难找出稳定简便的规律,即便是人工切分,不同的标引人员也可能由于对概念的理解不一而得出不同的结果。
80年代后期开始有学者提出绕开汉语词切分的单汉字标引和检索技术。如上海交大计算中心李志清提出的无标引检索技术的研究;广州市科技情报研究所黎小林等人的单汉字机助标引与检索的研究;南京大学苏新宁、邵品洪等进行的单字标引与位置检索的研究与实践;中国科技信息研究所的刘春科提出的无标引实现汉字全文索引与检索的新方法与实践;复旦大学图书馆文献信息中心王淼使用停用词表、后控词表、首字匹配算法等实现单汉字检索系统的方法与实践等。?

1 单汉字标引与检索技术的优越性和缺陷 ?

1.1 优越性
1)节约了标引时间。汉字是汉语构成的最小单位,具有不可分割性。汉字与汉字之间存在着自然分割,无需任何特殊技术便能提取到“标引字”。因此有人将以单个汉字作为标引单位的工作称做“无标引工作”。使用单汉字标引技术,既省却了手工标引所需的大量时间和精力,也省却了自动分词过程所带来的许多麻烦。几乎可以说,单汉字标引技术实质上越过了文献标引这一步。
2)组配灵活,标引深入。单汉字系统相当于一个彻底的后组配式检索系统,对文献的标引可深入到每个汉字所代表的概念,检索时再利用汉字强大的组词功能将各个由单汉字标识的概念层进行后组,获得无穷无尽的检索用词。任何使用主题词表的检索系统由于受主题词表规模的限制,都不可能将文献标引得如此彻底。
3)标引客观且一致。人工标引受标引语言、标引深度、标引政策、标引人员的认识程度等因素的影响,在一定程度上表现出标引的主观性和不一致性。例如不同标引人员对同一篇文献可能采取不一致的标引方式;又如,对一篇文献采用分类语言进行标引,所得结果的一致性往往比采用主题语言来得高。种种原因造成了人工标引的不稳定性。自动分词标引的稳定性较高,但在对复合词、歧义词、交集型字串的理解上可能出现误差,甚至完全失败。而单汉字标引单纯利用汉字间的天然分隔进行标引,它脱离了主题词表的限囿与切分语词的困难,表现出最高的稳定性和一致性,完全避免了主观因素的影响。
4)适应性强。任何主题词表受词表规模的限制,或者局限于某一专业领域,或者通用性较强,但标引深度远远不够。而单汉字系统适应于任何专业,对于任何专业性强或专指度高的概念,只要向系统输入代表该概念的汉字,就可获得一定的检索结果。
5)隐含截词功能。汉语构词复杂,“截词功能”是以词为基础的检索系统应当必备的功能,借助于“截词功能”,尤其是左截词功能,可以降低检索者的负担,提高系统的查全率。但实现左截词功能的算法比较复杂,系统开销也较大。单汉字标引则只标引单个汉字,在检索时才将它们后组,因此其检索功能中很自然地包含了“截词功能”,无需额外的算法和开销来实现。
6)简化用户操作。单汉字系统没有主题词表,检索用户无需花费时间和精力来熟悉并了解专门的标引体系和主题词表,用户甚至不必学习提问逻辑式的书写,因为在从字到词的构成过程中已隐含了逻辑关系。另一方面,同范畴的主题词内往往含有相同的汉字,以后用户便可以此汉字作为切入点,查找到含相关概念的大量文献,大大简化了用户的操作步骤。
7)便于系统维护。对检索系统的维护工作,包括插入新出现的标引词(字),删除过时的、废弃不用的或效率极低的索引词(字),以及对索引库的排序、优化等工作。
随着科学技术的发展,在科技文献、社科文献中,不断有表达新概念、新事物、新方法的词汇的涌现,不断有表征一些错误的、过时的、不科学的概念的词汇的消亡。在以词为基础的检索系统中,为了保证原有词汇表的准确、完善和科学,需不断对其进行维护,这是一项费时费力并且永无止境的工作。而在单汉字检索系统中,由于汉字集合比较稳定,一些新词汇也只是对原有汉字的重组,因而在很大程度上降低了系统维护工作量。另外,单汉字系统的索引库相对较小--常用汉字的数量大约在几千至一万之间,便于对其进行插入、删除、排序、优化等维护工作。?

1.2 缺陷
1)牺牲了隐含概念主题及词汇间相互关系的表达。没有主题词表的辅助,单汉字系统只能对检索对象进行字面上的处理,无法表达出字面所没有的但文献中隐含的主题,更无法将各概念之间的属分、参照等关系描述出来。这些因素造成了相关主题文献的漏检,降低了系统的查全率。
2)降低了检索速度。大部分汉语词由两个至三个单汉字组成。每进行一次检索,除了少数一字词外,一般都需要对两个、三个甚至更多个汉字进行交运算,将其组合成词,然后再进行匹配运算。与先组式检索系统相比,这种处理技术显然耗时较多,降低了系统的检索速度。
3)在没有实际含义的虚字、分辨力极低的汉字上牺牲了空间。很多虚字、分辨力极低的汉字对于检索来说没有多大意义,但在文献中出现的频率极高,占用了索引库大量的登录空间。这个问题已随着近些年提出的停用词表技术的采用而有所改善。
4)检索者智力负担较重。在单汉字系统中,没有一个统一的参照标准。也就是说,用户无法借助于主题词典、检索词表等工具来选取检索词,构造检索策略,而只能凭空构想出所需采用的检索词。因此,要想比较完整地查找出某一主题文献,必须构造出能表达该主题概念的所有语词,这无疑加重了检索者的智力负担。?

2 单汉字标引与检索技术的实现及优化 ?

2.1 单汉字标引
单汉字标引实质上是把具有检索意义的单个汉字进行倒排索引。在黎小林等提出的单汉字机助标引和检索系统中,将汉字分为3类:虚汉字、常用字和基本字。虚汉字只包括少数无标引意义的虚字,预先被放入数组。标引和检索时都须首先扫描该数组,经判断标引字不属于这一类,才为它建立索引。常用字因为在文献中出现的频率较高,以被称为“大记录”形式的格式来索引,索引记录中包括汉字、含该汉字的文献总数、各文献标识号等信息。基本字在文献中出现的频率较低,因此一个记录对应一个汉字,记录中包含的字段则与常用字相仿,其索引格式如下:


单汉字 篇数 标识号集合

索引文件的生成采用批处理方式,即录入人员录入一批记录后,将其倒排,加入到索引文件中。
苏新宁等提出的标引算法则多出一个表示单汉字在文献中位置的字段,以方便检索时对字串中各单字的位置限定。其记录格式如下:

单汉字 文献号 位置信息

另外方懿建议将非汉字标引表内的全部标引字符转化为全角和大写以保持一致性;王淼则在系统设计实践中建立中文标引字库和西文标引字库,以保证系统的中西文兼容。这些都是在前者基础上的进一步优化和完善。?
2.2 位置检索
黎小林等提出了耗时为M×log/-2N的逻辑交运算,即对所含元素数量分别为M和N、且M<N的两个集合进行扫描,对M集合按顺序扫描,N集合则利用二分法进行处理,得出同时包含字串中各单字的记录。采用这种算法,只能判断检索字串中的单字是否同时出现在题录中,但无法确定各单字是否相邻并构成词组,例如想查找“标引”一词的文献,很可能查得含“标准引文格式”字串的记录。
苏新宁等提出的位置匹配算法则弥补了这一缺陷:首先把检索字串分解成单汉字,逐个在汉字位置倒排档中进行查找,得出含有相应单汉字的记录号集合及各汉字在文献中的位置。然后对两个集合进行交运算,并根据检索字串中各单字的位置限定得出符合要求的结果。
利用位置匹配算法在很大程度上避免了误组配现象,大大提高了单汉字检索的检准率,使单汉字标引和检索思想更趋实用;但它的算法比较复杂,编程实现比较困难且运行速度不够快。因此苏新宁对这种位置匹配算法作了改进,又提出“检索词首字直接匹配算法”。此算法取检索词的第一个汉字查找单字索引,获取其在数据库中的记录号和位置值,并提取该记录。然后直接比较检索词和所得记录的子字串,如果相同,则作为命中结果。利用这种算法进行检索,可将不能作检索词词首的汉字也纳入停用词表范围。首字直接匹配法在保证检索准确率的前提上,提高了算法的清晰度及运行效率,是至目前为止单汉字检索算法中最实用、最有效的一个。?

2.3 停用字表
建立停用字表的目的是过滤汉字集合中一些虚字和分辨力低的字,压缩索引的规模。在西文检索系统(SCIRS)中,都配备有一个Stop List,用来排除冠词、连词、代词等出现频率高但无标引和检索意义的词。中文检索系统中也可采用同一技术。在王淼研制的单汉字标引检索系统中,分别建立中文停用字表和西文停用字表。中文停用字库包括全角符号、虚字、不可能作为检索词词首的字,西文停用词库包括半角符号、虚字等,所用的算法都是对之前的研究人员提出的思想的实践,并没有创新或突破性的思路和建议。?

2.4 控制词表
陈光祚提出设立控制词表文档的建设性建议,其目的是为用户制定检索策略提供一个参照。控制词表中收录了完整的包括属、分、参、代、用等词间关系的主题词表,成为检索用户的辅助工具,有助于丰富用户的检索词汇,优化用户的检索策略。?

2.5 后控词表
控制词表辅助检索策略的人工优化,后控词表则是控制词表功能的机器自动实现形式。后控词表中收录同义词和相关词,其目的是为了减轻检索者的智力负担,提高系统的检全率和检准率。在检索过程中,用户只需输入表达某一概念的一个检索词,系统就会自动从后控词表中搜索出相关词,或根据要求提出上位词、下位词作为检索词,以保证检索结果的完全和准确。在王淼开发的SCIRS系统中,后控词表收有同义词和上位词,其记录格式为:


主题词 同义词 上位词

2.6 检索结果文档、主题词文档的自动生成
利用单汉字系统检索文献,每一次检索,都有一个对检索字串的先分解后合成的运算过程,即使是同样的检索字串也不例外,大大影响了系统的运行效率。苏新宁提出用系统自动生成检索结果文档的方法来提高检索速度,即把位置运算的结果以倒排档的形式保存起来,包括已检索过的检索词和与它们有关的记录号。这样,以后使用的检索词如果在倒排档之中,则不必对它进行单字组配位置运算,直接从倒排档中搜索出检索结果即可。
检索结果倒排档的记录格式为;


检索词 目长 记录号集合


利用检索结果倒排档,可加速对倒排档中已有检索词的检索,但在检索的初期,不仅不能提高检索效率,而且因为要同时对单字位置倒排档和检索结果倒排档进行搜索,反而增加了系统负担。基于此,苏又提出自动生成主题词倒排文档。主题词倒排档由两个文件构成,一个含所有主题词、词间属分关系及指向以此为检索用词的检索结果的指针,另一个是检索结果的倒排档,其记录形式如下:

单汉字 文献号 位置信息


主题词表?
记录号集合


倒排文档
3 汉字标引与检索技术展望
纵观近几年单汉字标引和检索技术的发展,其发展趋势可归结到两点:一是在单汉字标引和检索技术中引入受控标引和检索的技术和思想;二是引入人工智能技术。
单汉字标引和检索技术是完全的后组式标引和检索技术,抛开了传统检索系统中主题词表的限囿。所谓“有所得必有所失”,一方面单汉字标引和检索系统因此而获得极大的灵活性和客观性,且绕过了自动分词技术中难以逾越的障碍;另一方面单汉字系统丢失了以词为基础的检索系统中具备的许多重要信息,并为机器运行和用户智力带来了额外的负担。在现有的单汉字系统的各种优化策略中,很多方案引入受控标引技术,如设立受控词表、后控词表、自动生成主题词倒排档等,都是在保留单汉字技术的优势和特色的基础上,引入受控标引思想,扬长避短,使两者的优点有机地融合。
同时,引入人工智能技术和专家系统技术,有助于发展检索系统的语义分析、自动搜索、逻辑推理等功能,使系统实现自扩展、自学习,检索策略的自动优化,检全率、检准率的提高。这也是单汉字标引和检索技术的发展趋势之一。只有将联机检索技术与人工智能技术结合起来,才能真正大幅度地减轻用户在信息查找和利用过程中的脑力负担,使用户享受到真正的“信息自由”。这也是我们研究并大力改善单汉字标引和检索系统的意义所在。?

4 结束语
单汉字标引和检索技术为中文文献检索自动化的实现及优化提供了一条新的思路。我国学术界对单汉字标引和检索技术的研究始于80年代后期,至今大约10个年头。其间的研究热情由冷至热又至冷,只有少数研究人员,如以南大信息管理系的苏新宁为核心的部分研究人员等持之以恒地进行这方面技术的探索。应当说,单汉字标引和检索技术离它的成熟阶段距离尚远,自动化信息检索领域的学者们还需继续努力,使单汉字技术真正趋向完善、成熟和实用。 □?

本页首部


参考文献 ?
1 苏新宁.汉语文献自动标引综析.情报学报,1993,(4)
2 黎小林.吴骏盛.单汉字机助标引和检索.情报学报,1998,(1)
3 苏新宁,等.论中文标题的单字标引与位置检索.南京大学学报,1990,(2)
4 王淼.单汉字标引技术的改进研究.现代图书情报技术,1997,(2)
5 方懿.两种自动标引法的比较及改造.现代图书情报技术,1996,(2)
6 苏新宁.汉语词切分标引算法的改进.情报学报,1996,(6)
7 陈光祚.论单汉字检索系统.情报学报,1992,(1)
8 苏新宁.中文单字标引算法的改进设想.现代图书情报技术,1989,(1)
9 湛盛勇.汉语文献自动分词与标引研究综述.情报学报,1992,(5) ?



 
多人接受答案了。
 

Similar threads

S
回复
0
查看
3K
SUNSTONE的Delphi笔记
S
S
回复
0
查看
2K
SUNSTONE的Delphi笔记
S
I
回复
0
查看
551
import
I
后退
顶部