五一期间,请高人解决一个数据挖掘的算法问题---Rough Set(粗集,粗糙集),真诚期待! (100分)

  • 主题发起人 主题发起人 knightair
  • 开始时间 开始时间
K

knightair

Unregistered / Unconfirmed
GUEST, unregistred user!
则主要是一个知识分类的问题,描述如下:
信息系统={条件属性,决策属性},其中,对第i个条件属性,有值域V={v1,v2,v3,……,vn},决策属性假设为单一属性,有值域D={d1,d2,d3,……,dn},如此类推,可用条件属性的不同之的组合与决策属性值来描述历史纪录中的系统情况,如果能用一种好的方法对这些纪录进行分类,则可以模仿人对经验知识学习的功能。
打个比方吧,有信息系统:
鸡蛋优选系统={鸡蛋的特征,鸡蛋的质量水平};并且,鸡蛋的属性={鸡蛋的颜色(V1),鸡蛋重量(V2),蛋皮的光滑程度(V3)},每个条件属性都有属性值(用来描述该属性的状况),例如,条件属性“鸡蛋的颜色”有如下值V1={1,2,3},1-表示白色,2-表示黄色,3-表示灰褐色;如此类推,假设V2={1,2,3,},V3={1,2,3,4}。特别的,决策属性即鸡蛋的质量水平={好,中,差}。现在,我们可以大量的收集描述该系统的记录,希望能通过大量的数据学习,得到购买鸡蛋(决策属性--鸡蛋的质量水平)的评价规则。这可以推广的理解为日常的一般决策问题,如顾客购买汽车的评价规则,病人不同病症表现与疾病类型的关系。
相做一个比较简单的知识系统,有如下数据:
记录序号 条件属性 决策属性
-----------------------------------------------------
鸡蛋的颜色, 鸡蛋重量, 鸡蛋皮的光滑程度 鸡蛋的质量水平
1 1 1 2 1
2 2 3 1 2
3 1 2 4 1
4 3 3 2 3
5 2 3 3 2
6 2 1 3 2
-----------------------------------------------------------------------------
对上表进行分析,不难发现,条件属性V3(鸡蛋皮的光滑程度)去掉之后对整个知识的分类并不存在影响,即由条件属性V1和V2的不同组合可对决策属性进行充分的描述,并有如下规则:
如果鸡蛋的颜色={1}={白色},且重量={1}或重量={2}那么鸡蛋的质量={1-即好的};
如果鸡蛋的颜色={2}={黄色},那么就可以断定鸡蛋的质量水平={2-即一般的};

到这时,大家应该发现这样的规则并不是遍历的----如没有提供如果鸡蛋的颜色是灰褐色的时候,鸡蛋的质量水平将会是怎么样等规则。。。。。
试想,如果有很多很多条这样的经验记录,通过如此的规则提取,就能达到知识学习的目的,实现鸡蛋购买的规则决策。
现在的问题是,该怎么样让程序实现规则的自动提取,因为条件属性有时候会远远大于3个,决策属性=----呵呵,放心,一般不超过五个(当然这无可决策属性可看作一个更多选择情况的总目标),因为用一般的算法的话就是一个NP难题,,,,,!
请问怎么样用Delphi实现该程序?
谢谢各位大侠!




 
有关Rough Set的理论请见:
http://www.ahcit.com/200009/01.htm

智能决策支持系统中的知识表示及基于粗集的知识推理

林晓东,王红卫,费奇(华中科技大学 系统工程研究所,武汉430074)

摘要: 当前,智能决策支持系统的实现研究已成为众多学科领域的研究热点,特别是伴随人工智能的发展,不断有新的理论和方法用于智能决策支持系统的实现。本文探讨在智能决策支持系统中的知识表达,讨论了属性在知识表达系统中的作用,决策表格形式的知识表达系统的性质、作用以及根据粗集理论分析处理海量信息中信息的有用特征,通过分析、推理产生最小决策规则。本文最后以EDUDSS中农村小学布局决策为例作实例分析。

关键词:智能决策支持系统;粗集;依赖度;知识推理

一 引言
知识推理是智能决策支持系统中的核心,即根据所获得的信息通过数据分析、推理,从而产生合理的决策规则形成有用知识的过程。为了处理智能数据,就需要对知识进行符号表示。知识表达系统就是研究将对象的知识通过指定的对象的基本特征和特征值来描述,以便通过一定的方法从大量浩如烟海的数据中发现有用的知识或决策规则。粗集理论(Rough Set)作为智能信息处理技术的一个新成果,是由波兰科学家Z.Pawlak教授提出来的对不完整数据进行分析、推理、学习、发现的新方法。根据粗集理论的方法,知识推理就是给定知识表达系统的条件属性和结果(决策)属性,求出所有符合该知识的最小决策算法。这里以EDUDSS为例讨论如何利用粗集理论从现有小学布局数据中发现适合当地实际情况的决策规则,并用于小学布局的决策。
二 粗集理论的基本概念。
粗集理论是基于一个机构关于一些现实和它分辨某些特点、过程、对象等的能力的知识,该理论以观察和测量所得的数据进行分类的能力为基础,它认为知识是基于对对象分类的能力,知识直接与真实或抽象世界有关的不同分类模式联系在一起,这里称之为论域U(Universe)。
假定给定一个感兴趣的对象的论域U,对于任何子集 可称为U中的概念或范畴,并且U中的任何概念族称为关于U的知识。这些概念也构成了特定论域U的分类。一个U上的分类族定义为一个U上的知识库,这样,知识库表达了一个或一组智能机构的各种基本分类方式。通常情况下,用等价关系来代替分类的概念。
令 ,且R为一等价关系,当X为某些R基本范畴的并时,称X是R可定义的,否则X为R不可定义的。R可定义集是论域的子集,它可在知识库K中被精确定义,而R不可定义集不能在这个知识库中被定义。R可定义集称为R精确集,而R的不可定义集称为R粗集。粗集可以近似地定义,为达到这个目的,使用两个精确集(粗集的上近似和下近似)和边界来描述。
 

 
对不起,示例中的第2条记录应该为:2,2,1,2
恳请高手指教,期待中:)[:)]
 
后退
顶部