《基于粗集的学生综合测评指标与高考成绩间关系的研究.doc》由会员分享,可在线阅读,更多相关《基于粗集的学生综合测评指标与高考成绩间关系的研究.doc(15页珍藏版)》请在三一办公上搜索。
1、 目 录摘要I关键词IAbstractIIKeywordsII引 言1第一章 粗糙集的基本概念11.1 下近似集与上近似集11.2 知识表达系统11.3 决策表11.4 属性约简21.5 属性值约简2第二章 大学生综合测评指标体系的建立2第三章 集成评价方法33.1 建立评价因素(即评价指标)集33.2 确定评价等级集合4第四章 对大学生毕业时相关因素的研究44.1 生成决策表44.2 对决策表进行属性约简54.3 属性值约简74.4 生成决策规则表8第五章 总结与展望9参考文献10致 谢11基于粗集的学生综合测评指标与高考成绩间关系的研究 摘 要: 大学生综合测评是高校对大学生在校综合情况评
2、价的重要手段。为此本文对大学生综合测评问题进行了系统的分析,建立了综合测评的评价指标体系。介绍了粗糙集理论的概念,并利用粗糙集的知识约简对某一专业已毕业大学生的综合测评指标进行了研究,最后得出了大学生毕业时的综合测评指标与高考成绩间的关系。 关键词: 粗糙集; 信息系统; 知识约简; 综合测评指标; 高考成绩 Research on the Relationship between Integration Evaluate Indexes about College Students and the College Entrance Examination Scores Based on Ro
3、ugh Sets Abstract: College students integration evaluation is an important means to evaluate students comprehensive situation in the school. In this paper, college students integration evaluation is analyzed systematically and integration evaluate indexes system is established. This paper introduces
4、 the concept of rough sets theory. Then the integration evaluate indexes about college students who have graduated from certain specialty are researched by knowledge reduction theory in rough sets. Finally, relationship between integration evaluate indexes and the college entrance examination scores
5、 is concluded.Keywords: Rough Sets; Information System; Knowledge Reduction; Integration Evaluation Indexes; the College Entrance Examination Scores引 言粗糙集理论是一种刻画不完整和不确定性的数学工具,能有效地分析不精确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。它由波兰学者Z.Pawlak于1982年提出,现在该理论已被广泛应用于如近似推理、决策控制、机器学习等领域。粗糙集理论是一种新的处理
6、模糊和不确定性知识的数学工具。其主要思想就是在保持分类能力不变的前提下,通过属性约简,属性值约简来发现数据之间的关系并导出问题的决策或分类规则。大学生毕业时的综合测评成绩由诸多方面的因素决定,如:智育,德育,体育,能力,与入学时高考分数有关,也与入学后大学生本人的学习态度有关。本文利用粗糙集的理论分析研究已毕业大学生综合测评成绩与其入学时高考成绩间的联系。第一章 粗糙集的基本概念1.1 下近似集与上近似集给定知识库对于每个子集和一个等价关系,定义两个子集:,分别称它们为的下近似集和上近似集。下近似、上近似也可用下面的等式表示: , .1.2 知识表达系统 四元组 是一个知识表达系统,其中 :对
7、象的非空有限集合,称为论域; :属性的非空有限集合; 是属性的值域; :是一个信息函数,它为每个对象的每个属性赋予一个信息值。 知识表达系统的数据以关系表的形式表示。关系表的行对应研究对象,也称为论域,列对应对象的属性。1.3 决策表 决策表是一类特殊而重要的知识表达系统。设为一个知识表达系统,称为条件属性集,称为决策属性集,包括条件属性和决策属性的知识表达系统称为决策表。1.4 属性约简 信息系统的知识约简就是在所有的条件属性中去掉不必要的条件属性从而找出最小的条件属性集。它完全确定所研究对象之间的关系,也即由最小属性集确定的分类知识与用全体条件属性确定的分类知识完全相同,但需条件属性达到最
8、小化, 从而使我们用最少的信息量即可进行正确的判断。通过属性约简可以将决策表中对决策分类不重要的冗余属性消除, 依此可以达到决策表的简化, 从简化后的决策表可以很容易地分析得到对决策分类起作用的属性。通过属性约简去掉不必要的条件属性,深化了对知识的认识。定义 1 一个信息系统,属性,如果=,则称属性在信息系统中是不必要的,否则称为是必要的。如果每一个都为中必要的,则称为独立的,否则称为依赖的。定义 2 设,如果是独立的,且,且对于中任意子集都满足,则称是的一个约简,记为.中所有必要关系组成的集合称为的核集,记为.定义 3 令和为中的等价关系,的正域记为,即的正域是中所有根据分类的信息可以准确的
9、划分到关系的等价分类中去的对象集合。令和为等价关系族,,如果则称为中不必要的,否则为中必要的。1.5 属性值约简 在约简后的信息系统中, 并不是每一条记录的每一个属性值都对信息系统最后决策规则的提取产生作用, 因此必须对属性约简后的结果继续简化。剔除经过属性约简后的决策表中冗余信息的过程, 就称为属性值约简。属性值的约简是属性约简的进一步深化, 从而真正实现了决策表的最简化, 同时更加突出了关键属性及其属性值对决策的影响。去掉该规则中的冗余属性值, 以便能得到更小更优的决策。定义 1 设是决策表上的一条决策规则,属性值是可被约去的,当且仅当其中和均为决策表上的逻辑公式。该定义揭示了一条决策规则
10、的条件属性值可被约去,当且仅当约去之后仍然保持此规则的一致性。定义 2 设是一条被消去所有冗余条件属性值的决策规则,条件属性集的等价类中任何最少属性的等价类的交集包含于相应决策类中,由此而得到的最小条件属性组成的相应于的新决策规则是的一个决策规则约简。第二章 大学生综合测评指标体系的建立根据学生手册中楚雄师范学院学生综合测评办法的规定,以及综合考虑了学生自身的实际情况,建立了楚雄师范学院大学生综合测评指标体系如图1所示:学生综合测评智育德育体育能力文艺活动加分图1 楚雄师范学院大学生综合测评指标体系全校选修课成绩全校必修课成绩专业选修课成绩专业必修课成绩公共课成绩基本分70分奖励加分项目扣分项
11、目基本分70分集体项目加分个人项目加分扣分项目专业技术技能加分科学技术与创新活动加分基本分50分注:德育中奖励加分项目有:(一)三好学生、优秀学生干部、优秀党员、优秀团员加分;(二)文明宿舍加分;(三)积极参加社会调查与实践活动加分;(四)参加无偿献血加分;(五)学生干部加分;(六)积极参与精神文明创建活动加分;(七)考勤全勤加分。第三章 集成评价方法3.1 建立评价因素(即评价指标)集设评价因素集为,在本文中所建立的评价因素集为智育,德育,体育,能力。3.2 确定评价等级集合这是一个表示评价目标优劣程度的集合。用表示,其中表示第等评价级别,表示评价等级数。本文采用四级评判方法,即(优,良,中
12、,差)。第四章 对大学生毕业时相关因素的研究 大学生毕业时相关因素有智育,德育,体育,能力等,将这些因素作为条件属性,入学时的高考成绩作为决策属性。根据大三学年数学系信息与计算科学专业一个班20个同学的实际情况得到如表1所示的大学生入学时高考成绩与毕业时的综合测评成绩登记表。表1 大学生入学时高考成绩与毕业时的综合测评成绩登记表序号智育德育体育能力高考成绩序号智育德育体育能力高考成绩144.631.53.528.055251137.228.73.5755556.7450244.5529.753.558.65091237.526.953.557.6466341.0528.353.52510465
13、1337.929.753.6255.35468442.0529.053.529.155121437.35283.65.2457542.429.23.557.14751539.529.053.5757.15472641.331.53.5758.755111637.5283.595.746074329.43.66.84701735.826.953.67.2465842.2528.353.5758.655091839.2526.953.65.15457940.1528.353.69.74661938.9526.253.595.14601039.327.33.5757.154632034.927.33
14、.66.154474.1 生成决策表表1中的智育、德育、体育、能力、高考成绩均为属性,其中智育、德育、体育、能力均为条件属性,高考成绩为决策属性,分别记为和.现将表1中各种属性值进行离散化处理,为此做如下设置:(1) 智育:属性值1表示智育成绩大于42分; 属性值2表示智育成绩为4042分; 属性值3表示智育成绩为3840分; 属性值4表示智育成绩小于38分。(2)德育:属性值1表示德育成绩大于29分; 属性值2表示德育成绩为2829分; 属性值3表示德育成绩为2728分; 属性值4表示德育成绩小于27分。(3) 体育:属性值1表示体育成绩大于3.6分; 属性值2表示体育成绩为3.583.6分
15、; 属性值3表示体育成绩为3.563.58分; 属性值4表示体育成绩小于3.56分。(4)能力:属性值1表示能力分大于9分 ; 属性值2表示能力分介于89分; 属性值3表示能力分介于78分; 属性值4表示能力分小于7分。(5) 高考成绩:属性值1表示高考成绩大于480分; 属性值2表示高考成绩为470480分; 属性值3表示高考成绩为460470分; 属性值4表示高考成绩小于460分。 属性值1,2,3,4分别表示优、良、中、差。于是得到如表2所示的离散化后的决策表。表2 离散化后的决策表11142111423442114211244433322413134114341141114421445
16、114321531332621321164224471114217441338123211834144922113193424410333332043144表2中=1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,表示对象集,属性集,其中分别表示智育、德育、体育、能力、高考成绩,即智育、德育、体育、能力为条件属性,高考成绩为决策属性。属性值均为1,2,3,4.由于表2中的对象1和对象2的各属性值对应相同,即二者为重复对象,只需保留一个即可,不妨将对象2删去,保留对象1.4.2 对决策表进行属性约简 是一个知识库,其中,条件属性,决策属性,属性
17、有下列等价类: , , , . 由导出的分类为: , ,的正域为:. 现在从中去掉得到:,故是中必要的。 从中去掉得到:,因为,故是中必要的。 从中去掉得到:,因为,故是中不必要的。 从中去掉得到:因为,故是中必要的。综合上述得出的核集为,它是的约简,而是不必要的,因此可以得到属性约简后的决策表(如表3)。 表3 属性约简后的决策表111211033333221311424441111124433511321341436212115313271142183444812212043444.3 属性值约简依据定义1和定义2,对决策规则进行逐条分析,选用起决定作用的属性值,去掉冗余属性值。 分析决策
18、规则1:,=,其中是包含个体的等价类,它是的缩写,表示关于属性有相同属性值的个体集合。,所以不能被约去;,所以能被约去,所以能被约去,由此得到为决策规则1的核值。于是得到决策规则1的两个约简:.分析决策规则3:,,所以可以被约去,,所以能被约去;,所以不能被约去,由此得到决策规则3没有核值。分析决策规则4:,=,所以不能被约去;,所以可以被约去;,所以可以被约去。由此得到是决策规则4的核值,于是得到决策规则4的两个约简: .分析决策规则5:,=,所以不能被约去,所以可以被约去,所以可以被约去,由此得到是决策规则5的核值,于是得到决策规则5的两个约简:.分析决策规则6:,所以可以被约去,,所以可
19、以被约去,,所以可以被约去,故决策规则6没有核值。分析决策规则7:,,所以不能被约去;,所以不能被约去;,所以能被约去。由此得到是决策规则7的核值,于是得到决策规则7的一个约简为:.分析决策规则8:, ,,所以能被约去;,所以能被约去;,所以能被约去。由此得到决策规则8没有核值。分析决策规则10:,,= ,所以可以被约去;,所以能被约去;,所以不能被约去。由此得到是决策规则10的核值,于是得到决策规则10的两个约简:,.分析决策规则11:,,所以能被约去;,所以可以被约去;,所以不能被约去。由此得到是决策规则11的核值,于是得到决策规则11的两个约简:,.分析决策规则12:,,=,,所以能被约
20、去;,所以能被约去;,所以可以被约去。由此得到决策规则12没有核值。分析决策规则13:,,所以可以被约去;,所以不能被约去;,所以不可以被约去。由此得到是决策规则13的核值,于是得到决策规则13的一个约简:. 分析决策规则15: , , , , ,所以能被约去;,所以可以被约去;,所以不可以被约去。由此得到是决策规则15的核值,于是得到决策规则15的两个约简:.分析决策规则18:,,所以可以被约去;,所以可以被约去;,所以能被约去。由此得到决策规则18没有核值。分析决策规则20: , , ,,,所以可以被约去;, 所以可以被约去;,所以可以被约去。于是得到是决策规则20的核值,于是得到决策规则
21、20的两个约简:.4.4 生成决策规则表 将以上的分析综合成如表4所示的决策规则表。 表4 约简后的决策规则表11-21 10-333 1-1211142-441-1111-244 4-1111341-351-321531-2 5-132 15-132714-22043-41033-3 20-344注:与表示决策规则的两个约简,将不在约简集中的属性对应的属性值用“-”表示。由表4可提取以下规则:(1);(2);(3);(4).上述决策规则的含义为:(1)智育优、能力良或德育优、能力良或智育优、能力优或德育优、能力优的学生高考成绩优;(2)智育优、能力中或德育优、能力中或智育优、德育差或智育中、
22、德育优或德育优、能力中的学生高考成绩良;(3)智育中、德育中或德育中、能力中或智育差、德育优的学生高考成绩中;(4)智育差、德育良或德育良、能力差或智育差、德育中或德育中、能力差的学生高考成绩差。大学生综合测评成绩不仅仅与入学时的高考成绩有关,也与大学生入学后的学习态度有关。 第五章 总结与展望本文对大学生综合测评问题进行了系统的分析,建立了综合测评指标体系,使用粗糙集理论中的属性约简,属性值约简方法研究毕业大学生的综合测评情况,最后得出了大学生毕业时的综合测评成绩与其入学时高考成绩间的关系,从而为社会选拔优秀大学生提供了理论上的决策依据。但本文还存在许多不足,比如,调查范围相对狭窄,属性分类
23、不够详细,说服力不够强等。针对以上不足,本人今后将做进一步改进和提高,得出一些比较完备,说服性较强的结论。从而为社会选拔优秀人才提供理论上的参考依据。随着科学技术的不断发展,虽然已有的基于粗糙集的属性约简、属性值约简在许多领域已得到广泛的应用,但面对某些问题,这些方法显然无能为力。因此,进一步研究属性约简、属性值约简的应用将成为本人今后研究的主要内容,希望得到广大学者的支持和帮助。 参考文献1 Z.Pawlak. Rough setJ. International Journal of Computer and Information Sciences,1982,(11): 314-356.2
24、 张文修,吴伟志,梁吉业等.粗糙集理论与方法M.北京:科学出版社,2001:4-19.3 丁云正.基于粗集的研究生综合测评指标的研究J.计算机与现代化,2008(3):10-11.4 庞庆华.基于粗糙集的企业信息化水平评价方法研究J.企业管理与信息化,2006(17):14.5 瞿彬彬,卢炎生.基于粗糙集的属性约简算法研究J.华中科技大学学报(自然科学版),2005(8): 30-33.6 常晓艳.粗糙集知识约简算法研究与应用D.北京:北京化工大学硕士学位论文,2005:40-45.7 闫敏.基于粗糙集的数据约简技术及应用研究D.南京:南京理工大学硕士学位论文,2006:10-25.8 纪滨.粗糙集理论及进展的研究J.计算机技术与发展,2007(3):69-72.9 刘清.Rough集及Rough推理M.北京:科学出版社,2003:30-45.致 谢省略