模式识别练习题.doc

上传人:小飞机 文档编号:4046396 上传时间:2023-04-02 格式:DOC 页数:13 大小:538KB
返回 下载 相关 举报
模式识别练习题.doc_第1页
第1页 / 共13页
模式识别练习题.doc_第2页
第2页 / 共13页
模式识别练习题.doc_第3页
第3页 / 共13页
模式识别练习题.doc_第4页
第4页 / 共13页
模式识别练习题.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《模式识别练习题.doc》由会员分享,可在线阅读,更多相关《模式识别练习题.doc(13页珍藏版)》请在三一办公上搜索。

1、填空题 1、模式识别系统的基本构成单元包括: 模式采集 、 特征选择与提取 和 模式分类 。2、统计模式识别中描述模式的方法一般使用 特征矢量 ;句法模式识别中模式描述方法一般有 串 、 树 、 网 。 3、影响层次聚类算法结果的主要因素有 计算模式距离的测度、聚类准则、类间距离门限、预定的类别数目。4、线性判别函数的正负和数值大小的几何意义是 正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。5、感知器算法 1 。 (1)只适用于线性可分的情况;(2)线性可分、不可分都适用。6、在统计模式分类问题中,聂曼-皮尔逊判决准则主要用于 某一种判决错误较

2、另一种判决错误更为重要 情况;最小最大判别准则主要用于 先验概率未知的 情况。7、“特征个数越多越有利于分类”这种说法正确吗? 错误 。特征选择的主要目的是 从n个特征中选出最有利于分类的的m个特征(mn )的条件下,可以使用分支定界法以减少计算量。8、 散度Jij越大,说明wi类模式与wj类模式的分布 差别越大 ;当wi类模式与wj类模式的分布相同时,Jij= 0 。选择题1、影响聚类算法结果的主要因素有( B C D )。A. 已知类别的样本质量 B. 分类准则 C. 特征选取 D. 模式相似性测度2、模式识别中,马式距离较之于欧式距离的优点是( C D )。 A. 平移不变性 B. 旋转

3、不变性 C. 尺度不变性 D. 考虑了模式的分布3、影响基本K-均值算法的主要因素有( D A B )。A. 样本输入顺序 B. 模式相似性测度 C. 聚类准则 D. 初始类中心的选取4、在统计模式分类问题中,当先验概率未知时,可以使用( B D )。A. 最小损失准则 B. 最小最大损失准则 C. 最小误判概率准则 D. N-P判决5、散度JD是根据( C )构造的可分性判据。A. 先验概率 B. 后验概率 C. 类概率密度 D. 信息熵 E. 几何距离6、如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有( B C )。A. 已知类别样本质量 B. 分类准则 C.

4、特征选取 D. 量纲7、欧式距离具有( A B );马式距离具有( A B C D )。 A. 平移不变性 B. 旋转不变性 C. 尺度缩放不变性 D. 不受量纲影响的特性8、聚类分析算法属于( A );判别域代数界面方程法属于( C ) 。 A. 无监督分类 B. 有监督分类 C. 统计模式识别方法 D. 句法模式识别方法9、下列函数可以作为聚类分析中的准则函数的有( A C D ) 。 A. B. C. D. 10、Fisher线性判别函数的求解过程是将N维特征矢量投影在( B )中进行 。 A. 二维空间 B. 一维空间 C. N-1维空间简答题一、 试问“模式”与“模式类”的含义。如果

5、一位姓王的先生是位老年人,试问“王先生”和“老头”谁是模式,谁是模式类? 答:在模式识别学科中,就“模式”与“模式类”而言,模式类是一类事物的代表,概念或典型,而“模式”则是某一事物的具体体现,如“老头”是模式类,而王先生则是“模式”是“老头”的具体化。二、试说明Mahalanobis距离平方的定义,到某点的Mahalanobis距离平方为常数的轨迹的几何意义,它与欧氏距离的区别与联系。 答:Mahalanobis距离的平方定义为: 其中x,u为两个数据,是一个正定对称矩阵(一般为协方差矩阵)。根据定义,距某一点的Mahalanobis距离相等点的轨迹是超椭球,如果是单位矩阵,则Mahalan

6、obis距离就是通常的欧氏距离。三、试说明用监督学习与非监督学习两种方法对道路图像中道路区域的划分的基本做法,以说明这两种学习方法的定义与它们间的区别。 答:监督学习方法用来对数据实现分类,分类规则通过训练获得。该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。 非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用来对数据集进行分析,如聚类,确定其分布的主分量等。 就道路图像的分割而言,监督学习方法则先在训练用图像中获取道路象素与非道路象素集,进行分类器设计,然后用所设计的分类器对道路图像进行分割。 使用非监督学习方法,则依据道路路面象素与非道路

7、象素之间的聚类分析进行聚类运算,以实现道路图像的分割。四、试述动态聚类与分级聚类这两种方法的原理与不同。 答:动态聚类是指对当前聚类通过迭代运算改善聚类;分级聚类则是将样本个体,按相似度标准合并,随着相似度要求的降低实现合并。五、已知一组数据的协方差矩阵为,试问1协方差矩阵中各元素的含义。2求该数组的两个主分量。3主分量分析或称K-L变换,它的最佳准则是什么?4为什么说经主分量分析后,消除了各分量之间的相关性。答:协方差矩阵为,则1. 对角元素是各分量的方差,非对角元素是各分量之间的协方差。2. 主分量,通过求协方差矩阵的特征值,用0得,则,相应的:,对应特征向量为,对应。这两个特征向量,即为

8、主分量。3. K-L变换的最佳准则为:对一组数据进行按一组正交基分解,在只取相同数量分量 的条件下,以均方误差计算截尾误差最小。4. 在经主分量分解后,协方差矩阵成为对角矩阵,因而各主分量间相关性消除。六、试列举线性分类器中最著名的三种最佳准则以及它们各自的原理。答:线性分类器三种最优准则:Fisher准则:根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。感知准则函数:准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分

9、类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。支持向量机:基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。七、对一副道路图像,希望把道路部分划分出来,可以采用以下两种方法:1在该图像中分别在道路部分与非道路部分画出一个窗口,把在这两个窗口中的象素数据作为训练集,用Fisher准则方法求得分类器参数,再用该分类器对整幅图进行分类。2将整幅图的每个象素的属性记录在一张数据表中,然后用某种方法将这些数据按它们的自然分布状况划分成两类。因此每个象素就分别得到相应的类别号,从而实现了道路图像的分割。试问以上两种方法哪一种是监

10、督学习,哪个是非监督学习?答:第一种方法中标记了两类样本的标号,需要人手工干预训练过程,属于监督学习方法;第二种方法只是依照数据的自然分布,把它们划分成两类,属于非监督学习方法。八、试分析五种常用决策规则思想方法的异同。答、五种常用决策是: 1. 基于最小错误率的贝叶斯决策,利用概率论中的贝叶斯公式,得出使得错误率最小的分类规则。 2. 基于最小风险的贝叶斯决策,引入了损失函数,得出使决策风险最小的分类。当在 0-1损失函数条件下,基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决策。 3. 在限定一类错误率条件下使另一类错误率最小的两类别决策。 4. 最大最小决策:类先验概率未知,考察先验

11、概率变化对错误率的影响,找出使最小贝叶斯奉献最大的先验概率,以这种最坏情况设计分类器。 5. 序贯分类方法,除了考虑分类造成的损失外,还考虑特征获取造成的代价,先用一部分特征分类,然后逐步加入性特征以减少分类损失,同时平衡总的损失,以求得最有效益。九、假设在某个地区细胞识别中正常(w1)和异常(w2)两类先验概率分别为,现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得,并且已知,试对该细胞x用一下两种方法进行分类:1. 基于最小错误率的贝叶斯决策;2. 基于最小风险的贝叶斯决策;请分析两种结果的异同及原因。答:利用贝叶斯公式,分别计算出和的后验概率:, 根据贝叶斯决策规则:,所

12、以把x归为正常状态。(2) 根据条件和上面算出的后验概率,计算出条件风险:由于,即决策为的条件风险小于决策为的条件风险,因此采取决策行动,即判断待识别的细胞x为类异常细胞。将1与2相对比,其分类结果正好相反,因为这里影响决策结果的因素多了“损失”;而且两类错误决策所造成的损失相差很悬殊,因此“损失”起了主导作用。十、既然有线性判别函数,为什么还要引进非线性判别函数?试分析由“线性判别函数”向“非线性判别函数”推广的思想和方法。答:实际中有很多模式识别问题并不是线性可分的,这时就需要采用非线性分类器,比如当两类样本分不具有多峰性质并互相交错时,简单的线性判别函数往往会带来较大的分类错误。这时,树

13、分类器作为一种分段线性分类器,常常能有效地应用于这种情况。十一、1. 什么是特征选择?2. 什么是Fisher线性判别?答:1. 特征选择就是从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的。 2. Fisher线性判别:可以考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维,这在数学上容易办到,然而,即使样本在d维空间里形成若干紧凑的互相分得开的集群,如果把它们投影到一条任意的直线上,也可能使得几类样本混在一起而变得无法识别。但是在一般情况下,总可以找到某个方向,使得在这个方向的直线上,样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类

14、的投影线,这就是Fisher算法所要解决的基本问题。十二、写出两类和多类情况下最小风险贝叶斯决策判别函数和决策面方程。两类问题:判别函数 决策面方程:C类问题:判别函数 ,决策面方程:,数据获取预处理特征提取与选择分类决策分类器设计信号空间特征空间十三、请论述模式识别系统的主要组成部分及其设计流程,并简述各组成部分中常用方法的主要思想。信息获取:通过测量、采样和量化,可以用矩阵或向量表示二维图像或波形。预处理:去除噪声,加强有用的信息,并对输入测量仪器或其他因素造成的退化现象进行复原。特征选择和提取:为了有效地实现分类识别,就要对原始数据进行变换,得到最能反映分类本质的特征。分类决策:在特征空

15、间中用统计方法把识别对象归为某一类。十四、有两类样本集 , ,1. 用K-L变换求其二维特征空间,并求出其特征空间的坐标轴;2. 使用Fisher线性判别方法给出这两类样本的分类面。答:,其对应的特征值为: 特征向量为 ,降到二维空间,取对应的坐标:(2) , , , 所以判别函数为:十五、假设两类模式服从如下的正态分布:,分别求出使最大化的一维特征空间的变换矢量。答:, ,因为的秩为1,所以只有一个非零特征值,是矩阵,即。 , 求的特征值,解方程 ,即为标量,。十六、设两个家庭,每家3-5人,选每个人的一张照片,共8张,混放在一起,将照片两两对照,得出描述其“相似程度”的模糊关系矩阵。要求按

16、相似程度聚类,希望把二个家庭分开。十七、设,标准模型由以下模糊集合表示:现有一待识别的模型采用海明贴近度计算,与哪个标准模型最相近?解:海明贴近度: 与最相似。十八、设论域,给定模糊关系矩阵:要求按不同水平分类。解:矩阵显然具有自反性、对称性。计算: R为一模糊等价矩阵,可据不同水平分类。1) : 此时共分五类:、,“最细”的分类。2) : 此时分为4类:、。3) : 此时分为3类:、。4) : 此时分为2类:、。5) : 此时五个元素合为1类,即最粗的分类。十九、现有样本集X=(0,0)T, (0,1) T, (2,1) T, (2,3) T, (3,4) T, (1,0) T , 试用C-

17、均值算法进行聚类分析(类数C=2), 初始聚类中心为(0, 0)T、(0, 1) T。解:第一步:由题意知C = 2,初始聚类中心为Z10=(0,0)T, Z20=(0,1) T第二步: |x1-Z10|=|(0,0) T -(0,0) T |=0|x1-Z20|=|(0,0) T -(0,1) T |=1因为|x1-Z10|x2-Z20|, 所以x2w2同理因为|x3-Z10|=51/2|x3-Z20|=2,所以x3w2因为|x4-Z10|=81/2|x4-Z20|=51/2,所以x4w2x5w2, x6w1由此得到新的类:w1=x1, x6 N1=2, w2=x2, x3, x4, x5

18、N2=4 第三步:根据新分成的两类计算新的聚类中心Z11=(x1+x6)/2=(0.5, 0)TZ21=(x2+x3+x4+x5)/4=(1.75, 2.25)T第四步:因为新旧聚类中心不等,转第二步第二步:重新计算x1, x2, x3, x4, x5, x6到Z11、Z12的距离,把它们归为最近聚类中心,重新分为两类w1=x1, x2, x6 N1=3, w2=x3, x4, x5 N2=3第三步:根据新分成的两类计算新的聚类中心Z12=(x1+x2+x6)/3=(1/3, 1/3)TZ22=(x3+x4+x5)/3=(7/3, 8/3)T第四步:因为新旧聚类中心不等,转第二步重新计算x1, x2, x3, x4, x5, x6到Z12、Z22的距离,把它们归为最近聚类中心,重新分为两类w1=x1, x2, x6 N1=3, w1=x3, x4, x5 N2=3和上次聚类结果一样,计算结束。二十. 设语言的正样本集,试推断出余码文法。 答:第一步:由得的终止符集,为。 第二步:求出的全部余码,并组成非终止符集。 的全部余码为, , 合并: , , 所以 第三步:建立生成式集P。 由,有生成式; 由,有生成式; 由,有生成式; 由,有生成式。 余码文法: , P:,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号