《华南理工大学《数据挖掘》复习资料.docx》由会员分享,可在线阅读,更多相关《华南理工大学《数据挖掘》复习资料.docx(26页珍藏版)》请在三一办公上搜索。
1、华南理工大学数据挖掘复习资料华南理工大学数据挖掘复习资料 BI(商务智能): Business Intelligence OLAP(联机分析处理): Online Analytical Processing OLTP(联机事务处理): Online Transaction Processing ETL(提取/变换/装入): Extraction/Transformation/Loading KDD(数据中的知识发现): Knowledge Discovery in Databases Lecture 1. (1) 数据清理 (2) 数据集成 (3) 数据选择 (4) 数据变换 (5) 数据挖掘
2、 (6) 模式评估 (7) 知识表示 (1) 概念描述:特征划与区分(概化、摘要、以及对比数据特征) (2) 关联 (3) 分类与预测:对类或概念构造模型或函数以便对未来数据进行预测 (4) 聚类分析:类标识符是未知的,把数据分成不同的新类,使得同一个类中的元素具有极大的相似性,不同类元素的相似性极小。 (5) 趋势与偏差分析:序列模式挖掘 (6) 孤立点分析:孤立点,不符合该类数据的通用行为的数据,不是噪声或异常。 (1) Web用法挖掘:在分布式信息环境下捕获用户访问模式 (2) 权威Web页面分析:根据Web页面的重要性、影响和主题,帮助对Web页面定秩 (3) 自动Web页面聚类和分类
3、:给予页面的内容,以多维的方式对Web页面分组和安排 (4) Web社区分析:识别隐藏的Web社会网络和社团,并观察它们的演变 Lecture 2. 现实世界中的数据很“脏”,具有以下特性: (1) 不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据 (2) 含噪声的: 包含错误或存在孤立点 (3) 不一致的: 在名称或代码之间存在着差异 数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。 (1) 数据清洗 填充遗失的数据, 平滑噪声数据, 辨识或删除孤立点, 解决不一致性问题 (2) 数据集成 对多个数据库,数据立方或文件进行集成 (3) 数据变换
4、 规范化与聚集 (4) 数据约简 得到数据集的压缩表示,它小的多,但能产生同样分析结果 (5) 数据离散化 特别对数字值而言非常重要 是一种处理噪声数据的方法。先对数据进行排序,然后把它们划分到箱,然后通过箱平均值,箱中值等进行平滑。 (1) 等宽 (距离)划分 根据属性值的范围划分成N等宽的区间。很直接,但孤立点将会对此方法有很大的影响 (2) 等深 (频率) 划分 划分成N个区间,每个区间含有大约相等地样本数。具有较好的数据扩展性 分箱 、直方图分析、聚类分析 离散化过程使用类信息,基于熵的离散化: (1) 给定样本集S,根据分解值T分为两部分,计算熵: (2) 选择某一边界T使熵最大.
5、(3) 递归地用于所得到的划分,直到满足某个终止条件。 数据清理缺失值的处理方法: (1) 忽略元组:当缺失类标号时通常忽略元组。除非元组有多个属性缺失值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能特别差。 (2) 人工填写缺失值:该方法很费时,当数据集很大,缺少很多值时,该方法不可行。 (3) 使用一个全局常量填充缺失值:将缺失的属性值用同一个常数替换。如果缺失值都用unknow替换,则挖掘程序则可能误以为它们行程了一个有趣的概念,因为它们都具有相同的值。因此,尽管该方法简单,但是并不十分可靠。 (4) 使用属性的均值填充缺失值 (5) 使用与给定元组属同一类的所有样
6、本的属性均值 (6) 使用最可能的值填充缺失值:可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。 使数据偏置。填入的值可能不正确。方法6是最流行的策略,与其他方法相比,它使用已有的数据大部分信息来预测缺失值。缺失值不代表数据有错误 Lecture 3. (1) 面向主题的 数据仓库围绕一些主题来组织的。 (2) 集成的 数据仓库是将多个异构数据源集成在一起。 (3) 时变的 数据存储从历史的角度提供信息。 (4) 非易失的 数据仓库总是物理地分别存放数据 (1) 分布式度量(distributive measure) 是一种可以通过如下方法计算度量:可以将数据集划分成较小的子集,
7、计算每个子集的度量,然后合并计算结果,得到原数据集的度量值 (2) 代数度量(algebraic measure) 是可以通过应用一个代数函数于一个或多个分布度量计算的度量 (3) 整体度量(holistic measure) 必须对整个数据集计算的度量。整体度量不能通过将给定的数据集划分成子集合并每个子集上度量得到的值来计算 (1) 企业仓库 搜集了关于主题的所有信息,跨越整个组织。 (2) 数据集市 包含企业范围数据的一个子集,对于特定的用户是有用的,其范围限于选定的主题。 (3) 虚拟仓库 操作数据库上视图的一组集合。为了有效处理查询,只有一些可能的汇总视图被物化。 (1) 使得操作数据
8、库与数据仓库都获得高性能 DBMSOLTP: 访问方法, 索引, 并发控制, 数据恢复。 WarehouseOLAP: 复杂OLAP查询, 多维视图, 整理。 (2) 对数据与功能的要求不同: (a) 丢失的数据: 决策支持需要历史数据,而传统数据库并不一定维护历史数据。 (b) 数据整理:决策支持需对异构数据源进行数据整理 。 (c) 数据质量: 不同的数据源常常具有不一致的数据表示,编码结构与格式。 (1) 上卷Roll up (上钻drill-up): 通过一个维的概念分层向上攀升或通过维规约,在数据立方体上进行聚集。 (2) 下钻Drill down (roll down): 上卷的逆
9、操作,它由不太详细的数据得到更详细的数据。 可以通过沿维的概念分层向下或引入新的维实现。 (3) 切片Slice与切块dice 投影与选择。 (4) 转轴Pivot (rotate) 是一种目视操作,它转动数据的视角,提供数据的替代表示 (5) 其它操作 钻过drill across:执行涉及多个事实表的查询。 钻透drill through:使用SQL的机制,钻到数据立方的底层,到后端关系表。 最流行的数据仓库数据模型是多维模型,以以下形式存在: (1) 星型模式 一个事实表以及一组与事实表连结的维表。 (2) 雪花模式 雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解
10、到附加的表中。 (3) 事实星座 多个事实表分享共同的维表,这种模式可以看作星型模式的集合,因此称为星系模式或事实星座。 通常,数据仓库采用三层结构: (1) 底层是仓库数据服务器 几乎总是关系数据库系统,使用后端工具和实用程序由操作数据库或者其他外部数据源提取数据 (2) 中间层是OLAP服务器 直接实现多维数据和操作 (3) 顶层是前端客户层 包括查询和报表工具、分析工具和/或数据挖掘工具 (1) 自顶向下视图 可以选择数据仓库所需要的相关信息。这些信息能够满足当前和未来商务的需求。 (2) 数据源视图: 解释操作数据库系统收集、存储和管理的信息。这些信息可能以不同的详细程度和精度建档,存
11、放在由个别数据源表到集成的数据源表中。通常,数据源用传统的数据建模技术,如ER模型或者CASE工具建模。 (3) 数据仓库视图: 包括事实表和维表。提供存放在数据仓库内部的信息。包括预计算的总和与计数,以及提供历史别进的关于源、原始日期和时间等信息。 (4) 商务视图: 是从最终用户的角度透视数据仓库中的数据。 ? ? 立方体: 立方格: 立方体物化概念:实现把数据汇总算出来 一个n维立方体称为基本方体;0-D方体存放最高层的汇总,称为定点方体。方体的格称为数据立方体。 数据立方由维和度量组成 (1) 用户和系统的面向性: OLTP系统是面向顾客的,用于办事员、客户和信息技术专业人员的事务和查
12、询处理。OLAP系统是面向市场的,用于知识工人的数据分析。 (2) 数据内容: OLTP系统管理当前数据。通常,这种数据太琐碎,难以用于决策。OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同粒度级别上存储和管理信息。这些特点使得数据更容易用于见多识广的决策。 (3) 数据库设计: 通常,OLTP系统采用实体-联系数据模型和面向应用的数据库设计。而OLAP系统通常采用星形或雪花模型和面向主题的数据库设计。 (4) 视图: OLTP系统主要关注企业或部门的当前数据,不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP系统尝尝跨越数据库模式的多个版本。OLAP系统还处理来自不
13、同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP数据存放在多个存储介质上。 (5) 访问模式: OLTP系统的访问模式主要由短的原子事务组成。这种系统需要并发控制和恢复机制。然而,对OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询。 OLTP和OLAP的其他区别包括数据库大小、操作的频繁程度、性能度量等。如下图 Lecture 4. 确定性度量:支持度,事务包含XY的概率,即support P(XY) 实用性度量:置信度,事务同时包含X与Y的条件概率,即confidence P(Y|X). Lecture 5. 有监督学习模型: 提供了每个训练元组的类标号,称作监督
14、学习,即分类器的学习在被告知每个训练元组属于哪个类的监督下进行。 无监督学习模型: 每个训练元组的类标号都是未知的,并且要学习的类的个数或集合也可能事先不知道。 PPT版 划分法: 适用于大规模数据。把样本划分成2个独立的数据集合。 交叉验证: 适用于中型规模数据。把数据集划分成k个子样本集合,使用k-1个子样本集合作为训练集,另一个作为测试集,亦称k-折交叉验证。 留一测试: 适用于小规模数据。k=n (n-折交叉验证)。 教材版 保持方法和随机子抽样: 保持方法把给定数据随机分成两个独立的集合:训练集和检验集,使用训练集导出模型,其准确率用检验集估计. 随机子抽样是保持方法的变型,将保持方
15、法重复k次,总准确率估计取每次迭代准确率的平均值 交叉确认: 把数据集划分成k个子样本集合,使用k-1个子样本集合作为训练集,另一个作为测试集,亦称k-折交叉验证。 自助法: 从给定训练元组中有放回均匀抽样 内容:前件,后件,覆盖 学习规则:分治法 规则能够覆盖整个示例空间吗?:缺省规则 如何学到最优规则?: NPhard问题 Lecture 6. * 对于优化问题,算法A的近似比a(n)1 最小化: a(n)=cost(A)/cost(opt) 最大化: a(n)=cost(opt)/cost(A) * * P问题:在多项式时间内能解决的问题 NP问题:在多项式时间内能验证的问题 NPC问题
16、:所有NP问题能在多项式时间内规约到 该问题.且该问题本身属于NP问题 NP-Hard问题:所有NP问题能在多项式 时间内规约到该问题 (1) 区间标度变量: 1.计算均值绝对偏差: 2.计算标准度量值或z-score (2) 对称二元变量:简单匹配系数 (3) 非对称二元变量:Jaccard系数 (4) 分类变量: 方法 1: 简单匹配 方法2: 使用一组二元变量 对标称型变量的每一个状态设置一个二元变量 (5) 连续变量、序数变量: 1. 离散化 2. 用它们的秩rif替换xif, 3. 将每一个变量的范围映射到 0, 1 4. 用计算区间值变量同样的方法计算非相似性 (6) 向量对象:余
17、弦相似性 * 1. Minkowski 距离: 2. 如果q = 1, d 是Manhattan距离: 3. 如果q = 2, d 是Euclidean距离 1. 数据矩阵:用p个 变量 (也称度量和或属性)表示n个对象 2. 区分矩阵:存储所有成对的n个对象的邻近度 注:数据矩阵的行和列代表不同的实体,而区分矩阵的行和列代表相同的实体。因而,数据矩阵你 经常成为二模矩阵,而区分矩阵成为单模矩阵。 * 直径:类内最大点距离 半径:类内最小点距离 分离度:类间最小点距离 最大化聚类内相似性 最小化聚类间相似性 (1) k-Center:最大半径最小化 (2) k-Cluster:最大直径最小化
18、(3) 聚类分离度的最大化 (4) k-median:聚类内部距离之和的最小化 (5) k-means:聚类内部距离平方之和的最小化 (6) MRSD准则 (7) 割: Min-cut:最小割 Max-cut:最大割 Ncut:规范割 * 1. 可扩展性 2. 能够处理不同数据类型 3. 发现任意形状的聚类 4. 参数越少越好 5. 能够处理噪声和孤立点 6. 能够处理高维数据 7. 能够集成用户提出的各种约束 k-means聚类算法 定义: k-means算法以k为输入参数,把n个对象的集合分为k个集,使得结果簇内的相似度高,而簇间的相似度低。簇的相似度是关于簇中对象的均值度量,可以看做簇的
19、质心或重心。 算法: 1. 把对象划分成k 个非空子集; 2. 计算当前的每个聚类的质心作为每个聚类的种子点; 3. 把每一个对象分配到与它最近的种子点所在的聚类 4. 返回到第2步, 当满足某种停止条件时停止。 停止条件: 1. 当分配不再发生变化时停止; 2. 当前后两次迭代的目标函数值小于某一给定的阈值时; 3. 当达到给定的迭代次数时。 时间复杂性: 计算复杂度为O(nkt),其中n是对象的总数,k是簇的个数,t是迭代的次数 k-center聚类算法 定义: 为了减轻k均值算法对孤立点的敏感性,k中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。 算法
20、: 算法复杂度: 每次迭代的复杂度是O) k-cluster聚类算法 算法: 1. 对于一个对象o和一个对象的集合S,定义o与S的距离d(o, S)为o与S中对象之间的距离的最小值。 2. S ; 3. 随机选一个对象o, S S o; 4. 重复以下过程,直到|S| = k; 从剩下的对象中选取d(o, S)最大的o加入S中; 5. 把每一个对象o分配到S中的最近的对象,形成k个聚类。 算法复杂度: O 凝聚层次聚类法: 自底向上的层次方法策略,首先将每个对象作为其簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终止条件被满足。 单链接算法: 若定义两个聚类之间的距
21、离为二者对象之间的最小距离,则该算法也称为单链接算法(Single-Linkage Algorithm,SLA),也称为最小生成树算法。 全链接算法: 若定义两个聚类之间的距离为二者对象之间的最大距离,则该算法也称为全链接算法(Complete-Linkage Algorithm,CLA) SLA与最小生成树的关系: 最大分离度一定等于最小生成树中某条边的值。 定理: SLA算法找到了最大分离度。 CLA算法是一个k-Cluster的logk-近似算法(2 k n) 最小生成树算法概述: 每次选择权值最小,且不形成回路的边。 Dijkstra最短路径算法概述: 从一个顶点开始,每次选取与已选集
22、合权值最小的点 Lecture 7. 基本思想: * PageRank将 网页x指向网页y的链接视为x给y的一张投票。 * 然而PageRank 不仅仅考虑网页得票的绝对数目,它还分析投票者本身的权威性. - 来自权威网页的投票能够提升被投票网页的权威性 更具体而言: * 链接是源网页对目标网页权威性的隐含表达. - 网页i入边越多,表示i的权威性值越高。 * 指向网页i的网页本身也有自己的权威性值 - 对于网页i的权威性得分而言,一个具有高分值的源网 页比一个低分值的源网页更加重要。 - 换言之,若其它权威性网页指向网页i,则i也可能是权 威性网页。 算法: -Web图: 把Web视为有向图
23、 G = (V, E),V表示顶点,一条边(i, j) E当且仅当网页i指向网页j,n为总的网页数。 网页P(i)定义为: Oj 是网页j的出边数 A 是Web图的邻接矩阵表示: 通过使用幂法可以求解P=ATP,但是Web图不符合求解条件。 -马尔可夫链: 转移概率矩阵 Aij 表示用户在状态i转移到状态j的概率。 k步转移后的概率分布: 稳态概率分布:对于任意初始概率向量P0, Pk 将收敛于一个稳定的概率向量p, 即, p 可作为PageRank 值向量,其合理性: - 它反映了随机冲浪的长期概率. - 一个网页被访问的概率越高,其权威性越高. 一个有限马尔可夫链收敛于一个唯一的稳态概率分
24、布:如果矩阵A是不可约和非周期的。 条件1:随机矩阵 A不是一个随机矩阵,因为很多网页没有出边,导致A中某些行全为0. 解决方案1:删除没有出边的网页. 解决方案2:将没有出边的网页指向网络中所有其它网页 条件2:不可约 不可约意味着强连通(所有点对都有双向路径),A不符合。 条件3:非周期 从i到i的所有路径都是K的倍数(k1),则成为周期的。 一个马尔科夫链所有状态都是非周期的,则为非周期。 解决方案:指定一个参数d,将每一个网页都以概率d指向其它所有网页。此方法顺便解决了不可约问题,处理后: 其中E = eeT(E=ones(n),令 eTP = n: 因此,每个网页 优点: (1) 防
25、欺骗 网页所有者难以设置其它重要网页指向自己的网页. (2) ageRank 值独立于查询,是一种全局度量. PageRank 值是通过所有网页计算得到并加以存储,而不是提交查询时才计算. 缺点: 不能区分全局重要性网页和查询主题重要性网页 基本思想: * 内容一个好的汇集网页指向了许多权威性网页 * 一个好的权威性网页被许多好的汇集性网页所指向. * 因此,二者相互强化. 与PageRank是一个静态算法不同, HITS 是基于查询的搜索算法,当用户提交一个查询时 - HITS首先对搜索引擎返回的相关网页列表进行扩展 - 然后产生扩展集合的两个排序:权威性排序 及汇集性排序. Authori
26、ty: 粗略地讲,一个权威性网页具有很多的入边. - 该网页具有相关主题的权威性内容 - 许多人相信该网页并指向它. Hub: 一个汇集性网页具有很多出边. - 该网页把特定主题网页进行了组织 - 指向了该主题的许多权威性网页. 算法: 1. 根据查询词q,搜集t个排序最高的网页集合W(root set) 2. 把所有W指向的网页和指向W的网页添加到W中,得到基集S (base set) 3. HITS对S中每个网页分配authorityscore和hub score. 4. 建立邻接矩阵L: 5. 根据强化关系算出authority score和hub score: 幂法迭代: 优点: 内容
27、根据查询进行排序,可能会返回更相关的权威性和汇集性网页. 缺点: (1) 容易被欺骗: 一个网站开发者很容易在自己的网页中加入许多出边. (2) 主题漂移: 许多扩展网页可能与主题并不相关. (3) 查询效率: 动态抓取网页进行扩展、特征值计算 数据挖掘计算题复习Lecture 3. 一个L层的n维立方有立方体个数: Lecture 4. * 规则AC: * 一个n个元素的集合,其k-项集(k2)子集有2n-n-1个 思想:在扫描aoboco的时候同时聚集AB AC BC面,寻找最优遍历顺序以减少内存需求。 |A|=40 |B|=400 |C|=4000 * 按164顺序遍历,聚集BC块需要扫
28、描4个块,聚集AC需要扫描4*3+1=13个块,聚集AB需要扫描*3+1=49个块。 * 按164顺序,需要内存: 40*400(AB整面)+40*1000(AC面一行)+100*1000(BC面一块) 连接操作: A B C X 和 A B C Y可连接,生成 A B C X Y (个数相同,只有最后一个元素不同) 生成频繁k-项集Lk的算法: 根据k-1项集Lk-1,连接生成候选集Ck 筛选出Ck中支持度大于min_sup的元素,构成Lk 例子: 从频繁项集产生关联规则 根据频繁项集I,生成全部非空子集。 对于每个子集m, 若sup(m( I-m ) min_sup,输出此规则 其中sup
29、(m( I-m ) = = 1. 根据事务,统计出频繁1-项集,并排序。 2. 根据频繁1-项集,把原事务中小于最小支持度的元素删除。并且把剩余元素按频繁项表排序。 3. 创建根节点,对事务表的元素逐个添加到树中。例如,* 对于事务TID=100,先添加f,计数为1;然后c作为f的子节点,计数为1p作为m子节点,计数为1。 * 对于事务TID=200,从根节点到f的边已存在,所以f计数+1,;根节点-fc的边已存在,c计数+1.根节点-f-c-a-b边不存在,创建b,计数为1. * 1. 从频繁1项表由下往上扫描,不扫描最上面的元素 例子:此例中依次扫描p, m, b, a, c 2. 找出每
30、个元素的”条件模式基” 例子:m的条件模式基 f, c, a: 2和f, c, a, b: 1 3. 找出每个元素的”条件FP树” (即父路径”经过次数”大于等于最小支持度的”路径”) (a:2,b:2,c:2 , a:1,b:1可以合并为a:3,b:3,c:2) 例子:m的条件FP树 f:3, c:3, a: 3 4. 元素x的条件FP树的子集,加上x,即为频繁模式 Corr(A,B )= P(AB) / (P(A)P(B) = P(B|A)P(A) / (P(A)P(B) = P(B|A)/P(B) 1,正相关; =1,独立; 1,负相关 例子: Corr(Video, Game) = 0
31、.4 / (0.75*0.6) = 0.89 1. Lecture 5. 期望信息: 设样本集合s含有si 个类为Ci 的元组, i = 1, , m,则对一 个给定的样本分类所需的期望信息是: 熵: 具有值 a1,a2,av的属性A的熵E(A)为属性A导致的s的划分的期望信息的加权平均和: 信息增益: 例子: * 1.创建根节点 2.若所有样本为类x,标记为类x 3.若Attribute为空,标记为最普遍的类 4.选择IG最大的属性,每个可能值建立子节点,递归解决 给定训练集D,算法的计算复杂度为O 其中n是D中的元组数,|D|是D中训练元组数 贝叶斯公式: 有多个独立属性时: 例子: 例子
32、: 所有反例已被覆盖,得到规则: (C=1) (D=1)(Class = 1) * 假设空间H中学习一个学习几率0s,错误率e confmin confidence=/=3/4 confmin 所以,关联规则面包花生酱、 花生酱面包均是强关联规则。 2.给定以下数据集,进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。 (1) 从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m1=2,m2=4: (2) 对于X中的任意数据样本xm,计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2时
33、,样本距离该代表点的距离分别为2,8,10,13,1,19。 当m2=4时,样本距离该代表点的距离分别为-2,6,8,11,-1,17。 最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为,另一个聚类m2=4为。 (3) 完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=2.5,m2=12: (4) 对于X中的任意数据样本xm,计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2.5时,样本距离该代表点的距离分别为-0.5,0.5,1.5,7.5,9.5,12.5,1
34、8.5。 当m2=12时,样本距离该代表点的距离分别为-10,-9,-8,2,3,9。 最小距离是1.5将该元素放入m1=2.5的聚类中,则该聚类为,另一个聚类m2=12为。 (5) 完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=3, m2=14.5: (6) 对于X中的任意数据样本xm,计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=3时,样本距离该代表点的距离分别为-1,1,7,9,12,18,。 当m2=14.5时,样本距离该代表点的距离分别为-12.58,-11.
35、5,-10.5,-4.5,-2.5,0.5,6.5。 最小距离是0.5将该元素放入m1=3的聚类中,则该聚类为,另一个聚类m2=14.5为。 至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。 3. 表3提供了一个训练集的数据元组关于是否要打篮球。给定一个元组(天气=阳光明媚,温度= 凉快,湿度=高,风力=强),决定目标类Playbasketball是YES或NO使用贝叶斯朴素算法的分类器进行计算。 (18 分) No. Outlook Temperature Humidity Wind Playbasketball 1 Overcast Hot High Weak Yes 2
36、 Sunny Hot High Weak No 3 Sunny Hot High Strong No 4 Overcast Hot Normal Weak Yes 5 Rain Mild High Weak Yes 6 Sunny Cool Normal Weak Yes 7 Rain Cool Normal Weak Yes 8 Rain Mild Normal Weak Yes 9 Rain Cool Normal Strong No 10 Overcast Cool Normal Strong Yes 11 Sunny Mild High Weak No 12 Overcast Mild
37、 High Strong Yes 表 3. P(Outlook=sunny|yes)= 1/7 P(Outlook=sunny|no)= 3/5 P(temperature=cool|yes)=3/7 P(temperature=cool|no)=1/5 P(Humidity=high|yes)=2/7 P(Humidity=high|No)=4/5 P(wind=strong|yes)=2/7 P(Humidity=strong|No)=3/5 P(yes)=7/12 P(no) = 5/12 P(X|YES)=1/7 3/7 2/7 2/7 7/12 = 0.00292 P(X|NO)=3/5 1/5 4/5 3/5 5/12 = 0.024