《数据仓库与数据挖掘习题课1.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘习题课1.ppt(19页珍藏版)》请在三一办公上搜索。
1、数据仓库与数 据 挖 掘,主讲教师:王浩畅E-mail:wanghch_School of Computer&Information Technology of NEPU,习题课1,习题2.9,假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果(a)计算年龄和脂肪百分比的均值、中位数和标准差(b)绘制年龄和脂肪百分比的盒图(c)根据这两个属性,绘制散布图和q-q图(d)根据Z-score规范化来规范化这两个属性(e)计算相关系数。这两个变量是正相关还是负相关?,解答2.9,(a)计算年龄和脂肪百分比的均值、中位数和标准差age的均值=age的中位数=age的标准差=12.85%
2、fat的均值=28.78将%fat 排序%fat 的中位数=%fat的标准差=8.99,解答2.9(续),(b)绘制年龄和脂肪百分比的盒图离群点:当值超过四分位数不到1.5IQR,解答2.9(续),(c)根据这两个属性,绘制散布图和q-q图,解答2.9(续),(d)根据Z-score规范化来规范化这两个属性(e)计算相关系数。这两个变量是正相关还是负相关?The correlation coefficient is 0.82.The variables are positively correlated.,习题2.12,假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13,1
3、5,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(a)使用min-max规范化将age值35变换到0.0,1.0区间。(b)使用z-score规范化变换age值35,其中age的标准差为12.94岁。(c)使用小数定标规范化变换age值35。(d)对于给定的数据,你愿意使用哪种方法?陈述你的理由。,解答2.12,(a)使用min-max规范化将age值35变换到0.0,1.0区间。minA=13,maxA=70,new_minA=0.0,new_maxA=1.0,而v=35,(b)使用z-
4、score规范化变换age值35,其中age的标准差为12.94岁。,解答2.12(续),(c)使用小数定标规范化变换age值35。由于最大的绝对值为70,所以j=2。(d)对于给定的数据,你愿意使用哪种方法?陈述你的理由。答:更倾向于选择小数定标规范化。因为小数定标规范化会保持数据的分布,这种变换更直观并容易解释,习题2.14,2.14 假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。(a)等频(等深)划分。(b)等宽划分。(c)聚类。,解答2.14,(a)等频(等深)划分。(b)等宽划分。每个
5、区间的宽度是:(215-5)/3=70(c)聚类。我们可以使用一种简单的聚类技术:用2个最大的间隙将数据分成3个箱。,习题3.4,3.4假定BigUniversity的数据仓库包含如下4个维:student(student_name,area_id,major,status,university),course(course_name,department),semester(semester,year)和instructor(dept,rank);2个度量:count和avg_grade。在最低概念层,度量avg_grade存放学生的实际课程成绩。在较高概念层,avg_grade存放给定组合
6、的平均成绩。(a)为该数据仓库画出雪花形模式图。(b)由基本方体student,course,semester,instructor开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。(c)如果每维有5层(包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体?,解答3.4,解答3.4,b)由基本方体student,course,semester,instructor开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。这些特殊的联机分析处理(OLAP
7、)操作有:沿课程(course)维从course_id“上卷”到department。沿学生(student)维从student_id“上卷”到university。取department=“CS”和university=“Big University”,沿课程(course)维和学生(student)维切块。沿学生(student)维从university下钻到student_name。c)如果每维有5层(包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体?这个立方体将包含54=625个方体。,习题3.5,3.5 假定数据仓库包含4个维:
8、date(day,month,quarter,year),spectator(spectator_name,status,phone,address),location(location_name,phone#,street,city,province,country)和game(game_name,description,description,producer);2个度量:count和charge。其中,charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。(a)画出该数据仓库的星形模式图。(b)由基本方体 date,spectator,lo
9、cation,game开始,为列出2004 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作?,解答3.5,解答3.5,(b)由基本方体 date,spectator,location,game开始,为列出2004 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作?这些特殊的联机分析处理(OLAP)操作有:沿date维从date id“上卷”到year沿game维从game id“上卷”到all沿location维从location id“上卷”到location name沿spectator维从spectator id“上卷”到status取status=“students”,location name=“GM Place”和year=2004切块,Thank You!,