《数据清洗技术》PPT课件.ppt

上传人:牧羊曲112 文档编号:5519612 上传时间:2023-07-16 格式:PPT 页数:35 大小:377.50KB
返回 下载 相关 举报
《数据清洗技术》PPT课件.ppt_第1页
第1页 / 共35页
《数据清洗技术》PPT课件.ppt_第2页
第2页 / 共35页
《数据清洗技术》PPT课件.ppt_第3页
第3页 / 共35页
《数据清洗技术》PPT课件.ppt_第4页
第4页 / 共35页
《数据清洗技术》PPT课件.ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《《数据清洗技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据清洗技术》PPT课件.ppt(35页珍藏版)》请在三一办公上搜索。

1、数据清理技术,冯国双 中国疾控中心卫生统计室,数据清洗,从数据收集结束,到统计分析之前,需要对数据做的清理工作,数据清洗,数据双录入对比数据合并查找重复值查找缺失值查找异常值,双录入对比,Excel用到的函数:If函数If(判断条件,条件满足返回值,条件不满足返回值)exact函数比较两个文本是否相同exact(比较文本1,比较文本2)offset函数返回给定偏移量的新区域offset(参照区域,行,列),双录入对比,small(数据区域,第几小)计算单元格范围的第几小的数值Column()返回单元格所在号Row()返回单元格所在行号,双录入对比,SAS命令:proc compare;by 变

2、量1 变量2;run;,双录入对比,proc compare语句调用数据比较过程,选项base和compare分别指定两个比较和被比较的数据集;nosummary的作用是不显示一些概括性的结果。by语句指定的变量有点类似于索引的作用,通常指定id号。如果两个数据集的观测数不同,利用by语句可以保证它们比较的仍然是同一个id号,而不会出现错位比较的情况。,双录入对比,data a1;input id g gender age marriage height weight nation;cards;(数据);data a2;input id g gender age marriage height

3、 weight nation;cards;(数据);proc compare base=a1 compare=a2 nosummary;run;,双录入对比,双录入对比,查找缺失值,Excel函数:If函数If(判断条件,条件满足返回值,条件不满足返回值)exact函数比较两个文本是否相同exact(比较文本1,比较文本2)offset函数返回给定偏移量的新区域offset(参照区域,行,列),查找缺失值,small(数据区域,第几小)计算单元格范围的第几小的数值Column()返回单元格所在号Row()返回单元格所在行号,查找缺失值,SAS可用missing函数实现如果结合数组和自动变量,可

4、以一次性实现所有变量缺失值的输出,查找缺失值,data a1;input id g gender age marriage height weight nation;miss_g=missing(g);miss_gender=missing(gender);miss_age=missing(age);miss_marriage=missing(marriage);miss_height=missing(height);miss_weight=missing(weight);miss_nation=missing(nation);cards;(数据);proc print;run;,查找缺失值,

5、部分结果,查找缺失值,利用数组和自动变量data missing;set a;array cha*_character_;do i=1 to dim(cha);if missing(chai)then output;end;array num*_numeric_;do i=1 to dim(num);if missing(numi)then output;end;drop i;proc print;run;,查找缺失值,缺失值结果,查找重复值,Excel函数:countif(计数区域,条件)根据指定条件,在计数区域内计数,查找重复值,SAS命令:proc sort;by 变量1 变量2;run

6、;,查找重复值,proc sort语句调用排序过程。选项out=数据集指定排序后的数据集名。因为排序后数据发生了变化,因此可指定该选项将排序后的数据存放到一个新的数据集中。如果不加该选项,排序后的数据集将覆盖原有数据集,这样你就找不回原有的未排序的数据了。选项nodupkey表示如果by语句指定的排序变量有重复值,则删除重复值。如按id排序,如果id有重复值,则只保留重复值中的第一个值,删除其它值。选项nouniquekey的作用跟nodupkey正好相反,如果by语句指定的排序变量都是唯一值,则将其删除。如按id排序,如果id没有有重复值,则全部删除。,查找重复值,by语句指定排序的变量,可

7、以指定多个。选项descending表示按降序排序,如果不加该选项,默认的是按升序排序。当需要查找重复值时,by语句指定的变量就是需要查找的重复值变量。,查找重复值,data a1;input id g gender age marriage height weight nation;cards;(数据);proc sort nouniquekey out=bb;by genderage marriage height weight;run;proc print data=bb;run;,查找重复值,5个变量均重复的观测,查找异常值,Excel函数:If函数If(判断条件,条件满足返回值,条件

8、不满足返回值)结合各种算术运算符、比较运算符、逻辑运算符等,查找异常值,常见运算符,查找异常值,SAS可用if语句或where语句结合各种运算符来查找异常值,查找异常值,SAS中的常见运算符,查找异常值,data a1;input id g gender age marriage height weight nation;cards;(数据);data b1;set a1;if(gender not in(1,2)|(age=60)|(height=200)|(weight=100)|(marriage not in(1,0)|(nation not in(1,2);proc print;ru

9、n;,查找异常值,查找异常值,data b2;set a1;if(gender not in(1,2,.)|(age=.and(age=60)|(height=.and(height=200)|(weight=.and(weight=100)|marriage not in(1,0,.)|nation not in(1,2,.);proc print;run;,查找异常值,查找异常值,data gender(where=(gender not in(1,2,.)age(where=(not missing(age)and(age=50)marriage(where=(marriage not

10、in(1,0,.)height(where=(not missing(height)and(height=200)weight(where=(not missing(weight)and(weight=100)nation(where=(nation not in(1,2,.);set a1;run;,查找异常值,proc print data=gender;var id gender;proc print data=age;var id age;proc print data=marriage;var id marriage;proc print data=height;var id height;proc print data=weight;var id weight;proc print data=nation;var id nation;run;,查找异常值,gender heightage weightmarriage,一舟春风钓长河,两岸翠绿荡山歌。疑临陶翁忘返处,却是冯君信手乐。盆景 冯国双配诗 陈景武,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号