《信息检索与数据预处理.ppt》由会员分享,可在线阅读,更多相关《信息检索与数据预处理.ppt(15页珍藏版)》请在三一办公上搜索。
1、信息检索与数据预处理,主讲人:王栋2012年4月13日,信息检索,信息来源:1、传统资源.图书馆纸质书籍期刊。2、网络资源。数据库:中国期刊网,超星,书生之家(图书馆首页-数据库导航)搜索引擎:google学术、google图书(google搜索技巧)新浪共享资料、豆丁网百度文库、CSDN、人大经济论坛各大高校BBS论坛、FTP资源数学中国论坛国家统计局维基百科(英文版),信息检索,信息检索技术:1、利用搜索引擎,关键词搜索2、数据库中,利用题名、摘要、作者等分类搜索3、从参考文献入手4、从维基百科(英文版)词条的reference入手4、从在该领域有名的教授的论文入手,数据预处理,自2000
2、年以来,数学建模竞赛题目的数据提供方式越来越多样(txt文档、acess数据、excel数据);数据量越来越庞大;快速而方便的从提供的数据中,找到我们所需要使用的数据,就可以为后面的分析和处理节约时间,而不为提取数据所累;数据的存储、重用和传递,也是数学建模竞赛中常常 用到的;对数据的使用和分析是建模的基础,数据预处理,1、数据提取(Data extraction)2、数据清洁(Data Cleaning)3、数据变换(Data Transformation)4、统计描述(Statistic Description),数据提取(Data extraction),(1)如果数据较为整齐,则利用m
3、atlab函数直接导入。如importdata(),xlsread(),load().(2)如果是txt数据,而且混有字符和数字,一般处理起来比较麻烦点,则可用C语言中的fgets()一行行读出来,存成字符串再用atof()函数转化为十进制数,最后重新存为txt数据进行处理。(3)熟悉数据库语言的可以利用数据库进行相关操作,再次不作介绍。,数据提取(Data extraction),Ps:若其中涉及的人工步骤,如各种相同的复制粘贴较多,则建议还是编写简单的C语言程序或者matlab程序处理。做到采取手动提取和使用程序、工具软件提取相结合.尽量将数据存为矩阵形式,方便matlab的使用。为保险起
4、见,要注意save重要数据和常用数据。将导入的数据,存成一个.mat文件,以后就可以重新Load进工作区间参与运算。,数据清洁(Data Cleaning),数据清理要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据、空缺值,识别删除孤立点等。,数据清洁(Data Cleaning),Noisy Data噪声是一个测量变量中的随机错误和误差。一般我们直接剔除这些异常值。例:,数据清洁(Data Cleaning),Incomplete Data数据的不完整可能由于数据在收集、来源、整理等过程中造成的数据的缺失。(1)忽略缺失值(2)人工凭经验填写缺失值(3)使用该部分数据的均值填充
5、(4)利用回归等方法填写一个最有可能的值(5)利用SPSS中分析-缺失值分析,数据清洁(Data Cleaning),Inconsistent Data由于数据来源,收集标准等的不同导致相同属性的数据不同表现形式。例1:A数据库对产品质量等级划分列为一等品,二等品,三等品;B数据库则划分为A级,B级,C级。例2:武大的一周从周日开始到周六 我们学校的一周从周一开始到周日,数据变换(Data Transformation),平滑化:消除数据中的噪声影响(回归方法)标准化:归一化:,统计描述(Statistic Description),1、查看均值mean、中位数median,标准差std,极差
6、range2、峰度kurtosis,正态分布的峰度为3,若2 比3 大得多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可以用作衡量偏离正态分布的尺度之一。3、偏度skewness,偏度反映分布的对称性.其值大于0 称为右偏态,此时数据位于均值右边的比位于左边的多;反之,称为左偏态;而值接近于0则可认为分布是对称的,统计描述(Statistic Description),4、直方图hist5、数据拟合,利用cftoolPs:以上数据预处理方法只是对数据的简单描述,更深入的内容可以参看数据挖掘技术和多元统计分析。,references,1 杨文霞,数学建模培训之数据的预处理,武汉理工大学理学院3元昌安等,数据挖掘原理与SPSS Clementine应用宝典,电子工业出版社.4徐从富,数据预处理技术,浙江大学人工智能研究所5司守奎,算法大全,201205,