【教学课件】第3章资料的探索.ppt

上传人:小飞机 文档编号:5658651 上传时间:2023-08-06 格式:PPT 页数:39 大小:1.13MB
返回 下载 相关 举报
【教学课件】第3章资料的探索.ppt_第1页
第1页 / 共39页
【教学课件】第3章资料的探索.ppt_第2页
第2页 / 共39页
【教学课件】第3章资料的探索.ppt_第3页
第3页 / 共39页
【教学课件】第3章资料的探索.ppt_第4页
第4页 / 共39页
【教学课件】第3章资料的探索.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《【教学课件】第3章资料的探索.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第3章资料的探索.ppt(39页珍藏版)》请在三一办公上搜索。

1、,第 3 章資料的探索,2008 台灣培生教育出版(Pearson Education Taiwan),什麼是資料的探索?,資料探索的主要目的在於幫助選擇適當的前處理方式以及資料探勘的技術協助解決資料探勘的問題 人們可以利用視覺化的方式來發現樣式以及進行結果的解釋 與探索性的資料分析(Exploratory Data Analysis,EDA)領域相關由John Tukey所發展的統計方法,資料的初步探索,以更瞭解資料的特性,資料探索使用的技術,Tukey 所發展的EDA強調視覺化將分群分析和異常偵測皆視為資料探索技術分群分析和異常偵測是資料探勘的重要研究領域,而非僅視為資料探索本章將資料探索

2、的重點放在統計彙總視覺化線上分析處理(OLAP),鳶尾花(Iris)資料集,有許多的資料探索技術是利用鳶尾花資料集進行說明有三種主要的類別:Setosa Virginica Versicolour有四種屬性 萼長 萼寬 花瓣長 花瓣寬,Virginica Iris的圖片(Robert H.Mohlenbrock USDA-NRCS PLANTS Database/USDA NRCS.1995)。東北濕地植物:野外辦公室植物物種指南。東北國家技術中心,Chester,賓州(刪除了背景),彙總統計,彙總統計屬於量化的資料包括資料的次數、資料的落點和資料的分佈 範例:資料的落點 平均數 資料的分佈

3、標準差,次數和眾數,屬性值的次數是指在資料集中該值所發生次數的百分比眾數是指具有最高次數的屬性值,百分位數,具順序性的資料,其百分位數(percentiles)是很有用的資訊 對順序性屬性或是連續值屬性 x 而言,其值 p 介於0到100之間,x 的第 p 個百分位數為 xp。如第50個百分位數是x50%,表示其所有 x 值的50%小於x50%,資料的落點:平均數及中位數,對連續型資料,平均數和中位數是兩個最常見的彙總統計公式 平均數對於具有離群值的資料很敏感,資料的分佈:全距及變異數,全距是指最大值和最小值間的差距變異數和標準差是最常用來衡量一組資料分佈的方式 平均數易受離群值所影響,但因變

4、異數也要用到平均數,所以也不適用於具有離群值的資料上,視覺化,資料的視覺化是要用圖形或是表格的方式來呈現資料,一個成功的視覺化圖表就是能夠清楚的呈現資料的特性、以及資料間或是屬性間的關係,而且可以輕易的讓人看圖釋義視覺化的圖表通常可以用來解釋氣象、經濟及選舉的預測結果,就是可以利用圖形來解釋資料 資料探勘的視覺化技術有時稱為視覺化的資料探勘(visual data mining),範例:海平面溫度,下圖為 1982 年海平面的溫度圖形彙整了25萬筆資料,表示法,將資訊映射至視覺化圖形將物件、屬性及關係映射至視覺化物件、屬性及關係,也就是分別對應至圖形上的點、線、面 物件的三種表示方法 若物件只

5、有一個類別屬性,則其物件通常是根據屬性值歸成一個區塊,而這些類別將用表單或是一個區域來表示若物件有很多屬性,那麼其物件將用表單的行、列或者是線來表示 物件通常是用二維或三維空間來呈現,而其樣本點通常會用圓圈、方形符號來表示,圖形的安排,以視覺化方式安排可以很清楚的呈現物件型態範例:,將圖上的連接元件分開,如圖3.3(b),則其節點與圖形的關係將變得更簡單易懂,選取,選取某些要刪除、或是不重要的物件或屬性 選取包含選擇屬性的子集合選取包含選擇物件的子集合,視覺化技術:直方圖,直方圖:通常用來顯示單一屬性的分佈情形範例:鳶尾花屬性的直方圖(分別有10和20個箱子),二維直方圖,將每個屬性分成兩個區

6、間,再將其區間的資料視為兩個維度 範例:顯示花瓣長和花瓣寬的二維直方圖從中可以發現什麼?,視覺化技術:盒狀圖,盒狀圖 J.Tukey 發明另一種呈現單一數值屬性分佈的作法 下圖是萼長的盒狀圖,在箱子的最底層及最上層分別為第25及第75個百分位數,而中間的線則為第50個百分位數。上方及下方的線分別為第10及第90個百分位數。離群值則用+來表示,盒狀圖的範例,盒狀圖可以用來比較不同物件類別間屬性的差異,視覺化技術:散佈圖,散佈圖 用來呈現兩個屬性間的關係可用來偵測非線性關係二維或三維圖形可用來表示額外的屬性,但資料愈多,視覺化圖形會愈複雜,更不易解釋,鳶尾花資料的散佈圖,視覺化技術:等高線圖,等高

7、線 對於三維度資料而言,二維度屬性是指平面上的位置,第三維是連續值,像是氣溫等,這時就可以用等高線圖來將平面分成不同區域,第三個屬性的值(如溫度或海拔高度)大都相等。常見的等高線圖範例是顯示陸地的海拔高度,等高線範例,1998年12月平均海平面溫度的等高線圖,視覺化技術:矩陣(高維度資料),矩陣 其圖形可以視為一個點矩陣,每個陣列上的元素都是一個顏色或是亮度,所以資料矩陣上的元素都是圖形上的像素資訊 若其類別標記已知,重新排序資料矩陣是有必要的,如此一來可以將類別中的物件聚類在一起 若要偵測是否所有類別中的物件具有相似的屬性,如其屬性有不同的全距,則其屬性通常可以將其標準化,使其平均數為0且標

8、準差為1。這可以避免屬性的值過大或太小而決定了圖形 可以用來觀察圖形中物件鄰近矩陣的結構,也就是在當類別標記已知的情形下,可以將相似矩陣的列及行進行排序,如此一來,其類別中的物件就會聚類在一起,這也可以用來評估每個類別的聚合力及和其他類別的差異性,範例:鳶尾花資料的資料矩陣,範例:鳶尾花資料的相關矩陣,相關矩陣,視覺化技術:平行座標,平行座標 平行座標中,每個屬性有一個座標軸,但是不同的座標軸是互相平行的。每個物件屬性的值會對應至座標軸上的一點,而且點與點之間將連成線,以表示一個物件,鳶尾花資料的平行座標,其他視覺化技術,星狀座標軸 類似平行座標,但軸是從中心點開始放射物件將用以下步驟進行對應

9、:首先將物件的每個屬性值,轉換成屬性間的最小及最大值間的距離。其距離將對應至屬性座標軸上的一點;每個點將連成一線段,最後形成一個多邊形 臉譜由 Herman Chernoff 提出的技術在這個技術中,每個屬性都是臉譜上的一個特徵 每個屬性值決定對應的臉譜上的特徵每個物件變成一個臉譜,15筆鳶尾花資料的星狀座標軸,SetosaVersicolourVirginica,15筆鳶尾花資料的臉譜,SetosaVersicolourVirginica,OLAP,線上分析處理(On-Line Analytical Processing,OLAP)是由關聯式資料庫之父E.F.Codd 提出線上分析處理強調互

10、動性的分析資料,並且提供視覺化資料的能力及產生彙總統計的資訊,因此OLAP系統適合做為多維度資料分析的主要分析方法 大部分的資料都可視為一個表單,而表單中的每一列為一個物件,同時每一行為一個屬性,在很多情形下,也可以將資料視多維度的陣列,建立多維度陣列,將資料視為將資料視為多維度資料的步驟有二個:維度的識別以及屬性識別。維度是類別屬性、或者是從連續屬性轉換而來的類別屬性,將屬性的值視為一個陣列的索引,而屬性的個數就是維度的個數,範例:將鳶尾花資料視為多維度陣列,將花瓣長、寬等轉換成多維度的陣列首先,將花瓣的長和寬的屬性分割成低、中及高三類,並且計算每一類所包含的個數,範例:將鳶尾花資料視為多維

11、度陣列(續),每個屬性的組合,都是多維陣列中的一個元素這個元素會被指定一個數值 下方的圖是以多維度表示鳶尾花資料,範例:將鳶尾花資料視為多維度陣列(續),下圖是將三個維度切成三個二維表單從表中可知:Setosa花型有低的寬及長;Versicolour花型有中等的寬及長;而Virginica花型的寬及長則較高,資料立體方塊:聚集總和,多維度分析的主要動機在於用不同的方法來進行資料的彙總,一般我們所討論的彙總資料是計算其聚合的值 所有可能的多維度聚集總和,稱為資料立方體,其名稱、每個維度大小並示相等,而且資料立方體可以超過三個維度,更重要的是,資料立方體其實是統計方法中的交叉列聯表,切片及切塊,切

12、片(slicing)是指選定一個或是多個維度上的特定值所產生的立方體 切塊(dicing)是指選擇某個範圍的屬性值所形成的立方體,其做法相當於從整個陣列中定義一個子陣列,上捲及下鑚,屬性值通常具有層級結構日期是由月和週所組成地點是由國家和城市組合而成產品可分為衣飾、電子產品和家電等類別這些類別都可以建構成一個層級樹狀結構或是晶格年是由月組成,月是由天組成國家是由州組成,州是由城市所組成,上捲及下鑚(續),這些層級樹狀結構可以經由上捲(roll-up)或是下鑽(drill-down)的操作來進一步瀏覽彙總資料 以銷售資料為例,可以上捲日期的維度而得知每月的銷售額;或是利用下鑽月的銷售額而得到每日銷售額,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号