clementine_应用范例.ppt_三一办公31ppt.com

资源描述

《clementine_应用范例.ppt》由会员分享，可在线阅读，更多相关《clementine_应用范例.ppt（23页珍藏版）》请在三一办公上搜索。

1、第二十章應用範例,20.1 概況,讀者可以學習每一個例子中資料採礦人員對具體問題的典型處理辦法。例子所使用的資料集比資料採礦人員實際處理的資料要小得多，但這樣正好可以將讀者的注意力吸引到資料採礦的具體操作之上，而不是資料本身問題。對於複雜的資料採礦應用，讀者可以參考Clementine應用範本(CATs)上的指導手冊，可以和當地的SPSS辦事處聯繫索取這張CD。,20.2 狀態監測範例,該例子是透過監測一台機器的狀態資訊來識別和預測故障狀態的問題。資料是一些連續的時間序列。每筆記錄是該機器狀態的“快照”，包含以下內容：時間 Time，整數功率 Power，整數溫度 Temperature

2、，整數電壓 Pressure.，0表示正常，1表示瞬間電壓報警正常執行時間 Uptime，上次正常運轉至今的時間狀態 Status，0表示正常,不同的故障狀態編碼101,202,303 結果 Outcome，該序列中出現的故障碼，若無故障發生爲0,每一筆時間序列均是一組來自機器正常執行期間和後續故障期間的記錄組成，如下表所示,20.2.1 審視資料,若溫度或功率的時間序列包含了可以察覺的模式，那麽我們就可以從故障條件來區分不同的機器故障，並有可能預測故障的出現。以溫度和功率爲觀察對象，該資料流程將時間序列按照三個不同的故障類型分類，産生了六個時序圖。,圖 20-1 condplot流,圖

3、20-2 溫度和功率時序圖,顯示了故障 202 的溫度和功率時序模式有別於故障 303 和 101。在故障 202 的模式中，溫度隨時間遞增，而功率不斷震盪；其他故障模式則不然。但是故障 303 和 101 的溫度和功率時序模式則區別不大。兩者的溫度依時間不變，功率逐漸下降；但是看起來故障 303的功率隨時間下降得更快。從圖形看來，溫度和功率的變化以及波動程度，與故障的預測和識別是息息相關的,20.2.2 資料準備,圖20-3 流condlearn,節點序列說明如下：,Variable File node：讀取資料檔案 COND1n Derive Pressure Warnings：計算瞬間電

4、壓報警的數目，在時間回復到0時重置 Derive TempInc：溫度變化率，運算式爲DIFF1（Temp,Time）Derive PowerInc：功率變化率，運算式爲DIFF1（Power,Time）Derive PowerFlux.：功率變化反轉標記，用T標識 Derive PowerState.：功率狀態標記，分爲 Stable 和 Fluctuating。PowerChange：在前五個時間段中PowerInc 的均值 TempChange：在前五個時間段中TempInc 的均值 Discard Initial(select)：去掉每個時間序列中的第一條記錄 Discard fie

5、lds：過濾掉部分欄位元 Type：定義 Outcome 的方向爲 Out,20.2.3 學習,文件 condlearn.str 中資料流程是用來訓練本範例的C5.0模型和神經網路模型的。神經網路需要一定的時間進行訓練，但也可以提早的打斷訓練並保存産生出的合理的結果。提示兩個新的模型節點已經産生了：其中一個是神經網路模型，一個是C5.0模型。,圖 20-4 帶有産生模型節點的模型管理器,20.2.4 測試,把生成的模型節點加入到流程中，插入一個Type節點並連接到已産生的神經網路模型節點；將神經網路模型節點連接到生成的C5.0節點，再將C5.0節點連接到一個新的分析節點。然後編輯初始的來源節點

6、並導入測試資料檔案COND2n。,圖 20-5 測試訓練後的網路,20.3 欺詐稽查範例,背景是關於農業發展貸款的申請，每一條記錄描述的是某一個農場對某種具體貸款類型的申請。我們主要考慮兩種貸款類型：土地開發貸款和退耕貸款。要解決的業務問題是找出那些就農場類型和大小說來申請貸款過多的“主兒”。,圖20-6 解釋fraud.str流操作的流程圖,20.3.1 資料獲取,使用一個變數檔節點來連接到資料集grantfraudN.db。該資料包含九個欄位名：id.唯一的識別字 name.申請人名 region.地理位置(midlands/north/southwest/southeast)landqu

7、ality.整型農場主對地産質量的聲明 rainfall.整型農場的年降雨量 farmincome.實型農場的年産量 maincrop.主要作物(maize/wheat/potatoes/rapeseed)claimtype.申請貸款類(decommission_land/arable_dev).claimvalue.實型申請貸款數額,20.3.2 資料探索,在這一環節上，使用探索性的圖形來分析資料是個好辦法。這有助於形成一些對建模有用的假設。我們首先考慮資料中可能存在的欺詐類型。一種可能性是一個農場多次申請貸款援助。假設在資料集每個農場有一個唯一的識別字，那麽計算出每個識別字出現的次數是件容

8、易的事。將資料連接到一個分佈節點（Distribution Node）並選定名爲 name 欄位。圖20-7 顯示若干個農場存在多次申請。,圖20-7 撥款申請分佈,爲了探索其他可能的欺詐形式，我們可以撇開多次申請的記錄，將注意力集中到只申請過一次的記錄上來。可以用選擇節點（Select Node）刪除相應的記錄。,圖20-8 去除多重申請,我們可以使用Clementine建立一個迴歸模型，以農場大小，主要作物類型，土壤質量等爲引數來估計一個農場的收入是多少。在建模以前，需要在導出節點Derived Node中使用CLEM語言來生成一個新的欄位。我們用如下的運算式來估計估計農場收入：,圖20-

9、9 估計農場收入,爲了發現那些偏離估計值的農場,我們需要生成一個 diff 欄位，代表估計值與實際值偏離的百分數。,圖 20-10 比較收入偏差,由diff的直方圖可以幫助我們發現偏離的特徵。將直方圖按照 claimtype 進行層疊，進一步看看申報的類型對偏離有影響。,圖20-11 偏差百分比的直方圖,看來所有較大的偏差都發生在 arable_dev類型的申請時，因此，我們只選擇 arable_dev類貸款申請作爲研究對象。將一個選擇節點Select Node加到導出節點 diff 的後面，使用CLEM運算式claimtype=arable_dev進行篩選。,20.3.3 訓練神經網路,經過

10、探索性資料分析，我們發現將真實值和通過一系列因變數得到的期望值進行比較似乎是有用的。神經網路可以用來處理此類問題。神經網路使用資料中的變數，對目標變數或回應進行預測。使用預測的結果，我們可以探索偏離正常值的記錄或記錄組。在建模之前，我們首先將一個類型節點Type Node 加到目前的流程中。因爲需要用資料中的變數來預測所申請的貸款金額，所以將claimvalue的方向設置爲OUT。,圖20-12 爲神經網路模型定義輸入和輸出變數,附加上一個神經網路節點並執行之。待此神經網路經過訓練後，將産生的模型加到流程中並給出預測值與實際申請值的對照圖。,圖20-13 比較預測和真實聲明值,導出一個名爲cl

11、aimdiff 欄位，類似於前面導出的“income differences”欄位。此導出節點使用如下的CLEM運算式：(abs(claimvalue-$N-claimvalue)/claimvalue)*100,增加一個分隔帶到直方圖中，右擊帶區生成一個選擇節點，進一步察看那些claimdiff 值較大的資料，比如對 claimdiff 50%的申請進行深入地調查。,20.4 總結,本例建立了一個預測模型將模型預測值和資料集（農場收入）中的實際值進行比較。我們發現偏差主要出現在一種撥款申請類型（可耕地開發）中，然後進行更深入的分析。通過一個訓練後的神經網路模型，歸納出申請額和農場大小、估計的收入，主要作物等等之間的關係。然後與神經網路模型的估計值相比較，大於50%的將被認爲是需要進一步調查的。當然，最終這些申請有可能是有效的，但是它們與正常值的差異卻是值得注意的。,

展开阅读全文