資料探勘Data Mining的介紹

Data Mining Data Warehouse 應用方式中最重要的一種。基本上,Data Mining 是用來將你的資料中隱藏的資訊挖掘出來,所以 Data Mining 其實是所謂的 Knowledge Discovery 的一部份,Data Mining 使用了許多統計分析與 Modeling 的方法,到資料中尋找有用的特徵(Patterns)以及關連性(Relationships)。 Knowledge Discovery 的過程對 Data Mining 的應用成功與否有重要的影響,只有它才能確保 Data Mining 能獲得有意義的結果。

Data Mining的功能  
一般而言,Data Mining功能可包含下列五項功能:
 ‧分類(classification)
 ‧推估(estimation)
 ‧預測(prediction)
 ‧關聯分組(affinity grouping)
 ‧同質分組(clustering)

 茲將這些功能的意義及可能使用的技巧簡述如下:

分類
按照分析對象的屬性分門別類加以定義,建立類組(class)。例如,將信用申請者的風險屬性,區分為高度風險申請者,中度風險申請者及低度風險申請者。使用的技巧有決策樹(decision tree),記憶基礎推理(memory - based reasoning)等。

推理
根據既有連續性數值之相關屬性資料,以獲致某一屬性未知之值。例如按照信用申請者之教育程度、行為別來推估其信用卡消費量。使用的技巧包括統計方法上之相關分析、迴歸分析及類神經網路方法。

預測
根據對象屬性之過去觀察值來推估該屬性未來之值。例如由顧客過去之刷卡消費量預測其未來之刷卡消費量。使用的技巧包括迴歸分析、時間數列分析及類神經網路方法。

關聯分組
從所有物件決定那些相關物件應該放在一起。例如超市中相關之盥洗用品(牙刷、牙膏、牙線),放在同一間貨架上。在客戶行銷系統上,此種功能係用來確認交叉銷售(cross selling)的機會以設計出吸引人的產品群組。

同質分組
將異質母體中區隔為較具同質性之群組(clusters)。同質分組相當於行銷術語中的區隔化(segmentation),但是,假定事先未對於區隔加以定義,而資料中自然產生區隔。使用的技巧包括k-means法及agglomeration法。

 
資料探勘Data Mining的方法

Data Miming 的工具是利用資料來建立一些模擬真實世界的模式(Model),利用這些模式來描述資料中的特徵(Patterns)以及關係(Relations)。這些模式有兩種用處,第一,瞭解資料的特徵與關係可以提供你做決策所需要的資訊,譬如 Association Model 可以幫助超級市場或百貨店規畫如何擺設貨品。第二,資料的特徵可以幫助你做預測,例如你可以從一份郵寄名單預測出哪些客戶最可能對你的推銷做回應,所以你可以只對特定的對象做郵購推銷,而不必浪費許多印刷費郵寄費而只得到很少的回應。

Data Mining 可以建立六種模式:

  • Classification
  • Regression
  • Time Series
  • Clustering
  • Association
  • Sequence

Classification Regression 主要是用來做預測,而 Association 與 Sequence 主要是用來描述行為(例如消費行為),另外Clustering 則是二者都可以用的上。

Classification 是根據一些變數的數值做計算,再依照結果作分類。(計算的結果最後會被分類為幾個少數的離散數值,例如將一組資料分為 "可能會回應" 或是 "可能不會回應" 兩類)。Classification 常常被用來處理如前面說到的郵寄對象篩選的問題。我們會用一些已經分類的資料來研究它們的特徵,然後再根據這些特徵對其他未經分類或是新的資料做預測。這些我們用來尋找特徵的已分類資料可能是來自我們的現有的歷史性資料,或是將一個完整資料庫做部份取樣,再經由實際的運作來測試;譬如利用一個大的郵寄對象資料庫的部份取樣來建立一個 Classification Model,以後再利用這個 Model 來對資料庫的其他資料或是新的資料作預測。
Regression 是使用一系列的現有數值來預測一個連續數值的可能值。
Time-Series Forcasting Regression 很像,只是它是用現有的數值來預測未來的數值。Time-Series Forcasting 的不同點在於它所分析的數值都與時間有關。Time-Series Forcasting 的工具可以處理有關時間的一些特性,譬如時間的階層性(例如每個禮拜五個或六個工作天)、季節性、節日、以及其他的一些特別因素如過去與未來的關連性有多少。
Clustering 是將資料分為幾組,其目的是要將組與組之間的差異找出來,同時也要將一個組之中的成員的相似性找出來。Clustering Classification 不同的是,你不曉得它會以何種方式或根據什麼來分類。所以你必須要有一個分析師來解讀這些分類的意義。
Association 是要找出在某一事件或是資料中會同時出現的東西。Association 主要是要找出下面這樣的資訊:如果 Item A 是某一事件的一部份,則 Item B 也出現在該事件中的機率有 X %。(例如:如果一個顧客買了低脂乳酪以及低脂優酪乳,那麼這個顧客同時也買低脂牛奶的機率是 85%。)
Sequence DiscoveryAssociation 關係很密切,所不同的是 Sequence Discovery 中相關的 Item 是以時間區分開來(例如:如果做了 X 手術,則 Y 病菌在手術後感染的機率是 45%。又例如:如果 A 股票在某一天上漲12%,而且當天股市加權指數下降,則 B 股票在兩天之內上漲的機率是 68%)。

 
資料探勘Data Mining的技術與工具
有一點很重要的是,沒有一種 Data Mining 的工具可以應付所有的要求。對於某一種問題,資料本身的特性會影響你所選用的工具。所以你可能會需要用到許多不同的工具以及技術從資料中找到最佳的模式。Classification 模式是最常使用的模式,所以在這裡我們就來介紹建立這種模式的一些常見的方法。
Classification 通常會牽涉到兩種統計方法:Logistic Regression 以及 Discriminant Analysis。然而因為 Data Mining 已漸普遍,所以 Neural Nets 以及 Decision Tree 也漸漸受到採用。雖然這些統計方法本身都十分複雜,但使用者並不會牽涉到這些繁雜的統計。
Neural Nets 使用許多參數(每個參數代表 Net 上的一個 Node)來建立一個模式,這個模式接受一組輸入值來預測出一個連續值或分類值。每一個節點(Node)都是一個函數,這個函數是使用輸入該節點的相鄰節點值的加權總和(Weighted Sum)做運算。
在建立一個模式的過程中,我們要用一些資料來 '餵' 給這個網路,'訓練' 它來找到一組能夠產生最佳輸出結果的加權值(Weights)。有一種最常用的 '訓練法' 稱為 Back-Propagation,它是把輸出結果與一個已知的正確結果相比。每次相比之後就產生另一組調整過的 Weights,然後再產生一個新的輸出值再與該已知值相比。這個過程經過反覆的執行後,這個 Neural Net 就被 '訓練' 得能夠相當正確的做預測了。
可是 Neural Net 有兩個問題。首先,Neural Net 最受質疑的是它的 '曖昧不明 ' 的特性,也就是它做的預測所根據的因素並不明確。第二,Neural Net 對測試資料可以做相當正確的預測,但是對真實資料預測的準確性則較差。但是現在已經有一些新的技術可以改正這個缺點。 Decision Tree 則是利用一系列的規則來得到一個類別或數值。例如,你想把申請貸款的人歸類成 '風險高' 與 '風險低' 兩種,Fig. 2 顯示了一個可以解決這個問題的簡單的 Desicion Tree。有了這個 Desicion Tree,銀行的放款人員就可以審查申請人的條件,決定該人是屬於高風險或低風險群。例如 '收入高於40000' 而且 '高負債' 的人會被歸為高風險之類,而 '收入低於40000' 而且 '工作超過5年' 則會被歸為低風險之類。 Desicion Tree現在相當普遍,因為它所做的預測相當正確,而且又比 Neural Net 容易瞭解。 Desicion Tree 與 Neural Net 也可以用來做 Regression,某些種類的 Neural Net 甚至可以用來做 Clustering。IBM 的 Intelligent Miner 可支援 Decision Tree 以及 Neural Net
 
資料探勘Data Mining的應用
Data Mining 對每個公司來說都是一種重要的策略性的的計畫,而將之列為高度機密,所以要調查各家公司到底用 Data Mining 來做什麼樣的事其實相當不容易。根據 Two Crows Corp. 最近的調查顯示,Data Mining 主要的三個應用方式 - 如我們所預期的 - 都在市場推廣方面,分別是:Customer Profiling、Targeted Marketing、以及 Market-Basket Analysis
Customer Profiling 方面,我們希望找出客戶的一些共同的特徵,希望能藉此預測哪些人可能成為我們的客戶,以幫助行銷人員找到正確的行銷對象。Data Mining 可以從現有客戶資料中找出他們的特徵,再利用這些特徵到潛在客戶資料庫裡去篩選出可能成為我們客戶的名單,作為行銷人員推銷的對象。行銷人員就可以只針對這些名單寄發廣告資料,以降低成本,也提高行銷的成功率。
Market-Basket Analysis 主要是用來幫助零售業者瞭解客戶的消費行為,譬如哪些產品客戶會一起購買,或是客戶在買了某一樣產品之後,在多久之內會買另一樣產品等等。利用 Data Mining,零售業者可以更有效的決定進貨量或庫存量,或是在店裡要如何擺設貨品,同時也可以用來評估店裡的促銷活動的成效。
客戶關係的管理是 Data Mining 的另一個常見的應用方式。我們可以由一些原本是我們的客戶,後來卻轉而成為我們競爭對手的客戶群中,分析他們的特徵,再根據這些特徵到現有客戶資料中找出有可能轉向的客戶,然後公司必須設計一些方法將他們留住,因為畢竟找一個新客戶的成本要比留住一個原有客戶的成本要高出許多。
近來電話公司、信用卡公司、保險公司、股票交易商、以及政府單位對於詐欺行為的偵測(Fraud Detection)都很有興趣,這些行業每年因為詐欺行為而造成的損失都非常可觀。 Data Mining 可以找出可能的詐欺交易,減少損失。財務金融業可以利用 Data Mining 來分析市場動向,並預測個別公司的營運以及股價走向。 Data Mining的另一個獨特的用法是在醫療業,用來預測手術、用藥、診斷、或是流程控制的效率。
 
資料探勘Data Mining導入的四個階段

目標(target)設定
研析現有的business process以確認Data Mining可以應用的領域,這些領域可能包括行銷、銷售、顧客服務等。
在此階段,從事使用者訪談、蒐集資料等工作。其次,將資料按可能使用的模型如以clearing, filtering & transformation。在此階段應產生下列各項:
-有關data mining先導計畫實施目的之說明
-評估計畫之評估準則
-資料整理結果及初步分析報告
-計畫時程
-最後目標之大綱

Prototyping   
從第一階段所獲致結果,使用合適的軟硬體從事系統prototype 模型之開發。在開發prototype的過程中,修正資料之整理方法的模型之建立。在本階段應完成下列各項:
-Prototype
模型開發系統
Data Mining技術及工具之評估
-調整business processData Mining系統整合之計畫

系統建置
在此階段應產生下列各項:
-資料擷取及整理之程序及軟體
Data Mining模型開發系統
Data Mining上線之第一個版本
solution的執行及migration plan -Data Mining環境設定及開發計畫

系統移植(migration)
data mining文化的建立及使用者的訓練,在此階段應產生下列項目:
Data Mining之上線環境
Data Mining使用者清單
-Business ProcessData Mining之回應
-系統改善計畫

 

 
資料探勘Data Mining建置的注意事項
資料來源
一般的交易資料可能不足以用來估計銀行活期存款帳戶之流失率,必須再蒐集資料,以瞭解客戶流失之原因。

資料需求的界定
找出針對與特定問題相關原因與象徵之資訊。

訪談人員需求
訪談之被訪人可能包括服務中心人員,分行經理、及行銷分析人員等。從事訪談的人員則以從事流失模型建立之分析為宜。

模型建立
模型的種類可以涵蓋簡單的OLAP,以致複雜的neural network

資料整理
不同的模型有不同的資料需求,資料整理方式也不同。例如在neural network模型的情況,可能要將原始資料轉換成以0至1為範圍之數列。

軟體需求
利用的原有的交易資料及額外蒐集的資料後必須利用專業的軟體建立模型。所需要的軟體可能包括SQL queries及特殊的分析軟體。

資料倉儲的支援
Data mining的應用上必須以資料倉儲作為支援。因此,在建置資枓倉儲時必須考慮到Data mining的應用,例如具有關聯性及下拉式的OLAP核心對Data mining有相當大的助益。

 
 
探宇科技股份有限公司
臺北市114民權東路六段23號
5F-2
臺南市
701裕農372-33
聯絡我們:service@uniminer.com
TEL:(02)8792-6622 TEL:(06)237-3552
FAX:(02)8792-8999 FAX:(06)237-1848
Copyright © 2005Uniminer .
All Rights Reserved.
Site designed by
JK2U.COM