基于數據挖掘的校園一卡通決策支持系統(tǒng)設計與開發(fā)
文章出處:http://coolbang.cn 作者: 人氣: 發(fā)表時間:2011年09月13日
摘要:針對當前高校一卡通數字化校園,提出以數據倉庫技術為核心、以聯機分析處理技術和數據挖掘技術為手段, 整合一卡通應用系統(tǒng)的核心業(yè)務數據, 分析并挖掘數據隱藏關系,提取有用信息,供管理員輔助決策,并供其他應用系統(tǒng)共享,產生聯動。
引言
隨著校園信息化的不斷推進和深入,越來越多的校園領域實施數字化管理。雖然當前很多學校已啟用校園一卡通系統(tǒng), 但只是作為簡單業(yè)務平臺應用,沒有實現資源整合與分析, 不能給管理層帶來決策知識。為解決以上問題,并結合本校實踐經驗,提出整合校園一卡通資源,并使用數據挖掘技術構建一卡通決策支持系統(tǒng)。
1 研究內容
當前校園一卡通應用主要在以下兩個大方面:消費應用方面,例如熱水消費、智能電控繳費、上機管理消費、校園網繳費、飯?zhí)孟M、超市消費、銀行轉帳等;教學教輔應用方面,例如借還書管理、多媒體課室管理、課室電子課表管理、迎新離校管理、就業(yè)跟蹤管理等。各應用系統(tǒng)的數據在業(yè)務上是獨立的,各應用系統(tǒng)的數據就不能以一種統(tǒng)一集中的宏觀決策信息呈現。再則,一卡通系統(tǒng)的不斷應用將會積累越來越大量的數據,傳統(tǒng)操作型數據庫已不能處理這些海量歷史數據,使用數據倉庫技術進行存儲,并使用聯機分析處理技術進行分析,顯得十分必要。聯機處理分析可以從多種角度、多種粒度、多個維度上分析微觀或宏觀信息,更好地輔助高層管理人員決策。同時,在聯機分析處理基礎上,通過數據挖掘技術,挖掘和發(fā)現數據隱藏關系和趨勢,從而提前制定決策。
數據挖掘系統(tǒng)不僅僅作為一個知識呈現的工具,而更應發(fā)揮其智能輔助決策的作用。數據挖掘系統(tǒng)還應把發(fā)現的知識, 提供給其他有需要的應用系統(tǒng)共享,實現跨系統(tǒng)之間聯動,使決策更加智能化。
2 系統(tǒng)架構
本決策支持系統(tǒng)包含數據源、數據存儲與管理、OLAP 服務、前端工具與應用、決策支持應用5 個部分。數據源是整個決策支持系統(tǒng)的數據基礎;數據的存儲與管理是整個決策支持系統(tǒng)最復雜部分。在現有數據源的基礎上,對數據進行抽取(Extract)、轉換和清洗(Transform)、裝載(Load),并有效集成操作( 即ETL 處理),按照主題進行重新組織,構建數據倉庫;聯機分析處理(OLAP)按照多維數據模型進行再次重組,以支持用戶多角度、多層次的分析;前端工具主要包括各種數據分析工具、報表工具、查詢工具、數據挖掘工具與應用;決策支持應用綜合挖掘系統(tǒng)發(fā)現的知識,綜合知識庫經驗,輔助管理人員進行決策,并且向其他應用系統(tǒng)提供發(fā)掘的知識,實現聯動。系統(tǒng)采用SQL Server 2005 為數據倉庫和數據挖掘解決方案,總體結構如圖1 所示。
圖1 決策支持總體架構
3 系統(tǒng)設計
3.1 數據倉庫設計[1]
數據倉庫模型采用三層數據建模方式:概念模型設計、邏輯模型設計和物理模型設計。概念模型設計主要在原有數據庫的基礎上建立較為穩(wěn)固的概念模型,確定主題域及內容,以及界定系統(tǒng)的邊界,數據圍繞主題進行組織。邏輯模型設計階段要進行的主要工作是分析主題域、確定當前要裝載的主題,設計維度表和事實表,并確定維度的粒度層次和數據分割策略等。維度表和事實表組織采用雪花模型組織。物理模型設計主要確定數據存儲結構、存儲位置、容量、更新頻率和索引策略等。
數據倉庫的結構設計好后,ETL 過程首先從異構數據源抽取數據,然后按照數據倉庫的維度表和事實表設計要求進行轉換處理, 對所有臟數據進行清洗。數據轉換與清洗按圖2 所示的W.H.Inmon 博士[2]提出的6 個步驟進行。
圖2 ETL 過程的6 個步驟
數據經過ETL 處理后裝入數據倉庫, 從建造面向某個部門(或某個應用)特定的數據集市開始,逐步擴充數據倉庫所包含的主題和范圍,最后形成一個能反映全貌的企業(yè)級數據倉庫。數據倉庫構建后,進行聯機分析處理,通過靈活的多維瀏覽,結合上卷、下鉆等操作,宏觀或微觀上提取有用的信息,作為高層管理人員決策支持和依據。同時,通過一系列的報表分析,更加直觀地顯示數據統(tǒng)計信息。
3.2 數據挖掘設計[3~4]
在數據倉庫建成后,使用數據挖掘技術構建相應挖掘模型。每種挖掘類型完成某種特定功能。關聯規(guī)則挖掘模型通過分析學生屬性、消費金額、消費時間、消費地點等之間的關聯, 來分析個體學生消費行為;時序挖掘模型可以月為周期挖掘超市日消費數據的序列,并作出預測;聚類挖掘模型可以用于總體飯?zhí)孟M或用電消費值的分類,以了解學生總體的消費區(qū)間;決策樹挖掘模型通過分析學生專業(yè)、年級、住址、家庭情況等屬性對飯?zhí)孟M或用電消費的影響,以發(fā)現決定影響消費的重要屬性,形成決策樹。
數據挖掘模型的數據源主要從數據倉庫中抽取,但并不是數據倉庫中的數據百分百滿足模型的要求。很多時候, 還要對數據倉庫中的數據進行二次處理,以適應模型要求,裝入挖掘模型。SQL Server 2005 提供有前端展示工具,用于解釋模型數據。
3.3 系統(tǒng)聯動設計
SQL Server 2005 提供有Data Mining Access ObjectsAPI 接口[5]來訪問數據倉庫與數據挖掘模型。通過DMAO 接口, 可以方便地操作數據倉庫和數據挖掘模型, 從而實現數據倉庫和數據挖掘模型的監(jiān)控。配合知識庫經驗,把發(fā)掘的知識作為預警信息分發(fā)到相應的應用系統(tǒng), 其他應用系統(tǒng)收到預警信息后,作出相應的聯動處理[6]。
例如,關聯規(guī)則挖掘模型根據知識庫經驗,把滿足知識庫閾值的飯?zhí)孟M和學生宿舍用電消費關聯規(guī)則,以預警的形式向學生助學貸款系統(tǒng)和學生勤工助學系統(tǒng)發(fā)送消息。例如,某學生申請了助學貸款,但通過挖掘其歷史消費數據,發(fā)現該學生經常產生較大消費金額,與其貧困的家庭生活狀況不太適應,可能有欺騙嫌疑,則數據挖掘模型向助學貸款管理系統(tǒng)產生一條預警信息,讓助學貸款系統(tǒng)作相應處理??傮w結構如圖所示。
圖3 數據挖掘與應用系統(tǒng)間聯動
數據倉庫的建設是一個系統(tǒng)工程,是一個不斷建立、發(fā)展、完善的過程。因此,決策支持系統(tǒng)的建設也是一個不斷發(fā)展的過程。
4 結語
本文提出并設計了應用數據倉庫與數據挖掘技術的校園一卡通決策支持方案,對本校一卡通數據作了深入分析,得出了有用的決策信息,在一定程度上輔助管理人員進行決策。數據挖掘系統(tǒng)與其他應用系統(tǒng)之間的聯動是一個有益的嘗試,并且是一個有相當挑戰(zhàn)性的課題。本系統(tǒng)仍需不斷發(fā)展和改進完善。
【稿件聲明】:如需轉載,必須注明來源和作者,保留文中圖片和內容的完整性,違者將依法追究。