- 相關推薦
粗集方法在KDD系統(tǒng)中的應用與研究
粗集方法在KDD系統(tǒng)中的應用與研究
周波
(西安電子科技大學多媒體研究所 西安 710086)
【摘 要】本文論述了粗集方法性質(zhì)及特點,提出了粗集方法在KDD系統(tǒng)中的應用模型,同時給出了應用這一模型對一個數(shù)據(jù)庫實例進行數(shù)據(jù)挖掘的過程。另外,從精確性、魯棒性等方面對KDD系統(tǒng)中的粗集方法的適用范圍進行了分析。
【關鍵詞】粗集 KDD 數(shù)據(jù)挖掘
Application and Research of Rough Set in KDD System
Zhou bo
(Multimedia Technology Institute ,Xidian University Xi’an710086)
Abstract: In this paper, we discuss the character of rough set, and put forward the application model of rough set in KDD system. Also, by an example ,the advantage and disadvantage of rough set in KDD system is analysed in detail.
Key Word: Rough Set KDD Data Mining
1.前 言
數(shù)據(jù)庫中的知識發(fā)現(xiàn)技術(Knowledge Discovery in Database, KDD)是隨著數(shù)據(jù)庫和人工智能的發(fā)展而產(chǎn)生的,它是“從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并能被人理解的模式的非平凡過程”。通過KDD,人們可以將知識發(fā)現(xiàn)的研究成果應用于實際數(shù)據(jù)處理中,為科學決策提供支持。KDD系統(tǒng)中的知識學習階段被稱為“數(shù)據(jù)挖掘”(Data Mining,DM),它的算法是KDD系統(tǒng)的核心。近年來,粗集理論(Rough Set Theory)開始逐漸應用到DM的領域中,在對大型數(shù)據(jù)庫中不完整數(shù)據(jù)進行分析和學習方面取得了顯著的效果,因此,以粗集為代表的集合論方法是今后KDD技術的一個主要研究方向。
2. KDD系統(tǒng)中粗集方法的基本特征
粗集(Rough Set)理論和模糊集(Fuzzy Set)理論都是針對不確定性問題提出的,它們既相互獨立,又相互補充。粗集方法與傳統(tǒng)的統(tǒng)計及模糊集方法不同的是:后者需要依賴先驗知識對不確定性的定量描述,如統(tǒng)計分析中的先驗概率、模糊集理論中的模糊度等等;而前者只依賴數(shù)據(jù)內(nèi)部的知識,用數(shù)據(jù)之間的近似來表示知識的不確定性。用粗集來處理不確定性問題的最大優(yōu)點在于,它不需要關于數(shù)據(jù)的預先或附加的信息,而且容易掌握和使用。粗集中不精確的要領包含下近似和上近似兩個定義,前者指的是所有對象都一定被包含,后者指的是所有對象可能被包含。
粗集的一些理論和方法可用來從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則。其基本思想是,將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間的上下近似關系生成判定規(guī)則。
粗集理論中的信息系統(tǒng)可用一個四元組來表示:S={R,A,V,f}。其中R是一個非空集合,表示數(shù)據(jù)庫中的所有記錄(Record);A表示數(shù)據(jù)庫中的全部屬性(Attribute);V是屬性值組成的集合;f是屬性和記錄的函數(shù),f(a,e)的值確定記錄e關于屬性a的取值。對于屬性集A中的任意一個屬性a,如果記錄
3.應用粗集方法進行數(shù)據(jù)挖掘的過程
我們以一個具體的數(shù)據(jù)庫的作為實例(如圖1所示),使用粗集的方法對其中的知識進行分析和預測。為了說明KDD系統(tǒng)中粗集方法的實質(zhì),我們簡化了問題域,只取出“汽車數(shù)據(jù)庫”中的10個記錄,而且只分析三個字段(Power, Turbo, Weight),數(shù)據(jù)挖掘的目標模式定為:“分析汽車的‘Power’和 ‘Turbo’特征同‘ Weight’特征之間的關系”。
No.
Power
Turbo
Weight
1
HIGH
YES
MED
2
LOW
NO
LIGHT
3
MEDIUM
YES
LIGHT
4
HIGH
NO
LIGHT
5
HIGH
YES
MED
6
MEDIUM
YES
LIGHT
7
LOW
NO
HEAVY
8
HIGH
NO`
HEAVY
9
HIGH
YES
MED
10
LOW
NO
HEAVY
圖1 汽車特征數(shù)據(jù)庫(部分)
在這個數(shù)據(jù)庫中,R={1,2,3,4,5,6
【粗集方法在KDD系統(tǒng)中的應用與研究】相關文章:
基于PSOS的TM1300應用系統(tǒng)中的BSP研究08-06
智能決策支持系統(tǒng)中的知識表示及基于粗集的知識推理08-06
嵌入式Linux系統(tǒng)中的GUI系統(tǒng)的研究與移植08-06
研究型教學模式在《數(shù)據(jù)庫系統(tǒng)原理》課程中的應用08-05
多媒體音樂教學系統(tǒng)在中學爵樂教學中的應用研究08-20