操你逼_一级毛片在线观看免费_91欧美激情一区二区三区成人_日本中文字幕电影在线观看_久久久精品99_九九热精

您的位置:正保會計網校 301 Moved Permanently

301 Moved Permanently


nginx
 > 正文

知識發現與數據挖掘

2006-04-11 15:51 來源:

    內容提要: 本文介紹了知識發現及其數據挖掘的發展歷史,數據挖掘常用技術及應用。

  【關鍵詞】知識發現,數據挖掘

  1、引言

  隨著數據庫技術的成熟和數據應用的普及,人類積累的數據量正在以指數速度迅速增長。進入九十年代,伴隨著因特網(Internet)的出現和發展,以及隨之而來的企業內部網(Intranet)和企業外部網(Extranet)以及虛擬私有網(VPNVirtualPrivatenetwork)的產生和應用,將整個世界聯成一個小小的地球村,人們可以跨越時空地在網上交換數據信息和協同工作。這樣,展現在人們面前的已不是局限于本部門,本單位和本行業的龐大數據庫,而是浩瀚無垠的信息海洋,數據洪水正向人們滾滾涌來。當數據量極度增長時,如果沒有有效的方法,由計算機及信息技術來提取有用信息和知識,人們也會感到面對信息海洋像大海撈針一樣束手無策。據估計,一個大型企業數據庫中數據,只有百分之七得到很好應用。這樣,相對于“數據過剩”和“信息爆炸”,人們又感到“信息貧乏”(Informationpoor)和“數據關在牢籠中”(datainjail),奈斯伯特(JohnNaisbett) 驚呼“Wearedrowningininformation,butstarvingforknowledge”(人類正被數據淹沒,卻饑渴于知識)。

  面臨浩渺無際的數據,人們呼喚從數據汪洋中來一個去粗存精、去偽存真的技術。從數據庫中發現知識(KDD)及其核心技術——數據采掘(DM)便應運而生了。

  2、知識發現過程

  知識發現(KDD)是從數據中發現有用知識的整個過程;數據開采(DM)是KDD過程中的一個特定步驟,它用專門算法從數據中抽取模式(patterns)。1996年,Fayyad、PiatetskyShapiror和Smyth將KDD過程定義為:從數據中鑒別出有效模式的非平凡過程,該模式是新的、可能有用的和最終可理解的。

  KDD過程是多個步驟相互連接、反復進行人機交互的過程。具體包括:

  ①學習某個應用領域:包括應用中的預先知識和目標。

  ②建立目標數據集:選擇一個數據集或在多數據集的子集上聚焦。

  ③數據預處理:去除噪聲或無關數據,去除空白數據域,考慮時間順序和數據變化等。

  ④數據轉換:找到數據的特征表示,用維變換或轉換方法減少有效變量的數目或找到數據的不變式。

  ⑤選定數據挖掘功能:決定數據挖掘的目的。

  ⑥選定數據挖掘算法:用KDD過程中的準則,選擇某個特定數據挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數據中的模式。

  ⑦數據挖掘:搜索或產生一個特定的感興趣的模式或一個特定的數據集。

  ⑧解釋:解釋某個發現的模式,去掉多余的不切題意的模式,轉換某個有用的模式,以使用戶明白。

  ⑨發現知識:把這些知識結合到運行系統中,獲得這些知識的作用或證明這些知識。用預先、可信的知識檢查和解決知識中可能的矛盾。

  3、知識發現的核心――數據挖掘

  所謂數據挖掘,就是從數據庫中抽取隱含的、以前未知的、具有潛在應用價值的信息的過程。數據挖掘是KDD最核心的部分。數據挖掘與傳統分析工具不同的是數據挖掘使用的是基于發現的方法,運用模式匹配和其它算法決定數據之間的重要聯系。

  數據挖掘算法的好壞將直接影響到所發現知識的好壞。目前大多數的研究都集中在數據挖掘算法和應用上。需要說明的是,有的學者認為,數據開采和知識發現含義相同,表示成KDD/DM.它是一個反復的過程,通常包含多個相互聯系的步驟:預處理、提出假設、選取算法、提取規則、評價和解釋結果、將模式構成知識,最后是應用。在實際,人們往往不嚴格區分數據挖掘和數據庫中的知識發現,把兩者混淆使用。一般在科研領域中稱為KDD,而在工程領域則稱為數據挖掘。

  4、數據挖掘中常用技術

  目前市面數據挖掘應用方面有著種類繁多的商品工具和軟件,大致可以歸納為下列主要類型:

  [1]傳統主觀導向系統:這是針對專業領域應用的系統。如基于技術分析方法對金融市場進行分析。采用的方法從簡單的走向分析直到基于高深數學基礎的分形理論和譜分析。這種技術需要有經驗模型為前提。屬于這類商品有美國的Metastak,SuperCharts, CandlestickForecaster和WallStreetMoney等[2]傳統統計分析:這類技術包括相關分析、回歸分析及因子分析等。一般先由用戶提供假設,再由系統利用數據進行驗證。缺點是需經培訓后才能使用,同時在數據探索過程中,用戶需要重復進行一系列操作。屬于這類商品有美國的SAS,SPSS和Stargraphis等。由于近年來更先進的DM方法的出現和使用,這些廠商在原有系統中綜合一些DM部件,以獲得更完善的功能。以上兩種技術主要基于傳統的數理統計等數學的基礎上,一般早已開始用于數據分析方面。

  [3]神經元網絡(NN)技術:神經元網絡技術是屬于軟計算(SoftComputing)領域內一種重要方法,它是多年來科研人員進行人腦神經學習機能模擬的成果,已成功地應用于各工業部門。在DM(KDD)的應用方面,當需要復雜或不精確數據中導出概念和確定走向比較困難時,利用神經網絡技術特別有效。經過訓練后的NN可以想像具有某種專門知識的“專家”,因此可以像人一樣從經驗中學習。NN有多種結構,但最常用的是多層BP(backpropagation)模型。它已廣泛地應用于各種 DM(KDD)工具和軟件中。有些是以NN為主導技術,例如俄羅斯的PolyAnalyst,美國的BrainMaker,Neurosell和OWL 等。NN技術也已廣泛地做為一種方法嵌入各種DM成套軟件中。其缺點是用它來分析復雜的系統諸如金融市場,NN就需要復雜的結構為數眾多神經元以及連接數,從而使現有的事例數(不同的紀錄數)無法滿足訓練的需要。另外由受訓后的NN所代表的預測模型的非透明性也是其缺點,盡管如此,它還是廣泛而成功地為各種金融應用分析系統所采用。

  [4]決策樹:在知識工程領域,決策樹是一種簡單的知識表示方法,它將事例逐步分類成代表不同的類別。由于分類規則是比較直觀的,因而比較易于理解,。這種方法一般限于分類任務。在系統中采用這種方法的有美國的IDIS,法國的SIPINA.英國的 Clementinc和澳大利亞的C5.0. [5]進化式程序設計(Evolutionaryprogramming):這種方法的獨特思路是:系統自動生成有關目標變量對其他多種變量依賴關系的務種假設,并形成以內部編程語言表示的程序。內部程序(假設)的產生過程是進化式的,類似于遺傳算法過程。當系統找到較好地描述依賴關系的一個假設時,就對這程序進行各種不同的微小修正,生成子程序組,再在其中選擇能更好地改進預測精度的子程序,如此依次進行,最后獲得達到所需精度的最好程序時,由系統的專有模塊將所找到的依賴關系由內部語言形式轉換成易于為人們理解的顯式形式,如數學公式,預測表等。由于采用通用編程語言,這種主法在原則上能保證任何一種依賴關系和算法都能用這種語言來描述。這種方法的商用產品還只見諸俄羅斯的 PolyAnalyst.據報導,它用于金融到醫療方面軍的各種應用于,能獲得者很好的結果。

  [6]基于事例的推理方法(CBR— Casebasedreasoning):這種方法的思路非常簡單,當預測未來情況或進行正確決策時,系統尋找與現有情況相類似的事例,并選擇最佳的相同的解決方案,這種方法能用于很多問題求解,并獲得好的結果,其缺點是系統不能生成匯總過去經驗的模塊或規則。采用這種方法的系統有美國的 PatternRecognitionWorkbench和法國的KATEtools. [7]遺傳算法(GA— GeneticAlgorithms):嚴格說來,DA不是GA應用的主要領域,它是解決各種組合或優化問題的強有力的手段,但它在現代標準儀器表中也用來完成DA任務。這種方法的不足之處是:這種問題的生成方式使估計所得解答的統計意義的任何一種機會不再存在。另外一方面,只有專業人員才能提出染色體選擇的準則和有效地進行問題描述與生成。在系統中包含遺傳算法的有美國的GeneHunter. [8]非線性回歸方法:這種方法的基礎是,在預定的函數的基礎上,尋找目標度量對其它多種變量的依賴關系。這種方法在金融市場或醫療診斷的應用場合,比較好的提供可信賴的結果。在俄羅斯的 PalyAnalyst以及美國的Neuroshell系統中包括了這種技術。

  上面所列DM技術不可能是詳盡的囊括,因為多年來數理統計分析以及AI與KE的研究提供了種類繁多特點各異的手段,DM開發人員完全可以根據不同任務加以選擇使用,另外近年來在軟計算(SoftComputing)和不確定信息處理(dealingwithUncertaintyofinformation)方法的研究,促使DM (KDD)技術向更深層次發展。

  需要說明的,上面所說的DM中的數據是指數據庫中表格形式中的記錄和條目,這種數據稱作結構型數據(Structureddata)。在一個企業中,還有一類像文本和網頁形式的數據,稱作非結構型數據(unstructureddata)。它來自不同的信息源,如文本圖像影視和音響等,當然文本是最主要的一種非結構數據。1995年分析家已預言,像文本這樣非結構型數據將是在線存貯方面占支配地位的數據形式。到1998年初,在Internet上的信息網頁數,已超過5億。隨著Internet的擴展和大量在線文本的出現,將標志這巨大的非結構型數據海洋中,蘊藏著極其豐富的有用信息即知識。人們從書本中獲取知識方法是閱讀和理解。開發一種工具能協助用戶從非結構數據中抽取關鍵概念以及快速而有效地檢索到關心的信息,這將是一個非常引人入勝的研究領域。目前,基于圖書索引檢索以及超文本技術的各類搜索引擎,能協助用戶尋找所需信息,但要深入發掘這類數據中的有用用信息,尚需要更高層次的技術支持,人工智能領域有關知識表示及獲取的方法(如語義網絡概念映射等),和自然語言理解的研究成果,可望被采用。還可能要涉及到語言學心理學等領域。最近已出現針對文本的DM工具的報導。如IBM公司的TexMiner,NetQuestion,WedCawler 和megaputer公司的TextAnalyst等。

  5、數據挖掘實際應用

  DM(KDD)工具和軟件已在各個部門得到很好的應用,并收到明顯的效益。

  [1]金融方面:銀行信用卡和保險行業,預測存/貸款趨勢,優化存/貸款策略,用DM將市場分成有意義的群組和部門,從而協助市場經理和業務執行人員更好地集中于有促進作用的活動和設計新的市場運動。

  [2]在客戶關系管理方面:DM能找出產品使用模式或協助了解客戶行為,從而可以改進通道管理(如銀行分支和ATM等)。又如正確時間銷售(RightTimeMarKeting)就是基于顧客生活周期模型來實施的。

  [3]在零售業/市場營銷方面:是數據挖掘技術應用最早也是最重要的領域,DM用于顧客購貨籃的分析可以協助貨架布置,促銷活動時間,促銷商品組合以及了解滯銷和暢銷商品狀況等商業活動。通過對一種廠家商品在各連鎖店的市場共享分析,客戶統計以及歷史狀況的分析,可以確定銷售和廣告業務的有效性。

  [4]在過程控制/質量監督保證方面:DM協助管理大數量變量之間的相互作用,DM能自動發現出某些不正常的數據分布,暴露制造和裝配操作過程中變化情況和各種因素,從而協助質量工程師很快地注意到問題發生范圍和采取改正措施。

  [5]在遠程通訊部門:基于DM的分析協助組織策略變更以適應外部世界的變化,確定市場變化模式以指導銷售計劃。在網絡容量利用方面,DM能提供對客戶組類服務使用的結構和模式的了解,從而指導容量計劃人員對網絡設施作出最佳投資決策。

  [6]化學/制藥行業:從各種文獻資料總自動抽取有關化學反應的信息,發現新的有用化學成分。在遙感領域針對每天從衛星上及其它方面來的巨額數據,對氣象預報,臭氧層監測等能起很大作用。

  [7]軍事方面:使用DM進行軍事信息系統中的目標特征提取、態勢關聯規則挖掘等。

  總之,DM可廣泛應用于銀行金融、零售與批發、制造、保險、公共設施、政府、教育、遠程通訊、軟件開發、運輸等各個企事業單位及國防科研上。據報導,DM的投資回報率有達400%甚至10倍的事例。

上一篇:
ERP基本原理  
下一篇:
互聯網與企業管理創新
主站蜘蛛池模板: 日韩福利一区二区 | 91在线91| 国产一区二区三区免费在线观看 | 色久视频| 欧美中文日韩 | 在线一级黄色片 | 视频一区 国产精品 | 在线精品一区二区 | 亚洲综合一区二区三区 | 午夜欧美 | 精品福利在线观看 | 国产精品久久久久久久久潘金莲 | 国av在线 | 久久久久亚洲 | 久久极品 | 午夜精品久久久久久99热软件 | 亚洲色图20p | 久久精品视频在线观看 | 国产视频久久久 | 天堂网2021| 国产精品久久久久久久久久尿 | 久久久久久久久久久久久女国产乱 | 久久久久毛片 | 九九在线视频 | 999久久精品| 亚洲成人精品一区 | 成人精品一区二区三区视频播放 | 国产一区二区免费在线观看 | 国产精品一区二区三区免费视频 | 亚洲一区二区在线免费观看 | 可以免费看的av网站 | 国产精品国产a级 | 免费人成在线观看网站 | 亚洲一区二区精品视频 | 亚洲一区二区久久久 | 国产精品国产三级国产aⅴ中文 | 免费欧美日韩 | 久久免费精品 | 五月天丁香社区 | 激情自拍视频 | 麻豆精品网站 |