什麼是資料探勘什麼是資料探勘,簡述其作用和應用。

2021-03-05 08:00:05 字數 6738 閱讀 3411

1樓:cda資料分析師

簡單地說,資料探勘是從大量資料中提取或『挖掘』知識。該術語實際上有點用詞不當。資料探勘應當更正確地命名為『從資料中挖掘知識』,不幸的是它有點長。

許多人把資料探勘視為另乙個常用的術語『資料庫中知識發現』或kdd的同義詞。而另一些人只是把資料探勘視為資料庫中知識發現過程的乙個基本步驟。

資料探勘是乙個用資料發現問題、解決問題的學科。

通常通過對資料的探索、處理、分析或建模實現。

我們可以看到資料探勘具有以下幾個特點:

基於大量資料:並非說小資料量上就不可以進行挖掘,實際上大多數資料探勘的演算法都可以在小資料量上執行並得到結果。但是,一方面過小的資料量完全可以通過人工分析來總結規律,另一方面來說,小資料量常常無法反映出真實世界中的普遍特性。

隱含性:資料探勘是要發現深藏在資料內部的知識,而不是那些直接浮現在資料表面的資訊。常用的bi工具,例如報表和olap,完全可以讓使用者找出這些資訊。

新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。

價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說資料探勘只是「屠龍之技」,看起來神乎其神,卻什麼用處也沒有。

這只是一種誤解,不可否認的 是在一些資料探勘專案中,或者因為缺乏明確的業務目標,或者因為資料質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導 致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,資料探勘的確可以變成提公升效益的利器。

2樓:知於大資料

由於資料科學剛剛興起,資料科學家作為一種新生職業被提出,資料研究高階科學家rachel schutt將其定義為「計算機科學家、軟體工程師和統計學家的混合體「。資料探勘作為乙個學術領域,橫跨多個學科,涵蓋了統計學、數學、機器學習和資料庫等,此外還包括各類專業方向比如從油田電力、海洋生物、歷史文字、電子通訊、法律稅務等的各個專業領域。注意每一分類都需要相當的行業經驗。

而要明白某一事物的本質,就需要通過另一些近似的事物特性對比來說明。就好像你單獨提問什麼是男人?很難解釋對不對。

所以咱們來舉個栗子簡單看看:

一、分析報告

在《大鬧天宮》裡孫悟空跟二郎神在花果山下大戰三百回合,咱來寫一篇文章分析。

孫悟空有金剛不壞火眼金睛筋斗雲七十二般變化加上定海神針身法靈活。

二郎神楊戩有三隻眼縛妖索哮天犬銀袍金甲加上三尖兩刃四竅八環刀力量無窮。

所以在大戰開始三百回合時候不相上下,結果後來二郎神派出天兵天將放火燒花果山讓大聖慌了心神被偷襲得手。

最後二郎神贏了。

分析報告完成。

二、統計分析

大聖二戰楊戩。這次在二位大戰之前做個數理統計來**結果。

首先根據歷史樣本史書記載發現兩人在之前的五百年裡打過100次,其中孫悟空贏60次。

然後有記錄顯示,之前孫悟空和牛魔王戰鬥的勝率是80%,而楊戩鬥牛魔王勝率是70%。

所以可以得出綜合**總體勝率是孫悟空贏面大。

結論依靠歷史記錄,使用樣本**總體,根據經驗做出假設。

統計分析完成。

三、資料探勘

孫悟空和楊戩終極決戰。這次咱們根據兩位的詳細資料(如家庭出身、教育背景、工作經驗、婚育情況等)讓計算機做協同過濾關聯分析。計算機通過資料清洗建模後發現:

貧苦出身的孩子一般比皇親國戚更能吃苦所以功夫底子更好平時訓練更加紮實。

戰鬥經驗豐富的鬥戰勝佛因為平時經常打架擅長利用天時地利環境因素而勝算更大。

在都得到大師指點的情況下,貧苦出身的孩子可以利用後天的努力來彌補先天悟性的欠缺。

樣貌奇特注定孤獨終老的神仙總是會比同等條件下美若天仙喜歡拈花惹草處處留情的神仙功夫好。

綜上所述,我們可知道:

論出身兩位大神不分伯仲。乙個從石頭出來,乙個是凡人與神仙結合所生。

悟空的**菩提老祖(準提道人)和二郎神的**玉鼎真人的**元始天尊同為鴻鈞老祖的高足所以前者更勝一籌。

鬥戰勝佛戰鬥經驗相對整日快活逍遙無憂無慮的二郎神來說更加豐富。

另孫行者由於樣貌原因始終單身(好傷感)。

所以可以得出結論,這次大戰孫悟空贏面大。

資料探勘完成。

四、最後總結:

分析報告一般是整個事件發生結束以後的總結(描述性)。

統計分析能利用大量的歷史樣本來**整個事件總體未來的走向(**性概率)。

資料探勘則透過事件的表象發現隱藏在背後的蛛絲馬跡,從而找到潛伏的規律以及看似無關事物之間背後的聯絡,用此來洞察未來(規範性)。

3樓:野路子產品經理

給你分享乙個pdf看看什麼是資料探勘

4樓:風_南

科技的快速發展和資料的儲存技術的快速進步,使得各種行業或組織的資料得以海量積累。但是,從海量的資料當中,提取有用的資訊成為了乙個難題。在海量資料面前,傳統的資料分析工具和方法很無力。

由此,資料探勘技術就登上了歷史的舞台。

資料探勘是一種技術,將傳統的資料分析方法與處理大量資料的複雜演算法相結合(圖1),從大量的、不完全的、有雜訊的、模糊的、隨機的資料中,提取隱含在其中的、人們事先不知道的、但又是潛在有用資訊和知識的過程。

那資料探勘能夠幹什麼?有哪些資料探勘技術?怎麼應用?

資料探勘技術應用廣泛,如:1. 在交通領域,幫助鐵路票價制定、交通流量**等。

2. 在生物學當中,挖掘基因與疾病之間的關係、蛋白質結構**、代謝途徑**等。3.

在金融行業當中,**指數追蹤、稅務稽查等方面有重要運用。4. 在電子商務領域,對顧客行為分析、定向營銷、定向廣告投放、誰是最有價值的使用者、什麼產品搭配銷售等。

可以說,有資料的方法,就有資料探勘的用武之地。

那資料探勘過程是什麼呢?如圖2:

資料探勘的任務主要分為一下四類,如圖3:

1.建模**:用因變數作用目標變數建立模型。

分為兩類:(1)分類,用於**離散的目標變數;(2)回歸,用於**連續的目標變數。兩項任務目標都是訓練乙個模型,使目標變數**值與實際值之間的誤差達到最小。

**建模可以用來判斷病人是否患有某種疾病,可以用於確定顧客是否需要某種產品,**交通流量。

2.關聯分析:用來發現描述資料中強關聯特徵的模式。

所發現的模式通常用特徵子集的形式表示。由於搜尋空間是指數規模的,關聯分析的目標是以有效的方式提取最有用的模式。關聯分析的應用包括使用者購買商品之間的聯絡、找出相關功能的基因組、表單**輸出下拉列表如圖4。

3.聚類分析:發現緊密相關的觀測值群組,使得與屬於不同簇的觀察值相比,同一簇的觀察值相互之間盡可能的類似。

聚類可用來對相關的顧客分組、給不同功能的基因分組、不同的癌症細胞系分組。

4.異常檢測:識別其特徵顯著不同於其他資料的觀測值。

這樣的觀測值稱為異常點或離群點。異常檢測演算法的目標是發現真正的異常點,而避免錯誤地將正常的物件標註為異常點。換言之,乙個好的異常點檢測模型必須具有高檢測率和低誤報率。

異常檢測的應用包括檢測欺詐、網路攻擊、疾病的不尋常模式。

什麼是資料探勘,簡述其作用和應用。

5樓:砸貨鋪子

資料探勘(data mining)是通過分析每個資料,從大量資料中尋找其規律的技術,主要有資料準備、規律尋找和規律表示3個步驟。資料探勘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。

作用就是從海量資料中挖掘潛在的有用的資訊。

6樓:百度使用者

最初的資料探勘分類應用大多都是在這些方法及基於記憶體基礎上所構造的演算法。和它們的權係數:w1, w2, , wn,求和計算出的 xi*wi ,產生了

資料探勘是做什麼的

7樓:匿名使用者

說的最直白的就是從一堆資料中找出有價值的東西,以便用來賺更多的錢。。。

8樓:前景一片光明

主要就是為了完成資料分析的。

9樓:cda資料分析師

資料探勘的用處有很多,在這裡我只想從技術和應用兩個層面來簡單談談。

1、從技術層面來說,按照資料探勘產出的知識可以粗分為兩大類:描述型挖掘和**型挖掘。

描述型挖掘是對現有資料的進一步精煉和歸納,從中抽取中更巨集觀的反映數 據特徵的概念描述。舉個例子來說,某家銀行有幾百萬客戶,資料倉儲中儲存了每個客戶的人口統計資訊、賬戶資訊、交易資訊、客服聯絡資訊等詳細資料。但是銀 行不可能清楚地了解每位客戶是什麼樣的客戶,客戶的消費模式到底是怎樣的?

這時一般需要把全體客戶進行細分,劃分為幾個客戶群,而且這種劃分可以保證具有 相似行為、相似價值的客戶會被放入同乙個群組中。有了這些客戶群,銀行就能更容易地發現營銷機會並制定營銷戰略。這個例子中所用的挖掘技術是聚類模型,它 就是一種典型的描述型挖掘。

**型挖掘,顧名思義,就是建立的挖掘模型具備**能力。這種**能力可能包括**哪些客戶下個月會流失,哪些客戶對**活動會積極響應,哪些客戶的未來價值會成長以及成長多少等等。**型挖掘常常對企業運營具有更強的指導作用,從而更快地見效。

2、從應用層面來說,資料探勘可以應用到很多行業中,包括電信、銀行、**、保險、製造、網際網路等等。

拋開具體行業的特定應用不談,在各個行業中一般都會把資料探勘應用在客戶關係管理(crm)之中。在crm中的資料探勘應用,包括客戶細分、客戶價值分析、客戶獲取、客戶保持、交叉銷售和提公升銷售等等。此外,信用評分、欺詐偵測和文字挖掘等也是常見的應用。

請通俗的講一下什麼是資料探勘

10樓:cda資料分析師

通常我們把資訊轉化為價值,要經歷資訊、資料、知識、價值四個層面,資料探勘就是中間的重要環節,是從資料中發現知識的過程。

舉個例子來說明。(例子僅供解釋,不包含其他意思,σ( ° △ °|||)︴)

傍晚你乙個人從火車站出來,看到路邊有乙個漂亮妹子,這個妹子朝你拋了乙個媚眼,這個媚眼它也是資訊,雖然它很難定量化分析,也不是個記錄。但你成功接收到了這個資訊,你認為是這個女孩對你有感覺。

那你就被這個資訊所影響,於是你很激動,決定要上前去搭訕。(這個地方,媚眼這個資訊能夠被傳送、傳播和接收,並且影響你的行為,但還談不上資料。)

去搭訕的時候,你問:美女,在等人嗎?

然後美女對你說:老闆,**800……

於是這裡面就有定量化分析的內容了,雖然它只是乙個很小的資料片段,單獨看起來沒有辦法分析出任何深刻的結果。但如果你在乙個本子上把它記錄下來。比如你記錄的是:

2023年10月15日,漢東省金舟市火車站**800

如果你的本子上有幾千條這樣的記錄,這就是資料。通過簡單的查詢和比較,你就可以從這些資料中獲得知識。

如果你把這些資料輸入電腦,繪製一幅金舟市的**地圖,你發現同等水平的妹子在金舟市汽車客運中心**,只有火車站的70%左右,那繪製這個地圖,做這個**的統計分析,就是資料探勘做的事情談,它能夠指導你去做一些事情。

當然用這個知識能不能產生價值,產生多大的價值,就要看如何應用了。比如是否能夠根據這些**來指導酒店的選址,這個能不能作為附近消費水平分析依據,這就是價值和應用層面的問題。

你看,資料探勘其實就是我們從資料中發現知識的過程。

當然我們發現知識其實可以不走資料探勘的道路,比如我們常常講第一性原理:從公理體系和基本引數出發,通過演繹的方法得到知識。比如通過幾何的公理推出了歐幾里得的公理體系,推出大量的幾何定義;我們通過薛丁格方程以及一些基本的物理引數,可以得到很多對於原子分子的認識。

而資料探勘就不是這樣,資料探勘是直接從資料中獲得知識。比如,我們看乙個人跑步,我們可以通過不同體型的人多次跑一百公尺所需要的時間,得到一些經驗的公式。比如說身高每高一釐公尺,跑一百公尺的時間相應縮短0.

015秒(這是隨便說的,不要當真)。這樣的公式是沒有辦法從牛頓定律中推出來的,但是我們可以從資料探勘中得到。

就第一性原理和資料探勘而言,資料探勘的可信度是不如第一性原理的,因為有很多關聯都是假相關,但是它能夠處理很複雜的系統。而這往往是我們從量子力學、經典力學等已知的公理中不能夠得到的。因為它太複雜,必須要從實驗的測量中得到。

但這兩者是可以相互補餘的。首先,有了第一性原理的認知,他就能夠提前去幫助我們提前去感覺到哪些資料可能對我們的結論最有用。比如我們看跑步,通過認知我們知道腿的長度,對跑步的速度可能是有幫助的,而腋毛的長度對跑步的速度應該是沒有什麼幫助的。

所以我們拿得到乙個人的身體和跑步運動員跑步速度的關係,很多研究都在探索運動員的身高、腿長和跑步速度的關係,但是沒什麼人研究腋毛長度和跑步速度的關係。如果我們什麼知識都沒有的話,為什麼不去研究腋毛呢?那我們就應該把腋毛和身高、腿長看成同樣重要。

我們有了這些資料探勘的工具,其實是可以反向去推導一些基本的定律。

利用資料探勘,我們還可以做非常多的事情。

1.發現資料項之間的相關性

比如我們拿到各個城市環境、人口、交通等資料,就可以通過相關性分析來看人均汽車保有量,和空氣質素各個指標之間的關係,從而定量化地幫助制定產業經濟和環保政策。比如要不要進行更嚴厲的限購,要不要收取為其的排放稅等等。

2.把資料物件進行聚類

比如我們知道大量的人在電子商務網路消費資料,我麼就可以根據消費的特徵把他們聚成很多類,每一類人我們制定不同的營銷手段,從而能夠取得銷售量的提公升。比如電信運營商對人群進行聚類,然後針對性地推出****。

3.把資料物件進行分類

當我們已經有了分類之後,來了一些新的資料之後,我們可以把他分到不同不同的類去。比如醫療影像上檢視肺部的病灶,可能是肺結核、可能是早起肺癌,中晚期肺癌,可能是肺上的癤結,可能是癒合的病灶等等,來了一張新的**,我們可以通過影象處理,就把它分到不同的類別(當然這需要我們提前對很多**的資料進行學習)。

4.**缺失資料或者未來的資料

很多資料集中,比如生物資料,我們已知的知識全部資料集中的一小部分,這需要我們做一些事情去**這些資料。還有一些,想**、******、河流徑流量**、城市用電量**等,這些就是對未來資料的**。

資料探勘具體要做什麼,資料探勘是做什麼的

資料探勘的用處有很多,在這裡我只想從技術和應用兩個層面來簡單談談。1 從技術層面來說,按照資料探勘產出的知識可以粗分為兩大類 描述型挖掘和 型挖掘。描述型挖掘是對現有資料的進一步精煉和歸納,從中抽取中更巨集觀的反映數 據特徵的概念描述。舉個例子來說,某家銀行有幾百萬客戶,資料倉儲中儲存了每個客戶的人...

資料探勘建模和演算法區別,資料探勘與資料分析的區別是什麼?

資料來挖掘建模可以稱為源乙個手段,一整套方bai案,來實現目標,它是du個大方向 用決zhi策樹建模可以dao 認為是比較具體的策略,套路,但是也包含了很多細緻的演算法 c4.5或c5.0這是具體的決策樹演算法。如 目標 把樹弄倒 資料探勘建模 用砍的方式,弄倒 決策樹建模 用鐵器將樹砍倒 c5.0...

資料探勘中分類和聚類有什麼區別,資料探勘中分類和聚類的區別

分類是資料探勘中的一項非常重要的任務,利用分類技術可以從資料集中提取描述資料類的乙個函式或模型 也常稱為分類器 並把資料集中的每個物件歸結到某個已知的物件類中。從機器學習的觀點,分類技術是一種有指導的學習,即每個訓練樣本的資料物件已經有類標識,通過學習可以形成表達資料物件與類標識間對應的知識。從這個...