close

Han Hsiao 觀點:
簡單說:數據挖掘就是從海量數據中找到隱藏的規則,數據分析一般要分析的目標比較明確,數據統計則是單純的使用樣本來推斷總體。
主要區別:
「數據分析」的重點是觀察數據,「數據挖掘」的重點是從數據中發現「知識規則」KDD(Knowledge Discover in Database),數據統計的重點是參數估計和假設檢驗。
1. 「數據分析、數據統計」得出的結論是人的智力活動結果,「數據挖掘」得出的結論是機器從學習集(或訓練集、樣本集)發現的知識規則。
2. 「數據分析」需要人工建模,「數據挖掘」自動完成數學建模,「數據統計」則是把模糊估計變得準確而定量。可以通過機器學習自動建立輸入與輸出的函數關係,根據KDD得出的「規則」,給定一組輸入參數,就可以得出一組輸出量。
舉個簡單的例子:
有一些人總是不及時向電信運營商繳費,如何發現它們?
數據分析:通過對附近人口的生活習慣、業餘愛好、教育背景、收入分布、家庭組成等進行全方面分析,發現很多人都習慣在收到欠費通知以後再繳費。結論就是提前發放簡訊提醒。

數據挖掘:通過編寫機器學習聚類演算法發現無法通過觀察圖表得出的深層次原因。發現家住在五環以外的人,由於居住環境偏遠沒有時間上營業廳繳費。結論就需要多設立一些營業廳或者自助繳費點。

數據統計:通過統計學推理方法組成樣本的試驗單元進行參數估計和假設檢驗,我們發現不及時繳錢人群里的貧困人口佔82%。所以結論是收入低的人往往會繳費不及時。結論就需要降低資費。

孟京朝觀點:
數據分析是面對具體的應用需求從現有的數據中分析出統計數據,是對數據更深層次的整理。
數據挖掘從數理統計,資料庫,統計學中發展來的綜合交叉學科,運用各種方法從各種數據源中獲取知識的過程,數據源可以來自關係資料庫,文件,web數據,文本,流數據等,挖掘的方法也有很多種,應用最多的有關聯規則,聚類,分類,以及離群點檢測,高級的應用如航空航天,智慧城市等。
OLAP是聯機分析處理,與OLTP(聯機事務處理)相對應的,主要是基於不同物理分布的資料庫進行針對分析的處理技術,而不是面相具體事務的,面相具體事務的應用主要涉及終端用戶,比如鐵路的售票人員的售票行為。聯機分析處理是將不同物理分布的數據進行整合分析得到匯總,統計信息,基於數據倉庫。

張豐寸觀點:
首先是數據分析、數據挖掘、數理統計這三者。其實這都屬於數據分析。
數據分析就是從一堆信息中提取有用的信息(數據是描述信息的最精確的方式,所以一般叫數據分析)來支持你的決策。
數據分析是比較廣義的,數據挖掘、數理統計一般都從分析的複雜度或者模型的特點來區分出來的一部分數理統計基本就是利用統計學的知識構建模型,來提取有用關鍵的信息,來支持決策;數據挖掘,顧名思義,關鍵信息埋藏的很深,我們必須使用很高明的工具和方法、模型才能把有用的信息挖出來,包括很多統計學模型、機器學習等等。
有了專門的數據挖掘,剩下的一般稱成為數據分析(狹義的)。然後呢,說起OLAP,就要從數據分析的步驟來說了。
數據分析基本分為幾個步驟:數據採集->數據整理->數據分析(廣義的)->數據展現(支持決策)
OLAP主要說的從數據整理到分析的部分,如何有效的組織數據,讓數據分析(或者數據挖掘)能夠更快更好的進行。


FineReport報表免費下載——零編碼做報表、多維圖表、多源填報、許可權管理,完美兼容excel。官網:http://www.finereport.com/tw/

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 leohope 的頭像
    leohope

    帆軟大師兄

    leohope 發表在 痞客邦 留言(0) 人氣()