數(shù)據(jù)挖掘是從大量不完整,嘈雜,模棱兩可和隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取數(shù)據(jù),這些數(shù)據(jù)隱藏在其中,人們尋找有用信息的過(guò)程。該定義包含多種含義:數(shù)據(jù)源必須真實(shí),大而嘈雜; 發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)必須是可接受的,可理解的和適用的; 它不需要將發(fā)現(xiàn)分布在任何地方。所有準(zhǔn)確的知識(shí)僅支持特定的發(fā)現(xiàn)問(wèn)題。這里的知識(shí)通常是指規(guī)則,概念,法律和模式等。那么利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析的常用方法有哪些?
大數(shù)據(jù)處理的核心就是對(duì)大數(shù)據(jù)進(jìn)行分析,只有通過(guò)分析才能獲取很多智能的、深入的、有價(jià)值的信息。
越來(lái)越多的應(yīng)用涉及大數(shù)據(jù),這些大數(shù)據(jù)的屬性,包括數(shù)量、速度、多樣性等都引發(fā)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,所以,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說(shuō)是決定最終信息是否有價(jià)值的決定性因素。
利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析的常用方法有哪些?
利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析的常用方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則等,它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。
1.分類
分類是找岀數(shù)據(jù)庫(kù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類。
其目的是通過(guò)分類模型,將數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購(gòu)買趨勢(shì)預(yù)測(cè)等。
2.回歸分析
回歸分析方法反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征。
該方法可產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問(wèn)題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)及數(shù)據(jù)間的相關(guān)關(guān)系等。
它可以應(yīng)用到市場(chǎng)營(yíng)銷的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷活動(dòng)等。
3.聚類
聚類是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別。
其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用于客戶群體的分類、客戶背景分析、客戶購(gòu)買趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等。
4.關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則。
即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可推導(dǎo)岀另一些項(xiàng)在同一事務(wù)中也會(huì)出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。
5.特征
特征分析是從數(shù)據(jù)庫(kù)中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征。如營(yíng)銷人員通過(guò)對(duì)客戶流失因素的特征提取,可以得到導(dǎo)致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。
6.變化和偏差分析
偏差包括很大一類潛在有趣的知識(shí),如分類中的反常實(shí)例,模式的例外,觀察結(jié)果對(duì)期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機(jī)管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)、分析、識(shí)別、評(píng)價(jià)和預(yù)警等方面。
7.Web頁(yè)挖掘
隨著Internet的迅速發(fā)展及Web 的全球普及, 使得Web上的信息量無(wú)比豐富,通過(guò)對(duì)Web的挖掘,可以利用Web 的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場(chǎng)、競(jìng)爭(zhēng)對(duì)手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對(duì)企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營(yíng)信息,并根據(jù)分析結(jié)果找出企業(yè)管理過(guò)程中出現(xiàn)的各種問(wèn)題和可能引起危機(jī)的先兆,對(duì)這些信息進(jìn)行分析和處理,以便識(shí)別、分析、評(píng)價(jià)和管理危機(jī)。
上述就是關(guān)于利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析的常用方法有哪些的全部?jī)?nèi)容介紹,想了解更多關(guān)于大數(shù)據(jù)的信息,請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。