您好,歡迎來(lái)到易龍商務(wù)網(wǎng)!
發(fā)布時(shí)間:2019-03-21 10:50  
【廣告】
數(shù)據(jù)挖掘(或知識(shí)發(fā)現(xiàn))就是從大量的數(shù)據(jù)中抽 取以前未知并具有潛在可用的模式。然而數(shù)據(jù)挖掘領(lǐng)域還缺之獨(dú)立性,數(shù)據(jù)挖掘是人工智能(AI)技術(shù)與數(shù)據(jù)庫(kù)技術(shù)的結(jié)合。它的核心概念是AI領(lǐng)域中的機(jī)器學(xué)習(xí)。數(shù)據(jù)挖掘系統(tǒng)所采用的主要算法是 AI中知識(shí)發(fā)現(xiàn)技術(shù)的應(yīng)用。 目前數(shù)據(jù)挖掘研究和開(kāi)發(fā)表明數(shù)據(jù)挖掘需 要覆蓋各種各樣不同的應(yīng)用任務(wù),從數(shù)據(jù)的預(yù)處理到關(guān)聯(lián)規(guī)則、聚類(lèi)分析、數(shù)據(jù)分類(lèi)、偏差檢查、序列模式等等特定的模式。因此,這一技術(shù)應(yīng)用是一個(gè)極富挑戰(zhàn)性的任務(wù)。
近年來(lái)出現(xiàn)的數(shù)據(jù)挖掘技術(shù)之所以被目前認(rèn)為具有令人興奮的研究前景,是因?yàn)樗軌颢@得廣泛的應(yīng)用。如用于支持企業(yè)關(guān)鍵性決策,市場(chǎng)策略的制定等等。面對(duì)洶涌而來(lái)的大量數(shù)據(jù),企業(yè)對(duì)數(shù)據(jù)挖掘應(yīng)用形成極大的需求,將使這一技術(shù)迅速得到發(fā)展和完善。在大型商業(yè)、金融業(yè)、保險(xiǎn)業(yè)、民航等 大型企業(yè)都開(kāi)始得到應(yīng)用。
數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是面向應(yīng)用領(lǐng)域,它不僅是面向特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢(xún)調(diào)用,而且,要對(duì)數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指定實(shí)際問(wèn)題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來(lái)的活動(dòng)進(jìn)行預(yù)測(cè).數(shù)據(jù)挖掘技術(shù)具有以下特點(diǎn):
1.?處理的數(shù)據(jù)規(guī)模十分龐大,達(dá)到GB、TB數(shù)量級(jí),甚至更大。
2.?查詢(xún)一般是決策制定者(用戶(hù))提出的即時(shí)隨機(jī)查詢(xún),往往不能形成精確的查詢(xún)要求,需要靠系統(tǒng)本身尋找其可能感興趣的東西。
3.?在一些應(yīng)用(如商業(yè)投資等)中,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時(shí)提供決策支持。
4.?數(shù)據(jù)挖掘中,規(guī)則的發(fā)現(xiàn)基于統(tǒng)計(jì)規(guī)律.因此,所發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),而是當(dāng)達(dá)到某一臨界值時(shí),即認(rèn)為有效.因此,利用數(shù)據(jù)挖掘技術(shù)可能會(huì)發(fā)現(xiàn)大量的規(guī)則。
5.?數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動(dòng)態(tài)的,它只反映了當(dāng)前狀態(tài)的數(shù)據(jù)庫(kù)具有的規(guī)則,隨著不斷地向數(shù)據(jù)庫(kù)中加入新數(shù)據(jù),需要隨時(shí)對(duì)其進(jìn)行更新。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語(yǔ)義智能分析技術(shù)是滿(mǎn)足大數(shù)據(jù)挖掘?qū)φZ(yǔ)法、詞法和語(yǔ)義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。
NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語(yǔ)言統(tǒng)計(jì)、文本聚類(lèi)、文本分類(lèi)、摘要實(shí)體、智能過(guò)濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺(tái)提供了客戶(hù)端工具,云服務(wù)與二次開(kāi)發(fā)接口等多種產(chǎn)品使用形式。各個(gè)中間件API可以無(wú)縫地融合到客戶(hù)的各類(lèi)復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺(tái),可以供Java,Python,C,C#等各類(lèi)開(kāi)發(fā)語(yǔ)言使用。
數(shù)據(jù)挖掘技術(shù)本身就是當(dāng)前數(shù)據(jù)技術(shù)發(fā)展的新領(lǐng)域,文本挖掘則發(fā)展歷史更短。傳統(tǒng)的信息檢索技術(shù)對(duì)于海量數(shù)據(jù)的處理并不盡如人意,文本挖掘便日益重要起來(lái),可見(jiàn)文本挖掘技術(shù)是從信息抽取以及相關(guān)技術(shù)領(lǐng)域中慢慢演化而成的。在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶(hù)知識(shí)、文獻(xiàn)知識(shí)等各類(lèi)知識(shí),將是實(shí)現(xiàn)知識(shí)檢索和知識(shí)管理發(fā)展的必經(jīng)之路。