當前位置:行情資訊 > 材料科技 大數據時代下,數據感知在數據質量管理系統(tǒng)中的應用

36大數據作者:佚名
2017-08-11 09:28:09

分享到:

摘要:
數據是企業(yè)數據中心的重要資產,獲取并維護高質量的數據,對業(yè)務及運營至關重要。而數據量越大,有價值的信息獲取的難度就越大。如果獲取不到有用的信息,就不能很好的進行數據挖掘和數據分析。

關于數據質量管理,可能與大部分人沒有太大的關系。雖然,市面上有很多的公司在進行數據的挖掘、分析方面業(yè)務的工作,但是關于數據質量管理方面的公司真的是屈指可數。

由于本人所在的公司主要是為了解決發(fā)改委遇到的一些問題,而開展的1個項目。比如檢驗地市注冊資金是否存在異常這么1個簡單的例子。

而對于數據感知技術,大部分沒有了解過。為了說明,大數據時代下,數據感知在數據質量管理系統(tǒng)中的應用,這里我們需要先解決幾個問題:

一、什么是數據質量管理系統(tǒng)?

二、什么是數據感知技術?

三、數據感知技術的用途?

四、下面我們分別來進行介紹。

?

什么是數據質量管理系統(tǒng)

我們知道,數據是企業(yè)數據中心的重要資產,獲取并維護高質量的數據,對業(yè)務及運營至關重要。而數據量越大,有價值的信息獲取的難度就越大。如果獲取不到有用的信息,就不能很好的進行數據挖掘和數據分析。

但是在這個過程中,有許多因素會導致這些數據資產貶值,比如數據的冗余和重復會導致信息的不可識別、不可信及精確度不夠等情況的發(fā)生。

而數據質量管理系統(tǒng)就是對數據進行處理后能夠提供高質量的數據,最終的目的是挖掘數據價值,推動業(yè)務發(fā)展,實現盈利。

而數據質量管理系統(tǒng)主要由如下一些部分組成:

數據清洗與去重

數據可視化

數據評估

數據治理

數據挖掘

數據分析

而當前系統(tǒng)主要采用純Python來實現。對于發(fā)改委動不動就千萬級別的數據還是可以很好的進行駕馭的。

?

什么是數據感知技術?

對于感知的定義是客觀事件通過感覺器官在人腦中的直接反映。而所謂數據感知,就是通過對數據的一些特征信息來對數據進行描述。比如,我們看到遠處有1個人,長頭發(fā)穿著紅色衣服高跟鞋,那么我們就可以推測那個人是女的。當然,這個過程也可能會出現不準確的問題,比如那個人是個男的,就這樣打扮。

而數據感知技術可以實現給我們1組樣本數據,我們可以知道它是哪種類型。比如,給我們如下的100條記錄1組數據:

通過我們的感知技術我們可以識別它為手機號碼和電話號碼,其中手機占據的比例假設為60.82%,而電話號碼占據的比例為32.22%,而剩下還有6.96%的數據無法被識別出來,因此我們可以推斷當前數據為聯(lián)系方式為主。

需要注意的是,這100條記錄需要滿足隨機性,不然感知出來的結果可能會差強人意。

當然,這是比較簡單的1個例子。當然我們還可以識別中文姓名、地址信息、企業(yè)名稱、工商注冊范圍、工商注冊資金等類型,這里就涉及到概率論及統(tǒng)計學的一些內容了。

當然,還會涉及到一些線性代數的內容,比如貝葉斯網絡轉移矩陣的使用,會用到矩陣的相關知識。

?

數據感知技術的用途

一般情況下,數據質量管理系統(tǒng)都是基于規(guī)則庫進行開展工作的,而對每組數據進行規(guī)則的配置是1個繁瑣且耗時的工作,基本上沒有人愿意進行這種工作。

而此時,通過數據感知技術,我們可以自動的感知規(guī)則,并為每組數據推薦最適合的規(guī)則,從而簡化人員的工作量,提高效率。

另外通過數據感知技術,還可以找到數據庫其他類似的類型的數據,進行數據關聯(lián)性的關聯(lián),彌補一些認知上的缺陷。

?

總結

實際上,數據感知只是數據質量管理中的1個很小的環(huán)節(jié),通過這種自動化的技術,可以節(jié)省人工的成本及提高效率。