傳統數據采集方式?
通常情況下,我們所采集到的數據可以被分為三種類型?,即非結構化數據,結構化數據,以及半結構化數據。
首先,無法定義結構的數據稱為非結構化數據。處理和管理非結構化數據是相對來說困難的。常見的非結構化數據為文本信息,圖像信息,視頻信息以及聲音信息等等,他們的結構都千變萬化,不能用一個二維表來描述。
另一方面,結構化數據往往被稱為行數據,是由二維表結構來邏輯表達和實現的數據,其嚴格地遵循數據格式與長度規范,主要通過關系型數據庫進行存儲和管理。
比如說大學生的選課系統中,學生,課程,選課,導師等等數據都可以抽象為結構化數據。
除了結構化和非結構化數據之外,我們往往還需要對于半結構化數據進行采集。
半結構化數據和前面介紹的兩種類型的數據都不一樣,它是結構化的數據,但是結構變化很大。
那么什么叫結構變化很大呢?結構變化很大即是在半結構化數據中,同一類的不同實體數據的結構可能會有一定程度的不同,即不同實體所具有的屬性會有一定程度的不同,而同時,對于這些實體來說,不同的屬性之間的順序是并不重要的。
一個經典的半結構化數據的例子即為簡歷信息,每一份簡歷都遵循著簡歷這個大類所存在物理意義,即Highlight我們迄今為止在所在領域的成就。所以我們的簡歷中很有可能會有教育背景、工作經驗以及姓名+聯系方式等等。
然而在這個大前提下,每一份簡歷所具有的屬性都不盡相同:有的人會在簡歷中加入志愿者經歷,有的人會加入自己的所掌握的技能,有的人會加入自己的獲獎經歷等等。這就是我們剛剛所說的數據的結構變化很大的一個體現 。
話說回來,半結構化數據往往以XML或者JSON等方式出現,具體的細節大家可以進一步去了解XML和JSON的特性,在此就不再贅述啦。
那我們剛剛講的非結構數據,結構化數據,以及半結構化數據可以看作是對數據的High-level的分類。然而,根據數據所產生的領域的不同,或者是數據的應用方式不一樣,我們可以進一步將數據分為更為細粒度的類型。
接下來,我們會向大家介紹六種不同的數據類型,注意,這里把它們放在一起講并不是因為它們是平行的,而是它們確實都是從某個維度上對數據的獨特的描述。當然了,還有很多其他的數據分類,在這里我們只將一些相對常見的類型。
首先是人口統計學數據,例如性別、年齡等等,這類數據一般可以用來對用戶進行建模時使用。例如,在用戶興趣建模中,不同年齡層的用戶可能會喜歡不同的內容。
而后是用戶搜索數據,也就是用戶在搜索引擎中產生的數據。這些可以幫助我們更好地定位用戶的喜好和方向,從而產出更加精準的用戶畫像,以更好地服務用戶。
接下來的天氣數據是一類非常易于采集的數據,其用途也非常廣泛。例如,餐飲業在不同的天氣可能會有不同的營業額,對營業額的建模時,可以加入天氣數據來提升模型的效果。
而位置數據,則是利用GPS所產生的,用戶的地理位置數據。位置數據和人口統計學數據類似,都可以用來對用戶進行建模,例如,我們可以結合人口統計數據以及位置數據來構建更加精準地用戶畫像。
關聯數據是一種比較有意思的數據,如萬維網創始人Berners-Lee所說,關聯數據是可以將不同的數據源相關聯起來的數據。
那我們最后一種要介紹的數據類型,有一個很有意思的名字,叫做數據廢氣。
數據廢棄一般指伴隨用戶的某些活動而產生的一系列數據,例如用戶訪問過的網頁站點數據、點擊過的按鈕/內容等等,這類數據由于是活動的副產品,在早期是被當作無用的數據而丟棄的,數據廢氣的名字也就隨之而來啦。
這些數據往往可以用來對用戶的興趣進行建模,例如Netflix、Youtube在線實時推薦服務背后,重要的一環就是利用用戶在他們的App端或者網頁端觀影所產生的數據廢氣來對用戶的興趣進行建模。
以上,我們已經回顧了數據采集的過程中及數據的使用場景,希望看完本文后,大家能對戶數據采集中的細節和概念,有一個更加清晰的認識!
本網站文章僅供交流學習 ,不作為商用, 版權歸屬原作者,部分文章推送時未能及時與原作者取得聯系,若來源標注錯誤或侵犯到您的權益煩請告知,我們將立即刪除.