開啟主選單

求真百科

  數據流

數據流(data stream)是一組有序,有起點和終點的字節的數據序列。包括輸入流和輸出流。數據流最初是通信領域使用的概念,代表傳輸中所使用的信息的數字編碼信號序列。這個概念最初在1998年由Henzinger在文獻87中提出,他將數據流定義為「只能以事先規定好的順序被讀取一次的數據的一個序列」。

目錄

簡介

需要以近實時的方式對更新流進行複雜分析。對以上領域的數據進行複雜分析(如趨勢分析,預測)以前往往是(在數據倉庫中)脫機進行的,然而一些新的應用(尤其是在網絡安全和國家安全領域)對時間都非常敏感,如檢測互聯網上的極端事件、欺詐、入侵、異常,複雜人群監控,趨勢監控(track trend),探查性分析(exploratory analyses),和諧度分析(harmonic analysis)等,都需要進行聯機的分析。在此之後,學術界基本認可了這個定義,有的文章也在此基礎上對定義稍微進行了修改。例如,S. Guha等[88]認為,數據流是「只能被讀取一次或少數幾次的點的有序序列」,這裡放寬了前述定義中的「一遍」限制。為什麼在數據流的處理中,強調對數據讀取次數的限制呢?S. Muthukrishnan[89]指出數據流是指「以非常高的速度到來的輸入數據」,因此對數據流數據的傳輸、計算和存儲都將變得很困難。在這種情況下,只有在數據最初到達時有機會對其進行一次處理,其他時候很難再存取到這些數據(因為沒有也無法保存這些數據)。

評價

這是指數據屬性(維)的取值範圍非常大,可能取的值非常多,如地域、手機號碼、人、網絡節點等。這才是導致數據流無法在內存或硬盤中存儲的主要原因。如果維度小,即使到來的數據量很大,也可以在較小的存儲器中保存這些數據。例如,對於無線通信網來說,同樣的100萬條通話記錄,如果只有1000個用戶,那麼使用1000個存儲單位就可以保存足夠多和足夠精確的數據來回答「某一用戶的累計通話時間有多長」的問題;而如果共有100000個用戶,要保存這些信息,就需要100000個存儲單位。數據流數據的屬性大多與地理信息、IP地址、手機號碼等有關,而且往往與時間聯繫在一起。這時,數據的維度遠遠超過了內存和硬盤容量,這意味着系統無法完整保存這些信息,通常只能在數據到達的時候存取數據一次。[1]

參考文獻

  1. 數據流搜狗