數據流

數據流
原圖鏈接來自搜狗的圖片

數據流（data stream）是一組有序，有起點和終點的字節的數據序列。包括輸入流和輸出流。數據流最初是通信領域使用的概念，代表傳輸中所使用的信息的數字編碼信號序列。這個概念最初在1998年由Henzinger在文獻87中提出，他將數據流定義為「只能以事先規定好的順序被讀取一次的數據的一個序列」。

簡介

需要以近實時的方式對更新流進行複雜分析。對以上領域的數據進行複雜分析（如趨勢分析，預測）以前往往是（在數據倉庫中）脫機進行的，然而一些新的應用（尤其是在網絡安全和國家安全領域）對時間都非常敏感，如檢測互聯網上的極端事件、欺詐、入侵、異常，複雜人群監控，趨勢監控(track trend)，探查性分析（exploratory analyses），和諧度分析(harmonic analysis)等，都需要進行聯機的分析。在此之後，學術界基本認可了這個定義，有的文章也在此基礎上對定義稍微進行了修改。例如，S. Guha等[88]認為，數據流是「只能被讀取一次或少數幾次的點的有序序列」，這裡放寬了前述定義中的「一遍」限制。為什麼在數據流的處理中，強調對數據讀取次數的限制呢？S. Muthukrishnan[89]指出數據流是指「以非常高的速度到來的輸入數據」，因此對數據流數據的傳輸、計算和存儲都將變得很困難。在這種情況下，只有在數據最初到達時有機會對其進行一次處理，其他時候很難再存取到這些數據（因為沒有也無法保存這些數據）。

評價

這是指數據屬性（維）的取值範圍非常大，可能取的值非常多，如地域、手機號碼、人、網絡節點等。這才是導致數據流無法在內存或硬盤中存儲的主要原因。如果維度小，即使到來的數據量很大，也可以在較小的存儲器中保存這些數據。例如，對於無線通信網來說，同樣的100萬條通話記錄，如果只有1000個用戶，那麼使用1000個存儲單位就可以保存足夠多和足夠精確的數據來回答「某一用戶的累計通話時間有多長」的問題；而如果共有100000個用戶，要保存這些信息，就需要100000個存儲單位。數據流數據的屬性大多與地理信息、IP地址、手機號碼等有關，而且往往與時間聯繫在一起。這時，數據的維度遠遠超過了內存和硬盤容量，這意味着系統無法完整保存這些信息，通常只能在數據到達的時候存取數據一次。^[1]

參考文獻

↑ 數據流搜狗

[1] 數據流搜狗

[1]

求真百科

數據流

目錄

簡介

評價

參考文獻