数据流查看源代码讨论查看历史

数据流
原图链接来自搜狗的图片

数据流（data stream）是一组有序，有起点和终点的字节的数据序列。包括输入流和输出流。数据流最初是通信领域使用的概念，代表传输中所使用的信息的数字编码信号序列。这个概念最初在1998年由Henzinger在文献87中提出，他将数据流定义为“只能以事先规定好的顺序被读取一次的数据的一个序列”。

简介

需要以近实时的方式对更新流进行复杂分析。对以上领域的数据进行复杂分析（如趋势分析，预测）以前往往是（在数据仓库中）脱机进行的，然而一些新的应用（尤其是在网络安全和国家安全领域）对时间都非常敏感，如检测互联网上的极端事件、欺诈、入侵、异常，复杂人群监控，趋势监控(track trend)，探查性分析（exploratory analyses），和谐度分析(harmonic analysis)等，都需要进行联机的分析。在此之后，学术界基本认可了这个定义，有的文章也在此基础上对定义稍微进行了修改。例如，S. Guha等[88]认为，数据流是“只能被读取一次或少数几次的点的有序序列”，这里放宽了前述定义中的“一遍”限制。为什么在数据流的处理中，强调对数据读取次数的限制呢？S. Muthukrishnan[89]指出数据流是指“以非常高的速度到来的输入数据”，因此对数据流数据的传输、计算和存储都将变得很困难。在这种情况下，只有在数据最初到达时有机会对其进行一次处理，其他时候很难再存取到这些数据（因为没有也无法保存这些数据）。

评价

这是指数据属性（维）的取值范围非常大，可能取的值非常多，如地域、手机号码、人、网络节点等。这才是导致数据流无法在内存或硬盘中存储的主要原因。如果维度小，即使到来的数据量很大，也可以在较小的存储器中保存这些数据。例如，对于无线通信网来说，同样的100万条通话记录，如果只有1000个用户，那么使用1000个存储单位就可以保存足够多和足够精确的数据来回答“某一用户的累计通话时间有多长”的问题；而如果共有100000个用户，要保存这些信息，就需要100000个存储单位。数据流数据的属性大多与地理信息、IP地址、手机号码等有关，而且往往与时间联系在一起。这时，数据的维度远远超过了内存和硬盘容量，这意味着系统无法完整保存这些信息，通常只能在数据到达的时候存取数据一次。^[1]

参考文献

↑ 数据流搜狗

[1] 数据流搜狗

[1]

数据流查看源代码讨论查看历史

目录

简介

评价

参考文献