海量数据处理面试题六大套路

面试

Word count: 1.3kReading time: 4 min

 2018/12/02 

看了那么多海量数据处理的文章，只有这篇对其套路进行了总结。

原文地址：https://www.cnblogs.com/ranjiewen/articles/6883723.html

内容不错，就是排版差一点。于是转载过来，略有修改。

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。

何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法> 一次性装入内存。

那解决办法呢？

针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数> 据库或倒排索引/trie树。

针对空间，无非就一个办法：大而化小，分而治之（hash映射），你不是说规模太大嘛，那简单啊，就> 把规模大化为规模小的，各个击破不就完了嘛。

至于所谓的单机及集群问题，通俗点来讲，单机就是处理装载数据的机器有限(只要考虑cpu，内存，硬> 盘的数据交互)，而集群，机器有多辆，适合分布式处理，并行计算(更多考虑节点和节点间的数据交> 互)。

分而治之 / hash映射 + hash统计 + 堆/快速/归并排序

分而治之/hash映射：针对数据太大，内存受限，只能把大文件化成(取模映射)小文件。
hash_map统计：当大文件转化了小文件，那么我们便可以采用常规的hash_map(key，value)来进行频率统计。
堆/快速排序：统计完了之后，便进行排序(可采取堆排序)，得到次数最多的key。

多层划分

多层划分，其实本质上还是分而治之的思想，重在“分”的技巧上！

适用范围：第k大，中位数，不重复或重复的数字。
基本原理及要点：因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。

Bitmap / Bloom filter

Bitmap

Bitmap就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来表示某个元素是否存在，因此在存储空间方面，可以大大节省。

Bitmap排序方法

第一步，将所有的位都置为0，从而将集合初始化为空。

第二步，通过读入文件中的每个整数来建立集合，将每个对应的位都置为1。

第三步，检验每一位，如果该位为1，就输出对应的整数。
Bloom filter

适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集。

基本原理：当一个元素被加入集合时，通过K个Hash函数将这个元素映射成一个位阵列（Bit
array）中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检索元素一定不在；如果都是1，则被检索元素很可能在。

Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。

Bloom filter可以看做是对Bitmap的扩展。

Trie树/数据库/倒排索引

Trie树

适用范围：数据量大，重复多，但是数据种类小可以放入内存。基本原理及要点：实现方式，节点孩子的表示方式。扩展：压缩实现。
数据库索引

适用范围：大数据量的增删改查。基本原理及要点：利用数据的设计实现方法，对海量数据的增删改查进行处理。
倒排索引(Inverted index)

适用范围：搜索引擎，关键字查询。基本原理及要点：一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。