如何使用hbase bloom filterfilter构建大型Java缓存系统

主题信息(必填)
主题描述(最多限制在50个字符)
申请人信息(必填)
申请信息已提交审核,请注意查收邮件,我们会尽快给您反馈。
如有疑问,请联系
CSDN &《程序员》编辑/记者,投稿&纠错等事宜请致邮
你只管努力,剩下的交给时光!
如今的编程是一场程序员和上帝的竞赛,程序员要开发出更大更好、傻瓜都会用到软件。而上帝在努力创造出更大更傻的傻瓜。目前为止,上帝是赢的。个人网站:。个人QQ群:、
个人大数据技术博客:博客分类:
BloomFilter–大规模数据处理利器
  Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。
  为了说明Bloom Filter存在的重要意义,举一个实例:
  假设要你写一个网络爬虫程序(web crawler)。由于网络间的链接错综复杂,爬虫在网络间爬行很可能会形成“环”。为了避免形成“环”,就需要知道爬虫程序已经访问过那些URL。给一个URL,怎样知道爬虫程序是否已经访问过呢?稍微想想,就会有如下几种方案:
  1. 将访问过的URL保存到数据库。
  2. 用HashSet将访问过的URL保存起来。那只需接近O(1)的代价就可以查到一个URL是否被访问过了。
  3. URL经过MD5或SHA-1等单向哈希后再保存到HashSet或数据库。
  4. Bit-Map方法。建立一个BitSet,将每个URL经过一个哈希函数映射到某一位。
  方法1~3都是将访问过的URL完整保存,方法4则只标记URL的一个映射位。
  以上方法在数据量较小的情况下都能完美解决问题,但是当数据量变得非常庞大时问题就来了。
  方法1的缺点:数据量变得非常庞大后关系型数据库查询的效率会变得很低。而且每来一个URL就启动一次数据库查询是不是太小题大做了?
  方法2的缺点:太消耗内存。随着URL的增多,占用的内存会越来越多。就算只有1亿个URL,每个URL只算50个字符,就需要5GB内存。
  方法3:由于字符串经过MD5处理后的信息摘要长度只有128Bit,SHA-1处理后也只有160Bit,因此方法3比方法2节省了好几倍的内存。
  方法4消耗内存是相对较少的,但缺点是单一哈希函数发生冲突的概率太高。还记得数据结构课上学过的Hash表冲突的各种解决方法么?若要降低冲突发生的概率到1%,就要将BitSet的长度设置为URL个数的100倍。
废话说到这里,下面引入本篇的主角–Bloom Filter。其实上面方法4的思想已经很接近Bloom Filter了。方法四的致命缺点是冲突概率高,为了降低冲突的概念,Bloom Filter使用了多个哈希函数,而不是一个。
Bloom Filter算法如下:
创建一个m位BitSet,先将所有位初始化为0,然后选择k个不同的哈希函数。第i个哈希函数对字符串str哈希的结果记为h(i,str),且h(i,str)的范围是0到m-1 。
(1) 加入字符串过程
  下面是每个字符串处理的过程,首先是将字符串str“记录”到BitSet中的过程:
  对于字符串str,分别计算h(1,str),h(2,str)…… h(k,str)。然后将BitSet的第h(1,str)、h(2,str)…… h(k,str)位设为1。
  很简单吧?这样就将字符串str映射到BitSet中的k个二进制位了。
(2) 检查字符串是否存在的过程
  下面是检查字符串str是否被BitSet记录过的过程:
  对于字符串str,分别计算h(1,str),h(2,str)…… h(k,str)。然后检查BitSet的第h(1,str)、h(2,str)…… h(k,str)位是否为1,若其中任何一位不为1则可以判定str一定没有被记录过。若全部位都是1,则“认为”字符串str存在。
  若一个字符串对应的Bit不全为1,则可以肯定该字符串一定没有被Bloom Filter记录过。(这是显然的,因为字符串被记录过,其对应的二进制位肯定全部被设为1了)
  但是若一个字符串对应的Bit全为1,实际上是不能100%的肯定该字符串被Bloom Filter记录过的。(因为有可能该字符串的所有位都刚好是被其他字符串所对应)这种将该字符串划分错的情况,称为false positive。
(3) 删除字符串过程
字符串加入了就被不能删除了,因为删除会影响到其他字符串。实在需要删除字符串的可以使用Counting bloomfilter(CBF),这是一种基本Bloom Filter的变体,CBF将基本Bloom Filter每一个Bit改为一个计数器,这样就可以实现删除字符串的功能了。
  Bloom Filter跟单哈希函数Bit-Map不同之处在于:Bloom Filter使用了k个哈希函数,每个字符串跟k个bit对应。从而降低了冲突的概率。
三参数选择
(1)哈希函数选择
  哈希函数的选择对性能的影响应该是很大的,一个好的哈希函数要能近似等概率的将字符串映射到各个Bit。选择k个不同的哈希函数比较麻烦,一种简单的方法是选择一个哈希函数,然后送入k个不同的参数。
(2) m,n,k值,我们如何取值
我们定义:
可能把不属于这个集合的元素误认为属于这个集合(False Positive)
不会把属于这个集合的元素误认为不属于这个集合(False Negative)。
哈希函数的个数k、位数组大小m、加入的字符串数量n的关系。哈希函数个数k取10,位数组大小m设为字符串个数n的20倍时,false positive发生的概率是0.0000889 ,即10万次的判断中,会存在9次误判,对于一天1亿次的查询,误判的次数为9000次。
算法分析:
我们假设kn&m且各个哈希函数是完全随机的。当集合S={x1, x2,…,xn}的所有元素都被k个哈希函数映射到m位的位数组中时,这个位数组中某一位还是0的概率是:
False Positive的概率是:
p’表示1的概率,k次方表示8次hash都为1的概率。
当 k = ln 2 * m/n 时,右边的等式值最小,此时等式转变成:
四实现代码(简易版)
 下面给出一个简单的Bloom Filter的Java实现代码:
package org.magnus.
import java.util.BitS
//传统的Bloom filter 不支持从集合中删除成员。
//Counting Bloom filter由于采用了计数,因此支持remove操作。
//基于BitSet来实现,性能上可能存在问题
public class SimpleBloomFilter {
//DEFAULT_SIZE为2的25次方
private static final int DEFAULT_SIZE = 2 && 24;
/* 不同哈希函数的种子,一般应取质数,seeds数据共有7个值,则代表采用7种不同的HASH算法 */
private static final int[] seeds = new int[] { 5, 7, 11, 13, 31, 37, 61 };
//BitSet实际是由“二进制位”构成的一个Vector。假如希望高效率地保存大量“开-关”信息,就应使用BitSet.
//BitSet的最小长度是一个长整数(Long)的长度:64位
private BitSet bits = new BitSet(DEFAULT_SIZE);
/* 哈希函数对象 */
private SimpleHash[] func = new SimpleHash[seeds.length];
public static void main(String[] args) {
String value = "";
//定义一个filter,定义的时候会调用构造函数,即初始化七个hash函数对象所需要的信息。
SimpleBloomFilter filter = new SimpleBloomFilter();
//判断是否包含在里面。因为没有调用add方法,所以肯定是返回false
System.out.println(filter.contains(value));
filter.add(value);
System.out.println(filter.contains(value));
//构造函数
public SimpleBloomFilter() {
for (int i = 0; i & seeds. i++) {
//给出所有的hash值,共计seeds.length个hash值。共7位。
//通过调用SimpleHash.hash(),可以得到根据7种hash函数计算得出的hash值。
//传入DEFAULT_SIZE(最终字符串的长度),seeds[i](一个指定的质数)即可得到需要的那个hash值的位置。
func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
// 将字符串标记到bits中,即设置字符串的7个hash值函数为1
public void add(String value) {
for (SimpleHash f : func) {
bits.set(f.hash(value), true);
//判断字符串是否已经被bits标记
public boolean contains(String value) {
//确保传入的不是空值
if (value == null) {
boolean ret =
//计算7种hash算法下各自对应的hash值,并判断
for (SimpleHash f : func) {
//&&是boolen运算符,只要有一个为0,则为0。即需要所有的位都为1,才代表包含在里面。
//f.hash(value)返回hash对应的位数值
//bits.get函数返回bitset中对应position的值。即返回hash值是否为0或1。
ret = ret && bits.get(f.hash(value));
/* 哈希函数类 */
public static class SimpleHash {
//cap为DEFAULT_SIZE的值,即用于结果的最大的字符串长度。
//seed为计算hash值的一个给定key,具体对应上面定义的seeds数组
public SimpleHash(int cap, int seed) {
this.cap =
this.seed =
//计算hash值的具体算法,hash函数,采用简单的加权和hash
public int hash(String value) {
//int的范围最大是2的31次方减1,或超过值则用负数来表示
int result = 0;
int len = value.length();
for (int i = 0; i & i++) {
//数字和字符串相加,字符串转换成为ASCII码
result = seed * result + value.charAt(i);
//System.out.println(result+"--"+seed+"*"+result+"+"+value.charAt(i));
System.out.println("result="+result+";"+((cap - 1) & result));
System.out.println(+'h');
执行此运算结果为负数,为什么?
//&是java中的位逻辑运算,用于过滤负数(负数与进算转换成反码进行)。
return (cap - 1) &
五:的优点及应用。
优缺点分析
节约缓存空间(空值的映射),不再需要空值映射。
减少数据库或缓存的请求次数。
提升业务的处理效率以及业务隔离性。
存在误判的概率。
传统的Bloom Filter不能作删除操作。
适用于特定场景,能够有效的解决数据库空查问题。
以公司的某小表查询为例,该表每天查询量20亿次左右,且数据库中存在大量的下面的空查:
目前表中的记录为8w,即n的值为8w, m=20*n=160w,占用空间大小195KB。以type||CONTENT复合键作为key值,假设HASH次数k取值为6,误判率为:0.次中存在3次误判)。HASH次数的最优解为14,当k=14时,误判率为:0.014%(10000次中存在1-2次误判)。
测试过程及结果如下(源代码见附件):
测试场景1:m=1600000;n=80000;最优解k=14;m/n=20;k的次数为:6;对1000w数据进行判定:
测试结果:
2000w数据误判的记录为:3035,误判率约为0.03035%(和理论值0.0303%相差不大)。判断2000万数据的时间为25秒。平均一次判断时间为:2.5微秒。平均一次hash时间为0.417微秒。
测试场景2:m=1600000;n=80000;最优解k=14;m/n=20;k的次数为:6;对2000w数据进行判定:
测试结果:2000w数据误判的记录为:5839,误判率约为0.029%(理论值为0. 0303%)。判断1000万数据的时间为51秒。平均一次判断时间为:2.55微秒。平均一次hash时间为0.425微秒。
测试场景3:m=1600000;n=80000;最优解k=14;m/n=20;k的次数为:14;对1000w数据进行判定 :
测试结果:1000w数据误判的记录为:605,误判率约为0.00605%(和理论值0. 014%相差不大)。判断1000万数据的时间为37秒。平均一次判断时间为:3.7微秒。平均一次hash时间为0.265微秒。
测试场景4:m=1600000;n=80000;最优解k=14;m/n=20;k的次数为:14;对2000w数据进行判定: 测试结果:2000w数据误判的记录为:1224,误判率约为0.00612%(理论值为0.014%)。判断1000万数据的时间为84秒。平均一次判断时间为:4.2微秒。平均一次hash时间为0.3微秒。
其它测试略。
K(括号内为最优解)
用时(单位:秒)
一次判定时间(单位:微秒)
一次Hash时间(单位:微秒.估参考)
一次判断时间计算方式为:总时间/总次数
一次HASH所需时间计算方式为:一次判定时间/每次判断需要的hash数。
一次HASH所需时间,当执行hash次数越少,基数越小,误差越大。当一次判断所需的hash次数越大时,一次hash时间越精确。
m/n的比值越大越好,比较越大,误判率会越代,但同时会使用更多的空间成本。
Hash次数增加带来的收益并不大。需要在条件允许的情况下,尽量的扩大m/n的值。
六:实施方案思考
适用于一些黑名单,垃圾邮件等的过滤。
当位数组较小时,可以作本地jvm缓存。
当位数组较大时,可以做基于tair的缓存,此时可能需要开辟单独的应用来提供查询支持。
此方案,适用的应用场景需要能够容忍,位数组和的延时。
浏览: 394571 次
来自: 北京
我想知道哪里整的,如果是自己写的,那有点牛呀如果是抄的请说明出 ...
博主写的很好,赞一个,多谢分享 *(^-^*)分享一个免费好用 ...
经过测试,parameterType=&java.u ...
(window.slotbydup=window.slotbydup || []).push({
id: '4773203',
container: s,
size: '200,200',
display: 'inlay-fix'在如今的软件当中,缓存是解决很多问题的一个关键概念。你的应用可能会进行CPU密集型运算。你当然不想让这些运算一边又一边的重复执行,相反,你可以只执行一次, 把这个结果放在内存中作为缓存。有时系统的瓶颈在I/O操作上,比如你不想重复的查询数据库,你想把结果缓存起来,只在数据发生变化时才去数据查询来更新缓存。
与上面的情况类似,有些场合下我们需要进行快速的查找来决定如何处理新来的请求。例如,考虑下面这种情况,你需要确认一个URL是否指向一个恶意网站,这种需求可能会有很多。如果我们把所有恶意网站的URL缓存起来,那么会占用很大的空间。或者另一种情况,需要确认用户输入的字符串是包含了美国的地名。像“华盛顿的博物馆”——在这个字符串中,华盛顿是美国的一个地名。我们应该把美国所有的地名保存在内存中然后再查询吗?那样的话缓存会有多大?是否能在不使用数据库的前提下来高效地完成?
这就是为什么我们要跨越基本的数据结构map,在更高级的数据结构像布隆过滤器(bloomfilter)中来寻找答案。你可以把布隆过滤器看做Java中的集合(collection),你可以往它里面添加元素,查询某个元素是否存在(就像一个HashSet)。如果布隆过滤器说没有这个元素,这个结果可能是错误的。如果我们在设计布隆过滤器时足够细心,我们可以把这种出错的概率控制在可接受范围内。
布隆过滤器被设计为一个具有N的元素的位数组A(bit array),初始时所有的位都置为0.
要添加一个元素,我们需要提供k个哈希函数。每个函数都能返回一个值,这个值必须能够作为位数组的索引(可以通过对数组长度进行取模得到)。然后,我们把位数组在这个索引处的值设为1。例如,第一个哈希函数作用于元素I上,返回x。类似的,第二个第三个哈希函数返回y与z,那么:
A[x]=A[y]=A[z] = 1
查找的过程与上面的过程类似,元素将会被会被不同的哈希函数处理三次,每个哈希函数都返回一个作为位数组索引值的整数,然后我们检测位数组在x、y与z处的值是否为1。如果有一处不为1,那么就说明这个元素没有被添加到这个布隆过滤器中。如果都为1,就说明这个元素在布隆过滤器里面。当然,会有一定误判的概率。
通过上面的解释我们可以知道,如果想设计出一个好的布隆过滤器,我们必须遵循以下准则:
好的哈希函数能够尽可能的返回宽范围的哈希值。
位数组的大小(用m表示)非常重要:如果太小,那么所有的位很快就都会被赋值为1,这样就增加了误判的几率。
哈希函数的个数(用k表示)对索引值的均匀分配也很重要。
计算m的公式如下:
m = - nlog p / (log2)^2;
这里p为可接受的误判率。
计算k的公式如下:
k = m/n log(2) ;
这里k=哈希函数个数,m=位数组个数,n=待检测元素的个数(后面会用到这几个字母)。
哈希算法是影响布隆过滤器性能的地方。我们需要选择一个效率高但不耗时的哈希函数,在论文《更少的哈希函数,相同的性能指标:构造一个更好的布隆过滤器》中,讨论了如何选用2个哈希函数来模拟k个哈希函数。首先,我们需要计算两个哈希函数h1(x)与h2(x)。然后,我们可以用这两个哈希函数来模仿产生k个哈希函数的效果:
gi(x) = h1(x) + ih2(x);
这里i的取值范围是1到k的整数。
Google guava类库使用这个技巧实现了一个布隆过滤器,哈希算法的主要逻辑如下:
long hash64 = …; //calculate a 64 bit hash function
//split it in two halves of 32 bit hash values
int hash1 = (int) hash64;
int hash2 = (int) (hash64 &&& 32);
//Generate k different hash functions with a simple loop
for (int i = 1; i &= numHashF i++) {
int nextHash = hash1 + i * hash2;
从数学公式中,我们可以很明显的知道使用布隆过滤器来解决问题。但是,我们需要很好地理解布隆过滤器所能解决问题的领域。像我们可以使用布隆过滤器来存放美国的所有城市,因为城市的数量是可以大概确定的,所以我们可以确定n(待检测元素的个数)的值。根据需求来修改p(误判概率)的值,在这种情况下,我们能够设计出一个查询耗时少,内存使用率高的缓存机制。
Google Guava类库有一个实现,查看这个类的构造函数,在这里面需要设置待检测元素的个数与误判率。
import mon.hash.BloomF
import mon.hash.F
//Create Bloomfilter
int expectedInsertions = ….;
double fpp = 0.03; // desired false positive probability
BloomFilter&CharSequence& bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.forName(&UTF-8&)), expectedInsertions,fpp)
相关 [bloomfilter java 缓存] 推荐:
- ImportNew
在如今的软件当中,缓存是解决很多问题的一个关键概念. 你的应用可能会进行CPU密集型运算. 你当然不想让这些运算一边又一边的重复执行,相反,你可以只执行一次, 把这个结果放在内存中作为缓存. 有时系统的瓶颈在I/O操作上,比如你不想重复的查询数据库,你想把结果缓存起来,只在数据发生变化时才去数据查询来更新缓存.
- Linux - 操作系统 - ITeye博客
服务器端安装,部署,启动:. 用于监听的UNIX套接字路径(禁用网络支持)
-a &mask&. UNIX套接字访问掩码,八进制数字(默认:0700)
-m 指定最大使用内存大小(默认64MB). -t 线程数(默认4)
-l &ip_addr& 绑定地址 (默认:所有都允许,无论内外网或者本机更换IP,有安全隐患,若设置为127.0.0.1就只能本机访问)
-d start 启动memcached服务.
- 编程语言 - ITeye博客
BloomFilter是什么.
BloomFilter主要提供两种操作: add()和contains(),作用分别是将元素加入其中以及判断一个元素是否在其中,类似于Java中的Set接口,它内部采用的byte数组来节 省空间. 其独特之处在于contains()方法,当我们需要查询某个元素是否包含在BloomFilter中时,如果返回true,结果可能是不正确 的,也就是元素也有可能不在其中;但是如果返回的是false,那么元素一定不在其中.
- 忘我的追寻
CPU,一般认为写C/C++的才需要了解,写高级语言的(Java/C#/pathon…)并不需要了解那么底层的东西. 我一开始也是这么想的,但直到碰到LMAX的
Disruptor,以及
马丁的博文,才发现写Java的,更加不能忽视CPU. 经过一段时间的阅读,希望总结一下自己的阅读后的感悟. 本文主要谈谈CPU缓存对Java编程的影响,不涉及具体CPU缓存的机制和实现.
- CSDN博客云计算推荐文章
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法. 通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合.   为了说明Bloom Filter存在的重要意义,举一个实例:.   假设要你写一个网络蜘蛛(web crawler).
- CSDN博客推荐文章
bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的. Bloomfilter是一个列族(cf)级别的配置属性,如果你在表中设置了Bloomfilter,那么HBase会在生成StoreFile时包含一份bloomfilter结构的数据,称其为MetaBlock;MetaBlock与DataBlock(真实的KeyValue数据)一起由LRUBlockCache维护.
- 淘宝网通用产品团队博客
从Java视角理解系统结构连载, 关注我的微博(
链接)了解最新动态众所周知, CPU是计算机的大脑, 它负责执行程序的指令; 内存负责存数据, 包括程序自身数据. 同样大家都知道, 内存比CPU慢很多. 其实在30年前, CPU的频率和内存总线的频率在同一个级别, 访问内存只比访问CPU寄存器慢一点儿.
- Taobao QA Team
为了实现性能压测时的域名动态绑定功能,尝试通过java反射修改JDK1.6×当中的DNS缓存,感谢在此过程中林轩同学的大力帮助. 网上也存在着修改DNS缓存的方法,但是都是基于jdk1.5的,无法应用. 另外,大部分都是修改的缓存过期时间,而没有真正去尝试修改dns 的cache内容,所以尝试了很多种方法,并且查看了jdk的源代码,终于实现了修改dns缓存内容和时间,如下,欢迎大家一起探讨.
- lostsnow - 小彰
没有人能说清哪种缓存算法由于其他的缓存算法. (以下的几种缓存算法,有的我也理解不好,如果感兴趣,你可以Google一下
). 大家好,我是 LFU,我会计算为每个缓存对象计算他们被使用的频率. 我是LRU缓存算法,我把最近最少使用的缓存对象给踢走. 我总是需要去了解在什么时候,用了哪个缓存对象.
--> 坚持分享优质有趣的原创文章,并保留作者信息和版权声明,任何问题请联系:@。

我要回帖

更多关于 bloomfilter 缓存击穿 的文章

 

随机推荐