HBase优化策略及协处理器-原创手记-慕课网

服务端优化

什么导致HBase性能下降

Jvm内存分配与GC回收策略

HBase运行机制相关的配置分配不合理

表结构设计及用户使用方式不合理

HBase数据存储过程

HBase写入时当memstore达到一定大小会flush到磁盘保存成HFile，当HFile小文件太多回执行compact操作进行合并（compact就是将很多小文件合并成一个大文件的过程。compact分为minor compaction和major compaction）

当Region的大小达到某一阈值之后，回执行split操作

当HBase做compact和split操作时需要优化

常见服务端配置优化

Jvm设置与GC设置

hbase-site.xml部分属性配置

属性简介建议

hbase.regionserver.handler.countrpc请求的线程数量，默认值是10

hbase.hregion.max.filesize当region的大小大于设定值后hbase就会开始split建议手动split

hbase.hregion.majorcompactionmajor compaction的执行周期将值设置成0，在业务低峰手动执行majorcompaction

hbase.hstore.compaction.min一个store里的storefile总数超过该值，会触发默认的合并操作默认3

hbase.hstore.compaction.max一次合并最多合并多少个storeFile

hbase.hstore.blockingStoreFiles一个region中的Store(CoulmnFamily)内有超过多少个storeFile时，则block所有的写请求进行compaction

hfile.block.cache.sizeregionserver的block cache的内存大小限制在偏向读的业务中可调大该值

hbase.hregion.memstore.flush.sizememstore超过该值将被flush

hbase.hregion.memstore.block.multiplier如果memstore的内存大小超过flush.size*multiplier,会阻塞该memstore的写操作建议设置成5，设置太大会有内存溢出的风险

常用优化策略

预先分区

HBase默认创建表的时候会自动创建一个Region分区

创建表时预先创建一些空的Region，并指定Rowkey的存储范围。这样可以减少Split操作，减少IO操作

Rowkey优化

利用HBase默认排序特点，将一起访问的数据放到一起

防止热点问题，避免使用时序或者单调的递增递减等

Column优化

列族的名称和列的描述命令尽量简单

同一张表的列族不要超过三个

读写优化

写优化策略

同步批量提交（默认）

异步批量提交（会提升性能，但可能存在数据丢失，在一些业务中可以采用）

WAL优化，是否必须开启（默认开启），持久化等级

读优化策略

客户端：Scan缓存设置，批量获取

服务端：BlockCache配置是否合理，HFile是否过多（通过服务端的配置进行设置）

表结构设计问题

HBase协处理器

协处理器简介

HBase协处理器受BigTable协处理器的启发，为用户提供类库和运行时环境，使得代码能够在HBase RegionServer和Master上处理（使用协处理器需要谨慎，可能会导致性能下降甚至数据丢失）

协处理分为系统协处理器 and 表协处理器

系统协处理器：全局加载到RegionServer托管的所有表和Region上（是属于所有的表）

表协处理器：用户可以指定一张表使用协处理器（只是针对一张表）

观察者（Observer）:类似于关系数据库的触发器

终端（Endpoint）：动态的终端有点像存储过程

2.实现一个ResionObserver类型的协处理器

引入pom:

org.apache.hbase

hbase-common

1.2.4

org.apache.hbase

hbase-server

1.2.4

一个简单demo

package com.imooc.bigdata.hbase.coprocessor.observer;

import java.awt.image.ImagingOpException;

import java.io.IOException;

import java.util.Arrays;

import java.util.List;

import org.apache.hadoop.hbase.Cell;

import org.apache.hadoop.hbase.CellUtil;

import org.apache.hadoop.hbase.CoprocessorEnvironment;

import org.apache.hadoop.hbase.client.Delete;

import org.apache.hadoop.hbase.client.Durability;

import org.apache.hadoop.hbase.client.Get;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.coprocessor.BaseRegionObserver;

import org.apache.hadoop.hbase.coprocessor.ObserverContext;

import org.apache.hadoop.hbase.coprocessor.RegionCoprocessorEnvironment;

import org.apache.hadoop.hbase.regionserver.wal.WALEdit;

import org.apache.hadoop.hbase.util.Bytes;

/**

* Created by xt on 18-6-18.

public class RegionObserverTest extends BaseRegionObserver {

private byte[] columnFamily = Bytes.toBytes("cf");

private byte[] countCol = Bytes.toBytes("countCol");

private byte[] unDeleteCol = Bytes.toBytes("unDeleteCol");

private RegionCoprocessorEnvironment environment;

//regionserver 打开region前执行

@Override

public void start(CoprocessorEnvironment e) throws IOException {

environment = (RegionCoprocessorEnvironment) e;

}

//RegionServer关闭region前调用

@Override

public void stop(CoprocessorEnvironment e) throws IOException {

}

/**

* 1. cf:countCol 进行累加操作。每次插入的时候都要与之前的值进行相加

@Override

public void prePut(ObserverContext e, Put put, WALEdit edit,

Durability durability) throws IOException {

if (put.has(columnFamily, countCol)) {

//获取old countcol value

Result rs = e.getEnvironment().getRegion().get(new Get(put.getRow()));

int oldNum = 0;

for (Cell cell : rs.rawCells()) {

if (CellUtil.matchingColumn(cell, columnFamily, countCol)) {

oldNum = Integer.valueOf(Bytes.toString(CellUtil.cloneValue(cell)));

}

//获取new countcol value

List cells = put.get(columnFamily, countCol);

int newNum = 0;

for (Cell cell : cells) {

if (CellUtil.matchingColumn(cell, columnFamily, countCol)) {

newNum = Integer.valueOf(Bytes.toString(CellUtil.cloneValue(cell)));

}

//sum AND update Put实例

put.addColumn(columnFamily, countCol, Bytes.toBytes(String.valueOf(oldNum + newNum)));

}

/**

* 2. 不能直接删除unDeleteCol 删除countCol的时候将unDeleteCol一同删除

@Override

public void preDelete(ObserverContext e, Delete delete,

WALEdit edit,

Durability durability) throws IOException {

//判断是否操作cf列族

List cells = delete.getFamilyCellMap().get(columnFamily);

if (cells == null || cells.size() == 0) {

return;

}

boolean deleteFlag = false;

for (Cell cell : cells) {

byte[] qualifier = CellUtil.cloneQualifier(cell);

if (Arrays.equals(qualifier, unDeleteCol)) {

throw new IOException("can not delete unDel column");

}

if (Arrays.equals(qualifier, countCol)) {

deleteFlag = true;

}

if (deleteFlag) {

delete.addColumn(columnFamily, unDeleteCol);

}

作者：Alukar
链接：https://www.jianshu.com/p/3e074bc865c2