分区是为了解决表过大造成的性能问题,一般当单张表大小超过了内存大小就应该考虑分区了。 PostgreSQL 10.x 之前的版本的分区比较繁琐。10.x之后的内置分区简化了操作,将部分操作内置,最终简单三步就能够创建分区表。但是只支持范围分区(RANGE)和列表分区(LIST),11.x 版本添加了对 HASH 分区的支持。
一.三种分区方式
查询的时候查询主表即可,会自动落到分区表,当然也可以指定查询某个分区。
select * from pkslow_person_r1;
1.Range范围分区
先创建一张表带有年龄,然后我们根据年龄分段来进行分区,创建表语句如下:
CREATE TABLE pkslow_person_r ( age int not null, city varchar not null ) PARTITION BY RANGE (age);
这个语句已经指定了按age字段来分区了,接着创建分区表:
create table pkslow_person_r1 partition of pkslow_person_r for values from (MINVALUE) to (10); create table pkslow_person_r2 partition of pkslow_person_r for values from (11) to (20); create table pkslow_person_r3 partition of pkslow_person_r for values from (21) to (30); create table pkslow_person_r4 partition of pkslow_person_r for values from (31) to (MAXVALUE);
插入一些数据
insert into pkslow_person_r(age, city) VALUES (1, 'GZ'); insert into pkslow_person_r(age, city) VALUES (2, 'SZ'); insert into pkslow_person_r(age, city) VALUES (21, 'SZ'); insert into pkslow_person_r(age, city) VALUES (13, 'BJ'); insert into pkslow_person_r(age, city) VALUES (43, 'SH'); insert into pkslow_person_r(age, city) VALUES (28, 'HK');
2.List列表分区
列表分区是按特定的值来分区,比较某个城市的数据放在一个分区里。
主表:
create table pkslow_person_l ( age int not null, city varchar not null ) partition by list (city);
分区表:
CREATE TABLE pkslow_person_l1 PARTITION OF pkslow_person_l FOR VALUES IN ('GZ'); CREATE TABLE pkslow_person_l2 PARTITION OF pkslow_person_l FOR VALUES IN ('BJ'); CREATE TABLE pkslow_person_l3 PARTITION OF pkslow_person_l DEFAULT;
插入测试数据
insert into pkslow_person_l(age, city) VALUES (1, 'GZ'); insert into pkslow_person_l(age, city) VALUES (2, 'SZ'); insert into pkslow_person_l(age, city) VALUES (21, 'SZ'); insert into pkslow_person_l(age, city) VALUES (13, 'BJ'); insert into pkslow_person_l(age, city) VALUES (43, 'SH'); insert into pkslow_person_l(age, city) VALUES (28, 'HK'); insert into pkslow_person_l(age, city) VALUES (28, 'GZ');
3.Hash哈希分区
哈希分区是指按字段取哈希值后再分区。
为哈希分区表创建分区时,使用 FOR VALUES WITH 子句指定分区的计算方法,其中的 MODULUS 子句用于指定除数,REMAINDER 子句用于指定哈希值被除后的余数。
所以如果要创建N个分区表,就要取N取模。
主表:
create table pkslow_person_h ( age int not null, city varchar not null ) partition by hash (city);
分区表:
create table pkslow_person_h1 partition of pkslow_person_h for values with (modulus 4, remainder 0); create table pkslow_person_h2 partition of pkslow_person_h for values with (modulus 4, remainder 1); create table pkslow_person_h3 partition of pkslow_person_h for values with (modulus 4, remainder 2); create table pkslow_person_h4 partition of pkslow_person_h for values with (modulus 4, remainder 3);
插入测试数据
insert into pkslow_person_h(age, city) VALUES (1, 'GZ'); insert into pkslow_person_h(age, city) VALUES (2, 'SZ'); insert into pkslow_person_h(age, city) VALUES (21, 'SZ'); insert into pkslow_person_h(age, city) VALUES (13, 'BJ'); insert into pkslow_person_h(age, city) VALUES (43, 'SH'); insert into pkslow_person_h(age, city) VALUES (28, 'HK');
二.实际应用
1.现状以及目标
- 待分的表数据量级在亿级,字段很多,是一张记录表。
- 查询sql主要是按照创建时间倒叙排序查询,一般按照天,周,月去查询。
- 表是多租户的。
- 租户存在活跃租户(日产生的数据量5k+)和非活跃。
- 分表后的最终结果是保证每个分区表数据量在2000万的量级。
2.具体分表思路
按照两个纬度来分表。
- 首先按照创建时间,以月为单位Range范围分区。
- 再按照租户划分活跃和非活跃,按照租户id进行哈希取模分区。
- 经过测算单租户日产生的记录最大为2万,月产生最大记录为60万,分区2000万记录数允许的活跃租户数为3个,因此活跃租户的哈希MODULUS设置为3。
- 同样方法测算非活跃租户,哈希MODULUS设置为20。
3.关于索引
- 由于查询条件是租户id+创建时间倒叙,因此使用这两个字段的联合索引。
- 对历史表分区后需要重建索引
vacuum analyse be_user_record
4.注意事项
- 分区主表的字段与与子表的字段一致,子表不能单独增加字段。
- 分区子表需要手动创建,此处需要增加定时任务。
- 分区主表上创建的索引被级联到了分区子表上。
- 分区主表不存数据,如果插入数据不能落特定分区,数据库会报错,通过创建默认分区表,不符合分区约束的数据将会插入到默认分区。目前,range/list支持默认分区,hash分区不支持。
- 分区子表的取值是FROM<=value<TO,取的FROM值。
- 分区子表是对外不可见的,但是可以直接通过sql的方式对其进行增删改查。