[转]Berkeley DB介绍及主从复制机制 -一个渣渣

1. Berkeley DB的简介

Berkeley DB（BDB）是一个高性能的嵌入式数据库编程库（引擎），它可以用来保存任意类型的键／值对 (Key/Value Pair)，而且可以为一个键保存多个数据。Berkeley DB可以支持数千的并发线程同时操作数据库，支持最大256TB的数据。

BDB提供诸如C语言，C++，Java，Perl，Python，Tcl等多种编程语言的API，并且广泛支持大多数类Unix操作系统和Windows操作系统以及实时操作系统（如 VxWorks）。

1991年，Berkeley DB的第一个版发行（Linux系统也在这一年诞生），其最初的开发目的是以新的HASH访问算法来代替旧的hsearch函数和大量的dbm实现，该版本还包含了B+树数据访问算法。

1992年，BSD UNIX第4.4发行版中包含了Berkeley DB1.85版。基本上认为这是Berkeley DB的第一个正式版。

1996年，Sleepycat软件公司成立，提供对Berkeley DB的商业支持。

2006年，Sleepycat被Oracle收购，当时最新版本是4.7.25。

2. 直观了解Berkeley DB软件包

Berkeley DB是一款开源软件，我们可以从Oracle的官方网站得到其源代码包。其源代码目录是由一系列子目录组成，从BDB的实现角度按照功能层次可将它们简单归类，划分如下：

a. DB核心模块（db）；

b. 各子系统模块（存储管理子系统：btree/hash/qam；内存池管理子系统：mp；事务子系统：txn；锁子系统：mutex；日志子系统：log）；

c. 操作系统抽象层（os_brew/os_s60/os_windows等）；

d. Build目录（build_brew/build_s60/build_windows等）；

e. 工具程序（db_archive/db_checkpoint等）；

f. 语言API支持；

g. 例子（examples_c/examples_csharp等）；

h. 其它；

通过源代码编译安装BDB很简单，代码如下：

cd ./db-4.8.30/build_unix

../disk/configure --prefix=<dir>

make && make install

安装目标目录（/usr/local/BerkeleyDB.4.8）包含四个子目录：

A. bin 一些实用工具

B. docs 文档

C. include 包含了使用BDB库开发程序时的头文件

D. lib 包含了使用BDB库开发程序时需要连接的库文件

3. 如何获得BDB的相关知识

BDB提供里非常详细的文档，可以官方网站获得html或pdf版本的文档。这里对pdf版本的一些文档简介如下：

BDB_Installation.pdf： BDB的安装文档，涵盖了不同操作系统，不同的编译工具，不同编程语言等多方面的详细信息；

BDB_Prog_Reference.pdf：该文档是使用BDB的开发人员的参考手册，主要从BDB的各种功能和机制的原理进行阐述，供使用BDB作为存储引擎来编写程序的各类程序员（C、Java、C#、Perl）阅读；

BDB-Porting-Guide.pdf：该文档是给需要将BDB移植到一个新的平台开发人员准备的；

InMemoryDBApplication.pdf：基于内存的BDB应用的相关知识；

BDB-C_APIReference.pdf： C API参考手册，跟BDB_Prog_Reference.pdf结合使用；

BerkeleyDB-Core-C-GSG.pdf：为C语言开发人员提供的BDB的入门手册；

BerkeleyDB-Core-C-Txn.pdf：为C语言开发人员提供的BDB事务方面的手册；

Replication-C-GSG.pdf：为C语言开发人员提供的BDB复制方面的手册；

4. 以上对源码目录的分类是从实现角度按照层次进行划分的，如果从BDB的功能模块，或者说是从系统结构角度进行划分，可将其分为几个子系统：

存储管理子系统 (Storage Subsystem)

内存池管理子系统 (Memory Pool Subsystem)

事务子系统 (Transaction Subsystem)

锁子系统 (Locking Subsystem)

日志子系统 (Logging Subsystem)

5. 以上的五个子系统完成了BDB作为一个Database所需要的大部分功能，如何驾驭以上子系统来完成我们需要的任务是关键。像MySQL这种独立的RDBMS，我们可以通过配置和SQL语句来控制和使用它的各种功能。由于BDB是一个嵌入式的数据库，最终还是需要程序员通过调用API来完成。所以要使用好BDB，需要先了解其原理，然后在合适的位置上调用合适的API。

写一个BDB程序的一般步骤：

a. 创建、设置和打开Environment；b. 创建、设置和打开Database；c. 访问Database；d.关闭Database；e. 关闭Environment。

此处的Database是从属于Environment，即db是在env这个环境上面建立起来的。为了便于快速把握重点，可以用BDB跟一般的RDBMS做个类比，这里的Database相当于数据表，Environment相当于数据库。

DB_ENV *dbenv;

DB *dbp;

int ret;

if ((ret = db_env_create(&dbenv, 0)) != 0) {

fprintf(errfp, "%s: %s\n", progname, db_strerror(ret));

return (1);

}

dbenv->set_errfile(dbenv, errfp);

dbenv->set_errpfx(dbenv, progname);

if ((ret = dbenv->set_cachesize(dbenv, 0, 64 * 1024, 0)) != 0) {

dbenv->err(dbenv, ret, "set_cachesize");

dbenv->close(dbenv, 0);

return (1);

}

(void)dbenv->set_data_dir(dbenv, data_dir);

if ((ret = dbenv->open(dbenv, home, DB_CREATE | DB_INIT_LOCK | DB_INIT_LOG | DB_INIT_MPOOL | DB_INIT_TXN, 0644)) != 0) {

dbenv->err(dbenv, ret, "environment open: %s", home);

dbenv->close(dbenv, 0);

return (1);

}

if ((ret = db_create(&dbp, dbenv, 0)) != 0){

fprintf(errfp, "%s: %s\n", progname, db_strerror(ret));

return (1);

}

if ((ret = dbp->open(dbp, NULL, "exenv_db1.db", NULL, DB_BTREE, DB_CREATE,0644)) != 0){

fprintf(stderr, "database open: %s\n", db_strerror(ret));

return (1);

}

if ((ret = dbp->close(dbp, 0)) != 0) {

fprintf(stderr, "database close: %s\n", db_strerror(ret));

return (1);

}

if ((ret = dbenv->close(dbenv, 0)) != 0) {

fprintf(stderr, "DB_ENV->close: %s\n", db_strerror(ret));

return (1);

}

return (0);

数据文件：

一个BDB的实例会产生数据存储文件，数据文件的目录由dbenv->set_data_dir(dbenv, data_dir);这条语句来指定。涉及的文件类型有：Data Files，Log Files，Region Files，Temporary Files。

Data Files：数据文件，存储实际的数据；

Log Files：日志文件；

Region Files：是各个子系统保存信息的文件，如果在Env中设置了DB_PRIVATE选项，这些信息是被一个进程私有，即它们保存在内存中，这些文件在此种情况下不产生；

Temporary Files：临时文件，特使情况会被创建；

数据的存数格式：

Berkeley DB提供了以下四种文件存储方法：哈希文件、B树、定长记录（队列）和变长记录（基于记录号的简单存储方式），应用程序可以从中选择最适合的文件组织结构。以上代码通过db->open函数中设置了DB_BTREE这个选项指定其使用B树方式存储。其它的三种存储格式对应的类型为：DB_HASH，DB_QUEUE，DB_RECNO。

事务提交：

BDB中的事务提交有两种方式：DB_AUTO_COMMIT和显式提交事务。如果设置为DB_AUTO_COMMIT，则每步操作多作为单独的事务自动提交；如果需要显示提交，则需要显示调用具体事务相关的begin/end API（相见文档BerkeleyDB-Core-C-Txn.pdf）。

BDB在事务提交时也是遵循先写日志并刷新到磁盘的方式，但是为了提高性能，其又引入了两个选项：DB_TXN_NOSYNC和DB_TXN_WRITE_NOSYNC。DB_TXN_NOSYNC的作用是使BDB在事务提交的时候不严格要求日志到磁盘，刷新与否取决于日志缓冲；DB_TXN_WRITE_NOSYNC会比DB_TXN_NOSYNC稍显严格，其含义是要求事务提交刷新日志，但只是刷到操作系统文件缓存当中。

BDB的事务隔离性级别有三个：READ UNCOMMITED、READ COMMITED、SERIALIZABLE

CheckPoint：

执行一个检查点会完成的工作有：Flushes all dirty pages from the in-memory cache to database files；Writes a checkpoint record；Flushes the log to log files；Writes a list of open databases.

调用API DB_ENV->txn_checkpoint(); 即可完成，如果是非DB_PRIVATE的Env，也可以使用BDB自带的工具db_checkpoint。为了避免出现一个检查点提交大量数据的情况，BDB还提供了轻量级刷新脏页的API：DB_ENV->memp_trickle();

Replication：

BDB中提供了两种方式来支持复制技术：Replication Base API和Replication Manager。可以说Replication Base API是最基础的API，实现方式灵活，功能强大，但是编码量大；Replication Manager相当于框架，使用方式简单，编码量小。Replication Manager可能能够满足大部分用户的需求，但不是所有需求，所以灵活性不足。如果您的需要是Replication Manager不能满足的，请使用Replication Base API自己实现复制策略。Replication Manager的主从策略有两种：指定主从、自动推举主从。

分区：

BDB的分区机制是从db-4.8.x之后刚引入的新功能，涉及到的API有两个：

DB->set_partition() 设置分区方式，包含了一个分区方式的回调函数，用户可以通过编写代码来自己实现分区方式，非常灵活。（详见API手册BDB-C_APIReference.pdf）

DB->set_partition_dirs() 设置分区目录。（详见API手册BDB-C_APIReference.pdf）

备份：

BDB有三种备份方式：

Offline Backups：离线备份，停服务拷贝数据目录；

Hot Backups：使用API或者BDB自带工具db_backup在DB在使用情况做备份；

Incremental Backups：增量备份；

具体细节详见BerkeleyDB-Core-C-Txn.pdf。

6. 以下是可能获取到Berkeley DB资源的链接：

官方主页：

http://www.oracle.com/database/berkeley-db/db/index.html

产品下载：

http://www.oracle.com/technology/software/products/berkeley-db/index.html

官方开发者文档中心：

http://www.oracle.com/technology/documentation/berkeley-db/db/index.html

berkeley db--进阶特性分析

数据存储

Berkeley DB的数据存储可以抽象为一张表，其中第一列是key，剩余的n-1列(fields)是value。

BDB访问数据库的方式，或者套用MySQL数据库的说法是存储引擎，有四种：

Btree 数据保存在平衡树里，key和value都可以是任意类型，并且可以有duplicated keys
Hash 数据保存在散列表里，key和value都可以是任意类型，并且可以有duplicated keys
Queue 数据以固定长度的record保存在队列里，key是一个逻辑序号。这种访问方式可以快速在队列尾插入数据，然后从队列头读取数据。它的优点在于可以提供record级别的锁机制，当需要并发访问队列的时候，可以提供很好性能。
Recno 这种访问方式类似于Queue，但它可以提供变长的record。

BDB的数据容量是256TB，单个的key或value可以保存4GB数据。

BDB是为并发访问设计的，thread-safe，且良好的支持多进程访问。

少量或者中量数据都建议使用BTREE，尤其并发的场景下，BTREE支持 lock coupling 技术，可以提升并发性能。

BDB组成

Berkeley DB内含多个独立的子系统：

Locking subsystem
Logging subsystem
Memory Pool subsystem
Transaction subsystem

一般使用的时候，这些子系统都被整合在DB environment里，但它们也单独拿出来，配合BDB之外的数据结构使用。

所谓DB Environment就是一个目录，其中保存着Locking、Logging、Memory Pool等子系统的信息，不同的thread可以打开同一个目录读写DB environment，BDB通过这种方式实现多进程/线程共享数据库。

【注意】多进程共享一个环境时，必须要使用 DB_SYSTEM_MEM，否则无法正常初始化环境。

关于DB environment的设置很多，一般没必要全部在代码里设置，也可以使用名为 DB_CONFIG 的配置文件来设置，该文件默认位于环境目录。

Concurrent Data Store (CDS)

CDS适用于多读单写的应用场景，当使用CDS的时候，仅需要 DB_INIT_MPOOL | DB_INIT_CDB 这两个子系统，不应该启用任何其他子系统，比如DB_INIT_LOCK、DB_INIT_TXN、DB_RECOVER 等。

由于CDS并不启动lock子系统，所以使用CDS无需检查deadlock，但下面的几种情况会导致线程永远阻塞：

混用DB handle和cursor（此时同一thread会有两个locker竞争）。
当打开一个write cursor的时候，在同一个线程里有其他的cursor开启。
不检查BDB的错误码（当一个cursor错误返回时，必须关闭这个cursor）。

其实CDS和DS的唯一区别就在于，当要写db的时候，应该使用DB_WRITECURSOR创建一个write cursor。当这样的write cursor 存在的时候，其他试图创建 write cursor 的线程将被阻塞，直到该 write cursor被关闭。当write cursor存在的时候，read cursor不会被阻塞；但是，所有实际的写操作，包括直接调用DB->put()或者DB->del()都将被阻塞，直到所有的read cursor关闭，才会真正的写入db。这就是multiple-reader/single-writer的具体工作机制。

参考：Berkeley DB 产品对比

CDS中的注意事项

如果使用secondary database，意味着会在同一个cursor下操作两个db，此时如果用CDS，也许必须设置DB_CDB_ALLDB，但这会严重影响性能。

所谓 DB_CDB_ALLDB 是一个非常粗粒度的锁，CDS的锁基于API-layer，默认per-database，但如果设置了DB_CDB_ALL，则是per-environment，这意味着：

整个DB environment下只能有一个write cursor。
当写db的时候，整个DB environment下任何read cursor不可以打开。

读写CDS简单的做法是能用DB handle的地方直接使用DB handle，没有必要使用CURSOR handle，因为你用DB->put()或者DB->del()来修改数据库时，它内部也是调用了CURSOR handle。当然，如果你要使用CURSOR遍历数据库时，用于写的CURSOR必须设置DB_WRITECURSOR来创建：

DB->cursor(db, NULL, &dbc, DB_WRITECURSOR);

转载自原文链接, 如需删除请联系管理员。

原文链接：[转]Berkeley DB介绍及主从复制机制，转载请注明来源！