这是一篇关于 mongodb 使用经验的一篇文章,mongodb 相对于 mysql 简单很多,关于 mysql 的调优可以看另一篇博文: mysql 调优和使用必读。
mongodb 的单进程,多线程模型充分利用 mongodb 的 oplogmongodb 的 mmap 内存模型mongodb 的索引mongodb 需要注意的几点对线上库的批量操作要控制频率实时将数据同步到关系型数据库支持复杂查询和数据分析需要为 mongodb 提供足够的内存空间mongodb 默认操作的异步特性总结一些参考mongodb 的单进程,多线程模型读操作可以使用多线程,利用多核心;写操作(global locking)和 map-reduce(js 解释器的限制)只能使用单线程。
从2.2 版本,mongodb 部分解决了全局锁问题,可以在写某个库的时候同时写其他库。一般通过在多核心单机上 sharding 数据库,使用多个 mongod instance, 通过利用多核和缓解全局锁的问题提高读写操作 ops。可以通过 mongostat 命令查看 locking 和 page fault 情况。
另外,使用 htop 可以看到一个进程中的多个线程。node.js 每个进程其实有两个线程,除了主线程外,还有一个线程池用来处理文件读写等操作。
充分利用 mongodb 的 oplogmongodb 通过 oplog 实现主从同步,但是即使不启用从库,也可以查看和使用 oplog。修改配置文件打开 oplog:
/etc/mongod.conf# replication optionsmaster = true
这样就会在 local database 出现一个名为 oplog.$main 的 collection,(一般 mongodb 会将这个 collection 中的数据条数保持在 5000 万以下),其中数据类似于:
{ ts: { t: 1000, i: 1365409034 }, op: u, ns: mydb.mycoll, o2: { _id: objectid(50a6718e50e50b4459dcc40e) }, o: { $set: { myfield: myfield_value } }}
ts 为自定义的时间戳
op 表示操作类型: insert (i), update (u), delete (d), noop (n)
ns 为操作对应的 collection
o 为操作数据,这里为 $set 操作修改记录
mongodb 的 mmap 内存模型mmap 的一个缺点很多,比如当读取数据没有在内存中,操作遇到 page fault 的时候也会发生锁操作。
mongodb 的索引mongodb 支持简单的 b-tree 索引。默认情况下 _id 会自动建索引,如果需要查询其他字段可以自己手动建索引(ensureindex() )。另外,注意在数据导入导出的时候重建索引。
比 mysql 好的是 mongodb 支持多值索引,即使两个字段的顺序是相反的。比如可以支持 .sort({a:1, b:-1}) 这样按不同字段的排序。和 mysql 类似,使用的时候同样需要避免类似于 skip(big_num).limit(n) 这样的操作。
mongodb 需要注意的几点1. 对线上库的批量操作要控制频率假如某些读写操作不断占用数据库资源,其他操作将不能很快或者正确完成。可以通过 sleep 操作降低批量操作的频率,为其他操作提供执行空隙。
2. 实时将数据同步到关系型数据库支持复杂查询和数据分析nosql 不支持复杂查询,但是如果需要复杂查询和数据分析,可以将数据同步到关系型数据库中。
mongodb 原生支持 streaming,以下 node.js 代码可以实时获取某个 collection 的数据变化,可以同步到关系型数据库,也可以用来做 trigger。以下是 mognodb tail oplog 的核心代码(node.js):
var options = { 'ns': self.config.mongodb.db + '.' + self.config.mongodb.collection, 'ts': {'$gt': new mongo.timestamp.fromnumber(this.last_timestamp)}};var stream = this.mongo.db.collection('oplog.$main') .find(options, {tailable: true, awaitdata: true, numberofretries: -1}).stream();stream.on('data', function(item) { if (item.op !== 'n' && item.ts.tonumber() !== self.last_timestamp) { console.log(adate() + ' ' + json.stringify(item)+'\r\n'); self.process(item, function() { }); }});
注意读写压力很大的情况下控制 streaming 的速度,具体情况可以见前一篇博文: node.js 调试 gc 以及内存暴涨的分析。相关代码:
var stream = this.mongo.db2.collection(self.config.mongodb.collection).find().stream(); stream.on(data, function(item) { stream.pause(); //console.log(json.stringify(item)+'\r\n'); self.mysql.insert(item, function() { stream.resume(); }); });
3. 需要为 mongodb 提供足够的内存空间如果数据库的数据没有冷热之分,最好配置大于数据大小的内存,防止频繁磁盘操作。
通过将数据记录的键值改短也能明显节约空间。
4. mongodb 默认操作的异步特性mongodb 写操作默认情况下是异步的,所以为了保持一致性,需要加上选项:
{ safe: { fsync: true }}
总之mongodb 是一个非常易用,优点和缺点都很明显的数据库。在某些场景下,可以考虑使用 tc,redis 或者 postgres,mysql 替代。
一些参考http://docs.mongodb.org/manual/faq/concurrency/
https://github.com/mongodb/mongo/blob/master/src/mongo/db/btree.cpp
http://blog.schmichael.com/2011/11/05/failing-with-mongodb/
http://en.wikipedia.org/wiki/mmap
http://www.polyspot.com/en/blog/2012/understanding-mongodb-storage/