2009-08-13

■ tomocha

昨日の続き．n-gramのデータを格納するに，生テキストだと明らかに処理効率が悪いので．色々と教えてもらってデータを管理するDBMを調べる．

Tokyo Cabinetやsary，txなど，聞いたこともないものだが，mizunoさんに教えてもらう．これらは，mySQLよりも，用途によっては簡便に使えるらしい．データベース処理系と言えば，SQLしか知らなかったけど，こういうのもあるんだね．

TCをインストールして(もらって)試してみるも，Python bindingsからは，

現状では、Pythonのオブジェクトを保存したい場合には、
cPickle/pickleでのシリアライズ/デシリアライズは自前でやってね方針です。

とのことなので，少し使い勝手が悪い．どうしようか思案中．

(09/08/14追記)すごく簡単にできた．やってることはオブジェクトの符号化と復号化．

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import pytc #Tokyo Cabinetを使用できるようにする
import cPickle  #オブジェクトも格納できるようにする
db = pytc.HDB('test.db', pytc.HDBOWRITER | pytc.HDBOCREAT)
db['goods'] =  cPickle.dumps( {'A' : '400yen' , 'B' : '500yen'} )
print cPickle.loads(db['goods'])

■ Asadさんと夕食

今日はAsadさんに食事をご馳走していただく．ご馳走さまでした．