2010-05-10
■ MTG
昼から,共同研究のミーティング.
■ NLP.app
その後,NLP.app勉強会. 詳しいことは, mamorukさんや syouさんが書かれているので僕は別に何も書くことがない:-p
一言で言えば,「チョーーー大規模なデータがあれば, こまけぇこたぁいいんだよ!!」ということである. んで,大規模なデータの処理には,「MapReduce」という技術を使うというわけ. そのオープンソース版が「Hadoop」で無料で使えるので,使っていきたい.
海外の授業のサイトを参考に, とりあえずは,インストールして動かしてみた. 全部そこにやり方は書いてあるけど,文字を読むのが面倒くさいという人の為に, Ubuntu9.10でのコマンドラインを下に張っておくので参考に〜.
mkdir work; cd work //適当にディレクトリを作ってそこで作業 wget http://www.umiacs.umd.edu/~jimmylin/dist/cloud9-r0.2.tar.gz tar xf http://www.umiacs.umd.edu/~jimmylin/dist/cloud9-r0.2.tar.gz cd ./umd-hadoop-core/hadoop wget http://ftp.riken.jp/net/apache/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz tar xf hadoop-0.20.2.tar.gz
echo $JAVA_HOME //もし環境変数$JAVA_HOMEが設定されていなければ適切に設定すること /usr/lib/jvm/java-6-sun/jre/ ./bin/hadoop jar hadoop-0.20.2-examples.jar pi 10 100 cd ../data gunzip bible+shakes.nopunc.gz cd ../ vi build.xml 0.20.2用に二ヶ所バージョン番号を修正 sudo aptitude install ant ant cd build jar cvf cloud9.jar * cd ../hadoop/hadoop-0.20.2 ./bin/hadoop jar ../../build/cloud9.jar edu.umd.cloud9.demo.DemoWordCount \ ../../data/bible+shakes.nopunc demo 5 1 head demo/part-00000