博論を書いた後の初論文

ひさびさの日記．

名工大で以下の論文を発表してきた．何人もの方に面白いと言って頂き，優秀研究賞も頂き，ありがたかった．

林部祐太，河原大輔，黒橋禎夫 (京大). 「格パターンの多様性に頑健な日本語格フレーム構築」，情報処理学会第224回自然言語処理研究会, (2015.12.4) [論文] [slide]

博士論文を書いた後に初めて書く，1年半ぶりの論文．色々あって出すのが遅くなってしまったが，非常に思い入れのある論文だ．どういう経緯でこの論文を書いたのかを，少し書いておく．

問題探し

博士論文を書きながら，今後の課題などを整理している中，現実の事例に対しての考察が全然足りていなかったなと，反省していた．特に，実際のプロダクトの開発に関わっている工藤さんのtweetを読んで，もっと実際の用例を沢山見て，言語現象をしっかり考えないといけないなと強く感じた．

そういうわけで，京都に赴任してから何をすべきかを，いろいろと実例を見ながら，考えた．実例を見ながら考えたり学ぶのは楽しい．今まで業界標準の新聞記事データセットでの評価だけに意識がいっていて，箱庭感があったけど，ウェブテキスト等を見て，色々と問題を見つけることが出来た．

もちろんそれは，自分だけで全て見つけられたわけではなく，辞書・コーパス・パーサを長年つくってきた共著者の知識や経験に基づくコメントや議論によるところが大きい．

結果，リソースの整備がまずは必要だ，という結論に至った．

もちろん，リソースを整備すれば，パーサーの精度が上がり，パーサーの精度があがれば，リソースの整備がさらに進む，という循環で，鶏と卵の関係ではある．しかし，今あるリソースを実例とともに調べたところ，まだ足りないところがあって，（半自動で）作り込めるな，というのが感触を得た．そうして，格フレームの整備に取り組むことになった．

辞書について

工藤さんも

私も述語項構造解析やゼロ代名詞問題のアノテーション+機械学習のシステムを作ったことがあるが、満足のいくシステムはなかなか作れなかった。
学習曲線があるところまでは上がるがすぐにフラットになってどんなにデータを増やしてもにっちもさっちもいかないのだ。
じっくり考えてみれば、このようなアノテーション方法ではうまくいかないことは明白なのだが、機械学習にとりつかれていた以前の私はそんなことまで考えが及ばなかった。
このような問題を解くには、動詞 食べるの語彙選択制限や名詞寿司・私の意味的カテゴリーといった語彙に関する知識が必要であるし、逆にそのような知識さえあれば単純な推論で同定が行える。
すなわち、辞書を作成することも格解析を解く方法になりうるし、実はそちらのほうが自然なのかもしれない。(もちろん併用はできる)
この方法論を実践したパーザーがKNPである。

とおっしゃていて，私の所属しているCRESTプロジェクト "知識に基づく構造的言語処理の確立と知識インフラの構築" も方向性は同じだ．

JUMANの辞書に可能動詞を追加したり，その他語彙の補充や，意味情報の追加などを行ったが，

自分でも何個か辞書を作ったが、辞書づくりは楽しい。
作ればダイレクトに反映されるし、同じグループの単語を一括して見ることで新たな発見がある。
語彙を一度に見ることで一貫性を保ちやすくメンテナンスがしやすいといった利点もある。
いったん体系化して作っておくと、非NLPerから語彙を足したり消したりする修正パッチが送られてくる。
一方、経験上タグ付きコーパスを作るのは苦痛だ。
作ったところでシステムがどれだけ向上するかどうか予測不可能だし、ほぼランダムに生成される文をつらつら眺めても何も面白くない。

という気持ちがよく分かる．

3年間越しで，

日本語述語項構造解析が重要だっていうわりには、みんなコーパス作りが先で、格交替を認識するのに基礎となる用言の知識(授受・自他・可能動詞交替)の情報をリッチにするといったことをまずやらないのはなぜなのか? Unidic・ipadicの情報だけでやれるとは到底思えない。
— Taku Kudo (@taku910) 2012, 9月 7

と言われていたことに対する，ひとつのソリューションを出せた気がする．

さいごに

リソース作りには，今回の論文に書いたことの他にも，まだまだ課題があって，現在開発中だ．また，パーサーの開発も並行して行っている．

特に結論的なものは無いのだけれど，今後も良いプロダクトを作っていきたいと思っている．