読者です 読者をやめる 読者になる 読者になる

naoya_t@hatenablog

いわゆるチラシノウラであります

PRML Hackathon #4 〜嵐のPRMLハッカソン〜

PRML 自然言語処理 Python latin

http://connpass.com/event/3479/
@西戸山生涯学習館 視聴覚室

ワルプルギスの夜的な物が関東上空を通過したためにPRML復々習レーンは中止となり、空いた会場で代わりに開かれたのが「嵐のPRMLハッカソン」。傘が壊れそうな強風の中を頑張って行ってきました。
主催者欄に「naoya_tと有志スタッフ」とあるので今回は主催者のようです。

視聴覚室開催という事で、hashk1さんが "Puella Magi Madoka Magika" (PMMM) の北米版BDを持って来てくれたのですが、Macからプロジェクタに接続するコネクタを誰も持っていなかったので別のハッキングが開始されたりとか。

英語で上映されるP*M*を見ながら黙々とPRML予習に励む人とか、scikit-learnと格闘する人とか、高校数学を復習してる人とかいる中で今回やったのは、ラテン語動詞の活用を普通にニューラルネットワークで学習させたいなー、とか思って教師データを作るところまで。
f:id:n4_t:20130919150127j:plain


動詞活用形を後ろから、というか文字列をひっくり返して10文字持ってきて、アルファベットを1-of-k表現に直した(IとJ、UとVを同一視したりなんかして k=22、これに長音を表すビット、大文字小文字を表すビットを加えて24bit。10文字使ったので入力は240次元)。

X: [0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

これで1単語分。
どんな活用形であるかを表すラベル(直説法、現在、能動系、3人称、複数、etc)が16次元。

Y: [1 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0]

これを適当な層数のニューラルネットワークに食わせて学習したいなと。自分で実装すれば良いんだけど、時間が限られていたのでライブラリを色々漁ることにした。

scikit-learnにはやりたい事そのものが出来るやつがない。(sklearnで多層RBMとロジスティック回帰とかでdeep learningごっこするのもありかもしれない)
theanoよくわからない。
neurolab使ってみたけど(何かを間違えたのか)重くて帰ってこなかったので自分の実装使おうかなとか。

…たぶん続く、というか完成したらこっそり追記する。
とりあえず動詞1つ分しかデータ作ってないので、これだけだと学習には足りないと思う。数百個は入れたい。

今度ワルプルギスの夜が来たら魔女文字OCRを作りたいなって…