naoya_t@hatenablog

いわゆるチラシノウラであります

自然言語処理

PRML Hackathon #4 〜嵐のPRMLハッカソン〜

http://connpass.com/event/3479/ @西戸山生涯学習館 視聴覚室ワルプルギスの夜的な物が関東上空を通過したためにPRML復々習レーンは中止となり、空いた会場で代わりに開かれたのが「嵐のPRMLハッカソン」。傘が壊れそうな強風の中を頑張って行ってきました…

word2vecに英辞郎データを放り込んでみた

英辞郎をword2vecに放り込んでみたらちょっと面白かったのでメモを。word2vecについては前回の記事を参照。使ったのはEIJI-138.TXT(最新より1つ古いバージョンです) EDPさんから1980円ぐらいで買えます。 ■semantically-motivated {形} : 意味論的{いみ…

Deep-learningはラテン語の動詞活用を学習できるか? Can deep-learning learn latin conjugation?

ラテン語ネタが続きますが工藤さんがぐぐたすで紹介してた word2vec が面白そうだったので。 https://code.google.com/p/word2vec/ で少し遊んでみた。いわゆる deep learning で 単語のベクトル表現を学習してくれる。面白いのは、2つのベクトルの差が、2つ…

ラテン語コーパスからのトピック抽出 - Topic extraction from latin corpus using LDA modelling

折角DSIRNLPに来たので、NLPっぽいことをして遊んでみた話。ネタです。 コードは https://github.com/naoyat/latin にあります。lda_demo.py というやつです。gensim便利です。PythonからLDAとかLSIとか割と高速にやってくれるトピックモデリングライブラリ…

初級ラテン語リーディングの事とか

よくある脳内自然言語処理トレーニング的な取り組み方ではなく、今回は*1文法事項とか単語とかをプログラムに覚えさせる(=自分では覚えない)方式で参加中。 #ikebin_latin ラテン語処理系辞書引き雑用ツールをPythonで書いています ラテン語音読機能も搭…

ナイーブベイズ分類器の実装とか(その2)〜新アルバムの楽曲で畑さん/こだまさん分類器を試してみた〜

1/17のエントリ「ナイーブベイズ分類器の実装とか 〜畑さん/こだまさん問題〜」の続編。とあるアーティスト(仮にMとします)の新アルバムが2/29にリリースされたので、前回作ったナイーブベイズ分類器に過去の3アルバムのデータを訓練データとして与え、新…

自然言語処理とlogの底と

「言語処理のための機械学習入門」(奥村学 著)の演習問題なんかを題材にPython絶賛入門中なのですが、演習問題の答えの値(具体的には§4.6.1の例題4.15のPMI*1の値)が自分の計算と違うからなんでだろう誤植かなあ(この本時々あるし)と思ってよくよく見…

ナイーブベイズ分類器の実装とか 〜畑さん/こだまさん問題〜

スパム判定などでお馴染みのナイーブベイズ分類器。 構造が比較的単純なのに割といい感じに分類できるので重宝がられています。ナイーブベイズ分類器で用いる文書モデルとして、「言語処理のための機械学習入門」(奥村学 著)では 多変数ベルヌーイモデル (…