2006年11月07日

英文の固有表現抽出

英語の固有表現抽出はスタンフォード大の自然言語処理研究グループが公開しているソフトでできる。
CRF(conditional random field)を使った手法で、よい精度を出しているよう。

http://nlp.stanford.edu/software/CRF-NER.shtml
から
stanford-ner-2006-09-18.tar.gz
をダウンロードする。

javaで動くソフトなのでjavaをインストールする必要がある。

javaのダウンロード

http://java.sun.com/javase/downloads/index.jsp
から
Java Runtime Environment (JRE)
のDownloadをクリックしてダウンロードする。

javaのインストール

# bash jre-1_5_0_09-linux-i586-rpm.bin
で自動的にjavaが/usr/java/jre1.5.0_09/にインストールされる。
パスを通す
export PATH=$PATH:/usr/java/jre1.5.0_09/bin

GUIバージョンを試す
$ bash ner-gui.sh
で Classifier->Load Default CRF とし
下の Run NER を押すと、テキストボックス中の英文の
PERSON(人物)、ORGANIZATION(組織)、LOCATION(場所)が
色分けされる。

コマンドラインから以下のようにできる。
$ ./ner.sh sample.txt
My/O name/O is/O Jenny/PERSON Rose/PERSON ./O
I/O go/O to/O Stanford/ORGANIZATION University/ORGANIZATION ,/O which/O is/O in/O California/LOCATION ./O
I/O study/O computer/O science/O ./O
I/O grew/O up/O in/O New/LOCATION Jersey/LOCATION ./O

ここでsample.txtの中身は
My name is Jenny Rose. I go to Stanford University, which is in California.
I study computer science. I grew up in New Jersey.
である。
各単語の最後に/Oがついているのは固有表現でないものを表す。

ちなみに日本語の固有表現抽出はcabochaでできる。
http://chasen.org/~taku/software/cabocha/
posted by xi at 11:05| Comment(0) | TrackBack(0) | コンピュータ | このブログの読者になる | 更新情報をチェックする

pythonモジュールのインストール

基本的にはパッケージのディレクトリで
# python setup.py install
とコマンドをrootになって実行すれば
pythonモジュールをインストールできます。

# python setup.py install
running install
error: invalid Python installation: unable to open /usr/lib/python2.3/config/Makefile (No such file or directory)
とエラーが出たら、python-develをインストールする必要があります。

vine-3.0だったら
# apt-get install python-devel
でインストールできます。
posted by xi at 00:05| Comment(0) | TrackBack(0) | コンピュータ | このブログの読者になる | 更新情報をチェックする

2006年11月06日

ほにゃららと言えば

ほにゃららと言えば
http://ieba.dee.cc/
は、自然言語処理技術を使ってWebから自動的にキーワードをとってきてまとめてあるサイト。

なかなかおもしろい。

例えば
ライブドアと言えば
http://ieba.dee.cc/jouhoutsuushin/ieba101.html
を見ると、人物では
1位 堀江貴文(有名度2460)
2位 乙部綾子(有名度1000)
3位 宮内亮治(有名度450)
と話題になった人がもっともらしい順番で並んでいる。
もちろん機械的にやっているから、おかしな結果もある。
例えば、人物の欄に
18位 ライブドアブログ・ウェブ(有名度150)
と明らかに人名ではないものもでたり。

ゴミはあるけど、いろんな使い方ができそう。

相対性理論と言えば
http://ieba.dee.cc/butsurigaku/ieba134.html
を見れば、相対性理論の専門家が分かる。
1位 アインシュタイン(有名度401)
2位 中野董夫(有名度367)
3位 内山龍雄(有名度262)

早稲田大学と言えば
http://ieba.dee.cc/daigaku/ieba703.html
を見れば、その大学の有名人が分かる。
1位 白井克彦(有名度500)
2位 清宮克幸(有名度400)
3位 會津八一(有名度300)

精密機器企業と言えば
http://ieba.dee.cc/seimitsukiki/index2.html
を有名度で並べると、その業界での知名度の高さが分かる。
[精密機器企業] [有名度]
キヤノン 6740000
ニコン 4350000
セイコー 4290000
リコー 4120000
ペンタックス 3480000
オリンパス 3470000
京セラ 2420000
オーバル 1670000
コニカミノルタ 1470000
富士ゼロックス 1090000
posted by xi at 21:09| Comment(2) | TrackBack(0) | コンピュータ | このブログの読者になる | 更新情報をチェックする
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。