2006年11月07日

英文の固有表現抽出

英語の固有表現抽出はスタンフォード大の自然言語処理研究グループが公開しているソフトでできる。
CRF(conditional random field)を使った手法で、よい精度を出しているよう。

http://nlp.stanford.edu/software/CRF-NER.shtml
から
stanford-ner-2006-09-18.tar.gz
をダウンロードする。

javaで動くソフトなのでjavaをインストールする必要がある。

javaのダウンロード

http://java.sun.com/javase/downloads/index.jsp
から
Java Runtime Environment (JRE)
のDownloadをクリックしてダウンロードする。

javaのインストール

# bash jre-1_5_0_09-linux-i586-rpm.bin
で自動的にjavaが/usr/java/jre1.5.0_09/にインストールされる。
パスを通す
export PATH=$PATH:/usr/java/jre1.5.0_09/bin

GUIバージョンを試す
$ bash ner-gui.sh
で Classifier->Load Default CRF とし
下の Run NER を押すと、テキストボックス中の英文の
PERSON(人物)、ORGANIZATION(組織)、LOCATION(場所)が
色分けされる。

コマンドラインから以下のようにできる。
$ ./ner.sh sample.txt
My/O name/O is/O Jenny/PERSON Rose/PERSON ./O
I/O go/O to/O Stanford/ORGANIZATION University/ORGANIZATION ,/O which/O is/O in/O California/LOCATION ./O
I/O study/O computer/O science/O ./O
I/O grew/O up/O in/O New/LOCATION Jersey/LOCATION ./O

ここでsample.txtの中身は
My name is Jenny Rose. I go to Stanford University, which is in California.
I study computer science. I grew up in New Jersey.
である。
各単語の最後に/Oがついているのは固有表現でないものを表す。

ちなみに日本語の固有表現抽出はcabochaでできる。
http://chasen.org/~taku/software/cabocha/
posted by xi at 11:05| Comment(0) | TrackBack(0) | コンピュータ | このブログの読者になる | 更新情報をチェックする

pythonモジュールのインストール

基本的にはパッケージのディレクトリで
# python setup.py install
とコマンドをrootになって実行すれば
pythonモジュールをインストールできます。

# python setup.py install
running install
error: invalid Python installation: unable to open /usr/lib/python2.3/config/Makefile (No such file or directory)
とエラーが出たら、python-develをインストールする必要があります。

vine-3.0だったら
# apt-get install python-devel
でインストールできます。
posted by xi at 00:05| Comment(0) | TrackBack(0) | コンピュータ | このブログの読者になる | 更新情報をチェックする
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。