2006年11月07日

英文の固有表現抽出

英語の固有表現抽出はスタンフォード大の自然言語処理研究グループが公開しているソフトでできる。
CRF(conditional random field)を使った手法で、よい精度を出しているよう。

http://nlp.stanford.edu/software/CRF-NER.shtml
から
stanford-ner-2006-09-18.tar.gz
をダウンロードする。

javaで動くソフトなのでjavaをインストールする必要がある。

javaのダウンロード

http://java.sun.com/javase/downloads/index.jsp
から
Java Runtime Environment (JRE)
のDownloadをクリックしてダウンロードする。

javaのインストール

# bash jre-1_5_0_09-linux-i586-rpm.bin
で自動的にjavaが/usr/java/jre1.5.0_09/にインストールされる。
パスを通す
export PATH=$PATH:/usr/java/jre1.5.0_09/bin

GUIバージョンを試す
$ bash ner-gui.sh
で Classifier->Load Default CRF とし
下の Run NER を押すと、テキストボックス中の英文の
PERSON(人物)、ORGANIZATION(組織)、LOCATION(場所)が
色分けされる。

コマンドラインから以下のようにできる。
$ ./ner.sh sample.txt
My/O name/O is/O Jenny/PERSON Rose/PERSON ./O
I/O go/O to/O Stanford/ORGANIZATION University/ORGANIZATION ,/O which/O is/O in/O California/LOCATION ./O
I/O study/O computer/O science/O ./O
I/O grew/O up/O in/O New/LOCATION Jersey/LOCATION ./O

ここでsample.txtの中身は
My name is Jenny Rose. I go to Stanford University, which is in California.
I study computer science. I grew up in New Jersey.
である。
各単語の最後に/Oがついているのは固有表現でないものを表す。

ちなみに日本語の固有表現抽出はcabochaでできる。
http://chasen.org/~taku/software/cabocha/
posted by xi at 11:05| Comment(0) | TrackBack(0) | コンピュータ | このブログの読者になる | 更新情報をチェックする

pythonモジュールのインストール

基本的にはパッケージのディレクトリで
# python setup.py install
とコマンドをrootになって実行すれば
pythonモジュールをインストールできます。

# python setup.py install
running install
error: invalid Python installation: unable to open /usr/lib/python2.3/config/Makefile (No such file or directory)
とエラーが出たら、python-develをインストールする必要があります。

vine-3.0だったら
# apt-get install python-devel
でインストールできます。
posted by xi at 00:05| Comment(0) | TrackBack(0) | コンピュータ | このブログの読者になる | 更新情報をチェックする

2006年11月06日

ほにゃららと言えば

ほにゃららと言えば
http://ieba.dee.cc/
は、自然言語処理技術を使ってWebから自動的にキーワードをとってきてまとめてあるサイト。

なかなかおもしろい。

例えば
ライブドアと言えば
http://ieba.dee.cc/jouhoutsuushin/ieba101.html
を見ると、人物では
1位 堀江貴文(有名度2460)
2位 乙部綾子(有名度1000)
3位 宮内亮治(有名度450)
と話題になった人がもっともらしい順番で並んでいる。
もちろん機械的にやっているから、おかしな結果もある。
例えば、人物の欄に
18位 ライブドアブログ・ウェブ(有名度150)
と明らかに人名ではないものもでたり。

ゴミはあるけど、いろんな使い方ができそう。

相対性理論と言えば
http://ieba.dee.cc/butsurigaku/ieba134.html
を見れば、相対性理論の専門家が分かる。
1位 アインシュタイン(有名度401)
2位 中野董夫(有名度367)
3位 内山龍雄(有名度262)

早稲田大学と言えば
http://ieba.dee.cc/daigaku/ieba703.html
を見れば、その大学の有名人が分かる。
1位 白井克彦(有名度500)
2位 清宮克幸(有名度400)
3位 會津八一(有名度300)

精密機器企業と言えば
http://ieba.dee.cc/seimitsukiki/index2.html
を有名度で並べると、その業界での知名度の高さが分かる。
[精密機器企業] [有名度]
キヤノン 6740000
ニコン 4350000
セイコー 4290000
リコー 4120000
ペンタックス 3480000
オリンパス 3470000
京セラ 2420000
オーバル 1670000
コニカミノルタ 1470000
富士ゼロックス 1090000
posted by xi at 21:09| Comment(2) | TrackBack(0) | コンピュータ | このブログの読者になる | 更新情報をチェックする

2006年10月17日

grepでタブを検索

grepだと正規表現でtabを表す"\t"は使えません。
"\t"の変わりに、[:space:]を使ってやります。
タブにはさまれた8を探すのは

$ grep "[[:space:]]8[[:space:]]" inputfile

でできます。
posted by xi at 15:57| Comment(0) | TrackBack(0) | コンピュータ | このブログの読者になる | 更新情報をチェックする

2006年10月10日

VmwareでLinux(ゲストOS)のグラフィック設定

ホストOS:WindowsXP
ゲストOS:Linux Vine3.0
PC:レッツノートCF-R3
Vmware4.5.2

/etc/X11/xorg.confの設定
DefaultDepth 24
Subsection "Display"
Depth 24
Modes "1024x768"
EndSubSection

posted by xi at 22:06| Comment(0) | TrackBack(0) | 機械学習 | このブログの読者になる | 更新情報をチェックする

VmwareでLinux(ゲストOS)からWindows(ホストOS)のファイルを共有

以前は共有できていたのに、いつのまにかできなくなってしまっていた。

基本的には

@IT:VMwareのフォルダ共有機能を使うには
http://www.atmarkit.co.jp/flinux/rensai/linuxtips/503usevmwfshare.html

に書かれているようにすればよい。
でも/mnt/hgfs/から共有ファイルは見れるようにならなかった。

そんなときはrootになって
# vmware-config-tools.pl
を実行するとなおるかも。

gccのcompilerのバージョンが3以上だけど使うか?
と聞かれるが、yesと答えて、他はデフォルトの答えで、
共有できました。
posted by xi at 21:52| Comment(0) | TrackBack(0) | コンピュータ | このブログの読者になる | 更新情報をチェックする

ゲストOSがLinuxのVmwareでUSBメモリを使う

普通のLinuxの場合

# mkdir /mnt/usbfm
# mount -t vfat /dev/sda1 /mnt/usbfm/

でUSBメモリをマウントできるのですが、
VmwareでWindowsホストに入れたLinuxゲストだと、

mount: /dev/sda1 は マウント済か /mnt/usbfm/ が使用中です
mount: mtab によると、/dev/sda1 は /boot にマウントされています

とエラーが出てしまいました。

# dmesg

をみると

SCSI device sdb: 2048000 512-byte hdwr sectors (1049 MB)

とか書いてあったのでsdaではなくsdbと変えて

# mount -t vfat /dev/sdb1 /mnt/usbfm/

としたら、ちゃんとマウントできました。

参考:@IT:USBフラッシュメモリを使うには
http://www.atmarkit.co.jp/flinux/rensai/linuxtips/554useusbmem.html
posted by xi at 10:47| Comment(2) | TrackBack(0) | コンピュータ | このブログの読者になる | 更新情報をチェックする

2006年10月07日

perlモジュールの入れ方

コマンドラインで簡単に入れられる。
rootになって

$ perl -MCPAN -e shell

はじめての場合は設定をしなければいけないが、
とりあえずは全部デフォルトで、
国とURLだけ適当に選べばよい。

cpan> install Error
とするとError.pmがインストールできるし

cpan> install XML/Simple
とするとXML/Simple.pmがインストールできる

rootになれないときは、srcをとってきて
% perl Makefile.PL PREFIX=/home/hoge
% make
% make install
とすると、自分のホームディレクトリにインストールできる

perlのライブラリパスを設定するには
% export PERL5LIB=/home/hoge/lib/
posted by xi at 01:10| Comment(0) | TrackBack(0) | コンピュータ | このブログの読者になる | 更新情報をチェックする

2006年09月14日

図解 マナー以前の社会人常識

マナーは相手を不快にさせないために
社会人にとって身につけておかないといけないものです。
上司とお客と友人と信頼関係を築くためにも必要です。
そんなマナーを教えてくれる本。

料理の食べ方から言葉遣い、結婚祝いの金額まで
マナー以前の社会人常識がまとめられています。

マナーには理由があります。
基本的には他人への「思いやり」がその根底にあります。
例えば、レストランに入るとき、
コートは店の入り口で脱いで預かってもらうのがマナーです。
これは、食事中に近くでコートを脱がれ、
コートについたチリやホコリが料理にかかったら
イヤな思いをする人がいるかもしれないからです。
その理由とともにマナーを覚えると、忘れにくくなるでしょう。

図解 マナー以前の社会人常識
岩下 宣子
講談社 (2005/09)
posted by xi at 20:28| Comment(0) | TrackBack(0) | | このブログの読者になる | 更新情報をチェックする
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。