2006年10月10日

VmwareでLinux(ゲストOS)のグラフィック設定

ホストOS:WindowsXP
ゲストOS:Linux Vine3.0
PC:レッツノートCF-R3
Vmware4.5.2

/etc/X11/xorg.confの設定
DefaultDepth 24
Subsection "Display"
Depth 24
Modes "1024x768"
EndSubSection

posted by xi at 22:06| Comment(0) | TrackBack(0) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2006年07月12日

ドコモからau、vodafoneに絵文字が送れるように

7月12日、docomoの携帯からau、ボーダフォンに
メールの絵文字が送れるようになりました。
どんな風に変換されるかは下の表で確認してください。

絵文字変換機能 | サービス・機能 | NTTドコモ
http://www.nttdocomo.co.jp/service/imode/mail/imode_mail/emoji_convert/

絵文字だとうまく伝えられることも多々あるので、うれしいサービス
posted by xi at 21:55| Comment(0) | TrackBack(1) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2006年06月04日

C++で固有値解析

arpack++を使って密行列の固有ベクトルを求める

#include "ardsmat.h" //密行列作成のため
#include "ardssym.h" //対称密行列操作のため

int N = 3 ; //行列サイズ
double* A = new double [ N*(N+1)/2 ] ; //対称行列の領域を確保
//対称行列の要素を入れる
ARdsSymMatrix B( A, N ) ; //行列を作成
int dim = 2 ; //求めたい固有ベクトルの数
ARluSymStdEig dprob( dim, A ) ;
int nconv = dprob.FindEigenvectors();
double** EigenVec = new double* [ dim ] ; //固有ベクトルを入れる配列
for ( int i = 0 ; i < dim ; i ++ ) {
EigenVec[i] = dprob.RawEigenvector(dim-1-i) ;
}
posted by xi at 22:38| Comment(0) | TrackBack(0) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2006年05月23日

「第1感 最初の2秒のなんとなくが正しい」マルコム・グラッドウェル

熟考するよりも直感で正解を導くことができることがある。理由を言葉にすることはできないが、なんとなく正しいとわかる。そんな直感(第1感)の大きな力、怖さ、操り方を教えてくれる本。

人類が厳しい生存競争を勝ち残れてきたのは、情報がわずかでも素早く的確な判断を下す能力を発達させてきたからにほかならない。高度な思考の多くを無意識に譲り渡してこそ、心は最高に良く働けるのである。

問題を予測するには大量のデータを多様な場面から拾ってくる必要があると普通考える。しかし、それが当てはまらない場合もある。ジョン・ゴッドマンは夫婦の会話のビデオを1分間解析するだけで、その夫婦の15年後を95%の確率で予測してしまった。しかも、4つの感情だけに注目してである。それができたのは、結婚生活という複雑な活動でも、人間の活動の基本的な部分には、区別できる安定なパターンが存在するためである。そして、大量の情報に惑わされることなく絞り込んだ点のみに集中したためである。

情報が増えるほど、判断の正確さに対する自信は不釣合いなほど高くなってしまう。しかし、情報が増えても大して判断が正確になるわけではない。さらに、自信を持つほど正確な判断ができなくなる。

私たちは無意識の行動を結構している。老化に関係する言葉を聞くだけで無意識に老人のような歩き方になるという心理学実験(プライミング実験)もある。無意識から生まれた思考について説明をしようとしてもうまくできない。言語化することによって直感が損なわれてしまうこともあるくらいである。左脳は言葉で考え、右脳は視覚で考える。言葉で説明しようとすると、思考が右脳から左脳に追いやられてしまうのである(言語による書き換え)。

しかし、無意識の感想は経験を重ねることで、直感の意味を読み取れるようになる。また、瞬時に正確な判断を下すためには、訓練とルールとリハーサルで決まる。バスケットボールでも即興芝居でも、単純な行動のルールを決め、繰り返し訓練することで、本番で素晴らしい結果を残すことができる。

メモ

一般に経済学では選択肢が多い方が商品が購入される確率は高くなるといわれている。しかし、選択肢が6種類の場合立ち寄った客の30%がジャムを買った。一方、種類が多いときにジャムを買った客は3%だった。選択肢が多すぎたため、無意識の処理能力を超えてしまい、瞬間的に買うという判断ができなくなってしまったためだ。

差別意識テスト(ITAテスト)
https://implicit.harvard.edu/implicit/japan/selectatest.jsp
人種、体重、性別、国籍、同性愛、年齢に対する無意識の差別意識を教えてくれる

感覚転移
製品のパッケージに対して抱いた感覚や印象を、製品そのものに転移させてしまう

市場調査は完璧ではない
市場調査でペプシの方がおいしいという結果がでたが、シェアは増えなかった。少量だけ飲む試飲による市場調査では1本飲んだときの感想と変わってしまうことがあるためである。

第1感  「最初の2秒」の「なんとなく」が正しい
M・グラッドウェル 沢田 博 阿部 尚美
光文社 (2006/02/23)


posted by xi at 23:16| Comment(5) | TrackBack(2) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2006年05月20日

「戦争論概論」黒野耐

日本人は第二次世界大戦で軍部が独走して日本を悲惨な戦争に引き込んだ
というトラウマのため、戦争に極度の拒否感を持ち、
戦争論を学ぼうとしない。
しかし、強硬姿勢を示す中国、北朝鮮、韓国などに対し
このままでは日本の国益は侵されて行くだろう。
また、戦争を避けるためには戦争を知るべきなのである。

地政学
国際関係について地理的概念を基礎として全体の動向をつかみ、
そこから国家戦略に必要な判断の材料を引き出そうという学問。

アメリカの戦争思想
米国人にとって土地拡大は自然界の膨張と同じ「膨張の天命」であり、
19世紀中頃に太平洋岸まで発展することが米国の天命であると考える。
この思想は、太平洋やカリブ海へ進出するときにも用いられた。
米国は、冷戦時代に競い合ったソ連が消滅してしまったいま、
外部に敵を作ることによって政治的に団結するのが困難になってきた。
そしていま米国は「イスラム原理主義者」という新たな敵をつくりだした。

戦争形態の歴史
絶対王政時代の戦争は、軍隊が消滅すれば国王の地位を保証するものは何もなく、軍事行動は高価な傭兵の消耗を惜しんで慎重なものであった。
その戦争の形態ナポレオンが壊した。
ナポレオンは、敵国の抵抗力を完全に奪い、こちらの政治的要求を一方的に強要して戦争を終結させる「絶対戦争」という形で勝ち続けた。

ゲリラ対抗策
ゲリラが頑張れるのは民衆の中に隠れて支援を得るからである。
これを阻止するためには善政を行えばいい。
現在の政権に対する支持が得られれば、ゲリラを支援する人は減る。
民衆に助けられているゲリラを殲滅することは不可能であり、
政治的に解決することが有効なのである。

「戦争学」概論
「戦争学」概論
posted with amazlet on 06.05.20
黒野 耐
講談社 (2005/09)
売り上げランキング: 85,144
おすすめ度の平均: 3.8
5 戦争学の名著です!
1 古色蒼然たる「戦争概論」
4 わかりやすく戦争学が理解できるオススメ本

posted by xi at 15:36| Comment(1) | TrackBack(1) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2006年04月11日

データマイニングをマーケティングに使う

マーケターのためのデータマイニング講座http://www.atmarkit.co.jp/fitbiz/serial/datamining/01/01.html

CRM (Customer Relationship Management:顧客関係管理)
とは、顧客との関係を長期的に改善、維持することにより、
企業の収益を最大化するという経営戦略

優良顧客予備軍の「発見」と「育成」がCRMのカギ

CRMが重要な理由
1.新規顧客獲得は、既存顧客維持より高コスト
2.離反顧客を取り戻すのは、離反しないように満足させるより高コスト
3.新規顧客に売るより、既存顧客に売るほうが簡単
4.一部の顧客が他の顧客より収益性がはるかに高い

CRMのための手法
1.潜在顧客の発見→ターゲットを絞ったプロモーション
2.収益増加のための、適切なクロスセル・アップセル
(1購買あたりの購買点数、もしくは購買頻度をあげる)
3.離反顧客の発見→離反を未然に防ぐ

統計とデータマイニングの違い
統計:仮説検証のための手法
データマイニング:仮説構築のための手法

データマイニングで知識を発見→将来を予測→アクション

関連図書
データマイニング手法―営業、マーケティング、CRMのための顧客分析
マイケル・J.A. ベリー ゴードン・S. リノフ Michael J.A. Berry Gordon S. Linoff 江原 淳 上野 勉 河野 順一 佐藤 栄作 朝稲 努
海文堂出版 (2005/10)

posted by xi at 22:18| Comment(1) | TrackBack(0) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2006年04月03日

特徴選択

特徴選択の効用

1.予測精度を上がる
2.計算が速くなる、記憶容量が少なくてすむ
3.モデルが理解しやすくなる

特徴選択法の分類

1.Filter : モデルを仮定せず、前処理として特徴選択(相関係数)
よいところ:計算量が少ない

2.Wrapper:モデルの予測精度が上がるように特徴量を選択
よいところ:予測精度が上がる

Isabelle Guyon, André Elisseeff,
"An Introduction to Variable and Feature Selection,"
Journal of Machine Learning Research, 3:1157--1182, 2003.
http://jmlr.csail.mit.edu/papers/volume3/torkkola03a/torkkola03a.pdf
Special Issues
Variable and Feature Selection (Mar 2003)

Feature Selection
Variable Selection
特徴抽出
posted by xi at 22:30| Comment(0) | TrackBack(0) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2005年12月07日

交換可能性と独立同一分布

exchangeablityとindependent and identically distributed (iid)

交換可能である(exchangeable)とは、
確率変数x{1},...,x{n}の同時分布が
変数を交換しても変わらないこと、
つまり、
p(x{1},...,x{n})=p(x{i1},...,x{in})
であることである。
ここで、i1,...,inは1からnの全順列を表す。

iid(独立)であれば
p(x{1},...,x{n})=p(x{1})*...*p(x{n})
となるので、exchangeableである。

しかし、exchangeableだからといってiidではない。

Bayesian Data Analysis
Bayesian Data Analysis
posted by xi at 21:51| Comment(1) | TrackBack(0) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2005年12月01日

直行行列は回転行列

行列UがU'U=Iとなるとき、Uは直行行列である。
ここでU'は行列Uの転置、Iは単位行列を表す。

xをベクトルとすると、y=Uxと線形変換したとき、
yはxを回転したものになる。

yのノルムは
||y||=y'y=(Ux)'(Ux)=x'U'Ux=x'x=||x||
とxのノルムと等しく、

また、

y=Uxとw=Uzの内積は
y'w=(Ux)'(Uz)=y'U'Ux=y'x
とxとuの内積に等しくなる。

つまり、直行行列による線形変換は大きさも、xとzが成す角も保存する、
回転させる変換となるわけです。

プログラミングのための線形代数
プログラミングのための線形代数
posted by xi at 23:20| Comment(0) | TrackBack(0) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2005年11月03日

情報可視化とビジュアルデータマイニング

最近、Webで情報可視化技術が使われているのを目にします。
例えば、
・検索結果を可視化する「KartOO」
  http://www.kartoo.com/
・新書をテーマ毎に可視化する「新書マップ」
  http://shinshomap.info/
・アーティストの関連を可視化する「liveplasma music」
  http://musicplasma.com/
などなど。

まだユーザに広く使われているとは言えない状況ですが、
現在よく使われている表示法である、リストや表では表現できない
ことを表現することができます。
例えば、本を可視化することによって、
それらの本の内容の近さなどが直感的に分かります。

情報可視化について
"Information Visualization and Visual Data Mining,"
Daniel A. Keim, IEEE Transactions on Visualization and Computer
Graphics, vol.7, no.1, 100-107, 2002.
http://www.ailab.si/blaz/predavanja/ozp/gradivo/2002-Keim-Visualization%20in%20DM-IEEE%20Trans%20Vis.pdf
などで勉強してみました。

現在、大量のデータが蓄積されています。
しかし、そのなかから価値のあるものを見つけることは困難です。
コンピュータにより自動的に価値のある情報を発見する、
いわゆるデータマイニング技術はその解決法の1つですが、
コンピュータにマイニング結果を提示されても、
どうしてそうなったのか理解することが難しく、
またマイニング結果が意味のないものであることはしばしばあります。

情報可視化することにより、データマイニングの過程において、
人間が直接入り込むことができます。
コンピュータの膨大な記憶容量、高速な計算能力に、
人間の(現在のコンピュータには真似できない)柔軟性、創造性、常識、推論能
力、直感能力、また、視覚的認知能力を組み合わせることにより、
それまで発見できなかったものを、発見できる可能性が生まれます。

このコンピュータと人間の優れた部分を、情報可視化技術により統合し、
マイニングすることを、ビジュアルデータマイニングと呼びます。

ビジュアルデータマイニングは、
データに対してあまり知識がなく、マイニングのゴールがあいまいな時、
よりその効果を発揮できます。
人間とコンピュータが試行錯誤を繰り返しながらマイニングできるためです。
また、そのマイニング結果は、
人間が可視化結果を見て得られたものであり、直感的に理解できます。

しかし、情報検索の場合には、
通常のディレクトリ型検索エンジンの方が、
可視化したものより、
早く欲しいものを見つけられたという実験結果が出ています。
ただ、上でも書いたように、目的地がはっきりしていない場合、
つまり欲しい情報が明確に分からない場合は、有用です。

ビジュアルデータマイニングプロセスは次の3つのステップで行われます。
1.全体を見せ
2.ズームやフィルタリングをして
3.要求により詳細を見せる
この3つをうまく合わせてやることが必要です。

情報可視化技術は3つの基準で分類することができます。
1.データのタイプ
(1次元?2次元?多次元?時系列?グラフ?文書?)
2.可視化法
(2次元分布図?地図?アイコン?)
3.インターフェースとゆがめ方
(ズーム?射影?)
データタイプや応用先によって
適切な可視化法やインターフェースは
もちろん異なります。

通常の可視化研究はただ「○○データを△△法で可視化してみました」
で終わっているものが多いです。
どのようなデータでどのような目的の場合、
どのような可視化法とインターフェースが適しているか、
一般的に当てはまる体系をつくることが、まず必要だと思われます。

さらなる発展のために、従来の機械学習や統計の技術と
より密接に統合する必要があると考えられます。

また、ajaxやflashが普及し、普通の人でも可視化アプリケーションをつくり、
Webでサービスを行うことができる環境ができてきました。
まずサービスしてみて、多くの人に使ってもらい、
そのなかで情報可視化技術が発展していくのが、一番の近道だと思います。

さまざまな情報可視化技術は
"Information Visualisation: Tutorial Notes"
http://www.iicm.edu/ivis/ivis.pdf
で紹介されています。

日本語のWebサイトとしては
私のブックマーク:情報可視化とデジタルミュージアム
http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/16-2.html
Visualization
http://pitecan.com/bib/Visualization.html
などがあります。

Information Visualization: Perception for Design
Information Visualization: Perception for Design

Visualization Handbook
Visualization Handbook

自己組織化マップの応用―多次元情報の2次元可視化
自己組織化マップの応用―多次元情報の2次元可視化
posted by xi at 01:25| Comment(26) | TrackBack(2) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2005年02月17日

統計的学習オススメ本

The Elements of Statistical Learning
The Elements of Statistical Learning
機械学習の基礎が網羅されています

Kernel Methods for Pattern Analysis
Kernel Methods for Pattern Analysis
SVMなどのカーネル法を使うための入門書


Neural Networks for Pattern Recognition
ニューラルネットを学ぶのに最良の本

posted by xi at 23:55| Comment(1) | TrackBack(0) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2005年02月01日

ベイズ統計と統計物理

岩波講座物理の世界 物理と情報 (3) ベイズ統計と統計物理
ベイズ統計と統計物理、伊庭幸人、岩波書店

「考える」とか「推理する」ということと、物理とのアナロジー
について書かれた本。

薄い本なので最後までくじけずに読みきれるはずです。

ベイズの枠組みで確率的推論ができるが、
分からない部分が多くて依存関係グラフにループが多くある場合、
膨大な量の計算が必要となる。
統計物理の分野で使われてきた計算手法(マルコフ連鎖モンテカルロ法)
を使うことで、この計算が簡単に(寝ている間に)できてしまう

というストーリーで、

統計物理とベイズ統計のどこが似ていて、
どうして統計物理の方法が推論に使えるのか、
どこが違って、どのように改良して使えるようにしたか、
などが分かります。

はじめて学ばれる方にとっては、夏の午後の街路のように平穏に歩け、専門家にとっては、足元の影に目を落とせば忽ち迷宮に迷うような本を書きたかった

というわけで、
ベイズ統計しかしらない情報の人にも、
統計物理しかしらない物理の人にも、
両方とも知らない普通の人にも、
両方とも知っている変わってる人にも
楽しめるように書かれた本。

関連図書
ベイズ統計学入門
ベイズ統計学入門
posted by xi at 22:34| Comment(0) | TrackBack(0) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2005年01月24日

指数型分布族は最尤推定で解析的に唯一解を求めることができる

互いに独立で同一の指数型分布族(exponential family)の分布に従う(iid:independent identically disributed)データの最尤推定は、唯一の解を持ち、解析的に解くことができる。

指数型分布族は
P(x|Θ)=exp(A(x)+T(x)'Θ-K(Θ))
と書くことができる確率分布で、正規分布、多項分布、指数分布などが含まれる。続きを読む
posted by xi at 00:00| Comment(0) | TrackBack(1) | 機械学習 | このブログの読者になる | 更新情報をチェックする

2005年01月22日

ベイズ推定、MAP推定、最尤推定

データXが与えられたとき、その確率変数xの分布P(x|X)を推定する問題を考える。続きを読む
posted by xi at 17:31| Comment(0) | TrackBack(0) | 機械学習 | このブログの読者になる | 更新情報をチェックする
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。