[1月20日]の変更点 - actuary-seminar @ ウィキ

1月20日

「1月20日」(2011/02/12 (土) 17:27:04) の最新版変更点

追加された行は緑色になります。

削除された行は赤色になります。

自主ゼミ内容をまとめました。前半４５分。今回は確率統計の話が中心です。あとPo(k= λ=）というのはポアソン分布のkとλに数字を代入したものです。普通はPo(λ）となっていますが、ここでは上のようにさせてもらいました。 1/20　前半45分 [７５～８２ページ] 十分統計量順序統計量死亡率・故障率・危険率基本的なことは http://image02.wiki.livedoor.jp/u/7/ut2010s2317/f23e8ec8daaa7cb5.pdf などがわかりやすいと思います。統計量とは？あるデータが与えられたとき（X1,X2…Xn）を四則演算するもの例：X1+X2+…Xn（和）例：X1*X2*…Xn（積）例：X1^2+X2^2+…Xn^2（二乗の和）統計量はパラメータ依存するものが多い。十分確率分布はパラメータ依存しない。順序統計量は計算方法が決まっている。十分統計量問題例ある製品を大量生産する工場があるとする。１日あたりにどれぐらいの不良品ができるのか求めたい。毎日の生産量はn失敗確率はpとするとこの分布は？ →ポアソン分布二項分布の特殊盤。pが小さいことは前提としてある。 Np=λがわかればいいのだがサンプリングしないと無理である。ということで仮に5日間サンプリングしてみた。１日目は５個、２日目が７個、３，４，５日目が６，４，９個の不良品がでた。（つまりk=5,7,6,4,9） L(5,7,6,4,9) ≡P(k-5,k=7,k=6,k=5,k=9） =Po(λ,k=5)Po(λ,k=7)Po(λ,k=6)Po(λ,k=5)Po(λ,k=9) λは具体値を書いていない。 logをつけて偏微分すると良い。 100個1000個増えるとパラメータが増えて計算できない。（計算はできるが理論的に意味を成さない）また1000個保存しておかねばならなくその費用もかかる。まとめてあとでパラメータを出しておけば良い。そのため以下のような方法をとる。これはポアソン分布が再生性があることから成り立つものである。上の５日間の例で行うと T=X1+X2+X3+X4+X5とする。上の例では P(T=31)=Po(5λ,k=31)となる。 P(x1=5,x2=7…|T=31) =P(x1=5,x2=7…）/P(T=31) =Q(パラメータなし）よって十分統計量である。上の方から計算すればよく、パラメータを出す上では必要な部分のみを残し、余分な情報を削っている。つまり… 全部足しあわせて計算すればよく1つ1つ計算する必要はない。そのため保存する必要もない。なぜならば十分統計量のため（λがきえる）順序統計量 X[1](max(x1～xn）） X[n](min(x1～xn)) とする。[]は添字である。 P78 6-22(1)などの例組み合わせで分けることも。P76に詳しく書いてある。死力故障率といったほうが認知度が高いのかも。関係することに生存関数といわれるものがある。定義などはP79をみればよい。統計分析でもやっている。これについては後日上げたいと思う。微分すると-が付くことに注意以下F(x)はすべて生存関数を表す（つまりバーが付いているもの）とする。以下のF(x)の定義（これは上の人向きである） F(x) ≡統計界でF(x)のバーと使われている ≡統計界では1-F(x)と表されるとする。また生存関数なのでlonF(0)=1である。（生存の定義から考えて0秒後に生きている確率は1である）したがってλを積分（０からｔまで）すると -logFx+logF0 となる。もう１度行っておくがこれらのFは生存関数のFであり実際ではバーがついてあらわされるものである。話はそれたが F=e^(-logFx+logF0)という式がたつ。詳しい説明は７９ページや８０ページをみて、参考資料などをみるのがよいだろう。 P81 6.30の（１）などが練習問題として扱われた。これについては解答をみて貰えば良いと思うのでここでは詳しく記さない。ここは&bold(){回帰分析}の話が中心です。 &bold(){回帰分析・重回帰分析・推定量・ダミー変数}についてです。あと金融勉強してる人もたくさんいるので金融用語が出てきます。あとこっちのノートを参考にしてください。 http://www43.atwiki.jp/actuary-seminar?cmd=upload&act=open&pageid=13&file=actyuary-seminar4th.pdf 基本的な公式は省略。先ほど上げた基礎統計のプリントでもみてください。さてモデルとしてy,xの間にy=α＋βxという関係があるとする。 βは金融での理論CAPMで出てくる分散と平均リターンの関係で出てくるヒストリカルβとも関係しています。（僕は知識ないので、先輩が言っていたことをそのままかきました）では一番簡単な回帰分析である一変数の場合から。 &bold(){単回帰}とかいわれるやつです。あるα、βに大してモデルの当てはまり度合いを考える。 Q=Σ(y-α-βx)^2 このずれQを最小とするα,βをみつけるよう。偏微分して０になるようなα,βを求めれば良い（まあ数学の世界的にお決まり）７～８ページ参照。そうするとあの公式になる。 α,β＝標準偏差と共分散であらわせるの公式また&bold(){正規方程式}を満たす。 p7の一番下に書いてあることである。覚える方法としてあげられていたのが１行目はY=α＋βxを想像すればよい。２行目は上のY=α＋βxにxをかけたということをやるつもりにする。実際にやるのではなくやるつもり実際は平均の２乗と２乗の平均は違う。ということでそこを修正すればよい。あくまでやるつもり、と覚えれば簡単に修正しなければならないことも忘れないだろう。さらに転置してもかわらない行列と覚えておくのも良い。８ページ７行目をみると yの標準化＝相関係数×xの標準化とある。これは言葉のまま覚えておいてもいいし、式で覚えても良い。内挿値という言葉がある。残差という言葉もある。これについては８ページ参照。以下再生性の議論をしたいが時間がないので省く。多次元の正規分布公式の話もちょっと出たが僕はまだわからないので略。では回帰分析は実際のモデルと比べてどのぐらい正しいのだろうか？理想的ならば内挿値からの二乗と計算の差の二乗が一致するべきだろう。ここでR^2を決定係数という。詳しくはP8参照。これは誤差を考える話である。モデルと現実の差を考えるのが残差変動。誤差の二乗をシグマしたものが残差変動である。全変動＝回帰変動＋残差変動。これについては少し考えればわかります。決定係数の範囲などは定義から考えればわかるので省略。エクセルとかでも決定係数はつかわれますね。計量社会科学などの分野でもよく使われます。１に近いほど正しいモデルです。今まではたかだか１変数の単回帰分析でしたが次にやるのが&bold(){重回帰}。これは変数が２この場合です。これもまた正規方程式がなりたちます。覚え方は単回帰の場合と同様で１行目は当たり前。２行目はｘ１をかけるつもり３行目はｘ２をかけるつもりです転置しても同じです。ちなみに転置しても行列が同じであることを対称行列とよび全ての成分が実数なら実対称行列とよぶそうです。（先輩話）非線形回帰については今のところは語ることはあまり有りません。それで推定量の話にいくわけですが、これについては楽なので省略。基礎統計レポートでもみればのってます。次にダミー変数。簡単なことしか扱わなかったのですが twitter上で聞いた話では今年の数学のアクチュアリー試験でダミー変数がでたらしいですね。ということでこれについても少し書きます。相関社会科学とかにもつかわれてます。簡単にいうと事故とかがおこりグラフが突然かわる場合があります。例えば１ヶ月の事故死者数が４月１００人　５月１１３人　６月１２１人　７月１１２人であったとします。これは普通の記録でありここでの死亡者数はあまり大きなものではありません。ここで大規模災害（飛行機が墜落とか電車が脱線とか）がおき事故死者数　８月１４００人　となったとしましょう。その後９月１１４人　１０月１１１人　１１月１０２人となりこのままではこのデータは使えません。数学のグラフの使い方の一つに総合人数でいくという方法があります。上の例であれば４月まで１００人　５月まで２２３人　６月まで３４４人といった感じです。これを直線でつなげていくとほぼ直線のグラフになりますね。で、事故が起こった８月部分も含めてグラフを書くと８月部分が急に角度が変わったグラフになりその後４月から７月のようにもどります。これを利用したい。で、２つにわけて回帰分析すればいいじゃないかと思うかもしれません。その方法もないこともないのですがここで重要なものは傾きです。傾きが得られれば大丈夫です。このようなときにダミー変数というものを使います。ここで使うのは定数項ダミーの議論です。詳しい使い方は知らないので略しますが、このように突然大きくなったときに使う数学的手法です。傾きだけを知ればいい。でも事故などによって激変化している時にデータを利用する為の手法です。　また係数ダミーというものもあり、これは途中から変数が増えるという場合に用いる手法です。推定量基礎的なことは基礎統計プリントを参照。変数変換してY=α＋βxの形に直します。このときどうなるかを考えます。１０～１１ページに議論が書いてあります。さて式をみてもらうことにしてαβのずれの原因はεを含む項によるズレです。あとの証明は時間がなかったので省略。誤差項の期待値が０であることに注意していけばちゃんと証明ができます。分散と共分散誤差項の線形和や分散・共分散行列を考えますシグマの二乗で立てられますので詳しくは下からどうぞ http://www43.atwiki.jp/actuary-seminar?cmd=upload&act=open&pageid=13&file=actyuary-seminar4th.pdf

自主ゼミ内容をまとめました。今回は確率統計の話が中心です。あとPo(k= λ=）というのはポアソン分布のkとλに数字を代入したものです。普通はPo(λ）となっていますが、ここでは上のようにさせてもらいました。 1/20　前半45分 [７５～８２ページ] 十分統計量順序統計量死亡率・故障率・危険率基本的なことは http://image02.wiki.livedoor.jp/u/7/ut2010s2317/f23e8ec8daaa7cb5.pdf などがわかりやすいと思います。統計量とは？あるデータが与えられたとき（X1,X2…Xn）を四則演算するもの例：X1+X2+…Xn（和）例：X1*X2*…Xn（積）例：X1^2+X2^2+…Xn^2（二乗の和）統計量はパラメータ依存するものが多い。十分確率分布はパラメータ依存しない。順序統計量は計算方法が決まっている。十分統計量問題例ある製品を大量生産する工場があるとする。１日あたりにどれぐらいの不良品ができるのか求めたい。毎日の生産量はn失敗確率はpとするとこの分布は？ →ポアソン分布二項分布の特殊盤。pが小さいことは前提としてある。 Np=λがわかればいいのだがサンプリングしないと無理である。ということで仮に5日間サンプリングしてみた。１日目は５個、２日目が７個、３，４，５日目が６，４，９個の不良品がでた。（つまりk=5,7,6,4,9） L(5,7,6,4,9) ≡P(k-5,k=7,k=6,k=5,k=9） =Po(λ,k=5)Po(λ,k=7)Po(λ,k=6)Po(λ,k=5)Po(λ,k=9) λは具体値を書いていない。 logをつけて偏微分すると良い。 100個1000個増えるとパラメータが増えて計算できない。（計算はできるが理論的に意味を成さない）また1000個保存しておかねばならなくその費用もかかる。まとめてあとでパラメータを出しておけば良い。そのため以下のような方法をとる。これはポアソン分布が再生性があることから成り立つものである。上の５日間の例で行うと T=X1+X2+X3+X4+X5とする。上の例では P(T=31)=Po(5λ,k=31)となる。 P(x1=5,x2=7…|T=31) =P(x1=5,x2=7…）/P(T=31) =Q(パラメータなし）よって十分統計量である。上の方から計算すればよく、パラメータを出す上では必要な部分のみを残し、余分な情報を削っている。つまり… 全部足しあわせて計算すればよく1つ1つ計算する必要はない。そのため保存する必要もない。なぜならば十分統計量のため（λがきえる）順序統計量 X[1](max(x1～xn）） X[n](min(x1～xn)) とする。[]は添字である。 P78 6-22(1)などの例組み合わせで分けることも。P76に詳しく書いてある。死力故障率といったほうが認知度が高いのかも。関係することに生存関数といわれるものがある。定義などはP79をみればよい。統計分析でもやっている。これについては後日上げたいと思う。微分すると-が付くことに注意以下F(x)はすべて生存関数を表す（つまりバーが付いているもの）とする。以下のF(x)の定義（これは上の人向きである） F(x) ≡統計界でF(x)のバーと使われている ≡統計界では1-F(x)と表されるとする。また生存関数なのでlonF(0)=1である。（生存の定義から考えて0秒後に生きている確率は1である）したがってλを積分（０からｔまで）すると -logFx+logF0 となる。もう１度行っておくがこれらのFは生存関数のFであり実際ではバーがついてあらわされるものである。話はそれたが F=e^(-logFx+logF0)という式がたつ。詳しい説明は７９ページや８０ページをみて、参考資料などをみるのがよいだろう。 P81 6.30の（１）などが練習問題として扱われた。これについては解答をみて貰えば良いと思うのでここでは詳しく記さない。ここは&bold(){回帰分析}の話が中心です。 &bold(){回帰分析・重回帰分析・推定量・ダミー変数}についてです。あと金融勉強してる人もたくさんいるので金融用語が出てきます。あとこっちのノートを参考にしてください。 http://www43.atwiki.jp/actuary-seminar?cmd=upload&act=open&pageid=13&file=actyuary-seminar4th.pdf 基本的な公式は省略。先ほど上げた基礎統計のプリントでもみてください。さてモデルとしてy,xの間にy=α＋βxという関係があるとする。 βは金融での理論CAPMで出てくる分散と平均リターンの関係で出てくるヒストリカルβとも関係しています。（僕は知識ないので、先輩が言っていたことをそのままかきました）では一番簡単な回帰分析である一変数の場合から。 &bold(){単回帰}とかいわれるやつです。あるα、βに大してモデルの当てはまり度合いを考える。 Q=Σ(y-α-βx)^2 このずれQを最小とするα,βをみつけるよう。偏微分して０になるようなα,βを求めれば良い（まあ数学の世界的にお決まり）７～８ページ参照。そうするとあの公式になる。 α,β＝標準偏差と共分散であらわせるの公式また&bold(){正規方程式}を満たす。 p7の一番下に書いてあることである。覚える方法としてあげられていたのが１行目はY=α＋βxを想像すればよい。２行目は上のY=α＋βxにxをかけたということをやるつもりにする。実際にやるのではなくやるつもり実際は平均の２乗と２乗の平均は違う。ということでそこを修正すればよい。あくまでやるつもり、と覚えれば簡単に修正しなければならないことも忘れないだろう。さらに転置してもかわらない行列と覚えておくのも良い。８ページ７行目をみると yの標準化＝相関係数×xの標準化とある。これは言葉のまま覚えておいてもいいし、式で覚えても良い。内挿値という言葉がある。残差という言葉もある。これについては８ページ参照。以下再生性の議論をしたいが時間がないので省く。多次元の正規分布公式の話もちょっと出たが僕はまだわからないので略。では回帰分析は実際のモデルと比べてどのぐらい正しいのだろうか？理想的ならば内挿値からの二乗と計算の差の二乗が一致するべきだろう。ここでR^2を決定係数という。詳しくはP8参照。これは誤差を考える話である。モデルと現実の差を考えるのが残差変動。誤差の二乗をシグマしたものが残差変動である。全変動＝回帰変動＋残差変動。これについては少し考えればわかります。決定係数の範囲などは定義から考えればわかるので省略。エクセルとかでも決定係数はつかわれますね。計量社会科学などの分野でもよく使われます。１に近いほど正しいモデルです。今まではたかだか１変数の単回帰分析でしたが次にやるのが&bold(){重回帰}。これは変数が２この場合です。これもまた正規方程式がなりたちます。覚え方は単回帰の場合と同様で１行目は当たり前。２行目はｘ１をかけるつもり３行目はｘ２をかけるつもりです転置しても同じです。ちなみに転置しても行列が同じであることを対称行列とよび全ての成分が実数なら実対称行列とよぶそうです。（先輩話）非線形回帰については今のところは語ることはあまり有りません。それで推定量の話にいくわけですが、これについては楽なので省略。基礎統計レポートでもみればのってます。次にダミー変数。簡単なことしか扱わなかったのですが twitter上で聞いた話では今年の数学のアクチュアリー試験でダミー変数がでたらしいですね。ということでこれについても少し書きます。相関社会科学とかにもつかわれてます。簡単にいうと事故とかがおこりグラフが突然かわる場合があります。例えば１ヶ月の事故死者数が４月１００人　５月１１３人　６月１２１人　７月１１２人であったとします。これは普通の記録でありここでの死亡者数はあまり大きなものではありません。ここで大規模災害（飛行機が墜落とか電車が脱線とか）がおき事故死者数　８月１４００人　となったとしましょう。その後９月１１４人　１０月１１１人　１１月１０２人となりこのままではこのデータは使えません。数学のグラフの使い方の一つに総合人数でいくという方法があります。上の例であれば４月まで１００人　５月まで２２３人　６月まで３４４人といった感じです。これを直線でつなげていくとほぼ直線のグラフになりますね。で、事故が起こった８月部分も含めてグラフを書くと８月部分が急に角度が変わったグラフになりその後４月から７月のようにもどります。これを利用したい。で、２つにわけて回帰分析すればいいじゃないかと思うかもしれません。その方法もないこともないのですがここで重要なものは傾きです。傾きが得られれば大丈夫です。このようなときにダミー変数というものを使います。ここで使うのは定数項ダミーの議論です。詳しい使い方は知らないので略しますが、このように突然大きくなったときに使う数学的手法です。傾きだけを知ればいい。でも事故などによって激変化している時にデータを利用する為の手法です。　また係数ダミーというものもあり、これは途中から変数が増えるという場合に用いる手法です。推定量基礎的なことは基礎統計プリントを参照。変数変換してY=α＋βxの形に直します。このときどうなるかを考えます。１０～１１ページに議論が書いてあります。さて式をみてもらうことにしてαβのずれの原因はεを含む項によるズレです。あとの証明は時間がなかったので省略。誤差項の期待値が０であることに注意していけばちゃんと証明ができます。分散と共分散誤差項の線形和や分散・共分散行列を考えますシグマの二乗で立てられますので詳しくは下からどうぞ http://www43.atwiki.jp/actuary-seminar?cmd=upload&act=open&pageid=13&file=actyuary-seminar4th.pdf

表示オプション

横に並べて表示：

変化行の前後のみ表示：

ツールボックス

下から選んでください:

新しいページを作成する

ヘルプ / FAQ もご覧ください。

actuary-seminar @ ウィキ

1月20日

「1月20日」(2011/02/12 (土) 17:27:04) の最新版変更点

メニュー