1月20日

「1月20日」の編集履歴(バックアップ)一覧はこちら

1月20日」(2011/02/12 (土) 17:27:04) の最新版変更点

追加された行は緑色になります。

削除された行は赤色になります。

自主ゼミ内容をまとめました。前半45分。今回は確率統計の話が中心です。 あとPo(k= λ=)というのはポアソン分布のkとλに数字を代入したものです。 普通はPo(λ)となっていますが、ここでは上のようにさせてもらいました。 1/20 前半45分 [75~82ページ] 十分統計量 順序統計量 死亡率・故障率・危険率 基本的なことは http://image02.wiki.livedoor.jp/u/7/ut2010s2317/f23e8ec8daaa7cb5.pdf などがわかりやすいと思います。 統計量とは? あるデータが与えられたとき(X1,X2…Xn)を四則演算するもの 例:X1+X2+…Xn(和) 例:X1*X2*…Xn(積) 例:X1^2+X2^2+…Xn^2(二乗の和) 統計量はパラメータ依存するものが多い。 十分確率分布はパラメータ依存しない。 順序統計量は計算方法が決まっている。 十分統計量問題例 ある製品を大量生産する工場があるとする。 1日あたりにどれぐらいの不良品ができるのか求めたい。 毎日の生産量はn失敗確率はpとするとこの分布は? →ポアソン分布 二項分布の特殊盤。pが小さいことは前提としてある。 Np=λがわかればいいのだがサンプリングしないと無理である。 ということで仮に5日間サンプリングしてみた。 1日目は5個、2日目が7個、3,4,5日目が6,4,9個の 不良品がでた。(つまりk=5,7,6,4,9) L(5,7,6,4,9) ≡P(k-5,k=7,k=6,k=5,k=9) =Po(λ,k=5)Po(λ,k=7)Po(λ,k=6)Po(λ,k=5)Po(λ,k=9) λは具体値を書いていない。 logをつけて偏微分すると良い。 100個1000個増えるとパラメータが増えて計算できない。 (計算はできるが理論的に意味を成さない) また1000個保存しておかねばならなくその費用もかかる。 まとめてあとでパラメータを出しておけば良い。 そのため以下のような方法をとる。 これはポアソン分布が再生性があることから成り立つものである。 上の5日間の例で行うと T=X1+X2+X3+X4+X5とする。上の例では P(T=31)=Po(5λ,k=31)となる。 P(x1=5,x2=7…|T=31) =P(x1=5,x2=7…)/P(T=31) =Q(パラメータなし) よって十分統計量である。 上の方から計算すればよく、パラメータを出す上では 必要な部分のみを残し、余分な情報を削っている。 つまり… 全部足しあわせて計算すればよく1つ1つ計算する必要はない。 そのため保存する必要もない。 なぜならば十分統計量のため(λがきえる) 順序統計量 X[1](max(x1~xn)) X[n](min(x1~xn)) とする。[]は添字である。 P78 6-22(1)などの例 組み合わせで分けることも。P76に詳しく書いてある。 死力 故障率といったほうが認知度が高いのかも。 関係することに生存関数といわれるものがある。 定義などはP79をみればよい。 統計分析でもやっている。これについては後日上げたいと思う。 微分すると-が付くことに注意 以下F(x)はすべて生存関数を表す(つまりバーが付いているもの) とする。以下のF(x)の定義(これは上の人向きである) F(x) ≡統計界でF(x)のバーと使われている ≡統計界では1-F(x)と表される とする。 また生存関数なのでlonF(0)=1である。 (生存の定義から考えて0秒後に生きている確率は1である) したがってλを積分(0からtまで)すると -logFx+logF0 となる。もう1度行っておくがこれらのFは生存関数のFであり 実際ではバーがついてあらわされるものである。 話はそれたが F=e^(-logFx+logF0)という式がたつ。 詳しい説明は79ページや80ページをみて、参考資料などをみるのがよいだろう。 P81 6.30の(1)などが練習問題として扱われた。 これについては解答をみて貰えば良いと思うのでここでは詳しく記さない。 ここは&bold(){回帰分析}の話が中心です。 &bold(){回帰分析・重回帰分析・推定量・ダミー変数}についてです。 あと金融勉強してる人もたくさんいるので金融用語が出てきます。 あとこっちのノートを参考にしてください。 http://www43.atwiki.jp/actuary-seminar?cmd=upload&act=open&pageid=13&file=actyuary-seminar4th.pdf 基本的な公式は省略。先ほど上げた基礎統計のプリントでもみてください。 さてモデルとしてy,xの間にy=α+βxという関係があるとする。 βは金融での理論CAPMで出てくる 分散と平均リターンの関係で出てくるヒストリカルβとも関係しています。 (僕は知識ないので、先輩が言っていたことをそのままかきました) では一番簡単な回帰分析である一変数の場合から。 &bold(){単回帰}とかいわれるやつです。 あるα、βに大してモデルの当てはまり度合いを考える。 Q=Σ(y-α-βx)^2 このずれQを最小とするα,βをみつけるよう。 偏微分して0になるようなα,βを求めれば良い (まあ数学の世界的にお決まり) 7~8ページ参照。 そうするとあの公式になる。 α,β=標準偏差と共分散であらわせるの公式 また&bold(){正規方程式}を満たす。 p7の一番下に書いてあることである。 覚える方法としてあげられていたのが 1行目はY=α+βxを想像すればよい。 2行目は上のY=α+βxにxをかけたということを やるつもりにする。実際にやるのではなくやるつもり 実際は平均の2乗と2乗の平均は違う。 ということでそこを修正すればよい。 あくまでやるつもり、と覚えれば簡単に修正しなければ ならないことも忘れないだろう。 さらに転置してもかわらない行列と覚えておくのも良い。 8ページ7行目をみると yの標準化=相関係数×xの標準化とある。 これは言葉のまま覚えておいてもいいし、式で覚えても良い。 内挿値という言葉がある。残差という言葉もある。これについては8ページ参照。 以下再生性の議論をしたいが時間がないので省く。 多次元の正規分布公式の話もちょっと出たが僕はまだわからないので略。 では回帰分析は実際のモデルと比べてどのぐらい正しいのだろうか? 理想的ならば内挿値からの二乗と計算の差の二乗が一致するべきだろう。 ここでR^2を決定係数という。詳しくはP8参照。 これは誤差を考える話である。モデルと現実の差を考えるのが 残差変動。誤差の二乗をシグマしたものが残差変動である。 全変動=回帰変動+残差変動。これについては少し考えればわかります。 決定係数の範囲などは定義から考えればわかるので省略。 エクセルとかでも決定係数はつかわれますね。 計量社会科学などの分野でもよく使われます。 1に近いほど正しいモデルです。 今まではたかだか1変数の単回帰分析でしたが 次にやるのが&bold(){重回帰}。これは変数が2この場合です。 これもまた正規方程式がなりたちます。 覚え方は単回帰の場合と同様で1行目は当たり前。 2行目はx1をかけるつもり3行目はx2をかけるつもりです 転置しても同じです。 ちなみに転置しても行列が同じであることを対称行列とよび 全ての成分が実数なら実対称行列とよぶそうです。(先輩話) 非線形回帰については今のところは語ることはあまり有りません。 それで推定量の話にいくわけですが、これについては楽なので 省略。基礎統計レポートでもみればのってます。 次にダミー変数。簡単なことしか扱わなかったのですが twitter上で聞いた話では今年の数学のアクチュアリー試験でダミー変数 がでたらしいですね。ということでこれについても少し書きます。 相関社会科学とかにもつかわれてます。 簡単にいうと事故とかがおこりグラフが突然かわる場合があります。 例えば1ヶ月の事故死者数が 4月100人 5月113人 6月121人 7月112人 であったとします。これは普通の記録でありここでの死亡者数は あまり大きなものではありません。 ここで大規模災害(飛行機が墜落とか電車が脱線とか)がおき 事故死者数 8月1400人 となったとしましょう。 その後9月114人 10月111人 11月102人 となりこのままではこのデータは使えません。 数学のグラフの使い方の一つに総合人数でいくという方法があります。 上の例であれば4月まで100人 5月まで223人 6月まで344人 といった感じです。これを直線でつなげていくとほぼ直線のグラフになりますね。 で、事故が起こった8月部分も含めてグラフを書くと8月部分が急に角度が変わった グラフになりその後4月から7月のようにもどります。 これを利用したい。で、2つにわけて回帰分析すればいいじゃないかと思うかも しれません。その方法もないこともないのですがここで重要なものは傾きです。 傾きが得られれば大丈夫です。このようなときにダミー変数というものを使います。 ここで使うのは定数項ダミーの議論です。 詳しい使い方は知らないので略しますが、 このように突然大きくなったときに使う数学的手法です。 傾きだけを知ればいい。 でも事故などによって激変化している時にデータを利用する為の手法です。  また係数ダミーというものもあり、これは途中から変数が増えるという 場合に用いる手法です。 推定量 基礎的なことは基礎統計プリントを参照。 変数変換してY=α+βxの形に直します。このときどうなるかを考えます。 10~11ページに議論が書いてあります。 さて式をみてもらうことにしてαβのずれの原因はεを含む項によるズレです。 あとの証明は時間がなかったので省略。誤差項の期待値が0であることに 注意していけばちゃんと証明ができます。 分散と共分散 誤差項の線形和や分散・共分散行列を考えます シグマの二乗で立てられますので詳しくは下からどうぞ http://www43.atwiki.jp/actuary-seminar?cmd=upload&act=open&pageid=13&file=actyuary-seminar4th.pdf
自主ゼミ内容をまとめました。今回は確率統計の話が中心です。 あとPo(k= λ=)というのはポアソン分布のkとλに数字を代入したものです。 普通はPo(λ)となっていますが、ここでは上のようにさせてもらいました。 1/20 前半45分 [75~82ページ] 十分統計量 順序統計量 死亡率・故障率・危険率 基本的なことは http://image02.wiki.livedoor.jp/u/7/ut2010s2317/f23e8ec8daaa7cb5.pdf などがわかりやすいと思います。 統計量とは? あるデータが与えられたとき(X1,X2…Xn)を四則演算するもの 例:X1+X2+…Xn(和) 例:X1*X2*…Xn(積) 例:X1^2+X2^2+…Xn^2(二乗の和) 統計量はパラメータ依存するものが多い。 十分確率分布はパラメータ依存しない。 順序統計量は計算方法が決まっている。 十分統計量問題例 ある製品を大量生産する工場があるとする。 1日あたりにどれぐらいの不良品ができるのか求めたい。 毎日の生産量はn失敗確率はpとするとこの分布は? →ポアソン分布 二項分布の特殊盤。pが小さいことは前提としてある。 Np=λがわかればいいのだがサンプリングしないと無理である。 ということで仮に5日間サンプリングしてみた。 1日目は5個、2日目が7個、3,4,5日目が6,4,9個の 不良品がでた。(つまりk=5,7,6,4,9) L(5,7,6,4,9) ≡P(k-5,k=7,k=6,k=5,k=9) =Po(λ,k=5)Po(λ,k=7)Po(λ,k=6)Po(λ,k=5)Po(λ,k=9) λは具体値を書いていない。 logをつけて偏微分すると良い。 100個1000個増えるとパラメータが増えて計算できない。 (計算はできるが理論的に意味を成さない) また1000個保存しておかねばならなくその費用もかかる。 まとめてあとでパラメータを出しておけば良い。 そのため以下のような方法をとる。 これはポアソン分布が再生性があることから成り立つものである。 上の5日間の例で行うと T=X1+X2+X3+X4+X5とする。上の例では P(T=31)=Po(5λ,k=31)となる。 P(x1=5,x2=7…|T=31) =P(x1=5,x2=7…)/P(T=31) =Q(パラメータなし) よって十分統計量である。 上の方から計算すればよく、パラメータを出す上では 必要な部分のみを残し、余分な情報を削っている。 つまり… 全部足しあわせて計算すればよく1つ1つ計算する必要はない。 そのため保存する必要もない。 なぜならば十分統計量のため(λがきえる) 順序統計量 X[1](max(x1~xn)) X[n](min(x1~xn)) とする。[]は添字である。 P78 6-22(1)などの例 組み合わせで分けることも。P76に詳しく書いてある。 死力 故障率といったほうが認知度が高いのかも。 関係することに生存関数といわれるものがある。 定義などはP79をみればよい。 統計分析でもやっている。これについては後日上げたいと思う。 微分すると-が付くことに注意 以下F(x)はすべて生存関数を表す(つまりバーが付いているもの) とする。以下のF(x)の定義(これは上の人向きである) F(x) ≡統計界でF(x)のバーと使われている ≡統計界では1-F(x)と表される とする。 また生存関数なのでlonF(0)=1である。 (生存の定義から考えて0秒後に生きている確率は1である) したがってλを積分(0からtまで)すると -logFx+logF0 となる。もう1度行っておくがこれらのFは生存関数のFであり 実際ではバーがついてあらわされるものである。 話はそれたが F=e^(-logFx+logF0)という式がたつ。 詳しい説明は79ページや80ページをみて、参考資料などをみるのがよいだろう。 P81 6.30の(1)などが練習問題として扱われた。 これについては解答をみて貰えば良いと思うのでここでは詳しく記さない。 ここは&bold(){回帰分析}の話が中心です。 &bold(){回帰分析・重回帰分析・推定量・ダミー変数}についてです。 あと金融勉強してる人もたくさんいるので金融用語が出てきます。 あとこっちのノートを参考にしてください。 http://www43.atwiki.jp/actuary-seminar?cmd=upload&act=open&pageid=13&file=actyuary-seminar4th.pdf 基本的な公式は省略。先ほど上げた基礎統計のプリントでもみてください。 さてモデルとしてy,xの間にy=α+βxという関係があるとする。 βは金融での理論CAPMで出てくる 分散と平均リターンの関係で出てくるヒストリカルβとも関係しています。 (僕は知識ないので、先輩が言っていたことをそのままかきました) では一番簡単な回帰分析である一変数の場合から。 &bold(){単回帰}とかいわれるやつです。 あるα、βに大してモデルの当てはまり度合いを考える。 Q=Σ(y-α-βx)^2 このずれQを最小とするα,βをみつけるよう。 偏微分して0になるようなα,βを求めれば良い (まあ数学の世界的にお決まり) 7~8ページ参照。 そうするとあの公式になる。 α,β=標準偏差と共分散であらわせるの公式 また&bold(){正規方程式}を満たす。 p7の一番下に書いてあることである。 覚える方法としてあげられていたのが 1行目はY=α+βxを想像すればよい。 2行目は上のY=α+βxにxをかけたということを やるつもりにする。実際にやるのではなくやるつもり 実際は平均の2乗と2乗の平均は違う。 ということでそこを修正すればよい。 あくまでやるつもり、と覚えれば簡単に修正しなければ ならないことも忘れないだろう。 さらに転置してもかわらない行列と覚えておくのも良い。 8ページ7行目をみると yの標準化=相関係数×xの標準化とある。 これは言葉のまま覚えておいてもいいし、式で覚えても良い。 内挿値という言葉がある。残差という言葉もある。これについては8ページ参照。 以下再生性の議論をしたいが時間がないので省く。 多次元の正規分布公式の話もちょっと出たが僕はまだわからないので略。 では回帰分析は実際のモデルと比べてどのぐらい正しいのだろうか? 理想的ならば内挿値からの二乗と計算の差の二乗が一致するべきだろう。 ここでR^2を決定係数という。詳しくはP8参照。 これは誤差を考える話である。モデルと現実の差を考えるのが 残差変動。誤差の二乗をシグマしたものが残差変動である。 全変動=回帰変動+残差変動。これについては少し考えればわかります。 決定係数の範囲などは定義から考えればわかるので省略。 エクセルとかでも決定係数はつかわれますね。 計量社会科学などの分野でもよく使われます。 1に近いほど正しいモデルです。 今まではたかだか1変数の単回帰分析でしたが 次にやるのが&bold(){重回帰}。これは変数が2この場合です。 これもまた正規方程式がなりたちます。 覚え方は単回帰の場合と同様で1行目は当たり前。 2行目はx1をかけるつもり3行目はx2をかけるつもりです 転置しても同じです。 ちなみに転置しても行列が同じであることを対称行列とよび 全ての成分が実数なら実対称行列とよぶそうです。(先輩話) 非線形回帰については今のところは語ることはあまり有りません。 それで推定量の話にいくわけですが、これについては楽なので 省略。基礎統計レポートでもみればのってます。 次にダミー変数。簡単なことしか扱わなかったのですが twitter上で聞いた話では今年の数学のアクチュアリー試験でダミー変数 がでたらしいですね。ということでこれについても少し書きます。 相関社会科学とかにもつかわれてます。 簡単にいうと事故とかがおこりグラフが突然かわる場合があります。 例えば1ヶ月の事故死者数が 4月100人 5月113人 6月121人 7月112人 であったとします。これは普通の記録でありここでの死亡者数は あまり大きなものではありません。 ここで大規模災害(飛行機が墜落とか電車が脱線とか)がおき 事故死者数 8月1400人 となったとしましょう。 その後9月114人 10月111人 11月102人 となりこのままではこのデータは使えません。 数学のグラフの使い方の一つに総合人数でいくという方法があります。 上の例であれば4月まで100人 5月まで223人 6月まで344人 といった感じです。これを直線でつなげていくとほぼ直線のグラフになりますね。 で、事故が起こった8月部分も含めてグラフを書くと8月部分が急に角度が変わった グラフになりその後4月から7月のようにもどります。 これを利用したい。で、2つにわけて回帰分析すればいいじゃないかと思うかも しれません。その方法もないこともないのですがここで重要なものは傾きです。 傾きが得られれば大丈夫です。このようなときにダミー変数というものを使います。 ここで使うのは定数項ダミーの議論です。 詳しい使い方は知らないので略しますが、 このように突然大きくなったときに使う数学的手法です。 傾きだけを知ればいい。 でも事故などによって激変化している時にデータを利用する為の手法です。  また係数ダミーというものもあり、これは途中から変数が増えるという 場合に用いる手法です。 推定量 基礎的なことは基礎統計プリントを参照。 変数変換してY=α+βxの形に直します。このときどうなるかを考えます。 10~11ページに議論が書いてあります。 さて式をみてもらうことにしてαβのずれの原因はεを含む項によるズレです。 あとの証明は時間がなかったので省略。誤差項の期待値が0であることに 注意していけばちゃんと証明ができます。 分散と共分散 誤差項の線形和や分散・共分散行列を考えます シグマの二乗で立てられますので詳しくは下からどうぞ http://www43.atwiki.jp/actuary-seminar?cmd=upload&act=open&pageid=13&file=actyuary-seminar4th.pdf

表示オプション

横に並べて表示:
変化行の前後のみ表示:
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。