top of page

行政書士とデータサイエンティスト14

  • ezily5
  • 2022年5月6日
  • 読了時間: 2分

ヒストグラムが正規分布のように曲線で表せる場合「密度関数」あるいは「確率密度関数」と呼ばれる。  密度関数とX軸で囲まれる面積は1となる。確実な事象の確率が1であることを対応している。  ヒストグラムであるが、ピークが2山あるヒストグラムは異質の集団混在している可能性がある。ピークが2山になる場合は、 それぞれの集団の平均が母集団の標準偏差の2倍離れている場合である。  次に2つの変数に関する散布図と相関係数についてあるが、相関の強さを数値として表したのが「相関係数」である。最小二乗法によって2つの変数の間の相関を表す回帰直線を求めることを「回帰分析」という。回帰直線が求められば、統計的モデルを作成することができる。いわゆる「予測的モデリング」である。  さらには、変数の生成メカニズム(例えば、父親と息子の身長の関係)を考えて統計的モデルをたてることを「生成的モデリング」という。  最近の機械学習は、「予測的モデリング」を重視する傾向にあるが、伝統的な統計学では、「生成的モデリング」を重視している。  ビックデータの時代になり、より多くの変数を与えたときの条件つきデータの分布というものを利用することが多い。例えば、自動車保険においては、運転者ごとの特性(ブレーキのかけ方等)を計測してこれらの特性に基づいて保険料を決定する。いわゆる「テレマックス保険」である。  話は変わるが、顧客のさまざまな属性を用いて顧客を層別あるいは分類することは、マーケッテイングの「セグメーテンション」と呼ばれている。セグメーテンションには通常は年齢や性別などの動態的属性や、都市の人口や気候などの地理的属性などの静的属性がある。  ビックデータ時代には、動的なセグメンテーションが注目されている。セグメンテーションをさらに進めると「パーソナリゼィション」になる。ビックデータが利用可能であっても多くの属性を条件つけると条件付き分布に対する評価が不安定になる可能性がある。

 
 
 

最新記事

すべて表示
行政書士とみんなが支持するSDGs⑭

行政書士とみんなが支持するSDGs⑭ 海の豊かさを守ろう 目標14 海洋と海洋資源を持続可能な開発に向けて保存し、持続可能形で利用する。 「2025年までに、陸上活動による海洋体積物や冨栄養化をはじめ、あらゆる種類の海洋汚染を防止し、大幅に減少させる」など、10のターゲット...

 
 
 
行政書士とみんなが支持するSDGs⑬

行政書士とみんなが支持するSDGs⑬ 気候変動に具体的な対策を 目標13 気候変動とその影響に立ち向かうため、緊急対策を散る 「気候変動対策を国別の政策、戦略および計画に盛り込む」など、5つのターゲットからなる目標です。小さな企業や組織としてできることは限られるかもしれませ...

 
 
 
行政書士とみんなが支持するSDGs⑫

行政書士とみんなが支持するSDGs⑫ 目標12 つくる責任 つかう責任 持続可能な消費と生産のパターンを確保する。 「大企業や多国籍企業をはじめとする企業に対し、持続可能な慣行を導入し、定期報告に持続可能性に関する情報を取り込むよう奨励する」など11のターゲットからなる目標...

 
 
 

コメント


bottom of page