どうも405です。
なりたいを考える。
いつも通りの備忘録です↓
統計の役割「概念の計量化」「予測」「仮説の検証」「分類」
標準化の概念「平均」「分散」「標準偏差」分散と標準偏差はデータのばらつき具合 ある値がどのくらい離れているかや全体のどのあたりかがわかる。注意ヒストグラムの山が一つのときに分散、標準偏差が使える。(平均値、最頻値、中央値が重なる)
統計学がなぜ大事だと思ったのか
応用出来る分野が多いから。
理工学系(計測工学 品質管理論)
農学(実験計画法)
医学薬学(疫学 感染症学)
社会学(社会統計学)
経済学(計量経済学 金融工学 保険数理)
言語学(計量言語学 語彙統計学)
データの特徴を示す代表的な値を代表値と呼び、平均値、中央値、最頻値などがある
データにおけるおおまかな値を示す平均値だが、極端な数値があると、その値に引っ張られる。
中央値はデータにおける真ん中の値、最頻値は最も頻度の多い数値。極端な数値にも影響を受けづらい。
ある試行を行って数値が決まるものが確率変数、確率変数の値とその確率を対応させたものが確率分布。
確率分布表からは、度数分布表と同様にヒストグラムがつくれ、統計学で扱うことができる。
確率分布から、統計学で登場する、平均値、分散、標準偏差などを算出する事ができる。
統計学による基礎的な解析として。「正規分布」「二項分布」「推定」「検定」「相関」という考え。身の回りで使われている。
正規分布は調べ尽くされている形なので、値から多くの情報が得られる。
例・テストの結果、身長、降水量、製品の工作誤差、クレジットカードの限度額など
二項分布の特徴 確率分布(A or A以外が起こる)試行回数を増やすと正規分布に近づく。製造業やサービス業では高クオリティ維持の秘訣がシックスマグマ シックスマグマは、誤差を減らす合言葉。
推定は「一部から全部」「現在から未来」を予測する
①抽出したデータのみで「点推定」を行う
②可能性の「高いぼんやり」「低いはっきり」か信頼度を決める 精度となる信頼度を決める
③方向性に基づいて、標本全体を使って「区間推定」を行う 幅のある推定
推定例 視聴率や内閣支持率、開票率
判断を統計的にサポートしてくれる検定
難しいが医療の治験やイカサマなどを見極める方法
相関 マーケティングの分野で役立つ 「あれ」と「これ」の関係性を見つけ出す 相関では異なる2つの結果を散布図で考える
2つの量の相関の強さを表現するのが相関係数
相関には落とし穴が多いので要注意
テストでの相関どちらかが得意な人はどちらが苦手や
不動産の家賃など(家賃✕広さ、築年数、駅からの距離)
いくつかの要素を計測しておけば、価格が予測できる(ワインなど)
実際にやるとなると表にするだけで、なんとなくの各要素のばらつき具合がわかる。
グラフにすると、よりはっきりとわかる。
円グラフにしただけでは、各要素がどのくらいの割合なのかしかわからない。
ヒストグラムにすると「格差社会っぽい」がなんとなくわかる。
すべてではないが「普通」、もしくはおおよその目安があるデータは、正規分布になりそう。
ブロックチェーンで取得したデータを含むビックデータをAIや統計学の手法で解析を行うのが統計学の立ち位置
主な解析アプローチ
「主成分分析」
相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分と呼ばれる変数を合成する多変量解析の一手法。
「時系列分析」
時間の経過に伴い変化するデータを分析することです。
「クラスター分析」
異なるものが混ざりあっている集団の中から互いに似たものを集めて集落(クラスター)を作り、対象を分類するという方法の総称です。
解釈ができる統計学の解析とその説明が難しいAIの解析 「AIのおすすめ銘柄」とかもうまく行かなかった場合の説明ができない 逆の考え方解析の解釈が必要がない場面にAIを使う(交通渋滞の予測、クレジットカードの不正検知、広告の最適化)解釈が必要な場面は統計学を利用しよう
ある現象を根本から理解するためには、統計学は必須。
統計学の本を読んだ
解釈の下地を作るため。
解釈が必要な場面は統計学を利用しよう
ある現象を根本から理解するためには、統計学は必須。
AIの解析を元にするリスクを知った。AI本来の最適化をベースにした方が確実だとも思う。
統計学とAIを融合させる人材
目的に応じて統計学、AIの知識をバランス良く使う、もしくは橋渡しする人。
どうゆう会社で経験を積めばいいのだろうか?
統計学の知識、確率を普段からちょっと意識していこう。
分類もいけそう。
簡単なことを積み重ねていきたい。
気になること
量子コンピューター
ベイス統計学は今度やろう
会社(社会)をぶっ壊す 派遣会社をぶっ壊す 仕組みがおかしい。
今日はこのへんで以上です。
また明日。
コメント