from Minority

〜log

「"0"からはじめる入門データ・サイエンティスト」おさらい

book report“0”からはじめる入門データ・サイエンティスト

まずは目次で全体の流れ。
※当記事は、個人まとめです。


概要

データ分析の基本中の基本

統計の基本

データの意味と関連付け(相関分析)

過去から未来予測(回帰分析)

意味の違い(検定)

非構造データ(クラスター分析)


目次の内容インデックス。

概要

  • データサイエンティスト = 効率(利益)の追求
  • ビッグデータ = (量+種類+速度・頻度)
  • M2Mで蓄積されるデータ
  • 母集団(膨大) ⇨ 標本を取り出し解析
  • 利益と成長 / マーケティング、マネジメント / 統計学
  • マネジメント = 顧客の創造
  • リトル・ナンバーズ : ビッグデータ
  • 直感的判断を忘れ、データを解析


データ分析の基本中の基本


  • 分析の指針
  • 何を/どこ(誰)から/いつ
  • パレートの法則(2:8)
  • バランス・スコアカード(ブレイクダウン)
  • 財務の視点/顧客の視点/内部プロセスの視点/学習と成長の視点
  • 評価基準(KPI)分析の思考
    ryuseism.hatenablog.com

  • 制約理論(部分最適化)とボトルネック

  • 集中の5段階とPDCA
  • 制約条件(ボトルネック) < 活用 < 制約条件以外を制約条件に従属 <制約条件の能力向上 < 惰性を避ける 🔙
  • ハイキングの比喩 列の長さは、遅い人に準ずる


統計の基本


  • 平均とヒストグラム
  • 算術平均/幾何平均/調和平均/加重平均
  • 中央値(メディアン)/最頻値(モード)/階級(度数)/階級値
  • 相対度数/累積度数/累積相対度数
  • ヒストグラム(縦軸;度数・相対度数/横軸:階級)
  • 要因的統計量とばらつき
  • 最大値と最小値のレンジ(範囲)
  • 標準偏差、変動係数、分散
  • 統計学のキモ:偏差>偏差平方>偏差平方和>分散>標準偏差>変動係数
  • 標準正規分布/基準値/偏差値
  • 6σ(シグマ)品質管理
  • MAICステップ:Measure(測定)>Analyze(分析)>Improve(改善)>Control(管理)


データの意味と関連付け(相関分析)


  • 影響し合う相関関係
  • 因果関係=(相関関係+時間的順序+第3要因は存在しない)
  • 【手順】見える化(正・負の相関)=相関図
  • 相関関係の強さ=相関係数
  • アンケケートと相関マトリクス⇨満足度分析図
  • セグメント化
  • クロス分析


過去から未来予測(回帰分析)


  • 回帰分析で将来予測
  • 回帰式:回帰直線=目的変数/説明変数/定数項(断片)/回帰係数 ⇨ 単回帰分析
  • R²値(決定係数):0〜1の値をとる/残差
  • 回帰分析表:重相関R(相関係数)/重決定R2(R²値)/補正R2/標準誤差
  • 有意F/p値/95%信頼区間
  • 複数の説明変数を持つ重回帰分析/偏回帰係数
  • 数量化理論Ⅰ類:質的データ ⇨ 量的データ変換 ⇨ 重回帰分析
  • モンティ・ホール問題:3つの箱の中の1万円


意味の違い(検定)


  • 検定:仮設にて、現象の可能性が低い場合、仮説を捨てる(棄却)
  • 中心極限定理:平均の平均の・・・
  • サイコロで検定を考える
  • 【手順】帰無仮説を規定>対立仮説を規定>確率分布を明確化>有意水準の確定>統計量の確認
  • t検定
  • 分散分析


非構造データ(クラスター分析)


  • R言語
  • Rの基本操作
  • 箱ひげ図(最大値・上側ヒンジ・中央値・下側ヒンジ・最小値 はずれ値)/boxplot関数
  • Rのパッケージ(CRAN)
  • クラスター分析


最後にご紹介 。 統計学やデータ・サイエンティストと聞くと、自分には関係がないように思いませんか? そんな人ほど読んで欲しいです。