第5回の教材 (1) データ活用の流れ

データ活用の流れ

 ビッグデータに限らず、データを活用する手順は次のとおりです:
  1. データの収集・蓄積
  2. データの前処理
  3. データの分析
  4. データの可視化
  5. データの利活用

収集するデータの形態

  • 構造化データ
    • コンピュータで処理しやすいような構造を持っているデータ
    • Excel ドキュメント、データベース etc.
  • 半構造化データ
    • 構造化はされていないが、要素に「タグ付け」などの意味合いが持たされているデータ
    • xml ( Extensible Markup Language ), json ( JavaScript Object Notation ) etc.
  • 非構造化データ
    • データ内に規則性の無いデータ
    • Word ドキュメント, pdf, 音声ファイル, 画像ファイル, SNS のコンテンツ etc.
  • 時系列データ
    • 時間の経過に伴って観測されるデータ
    • 気象データ, 株価, 感染者数 etc.

データの前処理

 蓄積されたデータを分析プログラムに入力するために前処理を行います。
  1. データクレンジング(データクリーニング)
    • データのエラーやノイズ、欠損値等を修正する作業
  2. データの統合
    • さまざまなデータソースから収集されたデータを統合する作業
  3. データの変換
    • 分析プログラムの指定するフォーマットに変換す作業る
参考文献:きれいなデータなんてない!機械学習の7割はデータ収集と前処理に費やされる

データの可視化

 例えばオーソドックスな統計処理では次のような値でデータの特徴を表します:
  • 代表値
    • 平均値
    • 最頻値
    • 中央値
  • 散布度
    • 分散
    • 標準偏差
  
 また2種類のデータの関係は散布図や相関係数で表します:
 このようにデータを可視化して提示することで、その利活用を進めます。