ビッグデータ分析の学習ロードマップ

ビッグデータ分析の学習ロードマップビッグデータ分析

ビッグデータ分析の勉強をやろうと思ったけど、どこから勉強すればいいの?

という方のために、学習ロードマップを用意しました。

ロードマップにある技術の詳細

ビッグデータ分析の概要

初めに、ビッグデータ分析の概要を学び、各用語と関連性を整理します。

ビッグデータの概要

ビッグデータ分析では、OS やハードウェアリソースの知識が必要になるため、Linux の学習ロードマップもご覧ください。

ビッグデータの収集

次にビッグデータを収集する方法を学びます。

ビッグデータの収集

ビッグデータの保存・分析

収集したビッグデータを保存・分析する方法を学びます。

ビッグデータの保存・分析

分析では、よく SQL を利用するので、データベースの学習ロードマップも合わせてご覧ください。

また、機械学習を利用して分析する場合は、機械学習のロードマップも合わせてご覧ください。

ビッグデータの可視化

【入門】Grafana とは?構築や設定方法を説明
Grafana Grafana とは、データソースの可視化やアラートの設定をする OSS です。Grafana はデータソースにクエリを渡すことで、可視化するデータを取得します。利用可能なデータ...

おすすめの書籍

ビッグデータ分析の学習に役立つ書籍を、おすすめの学習順で紹介します。

  1. ビッグデータを支える技術 (ビッグデータ分析の基礎)
  2. Kafka (データ収集)
  3. Elasticsearch実践ガイド (データ分析)
  4. Hadoop・Spark: The Definitive Guide (ビッグデータ処理基盤)

ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ WEB+DB PRESS plus


  • わかりやすさ:★★★★☆
  • google 検索で探しにくい情報:★★★★★
  • 分野全体の網羅度:★★★★★
  • 総合おすすめ度:★★★★★

ビッグデータを分析するための基盤側の技術に焦点を当てて解説した本となります。

初めてビッグデータのアーキテクチャを構築する際に、全体を俯瞰できる良書です。

また、ビッグデータ分析をする上で「なぜこの基盤が必要なんだ?」ということがよくあるのですが、その疑問にも答えてくれています。

Kafka

  • わかりやすさ:★★★★☆
  • google 検索で探しにくい情報:★★★★☆
  • 分野全体の網羅度:★★★★★
  • 総合おすすめ度:★★★★★

ストリーム処理という概念自体がググっても、まともな日本語記事が無かったために本書を購入しました。本書籍は Apache Kafka を作成した LinkedIn のエンジニアによって執筆されています。そのため、実体験を元にストリーム処理が必要となった経緯を説明してくれるため、納得感が段違いです。

この本を読んだ上で、最新の公式ドキュメントを見ながら開発するのがオススメです。

Elasticsearch実践ガイド


  • わかりやすさ:★★★★★
  • google 検索で探しにくい情報:★★★☆☆
  • 分野全体の網羅度:★★★★★
  • 総合おすすめ度:★★★★★

Elasticsearch の右も左もわからない状態の場合、この書籍から入ることをオススメします。とんでもなくわかりやすいです。また、かなり網羅度が高く、この本を読み終わる頃には、公式ドキュメントと合わせれば自分でなんでもできるようになっているでしょう。

Hadoop・Spark: The Definitive Guide

Hadoop と Spark はビッグデータでよく利用するソフトウェアフレームワークです。
英語なので紹介することを躊躇いましたが、翻訳のコストを考慮しても有用なため紹介します。

ビッグデータ分析記事一覧


ビッグデータ分析

【入門】ビッグデータ分析基盤とは?データパイプラインを構築

ビッグデータ ビッグデータとは、通常のソフトウェアでは処理できないほどの大規模な (テラバイト、ペタバイト、エクサバイト規模の) データのことです。 本記事では、ビッグデータを以下のように可視化、分析することをゴ...
コンテナ

【入門】Grafana とは?構築や設定方法を説明

Grafana Grafana とは、データソースの可視化やアラートの設定をする OSS です。 Grafana はデータソースにクエリを渡すことで、可視化するデータを取得します。 利用可能なデータ...
OSS

【入門】Elasticsearch とは?わかりやすく解説

Elasticsearch Elasticsearch とは、複数のファイルから特定の文字列を分散検索するソフトウェアです。 具体的には google 検索や、github のソースコード検索のような全文検索 (...
OSS

【Elasticsearch 入門4】集計・分類 (Aggregations)

本記事は Elasticsearch 入門記事の第4回「集計・分類 (Aggregations)」です。 その他の Elasticsearch の使い方は以下の記事をご覧ください。 集計...
OSS

【Elasticsearch 入門5】Dynamic index settings の変更

本記事は Elasticsearch 入門記事の第5回「Dynamic index settings の変更」です。 その他の Elasticsearch の使い方は以下の記事をご覧ください。 ...