ビッグデータ分析の学習ロードマップ

「ビッグデータ分析の勉強をやろうと思ったけど、どこから勉強すればいいの?」

そんな人はまず、以下の記事でビッグデータ分析の流れを学習することをおすすめします。

ビッグデータ分析の流れがわかったら、次に自分のやりたい分析に応じてソフトウェアの使い方を学びます。

おすすめの書籍

ビッグデータ分析の学習を始める上でおすすめの書籍を紹介します。

なお、おすすめの学習順は以下です。

ビッグデータ

ビッグデータ分析の学習を始める上でおすすめの書籍を紹介します。

オススメの学習順序は以下のとおりです。

  1. ビッグデータを支える技術 (必須・基礎知識)
  2. Hadoop 第3版 (必須・基礎知識) ※1
  3. Kafka (オプション・実践編)
  4. Elasticsearch実践ガイド (オプション・実践編)

※1 私は「ビッグデータ分析基盤の構築事例集 Hadoopクラスター構築実践ガイド」を読みましたが、世間一般では「Hadoop 第3版」の方が評価が高いのでこちらをオススメさせていただきました。

ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ WEB+DB PRESS plus

  • わかりやすさ:★★★★☆
  • google 検索で探しにくい情報:★★★★★
  • 分野全体の網羅度:★★★★★
  • 総合おすすめ度:★★★★★

ビッグデータを分析するための基盤側の技術に焦点を当てて解説した本となります。

初めてビッグデータのアーキテクチャを構築する際に、全体を俯瞰できる良書です。

また、ビッグデータ分析をする上で「なぜこの基盤が必要なんだ?」ということがよくあるのですが、その疑問にも答えてくれています。

Hadoop 第3版

実際に読んだこと無いので評価できませんが、Hadoop 入門書の定番のようです。

情報が少し古いようですが、Hadoop を網羅的に学ぶには非常に役に立つようです。

Elasticsearch実践ガイド

  • わかりやすさ:★★★★★
  • google 検索で探しにくい情報:★★★☆☆
  • 分野全体の網羅度:★★★★★
  • 総合おすすめ度:★★★★★

Elasticsearch の右も左もわからない状態の場合、この書籍から入ることをオススメします。とんでもなくわかりやすいです。また、かなり網羅度が高く、この本を読み終わる頃には、公式ドキュメントと合わせれば自分でなんでもできるようになっているでしょう。

Kafka

  • わかりやすさ:★★★★☆
  • google 検索で探しにくい情報:★★★★☆
  • 分野全体の網羅度:★★★★★
  • 総合おすすめ度:★★★★★

ストリーム処理という概念自体がググっても、まともな日本語記事が無かったために本書を購入しました。本書籍は Apache Kafka を作成した LinkedIn のエンジニアによって執筆されています。そのため、実体験を元にストリーム処理が必要となった経緯を説明してくれるため、納得感が段違いです。

この本を読んだ上で、最新の公式ドキュメントを見ながら開発するのがオススメです。

ビッグデータ分析記事一覧


BI

【入門】Grafana の説明から構築や設定方法を紹介

Grafana とは Grafana とは、あらゆるデータベースの可視化やアラートの設定をする OSS です。 Grafana はデータソースにクエリを渡すことで、可視化するデータを取得します。 データソースとし...
Apache

【入門】Apache kafka とは?docker で起動から使い方までを解説

Apache kafka を学習する上で以下のような疑問が生まれたため、本記事にまとめました。 どんなことができるの?分散ストリーミングプラットフォームって何?そもそも何に使うのこれ?メッセージキューイングシステムでよくない?どうや...
ストリーム処理

【入門】fluentd(td-agent)とは?インストールと使い方

fluentd(td-agent)とは fluentd(td-agent)とは、ログ収集ソフトウェアです。 アプリケーションや各 IoT 機器のログを1箇所に集約するために利用します。 Apache Kaf...
OSS

【入門】Elasticsearch とは?インストールから query の使い方

Elasticsearch とは Elasticsearch とは、複数のファイルから特定の文字列を検索する分散型エンジンです。 具体的には google 検索や、github の検索のような全文検索 (後述します) を行えま...
Apache

【入門】Apache Hive とは?メタストアや HiveServer を解説

対象者 Apache Hive で何ができるのか人Apache Hive のアーキテクチャの概要を知りたい人Apache Hive を動かしてみたい人Hadoop を触ったことある人 そもそも Hadoop って何?って方は以...
ビッグデータ分析

ビッグデータとは?収集から分析や解析する例を紹介

本記事では、ビッグデータを上記のような BI ツールと呼ばれるもので可視化、分析することをゴールとします。 ビッグデータについて学習を始めたところ・・・とにかく用語がわからない。 聞いたことの無い用語が多すぎる用語の説明が抽象...
ストリーム処理

【入門】ストリーム処理とは? OSS のエンジンを紹介

ビッグデータの分析、機械学習を導入するにあたり、「ストリーム処理」という言葉をよく目にするようになりました。 一方で「ストリーム処理」に関する説明が抽象的でイメージが掴みにくいのが実情です。 そこで今回は以下の項目について「ス...