ビッグデータ分析の学習ロードマップ

「ビッグデータ分析の勉強をやろうと思ったけど、どこから勉強すればいいの?」

そんな人はまず、以下の記事でビッグデータ分析の流れを学習することをおすすめします。

ビッグデータ分析の流れがわかったら、次に自分のやりたい分析に応じてソフトウェアの使い方を学びます。

ビッグデータ

ビッグデータ分析の学習を始める上でおすすめの書籍を紹介します。

オススメの学習順序は以下のとおりです。

  1. ビッグデータを支える技術 (必須・基礎知識)
  2. Hadoop 第3版 (必須・基礎知識) ※1
  3. Kafka (オプション・実践編)
  4. Elasticsearch実践ガイド (オプション・実践編)

※1 私は「ビッグデータ分析基盤の構築事例集 Hadoopクラスター構築実践ガイド」を読みましたが、世間一般では「Hadoop 第3版」の方が評価が高いのでこちらをオススメさせていただきました。

ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ WEB+DB PRESS plus

  • わかりやすさ:★★★★☆
  • google 検索で探しにくい情報:★★★★★
  • 分野全体の網羅度:★★★★★
  • 総合おすすめ度:★★★★★

ビッグデータを分析するための基盤側の技術に焦点を当てて解説した本となります。

初めてビッグデータのアーキテクチャを構築する際に、全体を俯瞰できる良書です。

また、ビッグデータ分析をする上で「なぜこの基盤が必要なんだ?」ということがよくあるのですが、その疑問にも答えてくれています。

Hadoop 第3版

実際に読んだこと無いので評価できませんが、Hadoop 入門書の定番のようです。

情報が少し古いようですが、Hadoop を網羅的に学ぶには非常に役に立つようです。

Elasticsearch実践ガイド

  • わかりやすさ:★★★★★
  • google 検索で探しにくい情報:★★★☆☆
  • 分野全体の網羅度:★★★★★
  • 総合おすすめ度:★★★★★

Elasticsearch の右も左もわからない状態の場合、この書籍から入ることをオススメします。とんでもなくわかりやすいです。また、かなり網羅度が高く、この本を読み終わる頃には、公式ドキュメントと合わせれば自分でなんでもできるようになっているでしょう。

Kafka

  • わかりやすさ:★★★★☆
  • google 検索で探しにくい情報:★★★★☆
  • 分野全体の網羅度:★★★★★
  • 総合おすすめ度:★★★★★

ストリーム処理という概念自体がググっても、まともな日本語記事が無かったために本書を購入しました。本書籍は Apache Kafka を作成した LinkedIn のエンジニアによって執筆されています。そのため、実体験を元にストリーム処理が必要となった経緯を説明してくれるため、納得感が段違いです。

この本を読んだ上で、最新の公式ドキュメントを見ながら開発するのがオススメです。

ビッグデータ分析記事一覧


ビッグデータ分析基盤

【入門】Elasticsearch とは?インストールから query の使い方

Elasticsearch Elasticsearch とは、複数のファイルから特定の文字列を分散検索するソフトウェアです。 具体的には google 検索や、github のソースコード検索のような全文検索 (...
BI

【入門】Grafana とは?構築や設定方法を説明

Grafana Grafana とは、あらゆるデータベースの可視化やアラートの設定をする OSS です。 Grafana はデータソースにクエリを渡すことで、可視化するデータを取得します。 データソ...
ビッグデータ分析基盤

【入門】Apache Hive とは?メタストアや HiveServer を解説

Apache Hive Apache Hive とは、分散ストレージ(Hadoop など) のデータセットに対して、SQL クエリで「読み取り・書き込み・管理」するソフトウェアです。 最初に 本記事は、以下...
ビッグデータ分析基盤

【入門】Apache Kafka とは?docker で起動から使い方までを解説

Apache Kafka を学習する上で以下のような疑問が生まれたため、本記事にまとめました。 どんなことができるの?分散ストリーミング処理システムって何?そもそも何に使うのこれ?メッセージキューイングシステムでよくない?どうやって...
ビッグデータ分析基盤

Apache Spark とは【入門】

初めに 本記事は、以下のビッグデータ分析基盤シリーズの Apache Spark 編です。 【ビッグデータ入門1】ビッグデータ分析基盤【ビッグデータ入門2】ストリーム処理【ビッグデータ入門3】fluentd【ビッグデータ入門4...
ビッグデータ分析基盤

【入門】fluentd (td-agent) とは?インストールと使い方

fluentd (td-agent) fluentd (td-agent) とは、ログ収集ソフトウェアです。 アプリケーションや各 IoT 機器のログを1箇所に集約するために利用します。 初めに ...
ビッグデータ分析基盤

【入門】ストリーム処理とは? OSS のエンジンを紹介

ビッグデータの分析基盤、機械学習を導入するにあたり、「ストリーム処理」という言葉をよく目にするようになりました。 一方で「ストリーム処理」に関する説明が抽象的でイメージが掴みにくいのが実情です。 そこで今回は以下の項目について...
ビッグデータ分析基盤

【入門】ビッグデータ分析基盤とは?データパイプラインを構築

ビッグデータ ビッグデータとは、通常のソフトウェアでは処理できないほどの大規模な (テラバイト、ペタバイト、エクサバイト規模の) データのことです。 本記事では、ビッグデータを以下のように可視化、分析することをゴ...
ビッグデータ分析基盤

【入門】Hadoop とは?MapReduce の使い方やエコシステム一覧

Apache Hadoop Apache Hadoop とは、並列分散処理を実現するミドルウェアです。 「ビッグデータを1台のコンピュータで処理すると時間がかかりすぎるため、コンピューターをいっぱい並べて高速に処...