ビッグデータ分析

ビッグデータ分析の勉強は、次の学習ロードマップに沿って進めることをオススメします。

学習ロードマップの詳細

ビッグデータ分析の概要

初めに、ビッグデータ分析の概要を学び、各用語と関連性を整理します。

ビッグデータの概要

ビッグデータ分析では、OS やハードウェアリソースの知識が必要になるため、Linux の学習ロードマップもご覧ください。

ビッグデータの収集

次にビッグデータを収集する方法を学びます。

ビッグデータの収集

ビッグデータの保存・分析

収集したビッグデータを保存・分析する方法を学びます。

ビッグデータの保存・分析

分析では、よく SQL を利用するので、データベースの学習ロードマップも合わせてご覧ください。

また、機械学習を利用して分析する場合は、機械学習のロードマップも合わせてご覧ください。

ビッグデータの可視化

【入門】Grafana とは?構築や設定方法を説明
Grafana Grafana とは、データソースの可視化やアラートの設定をする OSS です。Grafana はデータソースにクエリを渡すことで、可視化するデータを取得します。利用可能なデータソースの一例は、以下のとおりです。Promet...

おすすめの書籍

ビッグデータ分析の学習に役立つ書籍を、おすすめの学習順で紹介します。

  1. ビッグデータを支える技術 (ビッグデータ分析の基礎)
  2. Kafka (データ収集)
  3. Elasticsearch実践ガイド (データ分析)
  4. Hadoop・Spark: The Definitive Guide (ビッグデータ処理基盤)

ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ WEB+DB PRESS plus


  • わかりやすさ:★★★★☆
  • google 検索で探しにくい情報:★★★★★
  • 分野全体の網羅度:★★★★★
  • 総合おすすめ度:★★★★★

ビッグデータを分析するための基盤側の技術に焦点を当てて解説した本となります。

初めてビッグデータのアーキテクチャを構築する際に、全体を俯瞰できる良書です。

また、ビッグデータ分析をする上で「なぜこの基盤が必要なんだ?」ということがよくあるのですが、その疑問にも答えてくれています。

Kafka

  • わかりやすさ:★★★★☆
  • google 検索で探しにくい情報:★★★★☆
  • 分野全体の網羅度:★★★★★
  • 総合おすすめ度:★★★★★

ストリーム処理という概念自体がググっても、まともな日本語記事が無かったために本書を購入しました。本書籍は Apache Kafka を作成した LinkedIn のエンジニアによって執筆されています。そのため、実体験を元にストリーム処理が必要となった経緯を説明してくれるため、納得感が段違いです。

この本を読んだ上で、最新の公式ドキュメントを見ながら開発するのがオススメです。

Elasticsearch実践ガイド


  • わかりやすさ:★★★★★
  • google 検索で探しにくい情報:★★★☆☆
  • 分野全体の網羅度:★★★★★
  • 総合おすすめ度:★★★★★

Elasticsearch の右も左もわからない状態の場合、この書籍から入ることをオススメします。とんでもなくわかりやすいです。また、かなり網羅度が高く、この本を読み終わる頃には、公式ドキュメントと合わせれば自分でなんでもできるようになっているでしょう。

Hadoop・Spark: The Definitive Guide

Hadoop と Spark はビッグデータでよく利用するソフトウェアフレームワークです。
英語なので紹介することを躊躇いましたが、翻訳のコストを考慮しても有用なため紹介します。

ビッグデータ分析記事一覧


ビッグデータ分析

【入門】Apache Kafka とは?docker で起動から使い方までを解説

Apache Kafka を学習する上で以下のような疑問が生まれたため、本記事にまとめました。どんなことができるの?分散ストリーミング処理システムって何?そもそも何に使うのこれ?メッセージキューイングシステムでよくない?どうやって使うの?初...
データベース

[入門]Elasticsearchとは?使いどころ/使い方をわかりやすく解説

Elasticsearch Elasticsearch とは、キーワードで文書を検索する検索エンジンです。具体的には ウェブサイトの商品検索や、github のソースコード検索のような検索ができます。企業事例ZOZOTOWN商品検索GitH...
データベース

【Elasticsearch】インデックス設定とマッピングの定義・確認

インデックス設定 (Index-level index settings) インデックス設定とは、個々のインデックスに対する設定です。 マッピングとは マッピングとは、インデックスに保存するフィールドのデータ型の定義です。(データ型一覧)ま...
データベース

Elasticsearch で日本語検索と Analyzer (kuromoji) の設定

Analyzer Analyzer とは、ドキュメントの text フィールドから転置インデックスを作成するものです 転置インデックス 転置インデックスとは、ある単語を含むドキュメントのリスト (索引) です。まずは、結論としてよく利用する...
データベース

Elasticsearch のデータ構造

Elasticsearch のクエリで利用する、データ構造をまとめました。     indexdoc_valuesfielddataglobal_ordinals用途検索sort/集計/scriptsort/集計/scriptパフォーマンス...