Apache

ビッグデータ分析基盤

【入門】Apache Hive とは?メタストアや HiveServer を解説

Apache Hive Apache Hive とは、分散ストレージ(Hadoop など) のデータセットに対して、SQL クエリで「読み取り・書き込み・管理」するソフトウェアです。 最初に 本記事は、以下...
ビッグデータ分析基盤

【入門】Apache Kafka とは?docker で起動から使い方までを解説

Apache Kafka を学習する上で以下のような疑問が生まれたため、本記事にまとめました。 どんなことができるの?分散ストリーミング処理システムって何?そもそも何に使うのこれ?メッセージキューイングシステムでよくない?どうやって...
ビッグデータ分析基盤

Apache Spark とは【入門】

初めに 本記事は、以下のビッグデータ分析基盤シリーズの Apache Spark 編です。 【ビッグデータ入門1】ビッグデータ分析基盤【ビッグデータ入門2】ストリーム処理【ビッグデータ入門3】fluentd【ビッグデータ入門4...
ビッグデータ分析基盤

【入門】Hadoop とは?MapReduce の使い方やエコシステム一覧

Apache Hadoop Apache Hadoop とは、並列分散処理を実現するミドルウェアです。 「ビッグデータを1台のコンピュータで処理すると時間がかかりすぎるため、コンピューターをいっぱい並べて高速に処...