CDH (Hadoop) 入門

分散処理基盤 Hadoop / CDH とは Hadoopは、大規模データを複数台のサーバで分散処理するための基盤となるミドルウェアです。 複数のサーバを用いるクラスタ構成のため、大規模データを処理することが可能となりま […]

Hadoop+Spark入門

1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに […]

Kafka を基本から学ぶ

Kafka とは? Apache Kafkaは、大規模なデータの収集、処理、保存と統合のための Event Streaming Platform であり、そのユースケースには、分散型ロギング、ストリーム処理、データ統合、 […]