ビッグデータ VagrantでHadoop Clusterを構築する方法まとめ Vagrant で VM を用意して Hadoop Cluster を構築する方法をまとめました。 2022.12.01 ビッグデータ
ビッグデータ Apache Pig 使い方まとめ Apache Pig では Hadoop の MapReduce 処理を簡単に記述することが出来ます。 そんな Apache Pig でよく使う処理をまとめました。 2022.10.31 ビッグデータ
ビッグデータ 【ビッグデータ分析】APIを並列処理化することによる処理時間短縮方法 ビッグデータ処理で最新のユーザー情報を大量に取得しなければいけない場合があります。 そういった場合にユーザー1人ずつ順番で処理していたら数百万オーダーになるとチリツモで途方も無い処理時間がかかってしまいます。 そこでユーザーを分割して分割したユーザーごとに並列で API を実行すれば並列数分処理時間が短縮されます。 2022.10.31 ビッグデータ
ビッグデータ Apache Pigで辞書を当てる方法 あるフィールドに用意したキーワードが含まれるレコードを取得したいことがよくあると思います。 Pig でそれを実現する方法を記事にまとめました。 2022.10.31 ビッグデータ
ビッグデータ ビッグデータ処理のエラーハンドリング実装例 ビッグデータ分析では処理前に読み込むファイルが存在するか確認したり, 排他制御したり等色々細かい対応が必要だったりします。 そういった時に使う処理のサンプルコードをまとめましたので使えるパターンがありましたらぜひ参考にしてみてください。 2022.10.31 ビッグデータ
ビッグデータ ビッグデータ分析でよく使う Hadoop コマンドまとめ Hadoop を操作する際によく使うコマンドを整理してまとめました。 ジョブ関連 Hadoop のジョブを一覧表示する $ yarn application -list Hadoop のジョブを強制終了する ... 2022.10.28 ビッグデータ
ビッグデータ ビッグデータ分析で使用するシェルコマンドまとめ ビッグデータ分析で使用してきたシェルコマンドをまとめました。 ターミナル表示 echo で文字列エスケープ $ echo "\"" " echo で改行表示 -e で改行を表示出来ます。 $ txt... 2022.10.24 ビッグデータ
ビッグデータ ビッグデータ分析で使用するPythonコードまとめ Python でビッグデータ分析処理をする際によく使うコードをまとめました。 Python でシェルコマンドを実行したり, 標準出力を扱ったりとシェル芸を組み合わせることもあります。 ロギングや Pandas でのデータ加工,... 2022.10.24 ビッグデータ