ビッグデータ

2022.11.212022.11.18

目次

Apache Hadoop
Apache Pig
ノウハウ

Apache Hadoop

ビッグデータ分析でよく使う Hadoop コマンドまとめ

Hadoop を操作する際によく使うコマンドを整理してまとめました。ジョブ関連Hadoop のジョブを一覧表示する$ yarn application -listHadoop のジョブを強制終了する...

Apache Pig

Apache Pig 使い方まとめ

Apache Pig では Hadoop の MapReduce 処理を簡単に記述することが出来ます。そんな Apache Pig でよく使う処理をまとめました。

Apache Pigで辞書を当てる方法

あるフィールドに用意したキーワードが含まれるレコードを取得したいことがよくあると思います。 Pig でそれを実現する方法を記事にまとめました。

ノウハウ

【ビッグデータ分析】APIを並列処理化することによる処理時間短縮方法

ビッグデータ処理で最新のユーザー情報を大量に取得しなければいけない場合があります。そういった場合にユーザー1人ずつ順番で処理していたら数百万オーダーになるとチリツモで途方も無い処理時間がかかってしまいます。そこでユーザーを分割して分割したユーザーごとに並列で API を実行すれば並列数分処理時間が短縮されます。

ビッグデータ処理のエラーハンドリング実装例

ビッグデータ分析では処理前に読み込むファイルが存在するか確認したり, 排他制御したり等色々細かい対応が必要だったりします。そういった時に使う処理のサンプルコードをまとめましたので使えるパターンがありましたらぜひ参考にしてみてください。

ビッグデータ分析で使用するシェルコマンドまとめ

ビッグデータ分析で使用してきたシェルコマンドをまとめました。ターミナル表示echo で文字列エスケープ$ echo "\"""echo で改行表示-e で改行を表示出来ます。$ txt...

ビッグデータ分析で使用するPythonコードまとめ

Python でビッグデータ分析処理をする際によく使うコードをまとめました。Python でシェルコマンドを実行したり, 標準出力を扱ったりとシェル芸を組み合わせることもあります。ロギングや Pandas でのデータ加工,...

タイトルとURLをコピーしました