ビッグデータ 2022.11.212022.11.18 スポンサーリンク 目次 Apache HadoopApache Pigノウハウ Apache Hadoop ビッグデータ分析でよく使う Hadoop コマンドまとめHadoop を操作する際によく使うコマンドを整理してまとめました。ジョブ関連Hadoop のジョブを一覧表示する$ yarn application -listHadoop のジョブを強制終了する... Apache Pig Apache Pig 使い方まとめApache Pig では Hadoop の MapReduce 処理を簡単に記述することが出来ます。 そんな Apache Pig でよく使う処理をまとめました。 Apache Pigで辞書を当てる方法あるフィールドに用意したキーワードが含まれるレコードを取得したいことがよくあると思います。 Pig でそれを実現する方法を記事にまとめました。 ノウハウ 【ビッグデータ分析】APIを並列処理化することによる処理時間短縮方法ビッグデータ処理で最新のユーザー情報を大量に取得しなければいけない場合があります。 そういった場合にユーザー1人ずつ順番で処理していたら数百万オーダーになるとチリツモで途方も無い処理時間がかかってしまいます。 そこでユーザーを分割して分割したユーザーごとに並列で API を実行すれば並列数分処理時間が短縮されます。 ビッグデータ処理のエラーハンドリング実装例ビッグデータ分析では処理前に読み込むファイルが存在するか確認したり, 排他制御したり等色々細かい対応が必要だったりします。 そういった時に使う処理のサンプルコードをまとめましたので使えるパターンがありましたらぜひ参考にしてみてください。 ビッグデータ分析で使用するシェルコマンドまとめビッグデータ分析で使用してきたシェルコマンドをまとめました。ターミナル表示echo で文字列エスケープ$ echo "\"""echo で改行表示-e で改行を表示出来ます。$ txt... ビッグデータ分析で使用するPythonコードまとめPython でビッグデータ分析処理をする際によく使うコードをまとめました。Python でシェルコマンドを実行したり, 標準出力を扱ったりとシェル芸を組み合わせることもあります。ロギングや Pandas でのデータ加工,...