ビッグデータ

ビッグデータ

VagrantでHadoop Clusterを構築する方法まとめ

Vagrant で VM を用意して Hadoop Cluster を構築する方法をまとめました。
ビッグデータ

Apache Pig 使い方まとめ

Apache Pig では Hadoop の MapReduce 処理を簡単に記述することが出来ます。 そんな Apache Pig でよく使う処理をまとめました。
ビッグデータ

【ビッグデータ分析】APIを並列処理化することによる処理時間短縮方法

ビッグデータ処理で最新のユーザー情報を大量に取得しなければいけない場合があります。 そういった場合にユーザー1人ずつ順番で処理していたら数百万オーダーになるとチリツモで途方も無い処理時間がかかってしまいます。 そこでユーザーを分割して分割したユーザーごとに並列で API を実行すれば並列数分処理時間が短縮されます。
ビッグデータ

Apache Pigで辞書を当てる方法

あるフィールドに用意したキーワードが含まれるレコードを取得したいことがよくあると思います。 Pig でそれを実現する方法を記事にまとめました。
ビッグデータ

ビッグデータ処理のエラーハンドリング実装例

ビッグデータ分析では処理前に読み込むファイルが存在するか確認したり, 排他制御したり等色々細かい対応が必要だったりします。 そういった時に使う処理のサンプルコードをまとめましたので使えるパターンがありましたらぜひ参考にしてみてください。
ビッグデータ

ビッグデータ分析でよく使う Hadoop コマンドまとめ

Hadoop を操作する際によく使うコマンドを整理してまとめました。 ジョブ関連 Hadoop のジョブを一覧表示する $ yarn application -list Hadoop のジョブを強制終了する ...
S3

AWS CLI S3 コマンド使い方まとめ

Amazon S3 でフォルダの作成方法や再帰的にファイルをコピーする方法などよく行う操作なのについ検索してしまう AWS CLIコマンドたちをまとめました。 特に複数月のデータを再帰的に複製する処理はビッグデータの前処理でよく使うので重宝しています。
ビッグデータ

ビッグデータ分析で使用するシェルコマンドまとめ

ビッグデータ分析で使用してきたシェルコマンドをまとめました。 ターミナル表示 echo で文字列エスケープ $ echo "\"" " echo で改行表示 -e で改行を表示出来ます。 $ txt...
ビッグデータ

ビッグデータ分析で使用するPythonコードまとめ

Python でビッグデータ分析処理をする際によく使うコードをまとめました。 Python でシェルコマンドを実行したり, 標準出力を扱ったりとシェル芸を組み合わせることもあります。 ロギングや Pandas でのデータ加工,...
タイトルとURLをコピーしました