ビッグデータ

VagrantでHadoop Clusterを構築する方法まとめ

Vagrant で VM を用意して Hadoop Cluster を構築する方法をまとめました。

ビッグデータ

Apache Pig 使い方まとめ

Apache Pig では Hadoop の MapReduce 処理を簡単に記述することが出来ます。そんな Apache Pig でよく使う処理をまとめました。

ビッグデータ

【ビッグデータ分析】APIを並列処理化することによる処理時間短縮方法

ビッグデータ処理で最新のユーザー情報を大量に取得しなければいけない場合があります。そういった場合にユーザー1人ずつ順番で処理していたら数百万オーダーになるとチリツモで途方も無い処理時間がかかってしまいます。そこでユーザーを分割して分割したユーザーごとに並列で API を実行すれば並列数分処理時間が短縮されます。

ビッグデータ

Apache Pigで辞書を当てる方法

あるフィールドに用意したキーワードが含まれるレコードを取得したいことがよくあると思います。 Pig でそれを実現する方法を記事にまとめました。

ビッグデータ

ビッグデータ処理のエラーハンドリング実装例

ビッグデータ分析では処理前に読み込むファイルが存在するか確認したり, 排他制御したり等色々細かい対応が必要だったりします。そういった時に使う処理のサンプルコードをまとめましたので使えるパターンがありましたらぜひ参考にしてみてください。

ビッグデータ

ビッグデータ分析でよく使う Hadoop コマンドまとめ

Hadoop を操作する際によく使うコマンドを整理してまとめました。ジョブ関連 Hadoop のジョブを一覧表示する $ yarn application -list Hadoop のジョブを強制終了する ...

ビッグデータ

AWS CLI S3 コマンド使い方まとめ

Amazon S3 でフォルダの作成方法や再帰的にファイルをコピーする方法などよく行う操作なのについ検索してしまう AWS CLIコマンドたちをまとめました。特に複数月のデータを再帰的に複製する処理はビッグデータの前処理でよく使うので重宝しています。

ビッグデータ分析で使用するシェルコマンドまとめ

ビッグデータ分析で使用してきたシェルコマンドをまとめました。ターミナル表示 echo で文字列エスケープ $ echo "\"" " echo で改行表示 -e で改行を表示出来ます。 $ txt...

ビッグデータ

ビッグデータ分析で使用するPythonコードまとめ

Python でビッグデータ分析処理をする際によく使うコードをまとめました。 Python でシェルコマンドを実行したり, 標準出力を扱ったりとシェル芸を組み合わせることもあります。ロギングや Pandas でのデータ加工,...

ビッグデータ

タイトルとURLをコピーしました