仕事内容
データを活用したプロダクトの意思決定を推進すべくデータ基盤チームの強化を行っています。サービスと組織拡大に合わせデータ基盤やデータマネジメントのより一層の強化を推進するエンジニアを募集しています。
【具体的には】
・ECSで動作するEmbulk+Digdagを利用したETLツールの開発と運用
・Cloud Composerを利用したデータマートの開発と運用
・データ集計やダッシュボードの作成業務
・PII(Personally Identifiable Information) の扱いに関するデータマネジメント・ポリシーの運用
【チームの現状について】
サービスはAWS上のRDBMS(PostgreSQL/MySQL)をデータウェアハウスであるBigQueryにロードしています。ETLはEmbulk+Digdagで構成されておりECS Scheduled Taskで動いています。データウェアハウスであるBigQuery内ではデータレイクとデータマート、つまりプロダクトのデータと分析用のデータを分けて管理と運用を行っています。直近では個人情報にあたるデータカラムへのアクセスを制限するようなポリシーを策定するような取り組みもはじめました。SQLという専門知識なしでも多くのメンバーがデータを活用できるようにというチームミッションに基づき、BIツールはRedashからTableauに移行しました。
【現状の課題や実現したいこと】
ツールや開発面ではマイクロサービスの追加と共にETLの設定変更の煩雑性などの問題が出てきました。またETLはデイリーで実行しているので、ビジネスの進捗が確認したい場合でも最大で1日待たなければなりません。データマネジメントでは機能進化に伴い集計に必要なデータマートのニーズに追いついていないという問題もあります。
【具体的には】
・ECSで動作するEmbulk+Digdagを利用したETLツールの開発と運用
・Cloud Composerを利用したデータマートの開発と運用
・データ集計やダッシュボードの作成業務
・PII(Personally Identifiable Information) の扱いに関するデータマネジメント・ポリシーの運用
【チームの現状について】
サービスはAWS上のRDBMS(PostgreSQL/MySQL)をデータウェアハウスであるBigQueryにロードしています。ETLはEmbulk+Digdagで構成されておりECS Scheduled Taskで動いています。データウェアハウスであるBigQuery内ではデータレイクとデータマート、つまりプロダクトのデータと分析用のデータを分けて管理と運用を行っています。直近では個人情報にあたるデータカラムへのアクセスを制限するようなポリシーを策定するような取り組みもはじめました。SQLという専門知識なしでも多くのメンバーがデータを活用できるようにというチームミッションに基づき、BIツールはRedashからTableauに移行しました。
【現状の課題や実現したいこと】
ツールや開発面ではマイクロサービスの追加と共にETLの設定変更の煩雑性などの問題が出てきました。またETLはデイリーで実行しているので、ビジネスの進捗が確認したい場合でも最大で1日待たなければなりません。データマネジメントでは機能進化に伴い集計に必要なデータマートのニーズに追いついていないという問題もあります。
応募資格
・SQLを利用したデータ分析の経験
・リアルタイム及びバッチ等によるデータパイプラインの開発運用経験
・RDBMSやDWHの実践経験(index設計、 table設計、データ設計、replication化等)
・Webアプリケーションのバックエンド開発経験
・BIツールの利用経験
【歓迎】
・AWS及びGCPの利用経験
・Airflow等のワークフローエンジンを用いたデータパイプラインの開発運用経験
・社内のステークホルダーと円滑なコミュニケーションが取れ、二人三脚で意思決定に必要なデータ集計・分析をスムーズに行うことができる
・リアルタイム及びバッチ等によるデータパイプラインの開発運用経験
・RDBMSやDWHの実践経験(index設計、 table設計、データ設計、replication化等)
・Webアプリケーションのバックエンド開発経験
・BIツールの利用経験
【歓迎】
・AWS及びGCPの利用経験
・Airflow等のワークフローエンジンを用いたデータパイプラインの開発運用経験
・社内のステークホルダーと円滑なコミュニケーションが取れ、二人三脚で意思決定に必要なデータ集計・分析をスムーズに行うことができる