崗位職責:
1、採集和整理公司產品資料, 設計和構建穩健可擴展的資料模型和pipelines
2、建立並維護資料處理系統, 保證資料正確性和系統可靠性
3、探索、開發並維護資料基礎設施, 提供各種高效資料訪問和處理工具
4、和分析師, 資料科學家與工程師們密切合作, 領導設計和開發資料倉庫的架構和標準
5、保持好奇心, 積極學習評估新技術和新策略
【典型專案】
開發和維護跨平臺的ETL任務
創建和優化各種tables和schema, 保證多維高效可信賴
通過資料的清洗和檢查保證每日資料的健康
實現和優化高效穩健的資料tracking系統
任職要求:
1、熟悉大規模資料處理的演算法, 瞭解分散式運算環境的原理
2、優秀的資料建模和溝通協作能力, 理解互聯網和移動互聯網的技術原理和業務模型
3、熟悉SQL, 對資料敏感
4、有能力評估新的技術, 具有發現和探索問題的強烈興趣和好奇心, 並樂於學習和挑戰
5、扎實的電腦基礎, 電腦或相關專業本科或以上學歷
【加分項目】
1、有大規模資料處理或系統優化經驗, 對Hadoop開源生態系統的各種技術(Spark, Hive, Pig, Oozie, Impala, MapReduce, etc)有強烈興趣
2、熟練編寫腳本(Python, Perl, Bash, etc.)
3、瞭解或熟悉MPP平臺(Vertical, Redshift, Teradata, Greenplum, etc)
4、有構建和維護ETL任務的豐富經驗