1、負(fù)責(zé)Hadoop大數(shù)據(jù)平臺(tái)各類(lèi)數(shù)據(jù)業(yè)務(wù)抽象及模型化;
2、負(fù)責(zé)數(shù)據(jù)倉(cāng)庫(kù)ETL設(shè)計(jì)、開(kāi)發(fā)及自動(dòng)化工作;
3、負(fù)責(zé)Spark的功能擴(kuò)展和性能優(yōu)化,使用海量數(shù)據(jù)解決并實(shí)現(xiàn)業(yè)務(wù)需求;
4、設(shè)計(jì)或配合算法工程師實(shí)現(xiàn)算法,解決實(shí)體識(shí)別、情感分析等相關(guān)問(wèn)題;
5、使用Hive、Spark進(jìn)行數(shù)據(jù)處理,協(xié)助建立數(shù)據(jù)模型。
專(zhuān)業(yè)/學(xué)歷:
1、本科及以上學(xué)歷,精通SQL,精通Java、scala,Python其中至少一門(mén)語(yǔ)言;
2、熟悉數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) ;
3、熟悉Hive、Spark、Spark SQL、SparkStreaming、kafka、Flume、Sqoop、hdfs,HBase等;
4、熟悉linux開(kāi)發(fā)環(huán)境,掌握shell編程 。