【課程簡介】
工業(yè)和信息化部電信研究院于2014年5月發(fā)布的“大數(shù)據(jù)白皮書”中指出:
“2012 年美國聯(lián)邦政府就在全球率先推出“大數(shù)據(jù)行動計劃(Big data initiative)”,重點在基礎(chǔ)技術(shù)研究和公共部門應(yīng)用上加大投入。在該計劃支持下,加州大學伯克利分校開發(fā)了完整的大數(shù)據(jù)開源軟件平臺“伯克利數(shù)據(jù)分析軟件棧(Berkeley Data Analytics Stack),其中的內(nèi)存計算軟件Spark的性能比Hadoop 提高近百倍,對產(chǎn)業(yè)界大數(shù)據(jù)技術(shù)走向產(chǎn)生巨大影響”
----來源:工業(yè)和信息化部電信研究院
Spark是成為替代MapReduce架構(gòu)的大數(shù)據(jù)分析技術(shù),Spark的大數(shù)據(jù)生態(tài)體系包括流處理、圖技術(shù)、機器學習等各個方面,并且已經(jīng)成為Apache項目,可以預(yù)計的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會有爆發(fā)式的增長。
國內(nèi)外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark,并且它的高性能已經(jīng)得到實踐的證明。國外Yahoo已在多個項目中部署Spark,尤其在信息推薦的項目中得到深入的應(yīng)用;國內(nèi)的淘寶、愛奇異、優(yōu)酷土豆、網(wǎng)易、baidu、騰訊等大型互聯(lián)網(wǎng)企業(yè)已經(jīng)將Spark應(yīng)用于自己的生產(chǎn)系統(tǒng)中。國內(nèi)外的應(yīng)用開始越來越廣泛。Spark正在逐漸走向成熟,并在這個領(lǐng)域扮演更加重要的角色。
在2014 Spark Summit上,世界20家公司聲明支持Spark,這些公司包括了四個Hadoop發(fā)行商Cloudera, Pivotal, MapR, Hortonworks,都提供了對非常強有力的支持Spark的支持:
1、 Hadoop的頭號發(fā)行商Cloudera,在2014年7月份宣布“Impala’s it for interactive SQL on Hadoop; everything else will move to Spark”;
2、 2014年5月24日Pivotal宣布了會把整個Spark stack包裝在Pivotal HD Hadoop發(fā)行版里面;這標志著四個Hadoop發(fā)行商Cloudera、Pivotal、MapR、Hortonworks都提供了對Spark的支持;
3、 2014年4月,Mahout表示將不再接受任何形式的以MapReduce形式實現(xiàn)的算法,Mahout宣布新的算法基于Spark;
4、 Cloudera的機器學習框架Oryx的執(zhí)行引擎也將由Hadoop的MapReduce替換成Spark;
【培訓(xùn)方式】
以課堂講解、演示、案例分析為主,輔以互動研討、現(xiàn)場答疑、學以致用。
【目標收益】
1、 通過培訓(xùn)使學員深入理解Spark的大數(shù)據(jù)實現(xiàn)技術(shù)原理;
2、 通過培訓(xùn)使學員深入理解并能運行Spark 的Core、Streaming、SQL、Mllib、GraphX等子項目;
3、 通過培訓(xùn)使學員具備Spark內(nèi)存計算框架的開發(fā)能力;
4、 通過培訓(xùn)使學員學會Scala語言開發(fā),以及開發(fā)Spark程序,處理業(yè)務(wù)數(shù)據(jù);
【培訓(xùn)對象】
1、 對大數(shù)據(jù)、分布式存儲、分析等感興趣的人員;
2、 大型網(wǎng)站、電商網(wǎng)站等運維人員;
3、 云計算、大數(shù)據(jù)從業(yè)者;
4、 熟悉Hadoop生態(tài)體系,想了解和學習Hadoop與Spark整合在企業(yè)應(yīng)用實戰(zhàn)案例的人員;
5、 系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級程序員、經(jīng)驗豐富的開發(fā)人員;
6、 牽涉到大數(shù)據(jù)處理的數(shù)據(jù)中心運行、規(guī)劃、設(shè)計負責人;
7、 政府機關(guān),金融保險、移動互聯(lián)網(wǎng)等大數(shù)據(jù)單位的負責人;
8、 高校、科研院所大數(shù)據(jù)研究人員,涉及到大數(shù)據(jù)與分布式數(shù)據(jù)處理的人員;
9、 數(shù)據(jù)倉庫管理人員、建模人員,分析和開發(fā)人員、系統(tǒng)管理人員、數(shù)據(jù)庫管理人員以及對數(shù)據(jù)倉庫感興趣的其他人員;
【培訓(xùn)時長】
4天
【課程大綱】