什么叫大數(shù)據(jù)分析
程序員飼養(yǎng)研究中心
百家號18-09-2911:50
大數(shù)據(jù)行業(yè)發(fā)展如火如荼,**政策利好,互聯(lián)網大佬紛紛在大數(shù)據(jù)行業(yè)布局,我們想讓自己的職業(yè)生涯在一個朝陽行業(yè)發(fā)展,肯定又要學習相關技術,讓自己與時俱進,但是難就難在大數(shù)據(jù)是一個新興事物,目前我國大學的**里面還鮮少有這個**,**剛批的大數(shù)據(jù)**,全國目前35個高校,但是從17年開始招生,2021年才有**批畢業(yè)生進入職場,在四年期間,是大數(shù)據(jù)行業(yè)發(fā)展的飛速時期,沒有行業(yè)發(fā)展是等著人才進入的,而是需要要虛位以待、蓄勢待發(fā),所以在沒有高等教育準備好的大數(shù)據(jù)教育,如何**的學習大數(shù)據(jù),如何快速的與行業(yè)發(fā)展想契合,那么需要我們成為**個吃螃蟹的人,作為一個隨著大數(shù)據(jù)行業(yè)成長的職業(yè)人,首先要知道大數(shù)據(jù)是個啥?
大數(shù)據(jù)(big data),指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
那來幫大家分析下:如何**的學習大數(shù)據(jù)。
經常有初學者會問,自己想往大數(shù)據(jù)方向發(fā)展,該學哪些技術,學習路線是什么樣的,覺得大數(shù)據(jù)很火,就業(yè)很好,薪資很高……首先,如果你確定了想往這個方面發(fā)展,先考慮自己的過去從業(yè)經歷、**、興趣是什么。計算機**——操作系統(tǒng)、硬件、網絡、服務器?軟件**——軟件開發(fā)、編程、寫代碼?還是數(shù)學、統(tǒng)計學**——對數(shù)據(jù)和數(shù)字特別感興趣?
那么你能找?guī)煾祹幔?/p>
但凡有這種想法的人,或多或少都會存有僥幸之心,或者叫做“天真,單純”。希望不花一分錢,就能更快速的學到更**,更實用的技能。
關于這一點,我只想反問一句你:“如果你是大師,你憑什么愿意帶我?”
其實這就是想告訴你大數(shù)據(jù)的三個發(fā)展方向,平臺搭建/優(yōu)化/運維/監(jiān)控、大數(shù)據(jù)開發(fā)/設計/架構、數(shù)據(jù)分析/挖掘。
先說一下大數(shù)據(jù)的4V特征:
數(shù)據(jù)量大,TB->PB
數(shù)據(jù)類型繁多,結構化、非結構化文本、日志、視頻、圖片、地理位置等;
商業(yè)價值高,但是這種價值需要在海量數(shù)據(jù)之上,通過數(shù)據(jù)分析與機器學習更快速的挖掘出來;
處理時效性高,海量數(shù)據(jù)的處理需求不再局限在離線計算當中。
現(xiàn)如今,正式為了應對大數(shù)據(jù)的這幾個特點,開源的大數(shù)據(jù)框架越來越多,越來越強,先列舉一些常見的:
文件存儲:Hadoop HDFS、Tachyon、KFS
離線計算:Hadoop MapReduce、Spark
流式、實時計算:Storm、Spark Streaming、S4、Heron
K-V、NOSQL數(shù)據(jù)庫:Hbase、Redis、MongoDB
資源管理:YARN、Mesos
日志收集:Flume、Scribe、Logstash、Kibana
消息系統(tǒng):Kafka、StormMQ、ZeroMQ、RabbitMQ
查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分布式協(xié)調服務:Zookeeper
集群管理與監(jiān)控:Ambari、Ganglia、Nagios、Cloudera Manager
數(shù)據(jù)挖掘、機器學習:Mahout、Spark MLLib
數(shù)據(jù)同步:Sqoop
任務調度:Oozie
······
聚類問題:從用戶搜索過的關鍵詞,對用戶進行大概的歸類。
推薦問題:根據(jù)用戶的歷史瀏覽和點擊行為進行相關推薦。
大多數(shù)行業(yè),使用機器學習解決的,也就是這幾類問題。
入門學習線路:
數(shù)學基礎;
機器學習實戰(zhàn)(Machine Learning in Action),懂Python*;
SparkMlLib提供了一些封裝好的算法,以及特征處理、特征選擇的方法。
那么把機器學習部分加進 “大數(shù)據(jù)平臺”。