今天要講資料分析的五大思維方式。
首先,我們要知道,什麼叫資料分析。其實從資料到信息的這個過程,就是資料分析。資料本身並沒有什麼價值,有價值的是我們從資料中提取出來的信息。
然而,我們還要搞清楚資料分析的目的是什麼?
目的是解決我們現實中的某個問題或者滿足現實中的某個需求。
那麼,在這個從資料到信息的過程中,肯定是有一些固定的思路,或者稱之為思維方式。下面零一給你一一介紹。(本文用到的指標和維度是同一個意思)



第一大思維【對照】
【對照】俗稱對比,單獨看一個資料是不會有感覺的,必需跟另一個資料做對比才會有感覺。比如下面的圖a和圖b。
圖a毫無感覺



圖b經過跟昨天的成交量對比,就會發現,今天跟昨天實則差了一大截。



這是最基本的思路,也是最重要的思路。在現實中的應用非常廣,比如選款測款丶監控店鋪資料等,這些過程就是在做【對照】,分析人員拿到資料後,如果資料是獨立的,無法進行對比的話,就無法判斷,等於無法從資料中讀取有用的信息。

第二大思維【拆分】
分析這個詞從字面上來理解,就是拆分和解析。因此可見,拆分在資料分析中的重要性。在派代上面也隨處可見「拆分」一詞,很多作者都會用這樣的口吻:經過拆分後,我們就清晰了……。不過,我相信有很多朋友並沒有弄清楚,拆分是怎麼用的。
我們回到第一個思維【對比】上面來,當某個維度可以對比的時候,我們選擇對比。再對比後發現問題需要找出原因的時候?或者根本就沒有得對比。這個時候,【拆分】就閃亮登場了。

大家看下面一個場景。
運營小美,經過對比店鋪的資料,發現今天的銷售額只有昨天的50%,這個時候,我們再怎麼對比銷售額這個維度,已經沒有意義了。這時需要對銷售額這個維度做分解,拆分指標。
銷售額=成交用戶數*客單價,成交用戶數又等於訪客數*轉化率。
詳見圖c和圖d
圖c是一個指標公式的拆解



圖b是對流量的組成成分做的簡單分解(還可以分很細很全)



拆分後的結果,相對於拆分前會清晰許多,便於分析,找細節。可見,拆分是分析人員必備的思維之一。

第三大思維【降維】
是否有面對一大堆維度的資料卻促手無策的經歷?當資料維度太多的時候,我們不可能每個維度都拿來分析,有一些有關聯的指標,是可以從中篩選出代表的維度即可。如下表


這麼多的維度,其實不必每個都分析。我們知道成交用戶數/訪客數=轉化率,當存在這種維度,是可以通過其他兩個維度通過計算轉化出來的時候,我們就可以【降維】.
成交用戶數丶訪客數和轉化率,只要三選二即可。另外,成交用戶數*客單價=銷售額,這三個也可以三擇二。
另外,我們一般只關心對我們有用的資料,當有某些維度的資料跟我們的分析無關時,我們就可以篩選掉,達到【降維】的目的。

第四大思維【增維】
增維和降維是對應的,有降必有增。當我們當前的維度不能很好地解釋我們的問題時,我們就需要對資料做一個運算,增加多一個指標。請看下圖。



我們發現一個搜索指數和一個寶貝數,這兩個指標一個代表需求,一個代表競爭,有很多人把搜索指數/寶貝數=倍數,用倍數來代表一個詞的競爭度(僅供參考)。這種做法,就是在增維。增加的維度有一種叫法稱之為【輔助列】。
【增維】和【降維】是必需對資料的意義有充分的了解後,為了方便我們進行分析,有目的的對資料進行轉換運算。

第五大思維【假說】
當我們拿不準未來的時候,或者說是迷茫的時候。我們可以應用【假說】,假說是統計學的專業名詞吧,俗稱假設。當我們不知道結果,或者有幾種選擇的時候,那麼我們就召喚【假說】,我們先假設有了結果,然後運用逆向思維。
從結果到原因,要有怎麼樣的因,才能產生這種結果。這有點尋根的味道。那麼,我們可以知道,現在滿足了多少因,還需要多少因。如果是多選的情況下,我們就可以通過這種方法來找到最佳路徑(決策)
當然,【假說】的威力不僅僅如此。【假說】可是一匹天馬(行空),除了結果可以假設,過程也是可以被假設的。
我們回到資料分析的目的,我們就會知道只有明確了問題和需求,我們才能選擇分析的方法。
順帶給大家講講三巨量資料類型。這個屬於偷換概念,其實就是時間序列的細分,不是真正意義上的資料類型,但這個卻是在處理店鋪資料時經常會碰到的事情。資料放在坐標軸上面分【過去】丶【現在】和【未來】

第一 巨量資料類型【過去】
【過去】的資料指歷史資料,已經發生過的資料。
作用:用於總結丶對照和提煉知識
如:歷史店鋪運營資料,退款資料,訂單資料

第二 巨量資料類型【現在】
【現在】的概念比較模糊,當天,當月,今年這些都可以是現在的資料,看我們的時間單位而定。如果我們是以天作為單位,那麼,今天的資料,就是現在的資料。現在的資料和過去的資料做比較,才可以知道現在自己是在哪個位置,單有現在的資料,是沒什麼用處的。
作用:用於了解現況,發現問題
如:當天的店鋪資料

第三 巨量資料類型【未來】
【未來】的資料指未發生的資料,通過預測得到。比如我們做得規劃,預算等,這些就是在時間點上還沒有到,但是卻已經有了資料。這個資料是作為參考的資料,預測沒有100%,總是有點兒出入的。
作用:用於預測
如:店鋪規劃,銷售計劃
三種資料是單向流動的,未來終究會變成現在,直到變成過去。
他人我不知道,但我自己非常喜歡把資料往坐標軸上面放,按時間段一划分,每個資料的作用就非常清晰。

4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:爱数据


leohope 發表在 痞客邦 留言(0) 人氣()

2013年Teradata天睿公司首席分析官Bill Franks出版了《駕馭巨量資料》,時隔兩年他又帶來了新書《資料分析變革》,從書名可以看出巨量資料的應用已經發生了質變。Bill也把資料分析的變革比做是一場工業革命,因為技術的發展帶來了更多的分析能力,以及可以實現自動化的分析,這些也就如同蒸汽機給工業革命帶來發展的動力是同一道理。

從分析到高級分析的進化

分析的重要性已經成為現如今企業的共識,很多企業都在使用商業智能軟體將自身的業務進行匯總呈現。但報表呈現和分析的概念不盡相同,報表通常是按照固定格式自動生成,而分析並不是簡單的信息匯總,企業需要將匯總的資料進行整合并分析為決策給出建議。

當然分析的程度也有淺有深,巨量資料分析就是時下企業非常追捧的資料分析技術。Bill認為,巨量資料必須置於更廣泛的企業資料和分析戰略的場景中,而且不要糾結於如何定義巨量資料,只需思考如何善用巨量資料!

然而分析的種類也多種多樣,有人會問普通分析和高級分析有什麼區別?普通分析屬於概述型分析,高級分析則更多是預測性分析。在四、五年前很多企業並不具備高級分析的技能,所以觀望是普遍狀態,而現在高級分析已經成為主流的發展趨勢,企業需要把高級分析作為標配。

在Bill看來,高級分析要從探索發現、設計、部署整個流程形成閉環,因為資料類型的不同就需要不同的演算法和存儲方式,所以在發現階段就要考慮未來階段怎麼才能推進地更加迅速,並且在部署之後還有一個很重要的階段衡量和評估。

作為Teradata首席分析官,Bill的工作主要有三部分,戰略、客戶、品牌。在企業里首席分析官的職位並不多見,Bill建議如果企業對於資料分析有核心需求就應該設立這一職位,當然其需要具備優秀的資料分析的能力,以及優秀的溝通能力,可以用業務語言對管理者和非IT人員進行溝通。

行業客戶如何做資料分析

Teradata 天睿公司一方面為具有共性需求的客戶提供標準化的解決方案,另一方面為大型客戶進行個性化定製解決方案,同時針對行業客戶進行分析,嵌入相應的功能模塊。

零售、金融、通信等行業是目前應用巨量資料較好的行業,那現在的零售行業是如何用創新的方法挖掘資料價值呢?「其實零售行業有很多問題有待解決,」Bill說。例如,賣場在即將結束營業的時段會有大量客人集中結賬,這對於結賬帶來了很大的壓力,零售商則可以通過監控賣場的人流量和停車場流量來進行多方面資料分析,預測出未來5-15分鐘的流量壓力,讓管理人員可以及時進行調度,為顧客帶來更好的購物體驗。

巨量資料分析已經不再是某幾個行業的「玩物」,其已經在各行業開始蔓延,那些看起來不太適合採用巨量資料分析的行業都已經開始了巨量資料,像汽車行業目前就在大量應用車聯網的巨量資料分析技術。

物聯網也會使得新的資料源逐漸增多,Teradata也將應對新的資料源解決新的業務問題。例如,感測器就可以引發多環節的客戶體驗提升的連鎖效應,在倉儲物流行業通過感測器可以了解到倉儲環境的溫度,從而進行溫控保證產品質量,之後賣家還可以分析產品的買賣行為和途徑,從而制定未來的營銷策略。

未來雲服務會是企業越來越認可的一種服務提供模式,使得客戶可以獲得按需提供的資料分析服務。在過去的一年中Teradata也同一些雲服務商展開溝通,目前看來這種服務方式更加適合中小型企業,因為產品的部署和實施對於中小企業相對困難,所以通過雲的模式可以使用到一些共性的分析服務。

FineReport報表與BI商業智慧工具【免費下載】opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。分享自:ZDNet


leohope 發表在 痞客邦 留言(0) 人氣()

每個追尋巨量資料的組織機構都對它寄予厚望,希望它可以回答長期的業務問題,讓企業在市場中具有更多的競爭力,更好地交付產品和服務。然而在這種熱情之中,很容易產生對巨量資料的虛假期望——有些好處永遠不會實現,除非你藉助一定的「幫助」。以下就是巨量資料不會為你做的10件關鍵的事情,除非你採取正確的步驟來優化它的價值。

1、解決你的業務問題

巨量資料不會解決業務問題,解決問題的是人。只有那些在採用巨量資料之前冷靜地坐下來考慮他們想要從中獲得什麼的組織機構,才能獲得他們一直在尋求的商業智能的成果。

2、有助於你的資料管理

IBM聲稱全球每天會生成2.5億億個位元組的資料,其中大多數資料是巨量資料。不出所料,全球企業中受管理的資料正在成倍增長。隨著資料快速累積卻沒有明確的資料保留和使用策略(尤其是針對巨量資料),那麼機構組織就要面對管理這些資料的難題了。

3、緩解你的安全擔心

對於很多企業來說,確定對資料的安全訪問仍然是一個開放的話題。這是因為針對巨量資料的安全實踐,並不像系統記錄中的資料那樣已經限定好了。我們正處於這樣一個時間點,IT應該與終端用戶合作,確定誰可以訪問哪些巨量資料以及相應的分析結果。

4、解決關鍵IT技能領域

巨量資料資料庫管理、伺服器管理、軟體開發和業務分析技能都是供不應求的。這在很多IT部門已經匱乏的重要核心IT技能上有增加了額外的負擔。

5、減少遺留系統的價值

如果有的話,在巨量資料時代,記錄在案的遺留系統要比以往任何時候都更有價值。通常情況下,這些遺留系統為如何更好地剖析巨量資料提供了關鍵線索,讓資料分析可以回答重要的業務問題。

6、簡化你的資料中心

巨量資料要求並行處理計算集群和不同於傳統IT轉型的系統管理模式以及資料倉庫系統。這意味運行這些新系統所需的能耗、冷卻、軟體、硬體和系統技能也將是不同的。

7、改善你的資料質量

傳統事務處理系統的優點在於,會有固定的資料欄位長度,對資料的全面編輯和驗證,有助於讓其轉變為相對乾淨的格式。對於巨量資料並非如此,巨量資料是非結構化的,可以是任何一種格式。這讓巨量資料質量成為一大難題。資料質量是至關重要的。如果你沒有資料質量的話,你就無法信任資料查詢的結果。

8、驗證當前的投資回報率指標

從記錄系統中衡量投資回報的最常用方法就是監測交易的速度,然後推斷這在獲得收入方面意味著什麼(例如每分鐘你能獲得多少個新的酒店預定)。交易速度對於巨量資料處理來說並不是很好的指標,可能需要數小時甚至數天時間處理大規模資料並運行資料分析。相反,評估巨量資料處理效率的最好指標是利用率,這應該在定期基礎上高出90%(與交易系統相比,後者可能只有20%)。開發這些針對巨量資料的新ROI指標很重要,因為你仍然需要說服CFO和其他業務領導在巨量資料上進行投資。

9、減少「噪音」

巨量資料中95%都是「噪音」,對商業智慧貢獻很少或者幾乎沒有。過濾這些資料、獲得能真正幫助企業的情報將是一件艱巨的事情。

10、每次都管用

多年來,大學和研究中心運作了很多巨量資料實驗以得出基因組、藥物研究以及外星生命方面難以捉摸的答案。雖然這些演算法和查詢中很多會產生結果,但更多的是沒有定論的。大學和研究環境對於沒有定論是可以容忍的,但是在企業環境中就不行了。這是IT和其他關鍵決策者需要管理期望的所在。


FineReport報表與BI商業智慧工具【免費下載】opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。分享自:ZDNet


leohope 發表在 痞客邦 留言(0) 人氣()

一、引言

單純的防禦措施無法阻止蓄意的攻擊者,這已經是大家都認同的事實,應對挑戰業界有了諸多方面的探索和實踐,而其中最有趣的就非安全分析莫屬了,圍繞著安全分析展開,我們可以看到巨量資料、安全智能、情景感知、威脅情報、資料挖掘、視覺化等等,因為這些都是安全分析師手中的武器。

二、安全戰略思路的變化

壞的消息是,入侵總會發生,再強的防禦也難以做到禦敵於國門之外,攻擊者總會進入到你的網路中;那麼好消息就是入侵和破環是兩回事,雖然也存在入侵開始到實際損害發生之間時間窗口很短的情況,但是我們也還是看到,大多數入侵如果想達到目的,需要較長的時間,特別定向攻擊和APT攻擊。那麼如果安全團隊可以在攻擊者完成使命之前阻止其活動,就可以做到這點:我們有可能遭受入侵,但可能不會遭遇破環。

據此有效的戰略是儘可能多的進行實時防禦,來防止入侵的可能,同時配合積極的檢測(Hunting)與事件響應來避免出現破環,或者最大限度的減少破壞的影響。

由此我們知道,傳統的安全產品沒有過時,我們還是需要4A,需要防火牆、IDPs以及AV這些不同的產品,形成一定的防禦縱深,阻止隨機性的攻擊(通常追求機會,被選中往往是因為展現了易被利用的漏洞),並且延緩攻擊節奏,擴大檢測和響應的時間窗口。這是一切的基礎,如果沒有這一步,後續的檢測和響應也就缺少了根基,在現實中無法實施。

從這點上說,個人也不贊成將某些針對特定組織的攻擊都歸屬於APT範圍,如果它是一些傳統的安全措施就可以防範的。這可能誤導某些組織,在缺乏基本防護措施(產品、組織、制度等)的情況下,盲目的追新求異,達不到切實的安全效果。

三、以威脅為中心的安全理念

實時防禦是以漏洞為中心的,基於漏洞的簽名檢測機制有著較高的準確性,可以用以進行自動化的阻截。但當基於已知威脅的簽名機制不能檢測針對其的高級別威脅時,我們就需要轉化思路,因此積極的檢測和響應則是以威脅為中心,它不再強調單點的檢測,也不再單純的追求告警的精確性,它促使你從面上去著手,將若干的點關聯起來,以資料為驅動來解決問題。在整個過程中(資料收集、檢測、資料分析)都需要以威脅為中心,如果丟掉這個中心點,單純的追求資料的大而全,則必然達不到效果。以威脅為中心,用資料來驅動安全,是檢測APT類型威脅的有效手段。




需要強調的是,以威脅為中心聚焦在資料收集,但並不強調資料的大,而是價值的高,認為它是一個動態的、周期性的過程,隨著威脅的變化,以及分析能力的改變,資料收集的範圍將會產生變化的。

四、資料收集

古語言「磨刀不誤砍柴工」,這句諺語非常適合來描述資料收集的重要性。但如果我們單純的強調全量的資料,會是什麼樣子?通過簡單的資料計算,我們可以知道監控1G的資料流量,如果採用PCAP文件格式存儲完整的內容資料,那麼一天就需要大約10T的磁碟空間。如果我們要保留90天的資料,再考慮備份、資料索引等需要的空間,哪會是多少?如果你需要監控的網路流量不止1G,如果還需要考慮主機及業務應用的日誌?龐巨量資料的存儲和維護固然是問題,還需要考慮到當盲目收集資料之後,也許這些資料的命運是永遠躺在磁碟中,彷彿從不存在,更甚者還會給後續分析過程帶來混亂、不確定性和低效率。

因此明智的問題是「我從哪裡獲得所需要的資料?」,而不是「我需要對該資料提出什麼樣的問題?」Gartner在《Security Information and Event Management Futures and Big Data Analytics for Security》一文中也特別的強調「分析的意識和探索資料的慾望」,認為這才是巨量資料安全中最關鍵的成功標準,首先學會問問題,而不是盲目收集資料或者是急於建立一套Hadoop巨量資料平台。

五、資料種類

以威脅為中心進行資料收據,自然包括威脅情報的收集,在之前的《小議威脅情報》中已有涉及,後續有時間也會就如何建立組織的威脅情報平台整理自己的觀點和大家共同討論,這裡不再多言,而專註於組織內部的資料收集。企業內部資料一般需要考慮一下幾個種類:

1.環境業務類資料:包括資產及屬性(業務、服務、漏洞、使用者...)、員工與賬號、組織結構等,這類資料也會被稱環境感知資料、友好類情報等。此類資料往往難以從機器中直接獲取,但對安全分析會有巨大的幫助,往往要依賴安全體系建設而逐步完善;

2、網路資料:包括FPC(Full Packet Capture,一般是PCAP格式)、會話或Flow資料,PSTR(Packet String,這種資料格式包括指定的協議頭部內容,如HTTP頭資料)。PSTR資料大約是FPC的4%左右,而Flow資料則是0.01%。PSTR是大小更容易管理,並且允許增強可見性的一種資料類型。

3.設備、主機及應用的日誌:它可以包括諸如Web代理日誌、路由器防火牆日誌、VPN日誌、windows安全及系統日誌等,不同來源的資料類型在大小和實用價值上都不同。 4.報警資料:檢測工具基於其配置發現異常,進而生成的通知就是報警,通常的報警資料來自IDS(主機或網路)、防火牆、AV等安全設備。依據環境和配置,日誌的資料量可以有很大的變化,但通常小於PSTR。

六、ACF方法

那麼如何確定需要採集用以進行安全分析的資料呢,這裡介紹一個ACF(Applied Collection Framework)方法[1],它可以幫助評估哪些資料應該是收集工作的重點。ACF不是一個純技術的手段,需要安全團隊從其他業務部門收集早期的信息,並配合完成整個工作。它由四個階段組成:定義威脅、量化風險、確定資料源、篩選聚焦。

1. 定義威脅:這裡不是泛泛而談,如競爭對手、腳本小子等,需要確定針對具體組織的具體威脅。它應該是「發生什麼樣糟糕的事情,會影響到組織的生存」這樣的問題,並且答案應該來自領導層或者是被其認可。一旦關鍵業務安全需求確定了,就需要深入挖掘可能的威脅,通過研究網路基礎設施及相關的業務流程,明確相關研究、生產、存儲、加工、訪問等相關環節,進而明確可能的入侵及破壞方法。

2.量化風險:一旦潛在的威脅名單確定,就需要考慮優先順序,一般實現的方式是通過計算威脅影響和概率的乘積,得到每個潛在威脅的風險。雖然這種方法可以提供和威脅相關的量化指標,但畢竟是主觀的。為保障評估確實符合實際,往往需要一組人來參與量化風險的過程,有些機構還會在這個過程中引入第三方的網路滲透測試人員,共同參與完成這個過程。

3.確定資料源:在這個階段確定可以提供檢測和分析價值的主要資料元,從具有最高風險權重的技術威脅開始,考慮可以從哪裡看到威脅相應的線索、證據。比如考慮關鍵文件伺服器的資料泄露威脅,應該確定伺服器的架構、網路位置、具有訪問權的用戶,以及可以獲得資料的其它途徑。根據這些信息,得到相應的資料源清單。

4.篩選聚焦:在最後的階段你需要選擇最需要的資料源,這是技術上最深入的步驟,需要評估每個資料源以評估其價值。往往有一些資料源需要很高的存儲空間,它提供的價值和處理管理的開銷相比,可能不值得收藏。組織必須考慮成本/效益關係,從成本的角度看,這種分析應該考慮到硬體和軟體的資源,例如維護產生的人員組織成本,資料存儲資源等。可以評估有問題的資料源在分析過程中可能出現的幾率。考慮需要到類似這樣的程度:哪些類型(源目的地址、埠協議)的PACP包需要捕獲,那種windows日誌(如登錄成功、登錄失敗、賬號創建、文件許可權變更等)是最重要的需要保留。

通過這樣的方法,你可以通過直接和業務目標掛鉤,以及對業務連續性的威脅來證明需求的合理性,這樣也可以較大限度保證之後在基礎設施建設上的投入。

正如之上曾經提到的,威脅為中心的方法強調周期性的過程,需要明白,永遠不會完成資料收集的工作,當你做了更多的檢測和分析的工作,當網路逐步擴展,需要重新評估你的收集計劃。

七、基於威脅情報和攻擊鏈的方法

ACF雖然是一個經過實踐驗證的方法,但是也有自身的不足,特別是缺乏實踐經驗情況下,往往集中在入侵的後期階段相關資料收集,存在檢測縱深不足,缺少冗餘的響應時間等風險。這時可以參照一種基於威脅情報和攻擊鏈的方法,用來驗證、完善資料收集計劃,此方法來源於David J. Bianco的關於情報驅動的企業安全監控的講演(PPT、視頻)。

這種方法大體步驟如下,對更詳細內容感興趣的可以去參考他的PPT及視頻:

1.以攻擊鏈為橫軸,檢測指標(參考之前的《小議威脅情報》)為縱軸,完成對應的表格,體現在攻擊的各個階段可以利用的相關資料;

2.基於不同檢測指標對黑客攻擊的影響程度,給出評估;

3.基於有效檢測APT類型攻擊而不被大量報警淹沒,給出評估(參見下圖);

4.基於現實中可達的工具能夠實現,給出評估;

5.綜合以上3項評估的資料,確定資料收集計劃。


這種方法也是一種周期性的活動,需要根據新的威脅情報和分析工作的進展而不斷修訂,個人更傾向於認為它是對ACF方法中步驟3、4的具體化操作指南,ACF中的步驟3對應著這裡的步驟1,而ACF的步驟4對應了這裡的步驟2-5。

八、小結

巨量資料安全分析的第一部分內容就寫到這裡了。我們反思了當前威脅形式下安全理念的變化,我們需要以實時防禦為基礎的積極檢測(Hunting)和響應來避免出現或者緩解可能的破壞活動,它以威脅為中心,側重於資料的收集。在考慮資料收集計劃時,我們可以參考ACF方法,以及基於威脅情報和攻擊鏈的方法,確定最佳的成本/效益。完成了初步的資料收集之後,就是安全分析師體現風采的時間了,我們將在下一篇文章來討論安全分析的具體工作以及相關分析平台產品的話題。

FineReport報表與BI商業智慧工具【免費下載】opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。分享自:CSDN大數據

leohope 發表在 痞客邦 留言(0) 人氣()

新的想法誕生新的技術,從而造出許多新詞,雲計算、巨量資料、BYOD、社交媒體、3D印表機、物聯網……在互聯網時代,各種新詞層出不窮,令人應接不暇。

這些新的技術、新興應用和對應的IT發展趨勢,使得IT人必須了解甚至掌握最新的IT技能。另一方面,雲計算和巨量資料乃至其他助推各個行業發展的IT基礎設施的新一輪部署與運維,都將帶來更多的IT職位和相關技能技術的要求。

毫無疑問,這些新趨勢的到來,會誕生一批新的工作崗位,比如資料挖掘專家、行動應用開發和測試、演算法工程師,商業智慧分析師等,同時,也會強化原有崗位的新生命力,比如網路工程師、系統架構師、諮詢顧問、資料庫管理與開發等等。下面分別為大家介紹著十大IT技能所體現的工作崗位:

一、演算法工程師
何萬青博士曾經介紹把一件事做快做好的三種方法,其中就提到過「提高流水線效率、更好的演算法和更短的程式碼關鍵路徑。」可以看出演算法在系統效率中的重要地位。演算法是讓機器按照人類設想的方式去解決問題,演算法很大程度上取決於問題類型和工程師對機器編程的理解,其效率的高低與演算法息息相關。

在數學和計算機科學之中,演算法(Algorithm)為一個計算的具體步驟,常用於計算、資料處理和自動推理。在巨量資料時代,演算法的功能和作用得到進一步凸顯。比如針對公司搜索業務,開發搜索相關性演算法、排序演算法。對公司海量用戶行為資料和用戶意圖,設計資料挖掘演算法。

演算法工程師,根據研究領域來分主要有音頻/視頻演算法處理、圖像技術方面的二維信息演算法處理和通信物理層、雷達信號處理、生物醫學信號處理等領域的一維信息演算法處理。另外資料挖掘、互聯網搜索演算法這些體現巨量資料發展方向的演算法,在近幾年越來越流行,而且演算法工程師也逐漸朝向人工智慧的方向發展。

二、商業智慧分析師
演算法工程師延伸出來的商業智慧,尤其是在巨量資料領域變得更加火熱。IT職業與諮詢服務公司Bluewolf曾經發布報告指出,IT職位需求增長最快的是行動、資料、雲服務和面向用戶的技術人員,其中具體的職位則包括有商業智慧分析師一項。

商業智慧分析師往往需要精通資料庫知識和統計分析的能力,能夠使用商業智慧BI工具,識別或監控現有的和潛在的客戶。收集商業情報資料,提供行業報告,分析技術的發展趨勢,確定市場未來的產品開發策略或改進現有產品的銷售。

商業智慧和邏輯分析技能在巨量資料時代顯得特別重要,擁有商業知識以及強大的資料和數學分析背景的IT人才,在將來的IT職場上更能獲得大型企業的青睞。不過這些技能並不是一般人都能掌握的,一些公司目前正在招聘統計學家並教授他們有關技術和商業的知識。

三、資料挖掘工程師
資料挖掘工程師,也可以叫做「資料挖掘專家」。資料挖掘是通過分析每個資料,從大量資料中尋找其規律的技術。資料挖掘是一種決策支持過程,它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、視覺化技術等,高度自動化地分析企業的資料,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。

資料挖掘專家或者說資料挖掘工程師掌握的技能,能夠為其快速創造財富。當年亞馬遜的首位資料挖掘工程師大衛•賽林格(David Selinger)創辦的資料挖掘公司,將類似於亞馬遜的產品推薦引擎系統銷售給在線零售和廣告銷售商,而這種產品推薦引擎系統,也成為亞馬遜有史以來最賺錢的工具。資料挖掘的價值由此可見一斑。

四、諮詢顧問(專家)
任何業務部門和任何行業企業,都有IT系統在背後默默無聞地支撐著。在雲計算巨量資料時代,業務面臨的挑戰和機遇也會給IT系統帶來更多要求。在這種情況下,IT系統的規劃部署和運維,都要有更為精通的專業人士才能勝任,並滿足面向未來巨量資料分析、雲計算服務應用的需要。

紐約蒙特法沃醫療中心(montefioremedical center)的副主席傑克-沃夫(JackWolf)曾經表示,他尋求不僅會建立和使用系統而且還會給予其他員工技術支持的新員工,他說:」新的系統意味著你必須有更多的諮詢台來處理更多的諮詢量。」當然,這裡體現的主要是某個系統的技術支持的功能,但管中規豹我們不難發現,無論是部署初期的物料採購還是運維過程中的金玉良言,都凸顯出這種技術諮詢顧問的重要性。

五、網路工程師
網路工程師可以說是一個「綠色長青」的職業,網路技術一直以來就處於急需之中,美國人力資源公司羅勃海佛國際(Robert Half International)第三季度IT招聘指數和技能報告指出,網路管理佔總需求技能排名中的第二位。對於雲計算時代來說,網路在雲資源池中(計算、存儲、網路)更是扮演著更為重要的作用。

另一方面, IPv6 標準、物聯網、行動互聯等蓬勃發展,使得對於網路工程師尤其是新型網路工程師(行動、IPv6、雲計算方向)的人才和技能要求也越來越多。網路工程師也因此而可以細分成多個發展方向,相應的技能要求其側重也有所不同。比如網路安全、網路存儲、架構設計、行動網路等等。

六、行動應用開發工程師
行動應用開發,會隨著行動互聯網時代的到來變得更受追捧。截至2012年底我國已經有10億手機用戶,行動智能終端用戶超過4億,在行動支付、行動購物、行動旅遊、行動社交等方面湧現了大量的行動互聯網遊戲、應用和創業公司。

行動平台智能系統較多,但真正有影響力的也不外乎iOS、Android、WP、Blackberry等。大量原來PC和互聯網上的信息化應用、互聯網應用均已出現在手機平台上,一些前所未見的新奇應用也開始出現,並日漸增多。

行動應用開發,由於存有多個平台系統,因此不同的平台開發者其所面臨的機遇和挑戰也不盡相同。一個很明顯的例子就是,當初由Google公司和開放手機聯盟領導及開發的基於Linux的安卓系統,在開源之後就給廣大開發者(商)帶來巨大商機,而堅定選擇iOS平台的的開發工程師,也通過蘋果生態系統的不斷擴建和智能設備的高市場佔有,使得較早的一批開發者都賺得盆滿缽滿。不過在國內由於用戶習慣、產業環境和版權保護的問題,行動應用開發者並沒有因此而獲得相應的收益。

七、軟體工程設計師
近年IT業界逐漸湧現出一股軟體定義網路(SDN)、軟體定義資料中心、軟體定義存儲(SDS)和軟體定義伺服器(MoonShot)等浪潮,大有軟體定義未來一切IT基礎設施的趨勢。

PaaS、SaaS、資料挖掘和資料分析、資料管理和監控、虛擬化、應用開發等等,都是軟體工程師大展身手的好舞台。相應的,這些技術領域也對軟體工程師的要求會更高,尤其是虛擬化和面向BYOD、雲計算、巨量資料等應用的開發和管理,都需要有更高深的技術支撐。

和演算法工程師有點類似的地方在於,軟體工程師也需要注重設計模式的使用,一位優秀的工程師通常能識別並利用模式,而不是受制於模式。工程師不應讓系統去適應某種模式,而是需要發現在系統中使用模式的時機。

八、資料庫開發和管理
資料庫開發和管理在巨量資料時代顯得尤為重要,相關的資料庫管理、運維和開發技術,將成為廣大BI、大型企業和諮詢分析機構特別看重的技能體現。代表著更多類型(尤其是非結構化類型)的海量資料的湧現,要求我們實時採集、分析、傳輸這些資料集,在對基礎設施提出嚴峻挑戰的同時,也特彆強調了資料庫開發和管理人員的挑戰。

比如分布式的、面向海量資料管理的資料庫系統之一NoSQL,就是面向巨量資料領域的非關係型資料庫的流行平台,高可用、大吞吐、低延遲、資料安全性高等應用特點成為了很多企業的看重的特點,並希望有足夠多的優秀IT開發人員深度開發NoSQL系統,解決對存儲的擴容、宕機時長、平滑擴容、故障自動切換等問題的困惱。

FineReport報表與BI商業智慧工具【免費下載】opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。。分享自:CSDN大數據


leohope 發表在 痞客邦 留言(0) 人氣()

隨著經濟的快速增長,各個行業企業的各種客戶資料信息、交易資料信息也成爆炸式增長,與此同時,資料分析人員也相應供不應求。

那麼什麼樣的人能成為資料分析師呢?或者說資料分析師需要具備怎樣的素質與能力呢?我們可以從軟體與硬體兩方面來衡量一個資料分析師是否優秀?是否合格?

leohope 發表在 痞客邦 留言(0) 人氣()

在自然界中有一種物質叫做「暗物質」,從物理學家的解釋來看,「暗物質」是自然界當中最充滿能量的部分,如何發揮「暗物質」的作用是當代自然科學研究的話題。而在資料科學領域,人們都在討論如何發掘隱藏在企業內部和整個互聯網上巨量的「暗資料」,怎樣發揮「暗資料」的價值。

有一種說法,人類只要利用大腦的 10%,就可以實現長生不老。即便在無數神經學家將其斥為胡編亂造的無稽之談,多年以後,我們還是不會放棄這種念頭,因為我們知道自身還有很多潛力沒有發揮,只是有待發掘。同樣,許多企業也僅利用了資料的一小部分,而把經過巨大的開銷存儲著的關於流程、員工、客戶和產品的寶貴資料放在資料孤島中,無法有效利用。我們對資料的挖掘還處在一個非常初級的階段,可將其稱之為「黎明前的黑暗」階段。

定義「暗資料」
「暗資料」是指企業已付費購買、收集以及存儲在各種系統和資料存儲中,但實際上目前並未使用、分析甚至訪問的所有資料。我們可以將「暗資料」視為巨量資料的子集,它可以包括存儲在 CRM 資料倉庫的結構化資料、日誌文件甚至來自於社交媒體的非結構化資料等所有資料。
暗資料
當然,有些企業已經實施資料倉庫或者巨量資料平台,清楚資料的存在,並正在發掘資料的價值,但他們依然存在暗資料的問題。因為實施資料倉庫常常是站在IT的角度,對於IT來講或許已經是可以利用的明資料,對於其它部門,尤其是業務部門如果沒有充分有效的利用手段和方式,仍然是「暗資料」。如果您實際上無法利用付費購買的資料,那麼最終您就無法對企業的整體行為形成一致觀點。這意味著您將無法分析流程、合理配置資源,也無法在系統中找到代表您的專有優勢的資料。

「暗資料」產生
顯而易見, 沒有任何組織主動採取低效、 昂貴和不明智的措施。但一系列新應用程序和大量新資料已使很多公司忽視了他們已經擁有和付費購買的資料。為何會有這麼多「暗資料」存在?我們從以下四點來解釋:

1、企業甚至沒有意識到資料的存在
企業不止有IT部門,還有更多的業務人員、管理決策人員,當他們嘗試解答疑難問題或改進工作方式時,會迴避尋找並分析自己不熟悉的資料集的挑戰,這種情況十分常見。不幸的是,往往由於缺乏技能、時間或能力,他們很難將正確的資料公諸於世,這在日常的工作當中是非常典型的一種場景。舉例說明,有些企業表示不清楚到底有多少客戶,這是真的嗎?回答是否定的,因為現在的企業IT已非常完善,每一筆客戶的交易信息都會存在系統當中,或許有些資料質量不是很好,但它們都是存在的,只是企業自己沒有意識到。如果這些資料以整個組織都能訪問的方式存儲,就能為更多業務部門、項目團隊提供支持,進而制定更明智的決策,並對更多假設進行測試。

2、企業意識到資料的存在,但不知道具體位置,利用的手段和方法也不足
企業已經建設了很多資料管理系統,知道資料是存在的,但如果組織的資料體系結構或複雜的資料流程起到阻礙作用,那就很難訪問資料。如果各個部門都在資料孤島中工作,並且資料保存在遺留資料存儲中,那麼即使是求知慾最強的團隊也會徒然碰壁。如果沒有制定關於存儲和管理所有這些資料的整個企業範圍的戰略,那麼組織的決策質量仍將受制於內部組織架構和過時的技術。

3、實際利用資料過於昂貴阻礙了資料使用的效果
即使企業已經發現了所需的「暗資料」,通常也必須面對與在遺留系統上處理這些資料相關的一連串成本問題,如資料利用的環節過長。即便他們通過使用Hadoop此類的新軟體架構,在價格較低廉的硬體上複製這些資料來努力避免這些成本,但與遷移流程和獲取新技能相關聯的初始成本對於單個項目而言,通常仍顯得過高。這也造成了很多的資料其實仍然是未被充分使用的狀態,仍然隱藏在我們的IT系統和日常流程當中。為了充分利用企業已擁有的資料,需要為更現代化的資料體系結構奠定基礎,否則,您仍會繼續為資料支付巨額費用,卻無法承擔對其進行分析產生的成本。

4、某些資料存在遵守法律的問題
如金融、電信、醫療等行業的資料量非常多,但無法將某些資料提供給任何人分析,最重要的原因之一是害怕違反法律法規的要求。對於企業而言,要使其擁有的資料具有意義,需要部署明確定義的流程和工具,以保證這些資料的安全性。Informatica 有專門的解決方案,叫做資料脫敏(Data Masking),保證資料隱私不被泄露的情況下充分利用資料。

公開「暗資料」
既然我們面臨著非常多的「暗資料」,那麼公開就是它的對立面,叫做資料的透明化,我們期望的結果是企業中所有資料,對企業的任何一個參與者——IT、業務、決策、財務——都是透明的,在他們想分析的時候都能找到所需的資料。

任何企業在發掘資料價值的時候,往往包括三種典型的角色:集成商、IT部門和業務部門。人們常常討論誰才是資料的主人,一般認為是業務部門,但完成實際操作過程的卻是集成商,似乎所有的報表都是集成商來做,所有的分析也是集成商完成。在資料分析資料使用中有一個常常被大家忽略的過程,被稱為資料的探索和探查的過程也是由集成商來完成。這其實是業務模式的一個致命弱點,由集成商完成資料探查工作,再根據業務或者IT提的報表分析需求來使用這些資料,使用資料的主體——業務部門並沒有參與探索資料,並沒有親身體驗分析資料的過程。

業務部門參與資料挖掘對資料價值的實現大小關係密切。如果找集成商來做巨量資料平台可能也叫BIG DATA,但這個「BIG」很小;假如IT部門能充分參與架構設計和資料的探索過程,這個「BIG」會變得大一點;假如業務部門也參與可能使「BIG」變得更大,資料在企業中的流程也會縮短,業務部門會知道資料的存放位置,「暗資料」問題能夠更快解決。

業務部門如何才能自我分析資料,實現自助服務?他們需要一個有效的IT支撐手段,需要IT把暗資料透明化,變成透明的資料。實現資料透明化的一個基礎是資料標準化,建立標準化平台。暗 數 據存在於不同系統中,需要重新格式化、解析、篩選、標準化、整合以及細 化, 使 其 為 輸 入 到 任何分 析 工 具 和 應 用 程 序 中 做 好準備。

真正釋放「暗資料」潛能,讓資料見光需要一定的策略變化,除了上述的要啟動業務部門的自助服務的能力,以及啟動IT部門的標準化構建,還有一個關鍵點是啟動可重複利用「暗資料」的流程。大多數公司所犯的最大錯誤是認為他們只需對其「暗資料」進行一次深入探究,這可不止是一個一次性的流程。資料只會不斷增長,無論是規模、多樣性還是價值,提供資料的應用程序的數量和類型也會不斷變化,因此,與其一遍又一遍地解決單個「暗資料」項目,應該考慮建立一個可重複的流程。這意味著採用所需技術,建立現代化的基礎架構,以使您的所有資料隨時可供訪問並保持一致,使其保持潔凈、安全、互聯互通。

「暗資料」並非僅僅表明技術開支效率低下,它還表明企業難以利用其積累起來的豐富知識,「暗資料」是一個有待發掘的潛在金礦。在我國當前新型工業化進程中,提倡巨量資料的前奏叫數字化,數字化能夠貫通各個環節,把原來可能隱藏在工業流程當中的資料釋放出來,用資料來描述工業流程,這也成為眾多領先企業希望征服「暗資料」的原因所在。

opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統——FineReport報表與BI 商業智慧工具免費下載。分享自:機房360


leohope 發表在 痞客邦 留言(0) 人氣()



今天帆軟傳說哥和大家來聊一聊百貨業。
  國內百貨行業歷史悠久,百年前,俄國人在哈爾濱開設「秋林洋行」,翻開中國百貨第一頁;百年後,百貨店作為一種成熟的業態在中國遍地開花。「百貨大樓」曾是中國各城市的地標建築,樓內琳琅滿目的產品和熱鬧的場景是幾代中國人難以抹去的記憶。
  進入互聯網時代之後,中國百貨行業外有國內經濟增長減速、社會零售總額增長放緩以及網路購物興起的困境,內有相較購物中心自營能力不足、千店一面同質化競爭嚴重問題,深處「內憂外患」之中。傳統百貨商場之間的同質化競爭也加劇了行業的下滑。目前百貨商場不管是什麼樣的經營模式,商場內部結構、經營內容都相差不大。在內外交困中,近年來傳統百貨變革的呼聲越來越高。那麼百貨業該怎麼變革,方向在哪裡?
  不管我們願不願意,信息技術帶來了極大的供應鏈變革,隨著百貨業連鎖經營模式的導入,特別是顧客需求的多元化、個性化、高檔化,百貨零售商亟需建立自身的信息、補貨、庫存、資金分析系統,同時與經銷商(代理商)
資料分析系統相銜接,構築供貨商、零售商協同型分銷價值鏈體系。
  而在互聯網時代,行動互聯時代,很多名詞總是和巨量資料脫不開關係。事實上,在可以預見的未來,資料將成為企業的核心資產,失去了資料就意味著喪失了競爭力。百貨業本身是一個靠資料累計起來的行業,商品的進貨與出貨,供應關係,員工的管理,倉庫的庫存管理,會員信息等等,都和資料密不可分。在巨量資料描繪的場景中,通過巨量資料平台的交互,線下渠道可以有效地將線上平台反饋的資料用於消費者體驗的升級工作,為消費者創造更多的超值體驗,也可以為傳統百貨勾勒出更為完整的消費者畫像,將顧客的生理、心理、行為等特徵全方位掌握,進而為經營決策提供強有力的支持輔助,實現對消費者的精準營銷。對於消費者來說,既能輕鬆地在線上端尋找到自己所需的商品,又能夠在線下享受到優質的服務體驗,將對平台產生極大的黏性。而對於企業來說,通過巨量資料所帶來的運營能力提升,將最終體現為銷售額的增長與贏利,真正實現擺脫同質化、轉型升級的目標,傳統百貨業對上游議價能力的來源,將從佔有渠道向佔有資料全面轉變。這個似乎被大家默認的百貨業未來是建立在百貨企業對巨量資料技術的完美應用上的,那麼目前企業對巨量資料的建設方向是否能引領我們走向這個未來?
  就已有的案例來看,通向這個美好未來的路程並不平坦。目前百貨業已有企業開始進行巨量資料的嘗試:銀泰全場鋪設WIFI力圖打通線下實體店和線上的VIP賬號;天虹推出「天虹微店」,打造擁有「自定義菜單」的零售微生活服務號;新世界著重利用巨量資料進行精準營銷,針對不同客群實施不同側重的信息收集;王府井傾力建設的「王府井巨量資料平台」希望利用巨量資料平台分析商品、用戶和業務資料以及商品的全渠道經營狀況。巨量資料講究的是一個「大」字,全局資料收集是必然要求,資料之間環環相扣,彼此相互補充,才能用後期分析出的資料進行預測。沿著這個思路反觀已經開始巨量資料建設的以上企業,就會看到,這些企業的巨量資料技術建設具體方向各有側重點,但共同點是急於得到產出,忽略底層資料收集的建設工作,僅進行了部分渠道的資料收集,甚至只是在原有資料基礎之上進行處理。收集的資料應用場景不全甚至缺失,線上線上資料無法打通,都會造成資料流通的斷層,無法形成資料閉環,所謂的巨量資料也就淪為了企業信息系統的一個支流,而非全局掌控者。資料脫離了巨量資料的精神內核,也就不能創造出新的資料價值。
  層層高台總要有地基的支撐才能站得穩,高台越高,視野越寬廣,看到的景色越美麗,對地基的堅固程度和穩定程度的要求也就越高。底層資料就是巨量資料這個高台的地基。無法保證底層資料的收集廣度與準確度,何談後期的資料的處理與應用,從而實現巨量資料的預測分析?當然企業沒有開展全方位的資料收集也有著硬體支持的問題。而百貨業中,資料的交互多發生在線下,線下對硬體設施的要求更高,受場景限制與技術限制,很多資料目前仍然沒有辦法收集。移動互聯網的廣泛覆蓋,為這個問題的解決帶來可能性。在逛百貨商場時,人們被屏蔽了所有的PC端使用條件,自發的的信息交互與資料傳遞都是在移動端進行的,可以說成功記錄了人們移動端資料,就完成了資料收集的一半工作。但如何記錄人們移動端的資料,讓包括行動路線/商品掃碼情況/甚至體溫/社交網路狀況/手機使用情況的資料成為企業的巨量資料系統中的一塊基石,也是企業巨量資料技術必須要面臨的一個門檻。如何跨過這道門檻,百貨企業還需要費一番心思。

分享自:opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統——FineReport報表與BI 商業智慧工具免費下載。


leohope 發表在 痞客邦 留言(0) 人氣()

作為程式工程師,選擇好合適的開發社區對提高自己的編程能力會有很大的幫助,我也說不出為什麼,但是一些優秀的實時開發社區確實能幫你積累不少開發經驗。

下面我們來看一下程式工程師經常去的14個頂級開發者社區,如果你還不知道它們,那麼趕緊去看看,也許會有意想不到的收穫。

Stack Overflow



9月份,Stack Overflow也將迎來其6歲的生日,毫無疑問,Stack Overflow是全球最受程式工程師歡迎的開發社區,而且也是內容最豐富的社區之一。

官方網站: http://stackoverflow.com/

Reddit


reddit也是一個非常富有個性的社區,你可以在reddit上提交一些感興趣的話題,也可以和其他程式工程師討論一些編程開發的問題和當前的IT熱點資訊,reddit是一個用戶粘性比較強的開放社區,編程開發板塊只是其中的一小部分。

官方網站: http://www.reddit.com/r/programming

Google+ Communities


加入Google+社區只需要一個Google賬戶即可,你可以完全免費的獲取裡面的資源。

官方網站: https://plus.google.com/communities

SitePoint



SitePoint社區論壇也是我最喜歡的在線開發社區和程式工程師設計師家園之一,SitePoint主要目標是幫助初學者了解其選擇的編程語言和技術,並且得到相應的提高,網站內容包括web開發、Web設計、技術寫作以及用戶體驗等。

官方網站: http://www.sitepoint.com/forums/

CodeProject



截止2013年8月,已經有100多萬用戶入駐codeproject,並且分享了約100多萬個代碼演示,在codeproject里,你可以將代碼分享給你的朋友們。和其他社區不同的是,codeproject更加側重軟體開發,比如C, C#, C++, Java, Lisp等開發。

官方網站: http://www.codeproject.com/

Treehouse



在尋找一個實惠的編程學習途徑嗎?你可以試試加入treehouse,它並不昂貴,年度會員還可以打折優惠。treehouse非常簡單,你可以在上面找到各種等級的問題答案。

官方網站: https://teamtreehouse.com/forum

Hacker News



Hacker News這個名字已經刻在很多開發者心裡了,在這裡,可以實時看到編程界中發生的任何事情,包括一些學習的資源和教程。你可以從用戶提交的資料中找到適合你的學習資源,比如文章、圖像視頻以及一些問題的討論。

官方網站: https://news.ycombinator.com/news

DZone



DZone是一個允許用戶分享最新IT新聞和編程資源的社區,這是一個文章內容驅動的社區,所以需要許多內容管理員來把關文章的質量,從某種意義上說,它與HN和其他的編程社區類似,但是這個平台時間最長,裡面的用戶數量也是最多的。

官方網站: http://www.dzone.com/links/index.html

Bytes



Bytes是一個傳統的開發社區,新手和專家都可以在裡面討論一些關於軟體開發、資料庫開發以及網路和系統管理的問題。資料庫、網路以及系統是編程的基礎,我們需要關注這方面的問題,從而能更好的幫助我們提高編程能力。

官方網站: http://bytes.com/

DaniWeb



DaniWeb以前是專為市場營銷業務分析人員設計的,但是現在主要為各個年齡段的Web開發者和程式工程師服務。

官方網站: http://www.daniweb.com/

Dream In Code



這幾年,它的更新比較緩慢了,這有好的一面也有壞的一面,60w的用戶以及百萬及的文章,內容涵蓋 Java, C++, VB.NET等,學習資源相當豐富。

官方網站: http://www.dreamincode.net/forums/

Tech.Pro



Tech.pro是一個關注科技領域發展的相關資訊的社區,Tech.pro是一個獲取資源和教程的入門網站,包含一些技術教程、討論、博客已經鏈接等。

官方網站: http://tech.pro/

Pineapple



也許這還算不上活躍的優秀開發社區,但是這裡也包含很多有用的工具、教程以及類庫資源等。我在幾個月前開始使用Pineapple,現在已經比較依賴它了。

官方網站: http://pineapple.io/

Lobsters




這是一個用戶邀請制的開發社區,是一個真正「面向社交」的社區,你可以在裡面找到大量的關於編程的任何討論,很多信息都至少有20多條回帖,這些信息或許對你會有很大幫助。

官方網站: https://lobste.rs/

opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統——FineReport報表與BI 商業智慧工具免費下載。分享自:Linux中國


leohope 發表在 痞客邦 留言(0) 人氣()

如何成為一名合格資料分析師
「21世紀什麼最貴,人才」,在目前巨量資料時代下,什麼最難找,什麼最貴,實現資料價值的人,資料分析師。

但是對於資料分析師的認識,比較極端,但對資料分析師價值的認識正在回歸理性。很多人對資料分析師的期望,是無所不能,向諸葛亮一樣「指點江山,運籌帷幄」,招了資料分析師,好像一切困難迎刃而解。


的確,好的資料分析師可以在企業中發揮很大的價值,可以對公司未來的用戶行為進行提前預測,從而為行銷人員提供更好行銷參考。例如,以下案例:


女兒竟然懷孕了?!
美國第三大零售連鎖超市Target的一家店鋪,一名男子闖入進行抗議:「你們竟然給我女兒發嬰兒尿片和童車的優惠券?!要知道她才只有17歲啊」。出於客戶服務的需要,超市經理立刻代表公司進行道歉。

然而,若干天后,這位父親再次來到這家超市,很誠摯的向超市經理道歉,原來女兒真的懷孕了,而做父親的沒有察覺,竟然是一家超市提醒了自己,這位父親感到很愧疚。

送走了愧疚的父親,超市經理忍不住好奇,向公司總部詢問我們是怎麼做到的。原來Target的巨量資料工作部門通過資料挖掘的方法「猜到了」這位女士已經懷孕。


如何「猜到」懷孕

Target的巨量資料工作團隊,通過資料挖掘模型在資料倉庫中找出25項與懷孕高度相關的商品,製作「懷孕預測指數」。比如他們發現女性會在懷孕四個月左右,大量購買無香味乳液。以此為依據推算出預產期後,實施精準化行銷,搶先於競爭對手將孕婦裝、嬰兒床等折扣券寄給客戶。這也是前述案例發生的根源。

上面可以看到,Target實際上通過如下幾件事情完成了「猜測」客戶懷孕,並進行行銷的過程。


資料倉庫

-基礎資料的梳理。


資料挖掘

-資料到訊息的提煉。


精準化推薦

-訊息到行銷方案的實現。


母嬰年齡標籤的意義和價值
精準化行銷,提升行銷效率

-預知用戶可能需求,從用戶出發,進行精準化推薦,提升行銷效率。


提前關懷和激勵,增強用戶粘性,提升用戶重複購買

-提前預知未來用戶群的分布特徵,通過行銷活動,關懷並激勵用戶,增強用戶粘性,也可針對性引導用戶進行重複購買。


把握用戶需求,優化品類結構,提升庫存周轉

-根據未來用戶群的分布特徵,預知可能消費狀況,採購備貨時即可進行參考,在用戶未來需求量大的商品上,加大SKU的寬度和深度,減少需求量小的SKU庫存深度,實現優化品類結構、提升庫存周轉的目標

但是現實中的資料分析師,經常開玩笑說自己是民工,是專門「搬磚」,好像沒有做那麼高大尚的工作。在實際中的很大一部分時候是在寫程式碼,取資料,處理臨時需求,一起來看看幾個場景:


場景一:開會資料又「打架」

A公司管理層會上,張三部門領導給出的資料說XX指標是在上升了。李四部門領導給出完全相反,XX指標是在下降了。等討論完資料口徑,會議時間到了。

老闆內心OS :又白開了,我必須要招個做資料的人,你們就別出資料了。


場景二:腦袋一拍,目標就來

B公司運營團隊在做一檔大促,活動方案已好,但目標多少。領導腦袋一拍,直接3X!

運營團隊內心OS:領導,到底還能不能好好的玩耍?不是說好資料化運營的嗎?


場景三:親,快給我資料

親,昨天要的資料好了嗎,要定活動目標了?分析師內心OS :今天又要工作到明天

親,明天老闆開會,快給幾個資料吧!分析師內心OS :XXX,我剛到家又要加班

親,銷售掉了,看是不是資料有問題?分析師內心OS :明明就是你業務掉了。

那一個資料分析師具體工作內容有哪些?企業的價值是如何體現?


資料分析師是從資料的角度幫助公司業務團隊監控、定位、分析、解決工作中的業務問題,然後通過資料產品把「洞察」、「知識」結構化的沉澱下來。例如:


所以資料分析師的工作內容分為四個層面:

1、處理臨時需求:解決業務一次性,臨時性的資料需求

2、報表開發:根據業務需要,與開發工程師討論進行相關報表開發。

3、資料分析與挖掘:與業務同事一起溝通,分析業務問題,提供建議; 根據業務需要建立各類挖掘模型。

4、資料產品化:通過資料產品化方式解決結構化業務問題。


幾點經驗分享:

有臨時需求的企業才是有生命力的企業,為什麼這樣說?

臨時需求的產生來源

新業務出現

業務發展過程中會不斷出現問題

業務發展過程中需要不斷調整優化

管理層各類思考,你懂的

報表不可能滿足所有看資料需求

不要把臨時需求僅僅就當做一個取數工作。學會梳理,管理程式碼。

把臨時需求做為一個了解業務,學習&熟悉業務,發現業務問題的工具。同時與通過各類臨時需求的處理,為業務方提供滿意的,為後續各類工作的開展打下基礎。


不要設計大而全的報表,這種報表基本上雞肋。

對報表一定要進行生命周期管理。

對大多資料企業來說,資料主要還是服務「內部」顧客。

所以一名合格的資料分析師的成長,的確需要經過幾個階段:




能否成為一條合格再到後來優秀的資料分析師,不僅在技能層面要有一定的基礎,更重要的以下幾點非技能層面:






希望以上幾點經驗能幫忙大家,分享自己在資料分析師成長路上經驗,為同行為提供參考。

opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統——FineReport報表與BI 商業智慧工具免費下載。分享自:資料海洋


leohope 發表在 痞客邦 留言(0) 人氣()