
一、什么是商業(yè)智能?
商業(yè)智能=商業(yè)+智能
商業(yè)和智能的關(guān)系,如圖1:智能技術(shù)根據(jù)商業(yè)知識(shí),出報(bào)表和建立分析模型,并且運(yùn)用商業(yè)知識(shí)檢驗(yàn)和解釋報(bào)表和模型準(zhǔn)確與否,而根據(jù)出來的報(bào)表和分析/挖掘模型結(jié)果,又能對(duì)商業(yè)運(yùn)作提供數(shù)據(jù)與決策參考。
圖1 商業(yè)智能=商業(yè)+智能
首先是商業(yè)檢驗(yàn)智能技術(shù)。商業(yè)目標(biāo)以及商務(wù)流程,限定了你能選用的分析方法,比如客戶分類問題,就不能用聚類算法解決;商務(wù)流程上無法給樣本本身打上標(biāo)簽,就很難用分類算法訓(xùn)練模型。忘掉啤酒和尿布吧,那只是個(gè)號(hào)稱刊登在《哈佛商業(yè)評(píng)論》上的傳說,這種業(yè)務(wù)上很難解釋的事件被傳得神乎其神,如果是真的,早被廣泛應(yīng)用了。所以模型一定要在商業(yè)上解釋得通,通常一兩個(gè)小概率小范圍事件對(duì)整體是不會(huì)有很大影響的。好比看起來不錯(cuò)的創(chuàng)新點(diǎn)子,不可能將其實(shí)現(xiàn)就產(chǎn)生賺錢的產(chǎn)業(yè)鏈,而是要考慮方方面面的因素以及有效的執(zhí)行。
其次是智能技術(shù)指導(dǎo)商業(yè)行為。比如埃森哲利用數(shù)據(jù)挖掘?qū)κ袌?客戶進(jìn)行細(xì)分,針對(duì)不同行為特征的客戶,推薦/制定產(chǎn)品,以期更貼近客戶的需求,利用技術(shù)指導(dǎo)商業(yè)。這是一個(gè)考驗(yàn)執(zhí)行力的過程。目前許多案例往往是不成功的,其中一個(gè)原因在于市場部處于一線經(jīng)營,主導(dǎo)地位,其話語權(quán)通常大于技術(shù)部。假設(shè)你是一線經(jīng)營人員,有自己的立場、觀點(diǎn)、人脈、營銷模式,甚至諱莫如深的自身利益。讓業(yè)務(wù)人員從工作習(xí)慣上去改變,尚且不易,更不用說觸碰到他們的利益線了。所以國內(nèi)很多大型國有企業(yè)做出來的BI系統(tǒng),很多是做表面文章,耗資百萬的系統(tǒng)做好了卻閑置。
拋開立場、自身利益因素不談,國內(nèi)BI就做得很好了么?答案當(dāng)然是否定的,這是因?yàn)?,業(yè)務(wù)人員不懂技術(shù),技術(shù)人員不懂業(yè)務(wù)。筆者曾經(jīng)見過一個(gè)在移動(dòng)內(nèi)部,做了七八年的技術(shù)人員,因?yàn)橛休^長的從業(yè)經(jīng)驗(yàn),跟業(yè)務(wù)人員溝通比較多,只要業(yè)務(wù)人員提需求,他就能在極短時(shí)間內(nèi)給出數(shù)據(jù),甚至能引導(dǎo)迷糊的業(yè)務(wù)員理清思路。但他的經(jīng)驗(yàn),很難復(fù)制,畢竟出了學(xué)校,培養(yǎng)一名商業(yè)智能從業(yè)者應(yīng)該只有少于1年的時(shí)間。
那么讓我們從商業(yè)和智能的角度,來看看知識(shí)分解吧,可以供初學(xué)者參考,也可以供高手拍磚,如圖2。
圖2 商業(yè)智能知識(shí)分解
二、數(shù)據(jù)和數(shù)據(jù)倉庫
數(shù)據(jù)是數(shù)據(jù)分析的基礎(chǔ),數(shù)據(jù)庫是數(shù)據(jù)的承載,數(shù)據(jù)倉庫是有主題的數(shù)據(jù)庫。
效率高的數(shù)據(jù)倉庫不那么容易設(shè)計(jì)出來的,多大數(shù)據(jù)量使用范式設(shè)計(jì),多大使用反范式設(shè)計(jì),為什么使用反范式設(shè)計(jì)(空間換時(shí)間),哪些表在業(yè)務(wù)上使用頻繁需要分割,哪些字段需要合并成一張常用表等等。
涉及到數(shù)據(jù)分析的一個(gè)問題是數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量又可以分成兩大塊,“臟”數(shù)據(jù)的處理和數(shù)據(jù)來源口徑的追溯。前面舉的啤酒尿布例子,得到不符合常理的結(jié)果后,應(yīng)該首先檢查數(shù)據(jù)質(zhì)量是否有問題。若數(shù)據(jù)質(zhì)量有問題,那么后面的分析必然不準(zhǔn)確,所謂garbage in garbage out!
三、報(bào)表
報(bào)表這種原始的BI方式有時(shí)候是簡單有效,但要做一張優(yōu)秀的報(bào)表似乎又要考慮很多問題。首先是確定報(bào)表的目的,這樣才能定下報(bào)表是清單級(jí)還是匯總級(jí);其次選擇字段,個(gè)人認(rèn)為應(yīng)該符合MECE(Mutually Exclusive Collectively Exhaustive),信息不全或者信息冗余,對(duì)分析都會(huì)形成干擾;再次是對(duì)字段做維度聚類,并做重要性排序,重要的,能做分析思路索引的,要排在前面。當(dāng)然一張優(yōu)秀的報(bào)表絕不應(yīng)拘泥于以上,需要在工作中多思考和體會(huì)了。
四、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘講了很多了。如果往簡單來說,可以有BI=圖表+數(shù)據(jù)挖掘的理解,雖然不甚全面。數(shù)據(jù)挖掘作為報(bào)表這種非智能性BI的一種補(bǔ)充,理論上應(yīng)該屬于機(jī)器學(xué)習(xí)的一種,存在著那么一點(diǎn)兒讓計(jì)算機(jī)自學(xué)的能力。按算法來分類也就預(yù)測、分類、聚類、關(guān)聯(lián)那么幾種,大多都封裝好的,使用起來很方便,普通應(yīng)用只需要知道怎么讀數(shù)據(jù)挖掘軟件給出的報(bào)告即可,關(guān)鍵點(diǎn)是緊扣商業(yè)理解,難點(diǎn)和被忽視的地方會(huì)在接下來的算法知識(shí)塊提到。至于SAS,SPSS,Modeler,R,MATLAB這些挖掘工具之爭,那就見仁見智了。但有一點(diǎn)我很肯定,如果你初學(xué)數(shù)據(jù)挖掘,那么推薦Modeler,簡單的操作界面和輕松的DEMO,大大降低了數(shù)據(jù)挖掘的入門難度。
五、算法
隨著面向?qū)ο螅∣rient Object)編程方法興起,“程序=數(shù)據(jù)結(jié)構(gòu)+算法”的光榮時(shí)代似乎已經(jīng)一去不復(fù)返。如今許多分析人員也不曾聽過Knuth和他的The Art of Computer Programming。有一種觀點(diǎn)是,在各工具將算法封裝得很好的情況下,深入了解算法似乎是沒必要的——Just run it。的確,如果你只想做到中級(jí)分析師,可以不去理會(huì)。但是要成為一名高級(jí)分析師,那肯定得有一定深度的研究。一是為了知道針對(duì)特定的數(shù)據(jù)集,選用什么樣的算法,如何抽取樣本,抽取多大量的樣本(樣本出問題,整個(gè)項(xiàng)目都完蛋),算法適用條件是什么,比如線性回歸的:獨(dú)立性、常方差、正態(tài)性,怎么理解,哪些必須滿足。這些使用如果不熟悉的話,很容易導(dǎo)致分析出問題。一些做這方面工作的BIer,不求甚解,做出來的東西是錯(cuò)的,做分析最可怕的是錯(cuò)了還沒意識(shí)!二是客戶問到一些問題,知道如何去解釋,比如用決策樹計(jì)算出來的得分,為什么很多樣本得分是一樣的?客戶細(xì)分中,有沒有算法可以使得同一個(gè)客戶細(xì)分至兩個(gè)不同的客戶群?沒有的話,如何用現(xiàn)有算法解決該客戶既有A群屬性又有B群屬性的問題?三是你能寫出針對(duì)特定問題的算法,現(xiàn)實(shí)中許多問題擁有其他問題一樣的共性,也有它自己的個(gè)性,某些時(shí)候針對(duì)個(gè)性的東西越強(qiáng),分析效果越好,這就需要你手寫算法解決。獲得Netflix 100萬推薦算法大獎(jiǎng)的絕不可能是封裝好的現(xiàn)成算法不是么。另外還有一類商業(yè)智能問題,是封裝算法解決不了的,這類問題大多見于與地理結(jié)合的GIS決策系統(tǒng),這類系統(tǒng)就要求分析人員有圖形算法功底??梢娙绻阆氤蔀轫敿?jí)的數(shù)據(jù)分析師,算法與數(shù)據(jù)結(jié)構(gòu)的知識(shí)必不可少。搜索,排序,樹,圖之所以經(jīng)典,是因?yàn)樗鼈兒唵斡行Ф彝ㄓ谩H绻隳馨堰@些算法在數(shù)據(jù)庫里實(shí)現(xiàn),那么你分析技術(shù)這方面,確實(shí)達(dá)到很高的境界了。
六、統(tǒng)計(jì)學(xué)與其中的分析邏輯問題
商業(yè)分析中應(yīng)用統(tǒng)計(jì)學(xué)的好處在于,你可以不知道兩者的因果而只分析兩者的聯(lián)系,并且在環(huán)境沒有太多改變的情況下,分析結(jié)果都是適用的(更復(fù)雜的需要使用微分方程或其他,但提升度未必高)。關(guān)于邏輯,我們來看一個(gè)例子:據(jù)科學(xué)家研究,肥胖的人在社交關(guān)系上會(huì)聚集在一起。如圖3,如果你的朋友肥胖,則你肥胖的概率比別人高45%(紫柱),如果你朋友的朋友肥胖,則比平均高出25%(紅柱),如果你朋友的朋友的朋友肥胖,則比平均高出10%(橙柱)。事實(shí)上,這些都是數(shù)據(jù)和統(tǒng)計(jì),只能說明肥胖的人可能會(huì)聚集到一塊兒,因?yàn)閺臄?shù)據(jù)上你無法分辨出你們是因?yàn)榉逝侄蔀榕笥眩ū热缫蚍逝值浇∩矸空J(rèn)識(shí))還是因?yàn)槌蔀榕笥讯逝郑ǔ载浥笥岩黄鹑コ詵|西),或者互為因果。實(shí)際分析中,我們經(jīng)常發(fā)現(xiàn)兩樣事物是互為因果互相加強(qiáng)的,“事物有普遍聯(lián)系”和“作用與反作用”的哲學(xué)原理在此體現(xiàn)得淋漓盡致。業(yè)務(wù)經(jīng)驗(yàn)在此時(shí)顯得尤為重要!它能告訴我們哪件因素更重要,一般對(duì)于業(yè)務(wù)人員來說更好實(shí)現(xiàn)的過程,更好掌控的因素,就是原因,是我們后續(xù)操作的引線和突破口。
圖3 相關(guān)關(guān)系VS因果關(guān)系
關(guān)于商業(yè),筆者是技術(shù)出身,也處于摸爬階段。但可以推薦兩本書,這兩本書是都是國外的,較厚易懂:菲利普科特勒《市場營銷》,斯蒂芬魯賓斯的《管理學(xué)》。商業(yè)與技術(shù)是存在聯(lián)系的。其實(shí)細(xì)心的讀者會(huì)發(fā)現(xiàn),光是有上面的知識(shí)還是不夠的,紙上得來終覺淺,絕知要做項(xiàng)目呀。
增值知識(shí)
國外在數(shù)據(jù)規(guī)劃使用展現(xiàn)比我們前行更遠(yuǎn),這點(diǎn)是確認(rèn)無疑的。所以英文閱讀流暢的能力對(duì)于一個(gè)想當(dāng)優(yōu)秀分析師的人來說非常重要。我也曾經(jīng)想過把一些比較不錯(cuò)的文檔翻譯過來,但因?yàn)橄喈?dāng)耗時(shí)耗力,只能作罷。與其等待別人翻譯,不如自己看。
總結(jié)一下:商業(yè)智能,是利用計(jì)算機(jī)對(duì)數(shù)據(jù)大量快速處理的特點(diǎn),對(duì)眾多商業(yè)數(shù)據(jù)做圖與表的展現(xiàn)分析,并通過統(tǒng)計(jì)學(xué)的方法對(duì)數(shù)據(jù)進(jìn)行智能學(xué)習(xí)和挖掘,輔助商業(yè)決策。商業(yè)智能的優(yōu)勢就在于它對(duì)海量數(shù)據(jù)的處理,以及可規(guī)則化邏輯化(這點(diǎn)部分繼承了數(shù)學(xué)的DNA),這些雜亂的數(shù)據(jù)讓人去處理和挖掘有用信息,基本是不可能的。
商業(yè)智能目前處于初始階段,數(shù)據(jù)倉庫準(zhǔn)備、跨行業(yè)經(jīng)驗(yàn)整合、商業(yè)及技術(shù)知識(shí)儲(chǔ)備、人才培養(yǎng)模式都還剛剛起步。國內(nèi)BI也還處于積累階段,都是一些有錢的企業(yè)在做試驗(yàn)案例,成敗不一。BI從業(yè)人員有混生計(jì)的,也有認(rèn)真積累的;有先行者,也有后起之秀。
總之,BI離爆發(fā)還有一段路要走,沒有量的積累,就沒有質(zhì)的飛躍!要想飛躍,你必須完成爬行、站立、走、跑等一系列動(dòng)作,辛苦甚至痛苦,但這些,在飛躍的那一刻,都會(huì)化為喜悅。
Copyright ? 2012 QZWNHG. All Rights Reserved 浙江維納信息技術(shù)有限公司版權(quán)所有