行業動態

大數據的核心價值

發布時間:2017-12-11 13:38:22  訪問次數:

娇妻系列交换我們知道:

娇妻系列交换1. 第壹次工業革命以煤炭為基礎,蒸汽機和印刷術為標誌,

2. 第二次工業革命以石油為基礎,內燃機和電信技術為標誌,

3. 第三次工業革命以核能基礎,互聯網技術為標誌,

4. 第四次工業革命以可再生能源為基礎,_________為標誌。

空白處妳會填上什麽?歡迎大家討論。但是目前可以預測的是,數據和內容作為互聯網的核心,不論是傳統行業還是新型行業,誰率先與互聯網融合成功,能夠從大數據的金礦中發現暗藏的規律,就能夠搶占先機,成為技術改革的標誌。 

壹、大數據的應用

大數據挖掘商業價值的方法主要分為四種:

1. 客戶群體細分,然後為每個群體量定制特別的服務。

2. 模擬現實環境,發掘新的需求同時提高投資的回報率。

3. 加強部門聯系,提高整條管理鏈條和產業鏈條的效率。

4. 降低服務成本,發現隱藏線索進行產品和服務的創新。

 

1569640560102510.png

 

· Mckinsey列出了各個行業利用大數據價值的難易度以及發展潛力。《Big data: The next frontier for innovation, competition, andproductivity》

 

1569640586570988.png

 

· 各種Data之間的關系圖,註意Open Data是完全包含了Open government data(政府開放數據)

 

1569640606854266.png

 

· Mckinsey也列出了Open Data時代裏七大行業潛在的經濟價值,自上而下分別是教育,運輸,消費品、電力、石油與天然氣、醫療護理、消費金融

大數據的類型大致可分為三類:

1. 傳統企業數據(Traditionalenterprise data):包括 CRM systems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。

2. 機器和傳感器數據(Machine-generated/sensor data):包括呼叫記錄(Call DetailRecords),智能儀表,工業設備傳感器,設備日誌(通常是Digitalexhaust),交易數據等。

3. 社交數據(Social data):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平臺。

從理論上來看:所有產業都會從大數據的發展中受益。但由於數據缺乏以及從業人員本身的原因,第壹、第二產業的發展速度相對於第三產業來說會遲緩壹些。 

1985年,我國國家統計局明確地把我國產業劃分為三大產業:

1. 農業(包括林業、牧業、漁業等)定為第壹產業。

2. 工業(包括采掘業、制造業、自來水、電力、蒸汽、煤氣)和建築業定為第二產業。

3. 把第壹、二產業以外的各行業定為第三產業。

第三產業即除第壹、第二產業以外的向全社會提供各種各樣勞務的服務性行業,主要是服務業。其中第三產業可具體分為兩大部門:壹是流通部門;二是服務部門。再細分又可分為四個層次:

1. 第壹層次,流通部門。包括交通運輸行業、郵電通訊行業、物資供銷和倉儲行業。

2. 第二層次,為生產和生活服務的部門。包括金融業、商業飲食業、保險業、地質普查業、房地產業、公用事業、技術服務業和生活服務修理業務;

3. 第三層次,為提高科學文化水平和居民素質服務的部門。包括教育文化、廣播電視事業、科學研究事業、衛生、體育和社會福利事業;

4. 第四層次,為社會公共需要服務的部門。包括國家機關、黨政機關、社會團體、以及軍隊和警察公安司法機關等。 

我們可以看出,由於某些客觀原因,相對於第壹產業和第二產業來說,第三產業憑借自身的優勢,大多匯聚了當前最海量的數據以及大批的科研中堅力量。接下來讓我們看壹些典型例子,當前新形勢下與三大產業密切相關的大數據應用。 

(1).第壹產業

· 孟山都(Monsanto | A SustainableAgriculture Company),農業

孟山都是壹家美國的跨國農業生物技術公司,其生產的旗艦產品抗農達,即年年春(Roundup)是全球知名的嘉磷塞除草劑,長期占據市場第壹個位置。該公司目前也是基因改造(GE)種子的領先生產商,占據了多種農作物種子70%–100%的市場份額,而在美國本土,更占有整個市場的90%。已經統治了生物工程種子業務超過十年。

孟山都首先發起“Green Data Revolution”運動,建立農業數據聯盟(Open Ag Data Alliance)來統壹數據標準,讓農民不用懂“高科技”也能享受大數據的成果。典型的應用如農場設備制造商John Deere與DuPont Pioneer當前聯合提供“決策服務(Decision Services)”,農民只需在駕駛室裏拿出平板電腦,收集種子監視器傳來的數據,然後將其上傳給服務器,最終服務器返回化肥的配方到農場拖拉機上。

· 天氣意外保險公司(The Climate Corporation),農業

The Climate Corporation為農民提供Total Weather Insurance (TWI)——涵蓋全年各季節的天氣保險項目。利用公司特有的數據采集與分析平臺,每天從250萬個采集點獲取天氣數據,並結合大量的天氣模擬、海量的植物根部構造和土質分析等信息對意外天氣風險做出綜合判斷,然後向農民提供農作物保險。前不久從Google Ventures、Founders Fund等多家公司獲得超過5000萬美元的風險投資。 2013年被孟山都收購。

· 土壤抽樣分析服務商(Solum, Inc),農業

Solum目標是實現高效、精準的土壤抽樣分析,以幫助種植者在正確的時間、正確的地點進行精確施肥。農戶既可以通過公司開發的NoWait Nitrate系統在田間進行分析即時獲取數據;也可以把土壤樣本寄給該公司的實驗室進行分析。2012年獲得Andreessen Horowitz 領投的1700萬美元投資後,已累計融資近2000萬美元。

了解更多:

大數據對於農業的發展會帶來什麽影響?或具體到對農場經營會有什麽啟示或者帶來什麽樣的變化?

(2).第二產業

2013年9月,工業和信息化部發布了《關於印發信息化和工業化深度融合專項行動計劃(2013-2018年)》的通知。明確提出推動物聯網在工業領域的集成創新和應用:

實施物聯網發展專項,在重點行業組織開展試點示範,以傳感器和傳感器網絡、RFID、工業大數據的應用為切入點,重點支持生產過程控制、生產環境檢測、制造供應鏈跟蹤、遠程診斷管理等物聯網應用,促進經濟效益提升、安全生產和節能減排。

大數據的業務多是數據驅動型,具有數據量大、種類多、實時性高的特點。工業企業對數據的記錄以往看來主要分為兩種方法:傳統的紙筆和Excel電子表格記錄。這些操作起來看似簡單的數據管理方式為企業生產及質量監控埋下了巨大的隱患,也讓數據挖掘無從談起。

隨著信息化與工業化的融合發展,信息技術滲透到了工業企業產業鏈的各個環節。例如Sensor、RFID、Barcode、物聯網等技術已經在企業中得到初步應用,工業大數據也開始逐漸得到積累。企業中生產線高速運轉時機器所產生的數據量不亞於計算機數據,而且數據類型多是非結構化數據,對數據的實時性要求也更高。因此工業大數據所面臨的問題和挑戰很多,所以通用電氣公司(General Electric)的副總裁兼全球技術總監William Ruh認為相對於工業大數據來說,工業互聯網(Industrial Internet)才是當前急需的,因為大數據本身並沒有讓信息的提取更加智能,業務比數據本身更加重要。他舉了壹個核磁共振成像掃描的例子:

Here’s an example. An MRI scan is the best way to see insidethe human body. While effective in helping to diagnose multiple sclerosis,brain tumors, torn ligaments and strokes, the data produced by an MRI machineis disconnected from the person that needs it the most.

At a very simplistic level, there are many individualsworking as a team to make the scan happen. A nurse administers medications orcontrast agents that may be needed for the exam; an MRI technologist operatesthe scanner; and a radiologist identifies the imaging sequences to be used andinterprets the images. This information is then given to the nurse, who thenpasses it to the primary doctor to review and take action accordingly. This isBig Data, but it is not making information more intelligent.

又如在工業中,壓力、溫度等數據的特點是需要語境才能理解的。燃氣輪機排氣裝置上的溫度讀數與壹臺機車的內部溫度是完全不同的。燃氣輪機改善熱敷需要使用非常復雜的算法運行模型。在筆記本電腦上,壹個典型的查詢要獲得答案壹般需要三個星期。在基於大數據的分布式系統上發布同樣的查詢執行壹種計算只需要不到壹秒鐘。

· 第三方認證機構(T?V NORD GROUP),工業

德國漢德技術監督服務有限公司的前身是德國鍋爐檢驗協會(簡稱T?V)早在1869年,德國鍋爐檢驗協會就承擔了德國國內所有鍋爐運行安全的檢驗工作,保證了鍋爐生產的安全。漸漸的,德國鍋爐檢驗協會取得了德國政府的授權,開展對其他產品的檢驗工作,從采礦,電力系統開始,到壓力容器,機動車輛,醫療設備,環境保護,宇航工業,醫療產品等等,現在的德國漢德技術監督服務有限公司已經成為了許許多多產品的安全代號。主要體系認證包括企業質量管理體系,生產環境體系,生產碳排放方案等。T?V當前從建築綠色標準體系方面提出了對於大數據能源管理的探索,以微軟新總部,蒂森克虜伯電梯總部為例,在整個項目實施中引入大數據能源管理,在建築的設計規劃階段、施工階段、運營階段等多個階段通過數據化的能源管理系統,實現建築的低碳、綠色、智能。

· 工業自動化軟件商(Wonderware ),工業

Wonderware作為系統軟件涉及的專業企業,對於大數據的計算和運用是從比較“IT”的角度出發的。Wonderware 的實時數據管理軟件能夠提供壹個工廠所需要的從建立到報廢的所有實時數據。目前已經退出移動版本,工程總監在手機上就能夠隨時隨地監控設備的運行狀況。目前全球超過三分之壹的工廠應用Wonderware公司的軟件解決方案。了解更多:

大數據在電力行業的應用前景有哪些?

(3).第三產業

這壹個部分的內容比較多。這裏只提出壹些典型的應用例子,歡迎補充。

· 健康與醫療:Fitbit? Official Site: Flex, One and Zip Wireless Activity andSleep Trackers的健身腕帶可以收集有關我們走路或者慢跑的數據,例如行走步數、卡路裏消耗、睡眠時長等數據與健康記錄來改善我們的健康狀況;Early Detection of Patient Deterioration等公司正在開發床墊監測傳感器,自動監測和記錄心臟速率、呼吸速率、運動和睡眠活動。該傳感器收集的數據以無線方式被發送到智能手機和平板電腦進行進壹步分析;美國公共衛生協會(APHA: American Public Health Association)開發Flu Near You用來的癥狀,通過大數據分析生成報告顯示用戶所在地區的流感活動。 

· 視頻:互聯網電視能夠追蹤妳正在看的內容,看了多長時間,甚至能夠識別多少人坐在電視機前,來確定這個頻道的流行度。Netflix 美國國內規模最大的商業視頻流供應商,收集的數據包括用戶在看什麽、喜歡在什麽時段觀看、在哪裏觀看以及使用哪些設備觀看等。甚至記錄用戶在哪視頻的哪個時間點後退、快進或者暫停,乃至看到哪裏直接將視頻關掉等信息。典型的應用是Netflix公司利用數據說服BBC重新翻拍了電視連結劇《紙牌屋》,而且成功的挖掘出演員Kevin Spacey和導演David Fincher的支持者與原劇集粉絲的關聯性,確定新劇拍攝的最佳人選。

When the program, a remake of a BBC miniseries, was up for purchase in 2011with David Fincher and Kevin Spacey attached, the folks at Netflix simplylooked at their massive stash of data. Subscribers who watched the originalseries, they found, were also likely to watch movies directed by David Fincherand enjoy ones that starred Kevin Spacey. Considering the material and theplayers involved, the company was sure that an audience was out there. 

· 交通:《車來了》通過分析公交車上GPS定位系統每天的位置和時間數據,結合時刻表預測出每壹輛公交車的到站時間;WNYC開發的Transit Time NYC通過開源行程平臺(Github:OpenTripPlanner和MTA )獲取的數據將紐約市劃分成2930個六邊形,模擬出從每壹個六邊形中點到邊緣的時間(地鐵和步行,時間是上午九點),最終建模出4290985條虛擬線路。用戶只需點擊地圖或者輸入地址就能知道地鐵到達每個位置的時間;實時交通數據采集商INRIX-Traffic的口號是(永不遲到!^^),通過記錄每位用戶在行駛過程中的實時數據例如行駛車速,所在位置等信息並進行數據匯總分析,而後計算出最佳線路,讓用戶能夠避開擁堵。

·  電子商務:Decide 是壹家預測商品價格並為消費者提出購買時間建議的創業公司,通過抓取亞馬遜、百思買、新蛋及全球各大網站上數以十億計的數據進行分析,最終整合在壹個頁面中方便消費者對比查看,並且能夠預測產品的價格趨勢,幫助用戶確定商品的最好購買時機。已經於2013年被 eBay收購。 

·  政治:奧巴馬在總統競選中使用大數據分析來收集選民的數據,讓他可以專註於對他最感興趣的選民,谷歌執行董事長Eric Schmidt當時向奧巴馬的大數據分析團隊投資數百萬美元並聚攏核心成員成立了Civis Analytics咨詢公司,該公司將會將在奧巴馬連任競選中所獲得的經驗應用到商業和非營利行業中。(了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data toWin A Second Term) 

·  金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill創立金融數據分析服務提供商,使用機器學習算法和大數據為放款者提供承保模式,旨在為那些個人信用不良或者不滿足傳統銀行貸款資格的個人提供服務。公司使用分析模型對每位信貸申請人的上萬條原始信息數據進行分析,只需幾秒時間便可以得出超過十萬個行為指標。目前違約率比行業平均水平低 60%左右。另外壹個不得不提到的是風險管理先驅者FICO| Predictive Analytics, Big Data Analytics and FICO Credit Scores,通過大數據分析為銀行和信用卡發卡機構、保險、醫療保健、政府和零售行業提供服務。FICO 信用分計算的基本思想是:把借款人過去的信用歷史資料與數據庫中的全體借款人的信用習慣相比較,檢查借款人的發展趨勢跟經常違約、隨意透支、甚至申請破產等各種陷入財務困境的借款人的發展趨勢是否相似。FICO 已經為三分之二的世界 100 強銀行提供服務,提高了客戶忠誠度和盈利率、減少欺詐損失、管理信貸風險、滿足監管與競爭要求並快速獲取市場份額。想了解更多的企業可以看看附錄中《經濟學人》的文章《Big data: Crunching the numbers》。 

·  電信: 美國T-mobiles采用Informatica - The Data Integration Company平臺開展大數據工作,通過集成數據綜合分析客戶流失的原因,根據分析結果優化網絡布局為客戶提供了更好的體驗,在壹個季度內將流失率減半;韓國 SK telecom新成立壹家公司SK Planet,通過大數據分析用戶的使用行為,在用戶做出決定之前推出符合用戶興趣的業務防止用戶流失。美國AT&T 公司將記錄用戶在Wifi網絡中的地理位置、網絡瀏覽歷史記錄以及使用的應用等數據銷售給廣告客戶。比如當用戶距離商家很近時,就有可能收到該商家提供的折扣很大的電子優惠券。英國BT - Broadband公司發布了新的安全數據分析服務Assure Analytics—BT news releases,幫助企業收集、管理和評估大數據集,將這些數據通過可視化的方式呈現給企業,幫助企業改進決策。

壹般來說盈利性質的商業公司和企業都不會輕易泄露自己的數據、建模方法和分析過程,所以還有很多大家不知道的神秘應用潛伏在黑暗裏,如同《三體》中的“黑暗森林法則”。

宇宙就是壹座黑暗森林,每個文明都是帶槍的獵人,像幽靈般潛行於林間,輕輕撥開擋路的樹枝,竭力不讓腳步發出壹點兒聲音,連呼吸都必須小心翼翼:他必須小心,因為林中到處都有與他壹樣潛行的獵人,如果他發現了別的生命,能做的只有壹件事:開槍消滅之。在這片森林中,他人就是地獄,就是永恒的威脅,任何暴露自己存在的生命都將很快被消滅,這就是宇宙文明的圖景,這就是對費米悖論的解釋。 

二、大數據的定義

大數據(Big Data)是指“無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合”。業界通常用4V(即Volume、Variety、Value、Velocity)來概括大數據的特征。 

1. 數據體量巨大(Volume)截至目前,人類生產的所有印刷材料的數據量是200PB,而歷史上全人類說過的所有的話的數據量大約是5EB(1EB=210PB)。

2. 數據類型繁多(Variety)相對於以往便於存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日誌、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。

3. 價值密度低(Value)價值密度的高低與數據總量的大小成反比。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。

4. 處理速度快(Velocity)大數據區分於傳統數據挖掘的最顯著特征。根據IDC的“數字宇宙”的報告,預計到2020年,全球數據使用量將達到35.2ZB。 

看看專家們怎麽說。 

· 舍恩伯格,大數據時代 (豆瓣)

不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關系,而是相關關系。

· 埃裏克·西格爾,大數據預測 (豆瓣)

大數據時代下的核心,預測分析已在商業和社會中得到廣泛應用。隨著越來越多的數據被記錄和整理,未來預測分析必定會成為所有領域的關鍵技術。

· 城田真琴,大數據的沖擊 (豆瓣)

從數據的類別上看,大數據指的是無法使用傳統流程或工具處理或分析的信息。 它定義了那些超出正常處理範圍和大小、迫使用戶采用非傳統處理方法的數據集。 

三、大數據的價值

了解了大數據的典型應用,理解了大數據的定義。這時相信在每個人的心中,關於大數據的價值都有了自己的答案。

2010年《Science》上刊登了壹篇文章指出,雖然人們的出行的模式有很大不同,但我們大多數人同樣是可以預測的。這意味著我們能夠根據個體之前的行為軌跡預測他或者她未來行蹤的可能性,即93%的人類行為可預測。

Limits of Predictability in Human Mobility

A range of applications, from predicting the spread ofhuman and electronic viruses to city planning and resource management in mobilecommunications, depend on our ability to foresee the whereabouts and mobilityof individuals, raising a fundamental question: To what degree is humanbehavior predictable? Here we explore the limits of predictability in humandynamics by studying the mobility patterns of anonymized mobile phone users. Bymeasuring the entropy of each individual’s trajectory, we find a 93%potential predictability in user mobility across the whole user base. Despite thesignificant differences in the travel patterns, we find a remarkable lack ofvariability in predictability, which is largely independent of the distanceusers cover on a regular basis.

大數定理告訴我們,在試驗不變的條件下,重復試驗多次,隨機事件的頻率近似於它概率。“有規律的隨機事件”在大量重復出現的條件下,往往呈現幾乎必然的統計特性。

舉個例子,我們向上拋壹枚硬幣,硬幣落下後哪壹面朝上本來是偶然的,但當我們上拋硬幣的次數足夠多後,達到上萬次甚至幾十萬幾百萬次以後,我們就會發現,硬幣每壹面向上的次數約占總次數的二分之壹。偶然中包含著某種必然。

隨著計算機的處理能力的日益強大,妳能獲得的數據量越大,妳能挖掘到的價值就越多。

實驗的不斷反復、大數據的日漸積累讓人類發現規律,預測未來不再是科幻電影裏的讀心術。

· 如果銀行能及時地了解風險,我們的經濟將更加強大。

· 如果政府能夠降低欺詐開支,我們的稅收將更加合理。

· 如果醫院能夠更早發現疾病,我們的身體將更加健康。

· 如果電信公司能夠降低成本,我們的話費將更加便宜。

· 如果交通動態天氣能夠掌握,我們的出行將更加方便。

· 如果商場能夠動態調整庫存,我們的商品將更加實惠。

最終,我們都將從大數據分析中獲益。

四、結束語。

Here's the thing about the future.關於未來有壹個重要的特征 

Every time you look at it,每壹次妳看到了未來 

it changes because you looked at it.它會跟著發生改變 因為妳看到了它

And that changes everything else.然後其它事也跟著壹起改變了 

數據本身不產生價值,如何分析和利用大數據對業務產生幫助才是關鍵。