<tt id="ww04w"><rt id="ww04w"></rt></tt>
  • <tt id="ww04w"><table id="ww04w"></table></tt>
  • <tt id="ww04w"><table id="ww04w"></table></tt>
  • <tt id="ww04w"></tt>
  • <tt id="ww04w"><table id="ww04w"></table></tt>
  • <li id="ww04w"></li>
  • 《爆發》:大數據預測未來思維(10)
    導語:姜齊平:我把這本書形容為大數據哲學,互聯網是個機會特別多,卻讓人看不清楚的地方,我們看到一個成功的例子,卻沒看到后面的99具尸體,100個人往上沖,我們要當留下的那個。這是大數據之道,互聯網之道。

     

     

    羅振宇:二位,您是來自于騰訊是嗎?

    張昕:我現在是在騰訊做,姜老師和王老師他們給我有一種重新回到學生時代的感覺,因為我的本科和研究生都是在北大學經濟學的,所以說對行為科學包括核磁共振包括很多社會學調查方法,很多書里面列舉了一些實驗,我都是做過的。其實這本書從我這個角度講,學科角度講,第一是從大數據還有對人類行為科學之間的一個聯系,我在這里想說一個感受,因為當年98年的時候第一次學習的時候,心理學有一個目標,它的目標是說要描述、解釋和預測并控制人類的行為。他是有分成四個方面,第一是要準確的描述人類的某個行為,第二個是試圖在描述的基礎上解釋背后的原因是什么?第三個層次是說我還能進行一定程度的預測,最后是說在預測的基礎上我們發明一些手段進行控制,比如說今天大數據給我們帶來是到了預測這個階段,可能對數據的要求是,因為我覺得在整個行為科學上,在歷史上來講第一撥比較精確地去記錄有意識去記錄人類的行為數據的,就是一幫社會心理學或者是心理學家們他們去用他們的方法在實驗室里也好,去主動記錄,因為當時的時代是沒有人,人沒有自發的產生數據這樣一個系統,所以我們不得不去做一些實驗,塑造一種實驗環境來去把這個人的行為去描述清楚,解釋清楚,今天的話可能是經過十年二十年互聯網的發展,不知不覺當中已經有海量的用戶留下了一些真實的行為數據,而通過這些真實的行為數據是帶動了心理學或者是社會科學另外一個突破性的研究方法上的進展,之前的壓力方法更多的是我自己找那個人來做研究,讓你按照我的意圖去講模擬某種社會場景,現在是已經到了自發的社會場景已經有了這些數據自然而然沉淀下來只是說需要一些懂行為學的和社會心理學的一些學者介入來去幫助他再去解釋,用他們的方法去解釋,去預測,包括能發明一些方法去控制,控制的話就是剛才說的聽音樂,相當于是控制了,就是產生一些巨大的商業價值,這是第一個從學科感受來講的。

    第二點是回到剛才的主題能否預測,這里面我有兩個觀點,第一個觀點我認為隨著我們整個社會群體的發展會分成兩個階級,第一個階級是數字化生存的階級,人生大部分時間里面你利用數字化的設備或者是數字化的環境是沒法生存的,我們已經跟他是一種從小長大是生活技能了,這是一個群體,你不管是用手機也好,是用互聯網也好,或者你參加工作之后你沒有電腦沒有網絡的話你根本沒有辦法去生存,這是一個階級。第二個階級是說類似于非洲那些,他們根本不是數字化這個網絡里邊生存的,這是另外一個階級??赡軐τ谠跀底只胬锩婺阌袛祿漠a生,容易被預測,在那種原始的部落里邊是非數字化的階級,他們可能還是研究,因為他們目前的數據很難會去做一些預測,這是第一個觀點。

    第二個觀點在書里面作者有一個反反復復扯不清又扯得清的東西,是一個基于對群體行為的預測和個體行為的預測,從社會學來講是群體行為的預測,像革命爆發那個,最終成為很大的社會實踐,根據農民軍這個群體行為的預測,他是一種必然只是說是A人物還是B人物的問題了。另外一種是我對個體行為的預測,預測我的社會網絡中知道我的喜好,這是林個緯度,可能對于群體行為的預測相對來講會精準一些,對個體行為的預測因為我們的數據是分離的,中國移動可能是比較全的,但是他還沒有把我們整個人生圈起來,比如說形成一個完整的利益集團,有的你的數據是在百度,有的數據是在騰訊,有的是在中國移動,有的是在淘寶網,但是還沒有另外一個看不見的手段把這些數據給穿起來,如果穿起來之后可能是能增加預測的精準性,其實在與作者里面他用了很多例子,不管是信天翁的例子,用拿鈔票來去全世界走的例子,全世界走的例子就不是一個非常好的數據描述的方法,他描述的其實不是人,是鈔票的行為。所以他只是說不能說反應到個體上,對個體的預測會缺失,對群體有一種參照意義。這是對群體預測和個體預測的觀點。

    第三個觀點不管是對群體還是對個體我們書中還有一個93%、7%這兩個數字,他是從概率上講,作者一直在用概率看待人的行為本質,他用了隨機分布這樣一些,并且最后歸結為是一個異常值,很多爆發是要群體或者是個體生命當中肯定是有異常值存在的,我在93%,隨著我的數據的完整性我在93、94、95方面我預測會比較準,但是他始終是有7%的,為什么這么講?因為我們人類還是社會群體的話還是在進化,不斷地往前進化的,就像說我肯定很抗拒說用人去把這個音樂我遠遠聽這個音樂他突然放這個音樂了,所以進化是什么?當我們這種預測對人類社會產生一個沖擊的時候,他有一些負面的沖擊,比如說在網上因為在微博上被暴光受了傷害的人,他肯定采取的方式是要作為社會的異常值,以后再也不給網上提供任何數據了,因為我提供點數據都被你人肉出來了,我就很抗拒,這個社會會去進化的,進化的時候有一部分人是走抗拒的路線,因為進化有順從的進化還有逆向的進化,逆向進化可能是7%,那7%還是屬于無法預測,這是我的關于可預測性的三個觀點。

    羅振宇:雖然我知道您在騰訊也不負責數據挖掘工作,一會兒阿里巴巴的人可以講數據挖掘,一會兒我再回來問你,你也給我們介紹一下騰訊的數據挖掘,下面我們請郭樂先生您在阿里巴巴主要負責的數據挖掘來給大家講講。

    郭樂:其實我做的工作也不是數據挖掘,但是我可以說一下我的是產品化的東西,每次一聽到大家在講數據預測,我背后就一股涼意,可能是因為看數據看太多了,我在淘寶前后電子商務方面的數據做了五年左右時間,看了太多用戶行為的數據,我為什么會做到跟數據結緣可能還會往前推,其實早先我是在搜索,當時搜索還比較早,雅虎搜索是易搜,我是在負責搜索的相關性,怎么讓頁面的相關性能提高更高一點,剛才王老師說的之前做的最主要還是要靠雅虎自己的(英文),得是互相連接的關系,這是很平面的關系,也是沒有任何人的行為的因素,其實也是很偉大的一個想法一個概念,怎么能把人的行為引進來,我就想到了網頁之間的鏈接之間是有點撥關系的,點撥以后會在對方的網頁上面留下一個(英文),知道我從哪兒點過來,這個行為是人的行為,當時想怎么獲得這個數據從而提升我們的相關性,后來就延伸出來一個產品,雅虎統計,當時在07年的時候是非常實驗性的在團隊里面帶了兩個人嘗試這個東西,做了一個類似谷歌的(英文)這樣一個統計產品,他的原理就是我提供你免費的服務,把這個部署在你的網站里,下面部署一個代碼搜集你網站上所有的信息,你的用戶從哪兒點過來的,在你的頁面上的什么東西,做了這樣一個東西,一個產品做起來以后,我們希望通過這樣的產品的覆蓋,收集到很多的用戶在不同網站之間的行為關系再去貢獻給搜索的辦法,這個產品做起來以后,一方面是當時效果很好,很多用戶都蜂擁而至,另外一方面收集到巨大的數據,覆蓋了20億的,在這個數據里面看到了非常多有意思的東西,后來從那個時候開始使得我的主要工作轉移到數據上面,從此一發不可收拾做了五年左右的時間,后來我從雅虎到了淘寶這邊,產品也不同,改到了量子統計,一些做電商的朋友會知道這個產品,專門給淘寶的一些網店去提供數據支持,幫助他們做分析。其實我們表面可能是在做這樣一個用戶的產品,70%工作是在分析網上這些數據,用戶在網購上的數據,包括當時我們曾經做過很多一些有意思的小實驗,比如說情人節我們當時情人節是深圳地區購買鮮花的銷量是最高,但是在上海地區買安全套是最高的,最后得出很多這樣的東西很有意思,這些后面其實還有很多再深入去變成一個推薦產品的這樣一些東西,這些以后有時間可以繼續交流,在數據預測方面一定是一個趨勢,而且是一定可行的,包括像亞馬遜他在這方面是做的非常領先的,我在亞馬遜上買過手紙,過了一個月時間他給我發了郵件推薦其他的手紙,剛好我的手紙用的差不多了,這些都是亞馬遜做的非常極大的數據分析的前沿的東西,我曾經想做一些嘗試,再去買一些潤腸藥他會不會給我推薦再提前一些,半個月就給我推薦下一個手紙,都是有可能的。這種東西我們也是想嘗試過。包括剛才Keso也提到,去了不同地方旅游,是不是可以繼續精準的預測,精準預測這個可能做不到,但是去了印度、尼泊爾,可能通過如果再就是通過數據來說很可能再提供出你還有可能的一些下一個目的地,包括如果你要知道在尼泊爾里面去了哪些地方,比如說一些佛教的廟宇,是不是你可能下一次也是跟佛教相關的,可能是西藏或者是等等的地方,這些通過數據還是可以挖掘出來的,數據在預測方面一直是一個,我們一直是嘗試,現在可能離出結論還比較遠,這個一定是今后可行的一個方向,從我的角度來講,我們之前的角度來講我們更關心的是數據安全,怎么讓大家提供的數據可以保證在一個可控的范圍之內使用。

     

    已有0人參與

    網友評論(所發表點評僅代表網友個人觀點,不代表經濟觀察網觀點)

    用戶名: 快速登錄

    經濟觀察網相關產品

    日本人成18禁止久久影院