王煜全:支招談不上,就是姜老師講的挖煤的,這個里面是非常精彩的,因為一切都剛開始,數據的收集剛剛能夠有機會,那數據的解讀也是史無前例的,斯坦福的一個教授(,東歐人,不知道為什么東歐人數學總是很好,那個哥們是我們學術領域的牛人,他)有一個說法,過去社會學有一個測本定理,就是三個東西不能全有:一個是全樣本,就是所有人都去檢測,第二個是實時數據,第三個是連續數據。我實時采一個點可以知道現在所有人的位置,一個點衛星一照沒問題,連續記錄衛星也留不住,以前是沒有辦法,現在有個攝像頭一切都有了,網絡把你的行為全部連續記錄下來,而且是所有人的。這就跨到一個新的時代,我們對人的分析不再是以前說的用取樣分析了,我們可以用全樣本做分析。這時候就回來了,我們就大量的需要驗證,以前只能取樣的理論,現在我們在全樣本上去驗證,這里面就很好玩。舉個例子,一直有個說法,現在社會學那幫人對人研究的興趣還不如行為經濟學,因為行為經濟學是要看結果的,社會學太理論,我們總結“大數據”給我們的經驗教訓,太理論了沒有數據做支持就會脫離實際。其實行為經濟學里面最愛做數據分析了,哪怕在學校里也是實證得來的。
行為經濟學里面有個領軍人物,我估計他的那本書大家應該能讀,叫“觀看行為學”,其實在國外的翻譯叫做“可以預測的非理性”就是說人都是非理性的,但是人的行為可以分析和預測,這個作者其實在另一個研究里面提到他很有趣的研究是什么,如果這個人身材更高,他談戀愛的時候會有優勢,所以矮的人他能夠量化計算,他要每年多掙多少錢才能談到差不多同樣的女朋友數量,才能彌補這數,所以個矮的各位趕緊學習,趕緊掙錢吧,要不然在找朋友上很有劣勢。這個東西可以做到量化,背后的理論依據是什么?
其實我們原來在學校做學生研究的時候,專門找過高校的學生,跟蹤他們的行為也得到了驗證,什么意思呢?說簡單點就是社會地位高的人傾向于占有更多的社會資源,在學生里社會地位高,比如說這人吉他彈的特好被別人崇拜或者這個人是他們的戲劇社的社長,被一堆小女孩追著,他傾向于占有更好的社會資源,他的女朋友一定漂亮?;厝タ纯茨銈儼嗯笥哑恋暮⒆?,一定有出眾的地方,當然不一定成績好,別的地方好,受別人追捧。當然這事我們現在想辦法在干嘛?在微博里面做全樣本的量化分析,這個是據我所知國外也沒人干過,我們是干一些史無前例的事,我們跟高校有合作,目標是把我們的文章登在頂尖論文期刊上,因為沒人干過。怎么測呢?我也告訴大家,看看你們能不能做,能做大家合作:測某個人他擁有社會資源怎樣,就看他的微博里的雙向好友,代表你認識的,互相互粉的好友,你的異性好友的年齡和你的平均年齡差,比如說我40歲,我是一個看校門的。另外一個人40歲,他是一個億萬富翁,你猜我們倆誰更有可能認識更多年輕漂亮的女孩呢?我想把它量化出來,通過你的異性好友跟你年齡差來推算你是不是掌握更好的社會資源,在男性這個世界里說的比較現實,雖然我們都認為未來的共產主義很美好,但是現在我們還是活在真實世界里,對男性而言找年輕漂亮女孩,人說男性的追求永遠都沒有變,愛好永遠沒有變,不管是20歲、30歲、40歲永遠愛那18歲的,所以你是可測的。這些以前都是調侃,我們現在把它搞成嚴肅的,學術的東西。因為全部有數據支持,所以就能知道數據來了以后會怎么樣。
我是師大畢業的,正好我們學校旁邊就北郵,我需要借這個機會在往那個學校的校長那兒扔只鞋過去,就是這些創新的東西其實在國外是潮流,是趨勢,就是國外講“大數據”的一堆,國外有一個網站所有的新思想在不斷的傳播,中國就需要涂老師從美國回來給我們帶,為什么呢?因為那個倒霉的破校長搞了一個東西,叫“長城防火墻”。我不知道這和長城是什么關系?長城是干這個的嗎?把我們的創新思維阻斷了,但是我用我自己的親身經歷告訴大家,未來是不可阻擋的,你今天想盡一切辦法去接觸最新的科學,未來你一定收益。
你今天如果學過去的東西,20年前在師大讀書的時候,我們那教授說“為什么還要開這門課?”因為他還沒退休,當然了等他退休了,我們畢業了,我到哪兒去找飯碗去?我后來就改行了。所以我建議大家一定要面向未來,你如果學的是五年之后大行其道的東西,等你畢業出來你就是寶貝,所以你要突破那個倒霉的長城防火墻,去尋找知識,你多跟涂老師聯系,因為那是未來。
姜奇平:補充一個數據挖掘的問題,我有一個婚店網站的老板告訴我,說有一個數據,第一點怎么談戀愛?這個數據特別常用,女孩子初戀成功率最高的是什么?長直發,成功率是65%,最低的概率是短卷發,這告訴我們,女孩子談戀愛的時候,千萬不要學別人是短卷發,因為短卷發給一個男孩子不單純、老謀深算的感覺,長直發讓他覺得這個女孩子青春可愛,沒什么心眼,可見“大數據”是多么有用。
主持人:謝謝姜老師。替同學問一下王老師您是北師大中文系畢業的?
王煜全:我是生物系的。
主持人:現在網友有生物系的同學嗎?有請舉手?這是你的榜樣,給你的師兄一點掌聲,謝謝!
王煜全:我們生物系離現實就比較遠,比較傻,沒面向未來,我那時候都是學過去。
主持人:謝謝王老師!涂老師在這本書里一直給我們講說,數據開放不等同于信息公開,就這個問題我想請涂老師再詳細給我們解讀一下。涂子沛:這個東西確實不一樣,也是我在各地都一直強調的一個觀念,信息公開不等同于數據開放。信息公開是作知情權層面上的概念,為什么要公開,因為我們有權利要知道。比如說現在談到的領導干部的財產公開,是這個層面上的概念,但是數據開放不僅僅是知情權方面的概念,主要說的不是權的問題,是一個推動我們當前經濟發展,轉型升級的問題,是推動網絡經濟、知識經濟向前發展的動力,因為開放了數據之后,這些數據會產生新的價值。剛才已經舉了很多這樣的例子了。你的這個數據如何跟其他的數據進行整合,如果實現1+1>2,推動知識經濟、數據經濟的發展,而不僅僅是知情權的問題,而且形式也是會一樣的。開放是把這個完整的格式,記錄在數據庫里的數據格式,電子化的放在網上,你可以免費下載,而且對數據項也有原數據的說明,下來之后可以直接使用,信息公開是一條一條的,告訴你這個領導干部有多少財產,這是一條信息,數據開放是一片一片的。我們以后談到數據的時候,就不要想公開,就不要用公開,數據就是開放,信息才是公開。
