華海濤:大數(shù)據(jù)的產(chǎn)生基于結(jié)構(gòu)化數(shù)據(jù)
2015-03-27 17:15:00 來(lái)源:央廣網(wǎng)
央廣網(wǎng)北京3月27日消息 3月27日,由中央人民廣播電臺(tái)新媒體宣傳中心、河北大學(xué)新聞傳播學(xué)院、中國(guó)社會(huì)科學(xué)院世界傳媒研究中心、中國(guó)科技新聞學(xué)會(huì)網(wǎng)絡(luò)媒體專業(yè)委員會(huì)共同主辦的“首屆大數(shù)據(jù)時(shí)代創(chuàng)新與媒體變革研討會(huì)”在京舉行,本次研討會(huì)以“時(shí)代創(chuàng)新 媒介變革”為主題,圍繞大數(shù)據(jù)時(shí)代全球網(wǎng)絡(luò)文化發(fā)展趨勢(shì),探討全球媒介創(chuàng)新發(fā)展未來(lái)。網(wǎng)絡(luò)文化建設(shè)和管理部門、科研院校、國(guó)家核心學(xué)術(shù)期刊負(fù)責(zé)人、專家、學(xué)者共200人出席會(huì)議。
味道網(wǎng)CEO華海濤在《大數(shù)據(jù)時(shí)代的中國(guó)青年媒體人成長(zhǎng)論壇》中談到為什么會(huì)有“大數(shù)據(jù)”,他認(rèn)為,是因?yàn)楝F(xiàn)在有很多每天產(chǎn)生出來(lái)的結(jié)構(gòu)化數(shù)據(jù)都是有用的,存在在郵件附件里、數(shù)據(jù)庫(kù)里面。它們之間有相互關(guān)系,但沒辦法用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)的方法進(jìn)行查詢分析。之前在2000年前后,其實(shí)已經(jīng)有這種概念,就是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘,非常接近于現(xiàn)在大家講的大數(shù)據(jù),所以說很多人就會(huì)在這個(gè)上面進(jìn)行混淆。
大數(shù)據(jù)不是一個(gè)特定的產(chǎn)品,是分布式的文件系統(tǒng),基于這樣的文件系統(tǒng)建模,然后才有可能在短時(shí)間內(nèi)對(duì)大量的數(shù)據(jù)進(jìn)行分析。
以下為文字實(shí)錄:
從我個(gè)人的角度闡述一下我對(duì)大數(shù)據(jù)的看法。首先作為技術(shù)人員來(lái)講我認(rèn)為大數(shù)據(jù)首先要看本質(zhì),為什么出來(lái)這樣一個(gè)名詞,跟他比較接近的在2000年那個(gè)時(shí)候大家講寬帶,什么叫寬帶,帶寬到底多少是寬帶,現(xiàn)在發(fā)展到了10兆瓦、20兆,剛開始的時(shí)候512K那個(gè)時(shí)候也叫寬帶,所以這個(gè)事情是不準(zhǔn)確的。大數(shù)據(jù)到底多大才算大,是不是一個(gè)GB的數(shù)據(jù)就不算大,其實(shí)我可以告訴大家本質(zhì)上不是這個(gè)樣子。
為什么會(huì)有大數(shù)據(jù)這樣一個(gè)名詞。是因?yàn)榫褪钦f現(xiàn)在我們有很多每天產(chǎn)生出來(lái)的數(shù)據(jù)也不過結(jié)構(gòu)化,當(dāng)然里面也有一些結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)其實(shí)都是有用的,可能有些是在郵件、附件里面,有的是在數(shù)據(jù)庫(kù)里面。他們之間又有相互關(guān)系沒有辦法用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)的方法進(jìn)行查詢分析。之前在2000年前后其實(shí)已經(jīng)有這種概念,就是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘,非常接近于現(xiàn)在大家講的大數(shù)據(jù),所以說很多人就會(huì)在這個(gè)上面進(jìn)行混淆。
比如說像尿布跟啤酒的例子,好像是這樣,這個(gè)例子我也是聽了十幾年了。大數(shù)據(jù)更多的可能是商家或者國(guó)際巨頭用于一波又一波的創(chuàng)造新的IT增長(zhǎng)點(diǎn),然后可能很多人也不自覺的就卷到這個(gè)里面去了,所以我說我們普通民眾是要認(rèn)清楚這個(gè)問題。遇到了什么問題現(xiàn)在我們開始提這個(gè)大數(shù)據(jù),剛開始講了查詢分析,這里面用傳統(tǒng)的模型或者是工具研發(fā)解決。它不是一個(gè)特定的產(chǎn)品,是分布式的文件系統(tǒng),基于這樣一個(gè)文件系統(tǒng)上面我們可能主要是建模,做了這樣一些事情,然后你才有可能去在一個(gè)相對(duì)短的時(shí)間內(nèi)對(duì)大量的數(shù)據(jù)進(jìn)行分析。
我先說一下大數(shù)據(jù)為什么現(xiàn)在我們很多人感覺像見不到它,見到部分到就對(duì)了,因?yàn)槭掷锔揪蜎]有大數(shù)據(jù),大數(shù)據(jù)在誰(shuí)的手里,其實(shí)就是數(shù)據(jù)生產(chǎn)者,我們從源頭算起,每個(gè)人在文本框里輸入一個(gè)詞,那這個(gè)詞就是精確的,服務(wù)器是可以記錄下來(lái)的。那我們上億的人甚至幾十億的人在搜索引擎里輸入這個(gè)數(shù)據(jù)是非常精準(zhǔn)的計(jì)算了像百度、谷歌這個(gè)數(shù)據(jù)當(dāng)中去。包括語(yǔ)音、包括視頻然后像電子商務(wù)其實(shí)最精準(zhǔn)的是電子商務(wù)。
我經(jīng)常跟同事或者朋友在一起聊天的時(shí)候就說,其實(shí)如果是我們講阿里、京東他們所掌握的中國(guó)的消費(fèi)數(shù)據(jù)可能比國(guó)家統(tǒng)計(jì)局的還要準(zhǔn)。因?yàn)槭裁茨?因(yàn)槔锩娴拿恳还P訂單是誰(shuí)的,它精確到分,每一分都不會(huì)差的。它能夠明顯的分析出來(lái)這里面有男性用戶、女性用戶,在什么年齡段所以這個(gè)是很精確的,然后還有像微博、微信,微信這個(gè)事情最新的版本剛剛開放微信的搜索,之前也沒有開放搜索,數(shù)據(jù)在哪里?先存著,現(xiàn)在存儲(chǔ)很便宜,他可以搞到這樣的數(shù)據(jù)放在那里,什么時(shí)候想分析就可以去分析。所以說這個(gè)事情我們老百姓能感覺到跟我們好像沒什么關(guān)系。但是多少有一點(diǎn)關(guān)系,但那個(gè)關(guān)系什么,我們可以去用,但是用的成本有多少這個(gè)不知道。
每個(gè)人都想去建自己大數(shù)據(jù)的中心,或者在技術(shù)上用了大數(shù)據(jù)的方法。比如說我們?nèi)ツ晟暇的味道網(wǎng)是一個(gè)農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站,那這個(gè)電子商務(wù)網(wǎng)站跟其他的很多電子商務(wù)網(wǎng)站有共性的地方,那就是我也需要廣告,剛才褚總講的很好,叫整合了各種廣告資源同時(shí)做時(shí)實(shí)的數(shù)據(jù)分析,是我們電子商務(wù)網(wǎng)站具體的一個(gè)應(yīng)用點(diǎn)。然后還有一點(diǎn)我們自有數(shù)據(jù)的積累,積累到一定程度比如想象一下每天如果能產(chǎn)生一萬(wàn)訂單,這一萬(wàn)訂單量每個(gè)人都會(huì)有一個(gè)評(píng)價(jià),如果在評(píng)價(jià)上再有一個(gè)互評(píng)的話,這個(gè)數(shù)據(jù)量也是蠻嚇人的,基本上意味著可能做一個(gè)普通的關(guān)系型數(shù)據(jù)庫(kù)這樣一個(gè)查詢,一分鐘或者10分鐘,這樣用戶是等不了的?赡芪覀円獱奚粢恍┚_性,然后用一些大數(shù)據(jù)的方法來(lái)把它搞定。
另外我在從業(yè)過程中還遇到一個(gè)例子,就是說有一個(gè)是跟藝術(shù)品定價(jià)有關(guān)系的,當(dāng)時(shí)設(shè)計(jì)了29個(gè)緯度包括拍賣行的價(jià)格,包括大家的評(píng)價(jià)、評(píng)論、以及以往所有人的評(píng)價(jià),這些東西通通弄到里面去,有不同的權(quán)重也不一定是線性的,把這些東西都弄到里面去去做一個(gè)應(yīng)用點(diǎn)在哪里?就是說拿它去做一個(gè)藝術(shù)品的基礎(chǔ)價(jià)格的一個(gè)估價(jià)。因?yàn)楝F(xiàn)在大家都知道藝術(shù)品價(jià)格是很混亂的,賣多少錢都有,那到底讓消費(fèi)者知道這個(gè)東西值多少錢,所以他們想了這個(gè)辦法。
但是這里面一個(gè)最大的問題就是剛才上午也有嘉賓分享到了,這里面關(guān)于數(shù)據(jù)的準(zhǔn)確性的問題。我們是不能相信的,這里面數(shù)據(jù)你不知道是哪一條不準(zhǔn)確,所以我們認(rèn)為整體就是不準(zhǔn)確的,這里面不能單獨(dú)的數(shù)據(jù)清洗,那你憑什么清洗掉某一條數(shù)據(jù)?它也許是準(zhǔn)的也許是不準(zhǔn)的,這里面是應(yīng)用上一個(gè)很大的問題。
對(duì)精準(zhǔn)數(shù)據(jù)來(lái)講其實(shí)我覺得是現(xiàn)在一個(gè)最大的應(yīng)用點(diǎn)。剛才我就從技術(shù)的角度說了一下大數(shù)據(jù)的這些事情。然后總結(jié)一下吧:現(xiàn)在我覺得是一個(gè)大數(shù)據(jù)的,我們趕上了這樣一個(gè)時(shí)代確實(shí)是,未來(lái)可能會(huì)像王立新教授講的非常精采,未來(lái)可能會(huì)達(dá)到那樣一個(gè)理想的狀態(tài),一個(gè)完美的狀態(tài),就是說我們可以把中間的不對(duì)稱造成的摩擦的成本降到最低,但是那個(gè)時(shí)代可能還比較遙遠(yuǎn),目前我們能做到的事情就是認(rèn)清形勢(shì),想清楚這個(gè)大數(shù)據(jù)這樣一個(gè)概念或者一個(gè)技術(shù)對(duì)我們到底會(huì)有些什么樣實(shí)際的應(yīng)用,不要迷茫就好,謝謝大家!
編輯:王天怡
關(guān)鍵詞:大數(shù)據(jù);研討會(huì)
2015-03-27 17:29:00
2015-03-27 17:25:00
2015-03-27 17:06:00
參與討論
我想說
央廣網(wǎng)官方微信
手機(jī)央廣網(wǎng)