新用戶登錄后自動(dòng)創(chuàng)建賬號(hào)
登錄概念大數(shù)據(jù)
大數(shù)據(jù)的基本規(guī)則是,Bigger than Bigger(沒(méi)有最大,只有更大)。
? 什么是大數(shù)據(jù)?
大數(shù)據(jù)就是數(shù)量極其龐大的數(shù)據(jù)資料,無(wú)法用現(xiàn)有的軟件工具提取、存儲(chǔ)、搜索、共享、分析和處理的海量復(fù)雜的數(shù)據(jù)集合。
? 大數(shù)據(jù)有多大?
1ZB=1024EB=10242PB=10243TB=10244GB。
如果你有一臺(tái)1TB硬盤容量的電腦,那1ZB就是約等于10億臺(tái)電腦的容量,遠(yuǎn)遠(yuǎn)超出了我們一般的想象。
? 一天之內(nèi)互聯(lián)網(wǎng)上會(huì)產(chǎn)生多少大數(shù)據(jù)?
?互聯(lián)網(wǎng)一天產(chǎn)生的內(nèi)容=刻滿1.68億張
?2940億封郵件=美國(guó)兩年紙質(zhì)信件的數(shù)量
?200萬(wàn)個(gè)帖子=《時(shí)代》雜志770年文字量
?Facebook上2.5億張圖片=80座埃菲爾鐵塔高
特征大數(shù)據(jù)
Volume——數(shù)據(jù)量大
大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T)。
Velocity——速度快時(shí)效高
要求秒級(jí)范圍內(nèi)給出處理結(jié)果。如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個(gè)性化推薦算法盡可能要求實(shí)時(shí)完成推薦。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。
Variety——類型繁多
種類和來(lái)源多樣化。包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。
Fluctuation——周期性波動(dòng)
伴隨快速性,數(shù)據(jù)流呈現(xiàn)出波動(dòng)的特征,不穩(wěn)定的數(shù)據(jù)流會(huì) 隨著日、季節(jié)、特定事件的觸發(fā)出現(xiàn)周期性峰值。
Value——價(jià)值密度低
浪里淘沙卻又彌足珍貴。以視頻數(shù)據(jù)為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
Online——數(shù)據(jù)在線
數(shù)據(jù)是隨時(shí)能調(diào)用和計(jì)算的,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)最大的特征。如對(duì)于打車工具,客戶的數(shù)據(jù)和出租司機(jī)數(shù)據(jù)都是實(shí)時(shí)在線的,這樣的數(shù)據(jù)才有意義。
找回密碼
注冊(cè)賬號(hào)