Артыкул вымагае праверкі арфаграфіі Удзельнік, які паставіў шаблон, не пакінуў тлумачэнняў.
Магчымы машынны пераклад, ужыванне ненарматыўнага правапісу або лексікі. Для праверкі ёсць адмысловыя праграмы.
Візуалізацыя штодзенных правак Вікіпедыі, створаная IBM. Тэкст і малюнкі Вікіпедыі займаюць тэрабайты памяці і з’яўляюцца прыкладам вялікіх даных.Рост лічбавых магчымасцяў глабальнага захоўвання інфармацыі.[1]
Вялікія даныя (вялікія звесткі) — тэрмін для азначэння набораў даных (англ.: data sets), якія з’яўляюцца настолькі вялікімі і складанымі, што традыцыйнае прыкладное праграмнае забеспячэнне для апрацоўкі даных не падыходзіць. Да праблемаў аналізу вялікіх даных адносяцца збор, захаванне, аналіз, пошук, абмен, перадача, візуалізацыя, фільтрацыя, абнаўленне, канфідэнцыяльнасць і крыніца даных. Цяперашняе выкарыстанне тэрміна «вялікія даныя», як правіла, адносіцца да выкарыстання прагнастычнай аналітыкі, аналітыкі паводзін карыстальнікаў або некаторых іншых перадавых метадаў аналітыкі даных і рэдка — да пэўнага памеру набору даных.
Аналіз набораў даных можа знайсці новыя сувязі для «выяўлення бізнес тэндэнцый, прадухілення хвароб, змагання са злачыннасцю і інш.»[2] Навукоўцы, бізнесмены, медыкі-практыкі, рэкламшчыкі і ўрады вельмі часта сустракаюцца са складанасцямі з вялікімі данымі ў такіх галінах як інтэрнэт-пошук, фінансавая і бізнес-інфарматыка. Навукоўцы сутыкаюцца з абмежаваннямі ў працы электроннай навукі (e-Science), якая ўключае метэаралогію, геноміку[2], канэктоміку, складаныя фізіялагічныя сімуляцыі, біялагічныя і экалагічныя даследаванні[3].
Наборы даных растуць вельмі хутка і часткова таму што яны вельмі танна збіраюцца шэрагам мабільных прылад з інфа-сэнсарамі, у паветры (remote sensing), праграмнымі логамі, камерамі, мікрафонамі, радыё-рыдэрамі (radio-frequency identification (RFID)) і бесправаднымі сэнсарнымі сеткамі[4][5]. Сусветныя тэхналагічныя магчымасці захоўвання інфармацыі на чалавека падвойваліся кожныя 40 месяцаў з 1980-ых[6]; у 2012 кожны дзень ствараецца 2,5 эксабайт (2.5×1018) даных[7]. Для буйных прадпрыемстваў узнікае новае пытанне, хто павінен валодаць вялікімі данымі, якія ўздзейнічаюць на ўсю арганізацыю[8].
Сістэмы кіравання рэляцыйнымі базамі даных і статыстычнае праграмнае забеспячэнне для візуалізацыі даных часта адчуваюць цяжкасці з апрацоўкай і аналізам вялікіх даных. Часта такая задача патрабуе «праграмнага забеспячэння, здольнага працаваць паралельна на дзясятках, сотнях і нават тысячах сервераў»[9]. Што лічыць «вялікімі данымі» залежыць ад магчымасцяў карыстальнікаў і іх інструментаў[10].
Характарыстыкі
Вялікія даныя могуць быць апісаны наступнымі характарыстыкамі[11][12]:
Аб’ём
Колькасць згенераваных і захаваных даных. Памер даных вызначае каштоўнасць і патэнцыйна дапамагае іх разуменню, а таксама вызначае тое, ці можна лічыць іх вялікімі данымі. Памер вялікіх даных звычайна перавышае тэрабайты і петабайты.
Разнастайнасць
Тып і прырода даных. Гэта дапамагае людзям, якія аналізуюць такія даныя эфектыўна выкарыстоўваць выніковае разуменне.
Хуткасць
У гэтым кантэксце хуткасць, з якой гэтыя даныя генеруюцца і апрацоўвацца, сустракаюць патрабаванні і выклікі, якія ляжаць на шляху росту і развіцця.
Варыятыўнасць
Непаслядоўнасць такіх даных можа прадухіляць працэсы кіравання імі.
Праўдападобнасць
Якасць сабраных даных можа значна адрознівацца і ўздзейнічаць на дакладнасць аналізу.
↑Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. (2011). "Challenges and Opportunities of Open Data in Ecology". Science. 331 (6018): 703–5. doi:10.1126/science.1197962. PMID21311007.