Eкосистемата за „Big Data” се изгражда на три етапа

от Рада Станева18/09/201423/09/2014

„Събирайте само нужните ви данни. Събирането на данни заради самото събиране струва скъпо”, заяви Иво Вачков от Xi Group, по време на Big Data форум на IDC България

Когато данните не могат да се поберат върху един сървър – тогава говорим за Big Data, или големи данни. С това определение започна презентацията си Иво Вачков, софтуерен инженер в Xi Group, по време на форума за Big Data и бизнес анализи, организиран от IDC България Кемпински хотел Зографски.

Вачков обясни как се създава екосистема от приложения за реализация на големи данни. „Процесът по изграждане на подобна екосистема се състои от три основни етапа – събиране на данните, обработка и проверка/анализ”, каза той.

На първия етап данните се събират от различни източници в суров вид (структурирани, неструктурирани, групирани думи, свободен текст, редове и др.), след което се привеждат в цифров формат, за да са подходящи за машинна обработка. Така например, новинарските сайтове генерират много информация от кликванията върху конкретна новина. Огромно е разнообразието от компоненти и технологии за събиране на данни – това може да са файлове в различни формати, специфични клъстерни файлови системи, бази данни, „стрийминг” технологии и др.

[related-posts]

При втория етап ключът е в паралелната обработка на данните. Важно е да се въведе такава технология, която позволява на потребителя лесно да я използва в различните случаи. Това може да са решения, които се хостват от самата компания – като Apache Hadoop, Cloudera, Horton Works и др., или базирани в облака решения – AWS EMR, JoyentManta и др., посочи Вачков. Той акцентира върху важността на технологията MapReduce и даде пример как с нейна помощ може да се обработват 1 милион съобщения едновременно, а не едно по едно.

Обработката на данните дава резултати в цифров вид, които подлежат на анализ и проверка – това е третият етап от изграждането на екосистема от приложения за Big Data. Тук на помощ идва огромно разнообразие от технологии, системи за съхранение и визуализация. Накрая всички получени данни подлежат на анализи, които могат да се представят във вид на отчети, прогнози за трендове, анализи в реално време, а също и като класически „бизнес интелиджънс” и статистически данни.

В заключение Вачков направи няколко препоръки : „Събирайте само нужните ви данни. Събирането на данни заради самото събиране струва скъпо. Използвайте технологията, която най-добре подхожда и отговаря на бизнеса ви. Например използването на платформата Hadoop е безсмислено, ако клиентите ви искат единствено да получават бързо геопространственни данни бързо. Използвайте данните разумно”, заключи Вачков.

предишна статия

Eкосистемата за „Big Data” се изгражда на три етапа

Рада Станева

Е-суверенитетът повишава възвръщаемостта от корпоративния AI

Разликата в тестването на уязвимости се разширява

AI агентите могат да превърнат задачите в дигитално бедствие

CAPTCHA проверките преминават към цялостен поведенчески анализ

Работа на 5 места дистанционно: ИТ спец печели близо милион долара годишно

Прогноза: AI балонът няма да се спука, но ще „спихне“

За едни Първи юни носи радост, за други тишина – заедно можем да променим тази история

Намаляването на атакуемата повърхнина: критичен фактор за бизнес-устойчивост

2000 сървъра на морското дъно: първи в света подводен център за данни,...

AI моделът Mythos става по-полезен за общността при защитата от киберзаплахи

Уличното осветление трябва да се разглежда като стратегическа инфраструктура

Японски учени предадоха данни безжично със скорост 112 Gbps

Huawei Watch FIT 5 вече е в A1: интелигентен спътник за динамичното...

Високоскоростен интернет ще свърже близо 500 000 души в отдалечени и слабонаселени...

Роботизирани вълци защитават японците от мечки

Разпространяват измамни имейли и SMS-и от името на МТС

Грешки и забавяне на интернет причинява последната актуализация на Windows 11

Дестилирана класика и непреходна елегантност: iPhone 17e

Спокойствие и сигурен достъп – три смарт ключалки WELOCK

Грешки и забавяне на интернет причинява последната актуализация на Windows 11

Повечето Android смартфони няма да се справят с Gemini AI – трябва им повече памет

Huawei Watch FIT 5 вече е в A1: интелигентен спътник за динамичното ежедневие

HONOR 600 Pro и HONOR 600 от A1 – в комплект с безжични слушалки и на специална цена

Huawei добавя още един цвят в отворените слушалки FreeClip 2

Идва нова вълна в лаптопите: Googlebook с Android

ElevenMusic – това AI приложение композира песни по текстови описания

SofiaBus – безплатно приложение за градския транспорт в столицата

още от категорията