Когато данните не могат да се поберат върху един сървър – тогава говорим за Big Data, или големи данни. С това определение започна презентацията си Иво Вачков, софтуерен инженер в Xi Group, по време на форума за Big Data и бизнес анализи, организиран от IDC България Кемпински хотел Зографски.
Вачков обясни как се създава екосистема от приложения за реализация на големи данни. „Процесът по изграждане на подобна екосистема се състои от три основни етапа – събиране на данните, обработка и проверка/анализ”, каза той.
На първия етап данните се събират от различни източници в суров вид (структурирани, неструктурирани, групирани думи, свободен текст, редове и др.), след което се привеждат в цифров формат, за да са подходящи за машинна обработка. Така например, новинарските сайтове генерират много информация от кликванията върху конкретна новина. Огромно е разнообразието от компоненти и технологии за събиране на данни – това може да са файлове в различни формати, специфични клъстерни файлови системи, бази данни, „стрийминг” технологии и др.
При втория етап ключът е в паралелната обработка на данните. Важно е да се въведе такава технология, която позволява на потребителя лесно да я използва в различните случаи. Това може да са решения, които се хостват от самата компания – като Apache Hadoop, Cloudera, Horton Works и др., или базирани в облака решения – AWS EMR, JoyentManta и др., посочи Вачков. Той акцентира върху важността на технологията MapReduce и даде пример как с нейна помощ може да се обработват 1 милион съобщения едновременно, а не едно по едно.
Обработката на данните дава резултати в цифров вид, които подлежат на анализ и проверка – това е третият етап от изграждането на екосистема от приложения за Big Data. Тук на помощ идва огромно разнообразие от технологии, системи за съхранение и визуализация. Накрая всички получени данни подлежат на анализи, които могат да се представят във вид на отчети, прогнози за трендове, анализи в реално време, а също и като класически „бизнес интелиджънс” и статистически данни.
В заключение Вачков направи няколко препоръки : „Събирайте само нужните ви данни. Събирането на данни заради самото събиране струва скъпо. Използвайте технологията, която най-добре подхожда и отговаря на бизнеса ви. Например използването на платформата Hadoop е безсмислено, ако клиентите ви искат единствено да получават бързо геопространственни данни бързо. Използвайте данните разумно”, заключи Вачков.