Големите данни – защо е целият този шум?

Днес имаме все по-голяма нужда от обработка на данни, чиято структура не е предварително известна

Днес компаниите имат все по-голяма нужда от обработка на данни, чиято структура не е предварително известна и може да варира в широки граници

Докато ИТ средите продължават да спорят дали Big Data (Големи данни) е просто модерен термин за познати технологии или е наистина нова тенденция, то публичното пространство прелива от коментари как редица компании успяват вече да се възползват от анализите на големи данни.

Логичният въпрос е “Колко големи?” и всъщност обемът ли е единствената характеристика, която имаме предвид, когато говорим за Големи данни. И защо всъщност е целият този шум, с какво анализът на такива данни е по-различен? Ако оставим настрана детайлите при обработката на данните от технологично естество, то става дума за решението на няколко проблема, дефинирани от анализаторската компания IDC:

1) Днес имаме данни, които са толкова обемни или нарастват толкова бързо, че извличането на смислена информация от тях отнема неприемливо дълъг период от време. Да не говорим, че често е важно данните да се събират, анализират и да се получават отговори на запитвания в реално или почти реално време. В свят, в който достъпът до финансови данни за борсови котировки в рамките на 30 милисекунди преди всички останали може да се изрази в милионни  печалби, скоростта, с която данните се анализират, не е без значение.

2) Нараства броят на източниците, от които имаме нужда да извличаме и комбинираме данни – от таблици в Excel до социални мрежи, данни от устройства като GPS, “умни” електромери и т.н.

3) Доскоро говорехме предимно за анализ на структурирани данни (съхранявани в таблици), днес обаче имаме все по-голяма нужда от обработка на данни, чиято структура не е предварително известна и варира в широки граници (каквото е например съдържанието на социалните мрежи).

Според IDC, Big Data е обобщеното название на цяла генерация от нови технологии и архитектури, създадени, за да решават ефективно горните задачи. В детайли за тях ще се говори на организираната от IDC България конференция “Бизнес анализи и обработка на големи масиви от данни” на 19 септември в х-л Хилтън, София. По-долу са описани основните им характеристики – тези технологии включват оптимизирани хардуерни архитектури, нови архитектури на системите за управление на бази от данни, друг системен софтуер и огромно разнообразие от приложен софтуер, както и семантични анализи на текстови масиви.

От друга страна, причините, поради които се налага обработката на данните, са повече от традиционни: по-добро обслужване на клиентите, разкриване на нови пазарни възможности, повече продажби и приходи, оптимизиране на процеси, намаляване на рисковете, разкриване на измами, прогнозиране и т.н. Списъкът от начини на използване е толкова дълъг, колкото е дълъг и списъкът на потребителите на аналитични технологии, защото всяка компания анализира данни според собствените си нужди.

Изследване на IDC от 2012 година сочи, че 3-те топ причини компаниите да внедряват технологии за големи данни са нуждата от анализ на оперативни данни, анализ на данни за поведението на потребителите онлайн и анализ на транзакциите от системите за продажби. Следват ги анализът на данни от машини и устройства и иновационни услуги.

По-специфични за Big Data задачи обаче са такива, които позволяват да бъдат впрегнати в употреба нови източници на данни: социални мрежи, блогове, глас,и видео и др. Примери за това са обработката на данни от социалните мрежи, за да се разбере връзката между хора, семантичен анализ на текстове, управление на трафика и т.н.

Очаква се през 2015 година пазарът на Big Data решения да достигне 16,9 милиарда долара спрямо 3,2 милиарда долара през 2010, като най-голям ръст – 64% – ще отбележат тнехнологиите за съхранение на големи обеми от данни.

И така, колко големи трябва да са вашите данни, за да се класифицират като “големи”? Всъщност, въпросът не винаги е в обема на данните. Практически въпросът опира до това дали системата генерира отговор на вашия въпрос за приемливо времe, както и дали обхваща всички данни, които искате да бъдат анализирани. В този смисъл и 300 GB могат да се окажат достатъчно големи.

Тук идва въпросът за инвестицията, която трябва да бъде направена, за да се осигури желаната производителност при системи, които се задъхват. Очевидно не винаги решението ще е преминаване към Big Data технологии. В края на краищата, от години ИТ специалистите се борят с проблема с производителността, оптимизирайки различни подсистеми.

Но дори и да решите да поемете по пътя “Big Data”, пазарът предлага доста алтернативи. От мощни интегрирани софтуер и хардуер в една кутия на компании като IBM, EMC, Oracle и HP до множество решения на стартиращи компании, доста от които се базират на платформата с отворен код (Apache Hadoop). Последните работят върху стандартни x86 сървъри и това означава значително по-ниска цена на цялото решение.

Сред по-известните производители са  Marp, Cloudera, Greenplum. Освен тях цяла плеяда компании предлагат хитроумни решения на определен тип проблеми, свързани с Big Data. Jези, които биха изразили известно съмнение дали подходът “open source” не носи рискове за стабилната работа на системите, не трябва да забравят, че Amazon, Google, eBay и още много други гиганти в глобалните услуги разчитат на Hadoop.

Рискове, разбира се, има и те са типичните за пазар в развитие, където предстои продуктите да достигнат зрелост, а изкупуването и консолидирането на играчите вече започна. От друга страна  предлаганата интегрираност и ангажиментите към постигане на определена производителност от страна на доставчиците на интегрирани решения в доста случаи ще си струва цената. В уравнението цена/цели/рискове не трябва да се забравят фактори като наличие на квалифицирани специалисти и опит на организацията за работа с аналитични системи.

Коментар