В последните години хората от ИТ средите усилено говорят за изкуствен интелект, машинно самообучение, алгоритми, големи данни. Какво следва да значи „големите данни” (Big Data) обаче? За немалко потребители това е неясен израз, предполагаема маркетингова „хватка”. Ако обаче им помогне да разберат какво се има предвид, организацията може да се възползва максимално от въпросните „големи” данни.
В неотдавнашен доклад 87% от организациите признават, че данните им се разглеждат като актив. Едва 25% от анкетираните обаче споделят, че се чувстват готови да използват въпросния актив. Малък е делът и на тези, които смятат, че решенията им биха били взети по-добре на база наличните данни – 37%. И още по-интересното: цели 74% се чувстват напълно „затрупани” с данни, според проучването на Qlik-Accenture.
Първоначалната реакция на това е разбиране – в края на краищата сега толкова много данни се изсипват в предприятията, че те просто не могат да се справят и да ги „сдъвчат”, отбелязва TechRepublic. Но може би има и друг, съществен проблем – неспособността ни да комуникираме ясно в рамките на ИТ и с крайните бизнес потребители.
Едно препятствие, което усложнява комуникациите с крайните потребители, е това, че в ИТ средите доминират инженерни термини. Изглежда нормално, но тъкмо това прави технологичния свят непонятен за „обикновените” хора. Какво например следва да значи „по подразбиране”? Ако сте работили в сферата на финансите, изразът „по подразбиране” ще рече, че един заем е станал лош. Но ако отворите компютърен речник, ще узнаете, че това е „избор, използван автоматично от дадена програма при липса на избор, направен от потребителя”.
Но ето, че можем да обясним на не-специалистите какво е това „големи данни”, от какво се получават, какво е характерно за тях и защо са ни нужни.
1. Какво представляват големите данни – на прост език
„Големи данни” наричаме всяка информация, която не е под формата на електронен запис в традиционна ИТ система, като например система за заплати, за покупки, за продажби, за производство и др. Ако говорим за снимка, изображение, чертеж, сканиран хартиен носител на договор, видеоклип или запис на глас, всичко това са „големи данни”. И тъй като големите данни не могат да бъдат обработени чрез традиционните системи за фирмени транзакции, те трябва да бъдат обработвани по друг начин.
Повечето потребители могат да разберат подобно обяснение. Не пречи на ИТ специалистите да обясняват по подобен начин, да напомнят, така че всеки да разбира лесно какво разбира под „големи данни”.
2. Какво е характерно за обработката на „големи данни”
ИТ хората трябва да измислят методи, които обработват големи данни, но също така е важно крайните потребители да разберат основните стъпки в процеса.
Потребителите знаят от опит, че когато работят с ИТ отдела по създаване на дадено приложение – примерно за отчети – те първо сядат заедно и проектират приложението, а след това ИТ хората отиват в своите „покои” да го програмират. После всички тестват приложението. Откриват се бъгове, докладват се, поправят се – докато не заработи така, както се очаква. Най-накрая приложението се внедрява в производство.
Е, разработването на приложения за големи данни се случва по подобен начин, макар и с малки различия.
3. Разработване на „модел на данни”
Когато ИТ специалистът седне с крайните потребители, за да определят заедно как работи даден бизнес-процес и какъв тип информация от системите е необходима, за да накара процеса да работи, това обикновено се нарича „изисквания и дефиниране на бизнес-процес”. Но в езика на големите данни същото нещо се нарича „модел на данни”.
Моделът на данни има две части. Първата част от процеса е мястото, където потребителите описват своя бизнес-процес на бяла дъска или друго устройство. Те също така изброяват различните видове данни, необходими за изпълнението на процеса. Например, ако трябва да намерите определена част, която ви е необходима, може да се нуждаете от информация за номера на частта, достъп до доставчиците, които предоставят частта, и местоположението на частта.
По-късно ИТ може да разработи основен модел на данни, който показва как различните бази данни, изчислителни ресурси и т.н. ще получат тази информация за потребителя, но потребителят не трябва да участва в този изключително технически етап от дизайна на модела на данни. Потребителят трябва само да потвърди, че бизнес-процесът и нуждите от информация са пълни.
4. Определяне на алгоритъма
Алгоритъмът е критерият за търсене, който крайният потребител използва за заявка на данните. Например, ако крайният потребител иска да намери всички доставчици на определена част, които не са засегнати от текущото наводнение, данните за транзакциите на доставчиците на части могат да се комбинират с „големите данни” за времето. Генерира се отчет, който посочва доставчиците на части, които не са в засегнатата зона.
Ако по някаква причина алгоритъмът не отговаря напълно на бизнес-нуждите, потребителите и ИТ могат да се съберат отново, за да може да се намери по-добър алгоритъм.
6. Вземане на данните
Данните, генерирани от източници, обработени от модела на данни, трябва да бъдат почистени от нередности – дублиране, непълноти и неточности. Така следва да се гарантира, че информацията, върната на крайните потребители, е с високо качество. Качеството на данните се потвърждава от крайните потребители при тестване на приложения.
Целта на „големите данни” като ИТ инициатива трябва да се основава на комуникации, които са регулярни, чести и лесни за разбиране. Отделете време да обясните новия процес на крайните потребители според собствените им условия. Спестете техническите и инженерните термини. Намерете обикновени думи, за да ви разберат на чист български език. Може би ще се изненадате, но по този начин можете да ускорите сроковете и резултатите от проектите и да изградите доверие и условия за работа в екип, от които полза ще има цялата организация.