След глобалния ИТ срив с повредени 8,5 милиона Windows компютри по целия свят се оказа, че процесът на възстановяване е много по-сложен от рестартирането. Какво беше научено след апокалипсиса на “синия екран” – най-голямото ИТ прекъсване досега в историята?
Миналата седмица 8,5 милиона устройства с Windows по целия свят, включително компютри, критични за работата на големи авиокомпании, отказаха да работят поради лоша актуализация на софтуер. Въпреки че много организации възстановиха системите си, ИТ лидерите има върху какво да се замислят.
Продължават да излизат подробности за масовото прекъсване, което се дължи до голяма степен на актуализация на софтуера Falcon Sensor на CrowdStrike. Нещо се обърка и докато някои виждат проблема в технологичните политики на Европейската комисия, други се подадоха на свръхестествени конспиративни теории. Но “чудовището от Лох Нес” не е виновно тук, отбелязва Information Week в анализ на събитието.
Това, което следва за организациите, засегнати от прекъсването, може да е по-сложно от корекция или рестартиране. Delta Air Lines остана затруднена около пет дни след първоначалния инцидент, а Министерството на транспорта на САЩ започна разследване на продължаващите прекъсвания на полетите на авиокомпанията и на обслужването на клиенти.
CrowdStrike предложи стъпки за коригиране и извинение от главния изпълнителен директор Джордж Курц за инцидента с актуализацията. Намирането на път към възстановяването може да върви ръка за ръка с подготовката за възможни прекъсвания в бъдеще, колкото и рядък да беше проблемът с CrowdStrike.
Как стигнахме до тук
Ерик Грение, анализатор в Gartner, смята, че необичайно съвпадение на фактори е довело до прекъсването. „Това всъщност е сблъсък на светове”, каза той. „Причината въздействието да е толкова голямо е, че Windows е най-популярната операционна система в света. CrowdStrike е един от най-широко използваните инструменти за сигурност на крайни точки. Така че, когато CrowdStrike има проблем с лоша актуализация, въздействието е голямо”.
Софтуерът Falcon Sensor на CrowdStrike е предназначен да открива и блокира заплахи в системите на потребителите, включително в ядрото на ОС, и се нуждае от достъп до ядрото, за да изпълнява функциите си. Грение смята, че други доставчици на софтуер също трябва да оценят своите процедури за осигуряване на качеството и работните процеси. „CrowdStrike не е първият, който някога е изпратил лоша актуализация, и мога да кажа с известна сигурност, че вероятно няма да е последният”.
Това, което допълнително усложни проблема, каза Грение, е фактът, че корекцията беше ръчно отстранявана. „Имахме нужда от ръце на клавиатурата. Понастоящем няма опция за отдалечено коригиране и след това ви трябват повишени привилегии в зависимост от това как го правите”.
Някои организации се нуждаеха от допълнителна помощ, за да си стъпят на краката. „За да стане проблемът още по-лош, ако сте имали пълно дисково криптиране, което повечето предприятия използват, се нуждаете от ключове за възстановяване за това криптиране, независимо дали е чрез BitLocker или друг доставчик, и организациите може да не са били подготвени за всичко това”, каза Грение.
Според него, урок за организациите е, че тяхното планиране за непрекъснатост на бизнеса трябва да бъде преразгледано, за да се гарантира, че е актуално, валидно и стрес-тествано. И докато предприятията проучват какво биха могли да направят по различен начин, има още подробности за изясняване около този инцидент.
„Мисля, че трябва да изчакаме, за да видим от CrowdStrike пълен анализ на първопричината за това какъв всъщност е проблемът”, коментира Грение. „Можем да спекулираме… но мисля, че би било лоша услуга да започнем да говорим за това, без те наистина да дадат анализ на първопричината”.
Притеснение не само от CrowdStrike
CrowdStrike може да е в центъра на прекъсването, но лоша актуализация от други доставчици със същото ниво на достъп до ядрото на Windows може да има сравнимо въздействие. „Това може да се случи на всеки доставчик на сигурност просто поради самата архитектура на Windows”, каза Джон Рейвън, управляващ директор на облачната трансформация с Microsoft в TEKsystems. Единственият начин да се управлява CrowdStrike и веригите от инструменти за сигурност сега е привилегирован достъп до ядрото, до най-вътрешната работа на системите.
Според него, Microsoft се опита да направи правилното нещо преди много години, като абстрахира ядрото далеч от т.нар. “трети страни”, но беше блокирана от регулаторните агенции. „Те се канеха да принудят всички да преминат през ниво на API за сигурност, но това беше счетено за антиконкурентно за по-малките фирми за сигурност”, припомни Рейвън.
Microsoft обвини Европейската комисия за прекъсването, цитирайки споразумението от 2009 г., което изисква компанията да предостави достъп до ядрото на доставчици на сигурност от трети страни. Това споразумение имаше за цел да отвори конкуренцията за други компании. Microsoft предлага и своя собствена алтернатива за сигурност Windows Defender.
Рейвън отбеляза, че потребителите на Apple не са пострадали от прекъсването, въпреки че има рамка Falcon Sensor и за нейната операционна система, тъй като компанията отхвърли използването на разширението за достъп до ядрото. „Те са поставили слой за абстракция отпред, който наричат системни разширения. Направиха го специално за нова рамка за сигурност, което е точно това, което Microsoft се опита да направи преди години, но по някаква причина Apple се измъкна”, каза Рейвън.
Движим се бързо и разбиваме нещата
Нагласите ИТ да бъдат икономични и да не се губят ресурси или време, с цел всичко да върви гладко, може да са допринесли за прекъсването на CrowdStrike, смята Субодха Кумар, изтъкнат професор по статистика, операции и наука за данните в университета Темпъл. „Не можем да живеем в свят, в който просто намаляваме разходите и разчитаме, че всичко ще работи добре”.
Според него, въпреки съществуването на автоматизирани механизми, които биха могли да върнат лошите актуализации, много компании избягват използването на такива ресурси, защото те изискват много място. Кумар смята, че инструментите за мониторинг трябва да се актуализират или да се инвестира в повече инструменти, базирани на изкуствен интелект, за откриване на такива проблеми.
„Най-важното е, че трябва да имаме излишни системи, за да можем преминем към тях много бързо”, каза той, признавайки, че това може да бъде много скъпо.
Надеждните уроци се учат там, където се внедряват правила, актуализации, подписи, неща, които трябва да правим по отношение на сигурността, за да сме в крак с лошите актьори. “Но очевидно нещо не върви добре в целия този процес“, каза Уил Глейзър, директор за изследване на заплахите в компанията за сигурност на API и управление на ботове Cequence.
Имаше спекулации, че изискването за пъргавост при внедряването е допринесло за глобалния ИТ срив с пускане на актуализацията, преди евентуалните грешки да бъдат уловени. Бързането в технологиите не е нищо ново – то отеква назад към ерата „Движи се бързо и разбивай нещата”, за която се твърди, че е приключила.
„Ако CrowdStrike се задръстят с процеса и не осигурят надеждна, навременна защита срещу заплахи и клиентите им бъдат атакувани – тогава те водят различен разговор с клиентите си, които вероятно ги преследват за щети. Чувствам, че това е вечната борба – проклет да си, ако го направиш, проклет да си, ако не го направиш”, разсъждава Глейзър.
+1 за мнението надолу
Сега ще ни проглушават ушите с месеци за “проблема крауд страйк”
А то проблема е че шибаните програмистчета на шибаната компания пляскат нещо по целия свят без да се тества, демек пак нарушиха старата поговорка
АКО НЕ Е СЧУПЕНО НЕ ПИПАЙ!
От няколко дни чета баси глупостите,
как тея светила ,гуровци и откровени идиоти не схванаха,че са виновни неспазването на процедури и протоколи за нов релийз, няма тестване в лаб на 10-100 компютри – и да се види резултатът… що са го спестили е друга бира
бачкам със сентинел едно и макар,че да е супер EDR, и въпреки ,че групата го тества,ние тук в бг-то също тестваме преди да го нахакаме на всички пс-та …
и нямаме проблеми и няма и да имаме още 100г – идиоти