Observability - ważna cecha systemów IT przyszłości - przewodnik dla początkujących

Elastic Stack Splunk

Observability – ważna cecha systemów IT przyszłości – przewodnik dla początkujących

04/07/2022
Podziel się

Obecnie wymagania klientów i biznesu są coraz większe. Stworzenie konkurencyjnego portfolio produktów, czy usług, które wyjdą naprzeciw ich oczekiwaniom, wymaga stałego rozwoju i doskonalenia oprogramowania. Powoduje to systematyczny wzrost złożoności systemów i problemy z ich kontrolą. Wykrycie, zrozumienie oraz naprawa awarii występujących w złożonych systemach staje się praktycznie niemożliwe bez wykorzystania odpowiednich narzędzi. W tej sytuacji szczególnie warto zwrócić uwagę na observability (obserwowalność), często błędnie utożsamianą z monitoringiem, która umożliwia inspekcję i zrozumienie stosu aplikacji. Observability to cecha systemu, jaką jest możliwość kontroli zdarzeń w momencie umożliwiającym korektę lub naprawę błędu. Pełne observability zapewnia wgląd w istotę ewentualnych problemów w trybie natychmiastowym. Czym jest obserwowalność i czym różni się od monitorowania? Jak sprawić, aby system był obserwowalny? Jaką rolę odgrywa observability w DevOps, a także w pracy z kontenerami, bazami danych, czy systemami operacyjnymi. Jakie narzędzia observability są dostępne na rynku? Postaramy się to przybliżyć w naszym przewodniku.

Spis treści:

Co to jest Observability?

Observability jest zdolnością do definiowania stanu wewnętrznego złożonych systemów, na podstawie ich zewnętrznych danych wyjściowych. Można powiedzieć, że system jest obserwowalny, kiedy zbieranie i przetwarzanie pochodzących z niego danych daje możliwość zbadania i zrozumienia jak ten system działa, jakie występują w nim problemy i jak wpływają one na jego działanie.

Observability – główne korzyści

Złożoność współczesnych systemów sprawia, że coraz trudniej wykryć, zrozumieć oraz naprawić występujące w nich awarie. W przeciągu ostatnich lat wiele systemów zostało przekształconych na oparte o chmurę mikroserwisy typu open source. Są one rozwijane i wdrażane w bardzo szybkim tempie. Takie podejście jest wygodne, ale sprawia, że pojawia się wiele nowych, często zupełnie niezrozumiałych błędów.

Rozwiązywanie problemów z systemem jest bardzo ważne, gdyż jedna usterka często pociąga za sobą kolejne. Możliwych przyczyn problemów może być wiele i znalezienie ich źródła bez odpowiedniego narzędzia często okazuje się niemożliwe.

Observability pozwala znaleźć odpowiedzi na pytania dotyczące systemu. Wykrywa trudne do wychwycenia błędy i przyspiesza ich naprawę. Narzędzia observability pozwalają na ciągłe śledzenie parametrów systemu, dzięki czemu można przewidzieć, gdzie wystąpi problem. Observability pomaga zwiększyć wydajność i niezawodność systemu, co przekłada się na zmniejszenie kosztów jego utrzymania.

Elementy observability

Jednym z najważniejszych elementów observability są logi zdarzeń. Są to linie tekstu zawierające informacje dotyczące zdarzenia, między innymi czas jego wystąpienia oraz treść błędu. Mogą one występować w formie uporządkowanej, na przykład sformatowane w formie pliku typu JSON lub nieuporządkowanej, czyli w formie ciągu znaków zrozumiałych dla człowieka.

Analiza logu pozwala zrozumieć problem, określić jego źródło i powód wystąpienia. Logi są generowane przez wszystkie komponenty systemu od czasu jego uruchomienia do wyłączenia. Niekiedy, aby poddać log analizie i w pełni go zrozumieć, wymagana jest ekstrakcja najważniejszych elementów logu z jego treści.

Wiele aplikacji analizujących dane oraz języków programowania wraz z ich bibliotekami umożliwia swobodną pracę na logach i ich obróbkę tak, aby następnie przy pomocy narzędzi przeznaczonych do analizy, uzyskać oczekiwany rezultat.

Kolejnym elementem observability są metryki. Metryka jest opisem ogólnego zachowania danego komponentu systemu w formie numerycznej reprezentacji danych. Każda metryka posiada swoją nazwę i wartość, najczęściej w postaci pary klucz – wartość oraz etykiety. Dzięki etykietom dane mają kontekst, który jest pomocny podczas rozwiązywania problemów.

Metryka może zawierać informacje o każdym aspekcie pracy systemu, na przykład  zużyciu mocy obliczeniowej przez daną aplikację, czy też czasu, w jakim system pozostaje sprawny. Dzięki metrykom można uzyskać całościowy obraz stanu i wydajności systemu, poprzez wgląd do jego wszystkich parametrów. Te informacje pomagają w wykrywaniu błędów oraz określaniu ich wpływu na cały system.

Następnym ważnym składnikiem observability jest funkcjonalność typu trace. Jest to droga żądania lub akcji przez wszystkie węzły systemu, która jest śledzona dzięki przypisaniu unikalnego identyfikatora do danych, które tę drogę pokonują.

Tracing jest wykorzystywany wszędzie tam, gdzie między komponentami systemu przekazywane są dane. Dzięki temu można uzyskać informacje o drodze, którą dane pokonują – czyli jaka jest jej długość, oraz architektura i prędkość przepływu danych na każdym jej etapie.

Zebrane dane pokazują, które obszary systemu wymagają ulepszenia lub optymalizacji. Trace jest niezbędny podczas pracy z bardzo złożonymi systemami, w których odpowiednie przydzielanie zasobów do zadań jest kluczowe i zapewnia efektywne działanie całego systemu.

Jak sprawić by system był obserwowalny?

Tworzenie obserwowalnych systemów wymaga przede wszystkim zrozumienia wyżej wymienionych filarów observability. Jednak to nie jest wystarczające. Aby zbudować w pełni obserwowalny system, należy porzucić koncepcję budowy systemów zorientowanych na poszczególne komponenty, a przyjąć jednolite podejście w obrębie całego systemu. Celem observability jest bowiem zrozumienie, jak funkcjonuje system jako jedna całość.

Podczas tworzenia obserwowalnych systemów najważniejsze jest zdefiniowanie typów i źródeł danych, które są najistotniejsze dla funkcjonowania systemu. To znaczy takich, po których analizie można skutecznie zapobiegać błędom, a w przypadku ich wystąpienia, wykrywać je i naprawiać.

Ważnymi danymi są również te dzięki, którym można przeprowadzać ulepszenia systemu i pozytywnie wpływać na jego wydajność. Gromadzenie dużej ilości niepotrzebnych danych jest niepożądaną praktyką, która znacząco zmniejsza efektywność observability.

Po zdefiniowaniu najważniejszych metryk obserwowalnego systemu należy określić pożądane wartości oraz progi, po których przekroczeniu, dany wskaźnik zostanie uznany za nieprawidłowy.

Skupienie się na najważniejszych danych sprawia, że obserwowalność staje się wiarygodna. Duża ilość nieprawidłowości w nieistotnych dla funkcjonowania systemu metrykach nie jest większym problemem niż jeden błąd, z powodu którego system pracuje nieprawidłowo lub nie pracuje wcale.

Tworzenie obserwowalnego systemu nie sprowadza się jedynie do właściwego jego zaprojektowania. Jeśli zależy nam, żeby observability było jak maksymalnie efektywne, system musi być odpowiednio administrowany.

To na barkach administratora spoczywa wielka odpowiedzialność związana z wnikliwym analizowaniem wyników monitorowania parametrów systemu i wyciąganiem właściwych wniosków. Administrator musi umieć odróżnić ważne dla funkcjonowania całego systemu zdarzenia od tych, które tego znaczenia nie mają.

Ważną rolę odgrywa także DevOps, czyli podmiot zajmujący się komunikacją pomiędzy sektorami wytwarzania oprogramowania (Development) oraz zarządzania systemem (Operations). Observability pozwala programistom kontrolować działania podczas dostarczania produktów użytkownikom.

Dzięki temu wiadomo czy nowe zmiany w systemie nie spowodują awarii. To zadanie należy właśnie do DevOps, ponieważ dostarcza on informacje zwrotne o tym jak, gdzie i co nie działa lub działa nieprawidłowo. Dzięki DevOps można znacznie skrócić naprawianie błędów w systemie.

Ostatnim elementem, na który warto zwrócić uwagę, jest sposób rejestracji i interpretacji danych uzyskanych z raportów. Podczas zbierania danych, należy położyć nacisk na istotny aspekt, jakim jest sam sposób przesyłu danych.

Dane pobierane ręcznie do narzędzi observability, nie informują o aktualnym stanie systemu tak dobrze, jak te przekazane na przykład za pomocą data forwardera, który przesyła dane na bieżąco, stosując odpowiedni format.

Przy interpretacji danych pomocne okazują się wizualizacje na przykład w postaci tabeli, wykresów czy diagramów. Warto także odpowiednio przefiltrować dane, w celu wyłuskania tych rekordów, które dotyczą interesujących nas przestrzeni w systemie.

Wdrażanie observability

Podczas wdrażania observability najważniejszy jest wybór właściwej platformy przeznaczonej do monitorowania parametrów systemu. Wybór tego narzędzia powinien być podyktowany nie tylko aktualnymi, ale również przyszłymi potrzebami firmy.

W tym celu warto wziąć pod uwagę, jak środowisko będzie wyglądać za kilka lat i jakie będzie miało potrzeby. Nasuwa się również pytanie, który typ narzędzia będzie lepszy – open source, czy komercyjny. Zazwyczaj narzędzia komercyjne oferują więcej funkcjonalności i są wygodniejsze w użyciu. Z drugiej strony narzędzia open source nie obciążają firmy finansowo. Najważniejsze przy wyborze narzędzia powinno być przede wszystkim to, w jakim zakresie będzie ono w stanie spełniać wymagania środowiska.

Nowoczesne platformy do observability są niezwykle wydajne jeśli chodzi o monitorowanie działania systemu. Jednak w praktyce to, w jakim stopniu będą one pomocne w zarządzaniu systemem, zależy od korzystających z nich pracowników.

Brak odpowiednich szkoleń i transferu wiedzy sprawia, że pełny potencjał observability nie jest wykorzystywany. Jeśli chcemy uzyskać dobre wyniki, nie zapominajmy o inwestycji w zespół. Można zacząć od zbudowania odpowiednich kompetencji w małym teamie, który następnie pomoże przy wprowadzaniu polityki observability w firmie.

Dobrą praktyką jest również wykorzystywanie danych wyjściowych z narzędzi observability na spotkaniach firmowych, w raportach, czy prezentacjach. Przyczynia się to podniesienia umiejętności i świadomości w tym zakresie wśród członków organizacji.

Podsumowując, wdrożenie observability nie jest łatwym zadaniem, ale  zdecydowanie warto podjąć taką inicjatywę. Dzięki observability zyskujemy lepszą kontrolę nad systemem, co w konsekwencji przekłada się na zwiększenie automatyzacji, a także na poprawę wydajności i wyników finansowych firmy.

Observability i DevOps

Szybkie, niezawodne oraz bezpieczne dostarczanie oprogramowania jest podstawą transformacji technologicznej, a także wpływa na wyniki firmy. Kluczem do sukcesu jest dostępność danych o oprogramowaniu oraz sprawna komunikacja w zespole DevOps.

Observability w DevOps to przede wszystkim udostępnianie danych z obserwowalnego systemu. Głównym zadaniem observability w tej gałęzi IT jest udzielanie odpowiedzi na pytania „co nie działa?” oraz „dlaczego nie działa?”. Dzięki observability zespół DevOps otrzymuje informacje o przyczynach problemów w oprogramowaniu, co przekłada się na usprawnienie debugowania i eliminowania nieprawidłowości.

Observability i konteneryzacja

Wgląd w metryki, logi oraz usługę tracingu przynosi istotne korzyści również podczas pracy z platformami kontenerowymi. Uzyskanie informacji o tym co dzieje się nie tylko na poziomie klastra lub hosta, ale również w warstwie kontenera i aplikacji, daje szeroki wachlarz możliwości. Dzięki observability można świadomie podejmować decyzje dotyczące całego systemu.

Koncepcja observability w aplikacjach bazujących na kontenerach nie różni się mocno od tej występującej w aplikacjach tradycyjnych. Dane zbierane są zarówno w samym kontenerze, jak i w warstwie infrastruktury, w celu lepszego zarządzania zasobami. Jest to niezwykle przydatne zwłaszcza podczas skalowania aplikacji.

Observability i inżynieria oprogramowania

W dużych korporacjach zajmujących się wytwarzaniem oprogramowania observability jest jednym z najważniejszych składników sukcesu. Jest stosowane przede wszystkim do identyfikacji zachowania wytwarzanego oprogramowania i wykrywania anomalii podczas produkcji. Przyśpiesza to jego wdrażanie i zwiększa wydajność firmy.

Zbierane dane nie dotyczą jedynie aspektów technicznych, ale również doświadczenia użytkowników z tworzonym oprogramowaniem. Dzięki analizie takich danych inżynierowie mogą dowiedzieć się, w jaki sposób użytkownicy wchodzą w interakcję z ich produktem, a także uzyskać informacje na temat przyszłych innowacji i skalowalności.

Observability i systemy operacyjne

Observability jest silnie związane z systemami operacyjnymi. Monitorowanie zużycia zasobów takich jak dysk czy sieć, pozwala efektywnie zarządzać procesami. Zbieranie danych z systemu w postaci logów, czy metryk, daje administratorowi pełną kontrolę nad systemem i pomaga rozwiązywać problemy dotyczące jego funkcjonowania. Observability pomaga również dbać o bezpieczeństwo użytkowników systemu, zbierając i analizując logi dotyczące cyberataków.

Observability i bazy danych

Diagnozowanie i rozwiązywanie problemów w przypadku baz danych jest niezwykle trudnym i czasochłonnym zadaniem. Observability skupia się tutaj przede wszystkim na danych telemetrycznych. Telemetria razem z kontekstem aplikacji ułatwia zrozumienie instancji baz danych, a także pomaga w ich utrzymaniu. W obserwowalnej bazie danych łatwiej zidentyfikować problemy i tendencje ich występowania, co przekłada się na szybsze ich eliminowanie.

Dane zebrane przy pomocy observability pomagają w konfiguracji nowych instancji, w taki sposób, aby mogły zbierać odpowiednie dane już od momentu ich uruchomienia. Observability pomaga zlokalizować źródła spowolnień i przestojów w działaniu baz danych i analizować ich przyczyny. Dzieje się to dzięki zbieraniu i kontroli informacji o tabelach, polach, kolumnach, zapytaniach i wielu innych elementach.

Splunk i observability

Splunk jest narzędziem, które wprowadza observability na wyższy poziom. Platforma pozwala szybciej wykrywać i rozwiązywać problemy w systemie, co przekłada się na unikanie przestojów i poprawę wydajności. Zwiększa również wydajność operacyjną i TCO, poprzez uzyskanie lepszej widoczności i kontroli nad wykorzystaniem chmury. Co więcej, redukuje nieplanowane prace, dostarczając narzędzia do monitorowania, rozwiązywania problemów i szybkiego reagowania na błędy w systemie.

Dane zbierane przez Splunk mogą być wizualizowane w postaci tabel, zestawień, wykresów, czy map oraz zestawiane na dashboradach (panelach), które pomagają te dane zrozumieć.

Splunk Observability Cloud to narzędzie, które zostało stworzone, aby sprostać wyzwaniom związanym z monitorowaniem systemu. Jest ono bardzo pomocne przy pracy ze złożonymi systemami, które mogą generować liczne błędy. Splunk Observability Cloud dostarcza użytkownikom najlepsze narzędzia do pracy, dzięki czemu rośnie efektywność oraz wydajność organizacji.

Splunk Infrastructure Monitoring pozwala na monitorowanie dowolnego zestawu danych w dowolnej skali w czasie rzeczywistym. Splunk APM daje możliwość rozwiązywania problemów z mikroserwisami i aplikacjami dzięki rozproszonemu śledzeniu.

Splunk Log Observer umożliwia badanie i eksplorację logów bez konieczności nauki języka zapytań.

Splunk Real User Monitoring pozwala na zidentyfikowanie problemów mających wpływ na klientów, począwszy od przeglądarek internetowych i natywnych aplikacji mobilnych po usługi backend.

Splunk Synthetic Monitoring pomaga proaktywnie wykrywać i rozwiązywać problemy związane z czasem pracy, szybkością i funkcjonalnością, a także oferuje najlepsze w swojej klasie możliwości optymalizacji wydajności stron internetowych, urządzeń mobilnych i API.

Splunk zapewnia spójny i intuicyjny interfejs użytkownika. W aplikacjach zastosowane jest wyspecjalizowane słownictwo, a ich menu pozwala na szybki dostęp do wszystkich funkcjonalności. Cała aplikacja posiada dużą ilość przydatnych narzędzi, które okazują się bardzo pomocne na wielu płaszczyznach analizy i obróbki danych. Na uwagę zasługują również rozbudowane community oraz starannie przygotowana dokumentacja. Wspomniane zalety powodują, że Splunk to zdecydowanie jedno z najlepszych narzędzi observability obecnych na rynku.

Observability w Elastic

Elastic oferuje możliwość szybkiego wykrywania i usuwania błędów oraz analizy ich przyczyny w obserwowalnych systemach.

Elastic Observability pozwala na zbieranie bieżących danych i przekazywanie ich do Elasticsearch, którego funkcją jest ich przetwarzanie i analizowanie.

Następnie, dzięki narzędziu Kibana, można te dane wizualizować w wielu różnych postaciach, na przykład diagramów, map, czy wykresów.

Dedykowana do logów aplikacja Logs umożliwia analizę logów z hostów, usług i wielu innych źródeł. Logi są zbierane na żywo, a co więcej istnieje możliwość ich filtrowania, przypinania i zaznaczania tych, które nas interesują.

Metrics odpowiada za monitorowanie metryk systemu i usług z serwerów, a także za tworzenie niestandardowych grup, na przykład dostępności lub przestrzeni nazw.

Application Performance Monitoring (APM) pozwala na monitorowanie usług programistycznych i aplikacji w czasie rzeczywistym. Odbywa się to poprzez zbieranie szczegółowych informacji o wydajności dotyczących czasu odpowiedzi na żądania przychodzące, zapytania do bazy danych, wywołania do pamięci podręcznej, zewnętrzne żądania HTTP i inne.

Heartbeat jest funkcjonalnością, która daje możliwość monitoringu dostępności hostów, czasu działania usług, endpointów oraz API. Odpowiedzialna za to jest aplikacja Uptime.

Narzędzie Kibana, które jest zintegrowane z wyżej wymienionymi aplikacjami, posiada funkcję alertów oraz działań. Dzięki niej użytkownik na bieżąco otrzymuje informacje o potencjalnych problemach występujących w systemie. Kibana umożliwia centralne zarządzanie wszystkimi regułami z poziomu Kibana Management.

Elastic jest bardzo wygodnym i przyjemnym narzędziem dla użytkownika. Duża ilość dostępnych materiałów w postaci obszernej dokumentacji oraz filmów pozwala w łatwy sposób przyswoić jego obsługę. Elastic zapewnia wiele funkcjonalności niezbędnych w observability. Platforma jest w stanie sprostać oczekiwaniom nawet najbardziej wymagających analityków.

Datadog a observability

Datadog jest nowoczesnym środowiskiem przeznaczonym między innymi do observability. Daje możliwość wglądu do systemów, aplikacji i usług z poziomu jednej platformy. Dzięki Datadog można przechwytywać dane w czasie rzeczywistym z dowolnego źródła i poddawać je obserwacji i analizie.

Platforma łączy w sobie wiele przydatnych funkcjonalności:

  • kompleksowy wgląd w wydajność infrastruktury na wielu płaszczyznach;
  • obraz funkcjonowania sieci on-prem i cloud, w tym badanie wydajności warstwy aplikacji;
  • wielowymiarowy przegląd środowisk skonteneryzowanych;
  • rozwiązywaniu problemów z wydajnością aplikacji bezserwerowych;
  • przegląd oraz analizę logów i metryk w dowolnej skali.

Co więcej, Datadog daje możliwość wizualizacji zbieranych danych w postaci dashboardów, które ułatwiają analizę. Posiada również mechanizmy eliminujące wyświetlanie alertów false positive, dzięki zastosowaniu machine learningu.

Narzędzie cechuje się prostotą w obsłudze i czytelnym nawet dla wymagających użytkowników interfejsem. Umożliwia pełną swobodę działań. Metoda drag-and-drop ułatwia szybkie tworzenie dashboardów i przesyłanie danych. Dużym atutem jest również płynna nawigacja pomiędzy logami, metrykami i alertami dotyczącymi środowiska.

Observability czy monitoring?

Podstawową różnicą pomiędzy observability a monitoringiem jest przeznaczenie i zakres.

Monitoring jest procesem zbierania, analizowania oraz wykorzystywania danych, w celu określenia, w jakim stopniu program osiąga założone cele. Służy jedynie do przechwytywania i wyświetlania danych z góry określonych przez administratora.

Koncentruje się na podejmowaniu właściwych decyzji dotyczących zarządzania systemem w oparciu o obserwowane wskaźniki. Monitoring to przede wszystkim szukanie, czyli obserwowanie metryk i czekanie na nieprawidłowości, aby je wyeliminować.

Observability pozwala określić stan systemu, dzięki analizie jego wszystkich danych wejściowych oraz wyjściowych. Skupia się na wyciąganiu wniosków z danych użytecznych dla danego systemu, co służy określaniu przyczyny problemu.

Jak określić, które podejście będzie wskazane w danym przypadku?

Jeśli mamy do czynienia z systemami złożonymi z wielu komponentów, z których każdy jest w jakimś stopniu uzależniony od innego, znalezienie źródła awarii bywa problematyczne. Często nie da się przewidzieć, w którym miejscu wystąpi problem i jak będzie on oddziaływał na resztę systemu. Nowoczesne aplikacje wymagają większej przejrzystości stanu systemu, a to można osiągnąć tylko przy pomocy observability. Analiza logów, metryk oraz trace umożliwiają udzielenie odpowiedzi na każde pytanie dotyczące systemu.

W przypadku aplikacji mało złożonych monitoring jest wystarczający. Gdy przyczyny awarii są znane, a geneza problemu oczywista, monitorowanie z góry ustalonych wskaźników, pozwala wychwytywać nieprawidłowości i je eliminować.

Observability oraz monitoring często współpracują ze sobą. Głównym zadaniem monitoringu jest informowanie administratora o potencjalnym wystąpieniu problemu. Natomiast zadaniem observability wykrycie problemu i analiza jego przyczyny.

Zobacz również

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

    Skontaktuj się z nami