AWS būsenos tikrinimas: praktinis vadovas, kaip išlikti teisingame kelyje

  • AWS sveikatos ataskaitų suvestinės prioritetizavimas pagal regioną ir papildymas status.aws.amazon.com bei kontekstiniais šaltiniais.
  • Įkelkite sveikatos įvykius naudodami „EventBridge“ ir automatizuokite atsakymus naudodami „CloudWatch“ ir automatinį mastelio keitimą.
  • Stebėkite atnaujinimus ACM („RenewalStatus“) ir reaguokite į laipsniškus pranešimus prieš jiems pasibaigiant galiojimo laikui.
  • Interpretuoja EC2 patikras (sistemos, egzemplioriaus, EBS) ir apibrėžia veiksmus gedimų atveju.

Patikrinkite AWS būseną

Kai reikia patikrinti, ar AWS veikia gerai, ar patiria strigimą, nepakanka tiesiog pažvelgti į žalią arba raudoną šviesoforo signalą: Turite peržiūrėti sveikatos skydelį, realaus laiko signalus ir konkrečias savo išteklių apžvalgas.Taikydami šį bendrą metodą, žinosite, ar problema yra bendro pobūdžio, regioninė, ar susijusi su jūsų infrastruktūra, ir galėsite imtis veiksmų nebandydami staigmenų.

Šiame vadove pateiksiu viską, kas gerai struktūrizuota, kad galėtumėte patikrinti AWS būseną su antrašte: iš AWS sveikatos valdymo skydelio ir jo integracijos su „EventBridge“, kaip peržiūrėti atnaujinimo būseną ACM, interpretuoti EC2 patikrinimus ir reaguoti naudojant „CloudWatch“ metriką bei pavojaus signalus. Taip pat sužinosite, kokių veiksmų imtis, jei konsolė atsisako įkelti, kaip patikrinti viešosios būsenos puslapį ir kodėl trečiųjų šalių programos, tokios kaip „Downdetector“, yra naudingos kontekstui, bet ne automatizavimui.

AWS sveikatos ataskaitų suvestinė: atspirties taškas

„AWS Health“ ataskaitų suvestinėje rodomi sutrikimai, aktyvūs įvykiai ir planuojama priežiūra, kurie gali turėti įtakos jūsų paslaugoms ir ištekliams. Tai yra jūsų paskyros dalis, nereikalauja jokios konfigūracijos ir suteikia kontekstinį matomumą. apie tai, kas vyksta. Jei nesate prisijungę prie konkrečios instancijos ar konsolės, pirmiausia turėtumėte tai patikrinti.

Dažnai pamirštama detalė: AWS yra regioninisPasirinkite tinkamą regioną iš sveikatos skydelio parinkiklio, nes jei ieškosite netinkamo regiono, galite nepastebėti jus paveikusio incidento. Toks tikslumas apsaugo nuo klaidingų diagnozių, kai problema apsiriboja konkrečia geografine vietove.

Nuo 2023 m., atidarant viešą renginį Sveikatos forume, Naršyklės URL adrese yra gilioji nuoroda į įvykįTai leidžia bendrinti konkretų peržiūrimą incidentą arba jį atidaryti iš naujo ir grįžti į tą patį rodinį su įkeltu iššokančiuoju langu, taip palengvinant komandinį darbą incidento metu.

Jei administratoriaus konsolė neatsidaro arba pateikia naršyklės klaidas (pvz., 404), neskubėkite. Pirmiausia patikrinkite, ar sveikatos ataskaitų suvestinėje yra atitinkamas aktyvus įvykis., o tada pritaikykite vietines priemones, pvz., išvalykite talpyklą ir slapukus, išbandykite kitą naršyklę ir patvirtinkite su IT komanda, kad jūsų tinklas neblokuoja „Amazon“ domenų (amazon.com ir subdomenų, pvz., aws.amazon.com).

Patikimas įvykių įvedimas: „EventBridge“ yra geresnis nei RSS

Yra RSS kanalų su sveikatos įvykiais, tačiau jų formatas laikui bėgant gali keistis ir sugadinti jūsų integracijasŠvelniai tariant, rizikinga naudoti arba pasikliauti RSS kritiniams vamzdynams.

Tvirtas dalykas yra integruotis AWS Health su „Amazon EventBridge“Tokiu būdu gausite įvykius su stabilia schema, realiuoju laiku ir paruoštus nukreipti į „Lambda“, eiles, pranešimus arba vidines ataskaitų suvestines, sukurdami incidentų grandinę be trapių dalių.

Su „EventBridge“ užtikrinate atsekamumą ir atsparumą: Galite žymėti, praturtinti, susieti ir automatizuoti atsakymus priklausomai nuo paslaugos, regiono ar poveikio. Ir jei viešojo sklaidos kanalo pateikimo informacija rytoj pasikeis, jūsų integracija išliks nepakitusi.

ACM: Peržiūrėkite sertifikatų atnaujinimus be jokių problemų

Naudodami AWS sertifikatų tvarkyklę galite patikrinti, ar jūsų sertifikatai atnaujinami teisingai ir valdomu būdu. Sertifikatas gali būti automatiškai atnaujinamas, kai jis susietas su AWS paslaugomis (pvz., ELB arba „CloudFront“) arba jei jis buvo eksportuotas nuo išdavimo ar paskutinio atnaujinimo.Šis tinkamumas yra kertinis akmuo, leidžiantis pamiršti apie rankinį atnaujinimą.

Kai prasideda atnaujinimo ciklas, ACM sertifikato išsamioje informacijoje rodo būsenos lauką. Konsolėje, API arba CLI galite patikrinti atnaujinimo būseną. kad žinotumėte savo padėtį. Taip pat matysite atitinkamas būsenas, susijusias su jūsų sveikatos ataskaitų suvestine, jei yra kokių nors problemų, į kurias reikia atkreipti dėmesį.

Jei pageidaujate komandų, CLI tai palengvina: Operacija „describe-certificate“ grąžina išsamią informaciją, įskaitant atnaujinimo būseną.. Por ejemplo:

pavyzdys: aws acm describe-certificate --certificate-arn arn:aws:acm:REGION:ACCOUNT:certificate/CERTIFICATE_ID

JSON atsakyme peržiūrėkite lauką „RenewalStatus“. Jei tas laukas dar neatsiranda, ACM nepradėjo valdomo atnaujinimo.Gera idėja planuoti iš anksto: ACM bando automatiškai atnaujinti maždaug 60 dienų iki galiojimo pabaigos, o jei kas nors nepavyksta (pavyzdžiui, domeno patvirtinimas), Pranešimus sveikatos programoje gausite iš anksto: 45, 30, 15, 7, 3 ir 1 dieną.

Kai konsolė neįkraunama: greiti ir veiksmingi veiksmai

404 klaidos arba ryšio sutrikimai bandant pasiekti AWS konsolę paprastai yra išsprendžiami. Pradėkite peržiūrėdami sveikatos ataskaitų suvestinę regione, kuriame yra jūsų ištekliai. , kad atmestumėte vykstantį įvykį, turintį įtakos tai paslaugai ar konsolei.

Jei nėra atvirų incidentų, taikomos vietinės priemonės: išvalyti naršyklės talpyklą ir slapukus, pabandykite prisijungti naudodami kitą naršyklę ir pasiteiraukite sistemos administratoriaus, ar įmonės tinklas neblokuoja amazon.com ar subdomenų, tokių kaip aws.amazon.com.

Problema gali apsiriboti konkrečiu ištekliumi. Pavyzdžiui, EC2 egzemplioriui gali būti atliekama planinė techninė priežiūra., o sveikatos skydelyje bus rodomas to įvykio laikotarpis ir poveikis. Pereinant prie šakninio katalogo, sutaupote laiko.

Be to, jei jūsų paskyra užblokuota, visada pravartu turėti po ranka pagalbos straipsnius: Sukurkite ir aktyvuokite naują paskyrą, prisijunkite prie konsolės arba paprašykite pagalbos.Šių gidų buvimas sutrumpina laukimo laiką stresiniais laikotarpiais.

EC2 išsamiai: būsenos patikrinimai ir ką daryti, kai jie nepavyksta

„Amazon EC2“ atlieka automatinius patikrinimus kiekvienam egzemplioriui, kad aptiktų platformos ar programinės įrangos problemas, turinčias įtakos jūsų programoms. Šie patikrinimai atliekami kas minutę ir, priklausomai nuo jų rezultato, pažymimi kaip „gerai“ arba „sutrikusi“.Jų negalima išjungti ir jie yra jūsų ankstyvas įspėjimas.

Kiekvieną patvirtinimo tipą palaiko „CloudWatch“ metrikos. Jei patikra nepavyksta, susijusi metrika padidėja ir laikas įjungti aliarmą.Tai leidžia automatizuoti pranešimus ir veiksmus, kad sumažėtų prastovų laikas.

Sistemos patikrinimai (pagrindinė platforma)

Šie patikrinimai stebi infrastruktūrą, kurioje veikia jūsų egzempliorius. Kai jie sugenda, paprastai tai yra platformos problema, kuriai reikia AWS įsikišimo arba priemonių perkelti egzempliorių į kitą pagrindinį kompiuterį..

EBS palaikomais atvejais veiksmingi veiksmai yra sustabdyti ir paleisti egzempliorių, kad jį perkeltumėte į naują kompiuterįJei jūsų egzempliorius naudoja egzempliorių saugyklą („Linux“), galite pasirinkti nutraukti ir pakeisti, žinodami, kad išjungimo metu trumpalaikiai tomai prarandami.

Šią nesėkmę atspindintis rodiklis yra Sistemos būsenos patikrinimas nepavykoTai puikiai tinka signalams, kurie suaktyvina operacijų knygas, automatiniam atkūrimui arba palaikymo bylos atidarymui, jei situacija išlieka.

Yra viena „Bare Metal“ ypatybė: Perkrovus sistemą iš operacinės sistemos, gali laikinai įvykti sistemos patikros klaida.Kai egzempliorius vėl veiks, būsena grįš į „Gerai“ be tolesnio įsikišimo.

Egzempliorių patikrinimai (ryšys ir programinė įranga)

Šie patikrinimai analizuoja pačios instancijos OS ir tinklo būklę. EC2 patvirtina ryšį siųsdamas ARP užklausas tinklo adapteriui, kad patikrintų, ar jis atsako.Dėl šios priežasties gedimas paprastai reikalauja jūsų korekcijų.

Jei patikrinimas nepavyksta, laikas veikti: Perkraukite instanciją, patikrinkite užkardą / „iptables“, sistemos žurnalus ir įsitikinkite, kad tinklas reaguoja.Kai priežastis yra programinė įranga arba konfigūracija, laukti nepakanka.

Stebėtinas rodiklis yra StatusCheckFailed_InstanceNaudokite jį signalizacijai, kuri vykdo diagnostines procedūras (rinkti žurnalus, valdyti perkrovimus arba atšaukti veiksmus, jei aptinkate, kad sistema neatsistato), sukelti.

Vėlgi, „Bare Metal“ sistemoje paleidus iš naujo iš OS, gali atsirasti laikina klaida. Kai egzempliorius baigia paleisti, normalu, kad patikrinimai grįžta į „Gerai“., tad nepanikuokite.

EBS prijungti patikrinimai (įvesties/išvesties duomenys tomuose)

Šie patikrinimai patvirtina, ar prijungti EBS tomai yra pasiekiami ir ar juose galima atlikti įvesties / išvesties operacijas. Dvejetainė metrika „StatusCheckFailed_AttachedEBS“ rodo pablogėjimą, kai sugenda vienas ar keli tomai..

Šioje srityje klaida gali būti dėl pagrindinių skaičiavimo problemų arba EBS problemų. Galite tikėtis AWS sušvelninimo arba imtis veiksmų: Pakeiskite tomus, sustabdykite ir paleiskite egzempliorių, kad jį perkeltumėte į kitą pagrindinį kompiuterį, arba peržiūrėkite IOPS dydį, jei pastebite kliūčių.

Jei jūsų apkrova neatlieka įvesties/išvesties, bet matomas pablogėjimas, Sustabdymo ir paleidimo ciklas gali išspręsti pagrindinio kompiuterio problemas, kurios turi įtakos prieinamumui.Papildykite juos vietinėmis EBS metrikomis „CloudWatch“, kad aptiktumėte prasto našumo modelius.

Automatinio mastelio keitimo grupėse sukonfigūruokite politiką taip, kad ji būtų Pašalinkite egzempliorius su nuolatiniais gedimais pridėtame EBS patikrinimeJūs išlaikysite savo transporto parką sveiką be rankinio įsikišimo ir išvengsite ilgų prastovų.

Signalizacijos ir automatizavimas: „CloudWatch“ + automatinis mastelio keitimas

Su visais sveikatos rodikliais „CloudWatch“ tampa jūsų nervų sistema. Apibrėžkite slenksčius, sukurkite signalus ir koordinuokite veiksmus: pranešimus, „Lambda“, egzemplioriaus atkūrimą arba pakeitimąTai yra automatinių ir nuoseklių reakcijų pagrindas.

Jei jums reikia verslo tęstinumo, apsvarstykite galimybę automatizuoti ir pakeisti: Automatinis mastelio keitimas gali pašalinti nepavykusius egzempliorius ir paleisti naujus, o jūsų signalai aktyvuoja atitinkamus pranešimų kanalus (el. paštą, „Slack“, „PagerDuty“ ar bet kurį kitą jūsų naudojamą kanalą).

Visas vaizdas pateiktas iš atitinkamų šaltinių: „CloudWatch“ metrika ir žurnalai, pėdsakai ir AWS Health įvykiai per „EventBridge“Naudodami šią plytelę galėsite atskirti, ar problema susijusi su jūsų programa, egzemplioriumi, tomu, ar platforma, ir galėsite tiksliai reaguoti.

Oficialūs ir kontekstiniai šaltiniai, norint sužinoti, ar AWS neveikia

Kai sklando gandai apie kritimą – pavyzdžiui, AWS pasaulinis sutrikimas ...kuris sukėlė didžiulių nesėkmių, idealu būtų teikti pirmenybę oficialiems šaltiniams. Norėdami pamatyti būseną pagal paslaugą ir regioną, patikrinkite viešąjį puslapį status.aws.amazon.com.ir, jei esate prisijungę, naudokite „AWS Health“ ataskaitų sritį, kad gautumėte konkrečios paskyros informaciją.

Trečiųjų šalių šaltiniai teikia papildomą socialinį kontekstą ir signalus. „Downdetector“ atspindi vartotojų ataskaitų šuolius, o „The Stack Status“ apibendrina kelių tiekėjų būseną.Jie naudingi apžvelgiant pasiekiamumą, nors ir nepakeičia oficialių kanalų.

Tačiau tai skiria matomumą ir automatizavimą. Programiniam įvykių perdavimui „EventBridge“ yra geresnis pasirinkimas nei RSS sklaidos kanalai ar duomenų išgavimas., nes išoriniai formatai gali pasikeisti ir palikti jus incidento sūkuryje.

Kaip pasireiškia dideli kritimai ir ko galite tikėtis

Dideli incidentai paprastai sutelkti intensyviai naudojamuose regionuose (pvz., JAV rytinėje pakrantėje) ir Poveikis jaučiamas grandinėse: saugykloje, skaičiavimuose, duomenų bazėse ar DNS.Neretai tarp klaidų šuolių paveiktų paslaugų, tokių kaip S3, EC2, RDS, 53 maršrutas ar „Kinesis“, galima rasti.

Tokiais atvejais srautinio perdavimo įmonės, bendradarbiavimo įrankiai, el. prekyba ar mobiliosios programėlės gali susidurti su delsa, autentifikavimo klaidomis ir protarpiniais gedimais. Modelis yra netolygus: vieniems vartotojams jis tinka, kitiems – ne., pagal maršrutus, buvimo taškus ir aktyvius regionus.

Oficialūs kanalai paprastai skelbia reguliarius atnaujinimus: Preliminarus priežasties nustatymas (pvz., DNS sprendimo problemos API sąsajoje), problemų sprendimo priemonių diegimas ir pakartotinio bandymo rekomendacijosAtkuriant duomenis, klaidų mažėja, o srautas grįžta į normalias vėžes.

Tam tikrose šalyse ar sektoriuose matysite antraštes apie konkrečias paveiktas paslaugas. Gali būti paveiktos tokios platformos kaip „Netflix“, „Disney+“, „Slack“, bankai ar labai populiarios programėlės. kai kenčia regionas, nuo kurio jie priklauso, ir net LATAM įmonės (pvz., „iFood“, „Mercado Livre“ ar „PicPay“ ankstesnių incidentų metu) pajuto šį pojūtį.

Kritimo ekonominis ir reputacinis poveikis

Be techninės pusės, debesijos sutrikimo kaina yra reali: Nuostoliai per minutę, perkrauta palaikymo komanda, nusivylę klientai ir žiniasklaidos spaudimasTinklo efektą sustiprina tam tikrų interneto ramsčių centralizavimas.

Organizacijos, teikiančios kritines paslaugas, tai puikiai žino: Jei nesėkmės kartojasi, pasitikėjimas mažėja ir prekės ženklo įvaizdžio atkūrimas kainuoja daugiau nei pats techninis remontas.

Šios krizės pateikia akivaizdžią, bet nemalonią pamoką: Mes labai priklausome nuo bendros infrastruktūrosAtsparumo projektavimas ir realistiškų gedimo prielaidų laikymasis nebėra pasirinktinas.

Strategijos, kaip būti atsparesniems kitam incidentui

Jei jūsų verslo negalima uždaryti, yra taktikų, kurios sumažina operacinę riziką. Apsvarstykite kelių regionų architektūrą, skirtą apkrovai paskirstyti tarp skirtingų AWS zonų. ir išvengti vieno geografinio gedimo taško.

Kai naudojimo atvejis tai pateisina, įvertinkite kelių debesų kompiuteriją. Pagrindinių funkcijų perdavimas kitam tiekėjui („Azure“, GCP) suteikia jums saugumo garantiją., nors tai susiję su didesniu sudėtingumu ir koordinavimo sąnaudomis.

Pristatymo sluoksnyje gerai sukonfigūruotas CDN padeda atlaikyti audras. Tokios paslaugos kaip „CloudFront“ arba alternatyvos, tokios kaip „Cloudflare“, leidžia pateikti statinį turinį, net jei jūsų šaltinis stringa., suteikdami vartotojams ir sistemoms pertrauką.

Niekas iš to neveikia be organizacijos: Apibrėžkite incidentų reagavimo planą su vaidmenimis, kanalais, eskalavimu ir išorine komunikacijaKarštomis akimirkomis aiškumas taupo brangias minutes.

Geriausia AWS būsenos tikrinimo praktika nepasiklystant

Centralizuoti stebėjimo galimybes: Naudokite „AWS Health“ ataskaitų sritį platformos kontekstui ir „CloudWatch“ operaciniams rodikliamsŠis dvigubas požiūris neleidžia jums užklupti nė vieno sluoksnio.

Su sertifikatais, automatizuokite. Stebėkite atnaujinimo būseną ACM sistemoje ir reaguokite į eskaluojančius įspėjimus iš sveikatos ataskaitų srities. kad nepasiektų galiojimo datos netinkama koja.

Nustatykite pagrindiniams EC2 rodikliams skirtus pavojaus signalus. „StatusCheckFailed_System“, „StatusCheckFailed_Instance“ ir „StatusCheckFailed_AttachedEBS“ yra būtini., susieti su atkūrimo, paleidimo iš naujo, gedimų šalinimo arba pakeitimo veiksmais naudojant automatinį mastelio keitimą, atsižvelgiant į jūsų SLA.

Ir jei konsolė priešinasi, prisiminkite kontrolinį sąrašą: Patikrinkite sveikatos įvykius tinkamame regione, išvalykite talpyklą ir slapukus, pakeiskite naršyklę ir patvirtinkite IT skyriuje, kad AWS domenai nėra užblokuoti. Šie paprasti patikrinimai išsprendžia daugiau problemų, nei manote.

Susiję ištekliai ir pagalba paskyroje

Norėdami išplėsti ir sustiprinti savo veiklą, peržiūrėkite susijusių paslaugų dokumentus. „AWS Health“ ir „EventBridge“ įvykių maršrutizavimui, ACM atnaujinimams ir „CloudWatch/EC2“ nuoroda metrikoms ir veiksmams., sudaro galingą rinkinį.

  • AWS sveikatos valdymo skydelisViešų ir su paskyra susijusių įvykių matomumas be jokios papildomos konfigūracijos.
  • „Amazon EventBridge“.Patikimas sveikatos įvykių įvedimas su lanksčiomis maršruto parinkimo į kelias paskirties vietas taisyklėmis.
  • AWS sertifikatų tvarkyklė (ACM): Atnaujinimo būsenos stebėjimas ir laipsniški pranešimai prieš galiojimo pabaigą.
  • „Amazon EC2“ + „CloudWatch“Patikrinimų skaičius per minutę, būsenos metrika ir automatinius atsakymus sukeliantys signalai.

Jei turite klausimų apie paskyros pasiekimą ar valdymą, žr. dažniausiai naudojamus pagalbos straipsnius: Kaip sukurti ir aktyvinti naują paskyrą, kaip prisijungti prie konsolės ir kaip paprašyti pagalbos dėl paskyros ir išteklių.Jų radimas pagreitina procesą, kai kažkas netinka.

Pažvelgus į vieną skydelį, niekada nepasakoma visa istorija: AWS sveikatos patikrinimas reikalauja sujungti sveikatos ataskaitų suvestinės kontekstą, patikimą įkėlimą į „EventBridge“, ACM signalus ir EC2 patikrinimus.Gerai apgalvoti pavojaus signalai ir aiškūs veiksmų planai leidžia diagnozuoti greičiau, reaguoti tiksliau, o operacijos tampa daug sklandesnės net ir padidėjus eismui ar kilus neramumams regione.

„Amazon Web Services“ (AWS) neveikia visame pasaulyje
Susijęs straipsnis:
Visuotinis AWS sutrikimas sukėlė didžiulius svetainių, programėlių ir mokėjimų sutrikimus