Pagdating sa pagsuri kung ang AWS ay gumagana nang maayos o nakakaranas ng pagkatisod, hindi sapat na tumingin lamang sa berde o pulang ilaw: Kailangan mong tumawid sa panel ng kalusugan, mga real-time na signal at mga partikular na pagsusuri ng iyong mga mapagkukunanSa pinagsamang diskarte na ito, malalaman mo kung ang problema ay pangkalahatan, panrehiyon, o nauugnay sa iyong sariling imprastraktura, at magagawa mong kumilos nang hindi kumukuha ng isang ligaw na ulos.
Sa gabay na ito, iiwan ko sa iyo ang lahat ng maayos na pagkakaayos upang suriin ang katayuan ng AWS nang may ulo: mula sa AWS Health Dashboard at ang pagsasama nito sa EventBridge, sa kung paano tingnan ang status ng pag-renew sa ACM, bigyang-kahulugan ang mga pagsusuri sa EC2, at tumugon sa mga sukatan at alarma ng CloudWatch. Malalaman mo rin kung anong mga hakbang ang gagawin kung tumangging mag-load ang console, kung paano tingnan ang page ng pampublikong status, at kung bakit kapaki-pakinabang para sa konteksto ang mga third party tulad ng Downdetector, ngunit hindi para sa automation.
AWS Health Dashboard: Ang Panimulang Punto
Ang AWS Health Dashboard ay nagpapakita ng mga outage, aktibong kaganapan, at nakaplanong pagpapanatili na maaaring makaapekto sa iyong mga serbisyo at mapagkukunan. Bahagi ito ng iyong account, hindi nangangailangan ng configuration, at nagbibigay ng contextual visibility. tungkol sa nangyayari. Kung hindi ka naka-log in sa isang partikular na instance o console, ito ang unang lugar na titingnan.
Isang detalye na madalas nakalimutan: Ang AWS ay panrehiyonPiliin ang tamang rehiyon mula sa Health panel selector, dahil kung hahanapin mo ang maling rehiyon, maaaring makaligtaan mo ang insidenteng nakakaapekto sa iyo. Pinipigilan ng katumpakang ito ang mga maling pagsusuri kapag ang problema ay limitado sa isang partikular na heyograpikong lugar.
Mula 2023, kapag nagbubukas ng pampublikong kaganapan sa panel ng Kalusugan, Ang URL ng browser ay may kasamang malalim na link sa kaganapanBinibigyang-daan ka nitong ibahagi ang eksaktong insidente na iyong tinitingnan o muling buksan ito at bumalik sa parehong view na may pop-up window na na-load, na nagpapadali sa pagtutulungan ng magkakasama sa panahon ng isang insidente.
Kung ang admin console ay hindi nagbubukas o nagbabalik ng mga error sa browser (hal., 404), huwag magmadali dito. Suriin muna kung mayroong nauugnay na aktibong kaganapan sa Health Dashboard, at pagkatapos ay ilapat ang mga lokal na hakbang tulad ng pag-clear ng cache at cookies, pagsubok ng ibang browser, at pagkumpirma sa iyong IT team na hindi hinaharangan ng iyong network ang mga domain ng Amazon (amazon.com at mga subdomain tulad ng aws.amazon.com).
Maaasahang pag-ingest ng kaganapan: Ang EventBridge ay mas mahusay kaysa sa RSS
May mga RSS feed na may mga kaganapang pangkalusugan, ngunit ang kanilang format maaaring magbago sa paglipas ng panahon at masira ang iyong mga pagsasamaAng pag-scrape o pag-asa sa RSS para sa mga kritikal na pipeline ay delikado, sa madaling salita.
Ang matatag na bagay ay ang pagsamahin AWS Health kasama ang Amazon EventBridgeSa ganitong paraan, makakatanggap ka ng mga event na may stable na schema, sa real time, at handang iruta sa Lambda, mga pila, notification, o mga internal na dashboard, na lumilikha ng iyong incident circuit na walang mga marupok na bahagi.
Sa EventBridge nakakakuha ka ng traceability at resilience: Maaari mong i-tag, pagyamanin, iugnay at i-automate ang mga tugon depende sa serbisyo, rehiyon, o epekto. At kung magbago ang mga detalye ng public feed presentation bukas, mananatiling buo ang iyong pagsasama.
ACM: Suriin ang mga pag-renew ng sertipiko nang walang anumang problema
Sa AWS Certificate Manager, maaari mong i-verify na ang iyong mga certificate ay nire-renew nang tama sa isang pinamamahalaang paraan. Kwalipikado ang isang certificate para sa awtomatikong pag-renew kapag nauugnay ito sa mga serbisyo ng AWS (halimbawa, ELB o CloudFront) o kung na-export ito mula noong inilabas o huling pag-renew nito.Ang pagiging karapat-dapat na ito ay ang pundasyon ng paglimot sa mga manu-manong pag-renew.
Kapag nagsimula ang cycle ng pag-renew, magpapakita ang ACM ng status field sa mga detalye ng certificate. Mula sa console, API o CLI maaari mong suriin ang RenewalStatus para malaman kung saan ka nakatayo. Makakakita ka rin ng mga nauugnay na status na nauugnay sa iyong Health dashboard kung mayroong anumang mga isyu na nangangailangan ng iyong pansin.
Kung mas gusto mo ang mga utos, ginagawang madali ng CLI: Ang paglalarawan-certificate na operasyon ay nagbabalik ng mga detalye, kasama ang katayuan sa pag-renew.. Halimbawa:
Halimbawa: aws acm describe-certificate --certificate-arn arn:aws:acm:REGION:ACCOUNT:certificate/CERTIFICATE_ID
Sa tugon ng JSON, tingnan ang field ng RenewalStatus. Kung hindi pa lumalabas ang field na iyon, hindi pa sinimulan ng ACM ang pinamamahalaang pag-renew.. Magandang ideya na magplano nang maaga: Sinusubukan ng ACM na awtomatikong mag-renew ng humigit-kumulang 60 araw bago mag-expire, at kung may mali (halimbawa, pagpapatunay ng domain), Makakatanggap ka ng mga abiso sa Health nang maaga: 45, 30, 15, 7, 3 at 1 araw.
Kapag hindi nagcha-charge ang console: mabilis at epektibong mga hakbang
Ang mga error sa 404 o mga pagkabigo sa koneksyon kapag ina-access ang AWS console ay karaniwang nalulusaw. Magsimula sa pamamagitan ng pagsusuri sa Health Dashboard sa rehiyon kung saan matatagpuan ang iyong mga mapagkukunan. upang i-dismiss ang isang kasalukuyang kaganapan na nakakaapekto sa serbisyo o console na iyon.
Kung walang bukas na mga insidente, ilapat ang mga lokal na hakbang: i-clear ang cache ng browser at cookies, subukang mag-log in gamit ang isa pang browser at kumpirmahin sa iyong system administrator na hindi hinaharangan ng corporate network ang amazon.com o mga subdomain tulad ng aws.amazon.com.
Ang problema ay maaaring limitado sa isang partikular na mapagkukunan. Halimbawa, ang isang EC2 instance ay maaaring sumasailalim sa nakaplanong pagpapanatili., at ipapakita sa iyo ng Health panel ang window at epekto ng kaganapang iyon. Ang pagpunta sa ugat ay nakakatipid sa iyo ng oras.
Gayundin, kung ang iyong lockout ay nasa iyong account, palaging magandang ideya na magkaroon ng mga artikulo ng tulong na madaling gamitin: Gumawa at mag-activate ng bagong account, mag-log in sa console, o humiling ng tulong.Ang pagkakaroon ng mga gabay na ito ay nakababawas sa mga oras ng paghihintay sa mga oras ng stress.
Detalyadong EC2: mga pagsusuri sa katayuan at kung ano ang gagawin kapag nabigo ang mga ito
Gumaganap ang Amazon EC2 ng mga awtomatikong pagsusuri sa bawat pagkakataon upang makita ang mga isyu sa platform o software na nakakaapekto sa iyong mga application. Ang mga pagsusuring ito ay pinapatakbo bawat minuto at minarkahan ng OK o may kapansanan depende sa kanilang resulta.. Hindi maaaring i-off ang mga ito at ito ang iyong maagang babala.
Ang bawat uri ng pag-verify ay sinusuportahan ng mga sukatan sa CloudWatch. Kung mabibigo ang isang tseke, tumataas ang nauugnay na sukatan at oras na para itaas ang alarma.Sa pamamagitan nito, maaari mong i-automate ang mga notification at pagkilos para mabawasan ang downtime.
Mga pagsusuri sa system (pinababang plataporma)
Sinusubaybayan ng mga pagsusuring ito ang imprastraktura kung saan tumatakbo ang iyong instance. Kapag nabigo sila, karaniwan itong isyu sa platform na nangangailangan ng interbensyon ng AWS o mga hakbang upang ilipat ang instance sa ibang host..
Sa mga pagkakataong sinusuportahan ng EBS, ang epektibong pagkilos ay ihinto at simulan ang instance upang ilipat ito sa isang bagong hostKung ang iyong instance ay gumagamit ng instance store (Linux), maaari mong piliing wakasan at palitan, alam na ang mga ephemeral na volume ay mawawala sa pagsara.
Ang sukatan na nagpapakita ng kabiguan na ito ay StatusCheckFailed_SystemIto ay perpekto para sa mga alarma na nagti-trigger ng mga runbook, awtomatikong pagbawi, o pagbubukas ng support case kung magpapatuloy ang sitwasyon.
Mayroong kakaiba sa Bare Metal: Ang pag-reboot mula sa operating system ay maaaring pansamantalang magdulot ng error sa pagsusuri ng system.. Kapag ang instance ay bumalik sa gumaganang ayos, ang status ay babalik sa OK nang walang karagdagang interbensyon.
Mga pagsusuri sa instance (pagkakakonekta at software)
Sinusuri ng mga pagsusuring ito ang kalusugan ng OS at network ng mismong instance. Pinapatunayan ng EC2 ang koneksyon sa pamamagitan ng pagpapadala ng mga kahilingan sa ARP sa NIC upang i-verify na ito ay tumutugon.Ang isang pagkabigo dito ay karaniwang nangangailangan ng mga pagsasaayos sa iyong pagtatapos.
Kung nabigo ang tseke, oras na para kumilos: I-reboot ang instance, suriin ang firewall/iptables, suriin ang mga log ng system, at tiyaking tumutugon ang network.Kapag software o configuration ang dahilan, hindi sapat ang paghihintay.
Ang sukatan na dapat panoorin ay StatusCheckFailed_Instance. Gamitin ito upang mag-trigger ng mga alarma na nagpapatakbo ng mga diagnostic procedure (pagkolekta ng mga log, kinokontrol na pag-reboot, o pag-rollback kung matukoy mong hindi ito bumabawi).
Muli, sa Bare Metal, maaaring lumitaw ang isang pansamantalang error kapag nagre-reboot mula sa OS. Kapag nakumpleto ng instance ang pag-boot, ang mga tseke ay karaniwang bumalik sa OK., kaya huwag mag-panic.
EBS Attached Checks (I/O on Volumes)
Ang mga pagsusuring ito ay nagpapatunay kung ang mga nakalakip na volume ng EBS ay naa-access at maaaring kumpletuhin ang mga pagpapatakbo ng input/output. Ang StatusCheckFailed_AttachedEBS binary metric ay nagpapahiwatig ng pagkasira kapag nabigo ang isa o higit pang volume..
Ang isang error sa harap na ito ay maaaring dahil sa pinagbabatayan na mga problema sa computational o mga isyu sa EBS. Maaari mong asahan ang pagpapagaan mula sa AWS o kumilos: Palitan ang mga volume, ihinto at simulan ang instance para ilipat ito sa ibang host, o suriin ang IOPS sizing kung makakita ka ng mga bottleneck.
Kung ang iyong load ay hindi gumagawa ng I/O ngunit lumalabas ang pagkasira, Maaaring malutas ng isang stop and start cycle ang mga isyu sa host na nakakaapekto sa dami ng accessibility.. Kumpletuhin ang mga native na sukatan ng EBS sa CloudWatch upang matukoy ang mga hindi magandang pattern ng performance.
Sa mga pangkat ng Auto Scaling, i-configure ang patakaran sa Alisin ang mga instance na may paulit-ulit na pagkabigo sa naka-attach na EBS checkPananatilihin mong malusog ang iyong fleet nang walang manu-manong interbensyon at maiiwasan ang matagal na downtime.
Mga Alarm at Automation: CloudWatch + Auto Scaling
Sa lahat ng sukatan ng kalusugan, ang CloudWatch ay nagiging iyong nervous system. Tukuyin ang mga limitasyon, gumawa ng mga alarm, at mag-orkestrate ng mga pagkilos: mga notification, Lambda, pagbawi o pagpapalit ng instance. Ito ang batayan para sa awtomatiko at pare-parehong mga tugon.
Kung kailangan mo ng pagpapatuloy ng negosyo, isaalang-alang ang pag-automate at palitan ang: Maaaring ihinto ng Auto Scaling ang mga nabigong pagkakataon at maglunsad ng mga bago, habang ina-activate ng iyong mga alarm ang naaangkop na mga channel ng notification (email, Slack, PagerDuty o anumang ginagamit mo).
Ang kumpletong view ay nagmumula sa mga pinagmumulan ng pag-uugnay: CloudWatch metrics at logs, traces, at AWS Health na mga kaganapan sa pamamagitan ng EventBridgeGamit ang tile na ito, matutukoy mo kung ang problema ay nasa iyong app, ang instance, ang volume, o ang platform, at makakapag-react ka nang tumpak.
Opisyal at kontekstwal na mga mapagkukunan upang malaman kung nabigo ang AWS
Kapag kumakalat ang mga alingawngaw ng isang pagkahulog — tulad ng AWS global outage na nagdulot ng malalaking kabiguan—, ang mainam ay unahin ang mga opisyal na mapagkukunan. Tingnan ang pampublikong page status.aws.amazon.com upang makita ang katayuan ayon sa serbisyo at rehiyon., at gamitin ang AWS Health Dashboard kung naka-sign in ka para sa impormasyong tukoy sa account.
Nagbibigay ang mga third-party na mapagkukunan ng karagdagang konteksto at senyales sa lipunan. Ang Downdetector ay nagpapakita ng mga spike sa mga ulat ng user, at ang The Stack Status ay nagbubuod sa status ng ilang provider.Kapaki-pakinabang ang mga ito para sa pagtatantya ng abot, bagama't hindi nila pinapalitan ang mga opisyal na channel.
Gayunpaman, nakikilala nito ang visibility at automation. Para sa programmatic na pag-ingest ng kaganapan, ang EventBridge ay mas mahusay kaysa sa mga RSS feed o pag-scrape., dahil ang mga panlabas na format ay maaaring magbago at mag-iwan sa iyo sa gitna ng isang insidente.
Kung gaano kalaki ang nakikita at kung ano ang maaari mong asahan
Ang mga pangunahing insidente ay may posibilidad na puro sa mga rehiyong madalas ginagamit (gaya ng US East Coast), at Nararamdaman ang epekto sa mga chain: storage, computing, database o DNSKaraniwang makakita ng mga serbisyo tulad ng S3, EC2, RDS, Route 53, o Kinesis na nakalista sa mga apektado ng mga spike ng error.
Sa mga kasong ito, maaaring makaranas ng latency, mga error sa pagpapatotoo, at mga paulit-ulit na pagkabigo ang mga streaming company, mga tool sa pakikipagtulungan, e-commerce, o mobile app. Ang pattern ay hindi pantay: ito ay gumagana para sa ilang mga gumagamit, hindi para sa iba., ayon sa mga ruta, mga punto ng presensya at mga aktibong rehiyon.
Ang mga opisyal na channel ay karaniwang naglalathala ng mga regular na update: Paunang pagtukoy sa dahilan (hal., mga isyu sa paglutas ng DNS sa isang API), pag-deploy ng mga pagpapagaan, at muling subukan ang mga rekomendasyonHabang umuusad ang pagbawi, bumababa ang mga error at bumalik sa normal ang trapiko.
Sa ilang partikular na bansa o sektor, makakakita ka ng mga headline tungkol sa mga partikular na serbisyong apektado. Maaaring maapektuhan ang mga platform gaya ng Netflix, Disney+, Slack, mga bangko o napakasikat na app kapag naghihirap ang rehiyon kung saan sila umaasa, at maging ang mga negosyo sa LATAM (gaya ng iFood, Mercado Livre o PicPay sa mga nakaraang insidente) ay naramdaman ang pagyanig.
Epekto sa ekonomiya at reputasyon ng pagkahulog
Higit pa sa teknikal na bahagi, ang isang cloud outage ay may tunay na gastos: Mga pagkalugi kada minuto, sobrang kargang suporta, nabigo na mga customer, at presyon ng mediaAng epekto ng network ay pinalalakas ng sentralisasyon ng ilang mga haligi ng Internet.
Alam na alam ito ng mga organisasyong nagpapatakbo ng mga kritikal na serbisyo: Kung paulit-ulit ang mga kabiguan, ang tiwala ay masisira at ang pagbawi sa imahe ng tatak ay nagkakahalaga ng higit sa teknikal na pagkukumpuni mismo.
Ang mga krisis na ito ay nagdadala sa talahanayan ng isang malinaw ngunit hindi komportable na aral: tayo ay lubos na umaasa sa mga shared infrastructureHindi na opsyonal ang pagdidisenyo para sa katatagan at makatotohanang pagkabigo.
Mga diskarte para mas maging matatag sa susunod na pangyayari
Kung hindi maisara ang iyong negosyo, may mga taktika na nagpapababa ng panganib sa pagpapatakbo. Isaalang-alang ang isang multi-region na arkitektura upang ipamahagi ang load sa pagitan ng iba't ibang AWS zone. at iwasan ang isang punto ng geographic na kabiguan.
Kapag nabigyang-katwiran ito ng use case, suriin ang multi-cloud. Ang pamamahagi ng pangunahing functionality sa isa pang provider (Azure, GCP) ay nagbibigay sa iyo ng safety net., bagama't nagsasangkot ito ng higit na kumplikado at mga gastos sa koordinasyon.
Sa layer ng paghahatid, nakakatulong ang isang mahusay na na-configure na CDN sa mga bagyo sa panahon. Nagbibigay-daan sa iyo ang mga serbisyo tulad ng CloudFront o mga alternatibo tulad ng Cloudflare na maghatid ng static na content kahit na natitisod ang iyong pinanggalingan., na nagbibigay ng pahinga sa mga user at system.
Wala sa mga ito ang gumagana nang walang organisasyon: Tukuyin ang isang plano sa pagtugon sa insidente na may mga tungkulin, channel, pagdami, at panlabas na komunikasyonSa mainit na sandali, ang kalinawan ay nakakatipid ng mahalagang minuto.
Pinakamahuhusay na kagawian para sa pagsuri sa katayuan ng AWS nang hindi nawawala
Centraliza la observabilidad: Gamitin ang AWS Health Dashboard para sa konteksto ng platform at CloudWatch para sa mga sukatan ng pagpapatakboPinipigilan ka ng dalawahang diskarte na ito na mabulag ng anumang isang layer.
Gamit ang mga sertipiko, i-automate. Subaybayan ang RenewalStatus sa ACM at tumugon sa dumaraming mga alerto mula sa dashboard ng Health para hindi umabot sa expiration date sa maling paa.
Magtakda ng mga alarma sa mga pangunahing sukatan ng EC2. Ang StatusCheckFailed_System, StatusCheckFailed_Instance at StatusCheckFailed_AttachedEBS ay mahalaga, na nauugnay sa mga pagkilos sa pagbawi, pag-restart, failover, o pagpapalit sa pamamagitan ng Auto Scaling, ayon sa iyong SLA.
At kung lumalaban ang console, tandaan ang checklist: Suriin ang mga kaganapan sa Kalusugan sa tamang rehiyon, i-clear ang iyong cache at cookies, palitan ang iyong browser, at kumpirmahin sa IT na hindi naka-block ang mga AWS domain. Ang mga simpleng tseke na ito ay nakakalutas ng higit sa iyong iniisip.
Mga Kaugnay na Mapagkukunan at Tulong sa Account
Upang palawakin at palakasin ang iyong mga operasyon, suriin ang dokumentasyon para sa mga serbisyong kasangkot. AWS Health at EventBridge para sa pagruruta ng kaganapan, ACM para sa mga pag-renew, at ang CloudWatch/EC2 reference para sa mga sukatan at pagkilos., bumuo ng isang makapangyarihang kit.
- Dashboard ng AWS Health: Pagpapakita ng mga kaganapang pampubliko at partikular sa account, nang walang kinakailangang karagdagang configuration.
- Amazon EventBridge: Maaasahang pag-ingest ng mga kaganapang pangkalusugan na may mga naiaangkop na panuntunan para sa pagruruta sa maraming destinasyon.
- AWS Certificate Manager (ACM): Pagsubaybay sa status ng pag-renew at mga staggered na notification bago mag-expire.
- Amazon EC2 + CloudWatch: Mga pagsusuri bawat minuto, mga sukatan ng katayuan, at mga alarma na nagpapalitaw ng mga awtomatikong tugon.
Kung mayroon kang mga tanong tungkol sa pag-access o pamamahala sa iyong account, mangyaring sumangguni sa mga pinakakaraniwang artikulo ng suporta: Paano gumawa at mag-activate ng bagong account, kung paano mag-log in sa console, at kung paano humiling ng tulong sa iyong account at mga mapagkukunan.. Ang pagkakaroon ng mga ito na matatagpuan ay nagpapabilis sa proseso kapag ang isang bagay ay hindi magkasya.
Ang pagtingin sa isang panel ay hindi kailanman nagsasabi ng buong kuwento: Ang pagsuri sa kalusugan ng AWS ay nangangailangan ng pagsasama-sama ng konteksto ng Health Dashboard, maaasahang pag-ingest gamit ang EventBridge, mga signal ng ACM, at mga pagsusuri sa EC2.Sa mga alarma na pinag-isipang mabuti at malinaw na mga playbook, mas maagang dumating ang mga diagnosis, mas tumpak ang mga tugon, at nagiging mas maayos ang mga operasyon kahit na tumaas ang trapiko o may mga kaguluhan sa rehiyon.
