Nagdudulot ng malaking pagkawala ng website, app, at pagbabayad ang pandaigdigang AWS outage

  • Ang pagkabigo sa US-EAST-1 (Northern Virginia) ay nagdudulot ng mga error at latency sa maraming serbisyo ng AWS.
  • Natukoy ang mga insidente sa pagitan ng 08:40 at 09:00 (oras ng peninsular) at nakumpirma ng Amazon makalipas ang ilang sandali.
  • Mga pangunahing platform na apektado: Alexa, Prime Video, Fortnite, Roblox, Canva, Duolingo, Reddit, bukod sa iba pa.
  • Tinatalakay ng AWS ang mga palatandaan ng pagbawi at nagrerekomenda ng muling pagsubok ng mga operasyon; pagpapagaan ng isyu sa DNS na nauugnay sa DynamoDB.

AWS Cloud Service Disruption

Isang malawak na pagkagambala sa Amazon Web Services (AWS) Ngayong umaga, ang virus ay nagdulot ng malakihang pagkabigo sa dose-dosenang mga application, website, at digital na serbisyo sa buong mundo. Ang mga unang babala ay naitala. mula 08:40-09:00 (oras ng peninsular), na may partikular na epekto sa mga serbisyong nakadepende sa rehiyon ng US-EAST-1.

Ang pagbaba ay hindi limitado sa isang produkto: mula sa mga voice assistant at streaming hanggang sa mga tool sa pagiging produktibo, mga social network at mga video game. Sa Spain, naiulat din ang mga insidente sa bayad sa card at Bizum, kasama ang mga problema sa mga data phone at ilang ATM, isang epekto na nag-iwan sa maraming negosyo na pansamantalang gumamit ng pera.

Kung ano ang nangyayari ngayon

Nakilala ng Amazon sa status panel nito a maanomalyang pagtaas ng mga error at latency sa iba't ibang serbisyong naka-host sa rehiyon US-EAST-1 (Northern Virginia)Tinitiyak ng kumpanya na ang mga technical team nito ay nagsisikap na maibalik ang normalidad at na, habang lumilipas ang mga oras, Ang mga makabuluhang palatandaan ng pagbawi ay sinusunod sa karamihan ng mga kahilingan.

Sa buong umaga mayroong ilang mga update: una ang insidente ay nakumpirma (minuto pagkatapos ng 09:00), pagkatapos ay ipinaalam na Karamihan sa mga operasyon ay dapat magsimulang matagumpay na maproseso, at sa kalaunan ay ipinahiwatig na ang pinagmulan ng mga problema ay nauugnay sa ang DNS resolution na nauugnay sa DynamoDBAng pagpapagaan sa puntong iyon ay nagpabuti sa sitwasyon, bagama't maaari pa ring lumitaw ang mga natitirang error.

Para sa mga patuloy na nakakaranas ng mga error kapag kumokonekta sa mga partikular na serbisyo, inirerekomenda ng AWS subukang muli ang mga kahilingan at, sa mga partikular na kaso, i-flush ang DNS cache, lalo na kung nagpapatuloy ang mga isyu sa mga endpoint ng DynamoDB sa apektadong rehiyon.

Ang mga ulat mula sa mga platform sa pagsubaybay sa insidente ay nagpakita ng a patuloy na pagbaba ng mga ulat habang umuusad ang tanghali, na tumuturo sa isang unti-unti at unti-unting pagbawi depende sa serbisyo at lokasyon.

Mga serbisyong apektado ng AWS outage

Mga serbisyo at platform na may mga insidente

Malawak at magkakaibang ang hanay ng mga apektadong serbisyo. Kabilang sa mga pinaka binanggit ng mga user at kumpanya ay sina Alexa at Prime Video. Ecosystem ng Amazon, pati na rin ang maraming third-party na application na umaasa sa imprastraktura ng AWS.

  • libangan at mga laro: Fortnite, Roblox, Clash Royale, PUBG, Rainbow Six Siege, Crunchyroll at Prime Video ay nag-ulat ng mga error sa koneksyon at paulit-ulit na pagbaba.
  • Produktibidad at paglikha: Canva, Duolingo, Trello, Slack, Zoom at Dropbox ay nagpakita hindi matatag na pag-access at mataas na oras ng pagtugon.
  • Mga network at pagmemensahe: Ang Reddit at Snapchat ay nakakuha ng mga ulat para sa mga pagkabigo sa paglo-load at panandaliang pagbara.
  • AI at mga katulong: Perplexity at Alexa-enabled na mga device at Amazon Generative AIAt mga camera at doorbell ng Ring ecosystem, ay nakaranas ng mga feature outage.
  • Mga pagbabayad at komersiyo: mga insidente sa mga dataphone, bisum at ang ilang mga gateway ay pinilit ang pagsuspinde ng mga partikular na operasyon; Ticketmaster Naantala pa nito ang pagbebenta ng ticket, tulad ng mga binalak para sa La Oreja de Van Gogh.

Pandaigdigang saklaw ng insidente sa AWS

Saan ito naging pinaka-kapansin-pansin at kung bakit ito nakakaapekto sa mga tao sa labas ng US.

Ang mga insidente ay nakatuon sa silangang baybayin ng Estados Unidos (na may mga taluktok sa New York, Los Angeles, San Francisco at Seattle), ngunit naiulat din ang mga problema sa United Kingdom (London at Manchester) at ilang bansa sa Europa. Bagama't ang epicenter ay nasa US-EAST-1, maraming serbisyong pandaigdig ang umaasa sa rehiyong iyon para sa mga kritikal na bahagi ng kanilang mga operasyon.

Sa pagsasagawa, nangangahulugan ito na ang ilang mga aplikasyon Nananatiling naa-access ang mga ito ngunit may limitadong mga function, o huwag i-update ang nilalaman sa real time. Ipinapaliwanag ng ipinamamahaging arkitektura na ito kung bakit maaaring mangyari ang isang naka-localize na kabiguan magkaroon ng domino effect sa ibang mga rehiyon, kahit na ang mga sentro ng data sa Europa o Asya ay nananatiling gumagana.

Indikasyon na kronolohiya ng pangyayari

• Kabilang sa mga 08:40 at 09:00 (oras ng peninsular) ang mga unang taluktok ng mga ulat ay bumangon. • Tungkol sa 09:30, kinukumpirma ng AWS ang mga problemang iyon taasan ang mga rate ng error at latency sa iba't ibang serbisyo. • Sa paligid ng 11:00, ipinapahiwatig ng Amazon na natukoy nito ang posibleng dahilan at nagtatrabaho sa pagpapagaan. • Pagkatapos 11:30, nakikipag-usap malinaw na mga palatandaan ng pagbawi. • Sa tanghali, bumababa ang mga ulat at karamihan sa mga serbisyo ay unti-unting naibabalik.

Gayunpaman, nagbabala ang kumpanya na posible mga natitirang insidente sa ilang partikular na operasyon at nagrerekomenda ng mga muling pagsubok hanggang sa makumpleto ang normalidad sa lahat ng larangan.

Paano ito nakakaapekto sa iyo at kung ano ang maaari mong gawin

Kung napansin mong hindi naglo-load ang isang website, Hindi sumasagot si AlexaKung ang isang online na laro ay hindi kumokonekta, o ang isang work app ay nakakaranas ng mga isyu, malamang na ang serbisyo ay nakadepende sa AWS at nasa yugto ng pagbawi. Sa mga kasong ito, Karaniwang hindi nakakatulong ang pag-restart ng mga router o device.; ang pinakamabisang bagay ay ang maghintay at subukang muli sa ibang pagkakataon.

Sa mga propesyonal na kapaligiran, ipinapayong magplano ng mga kritikal na gawain na may margin at, kung maaari, paganahin ang mga muling pagsubok at timeout mas mapagbigay sa mga integrasyon na nakadepende sa mga endpoint ng AWS. Sa napakaspesipikong mga sitwasyon, inaalis ang laman ng nakatago sa dns maaaring mapabilis ang muling pagkonekta sa ilang mga serbisyo na naibalik na.

Isang paalala ng cloud dependence

Sa isang market share na lumampas 30% Sa buong mundo, ang AWS ang backbone ng libu-libong mga digital na negosyo. Kapag ang isang insidente ay tumama sa isang pangunahing rehiyon tulad ng US-EAST-1, ang shock wave Ito ay makikita sa mga application na ginagamit araw-araw ng milyun-milyong tao, mula sa streaming at gaming hanggang sa pagbabangko at e-commerce.

Ibinabalik ng episode ngayong araw sa talahanayan ang pangangailangan nababanat na mga arkitektura (multiregion, multilayer at may kontroladong pagkasira), bilang karagdagan sa malinaw na mga diskarte sa komunikasyon upang pamahalaan ang inaasahan ng user at customer kapag naganap ang malalaking pagkagambala.

Pagkatapos ng ilang oras ng pagpapagaan ng Amazon, ang sitwasyon ay tumuturo sa a unti-unting paggaling sa karamihan ng mga serbisyo, na may nakikitang mga pagpapahusay sa pag-access at latency. Baka meron pa maliliit na shocks, ngunit ang trend ay positibo at ang lahat ay nagpapahiwatig na ang trapiko ay bumalik sa normal sa ilang mga seksyon habang ang mga pagsasaayos ay nakumpleto sa apektadong rehiyon.

Amazon generative AI manggagawa
Kaugnay na artikulo:
Amazon Generative AI: Paano Gumawa ng Orihinal na Nilalaman gamit ang AI