cs:novinky

Toto je starší verze dokumentu!


Provozní novinky

28. 4. 2020 - Na dnešek je od 15 hodin naplánován upgrade firmware diskových polí virtualizační platformy. Jde o opravu problému, který způsobil neočekávaný restart minulý týden, a proto jsme tuto operaci naplánovali na první možný termín. V 15 hodin začneme na pražské lokalitě, a pokud vše proběhne jak má, naplánujeme stejnou operaci i v Brně. UPDATE: Update diskového pole v Praze proběhl bez problémů. V druhé lokalitě se bohužel projevila nekonzistence z minulého výpadku a při restartu vzdálené repliky došlo k pádu virtuálních serverů v Brně. Všechny virtuální stroje v Brně bylo třeba restartovat a při té příležitosti jsme aktualizovali i druhé diskové pole. Provoz byl obnoven kolem 21:00 hodiny.

24. 4. 2020 - Dnes v 19:20 došlo k pádu jednoho řadiče brněnského diskového pole a automatický fail-over nezafungoval jak měl. Došlo k výpadku dvou produkčních datastorů což odpovídá přibližně polovině virtuálních strojů běžících v této lokalitě. Při výpadku nedošlo k žádné ztrátě dat, dotčené virtuální stroje byly restartovány a přibližně v 22:30 byl provoz plně obnoven.

27. 11. 2019 - Ve čtvrtek 28. 11. a 5. 12. 2019 proběhne upgrade firmware serverové platformy Cisco UCS v Praze. Důvodem je podpora novějšího hardwaru a bezpečnostní aktualizace. Veškeré práce proběhnou za plného provozu a nemělo by dojít k žádnému dopadu na běžící služby. UPDATE: Upgrade pražského uzlu proběhl bez problémů. Nyní máme nasazen nejnovější firmware.

18. 11. 2019 - V úterý 19. 11. 2019 proběhne upgrade firmware serverové platformy Cisco UCS v Brně. Důvodem je podpora novějšího hardwaru a bezpečnostní aktualizace. Veškeré práce proběhnou za plného provozu a nemělo by dojít k žádnému dopadu na běžící služby. UPDATE: Upgrade brněnského uzlu proběhl bez problémů.

3. 9. 2019 – Dnes bude mezi 6 a 7 hodinou ranní probíhat upgrade operačního systému síťových prvků v brněnském datacentru. Tento servisní zásah je plánován jako bez výpadkový a neměli byste zaznamenat žádný výpadek služeb. Síťová infrastruktura je zdvojená, a pokud bude vše probíhat dle plánu, bude vždy zajištěna konektivita, alespoň jednou cestou. UPDATE: Upgrade proběhl bez problémů a příští týden 10. 9. 2019 budeme mezi 6 a 7 hodinou ranní pokračovat v pražském datacentru. UPDATE: Upgrade pražského uzlu proběhl bez problémů.

25. 7. 2019 - Na dnešek je od 15 hodin naplánován upgrade primárních diskových polí virtualizační platformy. Jde o opravu problému, který způsobil neočekávaný restart minulý týden, a proto jsme tuto operaci naplánovali na první možný termín. V 15 hodin začneme na brněnské lokalitě, a pokud vše proběhne jak má, budeme dále pokračovat i v Praze. UPDATE: Upgrade diskového pole neproběhl úplně bez problémů. Zatímco v Brně vše šlapalo dle plánu, v Praze se během upgradu projevila stejná chyba, která minulý týden zapříčinila výpadek. Opět došlo k problému při přebírání rolí a odpojení jednoho datastoru, nezbývalo než cca 50 postižených virtuálních strojů restartovat.

17. 7. 2019 – V 9:30 došlo ke druhému neočekávanému restartu kontroléru pražského diskového pole. Zatímco noční restart pole ustálo, ten dopolední způsobil nedostupnost všech hostovaných datastorů. Po nastartování pole se přibližně polovina strojů vzpamatovala (byly ve stavu pozastavených diskových operací „freeze“), druhou část strojů jsme museli restartovat (cca 50). Dodavatel analyzoval logy a objevil příčinu, jde o chybu, která je již v poslední verzi firmware opravena. Z toho důvodu provedeme začátkem příštího týden k upgrade pražského i brněnského diskového pole.

26. 4. 2019 - Ve 2:00 došlo k přehřátí počítačového sálu v Brně a obsluha jej musela celý vypnout. Díky tomu došlo k výpadku všech 112 virtuálních serverů zde běžících. Klimatizace byla ještě v noci opravena a ve 4:00 bylo obnoveno napájení sálu. O 28 minut později jsme mohli konstatovat, že vše běží! Při neřízeném výpadku nedošlo k žádným ztrátám na datech ani na HW.

1. 12. 2018 - V letošním roce se nám podařilo vysoutěžit a v obou lokalitách nasadit nová All-Flash disková pole Dell SC5020F. Tato pole jsou osazena SSD disky s celkovou hrubou kapacitou 50TB. Díky technologii deduplikace a komprese se využitelná kapacita bude pohybovat daleko výše. K datu 1. 12. 2018 byly všechny virtuální servery běžící na brněnské virtualizační platformě přemigrovány na nová disková pole. Pražský uzel budeme migrovat během ledna příštího roku.

30. 10. 2018 – Včera večer došlo na brněnském diskovém poli k poruše záložní baterie v controlleru diskového pole. Pole se díky tomu přeplo do write-through režimu a běží s významnou degradací výkonu. Na odstranění problému pracujeme.

11. 10. 2018 - Tento a příští týden probíhá postupný SW update VMware vSphere komponent, tyto operace jsou pro uživatele transparentní. Jedinou viditelnou operací bude update samotného vCentra, který je naplánován na dopoledne v pondělí 15. 10. Pokud se náhodou svým požadavkem trefíte do tohoto údržbového okna, mějte prosím strpení a zkuste to později. Celá operace by neměla trvat déle než hodinu. V případě naléhavých požadavků využijte kontaktní body.

14. 6. 2018 - Na pátek 15. 6. 2018 je plánován update správcovské konzole vCenter. Update by neměl zabrat déle než jednu hodinu. Pokud se s vaším požadavkem trefíte do tohoto časového okna, mějte prosím strpení a vyzkoušejte to později. UPDATE: Update proběhl úspěšně, správcovská konzole vCenter je zpět a v plné síle.

24. 5. 2018 - Během upgradu firmware na brněnské části virtualizační platformy, jsme narazili na nepříjemný bug spojený s Cisco UCS a vMware vSphere 6.5. Při rebootu Fabric Interconnectu nefunguje failover viz KB2149969. Důsledkem byl několikaminutový výpadek internetové konektivity u částí virtuálních serverů. Doinstalovali jsme opravený síťový ovladač a při té příležitosti rovnou aktualizovali všechny hosty na poslední update vSphere 6.5 Update2. Následné testy potvrdily opětovnou plnou funkčnost HA. Během následujících dní nainstalujeme stejné aktualizace i do pražského datacentra.

15. 5. 2018 - Ve čtvrtek 17. 5. 2018 proběhne upgrade firmware serverové platformy Cisco UCS v Brně. Důvodem je podpora novějšího hardwaru a bezpečnostní aktualizace. Veškeré práce proběhnou za plného provozu a nemělo by dojít k žádnému dopadu na běžící služby.

7. 9. 2017 – V období od 7.9. do 8.10.2017 budou na virtualizační platformě probíhat penetrační testy Forenzní laboratoře Cesnetu FLAB. Cílem je kontrola zabezpečení platformy jako celku. U vybraných služeb bude dále testována i odolnosti před vnějšími útoky. Během testů může dojít ke krátkodobému zhoršení odezvy u některých služeb. Pokud zpozorujete nějaké omezení ve službách běžících na virtualizační platformě, neváhejte nás o tom informovat. Ke konci října dojde k vyhodnocení testů, o jehož výsledku vás budeme informovat.

4. 9. 2017 - Minulý týden byl dokončen postupný upgrade všech VMware vSphere hypervizorů na nejnovější verzi 6.5.0 update 1. Celá infrastruktura nyní běží na posledních stabilních verzích.

20. 7. 2017 - Na středu 26. 7. 2017 je plánována odstávka správcovské konzole vCenter. Během dopoledne bude probíhat upgrade na novou verzi 6.5. V případě neodkladné potřeby přístupu k virtuálnímu serveru nás kontaktujte emailem či telefonicky. UPDATE: Upgrade byl úspěšný. Nyní je k dispozici nová verze vSphere web clienta včetně HTML5 rozhraní. Postup přístupu ke konzoli naleznete v návodech.

30. 5. 2017 - Návrat pražského virtualizačního uzlu do plného produkčního režimu. Součástí odstávky byla změna designu sítě a migrace na nové síťové prvky. Nyní jsou obě virtualizační platformy odděleny od páteřní infrastruktury CESNET a jsou tak plně ve správě virtualizační skupiny. Ve čtvrtek 1. 6. 2017 v 6:00 proběhne návrat směrování produkční sítě 78.128.211.0/24, 2001:718:1:1F::1/64 zpět do Prahy. Změna si vyžádá krátký výpadek IP konektivity virtuálních serverů v této síti (v řádu jednotek až desítek sekund).

18. 5. 2017 - V dopoledních hodinách (9-12), budou na pražské virtualizační platformě provedeny poslední HA testy, před navrácením do plně produkčního režimu. Během testů se mohou vyskytnout krátkodobé výpadky konektivity zde běžících virtuálních serverů. V drtivé většině jde o testovací stroje. UPDATE: Testy byly úspěšně dokončeny.

13. 3. 2017 - Byla spuštěna proaktivní kontrola stavu virtuálních serverů a v případě blížícího se potenciálního problému je jednou týdně správci zaslán email. Podrobnosti v návodech.

11-12. 1. 2017 - Proběhne plánová odstávka virtualizační platformy v Praze, při níž dojde k přepojení kabeláže na nové síťové prvky. Produkční virtuální stroje jsou přestěhovány do druhé lokality a odstávka se jich nijak nedotkne. UPDATE: Akce byla úspěšně dokončena.

19. 9. 2016 - Převedení druhého virtualizačního uzlu v Brně do produkčního režimu. Síťová infrastruktura je připojena redundantně do dvou páteřních uzlů CESNET (na MUNI a VUT) a je odolná vůči výpadku jakékoli jednotlivé části. Všechny možné výpadky byly před oficiálním spuštění otestovány. Brněnská virtualizační infrastruktura je v tuto chvíli preferovaná při zřizování nových strojů.

10. 9. 2016 - V 18:20 došlo u některých hypervizorů k odpojení datastorů, opětovného připojení jsme dosáhli do 30 minut od prvního hlášení výpadku. Přesto mohlo dojít u některých strojů k problémům, za které se omlouváme. Příčinou problému byl zásah síťařů na nepřímo souvisejícím propoji.

19. 6. 2016 - Při výměně break-out kabelů mezi přepínači nexus a UCS přestal správně fungovat jeden z fabric modulů Cisco UCS. V době od 17:50 do 20:02 byly některé virtuální stroje částečně nebo úplně bez konektivity. Zda problém souvisel s užitím break-out kabelů je předmětem dalšího šetření. Prosíme všechny správce virtualizovaných strojů, aby zkontrolovali jejich funkčnost.

23. 5. 2016 - Před 20 hodinou došlo k výpadku jednoho síťového prvku u virtualizační platformy. Bohužel jeho následkem došlo k fatální chybě na Fabricu Cisco UCS a ten způsobil přibližně hodinovou nedostupnost virtuálních strojů z internetu. Prosíme všechny správce virtuální serverů o kontrolu hostovaných služeb. O detailech výpadku budeme dále informovat.

28. 4. 2016 - Mezi 10. a 11. hodinou proběhne plánovaná profylaxe síťových prvků virtualizační platformy. Údržba je plánována jako bez výpadková a nemělo by dojít k žádnému omezení služeb. UPDATE: Akce byla úspěšně dokončena.

19. 2. 2016 - Na webu virtualizace.cesnet.cz byl zpřístupněn nový formulář pro žádosti o virtuální server. Pokud vám ve formuláři něco chybí, dejte nám vědět, rádi jej upravíme k vaší spokojenosti.

1. 2. 2016 - Při plánovaném upgradu síťových prvků došlo včera po 18 hodině k potížím na virtualizační platformě, které vyústilo v neplánovaný restart několika virtuálních serverů a krátkému výpadku konektivity do internetu. Všechny služby byly opět zprovozněny během večera téhož dne.

1. 1. 2016 - Oficiální zahájení poskytování služeb virtualizačni platformy a jmenování týmu správců virtualizační platformy

Poslední úprava:: 06.05.2020 08:47