cs:navody:email_notify

Emailové notifikace z virtualizační platformy CESNET

Jednou týdně, vždy v pondělí ráno je správcům virtuálního stroje odeslán email s hlášením o možném blížícím se problému. V tuto chvíli jde o upozornění na:

Volné místo na disku

Virtuální stroje reportují prostřednictvím VMTools některé své vnitřní stavy, jedním z nich je zaplnění souborového systému. Aby nedošlo k jeho úplnému zaplnění, je odesílána notifikace v případě, že volné místo klesne pod hranici 10% celkové kapacity disku. Správci doporučujeme projít filesystém a smazat nepotřebné a staré soubory (např. logy). V odůvodněných případech požádejte o zvětšení disku virtuálního stroje.

Vzorová ukázka zprávy:

Na virtualu: XYZ.cesnet.cz dochazi misto na disku!
  DiskPath: / - Capacity[GB]: 4.79 - FreeSpace[GB]: 0.34 (7%) 

Existence starého snapshotu

Snapshoty jsou neocenitelným nástrojem virtualizace. Hodí se zejména pro testování a pro snadné uložení aktuálního stavu systému před potencionálně nebezpečnou operací (např. upgrade aplikace). Prosím nepleťte si snapshot se zálohou! Snapshot vytvoří nový rozdílový disk (původní se přepne do Read-Only) a při operacích na filesystému se musí data „skládat“ ze všech částí (snapshotů) v chainu. Tato činnost generuje velké množství IO operací a zatěžuje disková pole. Ve výsledku dochází k degradaci výkonu celé virtualizační platformy.

VMware sám doporučuje omezit provoz ze snapshotu na maximálně několik dní (konkrétně 24-72 hodin, viz KB1025279) Takto striktní být nechceme, nehledě na to, že ověření plné funkčnosti aplikace po jejim upgradu chvíli trvá a pak se na snapshot snadno zapomene. Proto vám v rámci automatických reportů připomeneme, že na vámi spravovaném virtuálním stroji existuje snapshot starší 7 dní. Zatím jsme nebyli nuceni snapshoty mazat automaticky, ale s nárůstem virtuálních strojů k tomu možná v budoucnu dojde. Pro zatím doporučujeme snapshot smazat nejdéle do jednoho měsíce. Snapshoty starší jednoho roku mažeme automaticky bez výstrahy!

Vzorová ukázka zprávy:

Virtual: XYZ.mgmt.cesnet.cz ma: 12dni stary snapshot
  Nazev: PredUpgradem - Velikost: 14,5GB - Vytvoren: 03/02/2017 09:55:07

Neobvyklé vytížení CPU

Zvýšená zátěž procesoru může být naprosto legitimní a tento stav sám o sobě nepředstavuje žádný problém. Tato sonda reportuje stroje, jejiž týdenní průměrná zátěž CPU je vyšší než 75%. Takto vysoká průměrná hodnota bývá často způsobena „zaseklým“ procesem, který přestal plnit svou funkci. Pro jistotu svůj virtuální stroj zkontrolujte, ať se ujistíte, že je vše v pořádku.

Vzorová ukázka zprávy:

Virtual: XYZ.cesnet.cz zatezuje CPU na: 79.9%

Neběžící přídavky hosta - VMTools

VMTools zprostředkovávají komunikaci mezi OS virtuálního serveru a virtualizačním prostředím VMware vSphere. Díky těmto nástrojům lze detekovat abnormální stavy a v případě nutnosti i částečně ovládat virtuální stroj. Pokud je to jen trochu možné, nevypínejte prosím tuto službu. Nejčastější příčinou neběžících VMTools je, že stroji dojde pamět a systém tuto službu násilně ukončí. V takovém případě je jistě dobré virtuální stroj zkontrolovat a následně VMTools opět spustit (service open-vm-tools start). Pokud na stroji VMTools neexistuje např. po reinstalaci nebo upgradu stroje, je třeba je doinstalovat. Nejsnažší je použít balíčkovou verzi open-vm-tools.

Vzorová ukázka zprávy:

Na virtual: XYZ.cesnet.cz NEbezi VMTools!

Neběžící produkční virtuální stroj

Produkční virtuální servery hostují většinou služby, které mají být vždy dostupné. Proto jsou také monitorovány externím monitoringem (v našem případě Nagios). Když takový stroj neběží, je to považováno za chybu. Pokud stroj odstavujete, ať už natrvalo nebo jen dočasně, dejte nám o tom vědět. Předejdete tím možnému problému, že Vám stroj při řešení výpadku zapneme v domnění, že tomu tak má být. Testovacích virtuálů se tento reporting netýká.

Vzorová ukázka zprávy:

Virtual: XYZ.cesnet.cz oznaceny jako produkcni, je vice nez tyden vypnuty. Jde o zamer?
Poslední úprava:: 01.02.2023 10:42