====== Emailové notifikace z virtualizační platformy CESNET ====== Jednou týdně, vždy v pondělí ráno je správcům virtuálního stroje odeslán email s hlášením o možném blížícím se problému. V tuto chvíli jde o upozornění na: ==== Volné místo na disku ==== Virtuální stroje reportují prostřednictvím VMTools některé své vnitřní stavy, jedním z nich je zaplnění souborového systému. Aby nedošlo k jeho úplnému zaplnění, je odesílána notifikace v případě, že **volné místo klesne pod hranici 10%** celkové kapacity disku. Správci doporučujeme projít filesystém a smazat nepotřebné a staré soubory (např. logy). V odůvodněných případech požádejte o zvětšení disku virtuálního stroje. Vzorová ukázka zprávy: Na virtualu: XYZ.cesnet.cz dochazi misto na disku! DiskPath: / - Capacity[GB]: 4.79 - FreeSpace[GB]: 0.34 (7%) ==== Existence starého snapshotu ==== Snapshoty jsou neocenitelným nástrojem virtualizace. Hodí se zejména pro testování a pro snadné uložení aktuálního stavu systému před potencionálně nebezpečnou operací (např. upgrade aplikace). Prosím **nepleťte si snapshot se zálohou!** Snapshot vytvoří nový rozdílový disk (původní se přepne do Read-Only) a při operacích na filesystému se musí data "skládat" ze všech částí (snapshotů) v chainu. Tato činnost generuje velké množství IO operací a zatěžuje disková pole. Ve výsledku dochází k degradaci výkonu celé virtualizační platformy. VMware sám doporučuje omezit provoz ze snapshotu na maximálně několik dní (konkrétně 24-72 hodin, viz [[https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1025279 | KB1025279]]) Takto striktní být nechceme, nehledě na to, že ověření plné funkčnosti aplikace po jejim upgradu chvíli trvá a pak se na snapshot snadno zapomene. Proto vám v rámci automatických reportů připomeneme, že na vámi spravovaném virtuálním stroji **existuje snapshot starší 7 dní**. Zatím jsme nebyli nuceni snapshoty mazat automaticky, ale s nárůstem virtuálních strojů k tomu možná v budoucnu dojde. Pro zatím doporučujeme snapshot smazat nejdéle do jednoho měsíce. **Snapshoty starší jednoho roku mažeme automaticky bez výstrahy!** Vzorová ukázka zprávy: Virtual: XYZ.mgmt.cesnet.cz ma: 12dni stary snapshot Nazev: PredUpgradem - Velikost: 14,5GB - Vytvoren: 03/02/2017 09:55:07 ==== Neobvyklé vytížení CPU ==== Zvýšená zátěž procesoru může být naprosto legitimní a tento stav sám o sobě nepředstavuje žádný problém. Tato sonda reportuje stroje, jejiž **týdenní průměrná zátěž CPU je vyšší než 75%**. Takto vysoká průměrná hodnota bývá často způsobena "zaseklým" procesem, který přestal plnit svou funkci. Pro jistotu svůj virtuální stroj zkontrolujte, ať se ujistíte, že je vše v pořádku. Vzorová ukázka zprávy: Virtual: XYZ.cesnet.cz zatezuje CPU na: 79.9% ==== Neběžící přídavky hosta - VMTools ==== VMTools zprostředkovávají komunikaci mezi OS virtuálního serveru a virtualizačním prostředím VMware vSphere. Díky těmto nástrojům lze detekovat abnormální stavy a v případě nutnosti i částečně ovládat virtuální stroj. Pokud je to jen trochu možné, nevypínejte prosím tuto službu. Nejčastější příčinou neběžících VMTools je, že stroji dojde pamět a systém tuto službu násilně ukončí. V takovém případě je jistě dobré virtuální stroj zkontrolovat a následně VMTools opět spustit (**service open-vm-tools start**). Pokud na stroji VMTools neexistuje např. po reinstalaci nebo upgradu stroje, je třeba je doinstalovat. Nejsnažší je použít balíčkovou verzi open-vm-tools. Vzorová ukázka zprávy: Na virtual: XYZ.cesnet.cz NEbezi VMTools! ==== Neběžící produkční virtuální stroj ==== Produkční virtuální servery hostují většinou služby, které mají být vždy dostupné. Proto jsou také monitorovány externím monitoringem (v našem případě [[https://nagios.cesnet.cz | Nagios]]). Když takový stroj neběží, je to považováno za chybu. Pokud stroj odstavujete, ať už natrvalo nebo jen dočasně, dejte nám o tom vědět. Předejdete tím možnému problému, že Vám stroj při řešení výpadku zapneme v domnění, že tomu tak má být. Testovacích virtuálů se tento reporting netýká. Vzorová ukázka zprávy: Virtual: XYZ.cesnet.cz oznaceny jako produkcni, je vice nez tyden vypnuty. Jde o zamer?