Guides
Self-healing infrastructure: wat het is en wat het niet is
Self-healing infrastructure is IT-infrastructuur die incidenten autonoom detecteert, diagnosticeert en oplost — zonder menselijke tussenkomst voor het gros van de gevallen. De infrastructuur volgt vooraf gedefinieerde policies om herhalende problemen automatisch te remediëren, en escaleert alleen wanneer er sprake is van een nieuw of niet-geclassificeerd incident. Het is geen monitoring, geen alerting, geen runbook-automation, en geen marketinglabel voor operationele software. In dit artikel zetten we de definitie scherp, behandelen de 5 volwassenheidsniveaus, en laten we zien wanneer het wel en niet relevant is voor mkb-MSPs.
1. De definitie, uitgepakt
Self-healing infrastructure bestaat uit drie verplichte componenten. Als er één ontbreekt, is het iets anders.
het systeem merkt zelf op dat er iets afwijkt van de gewenste staat. Een service is down, een schijf loopt vol, een certificaat is verlopen, een responsetijd stijgt boven threshold.
het systeem koppelt de detectie aan een vooraf gedefinieerde policy die bepaalt wat er moet gebeuren. Geen mens in de loop voor bekende incidenttypes.
het systeem voert de remediatie uit, verifieert het resultaat, en logt wat er is gebeurd en waarom.
Detect. Decide. Act.
Alle drie de stappen zijn verplicht. Een systeem dat alleen detecteert is monitoring. Een systeem dat detecteert en beslist maar niet handelt is alerting. Een systeem dat zonder detectie acties uitvoert is een cron-job.
Het verschil zit in de gesloten loop: detectie → beslissing → actie → verificatie, zonder menselijke handeling als schakel.
2. Wat self-healing infrastructure niet is
De term wordt breed gebruikt. Hier de afbakening:
Vuistregel
Als een engineer nog een notificatie moet zien, beoordelen en bevestigen voordat er iets wordt opgelost, is het geen self-healing infrastructure. Het is een snellere route naar dezelfde handmatige stap.
3. Vijf volwassenheidsniveaus
Self-healing is geen binaire keuze. Er is een spectrum van handmatig naar autonoom.
| Niveau | Naam | Omschrijving |
|---|---|---|
| 1 | Handmatige response | Incident wordt gemeld door gebruiker. Engineer logt in, diagnosticeert, handelt. Geen detectie, geen automatisering. |
| 2 | Alert-based response | Systeem detecteert en stuurt alert. Engineer beslist en handelt. De loop is nog steeds handmatig. |
| 3 | Scripted remediation | Bij bepaalde alerts wordt automatisch een script uitgevoerd. Beperkte scope, vaste condities, menselijke goedkeuring of trigger vaak nog vereist. |
| 4 | Policy-driven autonomous | Systeem detecteert, matcht op een policy, handelt autonoom, verifieert resultaat en logt de actie. Mens wordt alleen geïnformeerd als de remediatie mislukt of het incident buiten de bekende scope valt. |
| 5 | Policy recommendation | Systeem identificeert terugkerende incidentpatronen en genereert voorstellen voor nieuwe policies. Een engineer beoordeelt, wijzigt en keurt deze voorstellen handmatig goed. |
4. Wat self-healing in de praktijk oplost
De categorie is breed. Wat wél en niet past in de scope van policy-driven self-healing:
Geschikt voor autonome remediatie
Niet geschikt voor autonome remediatie
De grens is eenvoudig: als de actie omkeerbaar is, de conditie known is, en het resultaat verifieerbaar is — dan is het een kandidaat voor autonome remediatie.
5. Vergelijking met aanverwante categorieën
| Categorie | Detecteert? | Beslist autonoom? | Voert uit zonder mens? |
|---|---|---|---|
| Monitoring (Datadog, Zabbix) | Ja | Nee | Nee |
| Alerting (PagerDuty) | Ja | Nee | Nee |
| Runbook docs (Confluence) | Nee | Nee | Nee |
| Runbook automation (Rundeck) | Soms | Soms | Alleen na trigger |
| Auto-scaling (K8s, AWS ASG) | Ja, beperkt | Ja, binnen één laag | Ja, binnen één laag |
| Self-healing infrastructure | Ja | Ja, policy-based | Ja |
Het onderscheidende kenmerk is niet de detectie — dat doen monitoring-tools al goed. Het onderscheidende kenmerk is de gesloten beslis- en actieloop.
6. Wanneer is self-healing infrastructure relevant voor mkb-MSPs?
Niet elk MSP-profiel heeft dezelfde baat bij self-healing. De relevantie neemt toe naarmate:
Meer relevant
Minder relevant
Marge-logica
Stel dat een MSP 50 herhalende L1-tickets per maand verwerkt tegen een interne kostprijs van €60 per ticket. Dan vertegenwoordigt dat ongeveer €3.000 operationele belasting per maand, oftewel €36.000 per jaar. De werkelijke cijfers verschillen per organisatie. Dat is het budget waaruit een self-healing-implementatie zich moet rechtvaardigen.
7. Veelgestelde vragen
Is self-healing infrastructure hetzelfde als monitoring?
Nee. Monitoring detecteert dat er iets afwijkt van de gewenste staat en stuurt eventueel een alert. Self-healing infrastructure sluit de loop: na detectie volgt een policy-gedreven beslissing en een geverifieerde remediatie, zonder menselijke tussenkomst. Een monitoring-tool is een verplicht onderdeel van self-healing, maar geen vervanging ervan.
Hoe weet het systeem welke actie de juiste is?
Via expliciete policies die door engineers worden geschreven, getest en versie-gecontroleerd. Een policy bestaat uit een conditie ("disk-usage > 90% op productieserver") en een actie ("prune logs ouder dan 30 dagen, verifieer onder 80%"). Er is geen black box: elke autonome actie is herleidbaar naar één regel die je in een audit-trail kunt teruglezen.
Wat als het systeem de verkeerde beslissing neemt?
Goed ingerichte self-healing handelt alleen op omkeerbare acties met verifieerbare resultaten. Als de policy-actie mislukt of het resultaat buiten verwachting valt, escaleert het systeem naar een engineer. De policy-scope bepaalt de veiligheidsgrens.
Is self-healing hetzelfde als runbook automation?
Nee. Runbook automation voert scripts uit op basis van een handmatige trigger of goedkeuring. Self-healing infrastructure beslist zelf wanneer actie nodig is, op basis van real-time detectie. Het verschil is wie de beslissing neemt: een engineer (runbook automation) of een policy (self-healing).
Heb je een groot team nodig om self-healing te implementeren?
Niet per definitie. Veel self-healing platforms werken op basis van vooraf gedefinieerde integrations en policies. Voor mkb-MSPs is de instapdrempel in veel gevallen lager dan verwacht — met name voor de meest voorkomende L1-incidenttypes.
Hoe UptimePilot dit aanpakt
UptimePilot is het autonomous infrastructure platform voor mkb-MSPs. Het biedt policy-driven remediation zonder ondoorzichtige besluitvorming en zonder integratie-marathons.
UptimePilot vervangt geen RMM of PSA. Het voegt een beslis- en actielaag toe tussen detectie en menselijke interventie — het gat waar nu nog engineers zitten voor incidenten die zichzelf eigenlijk kunnen oplossen.
Volgende stap
Welke incidenten in jouw omgeving zijn geschikt voor autonome remediatie?
Bekijk welke incidenttypes UptimePilot automatisch detecteert, beoordeelt en oplost — voordat een gebruiker een ticket opent.
Plan een demo →