20 node_exporter

Der node_exporter ist ein weit verbreiteter Exporter für Prometheus, der speziell für die Überwachung von Hardware- und Betriebssystem-Metriken entwickelt wurde. Er sammelt eine Vielzahl von Systemmetriken, die für die Überwachung von Linux-, Windows- und anderen Betriebssystemen nützlich sind.

20.1 Funktionen und Merkmale des node_exporters

Umfassende Metrik-Sammlung:
- Der node_exporter sammelt detaillierte Metriken zu verschiedenen Aspekten eines Systems, einschließlich CPU, Speicher, Netzwerk, Festplatten-IO und mehr.
- Diese Metriken sind nützlich für die Überwachung der Systemgesundheit und Leistung.
Einfache Installation und Nutzung:
- Der node_exporter ist einfach zu installieren und zu konfigurieren, was ihn zu einem idealen Werkzeug für die Systemüberwachung macht.
- Er läuft als eigenständiger Dienst, der regelmäßig Metriken sammelt und über einen HTTP-Endpunkt bereitstellt.
Modularer Aufbau:
- Der node_exporter verwendet ein modulares Design, bei dem verschiedene Metrik-Sammler aktiviert oder deaktiviert werden können, um die gesammelten Daten anzupassen.
- Dies ermöglicht eine flexible Anpassung an spezifische Überwachungsanforderungen.

20.2 Installation und Konfiguration

Installation:

Der node_exporter kann auf verschiedenen Plattformen installiert werden. Hier sind die Schritte für die Installation auf einem Linux-System:

wget https://github.com/prometheus/node_exporter/releases/download/v1.2.2/node_exporter-1.2.2.linux-amd64.tar.gz
tar xvfz node_exporter-1.2.2.linux-amd64.tar.gz
cd node_exporter-1.2.2.linux-amd64
./node_exporter

Systemd-Dienst (optional):

Um den node_exporter als Systemd-Dienst einzurichten, erstellen Sie eine Datei /etc/systemd/system/node_exporter.service:

[Unit]
Description=Node Exporter
Wants=network-online.target
After=network-online.target

[Service]
User=nodeusr
ExecStart=/usr/local/bin/node_exporter
Restart=always

[Install]
WantedBy=multi-user.target

Starten und aktivieren Sie den Dienst:

sudo systemctl daemon-reload
sudo systemctl start node_exporter
sudo systemctl enable node_exporter

Konfiguration in Prometheus:

Fügen Sie den node_exporter als Ziel in der prometheus.yml-Datei hinzu:

scrape_configs:
  - job_name: 'node_exporter'
    static_configs:
      - targets: ['localhost:9100']

20.3 Verfügbare Metriken

Der node_exporter sammelt eine Vielzahl von Metriken, darunter:

CPU-Metriken:
- node_cpu_seconds_total: CPU-Auslastung in Sekunden nach Modus (Idle, User, System, etc.)
Speichermetriken:
- node_memory_MemTotal_bytes: Gesamter verfügbarer Speicher
- node_memory_MemFree_bytes: Frei verfügbarer Speicher
Netzwerkmetriken:
- node_network_receive_bytes_total: Empfangene Bytes pro Netzwerkinterface
- node_network_transmit_bytes_total: Übertragene Bytes pro Netzwerkinterface
Festplatten-IO-Metriken:
- node_disk_io_time_seconds_total: Gesamtzeit der Festplatten-IO-Aktivität
- node_disk_read_bytes_total: Gelesene Bytes pro Festplattenpartition
Dateisystemmetriken:
- node_filesystem_size_bytes: Gesamtgröße des Dateisystems
- node_filesystem_free_bytes: Verfügbarer Speicherplatz im Dateisystem

20.4 Erweiterte Konfiguration

Aktivieren/Deaktivieren von Sammlern:
- Sie können bestimmte Metrik-Sammler aktivieren oder deaktivieren, indem Sie Kommandozeilenoptionen beim Start des node_exporter verwenden:
```
./node_exporter --collector.cpu --collector.meminfo --no-collector.diskstats
```
Custom Metriken:
- Falls spezielle Metriken benötigt werden, können benutzerdefinierte Sammler implementiert und in den node_exporter integriert werden.

20.5 Best Practices

Ressourcennutzung überwachen:
- Überwachen Sie die Ressourcennutzung des node_exporter selbst, um sicherzustellen, dass er das System nicht übermäßig belastet.
Sicherheit:
- Beschränken Sie den Zugriff auf den node_exporter-Endpunkt durch geeignete Netzwerksicherheitsmaßnahmen wie Firewalls oder IP-Whitelist.
Regelmäßige Updates:
- Halten Sie den node_exporter auf dem neuesten Stand, um von Verbesserungen und Sicherheitsupdates zu profitieren.

Der node_exporter ist ein leistungsstarkes und flexibles Werkzeug zur Überwachung der Systemgesundheit und Leistung. Durch seine einfache Installation und Konfiguration bietet er eine schnelle und effiziente Möglichkeit, umfangreiche Metriken zu sammeln und in Prometheus zu integrieren.

20.6 Installation und Konfiguration

Der node_exporter ist ein essenzielles Werkzeug zur Überwachung von Systemmetriken in Prometheus. Er sammelt und exportiert zahlreiche Hardware- und Betriebssystemmetriken und stellt diese für Prometheus zur Verfügung. Hier sind die Schritte zur Installation und Konfiguration des node_exporter.

20.6.1 Installation des node_exporter

Installation unter Linux:

Laden Sie das neueste Release von der GitHub-Seite des node_exporter herunter:

wget https://github.com/prometheus/node_exporter/releases/download/v1.2.2/node_exporter-1.2.2.linux-amd64.tar.gz
tar xvfz node_exporter-1.2.2.linux-amd64.tar.gz
cd node_exporter-1.2.2.linux-amd64
sudo cp node_exporter /usr/local/bin/

Installation unter Windows:
- Laden Sie das neueste Release von der GitHub-Seite des node_exporter herunter und entpacken Sie die ZIP-Datei.
- Starten Sie den node_exporter durch Ausführen der node_exporter.exe:
```
.\node_exporter.exe
```

20.6.2 Konfiguration als Systemdienst

Um den node_exporter als Systemdienst einzurichten, können Sie einen Systemd-Dienst unter Linux erstellen.

Erstellen der Systemd-Dienstdatei:

Erstellen Sie eine Datei /etc/systemd/system/node_exporter.service mit folgendem Inhalt:

[Unit]
Description=Node Exporter
Wants=network-online.target
After=network-online.target

[Service]
User=nodeusr
ExecStart=/usr/local/bin/node_exporter
Restart=always

[Install]
WantedBy=multi-user.target

Dienst starten und aktivieren:

Laden Sie die neue Unit-Datei und starten Sie den node_exporter-Dienst:

sudo systemctl daemon-reload
sudo systemctl start node_exporter
sudo systemctl enable node_exporter

20.6.3 Konfiguration in Prometheus

Nachdem der node_exporter installiert und als Dienst konfiguriert wurde, müssen Sie Prometheus so konfigurieren, dass es die vom node_exporter bereitgestellten Metriken abfragt.

Hinzufügen des node_exporter als Ziel in prometheus.yml:
- Bearbeiten Sie die prometheus.yml-Datei und fügen Sie den node_exporter als Scrape-Target hinzu:
```
scrape_configs:
  - job_name: 'node_exporter'
    static_configs:
      - targets: ['localhost:9100']
```
Überprüfen der Konfiguration:
- Starten oder laden Sie Prometheus neu, damit die Änderungen wirksam werden:
```
./prometheus --config.file=prometheus.yml
```
- Alternativ, falls Prometheus als Dienst läuft:
```
sudo systemctl restart prometheus
```
Zugriff auf die Metriken:
- Öffnen Sie die Prometheus-Weboberfläche (http://localhost:9090) und führen Sie eine Abfrage aus, um sicherzustellen, dass die Metriken vom node_exporter gesammelt werden:
```
up{job="node_exporter"}
```

20.6.4 Erweiterte Konfiguration

Der node_exporter kann durch verschiedene Flags und Parameter angepasst werden, um spezifische Metriken zu sammeln oder bestimmte Sammler zu aktivieren/deaktivieren.

Beispiel für erweiterte Startoptionen:

Starten Sie den node_exporter mit zusätzlichen Flags:

/usr/local/bin/node_exporter --collector.cpu --collector.meminfo --no-collector.diskstats

Konfiguration von Sammlern:
- Sie können spezifische Sammler aktivieren oder deaktivieren, indem Sie entsprechende Flags setzen. Zum Beispiel:
```
/usr/local/bin/node_exporter --collector.filesystem.ignored-mount-points "^/(sys|proc|dev|run|var/lib/docker)($|/)"
```

20.6.5 Best Practices

Ressourcennutzung überwachen:
- Überwachen Sie die Ressourcennutzung des node_exporter selbst, um sicherzustellen, dass er das System nicht übermäßig belastet.
Sicherheit:
- Beschränken Sie den Zugriff auf den node_exporter-Endpunkt durch geeignete Netzwerksicherheitsmaßnahmen wie Firewalls oder IP-Whitelist.
Regelmäßige Updates:
- Halten Sie den node_exporter auf dem neuesten Stand, um von Verbesserungen und Sicherheitsupdates zu profitieren.

20.6.6 Fehlerbehebung

Überprüfung der Logs:
- Überprüfen Sie die Logs des node_exporter, um sicherzustellen, dass er ordnungsgemäß funktioniert:
```
sudo journalctl -u node_exporter
```
Netzwerkprobleme:
- Stellen Sie sicher, dass der node_exporter-Port (standardmäßig 9100) nicht von einer Firewall blockiert wird.

Durch die sorgfältige Installation und Konfiguration des node_exporter stellen Sie sicher, dass Sie umfassende Systemmetriken für Ihre Überwachungs- und Alarmierungsanforderungen in Prometheus erfassen.

20.7 Metriken und ihre Bedeutung

Der node_exporter sammelt eine Vielzahl von Metriken, die für die Überwachung der Systemgesundheit und Leistung von großer Bedeutung sind. Diese Metriken decken verschiedene Aspekte des Systems ab, einschließlich CPU, Speicher, Netzwerk und Dateisystem. Hier sind einige der wichtigsten Metriken und ihre Bedeutungen.

20.7.1 CPU-Metriken

node_cpu_seconds_total
- Beschreibung: Gesamtzeit in Sekunden, die die CPU in verschiedenen Modi (User, System, Idle, etc.) verbracht hat.
- Beispiel: node_cpu_seconds_total{mode="idle"}
- Bedeutung: Diese Metrik hilft dabei, die CPU-Auslastung zu überwachen und zu analysieren, wie viel Zeit die CPU in verschiedenen Zuständen verbringt.

20.7.2 Speichermetriken

node_memory_MemTotal_bytes
- Beschreibung: Gesamter physischer Speicher des Systems in Bytes.
- Bedeutung: Zeigt den gesamten verfügbaren Arbeitsspeicher des Systems an.
node_memory_MemFree_bytes
- Beschreibung: Unbenutzter Speicher in Bytes.
- Bedeutung: Gibt an, wie viel physischer Speicher aktuell frei ist.
node_memory_Buffers_bytes
- Beschreibung: Speicher, der von Kernel-Puffer verwendet wird.
- Bedeutung: Hilft bei der Analyse der Speichernutzung durch den Kernel.
node_memory_Cached_bytes
- Beschreibung: Speicher, der für Cache-Zwecke verwendet wird.
- Bedeutung: Gibt an, wie viel Speicher für gecachte Daten verwendet wird, was bei der Analyse von Speicherengpässen hilfreich sein kann.

20.7.3 Netzwerkmetriken

node_network_receive_bytes_total
- Beschreibung: Gesamtzahl der empfangenen Bytes pro Netzwerkinterface.
- Beispiel: node_network_receive_bytes_total{device="eth0"}
- Bedeutung: Hilft dabei, den eingehenden Netzwerkverkehr zu überwachen.
node_network_transmit_bytes_total
- Beschreibung: Gesamtzahl der gesendeten Bytes pro Netzwerkinterface.
- Beispiel: node_network_transmit_bytes_total{device="eth0"}
- Bedeutung: Hilft dabei, den ausgehenden Netzwerkverkehr zu überwachen.
node_network_receive_errors_total
- Beschreibung: Gesamtzahl der Empfangsfehler pro Netzwerkinterface.
- Bedeutung: Wichtig zur Erkennung von Netzwerkproblemen und -fehlern.
node_network_transmit_errors_total
- Beschreibung: Gesamtzahl der Sendefehler pro Netzwerkinterface.
- Bedeutung: Wichtig zur Erkennung von Netzwerkproblemen und -fehlern.

20.7.4 Festplatten-IO-Metriken

node_disk_io_time_seconds_total
- Beschreibung: Gesamtzeit, die für Festplatten-I/O aufgewendet wurde.
- Bedeutung: Hilft bei der Analyse der Festplattenauslastung und -leistung.
node_disk_read_bytes_total
- Beschreibung: Gesamtzahl der gelesenen Bytes pro Festplattenpartition.
- Bedeutung: Hilft dabei, die Leseaktivität der Festplatte zu überwachen.
node_disk_write_bytes_total
- Beschreibung: Gesamtzahl der geschriebenen Bytes pro Festplattenpartition.
- Bedeutung: Hilft dabei, die Schreibaktivität der Festplatte zu überwachen.

20.7.5 Dateisystemmetriken

node_filesystem_size_bytes
- Beschreibung: Gesamtgröße des Dateisystems in Bytes.
- Bedeutung: Zeigt die Gesamtgröße des Dateisystems an und hilft bei der Kapazitätsplanung.
node_filesystem_free_bytes
- Beschreibung: Verfügbarer Speicherplatz im Dateisystem in Bytes.
- Bedeutung: Gibt an, wie viel Speicherplatz im Dateisystem frei ist.
node_filesystem_avail_bytes
- Beschreibung: Verfügbarer Speicherplatz für nicht-root Benutzer in Bytes.
- Bedeutung: Zeigt, wie viel Speicherplatz für Anwendungen und Benutzer zur Verfügung steht.
node_filesystem_readonly
- Beschreibung: Gibt an, ob das Dateisystem im Nur-Lese-Modus ist.
- Bedeutung: Wichtig für die Überwachung der Verfügbarkeit und Integrität des Dateisystems.

20.7.6 Systemmetriken

node_load1
- Beschreibung: Durchschnittliche Systemlast der letzten Minute.
- Bedeutung: Hilft bei der Überwachung der aktuellen Systemlast und -auslastung.
node_load5
- Beschreibung: Durchschnittliche Systemlast der letzten 5 Minuten.
- Bedeutung: Gibt einen kurzen Trend der Systemlast über die letzten 5 Minuten wieder.
node_load15
- Beschreibung: Durchschnittliche Systemlast der letzten 15 Minuten.
- Bedeutung: Zeigt einen längeren Trend der Systemlast und hilft bei der Erkennung von längerfristigen Lastspitzen.

20.7.7 Prozessmetriken

node_procs_running
- Beschreibung: Anzahl der aktuell laufenden Prozesse.
- Bedeutung: Gibt an, wie viele Prozesse aktiv ausgeführt werden, was bei der Überwachung der Systemauslastung hilfreich ist.
node_procs_blocked
- Beschreibung: Anzahl der aktuell blockierten Prozesse.
- Bedeutung: Gibt an, wie viele Prozesse auf Ressourcen warten, was bei der Erkennung von Engpässen hilfreich ist.

20.7.8 Beispiel-Abfragen mit PromQL

CPU-Auslastung pro Kern:

sum by (cpu) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100

Verfügbare Speichermenge:
```
node_memory_MemAvailable_bytes
```

Netzwerkverkehr pro Interface:

rate(node_network_receive_bytes_total{device="eth0"}[5m])

Festplatten-IO:

rate(node_disk_io_time_seconds_total[5m])

Freier Speicherplatz im Dateisystem:
```
node_filesystem_free_bytes
```

20.7.9 Best Practices für die Nutzung von Metriken

Überwachung und Alarmierung:
- Richten Sie Alarme basierend auf wichtigen Metriken ein, um frühzeitig auf potenzielle Probleme aufmerksam gemacht zu werden.
Langfristige Trends:
- Nutzen Sie langfristige Trends und historische Daten, um die Systemleistung zu analysieren und zukünftige Anforderungen zu prognostizieren.
Ressourcenoptimierung:
- Analysieren Sie die gesammelten Metriken regelmäßig, um Ressourcenengpässe zu identifizieren und Optimierungen vorzunehmen.

Der node_exporter bietet eine umfassende Sammlung von Systemmetriken, die für die Überwachung und Optimierung der Systemleistung unerlässlich sind. Durch die gezielte Nutzung dieser Metriken können Sie die Verfügbarkeit und Effizienz Ihrer Systeme verbessern.

20.8 Beispiel-Dashboards

Die Integration von Prometheus und dem node_exporter ermöglicht die Erstellung umfassender Dashboards zur Überwachung der Systemgesundheit und Leistung. Hier sind einige Beispiel-Dashboards, die Ihnen helfen, die wichtigsten Metriken im Blick zu behalten. Diese Dashboards können mit Grafana erstellt werden, einem beliebten Tool zur Visualisierung von Prometheus-Daten.

20.8.1 Grafana-Dashboard für CPU-Überwachung

CPU-Auslastung pro Kern:
- PromQL-Abfrage:
```
100 - (avg by (instance, cpu) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
```
- Beschreibung: Diese Abfrage zeigt die CPU-Auslastung pro Kern in Prozent.
Gesamte CPU-Auslastung:
- PromQL-Abfrage:
```
100 - (avg by (instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
```
- Beschreibung: Diese Abfrage zeigt die durchschnittliche CPU-Auslastung über alle Kerne.

20.8.2 Grafana-Dashboard für Speicherüberwachung

Verfügbarer Speicher:
- PromQL-Abfrage:
```
node_memory_MemAvailable_bytes
```
- Beschreibung: Diese Abfrage zeigt die verfügbare Speichermenge in Bytes.
Speichernutzung:
- PromQL-Abfrage:
```
node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes
```
- Beschreibung: Diese Abfrage zeigt die genutzte Speichermenge in Bytes.

20.8.3 Grafana-Dashboard für Netzwerküberwachung

Empfangene Bytes pro Sekunde:
- PromQL-Abfrage:
```
rate(node_network_receive_bytes_total{device="eth0"}[5m])
```
- Beschreibung: Diese Abfrage zeigt die Rate der empfangenen Bytes pro Sekunde für das Netzwerkinterface eth0.
Gesendete Bytes pro Sekunde:
- PromQL-Abfrage:
```
rate(node_network_transmit_bytes_total{device="eth0"}[5m])
```
- Beschreibung: Diese Abfrage zeigt die Rate der gesendeten Bytes pro Sekunde für das Netzwerkinterface eth0.

20.8.4 Grafana-Dashboard für Festplatten-IO

Leserate:
- PromQL-Abfrage:
```
rate(node_disk_read_bytes_total[5m])
```
- Beschreibung: Diese Abfrage zeigt die Rate der gelesenen Bytes pro Sekunde.
Schreibrate:
- PromQL-Abfrage:
```
rate(node_disk_written_bytes_total[5m])
```
- Beschreibung: Diese Abfrage zeigt die Rate der geschriebenen Bytes pro Sekunde.
IO-Wartezeit:
- PromQL-Abfrage:
```
rate(node_disk_io_time_seconds_total[5m])
```
- Beschreibung: Diese Abfrage zeigt die IO-Wartezeit in Sekunden.

20.8.5 Grafana-Dashboard für Dateisystemüberwachung

Freier Speicherplatz:
- PromQL-Abfrage:
```
node_filesystem_free_bytes
```
- Beschreibung: Diese Abfrage zeigt den freien Speicherplatz im Dateisystem in Bytes.
Genutzter Speicherplatz:
- PromQL-Abfrage:
```
node_filesystem_size_bytes - node_filesystem_free_bytes
```
- Beschreibung: Diese Abfrage zeigt den genutzten Speicherplatz im Dateisystem in Bytes.

20.8.6 Beispiel-Dashboard-Konfiguration in Grafana

Dashboard-Erstellung:
- Öffnen Sie Grafana und erstellen Sie ein neues Dashboard.
- Fügen Sie Panels für jede der oben genannten Metriken hinzu.
Panel-Konfiguration:
- Wählen Sie den richtigen Datentyp und die Darstellung für jedes Panel aus (z.B. Liniengraph, Balkendiagramm).
- Stellen Sie sicher, dass die PromQL-Abfragen korrekt in den Panels konfiguriert sind.
Layout und Design:
- Organisieren Sie die Panels in einer logischen Reihenfolge, um eine klare Übersicht zu gewährleisten.
- Verwenden Sie Beschriftungen und Anmerkungen, um die Bedeutung der angezeigten Metriken zu verdeutlichen.

20.8.7 Beispiel-Dashboard JSON-Export

Ein fertiges Dashboard kann als JSON-Datei exportiert und in anderen Grafana-Instanzen importiert werden. Hier ist ein Beispiel für eine einfache Dashboard-JSON-Konfiguration:

{
  "dashboard": {
    "id": null,
    "title": "System Monitoring",
    "panels": [
      {
        "type": "graph",
        "title": "CPU Usage",
        "targets": [
          {
            "expr": "100 - (avg by (instance, cpu) (rate(node_cpu_seconds_total{mode=\"idle\"}[5m])) * 100)",
            "format": "time_series"
          }
        ]
      },
      {
        "type": "graph",
        "title": "Memory Usage",
        "targets": [
          {
            "expr": "node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes",
            "format": "time_series"
          }
        ]
      },
      {
        "type": "graph",
        "title": "Network Receive",
        "targets": [
          {
            "expr": "rate(node_network_receive_bytes_total{device=\"eth0\"}[5m])",
            "format": "time_series"
          }
        ]
      },
      {
        "type": "graph",
        "title": "Disk IO Read",
        "targets": [
          {
            "expr": "rate(node_disk_read_bytes_total[5m])",
            "format": "time_series"
          }
        ]
      }
    ]
  }
}

20.8.8 Import eines Dashboards

Importieren eines Dashboards in Grafana:
- Gehen Sie zu Dashboards > Manage und klicken Sie auf Import.
- Laden Sie die JSON-Datei hoch oder fügen Sie den JSON-Code direkt ein.
Anpassen des Dashboards:
- Passen Sie die Panels nach Bedarf an, um sicherzustellen, dass alle relevanten Metriken und Informationen angezeigt werden.

Durch die Verwendung von Grafana und die Erstellung von Dashboards können Sie die von node_exporter gesammelten Metriken effektiv visualisieren und überwachen. Dies ermöglicht es Ihnen, schnell auf Systemprobleme zu reagieren und die Gesamtleistung Ihrer Infrastruktur zu optimieren.