redis-field-engineering
diff --git a/‎docs/modules/ROOT/pages/platforms/grafana.adoc‎
Lines changed: 12 additions & 15 deletions b/‎docs/modules/ROOT/pages/platforms/grafana.adoc‎
Lines changed: 12 additions & 15 deletions
diff --git a/‎docs/modules/ROOT/pages/platforms/newrelic.adoc‎
Lines changed: 32 additions & 32 deletions b/‎docs/modules/ROOT/pages/platforms/newrelic.adoc‎
Lines changed: 32 additions & 32 deletions
diff --git a/‎docs/modules/ROOT/pages/platforms/prometheus.adoc‎
Lines changed: 24 additions & 26 deletions b/‎docs/modules/ROOT/pages/platforms/prometheus.adoc‎
Lines changed: 24 additions & 26 deletions
@@ -174,7 +174,7 @@ Name: cluster
 Label: Cluster
 Type: Query
 Data source: Redis-Enterprise-Prometheus
-Query: label_values(redis_enterprise_cluster_health, cluster)
+Query: label_values(node_metrics_up, cluster)
 Regex: .*
 Multi-value: true
 Include All option: true
@@ -184,11 +184,11 @@ Example variable for database selection:
 
 [source,text]
 ----
-Name: database
-Label: Database
+Name: db
+Label: db
 Type: Query
 Data source: Redis-Enterprise-Prometheus
-Query: label_values(redis_enterprise_database_up{cluster="$cluster"}, database)
+Query: label_values(endpoint_client_connections{cluster="$cluster"}, db)
 Refresh: On Dashboard Load
 Multi-value: true
 Include All option: true
@@ -201,13 +201,10 @@ Use variables in your panel queries:
 [source,promql]
 ----
 # Filter by selected cluster and database
-redis_enterprise_database_ops_per_sec{cluster="$cluster", database="$database"}
+rate(endpoint_read_requests{cluster="$cluster", db="$db"}[5m]) + rate(endpoint_write_requests{cluster="$cluster", db="$db"}[5m]) + rate(endpoint_other_requests{cluster="$cluster", db="$db"}[5m])
 
 # Multi-value variable example
-redis_enterprise_database_ops_per_sec{cluster=~"$cluster", database=~"$database"}
-
-# With regex
-redis_enterprise_database_ops_per_sec{cluster=~"$cluster", database=~"$database|prod-.*"}
+rate(endpoint_read_requests{cluster=~"$cluster", db=~"$db"}[5m]) + rate(endpoint_write_requests{cluster=~"$cluster", db=~"$db"}[5m]) + rate(endpoint_other_requests{cluster=~"$cluster", db=~"$db"}[5m])
 ----
 
 === Panel Configuration Examples
@@ -220,8 +217,8 @@ redis_enterprise_database_ops_per_sec{cluster=~"$cluster", database=~"$database|
   "title": "Operations Per Second",
   "targets": [
     {
-      "expr": "rate(redis_enterprise_database_total_ops{cluster=\"$cluster\", database=\"$database\"}[5m])",
-      "legendFormat": "{{database}} - {{cluster}}",
+      "expr": "rate(endpoint_read_requests{cluster=\"$cluster\", db=\"$db\"}[5m]) + rate(endpoint_write_requests{cluster=\"$cluster\", db=\"$db\"}[5m]) + rate(endpoint_other_requests{cluster=\"$cluster\", db=\"$db\"}[5m])",
+      "legendFormat": "{{db}} - {{cluster}}",
       "refId": "A"
     }
   ],
@@ -243,7 +240,7 @@ redis_enterprise_database_ops_per_sec{cluster=~"$cluster", database=~"$database|
   "title": "Memory Usage",
   "targets": [
     {
-      "expr": "(redis_enterprise_database_used_memory{cluster=\"$cluster\", database=\"$database\"} / redis_enterprise_database_memory_limit{cluster=\"$cluster\", database=\"$database\"}) * 100",
+      "expr": "(sum by(cluster,db)(redis_server_used_memory{cluster=\"$cluster\", db=\"$db\", role=\"master\"}) / (avg by(cluster,db)(db_memory_limit_bytes{cluster=\"$cluster\", db=\"$db\"}) / avg by(cluster,db)(db_replication_factor{cluster=\"$cluster\", db=\"$db\"}))) * 100",
       "refId": "A"
     }
   ],
@@ -273,7 +270,7 @@ redis_enterprise_database_ops_per_sec{cluster=~"$cluster", database=~"$database|
   "title": "Active Databases",
   "targets": [
     {
-      "expr": "count(redis_enterprise_database_up{cluster=\"$cluster\"} == 1)",
+      "expr": "count(endpoint_client_connections{cluster=\"$cluster\"})",
       "refId": "A"
     }
   ],
@@ -306,7 +303,7 @@ Conditions:
 WHEN avg() OF query(A, 5m, now) IS ABOVE 90
 
 Query A:
-(redis_enterprise_database_used_memory / redis_enterprise_database_memory_limit) * 100
+(sum by(cluster,db)(redis_server_used_memory{role="master"}) / (avg by(cluster,db)(db_memory_limit_bytes) / avg by(cluster,db)(db_replication_factor))) * 100
 ----
 
 ==== Alert via Configuration
@@ -332,7 +329,7 @@ groups:
               to: 0
             datasourceUid: redis-prometheus
             model:
-              expr: (redis_enterprise_database_used_memory / redis_enterprise_database_memory_limit) * 100 > 90
+              expr: (sum by(cluster,db)(redis_server_used_memory{role="master"}) / (avg by(cluster,db)(db_memory_limit_bytes) / avg by(cluster,db)(db_replication_factor))) * 100 > 90
               intervalMs: 1000
               maxDataPoints: 43200
         noDataState: NoData
 
@@ -46,7 +46,7 @@ integrations:
     config:
       # Redis Enterprise metrics endpoint
       standalone_urls:
-        - http://redis-cluster.example.com:8070/metrics
+        - http://redis-cluster.example.com:8070/v2
 
       # Scrape interval
       scrape_duration: "30s"
@@ -95,7 +95,7 @@ remote_write:
     write_relabel_configs:
       # Only send Redis Enterprise metrics
       - source_labels: [__name__]
-        regex: 'redis_enterprise_.*'
+        regex: '(redis_server_.*|endpoint_.*|db_.*|node_.*)'
         action: keep
 ----
 
@@ -124,7 +124,7 @@ data:
     targets:
       - description: "Redis Enterprise pods"
         urls:
-          - "http://redis-enterprise-cluster:8070/metrics"
+          - "http://redis-enterprise-cluster:8070/v2"
         interval: 30s
 ----
 
@@ -159,46 +159,46 @@ Use NRQL (New Relic Query Language) to query Redis Enterprise metrics:
 [source,sql]
 ----
 -- Operations per second by database
-SELECT average(redis_enterprise_database_ops_per_sec)
+SELECT rate(endpoint_read_requests, 1 minute) + rate(endpoint_write_requests, 1 minute) + rate(endpoint_other_requests, 1 minute)
 FROM Metric
 WHERE cluster = 'production'
-FACET database
+FACET db
 TIMESERIES AUTO
 
 -- Memory usage percentage
-SELECT (average(redis_enterprise_database_used_memory) /
-        average(redis_enterprise_database_memory_limit)) * 100
+SELECT (average(redis_server_used_memory) /
+        average(db_memory_limit_bytes)) * 100
 AS 'Memory Usage %'
 FROM Metric
-WHERE cluster = 'production'
-FACET database
+WHERE cluster = 'production' AND role = 'master'
+FACET db
 TIMESERIES AUTO
 
 -- Database availability
-SELECT sum(redis_enterprise_database_up)
+SELECT sum(redis_server_up)
 FROM Metric
 WHERE cluster = 'production'
-FACET database
+FACET db
 TIMESERIES AUTO
 
 -- Top 5 databases by operations
-SELECT average(redis_enterprise_database_ops_per_sec) AS 'Ops/Sec'
+SELECT rate(endpoint_read_requests, 1 minute) + rate(endpoint_write_requests, 1 minute) + rate(endpoint_other_requests, 1 minute) AS 'Ops/Sec'
 FROM Metric
 WHERE cluster = 'production'
-FACET database
+FACET db
 LIMIT 5
 
 -- Connection count over time
-SELECT average(redis_enterprise_database_connections)
+SELECT average(endpoint_client_connections)
 FROM Metric
-WHERE cluster = 'production' AND database = 'prod-cache'
+WHERE cluster = 'production' AND db = 'prod-cache'
 TIMESERIES AUTO
 
 -- P99 Latency trend
-SELECT percentile(redis_enterprise_database_latency, 99) AS 'P99 Latency'
+SELECT percentile(endpoint_latency, 99) AS 'P99 Latency'
 FROM Metric
 WHERE cluster = 'production'
-FACET database
+FACET db
 TIMESERIES 5 minutes
 ----
 
@@ -229,7 +229,7 @@ curl -X POST 'https://api.newrelic.com/graphql' \
               rawConfiguration: {
                 nrqlQueries: [{
                   accountId: YOUR_ACCOUNT_ID,
-                  query: \"SELECT average(redis_enterprise_database_ops_per_sec) FROM Metric FACET database TIMESERIES\"
+                  query: \"SELECT rate(endpoint_read_requests, 1 minute) + rate(endpoint_write_requests, 1 minute) + rate(endpoint_other_requests, 1 minute) FROM Metric FACET db TIMESERIES\"
                 }]
               }
             }]
@@ -260,11 +260,11 @@ curl -X POST 'https://api.newrelic.com/graphql' \
 [source,sql]
 ----
 -- Alert when memory usage > 90%
-SELECT (average(redis_enterprise_database_used_memory) /
-        average(redis_enterprise_database_memory_limit)) * 100
+SELECT (average(redis_server_used_memory) /
+        average(db_memory_limit_bytes)) * 100
 FROM Metric
-WHERE cluster = 'production'
-FACET database
+WHERE cluster = 'production' AND role = 'master'
+FACET db
 
 -- Threshold: Above 90 for at least 5 minutes
 -- Severity: Critical
@@ -275,10 +275,10 @@ FACET database
 [source,sql]
 ----
 -- Alert when database is down
-SELECT sum(redis_enterprise_database_up)
+SELECT sum(redis_server_up)
 FROM Metric
 WHERE cluster = 'production'
-FACET database
+FACET db
 
 -- Threshold: Equal to 0 for at least 1 minute
 -- Severity: Critical
@@ -289,10 +289,10 @@ FACET database
 [source,sql]
 ----
 -- Alert when P99 latency exceeds threshold
-SELECT percentile(redis_enterprise_database_latency, 99)
+SELECT percentile(endpoint_latency, 99)
 FROM Metric
 WHERE cluster = 'production'
-FACET database
+FACET db
 
 -- Threshold: Above 0.1 (100ms) for at least 5 minutes
 -- Severity: Warning
@@ -318,11 +318,11 @@ resource "newrelic_nrql_alert_condition" "high_memory" {
 
   nrql {
     query = <<-EOT
-      SELECT (average(redis_enterprise_database_used_memory) /
-              average(redis_enterprise_database_memory_limit)) * 100
+      SELECT (average(redis_server_used_memory) /
+              average(db_memory_limit_bytes)) * 100
       FROM Metric
-      WHERE cluster = 'production'
-      FACET database
+      WHERE cluster = 'production' AND role = 'master'
+      FACET db
     EOT
   }
 
@@ -351,10 +351,10 @@ resource "newrelic_nrql_alert_condition" "database_down" {
 
   nrql {
     query = <<-EOT
-      SELECT sum(redis_enterprise_database_up)
+      SELECT sum(redis_server_up)
       FROM Metric
       WHERE cluster = 'production'
-      FACET database
+      FACET db
     EOT
   }
 
 
@@ -30,7 +30,7 @@ scrape_configs:
   - job_name: 'redis-enterprise'
     static_configs:
       - targets: ['redis-cluster-1.example.com:8070']
-    metrics_path: '/metrics'
+    metrics_path: '/v2'
     scrape_interval: 30s
     scrape_timeout: 10s
 ----
@@ -216,14 +216,14 @@ Test that metrics are being collected:
 
 [source,bash]
 ----
-# Check if Redis Enterprise is up
-curl -g 'http://localhost:9090/api/v1/query?query=redis_enterprise_database_up' | jq
+# Check if Redis Enterprise databases are up
+curl -g 'http://localhost:9090/api/v1/query?query=redis_server_up' | jq
 
 # Check database operations per second
-curl -g 'http://localhost:9090/api/v1/query?query=redis_enterprise_database_ops_per_sec' | jq
+curl -g 'http://localhost:9090/api/v1/query?query=rate(endpoint_read_requests[5m])' | jq
 
 # Check memory usage
-curl -g 'http://localhost:9090/api/v1/query?query=redis_enterprise_database_used_memory' | jq
+curl -g 'http://localhost:9090/api/v1/query?query=redis_server_used_memory' | jq
 ----
 
 === Test with PromQL
@@ -233,16 +233,16 @@ Use Prometheus query language to verify data:
 [source,promql]
 ----
 # Show all Redis Enterprise databases
-redis_enterprise_database_up
+redis_server_up
 
 # Calculate operations per second (5min average)
-rate(redis_enterprise_database_total_ops[5m])
+rate(endpoint_read_requests[5m]) + rate(endpoint_write_requests[5m]) + rate(endpoint_other_requests[5m])
 
 # Memory usage percentage
-(redis_enterprise_database_used_memory / redis_enterprise_database_memory_limit) * 100
+(sum by(cluster,db)(redis_server_used_memory{role="master"}) / (avg by(cluster,db)(db_memory_limit_bytes) / avg by(cluster,db)(db_replication_factor))) * 100
 
 # Top 5 databases by ops
-topk(5, rate(redis_enterprise_database_total_ops[5m]))
+topk(5, rate(endpoint_read_requests[5m]) + rate(endpoint_write_requests[5m]) + rate(endpoint_other_requests[5m]))
 ----
 
 == Recording Rules
@@ -257,30 +257,28 @@ groups:
     rules:
       # Pre-calculate ops per second
       - record: redis_enterprise:database:ops_per_sec:rate5m
-        expr: rate(redis_enterprise_database_total_ops[5m])
-        labels:
-          job: redis-enterprise
+        expr: rate(endpoint_read_requests[5m]) + rate(endpoint_write_requests[5m]) + rate(endpoint_other_requests[5m])
 
       # Pre-calculate memory usage percentage
       - record: redis_enterprise:database:memory_usage_pct
         expr: |
-          (redis_enterprise_database_used_memory /
-           redis_enterprise_database_memory_limit) * 100
+          (sum by(cluster,db)(redis_server_used_memory{role="master"}) / 
+           (avg by(cluster,db)(db_memory_limit_bytes) / avg by(cluster,db)(db_replication_factor))) * 100
 
       # Pre-calculate hit rate
       - record: redis_enterprise:database:hit_rate:rate5m
         expr: |
-          rate(redis_enterprise_database_keyspace_hits[5m]) /
-          (rate(redis_enterprise_database_keyspace_hits[5m]) +
-           rate(redis_enterprise_database_keyspace_misses[5m]))
+          rate(redis_server_keyspace_read_hits{role="master"}[5m]) /
+          (rate(redis_server_keyspace_read_hits{role="master"}[5m]) +
+           rate(redis_server_keyspace_read_misses{role="master"}[5m]))
 
       # Pre-calculate eviction rate
       - record: redis_enterprise:database:evictions_per_sec:rate5m
-        expr: rate(redis_enterprise_database_evicted_keys[5m])
+        expr: rate(redis_server_evicted_keys{role="master"}[5m])
 
       # Aggregate cluster-wide operations
       - record: redis_enterprise:cluster:total_ops:rate5m
-        expr: sum(rate(redis_enterprise_database_total_ops[5m])) by (cluster)
+        expr: sum(rate(endpoint_read_requests[5m]) + rate(endpoint_write_requests[5m]) + rate(endpoint_other_requests[5m])) by (cluster)
 ----
 
 Save this to `/etc/prometheus/rules/redis-enterprise.yml` and reference it in `prometheus.yml`:
@@ -333,13 +331,13 @@ If targets show as "DOWN":
 [source,bash]
 ----
 # Test connectivity
-curl http://redis-cluster.example.com:8070/metrics
+curl http://redis-cluster.example.com:8070/v2
 
 # Check Prometheus logs
 docker logs prometheus | grep redis-enterprise
 
 # Verify authentication
-curl -u prometheus:password http://redis-cluster.example.com:8070/metrics
+curl -u prometheus:password http://redis-cluster.example.com:8070/v2
 ----
 
 === Missing Metrics
@@ -349,7 +347,7 @@ If expected metrics are missing:
 [source,bash]
 ----
 # List all available metrics
-curl http://redis-cluster.example.com:8070/metrics | grep redis_enterprise
+curl http://redis-cluster.example.com:8070/v2 | grep redis_enterprise
 
 # Check metric cardinality
 curl http://localhost:9090/api/v1/label/__name__/values | jq '.data[] | select(startswith("redis_enterprise"))'
@@ -365,12 +363,12 @@ scrape_configs:
   - job_name: 'redis-enterprise'
     # ... other config ...
     metric_relabel_configs:
-      # Keep only essential metrics
+      # Keep only essential metrics (adjust based on your actual needs)
       - source_labels: [__name__]
-        regex: 'redis_enterprise_(database|cluster|node)_.*'
+        regex: '(redis_server_.*|endpoint_.*|db_.*|cluster_.*|node_.*)'
         action: keep
-      # Drop high-cardinality labels
-      - regex: 'instance_id'
+      # Drop high-cardinality labels if needed
+      - regex: 'shard_id'
         action: labeldrop
 ----