SRE Observability SLO Engineer at GE Vernova | Hybrid Hired

About the role

SRE Observability SLO Engineer for GE Vernova’s GridOS Platform Engineering team. Building telemetry stack in SaaS reliability for critical energy infrastructure.

Responsibilities

Implement organization-wide telemetry standards covering metrics, logs, and distributed traces across all GridOS SaaS services.
Implement metrics collection for Kubernetes-hosted services (EKS/Rancher) including pod-level, namespace-level, and cluster-level metrics.
Publish and maintain an Observability Runbook library covering onboarding, alert tuning, and dashboard standards for Platform SRE and Production DevOps teams.
Partner with product engineering, Platform SRE, and customer stakeholders to define meaningful Service Level Indicators (SLIs) and Service Level Objectives (SLOs) per product and customer tier.
Build and maintain SLO tooling — error budget burn-rate alerts, burn-rate dashboards, and automated SLO compliance reports.
Design and build operational dashboards covering availability, latency, error rates, and saturation (the 'Golden Signals') for every GridOS SaaS product.
Create executive-level dashboards for SRE leadership and customer-facing uptime/availability reports aligned to contractual SLAs.
Conduct periodic observability health reviews to identify gaps in coverage, reduce MTTD (Mean Time to Detect), and improve MTTR (Mean Time to Resolve).

Requirements

2–3 years in SRE, observability engineering, or infrastructure reliability roles.
Deep expertise with at least one major observability platform — Datadog, Grafana + Prometheus, AWS CloudWatch, Dynatrace, or New Relic.
Hands-on experience implementing SLIs, SLOs, and error budget burn-rate alerting in a production SaaS environment.
Strong understanding of distributed systems telemetry: metrics (Prometheus/CloudWatch), structured logging (CloudWatch Logs Insights, ELK), and distributed tracing (OpenTelemetry, AWS X-Ray).
Experience with Kubernetes observability — kube-state-metrics, node exporters, Helm-deployed monitoring stacks, and namespace-level resource metrics.
Proficiency in at least one query/visualization language: PromQL, Splunk SPL, Datadog Query Language, or CloudWatch Logs Insights query syntax.
Experience designing alerting strategies that minimize alert fatigue through symptom-based and burn-rate approaches.
Scripting skills in Python and/or Bash for automation of monitoring configuration and report generation.

Benefits

Relocation Assistance Provided

Similar roles

Browse all Devops Engineer jobs

yesterday

SF

Principal Full Stack Engineer – SRE

skillventory - A Leading Talent Research Firm

Full - Stack Engineer enhancing engineering productivity at Fidelity. Building internal tools for SRE teams to improve operational efficiency and reliability.

Hybrid Role

Westlake United States Devops Engineer

yesterday

CG

DevOps Engineer – m/w/d

Cloudogu GmbH

DevOps Engineer at Cloudogu working with development and operations for reliable software delivery. Focusing on CI/CD, infrastructure automation, and platform services in an agile environment.

Hybrid Role

Braunschweig Germany Devops Engineer

2 days ago

SW

Junior DevOps Engineer

Swift

Jr. DevOps Engineer supporting and improving CI/CD pipelines and Linux systems at Swift. Collaborating with senior engineers in a hands - on learning environment.

Hybrid Role

Tysons United States Devops Engineer

$66,960 - $124,354 per year

2 days ago

SH

Senior DevOps Engineer

Spring Health

Senior DevOps Engineer I managing automation tooling and multi - cloud infrastructure at Spring Health. Collaborating with AI and Infrastructure teams in a hybrid Seattle office.

Hybrid Role

Seattle United States Devops Engineer

$159,100 - $191,000 per year

2 days ago

EG

Senior Site Reliability Engineer – Backup

Expleo Group

Site Reliability Engineer for cloudified backup platform using Commvault technology at Expleo. Joining a dynamic team to ensure backup infrastructure scalability and reliability.

Hybrid Role

Bucharest Romania Devops Engineer

2 days ago

EG

Performance & Reliability Engineer

Expleo Group

Performance & Reliability Engineer overseeing Card Issuing core applications for banks. Architecting solutions' performance while mentoring engineers and addressing complex challenges.

Hybrid Role

Bucharest Romania Devops Engineer

2 days ago

EG

Senior Site Reliability Engineer – Storage

Expleo Group

Site Reliability Engineer responsible for designing and maintaining scalable services with high availability. Collaborating with development teams to enhance reliability and operational excellence.

Hybrid Role

Bucharest Romania Devops Engineer

2 days ago

MT

Technical Staff – ALM & DevOps Platforms

Metsi Technologies

Technical Staff leading the architecture, reliability, and modernization of enterprise ALM and DevOps tools. Driving strategy and influencing product development in collaboration with various teams.

Hybrid Role

Hopkinton United States Devops Engineer

$204,000 - $264,000 per year

2 days ago

SS

Senior Site Reliability Engineer

SAN R&D Business Solutions

Site Reliability Engineer responsible for reliability and availability, collaborating with development teams on scalable systems. Applying software engineering practices to improve production operations.

Hybrid Role

Bellville United States Devops Engineer

$60 per hour

2 days ago

LG

DevOps Engineer, Security Data and AI Lab

Lloyds Banking Group

DevOps Engineer in the Security Data and AI Lab at Lloyds Banking Group driving data and cloud infrastructure's influence on product operations and customer service improvements.

Hybrid Role

Leeds United Kingdom Devops Engineer

£48,987 - £54,430 per year