Team Lead Operations (all genders)

Permanent employee, Full-time · Cologne / Remote from Germany

Read job description in:
Über das Arbeiten bei envelio
Zu einfach ist langweilig! Gemeinsam haben wir die Mission, die Energiewende voranzutreiben. Wir lieben, was wir tun und dabei ist uns kein Thema zu groß. Wir übernehmen Verantwortung für unsere Arbeit und wachsen an jeder neuen Aufgabe. Kurz gesagt: Own it, love it, grow with it.

Wir sind ein bodenständiges Team aus Kaffee- und Mate-Liebhaber:innen. Unser Geek-Humor resultiert in einer rituellen Nutzung von Emojis und der enzyklopädischen Herausarbeitung von unnützem Wissen. Mehr als 150 envelianer:innen mit über 20 verschiedenen Nationalitäten sind bereits an Bord. Komm dazu und wachse mit uns!
Deine Rolle
Als Team Lead Operations (all genders) baust du ein hoch technisches Team von rund 6 Personen auf und führst es mit Fokus auf den stabilen, sicheren und planbaren Betrieb unseres Produkts: der Intelligent Grid Platform (IGP).

Dein Team verantwortet Product Operations: Ihr stellt sicher, dass Kunden-IGP-Umgebungen zuverlässig laufen, ihr treibt operative Prozesse wie Incident Handling und Releases voran und ihr leitet aus realen Produktionssignalen systematische Verbesserungen ab.

Du arbeitest eng mit Product, Customer Success und Engineering Teams zusammen. Außerdem arbeitest du eng mit dem SRE/Infrastructure Team zusammen, das die Plattform-Grundlage verantwortet (Cluster Provisioning, Deployment Pipelines, Observability-Tooling etc.), während dein Team den Fokus auf den operativen Betrieb der IGP für Kunden im Tagesgeschäft legt.

Du hilfst dabei, unser Operating Model schrittweise in Richtung 24/7 Zuverlässigkeit für Kunden-Umgebungen weiterzuentwickeln (Prozesse, Ownership und Eskalation) – gemeinsam mit Engineering, SRE/Infrastructure und Customer Success.
Wie du etwas bewirkst
  • Du coachst und betreust deine Mitarbeitenden und hilfst ihnen durch 1:1-Gespräche und regelmäßiges Feedback, sich weiterzuentwickeln
  • Du verantwortest und entwickelst die operative Ausführung des IGP-Betriebs über Kunden-Umgebungen hinweg
  • Du stellst schnelle und strukturierte Bearbeitung von kundenrelevanten Problemen sicher (z.B. IGP Incidents / HOTs) und sorgst für nachhaltige Follow-ups
  • Du schaffst Klarheit über Ownership und Eskalationswege für Production-Themen und koordinierst effizient über Squads hinweg mit Customer Success
  • Du treibst Operational Excellence: ruhige Incident-Kommunikation, pragmatische Problemlösung und eine Kultur kontinuierlicher Verbesserung (blameless)
  • Du balancierst kurzfristige operative Arbeit (Service wiederherstellen) mit langfristigen Investments (Toil reduzieren, Reliability verbessern, Tooling und Runbooks verbessern)
  • Du setzt Prioritäten, planst Kapazitäten und steuerst Roadmap/Backlog für Operations-relevante Arbeit
  • Du formst das Team im Rekrutierungsprozess und gestaltest individuelle Entwicklungspfade
Dein Profil
Perfektion ist ein Mythos! Viel mehr interessiert uns der Mensch hinter dem Bildschirm. Diese Kriterien sind also eher als Orientierungshilfe für dich gedacht. Wir sind gespannt, wie deine individuellen Fähigkeiten zu uns passen.
  • Du hast starke Erfahrung im Betrieb komplexer Cloud-Applikationen und weißt, wie man Services unter realen Constraints zuverlässig betreibt
  • Du bist sicher in Incident Management, Root Cause Analyse und Priorisierung unter Zeitdruck
  • Du hast nachweisliche Erfahrung in der Führung und Entwicklung eines Teams in einem operativ geprägten Umfeld
  • Du kannst Stakeholder gut managen und über Teams hinweg koordinieren (Engineering Squads, Product, Customer Success)
  • Du reduzierst operativen Aufwand nachhaltig durch bessere Prozesse, Automatisierung und Dokumentation
  • Du kommunizierst klar, gerade in High-Pressure-Situationen, und sorgst für Alignment auf Next Steps
  • Du beherrschst Deutsch und Englisch fließend in Wort und Schrift.
Wie wir Software entwickeln
  • Klar definierte Verantwortung für Produktthemen und effiziente Koordination zwischen Squads und Customer Success
  • Strukturiertes Incident Management (Service wiederherstellen, klar kommunizieren, dann Ursachenanalyse)
  • Release-Prozesse mit pragmatischem Risikomanagement (sichere Änderungen, schnelle Rollbacks bei Bedarf)
  • Monitoring- und Alerting-Hygiene (signal over noise)
  • Umfassende Runbooks und Automatisierung zur langfristigen Reduzierung operativer Belastung

Unser Tech Stack
  • Multi-cloud, hybrid on-prem Setup mit Kubernetes und Helm als Standard
  • Anwendung primär in Python und TypeScript
  • Standard Backing Services wie PostgreSQL, RabbitMQ, Redis
  • Gitlab & Gitlab CI
  • Terraform für Infrastructure as Code
Deine Benefits
  • Passe den Arbeitsmodus an deinen Lifestyle an – fully remote oder hybrid mit Office-Option
  • Option zum mobilen Arbeiten aus dem Ausland (bis zu drei Monate pro Jahr von überall in der EU oder den USA)
  • State of the Art Technologie und moderner Tech Stack
  • Sehr gute Hardware-Ausstattung (16 Zoll MacBooks, 2 Bildschirme an deinem Arbeitsplatz)
  • 30 Urlaubstage + 3 corporate holidays
  • Unterstützung deiner Gesundheit mit der Urban Sports Club Kooperation
  • Flexible Nutzung eines monatlichen Mobilitätsbudgets (z.B. Jobrad, ÖPNV)
  • Zeit und Budget für individuelles Wachstum
  • optionale Betriebliche Altersvorsorge
  • Regelmäßige Company und Team Events
Über uns

Intelligente Netze für eine nachhaltige Zukunft weltweit – das ist unsere Vision! Deshalb schaffen wir das digitale Zentrum für die Zukunft des Stromnetzbetriebs: Die Intelligent Grid Platform (IGP). Die IGP bildet den Kern unserer SaaS-Lösung. Dabei ist es unser Ziel, die IGP und envelio jeden Tag 1 % besser zu machen. Komm ins envelio-Team und trage mit deiner Arbeit zur Energiewende bei. 

Als Remote-First-Unternehmen lassen wir dich entscheiden, wie viel du remote arbeiten möchtest – von 0% bis 100%. Ob du in Köln oder Aachen, Bonn oder Berlin, München oder Castrop-Rauxel wohnst; Hauptsache du hast Internet! Du kannst auch bis zu drei Monate im Jahr vom Ausland aus arbeiten. Seit 2017 haben wir ein vielfältiges internationales Team aufgebaut, mit Englisch als Unternehmenssprache.

About Working at envelio
Too easy is boring! Together, we are on a mission to drive forward the energy transition. We love what we do, and we are unafraid to dive in. We believe in taking ownership of our work and in continuously growing and evolving.
In short: own it, love it, grow with it.

We are a humble team of coffee and maté lovers with over 20 nationalities. With our geek humor, our love for emojis and random facts is only natural. Over 150 envelians are already on board. Dive in and thrive!
Your Role
As Team Lead Operations (all genders) you will build a deeply technical team of around 6 people focused on the stable, secure, and predictable operation of our product: the Intelligent Grid Platform (IGP).

Your team is responsible for product operations: keeping customer IGP environments healthy, managing operational processes such as incident handling and releases, and driving systematic reliability improvements based on real production signals.

You work closely with Product, Customer Success, and Engineering teams. You also partner with the SRE/Infrastructure team that owns the platform foundation (cluster provisioning, deployment pipelines, observability tooling, etc.), while your team focuses on running IGP for customers day to day.

You will help evolve our operating model towards 24/7 reliability for customer environments (processes, ownership, and escalation), together with Engineering, SRE/Infrastructure, and Customer Success.
How You Make an Impact
  • You coach, mentor, and help your direct reports grow through 1:1s, performance reviews, and regular feedback
  • You own and evolve the operational execution of the IGP across customer environments
  • You ensure fast, structured handling of customer-impacting issues and incidents and drive effective follow-ups so the same issues do not reoccur
  • You create clarity around ownership and escalation paths for production topics and coordinate efficiently across squads and Customer Success
  • You drive operational excellence: pragmatic incident response, calm communication, and a continuous improvement culture with blameless learnings
  • You balance short-term operational work (restore service) with long-term investments (reduce toil, improve reliability, improve tooling and runbooks)
  • You shape team priorities, capacity, and roadmap: decide what gets attention now vs. what becomes a planned reliability investment
  • You support hiring and team development by identifying and attracting talent, and by shaping growth paths within your team
Your Profile
Perfection is a myth! We’re more interested in the human behind the screen, so think of these criteria as helpful directions — we're excited to see how your unique skills might fit in.
  • You have strong experience operating complex applications and understand how to run services reliably under real-world constraints
  • You are comfortable with incident management, root cause analysis, and prioritizing operational work under time pressure
  • You have proven experience leading and developing a team in an operations-heavy environment
  • You are strong at stakeholder management and coordination across teams (Engineering squads, Product, Customer Success)
  • You have a continuous improvement mindset: you reduce operational toil via better processes, automation, and documentation
  • You can communicate clearly in high-pressure situations and create alignment on next steps
  • You are fluent in German and English
How we develop Software
  • Clear ownership for production topics, and efficient coordination across squads and Customer Success
  • Structured incident handling (restore service, communicate clearly, then follow up on root causes)
  • Release operations with a pragmatic risk mindset (safe changes, fast rollback when needed)
  • Monitoring and alerting hygiene (signal over noise)
  • Strong runbooks and automation to reduce operational toil over time
Our Tech Stack
  • Multi-cloud, hybrid on-prem setup with Kubernetes and Helm as the common denominator
  • Application primarily written in Python and TypeScript
  • Standard backing services like PostgreSQL, RabbitMQ, Redis
  • Gitlab & Gitlab CI for managing the Software Delivery Lifecycle
  • Terraform for Infrastructure as Code
Your Benefits
  • Join us fully remote (#LI-Remote) or at our lovely office in Cologne in a hybrid working mode
  • Option for remote work from abroad (up to three months per year from anywhere in the EU or the USA)
  • State of the art technology and modern tech stack
  • Excellent hardware equipment (16 inch MacBooks, 2 screens at your workplace)
  • 30 holidays + 3 corporate holidays 
  • Support for your health through sports membership cooperations 
  • Flexible use of a monthly mobility budget (e.g. Jobrad, ÖPNV)
  • Time and resources for individual growth 
  • envelio pension plan 
  • Regular company and team events
About us
Intelligent grids for a sustainable future worldwide — this is our vision! Therefore, we are building the digital hub for the future of power grid management: The Intelligent Grid Platform (IGP). The IGP is the core of our software as a service solution. It’s our ambition to make the IGP and envelio 1 % better everyday. Grow with us!

As a remote-first company, we let you decide how much you want to work remotely – from 0% to 100%. Whether you live in Cologne or Aachen, Bonn or Berlin, Munich or Castrop-Rauxel; all you need is internet! You can also work from abroad for up to three months per year. Since 2017, we have built a diverse international team, with English as our company language.
Thank you for your interest in envelio!
Please fill out the following short form and let us know how you found us. 
If you are experiencing any problems, please send an e-mail to jobs@envelio.de.
Uploading document. Please wait.
Please add all mandatory information with a * to send your application.