Senior Data Engineer (m/w/d) | GCP | Python | Kubernetes | Rundfunkunternehmen

Aus der Ferne
Vollzeit
Für ein renommiertes deutsches Rundfunkunternehmen suchen wir einen erfahrenen Senior Data Engineer (m/w/d) mit fundiertem Know-how in Cloud-Technologien und datengetriebener Entwicklung. In dieser anspruchsvollen Position gestalten Sie die digitale Transformation im Medienbereich aktiv mit, indem Sie hocheffiziente Datenpipelines konzipieren und Machine-Learning-Modelle produktionsreif implementieren. Sie arbeiten vollständig remote und nutzen modernste Technologien in einem innovativen Umfeld. Kernaufgaben - Konzeption und Implementierung skalierbarer Datenpipelines zur strukturierten Aufbereitung, Bereitstellung und Versionierung von Trainingsdaten für Machine-Learning-Modelle. - Entwicklung leistungsfähiger ETL-Prozesse unter Einsatz von Python 3.9+, PySpark 3.3+ und SQL zur effizienten Verarbeitung großer Datenmengen in der Google Cloud Platform. - Fachliche Beratung des Data-Science-Teams bei der Entwicklung von Machine-Learning-Modellen mit besonderem Fokus auf Produktivitätsanforderungen und operativer Stabilität. - Architektur und Implementierung von Microservices auf Basis aktueller Design-Patterns zur Bereitstellung trainierter Modelle über REST-APIs. - Integration umfassender Monitoring-Funktionalitäten für ML-Modelle im produktiven Betrieb, einschließlich Drift-Detection und Performance-Metriken. - Optimierung von Datenbanklösungen mit BigQuery und BigTable für hochperformante Datenspeicherung und effiziente Abfrageprozesse. - Deployment robuster Microservices-Architekturen in der produktiven GCP-Cloud-Umgebung unter strikter Berücksichtigung von Hochverfügbarkeitsanforderungen (99,9%+). - Implementierung fortschrittlicher CI/CD-Pipelines mittels GitLab für kontinuierliche Integration, Testing und Deployment. - Konfiguration und Administration von Kubernetes-Clustern (Version 1.26+) für containerisierte Anwendungen mit automatisierter Skalierung. - Etablierung moderner IaC-Praktiken (Infrastructure as Code) mittels Terraform für reproduzierbare Cloud-Infrastrukturen. - Orchestrierung komplexer Datenverarbeitungsprozesse mit Apache Airflow 2.5+ für zuverlässige Workflow-Automatisierung. - Integration von MLflow 2.3+ zur strukturierten Verwaltung des vollständigen ML-Modell-Lebenszyklus. Erforderliche Qualifikationen - Abgeschlossenes Hochschulstudium in Informatik, Datenwissenschaft, Mathematik oder vergleichbarem technischen Fachgebiet. - Mindestens 5 Jahre nachweisbare Berufserfahrung im Bereich Data Engineering mit Fokus auf Cloud-Technologien. - Vertiefte Expertise in Python (3.8+) und SQL für komplexe Datenverarbeitungs- und Analyseprozesse. - Umfassende praktische Erfahrung mit der Google Cloud Platform (GCP) und deren Kernservices wie Compute Engine, Cloud Storage, IAM und Networking. - Fundierte Kenntnisse in BigQuery und BigTable für analytische und operationelle Datenbankanwendungen. - Nachweisbare Erfahrung in der Entwicklung und Bereitstellung von Microservices-Architekturen mit REST-APIs. - Solide praktische Expertise mit Docker-Containerisierung und Kubernetes-Orchestrierung in Produktivumgebungen. - Vertiefte Kenntnisse in Apache Airflow zur Workflow-Orchestrierung und MLflow für strukturiertes ML-Modellmanagement. - Ausgeprägte Erfahrung mit Git-basierten Workflows und CI/CD-Prozessen, bevorzugt in GitLab-Umgebungen. - Praktische Anwendung von Infrastructure as Code (IaC) und Terraform zur Automatisierung der Cloud-Infrastruktur. - Tiefgreifendes Verständnis der Prinzipien und Best Practices für Hochverfügbarkeit, Skalierbarkeit und Disaster Recovery. - Exzellente analytische Fähigkeiten und ausgeprägte Problemlösungskompetenz in komplexen technischen Umgebungen. Wünschenswerte Qualifikationen - Erfahrung in der Medien- und Rundfunkbranche oder vergleichbaren datenintensiven Sektoren. - Vertiefte Kenntnisse in Apache Spark und PySpark für hochperformante verteilte Datenverarbeitung. - Vertrautheit mit Data-Governance-Frameworks und europäischen Datenschutzbestimmungen (DSGVO). - Praxiserfahrung mit NoSQL-Datenbanktechnologien wie MongoDB, Cassandra oder DynamoDB. - Grundlegende Kenntnisse in Machine Learning und Data Science (TensorFlow, PyTorch, scikit-learn). - Relevante Google Cloud Platform-Zertifizierungen (Professional Data Engineer, Professional Cloud Architect). - Erfahrung mit Event-Streaming-Plattformen wie Apache Kafka oder Google Pub/Sub. - Fundiertes Verständnis von DevOps-Praktiken und SRE-Prinzipien (Site Reliability Engineering). - Vertrautheit mit agilen Entwicklungsmethoden (Scrum, Kanban) und kollaborativen Arbeitsweisen. Projektdetails - Vollzeitposition, 100% remote mit flexiblen Arbeitszeiten. - Projektlaufzeit: Initial 2 Monate mit hoher Wahrscheinlichkeit einer Verlängerung. - Arbeitsbeginn: Zum nächstmöglichen Zeitpunkt. - Arbeitssprachen: Deutsch (verhandlungssicher) und Englisch (fließend). Warum Sie Teil unseres Teams werden sollten Als Senior Data Engineer in diesem zukunftsweisenden Projekt gestalten Sie aktiv die digitale Transformation eines bedeutenden deutschen Medienunternehmens. Sie entwickeln innovative datengetriebene Lösungen, die die Entscheidungsfindung revolutionieren und zur Modernisierung der deutschen Rundfunklandschaft beitragen. Die Position bietet Ihnen vollständige räumliche Flexibilität durch Remote-Arbeit, Zugang zu modernsten Cloud-Technologien und die Möglichkeit, Ihr technisches Know-how in einem dynamischen und wachstumsstarken Umfeld einzubringen und kontinuierlich zu erweitern. Werden Sie Teil eines hochqualifizierten Teams, das die Zukunft der Medientechnologie aktiv mitgestaltet.