whoami --ai-platforms

Sheshank Dudaboina

SRE - AI Infrastructure

Currently @ Baseten Labs

I've spent 8+ years making distributed systems more reliable, from Linux fleets to multi-cloud Kubernetes and model-serving platforms. I care about observability, reducing on-call toil, and keeping high-throughput systems boring in production.

Get in touch Download resume

GitHub LinkedIn

01.Experience

May 12, 2026 – Present

SRE - AI Infrastructure

Baseten Labs

Building reliability for AI model serving infrastructure across Kubernetes, GPU fleets, multi-cloud platforms, and the observability systems that keep high-throughput inference workloads healthy.

AWSGCPKubernetesGrafanaVictoria MetricsTerraformincident.io

Aug 2024 – May 2026

Lead Site Reliability Engineer

ObserveAI

Built and operated production reliability systems for AI and customer-facing platforms. Improved Kubernetes operations, observability coverage, incident response, and automation for engineering teams.

KubernetesPrometheusGKEDatadogPagerDutyTerraform

June 2019 – June 2024

Sr. Site Reliability Engineer

Sony PlayStation

Operated large-scale infrastructure and production services, modernized Linux and container workflows, built CI/CD pipelines, and improved on-call practices for reliability-critical systems.

LinuxDockerAWS EC2AnsibleNew RelicJenkins

September 2018 – June 2019

Site Reliability Engineer

Venmo

Supported reliability for production services, improved operational workflows, and contributed to monitoring, automation, and incident response practices for customer-facing systems.

LinuxAWSMonitoringAutomationIncident Response

02.Skills

Cloud & Infrastructure

›AWS (EC2, EKS, RDS, S3, IAM, VPC)
›GCP (GKE, Cloud Run, BigQuery)
›Terraform
›Pulumi
›Ansible

Containers & Orchestration

›Kubernetes (EKS, GKE, self-managed)
›Helm
›ArgoCD
›Docker
›Kustomize

Observability

›Grafana
›Victoria Metrics
›Prometheus
›Loki
›Grafana Alloy
›Tempo
›Datadog
›New Relic

Incident Management

›incident.io
›PagerDuty
›SLO/SLI/Error budgets
›Post-mortem facilitation

Languages & Tools

›Go
›Python
›Bash
›TypeScript
›SQL
›PromQL/MetricsQL
›LogQL

03.Certifications

AWS Certified DevOps Engineer - Professional

Amazon Web Services (AWS)

Issued Apr 2024Expires Apr 2027

Linux Essentials Certification

Linux Professional Institute (LPI)

Issued Sep 2025

Developing on AWS

Amazon Web Services (AWS)

Issued May 2023

Running Containers on Amazon Elastic Kubernetes Service (AWS EKS)

Amazon Web Services (AWS)

Issued Mar 2023

Developing with Splunk's REST API

Splunk

Issued Feb 2020

Solutions Architect Associate (SAA)

Amazon Web Services

Issued Aug 2018

Certified system administrator

ServiceNow

Issued Jun 2018

AWS Certified Cloud Practitioner

Amazon Web Services (AWS)

Issued Nov 2025Expires Nov 2028

I write about what I learn on the job.

SRE / Kubernetes / GPU platforms / Observability

Read my writing →