Connecting to the Living Graph…

Speech & Audio AI

Build speech recognition, text-to-speech, audio generation, and voice AI systems.

78

Open Positions

Core Skills

Text-to-SpeechASRAudio TransformersWhisperVoice CloningAudio GenerationSignal Processing

Active Positions (50)

Enterprise Solutions Engineer - EU (German Speaking)mid

ElevenLabs·Germany

Text-to-Speech (TTS)Voice CloningLLM IntegrationAgent OrchestrationMultilingual AI Capabilities

Enterprise Solutions Engineer - Oceaniamid

ElevenLabs·Australia

Text-to-Speech (TTS)Voice CloningLLM IntegrationMultilingual AI CapabilitiesAgent Orchestration

Enterprise Solutions Engineer - Europemid

ElevenLabs·United Kingdom

Text-to-Speech (TTS)Voice CloningLLM IntegrationAgent OrchestrationMultilingual AI Capabilities

Enterprise Solutions Engineer - Germanymid

ElevenLabs·Germany

Text-to-Speech (TTS)Voice CloningLLM IntegrationMultilingual AI CapabilitiesAgent Orchestration

Enterprise Solutions Engineer - Singaporemid

ElevenLabs·Singapore

Text-to-Speech (TTS)Voice CloningLLM IntegrationAgent OrchestrationMultilingual AI Capabilities

Enterprise Solutions Engineer - Middle Eastmid

ElevenLabs·UAE

Text-to-Speech (TTS)Voice CloningLLM IntegrationMultilingual AI CapabilitiesAgent Orchestration

Enterprise Solutions Engineer - Belgiummid

ElevenLabs·Belgium

Text-to-Speech (TTS)Voice CloningLLM IntegrationMultilingual AI CapabilitiesAgent Orchestration

Enterprise Solutions Engineer - Brazil mid

ElevenLabs·Brazil

Text-to-Speech (TTS)Voice CloningLLM IntegrationAgent OrchestrationMultilingual AI Capabilities

Forward Deployed Engineer - Software Engineer - Singaporemid

ElevenLabs·Singapore

Text-to-Speech (TTS)Voice CloningLLM IntegrationAgent OrchestrationMultilingual AI Capabilities

Enterprise Solutions Engineer - LATAM mid

ElevenLabs·Mexico

Text-to-Speech (TTS)Voice CloningLLM IntegrationAgent OrchestrationMultilingual AI Capabilities

Enterprise Solutions Engineer - Netherlandsmid

ElevenLabs·Netherlands

Text-to-Speech (TTS)Voice CloningLLM IntegrationMultilingual AI CapabilitiesAgent Orchestration

Enterprise Solutions Engineer - ANZmid

ElevenLabs·Australia

Text-to-Speech (TTS)Voice CloningLLM IntegrationMultilingual AI CapabilitiesAgent Orchestration

Enterprise Solutions Engineer - North Americamid

ElevenLabs·United States

Text-to-Speech (TTS)Voice CloningLLM IntegrationAgent OrchestrationModel ServingMultilingual AI Capabilities

Principal Software Engineer, WebRTCstaff

Roblox·San Mateo, CA, United States

Real-time SystemsSignal Processing

Engineering Manager, Multimodal (API)manager

OpenAI·San Francisco

Multimodal AISpeech Recognition (ASR)Text-to-Speech (TTS)Audio GenerationDiffusion ModelsVision-Language Models (VLMs)

AI Tutor - HungarianmidRemote

Speech Recognition (ASR)Multilingual AI CapabilitiesAnnotation PipelinesGrokData Curation

AI Tutor - RussianmidRemote

Speech Recognition (ASR)Multilingual AI CapabilitiesAnnotation PipelinesGrokData Curation

Forward Deployed Engineer - Software Engineermid

ElevenLabs·San Francisco

Text-to-Speech (TTS)Voice CloningLLM IntegrationAgentic AIAudio Generation

AI Creative Producermid

ElevenLabs·United Kingdom

Audio GenerationText-to-Speech (TTS)Multimodal AIDiffusion ModelsVoice Cloning

Senior / Staff Software Engineer, iOS senior

Audio GenerationOn-Device MLEdge Inference

Senior / Staff Software Engineer, Androidsenior

Audio GenerationOn-Device MLEdge Inference

Research Engineer, Voicemid

Inflection AI·Palo Alto, California, United States

Text-to-Speech (TTS)Speech Recognition (ASR)Audio GenerationDiffusion ModelsMultimodal AIPyTorch

Software Engineer, Voicemid

Sierra AI·San Francisco, CA

Speech Recognition (ASR)Text-to-Speech (TTS)Real-time SystemsAgentic AI

AI ResearchermidRemote

Hume AI·NYC, San Jose, or Remote

Reinforcement Learning from Human Feedback (RLHF)Speech Recognition (ASR)Audio TransformersEvaluation FrameworksFoundation Models

Senior Platform Engineersenior

Hume AI·New York, New York, United States

Speech Recognition (ASR)Audio TransformersModel ServingEvaluation FrameworksDistributed Training

Senior/Staff AI Research EngineerseniorRemote

Hume AI·NYC, San Jose, or Remote

PyTorchDistributed TrainingSpeech Recognition (ASR)Audio TransformersEvaluation FrameworksReinforcement Learning from Human Feedback (RLHF)

AI Scientist - Audiomid

Mistral AI·Paris

Speech Recognition (ASR)Audio TransformersPyTorchJAXDistributed TrainingMLOps

Software Engineer - Voice AI (Inference Runtime)mid

Baseten·San Francisco

Speech Recognition (ASR)Text-to-Speech (TTS)Model ServingInference OptimizationWhisperAudio Generation

Senior Frontend Engineer, Voice Communicationsenior

Roblox·San Mateo, CA, United States

Real-time SystemsSignal ProcessingSpeech Recognition (ASR)

Staff Software Engineer, Voice Agentstaff

Decagon·San Francisco

Speech Recognition (ASR)Text-to-Speech (TTS)Real-time SystemsAudio GenerationAgent Orchestration

Senior Research Engineer, Voice + Speechsenior

Decagon·San Francisco

Speech Recognition (ASR)Text-to-Speech (TTS)Audio TransformersModel Fine-TuningEvaluation FrameworksReal-time Systems

Senior Machine Learning Engineer - Voice Experience seniorRemote

Cresta·United States (Remote)

Speech Recognition (ASR)Text-to-Speech (TTS)Retrieval-Augmented Generation (RAG)Large Language Models (LLMs)Natural Language Processing (NLP)Evaluation Frameworks

Audio Systems Engineer, Robot Headmid

1X·Hayward, CA

Speech Recognition (ASR)Signal ProcessingSensor FusionAudio Generation

Machine Learning Engineer, Assessmentsmid

Speak·San Francisco

Speech Recognition (ASR)Evaluation FrameworksMLOpsModel Monitoring & ObservabilityNatural Language Processing (NLP)Feature Engineering

Forward Deployed AI Engineer (Must be PST timezone)mid

PolyAI·United States {West Coast}

Speech Recognition (ASR)Text-to-Speech (TTS)Agentic AILLM Integration

Forward Deployed AI Engineer - Vancouvermid

PolyAI·Vancouver

Speech Recognition (ASR)Text-to-Speech (TTS)Agentic AILLM Integration

AI Tutor - Audio EditingmidRemote

Audio GenerationSpeech Recognition (ASR)Annotation PipelinesGrokText-to-Speech (TTS)Data Curation

Solutions Engineer - Indiamid

ElevenLabs·India

Text-to-Speech (TTS)Voice CloningLLM IntegrationMultilingual AI CapabilitiesAgent Orchestration

Software Engineer, Fullstack, Pro-Create mid

Suno·San Francisco

Audio GenerationDiffusion Models

AI Tutor - ChinesemidRemote

Speech Recognition (ASR)Multilingual AI CapabilitiesAnnotation PipelinesGrokData Curation

AI Tutor - HindimidRemote

Speech Recognition (ASR)Multilingual AI CapabilitiesAnnotation PipelinesGrokData Curation

AI Tutor - MarathimidRemote

Speech Recognition (ASR)Multilingual AI CapabilitiesAnnotation PipelinesGrokData Curation

AI Tutor - TagalogmidRemote

Speech Recognition (ASR)Multilingual AI CapabilitiesAnnotation PipelinesGrokData Curation

AI Tutor - SwedishmidRemote

Speech Recognition (ASR)Multilingual AI CapabilitiesAnnotation PipelinesGrokData Curation

AI Tutor - PunjabimidRemote

Speech Recognition (ASR)Multilingual AI CapabilitiesAnnotation PipelinesGrokData Curation

Senior Platform Engineer, Voice AIsenior

Together AI·San Francisco

Speech Recognition (ASR)Text-to-Speech (TTS)Model ServingReal-time SystemsInference Optimization

AI Tutor - IndonesianmidRemote

Speech Recognition (ASR)Multilingual AI CapabilitiesAnnotation PipelinesGrokData Curation

AI Tutor - UrdumidRemote

Speech Recognition (ASR)Annotation PipelinesMultilingual AI CapabilitiesGrokAudio Generation

Senior Machine Learning Engineer, Voice AI senior

Together AI·San Francisco

TensorRTSGLangSpeech Recognition (ASR)Text-to-Speech (TTS)WhisperInference Optimization

AI Tutor - ThaimidRemote

Speech Recognition (ASR)Multilingual AI CapabilitiesAnnotation PipelinesGrokData Curation