Technique · reasoning

Process Reward Models

Reward models trained to score each intermediate reasoning step rather than only the final answer, enabling superior reasoning policy learning.

Origin: OpenAI, 2023-05Read origin paper →Also known as: PRM, Let's Verify Step by Step

Products deploying

Avg research → prod

First commercial deploy

Deployment timeline

DeepSeek-R1
Deployed 2026-03-17 · Velocity 3y
“Uses step-level reward models to evaluate intermediate reasoning steps.”
high