Details about METR's preliminary evaluation of GPT-4o

We measured the performance of GPT-4o given a simple agent scaffolding on 77 tasks across 30 task families testing autonomous capabilities.