Safety Evals page 3

METR Blog February 08, 2025 16:00

Frontier AI Safety Policies

Model Evaluation & Threat Research

Safety Evals LLM Evaluation

OpenAI Evaluation Filter January 31, 2025 11:00

OpenAI o3-mini System Card

This report outlines the safety work carried out for the OpenAI o3-mini model, including safety evaluations, external red teaming, and Preparedness Framework evaluations.

Safety Evals

Safety Evals OpenAI

METR Blog January 17, 2025 08:00

AI models can be dangerous before public deployment

Why pre-deployment testing is not an adequate framework for AI risk management

Safety Evals Testing Tools

OpenAI Evaluation Filter December 05, 2024 10:00

OpenAI o1 System Card

This report outlines the safety work carried out prior to releasing OpenAI o1 and o1-mini, including external red teaming and frontier risk evaluations according to our Preparedness Framework.

Safety Evals

Safety Evals OpenAI

METR Blog September 08, 2024 18:00

ERROR: The request could not be satisfied

Suggestions for expanded guidance on capability elicitation and robust model safeguards in the U.S. AI Safety Institute’s draft document “Managing Misuse Risk for Dual-Use Foundation Models” (NIST AI 800-1).

Safety Evals

METR Blog June 02, 2024 18:00

ERROR: The request could not be satisfied

Comments on NIST’s draft document “AI Risk Management Framework: Generative AI Profile.”

Safety Evals

OpenAI Evaluation Filter January 31, 2024 08:00

Building an early warning system for LLM-aided biological threat creation

We’re developing a blueprint for evaluating the risk that a large language model (LLM) could aid someone in creating a biological threat. In an evaluation involving both biology experts and students, we found that GPT-4 provides at most a mild uplift in...

Safety Evals

OpenAI Evaluation Filter October 26, 2023 07:00

Frontier risk and preparedness

To support the safety of highly-capable AI systems, we are developing our approach to catastrophic risk preparedness, including building a Preparedness team and launching a challenge.

Safety Evals