AI Safety Research

Discovering and
mitigating LLM
failure modes

We systematically uncover and understand the hidden vulnerabilities of large language models to build safer, more reliable AI systems.

Explore Research Focus→

Research Focus

/ Core methodologies

Adaptive Stress Testing

Using reinforcement learning agents to systematically discover vulnerabilities and failure modes in LLMs

Deterministic Methods

Ensuring reproducibility through batch-invariant inference to reliably trigger and analyze genuine model weaknesses

Failure Mode Analysis

Analyzing hidden state representations and decoding adversarial triggers to identify patterns, create taxonomies, and reveal linguistic structures that cause failures

Team

/ Researchers from Norwegian University of Science and Technology (NTNU) and UC Berkeley

Jørgen Haugdal Jore