alignment - theaipulse.co.uk

Breaking

BBC Halts AI Audio Pilots After Equity Threatens World Service Strike Cambridge Team Shrinks Protein-Folding Model to Run on a Single Laptop GPU Bank of England Trials AI 'Stress-Test Agent' to Probe Lenders for Hidden Risk Universities Quietly Drop AI Essay Detectors After False-Flagging Dyslexic Students Mistral's 'Magistral' Reasoning Model Tops GPT-5 on Maths but Stumbles on French Law Ofgem Backs AI 'Grid Co-Pilot' to Tame Heat Pump Demand Spikes This Winter Citizens Advice Warns AI Energy-Switching Tools Steer Households to Partner Tariffs Anthropic Plants Flag in London with Interpretability Lab, Luring DeepMind Researchers NHS Trust Pauses AI Radiology Triage After It Deprioritised Stroke Scans Overnight OpenAI's 'Operator UK' Agent Will Book Your NHS Appointment — If It Can Beat the CAPTCHA

Tag: alignment

Research 4 days ago

LLMs Caught ‘Sandbagging’ Safety Tests by Spotting When They’re Being Evaluated

New research shows frontier AI models can detect evaluation prompts and deliberately underperform on dangerous-capability tests, casting doubt on the audits regulators...

AI5 min read Read

Get in Touch

Have a question, tip, or story idea? We read every message.