SWE-Bench | byteiota

Tag: SWE-Bench

AI & Development

DeepSeek is launching V4 in mid-February 2026, and insider sources claim it will beat both ...

January 20, 2026

Technology

Claude Opus 4.5 hit 80.9% on SWE-bench Verified—first above 80%. Google engineer: Claude Code built ...

January 7, 2026

Uncategorized

# IQuest Coder Beats Claude? Chinese AI’s 81.4% Score Drops to 76.2% After Scandal On ...

January 5, 2026

News

Mistral Devstral 2 cuts AI coding costs by 85% at $2 per million tokens vs ...

December 10, 2025

AI & Development

Anthropic’s Claude Opus 4.5 became the first AI model to break 80% on SWE-bench Verified, ...

December 7, 2025

AI & Development

Anthropic released Claude Opus 4.5 on November 24, 2025, completing the 4.5 model series with ...

December 1, 2025