La frontiera del coding autonomo si sposta verso task di durata estrema. Epoch AI e METR hanno lanciato MirrorCode, un benchmark progettato per testare la capacità dei modelli AI di ricostruire interi programmi da zero, basandosi esclusivamente sul comportamento del software (binari e documentazione) senza avere accesso al codice sorgente originale.
Oltre i limiti dei benchmark tradizionali
A differenza delle metriche standard di software engineering, che solitamente limitano il budget di inferenza a cifre comprese tra 1 e 10 dollari per task, MirrorCode rimuove questi vincoli per esplorare il reale potenziale dei modelli. Questo approccio ha rivelato scenari senza precedenti: in uno dei casi più complessi, un modello AI ha lavorato ininterrottamente per 19 giorni, raggiungendo un costo di calcolo di 2.600 dollari per una singola esecuzione, senza alcun intervento umano.
Claude Opus 4.7 domina la classifica
Secondo i dati di Epoch AI, Claude Opus 4.7 si è posizionato al vertice del benchmark con un tasso di risoluzione del 56%. Un esempio emblematico è la reimplementazione di gotree, un toolkit per la bioinformatica composto da circa 16.000 righe di codice Go e oltre 40 comandi. Mentre un ingegnere umano avrebbe impiegato da due a diciassette settimane per completare l'opera, Opus 4.7 ha concluso il compito in sole 14 ore, con un costo di 251 dollari.
La classifica vede seguire GPT-5.5 con un tasso di successo del 44% e Gemini 3.1 Pro Preview al 32%. Nonostante queste performance, i ricercatori sottolineano che anche nei casi di fallimento, i modelli tendono a superare oltre il 90% dei test previsti.
Il muro delle task "Large"
Il benchmark suddivide i programmi in tre categorie di complessità: small, medium e large. Se le task più semplici vengono risolte con affidabilità da tutti i modelli testati, quelle di dimensioni massime rimangono per ora insuperabili. Questo evidenzia come, nonostante i progressi descritti in precedenza riguardo a GPT-5.5 nel coding reale, esista ancora un gap tecnologico significativo quando si tratta di gestire architetture software estremamente vaste e complesse in totale autonomia.
