Connect with us

AI

IA e Pokémon: benchmark o gioco truccato?

Published

on

Negli ultimi giorni, una bizzarra ma affascinante polemica ha acceso la community tech: Google Gemini avrebbe superato Claude, il modello di punta di Anthropic, nel completare i videogiochi della trilogia originale di Pokémon. La notizia è diventata virale su X, dove si è celebrato il presunto traguardo raggiunto da Gemini, arrivato fino a Lavender Town, mentre Claude era ancora bloccato a Mount Moon. Tuttavia, c’era un dettaglio che molti si sono dimenticati di menzionare: Gemini aveva un vantaggio significativo grazie a una minimappa personalizzata creata dallo sviluppatore che gestisce il flusso su Twitch. Questa aggiunta permette al modello di riconoscere visivamente elementi del gioco, come gli alberi tagliabili, senza dover analizzare pixel per pixel ogni schermata. Un piccolo trucco? Forse. Ma sufficiente a mettere in dubbio la validità del confronto.

Benchmark personalizzati: dati gonfiati?

Il caso Pokémon è solo l’ultimo esempio — per quanto ironico — di una tendenza più ampia e problematica: l’uso di implementazioni personalizzate nei benchmark AI. Claude 3.7 Sonnet, ad esempio, ha mostrato performance differenti sul benchmark SWE-bench Verified, che valuta le capacità di codifica dei modelli: il punteggio base è del 62,3%, ma sale al 70,3% con un’impalcatura sviluppata ad hoc da Anthropic. Allo stesso modo, Meta ha migliorato artificialmente i risultati del proprio modello Llama 4 Maverick su LM Arena, ottimizzandolo esclusivamente per quel benchmark. In sostanza, si tratta di un fenomeno simile a quello degli “esami truccati”, dove i modelli vengono addestrati specificamente per brillare in un contesto ristretto, senza garantire prestazioni altrettanto solide nella realtà.

Confronti difficili: benchmark in crisi

Il problema è che i benchmark, già di per sé misure imperfette delle capacità reali di un modello, rischiano di perdere ulteriore credibilità quando vengono manipolati con strumenti su misura. Se ogni laboratorio adotta metriche personalizzate o impalcature tecniche per ottenere punteggi migliori, il confronto tra modelli diversi diventa sempre più confuso e meno trasparente. In un momento in cui la corsa all’IA è più competitiva che mai, il rischio è quello di trasformare test tecnici in esercizi di marketing, privando sviluppatori e utenti di strumenti di valutazione oggettivi. Pokémon incluso.

Copyright © 2025 Justmedia srl