Connect with us

AI

OpenAI presenta GPT-4.1: nuovi modelli per sviluppatori

Published

on

GPT-4.1

OpenAI ha lanciato una nuova generazione di modelli AI sotto il nome di GPT-4.1, pensata per rivoluzionare il modo in cui si sviluppa software. I modelli — GPT-4.1, mini e nano — sono stati progettati per eccellere nel coding e nel rispetto delle istruzioni, con una finestra di contesto di 1 milione di token (circa 750.000 parole), il che li rende ideali per compiti complessi e strutturati. Disponibili tramite API, ma non ancora su ChatGPT, questi modelli offrono un supporto concreto agli sviluppatori grazie a una maggiore capacità di comprensione e generazione del codice.

Efficienza, velocità e precisione: le varianti mini e nano

La nuova famiglia GPT-4.1 include versioni ottimizzate per specifiche esigenze: GPT-4.1 mini offre un equilibrio tra velocità e accuratezza, mentre GPT-4.1 nano è la versione più veloce ed economica mai creata da OpenAI. Le tariffe sono proporzionate: costa $2/milione di token input e $8/milione di output, contro i $0.10 input e $0.40 output della versione nano. “L’abbiamo ottimizzato per l’uso nel mondo reale, migliorando proprio dove gli sviluppatori ne hanno più bisogno: nel coding front-end, nella coerenza dei formati e nell’uso degli strumenti”, ha dichiarato un portavoce di OpenAI.

Concorrenza e benchmark: la corsa all’ingegnere software AI

Con GPT-4.1, OpenAI entra nella corsa ai modelli capaci di agire come veri ingegneri software autonomi, un obiettivo dichiarato da Sarah Friar, CFO dell’azienda: “Vogliamo creare un agente che sviluppi intere app end-to-end, compreso testing, QA e documentazione.” Tuttavia, su benchmark come SWE-bench Verified, ottiene risultati leggermente inferiori rispetto ai rivali: 54,6% contro il 63,8% di Google Gemini 2.5 Pro e il 62,3% di Claude 3.7 Sonnet di Anthropic. Rimane però leader su test come Video-MME, con il 72% di accuratezza nei video lunghi senza sottotitoli.

Limiti e potenzialità dei modelli GPT-4.1

Nonostante le ottime performance, OpenAI ammette che GPT-4.1 diventa meno affidabile con input molto lunghi, come evidenziato nel test interno MRCR: l’accuratezza scende dall’84% (8.000 token) al 50% (1 milione di token). Inoltre, tende a essere più “letterale” rispetto a GPT-4o, richiedendo istruzioni più dettagliate. Ciò nonostante, il modello rappresenta un passo importante verso strumenti sempre più efficaci per il coding assistito da intelligenza artificiale, con potenzialità crescenti in ambito enterprise e nella produzione software automatizzata.

Copyright © 2025 Justmedia srl