Dai prompt agli agenti: cosa sanno fare gli LLM ora e cosa ci aspetta nel 2027

I modelli linguistici di grandi dimensioni (LLM) sono il futuro che è già arrivato. Generano testi, scrivono codice e poesie, pianificano e danno persino consigli su come vivere. Sono già utilizzati nell'istruzione, nella scienza e nei media. Sicuramente avrete usato almeno una volta servizi come GitHub Copilot per scrivere codice più velocemente. Ammettete che è comodo.

Questo articolo sarà utile se:

lavorate in IT e volete capire su cosa si basa il vostro nuovo assistente intelligente
implementate l'AI nei prodotti o siete semplicemente curiosi di sapere dove sta andando il mondo

Come siamo arrivati ai transformer: breve storia degli LLM

Tutto iniziò con una domanda che Alan Turing pose a metà del XX secolo: "Può una macchina pensare?" Allo stesso tempo propose anche il test che ancora non dà pace agli sviluppatori: se non capisci con chi stai parlando - un umano o una macchina - significa che la macchina ha superato il test. Spoiler: nel 2024 questo è finalmente accaduto.

Ma prima - un breve excursus su come ci siamo arrivati.

1950-1990: dizionari e regole

I primi sistemi di elaborazione del linguaggio non "capivano" il testo, ma sostituivano le parole secondo regole predefinite. Tutto si basava su costruzioni grammaticali e dizionari. La traduzione automatica di quegli anni assomigliava a un insieme di bigliettini scolastici: funzionava, ma solo se la frase era semplice e familiare. Questo si chiamava approccio simbolico: i programmatori descrivevano manualmente come funziona il linguaggio.

Esempi di modelli:

Georgetown-IBM (1954) — la prima traduzione automatica pubblica dal russo all'inglese. Tradusse 60 frasi selezionate in anticipo. Sembrava promettente, ma in pratica questi sistemi si rompevano facilmente con frasi non standard.
ELIZA (1966) — un chatbot che imitava il dialogo con uno psicoterapeuta, ma in realtà sostituiva solo template senza comprendere il significato. Sembrava intelligente finché non si chiedeva qualcosa di non standard.
SHRDLU (1970) — un sistema più avanzato, "conversava" in inglese nei limiti di un mondo immaginario con cubi. Capiva comandi come "metti il cubo rosso su quello verde" - ma solo in un universo rigorosamente limitato.

1990-2000: statistica invece della grammatica

Negli anni '90 iniziò l'era dei metodi statistici. Gli algoritmi iniziarono a notare regolarità nel linguaggio reale.

Apparvero i modelli n-gram, che predicevano la parola successiva basandosi su quelle precedenti: se leggete "sono andato al", molto probabilmente dopo ci sarà "negozio", non "ananas". Era semplice ma efficace.

Poi apparvero i modelli di Markov nascosti (HMM). Predicevano quali parti del discorso o stati nascosti seguivano l'un l'altro, e valutavano la probabilità di tali transizioni. Questi metodi erano ampiamente usati per il riconoscimento vocale e l'analisi sintattica.

Google Translate nel 2006 iniziò proprio con la traduzione automatica statistica (SMT). Il modello utilizzato dal servizio non capiva la lingua, ma confrontava milioni di coppie di frasi - ad esempio, dai documenti ONU. Gli algoritmi determinavano come i pezzi di testo in una lingua corrispondessero ai pezzi in un'altra. Questo diede velocità e scala - ma suonava ancora meccanicamente.

2010: reti ricorrenti e primi successi

Poi entrarono in gioco le reti neurali ricorrenti (RNN), e poco dopo LSTM e GRU. Impararono a lavorare con dati sequenziali - proprio quello che serviva per il testo. Ma avevano un grosso problema: memoria corta. Letteralmente dimenticavano di cosa si parlava poche frasi prima.

2017: breakthrough con attention e transformer

E poi arrivò l'articolo "Attention is all you need". A prima vista - una normale pubblicazione nella raccolta NeurIPS. In realtà - l'inizio dell'era dei transformer. L'articolo viene ancora letto nelle università, aggiunto all'onboarding dei team ML e, forse, anche raccontato negli asili.

Il team di Google Brain (inclusi Ashish Vaswani, Noam Shazeer e Jakob Uszkoreit), che scrisse l'articolo, propose di abbandonare completamente la ricorrenza. Il modello doveva saper capire quali parti del testo sono importanti per generare ogni parola successiva, e farlo simultaneamente su tutta la frase.

Immaginiamo di leggere la frase:

"Maria mise l'ombrello nella borsa, perché aveva paura della pioggia."

Chi è "aveva paura"? Il modello deve capire che si tratta di Maria, non della borsa. L'attention permette al modello di "ricordare" dove nella frase era Maria, e collegare questo pronome alla parola giusta. Guarda tutto il contesto simultaneamente, non solo la parola precedente.

Il transformer è un'architettura di modello dove tutta l'elaborazione del testo si basa sull'attention, senza strati ricorrenti. Oggi i transformer sono la base di tutti gli LLM: GPT, BERT, Claude, Gemini, GigaChat. Senza di loro non ci sarebbero ChatGPT, generazione di immagini, codice, musica - niente di quello che chiamiamo AI nel 2025.

Quando è diventato davvero interessante

Con l'uscita dell'architettura transformer, i modelli finalmente iniziarono a capire cosa succede nel testo. BERT, GPT, RoBERTa, T5 - queste sigle divennero immediatamente parte del lessico degli ingegneri ML e dei data scientist.

BERT insegnò al modello a indovinare le parole mancanti nella frase (masked language modeling). GPT - al contrario, imparava a continuare il testo, sapendo cosa c'era prima (autoregressive generation). Insieme aprirono la strada a sistemi scalabili che non solo "capiscono" il testo, ma sanno continuarlo, tradurlo, analizzarlo e riassemblarlo.

Nel 2020 OpenAI presentò GPT-3 — un modello con 175 miliardi di parametri. Ora sembra primitivo, ma allora sembrava qualcosa come "AI dalla fantascienza": scriveva poesie, codice, lettere, componeva barzellette e articoli. Era impressionante e spaventoso. Il modello per un po' non fu nemmeno rilasciato pubblicamente: temevano che iniziasse a raccontare come fare le bombe.

ChatGPT e il punto di non ritorno

Quando alla fine del 2022 uscì ChatGPT, ci fu una vera svolta. Per la prima volta il modello iniziò ad essere usato non dagli ingegneri, ma da chiunque lo desiderasse. Non servivano API o prompt engineering - bastava aprire il sito e chiedere: "Come friggere le patate?".

Da allora gli LLM sono entrati nella quotidianità. Vengono implementati nei browser (ciao Yandex Neuro), nei prodotti (Copilot di GitHub), usati nell'istruzione (tutor automatici) e nel business (chatbot, assistenti, generazione di report).

E tutto questo sullo sfondo di aggiornamenti costanti. Mentre leggete questo paragrafo, OpenAI, Google o Anthropic hanno probabilmente già rilasciato una nuova versione del loro modello. Seguire i rilasci è diventato più difficile che seguire i meme.

I nuovi modelli sono multimodali: capiscono non solo il testo, ma anche immagini, video, audio. Non è più solo un chatbot, ma un interlocutore digitale completo: caricate una foto di un cane - dirà la razza e consiglierà il cibo. Mostrate un grafico - spiegherà dove c'è l'errore.

Chi gioca: attori globali e locali nel mercato LLM

Se nel 2018 tutto si reggeva sugli entusiasti, oggi dietro i modelli ci sono paesi, corporations e interi data center grandi quanto centri commerciali. USA, Cina e Russia sono ufficialmente entrati nel gioco.

USA: OpenAI, Google, Anthropic, Meta, Google DeepMind

OpenAI aggiorna i modelli più spesso di quanto le startup ottengano investimenti: GPT-3, 3.5, 4, 4o - e già circolano voci sulla quinta versione. Google ha la serie Gemini (ex Bard), Anthropic ha Claude, Meta ha LLaMA. Tutti lottano per il titolo di "interlocutore più intelligente di internet".

I modelli sono su larga scala, costosi, mirati al mercato globale. Quasi ognuno di loro può pianificare una vacanza, analizzare un file di log e incoraggiare nel burnout.

Cina: DeepSeek e Alibaba Cloud

I modelli cinesi sono sempre più spesso open source e entrano con sicurezza nella top-10 per qualità rispetto ai benchmark come Chatbot Arena e GPT4All. Inoltre in Cina lo sviluppo dell'AI è a livello statale, il che rende lo sviluppo dei modelli praticamente inevitabile.

La caratteristica di DeepSeek è l'apertura aggressiva e l'orientamento agli utenti occidentali: documentazione in inglese, modelli su Hugging Face. Il modello DeepSeek-V2 viene attivamente confrontato con GPT-4 per qualità dei task di reasoning. E la versione DeepSeek Coder è addestrata a scrivere codice, e il modello può non solo aiutare con un compito, ma quasi sostituire un junior.

Alibaba sviluppa la sua serie di modelli — Qwen. Hanno:

Qwen-1.5 — LLM multilingue con logica forte
Qwen-VL — modello visivo-linguistico (testo + immagini)
Qwen-Agent — piattaforma completa di LLM-agent

Alibaba li promuove attivamente attraverso la sua infrastruttura cloud: l'integrazione nei prodotti business è al primo posto.

Russia: GigaChat, YandexGPT

Mentre i giganti globali competono in miliardi di parametri, anche in Russia non se ne stanno con le mani in mano. Sber ha GigaChat — un modello addestrato in russo, con normale supporto dialoghi e conoscenza di realtà come Pyaterochka e MFC. Yandex ha YandexGPT e servizi basati su di esso. Ad esempio, Neuro nel browser o Alice con integrazione in auto e TV.

Rispetto agli analoghi anglofoni, i nostri modelli sono un po' più semplici nell'architettura, ma adattati alla lingua, mentalità e casi locali. A volte questo è più importante.

Metodi dei grandi modelli linguistici: RAG, reasoning e agenti LLM

Gli LLM moderni imparano a ricordare, ragionare e agire secondo istruzioni. Ecco tre approcci chiave che stanno dietro a questo:

1. RAG. Questo è un modo per rendere più precise le risposte degli LLM, aggiungendo loro "memoria" da una base di conoscenze esterna. Si decifra come retrieval-augmented generation, cioè "generazione potenziata dalla ricerca". Immaginate che vi scriva uno studente: "Non riesco a fare il compito 3 del modulo 5". Voi trovate il compito giusto, guardate la risposta corretta e date un commento, cioè agite come "retriever" - cercatore.

In RAG è tutto uguale, solo che invece di voi tutto lo fa il modello:

Il sistema trasforma la richiesta in vettore — rappresentazione numerica astratta del significato
Con questo vettore cerca nella base documenti i più adatti — top-k (ad esempio, top-5)
Questi pezzi (contesti) vengono inviati all'LLM insieme alla domanda originale
L'LLM basandosi su questo dà una risposta — spesso più precisa che senza contesto

RAG permette al modello di non "allucinare", ma di usare conoscenze reali. Particolarmente utile in piattaforme educative, help desk e supporto.

Schema di funzionamento del RAG. Fonte

2. Reasoning. Quando apparve ChatGPT, molti utenti iniziarono a sperimentare: cosa succede se si chiede al modello prima di rispondere a una domanda, e poi di controllare se stesso? Diciamo, prima risolve il compito, e poi le si rimanda la sua stessa domanda e risposta con le parole: "Guarda, è tutto giusto?". Così nacque la tecnica popolare chiamata reasoning — ragionamento.

L'essenza del reasoning è che il modello non dà semplicemente una risposta pronta, ma cerca di pensarci passo dopo passo. È come chiedere a un interlocutore non solo di trarre una conclusione, ma di raccontare come ci è arrivato. Questo approccio funziona particolarmente bene in compiti dove è importante la logica: programmazione, analisi, matematica, pianificazione.

Esempio di utilizzo del reasoning. Fonte

Ci sono due modi di usare il reasoning:

Chain of thought — catena di pensieri. Si chiede al modello di calcolare quanto costa un prodotto con sconto, e manda il calcolo. Poi le si rimanda questo calcolo indietro e si chiede: "Controlla, è tutto giusto?". Ricalcola e trova un errore o conferma che è tutto corretto.
Tree of thought — albero di pensieri. Ad esempio, si chiede a un modello di dare decine o centinaia di varianti, e a un altro (o lo stesso) di scegliere il migliore. In sostanza, una rete neurale fa brainstorming, e l'altra lavora come giudice.

3. Agente LLM. Se un LLM normale è più un interlocutore, l'agente LLM è già un esecutore di compiti. Immaginate di scrivere in chat: "Comprami biglietti per il cinema per venerdì". Un modello semplice, non essendo un agente, al massimo dirà: "Ecco la lista dei cinema nella vostra città". L'agente invece andrà e proverà a comprare i biglietti.

Schema di funzionamento di un LLM-agente. Fonte

Come funziona:

L'agente chiarisce la richiesta. Può fare domande chiarificatrici: "A che ora?" o "Volete per la prossima proiezione di Dune?" - e anche guardare nella corrispondenza per non chiedere cose superflue
Per scoprire le proiezioni attuali, l'agente deve rivolgersi a una fonte esterna: andare sul sito del cinema, ottenere risposta HTML o API, fare il parsing dei dati. Lo fa da solo, senza il comando "vai su tale sito". Decide quale informazione cercare, come elaborarla, cosa farne, e restituisce il risultato. E può anche passare subito al pagamento, se ha diritti e accesso.

Chi è il più intelligente: come si confrontano i grandi modelli linguistici

Oggi gli LLM sono quasi come i calciatori: ognuno ha il suo rating e i fan. Per capire quale modello è davvero buono, i ricercatori usano benchmark — test con cui si possono confrontare i modelli tra loro. Ci sono tre modi per farlo.

Esame per LLM

Il modello riceve un set di domande e opzioni di risposta e dà la sua risposta: numero, testo, scelta dalla lista. Poi tutto è rigoroso: giusto — più, sbagliato — meno. Anche la complessità dei compiti viene considerata. Così si può confrontare obiettivamente quanto il modello si intende, diciamo, di storia dell'arte o algebra.

MMMU (Massive Multi-discipline Multimodal Understanding) verifica quanto bene il modello comprende testo e immagini simultaneamente. Nei compiti ci sono domande su fisica, biologia, arte e altre discipline. Il modello deve scegliere la risposta corretta guardando immagine e testo. Questo aiuta a valutare la reale "comprensione" del modello, non solo la memorizzazione dei fatti.

Test per agenti LLM

Gli agenti LLM hanno i loro benchmark. In essi ai modelli viene dato un compito "di ruolo": "sei un consulente" o "sei un assistente". Si definiscono le condizioni dell'ambiente, le risorse disponibili — ad esempio, motore di ricerca o calcolatrice. E poi si guarda se il modello ce la fa con il compito: risolverà il problema, costruirà un piano, raggiungerà il risultato.

TAU benchmark - uno dei benchmark specificamente per la valutazione degli LLM-agenti

Voto del popolo

C'è anche un modo più democratico di valutazione — la piattaforma Chatbot Arena. All'utente vengono mostrate due risposte alla stessa richiesta senza indicare quale modello le ha scritte. Sceglie quale è migliore. Votano migliaia di persone in tutto il mondo, e basandosi su queste preferenze a ogni modello viene assegnato un rating secondo il sistema Elo — lo stesso degli scacchisti.

Classifica internazionale Chatbot Arena:

Fonte

I modelli russi sono anche finiti nel rating sulla piattaforma Chatbot Arena. Lì si possono vedere YandexGPT, GigaChat e le loro versioni pro. Vengono valutati su compiti in russo. Alcuni hanno costo alto, ma rating basso.

Classifica russa Chatbot Arena:

Valutazione modelli russi:

Fonte

Costi comparativi dei token:

Fonte

Cosa ci aspetta nel futuro: previsioni per gli LLM per il 2025-2027

Guardare nel futuro non è solo il mio lavoro. Sul sito AI 2027 hanno pubblicato previsioni per i prossimi tre anni. Se vi sembra che tutto si sviluppi velocemente - non vi sembra. Ma andiamo in ordine.

2025: inizio dell'era degli agenti e automazione della routine

Fonte

Questo sta già succedendo. I modelli iniziano a eseguire compiti semplici nelle interfacce — come richiedere biglietti del cinema, selezione di concorrenti o aiuto con Excel. Questo è possibile grazie agli agenti LLM, che sanno:

leggere il contesto (inclusa la cronologia delle comunicazioni)
pianificare azioni
rivolgersi a strumenti esterni

Sul benchmark OSWorld tali agenti vengono lanciati in OS virtuali e risolvono compiti come un utente normale. Per ora la qualità è paragonabile al lavoro di uno specialista IT principiante: circa 65% di successo.

Appare anche un trend verso AI-dipendenti capaci di eseguire automaticamente compiti dai messaggi aziendali. Ad esempio, alla richiesta "fai il pulsante rosso" l'agente scrive il codice da solo, fa commit e aggiorna lo stato. Simili scenari vengono testati in SWE-bench — benchmark dove i modelli riparano bug da GitHub senza partecipazione di sviluppatori.

2026: l'agente impara a imparare

Fonte

Il prossimo passo — modelli che potranno partecipare alla ricerca — ad esempio, aiutare nello sviluppo di altri modelli o migliorare quelli esistenti. Questo è un passo logico: con la crescita della competizione tra aziende AI appare il bisogno di accelerare R&D e parte dei compiti può essere data all'AI.

2027: gli agenti prendono il volo libero

Fonte

Se credere alle previsioni di AI 2027, entro il 2027 gli agenti LLM diventeranno davvero autonomi. I modelli potranno non solo risolvere compiti, ma condurre proprie ricerche, adattarsi a nuove informazioni e migliorare se stessi senza intervento esterno. Scenario tipico: all'agente è stato posto un obiettivo, ha costruito un piano, letto la documentazione, addestrato un sottomodello, testato e rilasciato in produzione. Senza partecipazione umana. Per niente.

Si aspetta anche l'automazione dello sviluppo. C'è un bug — l'agente l'ha riparato, fatto pull request, scritto test. Più o meno come ora, solo in un giorno invece che in un mese.

Questo è un momento di svolta: da potente assistente passeremo a un nuovo tipo di intelligenza, i cui obiettivi, motivazioni e metodi non sempre capiremo. Specialmente se sa... simulare l'onestà. Sì, il test di Turing è stato ufficialmente superato il 31 marzo 2024. Ci stiamo avvicinando a un'epoca dove la macchina può ingannare — e farlo in modo convincente.

Cosa fare con tutto questo

Si può gioire di tale sviluppo degli eventi nel campo dell'AI, si può preoccuparsi, l'importante è non ignorare. Personalmente sono un tecno-ottimista e sono contento di vivere in questi tempi. Sì, tutto cambia velocemente, e sì, forse i programmatori smetteranno di esistere nella forma abituale. Ma questo non è motivo per arrendersi. Raccomando di sperimentare di più con gli LLM: automatizzare compiti di routine, addestrare modelli, provare a creare agenti.

Sicuramente nel futuro prenderanno quelli che sono riusciti a potenziare se stessi con l'help dell'AI, e non quelli che hanno combattuto la tecnologia.

Traduzione italiana dell'articolo di Alexander Frolov, data scientist del dipartimento di machine learning di Netologia

Articolo originale: https://habr.com/ru/companies/netologyru/articles/926776/