I modelli addestrati in inglese “spezzettano” l’italiano fino al 20 % di token extra, incidendo sui costi di inference e, soprattutto, sulla finezza semantica: confondono “tu” e “lei”, inciampano sulle sigle dei CCNL e sulle sfumature di cortesia. Alcuni tentativi di fine tuning effettuati in laboratorio su HR nazionali dimostrano un’importante riduzione dell’errore semantico, ma non basta.
L’idea è semplice ma impegnativa: pre-training ibrido italiano + gergo HR, RLHF con professionisti delle risorse umane e quantizzazione spinta per far girare il modello on-edge in filiali con banda limitata.
Il risultato? Voci più naturali nei chatbot di onboarding, payroll senza allucinazioni, query in linguaggio naturale che capiscono davvero cosa intende l’utente quando scrive “ferie solidali” o “scatto di livello”.
Dietro c’è la sfida che piace ai dev: curare corpus verticali introvabili, ottimizzare architetture leggere senza sacrificare explainability, integrare guard-rails che registrano la fonte di ogni risposta per allinearsi al regolatore europeo. Un lavoro di cesello linguistico che può cambiare il modo in cui l’AI conversa nel nostro mercato.
