Le potenzialità di ChatGPT e dei giganteschi modelli di linguaggio sembrano infinite, ma solo perché il giapponese non è la nostra lingua madre. Dall’altra parte del mondo, molti utenti giapponesi faticano a comunicare con questa intelligenza artificiale (IA) creata dalla società statunitense OpenAI.
La Complessità del Linguaggio Giapponese
Come afferma il famoso imprenditore Kazuhiko Nishi, “ChatGPT è ancora troppo ingenuo“. Spesso confonde le parole, genera caratteri strani al limite dell’assurdo o addirittura ignora la lingua a causa delle intricate sfumature del suo vocabolario. Questo ha spinto il Giappone a intraprendere la strada della creazione di una propria versione di ChatGPT: un chatbot in grado di comprendere i testi giapponesi e di generare risposte precise.
Un Chatbot più Radicato nella Cultura Giapponese
Il governo giapponese e i colossi tecnologici come NEC, Fujitsu e SoftBank stanno investendo centinaia di milioni di dollari nella realizzazione di sistemi di intelligenza artificiale basati sulla medesima tecnologia di base dei grandi modelli di linguaggio (LLM), ma con un orientamento specifico alla lingua giapponese, anziché alle traduzioni dall’inglese. Ecco che sorge la sfida, poiché esistono enormi differenze tra le due lingue, che possono ingannare anche la macchina più intelligente.
I LLM in inglese si basano su un alfabeto di sole 26 lettere, che si ripetono in molte altre lingue, come lo spagnolo o il portoghese. Tuttavia, il giapponese opera con due insiemi distinti di 48 caratteri di base, oltre a 2.136 caratteri cinesi o kanji di uso comune. Ogni carattere è diverso dagli altri per forma e significato, pertanto il ChatGPT che conosciamo spesso risulta inadeguato per il giapponese.
In questo contesto, la misteriosa capacità del chatbot di condurre conversazioni simili a quelle umane non trova riscontro in Giappone. Questo ha generato una preoccupazione: che i sistemi di intelligenza artificiale addestrati su insiemi di dati in altre lingue non siano in grado di apprendere la lingua giapponese. “La struttura delle frasi in giapponese è completamente diversa dall’inglese. ChatGPT deve tradurre una richiesta giapponese in inglese, trovare la risposta e poi tradurla nuovamente in giapponese. Date queste complessità, non sorprende che possa avere problemi con la lingua“, spiega Keisuke Sakaguchi, ricercatore presso l’Università di Tohoku
Ma è possibile creare una versione personalizzata di ChatGPT?
Sensibilità Culturale e LLM Giapponesi
Per valutare quanto i LLM siano sensibili alla cultura giapponese, un gruppo di ricercatori ha lanciato Rakuda: una classificazione di domande aperte su temi giapponesi. Il co-fondatore ha chiesto a ChatGPT di confrontare la fluidità culturale delle risposte e ha concluso che il miglior LLM giapponese open source si colloca al quarto posto in Rakuda, mentre il GPT-4 è al primo.
I LLM solitamente si nutrono di enormi quantità di dati provenienti da fonti pubbliche per apprendere i modelli del linguaggio naturale. Sono addestrati a prevedere la parola successiva basandosi sul contesto delle parole precedenti di un testo, pertanto possono adattarsi per riflettere con precisione le pratiche culturali e la lingua di un paese.
L’Istituto di Tecnologia di Tokyo, l’Università di Tohoku, Fujitsu e il gruppo di centri di ricerca RIKEN stanno ora utilizzando Fugaku, uno dei supercomputer più veloci al mondo, per sviluppare questa nuova versione del chatbot. Si prevede che verrà rilasciato l’anno prossimo come software open source per tutti gli utenti, a differenza di GPT-4 e di altri modelli proprietari.
Nel frattempo, altre aziende giapponesi stanno già mettendo sul mercato le proprie tecnologie LLM. Ora, se si chiede a ChatGPT di scrivere una email di candidatura in giapponese, potrebbe omettere le espressioni standard di cortesia e sembrare una traduzione ovvia dall’inglese. Tuttavia, presto un nuovo chatbot di IA potrebbe contribuire a colmare il divario tra il Giappone e il resto del mondo.
Foto di Mohamed Nohassi su Unsplash