Un model lingüístic permet avaluar el sentiment dels textos escrits a les xarxes socials

Els resultats de la seva recerca s’han publicat a la revista científica Mathematics

Redacció

Publicat el 13 de febrer de 2023 a les 11:07

Un equip investigador del Departament de Filologies Romàniques de la URV ha desenvolupat una tècnica que inclou diferents mètodes matemàtics i lingüístics i que aconsegueix modelar formalment els enunciats avaluatius i captar o extreure el sentiment (o la valoració) que hi ha darrere d’aquestes expressions lingüístiques de naturalesa difusa. El resultat de la seva recerca, que s’ha fet en col·laboració amb el centre d’excel·lència IRAFM de la República Txeca, s’ha publicat a la revista científica Mathematics.

Per analitzar el sentiment s’utilitzen eines computacionals que detecten i avaluen el llenguatge valoratiu, en termes de polaritat, es a dir: classifiquen automàticament els textos en funció de la connotació positiva o negativa del llenguatge utilitzat. Amb aquesta anàlisi s’intenta determinar l’actitud d’una persona respecte a un tema. L’actitud pot ser un judici o avaluació, el seu estat afectiu (estat emocional de l’autor quan escriu), o la intenció comunicativa emocional (l’efecte emocional que l’autor intenta causar en el lector). El desenvolupament d’aquestes eines d’anàlisi de sentiment requereix models formals que puguin descriure el llenguatge avaluatiu en termes que una màquina sigui capaç de processar.

Es diu que el llenguatge avaluatiu és difús o vague, ja que és molt difícil delimitar-ne el significat de paraules quotidianes com bé, malament, gran, petit, estimar, odiar, etc. Per exemple, un nen de 5 anys pot ser “alt” si fa 130 centímetres, i un jugador adult de bàsquet, en canvi, és “alt” si fa 220 centímetres. Aquesta variabilitat també es pot trobar entre cultures: per exemple, el significat final de l’adjectiu “alt” és segurament diferent en la concepció nord-americana i en la japonesa. Tot i que el significat final és diferent, tothom pot entendre que “alt” significa valor elevat en una escala d’altura. Un model per caracteritzar aquesta “borrositat” en el significat és un model difús, i aquesta és la base de la proposta de d’aquesta recerca, encapçalada per Adrià Torrens i María Dolores Jiménez, del Grup de Recerca en Lingüística Matemàtica del Departament de Filologies Romàniques de la URV, juntament amb Vilém Novák, de la Universitat d’Ostrava, a la República Txeca.

Modelar formalment els enunciats avaluatius i captar o extreure el sentiment (o la valoració) que hi ha darrere d’aquestes expressions lingüístiques és, sens dubte, un repte. Normalment, per a aquestes tasques s’utilitzen tant algorismes d’aprenentatge automàtic com tècniques de diccionari (conegudes com a “bossa de paraules”).

Els algoritmes d’aprenentatge se centren en aspectes de rendiment computacional. En general, aquestes tècniques no aporten prou característiques des del punt de vista dels processos lingüístics. Amb aquesta recerca es pretén presentar un nou enfocament basat en un model formal interdisciplinari que identifiqui i analitzi la naturalesa difusa i la informació vaga de les expressions avaluatives abordant molts dels seus matisos i oferint una idiosincràsia “explicativa”.

El model que proposa aquest equip investigador combina una gramàtica de propietats i un model de lògica difusa. La gramàtica de propietats estableix les restriccions/condicions que una estructura lingüística ha de complir per ser adequada. El model difús permet captar la vaguetat d’aquestes expressions (“alt” pot significar 130 centímetres o 220 centímetres), així com determinar el grau de positivitat i/o negativitat d’una expressió (qualsevol paraula pot ser més o menys positiva o negativa en funció del context en el qual sigui emprada). Es preveu que aquest model tingui múltiples aplicacions i un impacte important en àmbits com la mineria de dades, eines d’autoaprenentatge de llengües, detectors automàtics d’autoria, etc.

Segons l’equip investigador, el següent pas és dur a terme un projecte interdisciplinari amb professionals de la psicologia, enginyeria computacional, lingüística i lexicografia per a la construcció d’un conjunt de nuclis avaluatius que es puguin aplicar en les anàlisis de sentiment, similar al projecte de WordNet que es va desenvolupar a la Universitat de Princeton. “Això ajudaria a poder identificar llenguatge violent, i també tindria beneficis per a les anàlisis de dades en el sector serveis, turisme, i en la detecció de problemes cognitius en relació amb el nivell semàntic del llenguatge”, expliqua María Dolores Jiménez, una de les investigadores implicades en aquesta recerca.