Risorse linguistiche e semantica computazionale: IMAGACT

Andrea Amelio Ravelli e Lorenzo Gregori
Unità di Ricerca Lablita, Dipartimento di Lettere e Filosofia (DILEF), Università degli Studi di Firenze


Le metodologie di NLP più comuni si basano su collezioni di dati appositamente costruite per presentare formalmente il fenomeno "lingua", in maniera quanto più possibile rappresentativa. Partendo da una breve introduzione sulle principali tipologie di risorse linguistiche e sui relativi criteri di costruzione, questo seminario si concentra sulla codifica dell'informazione semantica delle lingue naturali. Ontologie e basi di conoscenza permettono l'accesso strutturato a informazione di vario tipo (semantica, sintattica, visuale, distribuzionale), collezionata da diversi punti di vista (risorse multilingue, generaliste, specifiche). L'integrazione dell'informazione si rivela un passaggio fondamentale per una rappresentazione quanto più completa dello spazio semantico. Viene presentata IMAGACT, ontologia multimodale e multilingue dell'azione (www.imagact.it), come esemplificazione di una costruzione bilanciata e supervisionata di risorsa linguistica, mirata alla rappresentazione semantica dei verbi d'azione. A seguire, alcuni esempi di applicazioni computazionali del dataset alla base dell'ontologia dell'azione.
slides
indietro

Il ruolo delle emozioni nei siti di Question-Answering: il caso di Stack Overflow

Nicole Novielli
Università di Bari


Con oltre 16 milioni di domande e 8 milioni di utenti, Stack Overflow è la principale comunità di Q&A per sviluppatori software. Il successo di Stack Overflow ed altri siti di Q&A si deve principalmente alla volontà degli utenti di rispondere alle domande. Nel formulare domande su siti di Q&A non si cerca solo dell'informazione, ma anche il supporto da parte di altre persone. Capire le dinamiche della partecipazione in comunità di Q&A è essenziale per migliorare la comprensione della conoscenza raccolta dagli utenti. In questo studio, esaminiamo come chi ricerca informazioni può incrementare la probabilità di ottenere una risposta soddisfacente alla propria domanda su Stack Overflow, analizzando i seguenti fattori: carica affettiva, qualità della presentazione, tempistica.

Abbiamo sviluppato un framework di fattori che potenzialmente influenzano il successo delle domande su Stack Overflow, che include lo stile emozionale delle domande, misurato attraverso tecniche di analisi del sentimento. Abbiamo analizzato quantitativamente un insieme di 87,000 domande da Stack Overflow per misurare l'impatto dei singoli fattori sul successo di domande tecniche. Inoltre, per comprendere il ruolo giocato dalle emozioni nel successo delle domande, abbiamo analizzato qualitativamente domande contenenti emozioni positive e negative. Infine, abbiamo condotto un sondaggio per comprendere come gli utenti di Stack Overflow percepiscono le linee guida per la scrittura delle domande.

Basandoci sull'evidenza empirica, possiamo fornire delle linee guida per scrivere domande efficaci su Stack Overflow, che possono essere seguite dagli sviluppatori software per incrementare la probabilità di ottenere aiuto su questioni tecniche. Riguardo il ruolo delle emozioni, abbiamo confermato empiricamente le linee guida della comunità che suggeriscono di evitare toni accesi nelle domande.

slides
indietro

L'analisi testuale automatica di note cliniche: approcci, applicazioni e opportunitá

Francesco Ronzano
Universitat Pompeu Fabra
Barcelona


Nonostante le iniziative volte a garantire un maggior livello di standardizzazione nella redazione di note cliniche, attualmente la maggior parte dell’informazione generata durante le attivitá di refertazione medica è costituita da testo libero che è di difficile analisi. In questo contesto, le tecniche di Elaborazione del Linguaggio Naturale forniscono strumenti utili ad estrarre in maniera automatica e su larga scala l’informazione contenuta nelle note cliniche. Automatizzare l’identificazione, la caratterizzazione e l’interconnessione di entitá di interesse medico come le menzioni di malattie, sintomi o farmaci rende possibile una gran varietá di applicazioni che possono contribuire a migliorare la qualitá dell’assistenza sanitaria a livello sia globale che individuale.

Durante questo intervento verranno introdotte le principali problematiche che si devono affrontare nell’analisi testuale automatica di note cliniche, fornendo esempi di metodologie, risorse linguistiche e strumenti software. Successivamente saranno presentati alcuni casi d’uso rappresentativi basati sull’informazione estratta e aggregata a partire da note cliniche tra cui lo studio di comorbilitá e la previsione dell’evoluzione dei pazienti. In conclusione, saranno introdotti alcuni aspetti connessi con la tutela della privacy e l’anonimizzazione dei dati personali.
slides
indietro

L'annotazione per il trattamento automatico del linguaggio: quando, come e perché

Irene Russo
Istituto di Linguistica Computationale, CNR


Un passaggio ritenuto fondamentale per il trattamento automatico del linguaggio è la fase di annotazione manuale di parole, sequenze di parole, porzioni di testo o interi testi per costruire un insieme coerente di dati rispetto ai quali gli approcci computazionali sviluppati - sia supervisionati che non supervisionati - andranno misurati. Molti fattori contribuiscono alla creazione e alla messa a punto di un insieme di dati ottimali. Si passeranno in rassegna questi fattori, mettendone in luce la complessità con esempi concreti di annotazione.


slides
indietro