LABORATORIO DI ANALISI DI DATI LINGUISTICI (C. P.)

Anno immatricolazione

2017/2018

Anno offerta

2017/2018

Normativa

DM270

SSD

L-LIN/01 (GLOTTOLOGIA E LINGUISTICA)

Dipartimento

DIPARTIMENTO DI STUDI UMANISTICI

Corso di studio

LINGUISTICA TEORICA, APPLICATA E DELLE LINGUE MODERNE

Curriculum

PERCORSO COMUNE

Anno di corso

1°

Periodo didattico

Secondo Semestre (26/02/2018 - 01/06/2018)

Crediti

Ore

36 ore di attività frontale

Lingua insegnamento

Italiano

Tipo esame

ORALE

Docente

JEZEK ELISABETTA (titolare) - 6 CFU

Prerequisiti

Nozioni di base di linguistica generale, in particolare morfologia, sintassi, semantica e pragmatica, come vengono fornite negli insegnamenti di laurea triennale di area umanistica.

Obiettivi formativi

Il corso ha l'obiettivo di rendere gli studenti capaci di raccogliere e analizzare dati linguistici da una molteplicità di prospettive, attraverso l'uso delle principali risorse linguistiche digitali a disposizione (corpora, lessici, concordance tools, banche dati, basi di conoscenza, datasets, ontologie, ecc.). Al termine del corso lo studente possiedera' gli strumenti per progettare e condurre autonomamente un'analisi linguistica utilizzando metodologie basate prevalentemente sull'annotazione manuale o semiautomatica dei dati, allo scopo di estrarre o verificare generalizzazioni linguistiche per scopi teorici o applicativi.

Programma e contenuti

Il corso focalizza l'attenzione su due tipi di dati linguistici:

- corpora interattivi (social media networks, forums, blogs)
- corpora di notizie giornalistiche, editoriali.

Attraverso le letture selezionate, sono indagate la creazione, annotazione, struttura di tali corpora e il loro utilizzo per l'analisi linguistica e le applicazioni computazionali.

Metodi didattici

Lezioni frontali interattive
Slides
Incontri seminariali con presentazioni di gruppo delle letture e discussione

Testi di riferimento

Baldwin T., Cook P., Lui M., MacKinlay A. and L. Wang. 2013. "How Noisy Social Media Text, How Diffrnt Social Media Sources?" In Proceedings of the International Joint Conference on Natural Language Processing, pages 356–364, Nagoya, Japan, 14-18 October 2013.

Bender, E.M., Morgan, J.T., Oxley, M., Zachry, M., Hutchinson, B., Marin, A., Zhang, B. and M. Ostendorf. 2011. "Annotating social acts: Authority claims and alignment moves in wikipedia talk pages." In Proceedings of the Workshop on Languages in Social Media, pp. 48-57. Association for Computational Linguistics.

Celli F., Riccardi G. and F. Alam. 2016. "Multilevel annotation of agreement and disagreement in italian news blogs". In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portoroz, Slovenia.

Celli, F., Stepanov, E. A., Poesio, M., & Riccardi, G. (2016, December). Predicting Brexit: Classifying agreement is better than sentiment and pollsters. In Proceedings of the Workshop on Computational Modeling of People’s Opinions, Personality, and Emotions in Social Media (pp. 110-118).

Herdağdelen, A. and M. Marelli 2016. "Social Media and Language Processing: How Facebook and Twitter Provide the Best Frequency Estimates for Studying Word Recognition". In Cognitive Science, pp. 1-20. http://onlinelibrary.wiley.com/doi/10.1111/cogs.12392/full

Mohammad, S. M., Kiritchenko S., Sobhani P., Zhu X., and C. Cherry. 2016 "A dataset for detecting stance in tweets." In Proceedings of 10th edition of the the Language Resources and Evaluation Conference (LREC 2016), Portoroz, Slovenia.

Oraby, S., Reed L., Compton R., Riloff E., Walker M. and S. Whittaker. 2015 "And That’s A Fact: Distinguishing Factual and Emotional Argumentation in Online Dialogue." In Proceedings of the 2nd Workshop on Argumentation Mining, pp. 116-126.

Vlachos, A., & Riedel, S. (2014). Fact Checking: Task definition and dataset construction. ACL 2014, 18.

Zubiaga, A., Liakata, M., Procter, R., Hoi, G.W.S. and P. Tolmie. 2016. "Analysing how people orient to and spread rumours in social media by looking at conversational threads". In PloS one, 11(3), pp. 1-29.

Modalità verifica apprendimento

Prova orale di verifica dell’apprendimento dei contenuti del corso.
Discussione dell'indagine empirica di un fenomeno linguistico a scelta dello studente, concordato con la docente, utilizzando uno dei corpora analizzati o creando un corpus ad hoc della stessa tipologia.
Elaborato scritto di 8 cartelle riportante i risultati dell'analisi empirica, da inviare a jezek@unipv.it 7 gg prima della data dell'appello d'esame.

Altre informazioni

Tutto il materiale didattico - elenco aggiornato delle letture, slides delle lezioni, link a datasets per l'analisi linguistica, istruzioni per l'elaborato finale - è disponibile sul portale della didattica KIRO (accesso con credenziali di Ateneo).

Obiettivi Agenda 2030 per lo sviluppo sostenibile

$lbl_legenda_sviluppo_sostenibile