Computational analysis of texts

Finalità
Purpose

Il corso si propone di fornire agli studenti e alle studentesse delle competenze di base per la raccolta, l’organizzazione e l’analisi di dati testuali. Durante il corso, le/i partecipanti impareranno a creare un corpus, ad applicare tecniche derivate dalla linguistica computazionale per esplorare il lessico presente al suo interno e a confrontare l’utilizzo di quest’ultimo tra diversi corpora.

This course aims to provide students with basic skills for collecting, organizing, and analyzing textual data. During the course, participants will learn to create a corpus, to apply techniques derived from computational linguistics for exploring the lexicon employed, and to compare the latter’s usage across different corpora.

Software utilizzato
Software used

Il corso prevede principalmente l’utilizzo del software SketchEngine. Verranno inoltre brevemente introdotti i software UAMCorpusTool e AntConc, rispettivamente per fornire un esempio di programma di annotazione e per mostrare un esempio di come l’output di SketchEngine possa essere utilizzato per analisi statistiche.

- SketchEngine (https://www.sketchengine.eu/): il software prevede la possibilità di attivare una licenza di prova gratuita della durata di un mese. Si consiglia di non attivare l’account prima dell’inizio del corso.
- AntConc (https://www.laurenceanthony.net/software/antconc/)
- UAMCorpusTool (http://www.corpustool.com/)


SketchEngine software will be mainly used during the course. Alongside, UAMCorpusTool and AntConc software will be introduced, respectively, to provide an example of annotation programs and to show an instance of how SketchEngine’s output can be exploited for statistical analyses.

- SketchEngine (https://www.sketchengine.eu/): a one-month free trial license can be activated. It is suggested to activate it after the beginning of the course.
- AntConc (https://www.laurenceanthony.net/software/antconc/)
- UAMCorpusTool (http://www.corpustool.com/)

 Programma del corso

- Breve introduzione alla linguistica computazionale
- Creazione account su SketchEngine e introduzione al software
- Creazione di corpora e subcorpora, pre-processamento del testo, creazione di frequency e stop-list, identificazione delle parole chiave
- Installazione guidata di AntConc e breve introduzione al software; esempio di analisi per il confronto del lessico presente nei subcorpora
- Installazione guidata di UAMCorpusTool e breve introduzione al software; esempio di utilizzo per l’annotazione di dati testuali.               

Course program                                                                    

- Brief introduction to computational linguistics
- Account registration and introduction to SketchEngine
- Corpora and subcorpora creation, text pre-processing, frequency and stop list creation, keywords identification
- Guided installation and brief introduction to AntConc; example of analysis for comparing lexicon across subcorpora
- Guided installation and brief introduction to UAMCorpusTool; example of use for the annotation of textual data.

 

Prerequisiti/Prerequisites: Nessuno/Noone

Durata del corso/Duration of the course: 20 ore/hours

Aule di svolgimento delle lezioni/Classrooms for lessons: Aula CARS (Piano Terra, Psico1)

Possibilità di erogare il corso in inglese/Possibility of delivering the course in English: Si/Yes

Numero massimo partecipanti/Maximum number of participants: 10

Conduttore/Conductor: Mariavittoria Masotina

 

mariavittoria.masotina@phd.unipd.it

     

ISCRIVITI