A Learning-by-Doing Approach to Spoken Data Collection: The Case of the LPSP Corpus

Combei, C; Gaia Eleonora Di Raimondo,; Maestri, S; Romanazzi, B; Scotti, E

The paper presents an experiential learning model implemented in a 36-hour, 7-day intensive MA course in Linguistics at Collegio Ghislieri in Pavia. The course, named “Laboratory Phonetics and Speech Processing”, produced the LPSP corpus, comprising two subcorpora: LPSP-IT (L1 Italian) and LPSP-ENG (L2 English). Under instructor supervision, students completed the full speech corpus construction cycle: task design, drafting and administering of informed consent and questionnaire, booth recording, speech segmentation and cleaning, data curation, documentation, licensing, and archiving. Ethics was embedded at all stages (consent in plain language, attention to sociodemographic data included, anonymization, controlled sharing). Recordings were collected in January 2026 in a phonetics laboratory, using a Blue Yeti Pro microphone at a sampling frequency of 44.1 kHz. Each of the 18 speakers completed a reading task (texts created for phoneme coverage; one speaker at a time; mono; cardioid mode; two attempts) and a find-the-difference spontaneous dialogue (paired speakers; stereo; bidirectional mode). Cleaning and segmentation resulted in 90 .wav files (total: 2 hours and 47 minutes), 45 for LPSP ENG and 45 for LPSP IT. Speakers were aged 22-27 years (M = 24.44, SD = 1.50). All were native speakers of Italian and comprised 61.11% women, 33.33% men, and 5.55% not disclosing their gender. Most participants resided in Northern Italy and reported a high level of education. This experience illustrates how attention to the technical dimensions of spoken-data collection, combined with reproducibility and ethical reflection, can transform students into competent data curators for their theses and early-stage linguistic research. The LPSP Corpus (audio recordings, stimuli, and sociodemographic information) is deposited on OSF under a CC BY-NC-SA 4.0 license and is available upon request, enabling reuse and replication of both the speech resource and the associated teaching model.

Il lavoro presenta un modello di apprendimento esperienziale implementato in un corso magistrale di linguistica (7 giorni, intensivo, 36 ore) tenuto al Collegio Ghislieri di Pavia. Nel corso, intitolato “Laboratory Phonetics and Speech Processing”, A stato creato il corpus di parlato LPSP, composto da due sottocorpora: LPSP-IT (italiano L1) e LPSP-ENG (inglese L2). Sotto la supervisione della docente, i/le partecipanti hanno completato l’intero ciclo di costruzione del corpus: progettazione e somministrazione di consensi informati e questionari, registrazione in cabina, pulizia e segmentazione, documentazione, licenza, gestione e archiviazione dati. Gli aspetti etici sono stati integrati in tutte le fasi (consenso informato chiaro, attenzione ai dati sociodemografici, anonimizzazione, condivisione controllata). Le registrazioni sono state fatte a gennaio 2026 in un laboratorio di fonetica, con un microfono Blue Yeti Pro (frequenza di campionamento: 44,1 kHz). I 18 parlanti hanno svolto un compito di lettura (testi che rispettano esigenze fonologiche; mono; modalità cardioide; due tentativi) e un dialogo spontaneo di tipo trova le differenze (stereo; modalità bidirezionale). Le operazioni di pulizia e segmentazione hanno prodotto 90 file .wav (2 ore e 47 minuti), 45 per LPSP-IT e 45 per LPSP-ENG. I 18 parlanti madrelingua italiano avevano un’età compresa tra 22 e 27 anni (M = 24,44, DS = 1,50), 61,11% erano donne, 33,33% uomini e 5,55% di genere non dichiarato. La maggioranza risiedeva nel Nord Italia e aveva un livello alto di istruzione. Questa esperienza didattica mostra come l’attenzione all’etica, alla riproducibilità e agli aspetti tecnici e teorici della raccolta dei corpora orali possa trasformare gli/le studenti/esse in curatori/trici competenti di dati linguistici per tesi e altre ricerche. Il corpus LPSP A depositato su OSF con licenza CC BY-NC-SA 4.0 ed A disponibile su richiesta per consentire il riuso dei dati e la riproducibilità del modello didattico.

Combei, C., Eleonora Di Raimondo, G., Maestri, S., Romanazzi, B., Scotti, E. (2026). A Learning-by-Doing Approach to Spoken Data Collection: The Case of the LPSP Corpus. In Cristina Marras, Andrea Pergola, Giampaolo Salice (a cura di), Digitale e Public Engagement: pratiche e prospettive nelle Digital Humanities, Atti del XV Convegno Annuale AIUCD (pp. 432-439). Bologna : AMS Acta.