# Dataset OeMCorpus Release

Dataset finale delle trascrizioni di `Otto e Mezzo` (`LA7`), organizzato a livello di episodio.

Questa release contiene:

- testo `clean`
- conteggio parole sul testo clean
- lista delle `Personalita_presenti`
- flag `Probabile_finale_troncato`
- un file tecnico separato e snello per audit e trasparenza

## Coverage

- programma: `Otto e Mezzo`
- emittente: `LA7`
- unità di analisi: `episodio`
- episodi: `2889`
- copertura temporale: `2011-04-06` -> `2025-06-10`

## Files

### Dataset pubblico

- `Data_OEM_final_dataset_public.csv`

Questo file contiene `5` variabili:

- `Date`
- `Content_clean`
- `word_count_clean`
- `Personalita_presenti`
- `Probabile_finale_troncato`

### Dataset tecnico

- `Data_OEM_final_dataset_technical.csv`

Il file tecnico è collegabile al file pubblico tramite `Date`. Non è un dump integrale della pipeline interna: è una versione curata che conserva solo le colonne utili per capire come una riga è stata pulita o corretta.

In particolare documenta:

- cleanup di artefatti testuali
- rimozione di ripetizioni spurie
- piccoli interventi manuali sul testo
- output raw e correzioni di `Personalita_presenti`
- correzioni di nomi dentro `Content_clean`
- diagnostica residua legata a `Probabile_finale_troncato`

## Main Variables

### `Date`

Data dell'episodio, in formato `YYYY-MM-DD`.

### `Content_clean`

Trascrizione pulita dell'episodio, dopo i passaggi di cleanup testuale e correzione mirata di alcune entità nominate.

### `word_count_clean`

Numero di parole in `Content_clean`.

### `Personalita_presenti`

Lista delle persone effettivamente presenti nella puntata come ospiti o interlocutori, separata da `|`.

Esempio:

`Marco Travaglio|Italo Bocchino|Linda Laura Sabbadini`

### `Probabile_finale_troncato`

Flag binaria:

- `0` = nessuna evidenza sufficiente di finale probabilmente troncato
- `1` = episodio con finale probabilmente troncato secondo flag storici, review o override manuali

Questo flag è prudenziale: segnala un possibile problema di coda del testo, ma non implica automaticamente che l'episodio sia inutilizzabile per ogni analisi.

## Public Vs Technical

Il file pubblico è pensato per l'uso analitico diretto.

Il file tecnico serve per:

- controlli di qualità
- audit delle trasformazioni
- verifiche sulle principali correzioni applicate

Se ti servono solo le variabili sostantive, usa il file pubblico. Se vuoi capire se un episodio ha subito cleanup o correzioni mirate, usa anche il file tecnico.

## Known Limits

- possono rimanere errori residui di trascrizione
- `Personalita_presenti` è molto rifinita, ma non va interpretata come perfetta al 100%
- `Probabile_finale_troncato` è un flag diagnostico, non una verità assoluta
- alcune puntate possono essere molto corte o molto lunghe per ragioni editoriali, o per problemi di trascrizione
- non è possibile risalire direttamente a chi ha detto cosa

## Notes

Questa cartella contiene la release del dataset finale in formato `csv`.

La release pubblica include il dataset e la documentazione metodologica essenziale. La pipeline operativa completa usata durante la costruzione del dataset non fa parte, per ora, dei materiali pubblicati in questa cartella.

Per capire la struttura della release conviene leggere anche:

- `DATA_DICTIONARY.md`
- `METHODSITA.md`
- `CondizioniUtilizzo.md`

## Condizioni di Utilizzo

Il dataset è distribuito con licenza `CC BY-NC-SA`.

Chiunque utilizzi il dataset deve:

- citare all'interno della pubblicazione il paper di riferimento del dataset: https://osf.io/preprints/socarxiv/bnurs_v1;

- indicare che il dataset è stato ottenuto tramite la pagina web del CSSC dell'Università di Bologna: [CSSC](https://centri.unibo.it/computational-social-science/it/dataset).

Si invita inoltre chi utilizza il dataset a comunicarlo via mail a `tommaso.aicardi2@phd.unibocconi.it` e a `marco.albertini2@unibo.it`, così da poter condividere il lavoro prodotto all'interno del sito del CSSC.
