DISTRIBUZIONE UNIVARIATA E BIVARIATA

Una delle prime, se non la prima, cosa che viene insegnata ad un corso di statistica descrittiva è la differenza tra le 3 principali distribuzione: distribuzione assoluta, distribuzione relativa, distribuzione assoluta. Quando si utilizzano variabili quantitative continue la prima cosa da fare è suddividere in classi le osservazioni ottenute da tutte le N unità. La costruzione delle classi non è banale, si devono tenere conto di molti fattori; le classi infatti devono essere di egual ampiezza, dovrebbero (per quanto possibile) contenere lo stesso numero di elementi, e non devono essere troppo ampie.

Dopo aver ottenuto le classi, per ogni classe verrà conteggiato il numero di osservazioni (o modalità) che rientrano negli estremi della classe. Questi valori sono definiscono la distribuzione assoluta. Ad esempio, se si osservano N = 100 unità e si formano 5 classi, la somma delle osservazioni per classe dovrà essere pari a 100, cioè n_1+n_2+n_3+n_4+n_5=100, dove n_i è il numero di osservazioni per classe.

Partendo dalla distribuzione assoluta è possibile ottenere la distribuzione relativa. Questo tipo di distribuzione è molto utile per capire il “peso” di una classe sul totale delle osservazioni. La distribuzione di frequenza della i-esima classe fi_ è pari a fi = n_i/N cioè pari al rapporto tra la distribuzione assoluta della classe ni e il numero di osservazioni totali N. Ovviamente la somma delle frequenze relative è pari a 1. Riprendendo l’esempio precedente: f_1+f_2+f_3+f_4+f_5 = 1.

Infine, partendo dalle distribuzioni relative, si può ottenere la distribuzione percentuale moltiplicando per 100 le frequenze relative. Chiamando p_i la distribuzione percentuale della i-esima classe, si ottiene p_1+p_2+p_3+p_4+p_5 = 100.

Quando di osservano due variabile su uno stesso campione di unità, è spesso interessante creare una tabella di frequenze doppie, o tabella di contingenza. Dopo aver suddiviso in classi le due variabili X e Y, le classi della variabile X andranno a formare le righe della tabella, mentre le classi della variabile Y andranno a formare le colonne della variabile. Ogni cella n_ij rappresenta la frequenza assoluta delle unità che contemporaneamente presentano la i-esima modalità della variabile X e la j-esima modalità della variabile Y. Anche con questa rappresentazione è possibile ottenere le distribuzioni relative e percentuali, utilizzando le stesse operazioni illustrate per il calcolo delle distribuzioni univariate. La somma delle frequenze assolute di ogni colonna j-esima rappresenta la frequenza assoluta della classe j-esima della variabile Y; tutti questi valori formano la distribuzione marginale della variabile Y. Lo stesso discorso vale per le classi della variabile X; in questo caso si ottiene la distribuzione marginale della variabile X.

Molto interessante, quando si lavora con tabelle di contingenza, è il calcolo della distribuzioni assolute, relative e percentuali di una delle due variabile condizionatamente a una modalità o classe dell’altra variabile. In questo caso non si considererà più N come numero totale delle osservazioni, ma la frequenza assoluta della classe rispetto alla quale si decide di condizionare le distribuzioni.

Lascia un commento

Progetta un sito come questo con WordPress.com
Comincia ora