viernes, 8 de noviembre de 2019

Chi-cuadrada

El estadístico ji-cuadrado (o chi cuadrado), que tiene distribución de probabilidad del mismo nombre, sirve para someter a prueba hipótesis referidas a distribuciones de frecuencias. En términos generales, esta prueba contrasta frecuencias observadas con las frecuencias esperadas de acuerdo con la hipótesis nula. En este artículo se describe el uso del estadístico ji-cuadrado para probar la asociación entre dos variables utilizando una situación hipotética y datos simulados.
Ji- cuadrado como prueba de asociación
Supongamos que un investigador está interesado en evaluar la asociación entre uso de cinturón de seguridad en vehículos particulares y el nivel socio-económico del conductor del vehículo. Con este objeto se toma una muestra de conductores a quienes se clasifica en una tabla de asociación, encontrando los siguientes resultados:
 
Uso de cinturón Nivel socio-económico bajo Nivel socio-económico medio Nivel socio-económico alto TOTAL
SI 8 15 28 51
NO 13 16 14 43
TOTAL 21 31 42 94

Tabla I. Tabla de asociación, valores observados.

¿Permiten estos datos afirmar que el uso del cinturón de seguridad depende del nivel socio-económico? Usaremos un nivel de significación alfa=0,05.
Los pasos del análisis estadístico en este caso son los siguientes:

1. En primer lugar se debe plantear las hipótesis que someteremos a prueba
H0: “El uso de cinturón de seguridad es independiente del nivel socio-económico”.
H1: “El uso de cinturón de seguridad depende del nivel socio-económico”.

En esta prueba estadística siempre la hipótesis nula plantea que las variables analizadas son independientes.

2. En segundo lugar, obtener (calcular) las frecuencias esperadas
Estas son las frecuencias que debieran darse si las variables fueran independientes, es decir, si fuera cierta la hipótesis nula.
Las frecuencias esperadas se obtendrán de la distribución de frecuencias del total de los casos, 51 personas de un total de 94 usan el cinturón y 43 de 94 no lo usan. Esa misma proporción se debería dar al interior de los tres grupos de nivel socio-económico, de manera que el cálculo responde al siguiente razonamiento: si de 94 personas 51 usan cinturón; de 21 personas, ¿cuántas debieran usarlo?
La respuesta a esta pregunta se obtiene aplicando la “regla de tres” y es 11,4. Este procedimiento debe repetirse con todas las frecuencias del interior de la tabla.
El detalle de los cálculos es el siguiente:
Nivel bajo: (21x51/94)=11,4          (21x43/94)=9,6
Nivel medio: (31x51/94)=16,8      (31x43/94)=14,2
Nivel alto: (42x51/94)=22,8          (42x43/94)=19,2
Estas son las frecuencias que debieran presentarse si la hipótesis nula fuera verdadera y, por consiguiente, las variables fueran independientes.
Estos valores los anotamos en una tabla con las mismas celdas que la anterior; así tendremos una tabla con los valores observados y una tabla con los valores esperados, que anotaremos en cursiva, para identificarlos bien.

Uso de cinturón Nivel bajo Nivel medio Nivel alto TOTAL
SI 11,4 16,8 22,8 51
NO 9,6 14,2 19,2 43
TOTAL 21 31 4294
Tabla II. Tabla de asociación, valores esperados.

3. En tercer lugar se debe calcular el estadístico de prueba
En este caso, el estadístico de prueba es Ji-cuadrado que, como dijimos al comienzo, compara las frecuencias que entregan los datos de la muestra (frecuencias observadas) con las frecuencias esperadas, y tiene la siguiente fórmula cálculo:

 donde oi  representa a cada frecuencia observada y ei representa a cada frecuencia esperada.
De este modo el valor del estadístico de prueba para este problema será:

Entonces Este es el valor de nuestro estadístico de prueba que ahora, siguiendo el procedimiento de problemas anteriores (paso 4), debemos comparar con un valor de la tabla de probabilidades para ji-cuadrado (x2). Esta tabla es muy parecida a la tabla t de student, pero tiene sólo valores positivos porque ji-cuadrado sólo da resultados positivos. Véase gráfico 1, que muestra la forma de la curva, con valores desde 0 hasta infinito.

Gráfico 1.
Dado que el estadístico ji cuadrado sólo toma valores positivos, la zona de rechazo de la hipótesis nula siempre estará del lado derecho de la curva.
Uso de tabla ji-cuadrado
La tabla de ji-cuadrado tiene en la primera columna los grados de libertad y en la primera fila la probabilidad asociada a valores mayores a un determinado valor del estadístico (véase gráfico de la tabla III).
Los grados de libertad dependen del número de celdas que tiene la tabla de asociación donde están los datos del problema y su fórmula de cálculo es muy sencilla:
Grados de libertad (gl)=(nº de filas–1)x(nº de columnas–1)
Así, en nuestro ejemplo, en que hay 2 filas y 3 columnas, los grados de libertad serán:
gl=(2-1)x(3-1)=2
Nótese que no se consideran la fila ni la columna de los totales.


Tabla III. Tabla de ji-cuadrado.
Al comienzo elegimos un nivel de significación alfa=0,05. Entonces un valor de tabla para x2 asociado a 2 grados de libertad y alfa 0,05 es 5,99.
Por lo tanto, como en el gráfico 2 vemos que 5,23 se encuentra a la izquierda de 5,99, la probabilidad asociada a valores superiores a 5,23 es mayor que alfa (0,05).


Gráfico 2.
Según esto, debemos aceptar la hipótesis nula que plantea que las variables “uso de cinturón de seguridad” y “nivel socio-económico” son independientes. Limitación: como norma general, se exige que el 80% de las celdas en una tabla de asociación tengan valores esperados mayores de 5.



Presentación en clase

Referencia: ugr.es y educatina.