jueves, 7 de noviembre de 2019

Tablas de Contingencia

Una tabla de contingencia es una de las formas más comunes de resumir datos categóricos. En general, el interés se centra en estudiar si existe alguna asociación entre una variable denominada fila y otra variable denominada columna y se calcula la intensidad de dicha asociación. De manera formal, se consideran X e Y dos variables categóricas con I y J categorías respectivamente. Una observación puede venir clasificada en una de las posibles I × J categorías que existen. Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se denomina tabla de contingencia, término que fue introducido por Pearson en 1904. Una tabla de contingencia (o tabla de clasificación cruzada), con I filas y J columnas se denomina una tabla I × J.
Las tablas de contingencia organizan datos basados en dos variables categóricas.

Tablas de contingencia de frecuencias

Las tablas de contingencia de frecuencias muestran cuántos puntos caben en cada categoría.
Aquí hay un ejemplo:
PreferenciaHombresMujeres
Perros3622
Gatos826
Sin preferencia26
Las columnas de la tabla nos dicen si los estudiantes son hombres o mujeres. Las filas de la tabla nos dicen si los estudiantes prefieren perros, gatos, o les da igual.

Las celdas nos dicen el número (o frecuencia) de estudiantes. Por ejemplo, el número 36 se encuentra en la columna "Hombres" y en la fila "Perros", lo que significa que hay 36 alumnos que prefieren los perros.
Observa que hay dos variables, el género y la preferencia. A veces a las tablas de contingencia también se les llama tablas de dos variables por esta razón.
Tablas de contingencia de frecuencia relativa
Las tablas de contingencia de frecuencias relativas muestran qué porcentaje de los datos cabe en cada categoría. Podemos utilizar frecuencias relativas en fila o frecuencias relativas en columna, depende del contexto del problema.
Por ejemplo, aquí te mostramos cómo nos gustaría hacer una frecuencias relativas en columna:
Paso 1: encuentra los totales para cada columna.
PreferenciaHombreMujer
Perros3622
Gatos826
Sin preferencia26
Total4654
Paso 2: divide cada conteo de células entre el total de su columna y convierte a un porcentaje.
PreferenciaHombreMujer
Perrosstart fraction, 36, divided by, 46, end fraction, approximately equals, 78, percentstart fraction, 22, divided by, 54, end fraction, approximately equals, 41, percent
Gatosstart fraction, 8, divided by, 46, end fraction, approximately equals, 17, percentstart fraction, 26, divided by, 54, end fraction, approximately equals, 48, percent
Sin preferenciastart fraction, 2, divided by, 46, end fraction, approximately equals, 4, percentstart fraction, 6, divided by, 54, end fraction, approximately equals, 11, percent
Totalstart fraction, 46, divided by, 46, end fraction, equals, 100, percentstart fraction, 54, divided by, 54, end fraction, equals, 100, percent

Observa que a veces los porcentajes no suman hasta el 100, percent aunque hayamos redondeado correctamente. A esto se le denomina error de redondeo, y no hay que preocuparse demasiado por esto.

Las tablas de contingencia de frecuencia relativa son útiles cuando existen tamaños de muestra diferentes en un conjunto de datos. En este ejemplo, se encuestaron a más mujeres que hombres, así que el uso de porcentajes hace más fácil la comparación de las preferencias entre hombres y mujeres. De las frecuencias relativas, podemos ver que la gran mayoría de los hombres prefirió perros left parenthesis, 78, percent, right parenthesis comparado con una minoría de mujeres left parenthesis, 41, percent, right parenthesis.


Referencia: khanacademy.org y childtopia.