Una tabla de contingencia es una de las formas más comunes de resumir datos categóricos. En general, el interés se centra en estudiar si existe alguna asociación entre una
variable denominada fila y otra variable denominada columna y se calcula la intensidad
de dicha asociación.
De manera formal, se consideran X e Y dos variables categóricas con I y J categorías
respectivamente. Una observación puede venir clasificada en una de las posibles I × J
categorías que existen.
Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se denomina tabla de contingencia, término que fue introducido por Pearson en 1904.
Una tabla de contingencia (o tabla de clasificación cruzada), con I filas y J columnas
se denomina una tabla I × J.
Las tablas de contingencia organizan datos basados en dos variables categóricas.
Tablas de contingencia de frecuencias
Las tablas de contingencia de frecuencias muestran cuántos puntos caben en cada categoría.
Aquí hay un ejemplo:
Preferencia | Hombres | Mujeres |
---|---|---|
Perros | 36 | 22 |
Gatos | 8 | 26 |
Sin preferencia | 2 | 6 |
Las columnas de la tabla nos dicen si los estudiantes son hombres o mujeres. Las filas de la tabla nos dicen si los estudiantes prefieren perros, gatos, o les da igual.
Las celdas nos dicen el número (o frecuencia) de estudiantes. Por ejemplo, el número 36 se encuentra en la columna "Hombres" y en la fila "Perros", lo que significa que hay 36 alumnos que prefieren los perros.
Observa que hay dos variables, el género y la preferencia. A veces a las tablas de contingencia también se les llama tablas de dos variables por esta razón.
Tablas de contingencia de frecuencia relativa
Las tablas de contingencia de frecuencias relativas muestran qué porcentaje de los datos cabe en cada categoría. Podemos utilizar frecuencias relativas en fila o frecuencias relativas en columna, depende del contexto del problema.
Por ejemplo, aquí te mostramos cómo nos gustaría hacer una frecuencias relativas en columna:
Paso 1: encuentra los totales para cada columna.
Preferencia | Hombre | Mujer |
---|---|---|
Perros | 36 | 22 |
Gatos | 8 | 26 |
Sin preferencia | 2 | 6 |
Total | 46 | 54 |
Paso 2: divide cada conteo de células entre el total de su columna y convierte a un porcentaje.
Preferencia | Hombre | Mujer |
---|---|---|
Perros | start fraction, 36, divided by, 46, end fraction, approximately equals, 78, percent | start fraction, 22, divided by, 54, end fraction, approximately equals, 41, percent |
Gatos | start fraction, 8, divided by, 46, end fraction, approximately equals, 17, percent | start fraction, 26, divided by, 54, end fraction, approximately equals, 48, percent |
Sin preferencia | start fraction, 2, divided by, 46, end fraction, approximately equals, 4, percent | start fraction, 6, divided by, 54, end fraction, approximately equals, 11, percent |
Total | start fraction, 46, divided by, 46, end fraction, equals, 100, percent | start fraction, 54, divided by, 54, end fraction, equals, 100, percent |
Observa que a veces los porcentajes no suman hasta el 100, percent aunque hayamos redondeado correctamente. A esto se le denomina error de redondeo, y no hay que preocuparse demasiado por esto.
Las tablas de contingencia de frecuencia relativa son útiles cuando existen tamaños de muestra diferentes en un conjunto de datos. En este ejemplo, se encuestaron a más mujeres que hombres, así que el uso de porcentajes hace más fácil la comparación de las preferencias entre hombres y mujeres. De las frecuencias relativas, podemos ver que la gran mayoría de los hombres prefirió perros left parenthesis, 78, percent, right parenthesis comparado con una minoría de mujeres left parenthesis, 41, percent, right parenthesis.
Referencia: khanacademy.org y childtopia.