Está en la página 1de 10

STATGRAPHICS Rev.

9/14/2006

Tabulacin Cruzada
El procedimiento de Tabulacin Cruzada esta diseado para resumir dos columnas de datos.
Esta construye una tabla de dos-caminos mostrando las frecuencias de ocurrencia de cada uno de
los pares formados de las dos columnas. Estadsticas son construidas para cuantificar el grado de
asociacin entre las columnas, y pruebas son corridas para determinar si hay dependencia
estadsticamente significante entre las columnas o no. Las frecuencias son mostradas en forma
tabular y graficadas como un grafico de barras, grafico mosaico o grafico tridimensional.

Sample StatFolio: crosstabulation.sgp


Datos del Ejemplo:
El archivo 93cars.sf6 contiene informacin acerca de 26 variables para n = 93 marcas y modelos
de automviles, tomadas de Lock (1993). La siguiente tabla muestra una lista parcial de 4
columnas de este archivo:
Make
(Marca)
Acura
Acura
Audi
Audi
BMW
Buick
Buick
Buick
Buick
Cadillac
Cadillac
Chevrolet

Model
(Modelo)
Integra
Legend
90
100
535i
Century
LeSabre
Roadmaster
Riviera
DeVille
Seville
Cavalier

Type
(Tipo)
Small
Midsize
Compact
Midsize
Midsize
Midsize
Large
Large
Midsize
Large
Midsize
Compact

Passengers
(Pasajeros)
5
5
5
6
4
6
6
6
5
6
5
5

Una tabulacin cruzada ser realizada entre el tipo de vehculo y el nmero de pasajeros que
transporta.

2005 por StatPoint, Inc.

Tabulacin Cruzada - 1

STATGRAPHICS Rev. 9/14/2006

Entrada de Datos
La caja de dialogo de entrada especifica las columnas que contienen los datos que sern
tabulados

Variable Rengln: Columna numrica o no numrica que contiene el atributo usado para
definir los renglones de la tabla.

Variable Columna: Columna numrica o no numrica que contiene el atributo usado para
definir las columnas de la tabla.

Seleccin: Seleccin de un subconjunto de los datos.

Resumen del Anlisis


El Resumen del Anlisis muestra el nmero de valores nicos en las variables rengln y columna,
tan bien como el nmero de observaciones (renglones y columnas sin datos perdidos).
Tabulacin Cruzada - Type por Passengers
Variable para Filas: Type
Variable para Columnas: Passengers (persons)
Nmero de Observaciones: 93
Nmero de filas: 6
Nmero de columnas: 6

2005 por StatPoint, Inc.

Tabulacin Cruzada - 2

STATGRAPHICS Rev. 9/14/2006

Tabla de Frecuencias
La Tabla de Frecuencias muestra la frecuencia de ocurrencia de cada par de valores en las
variables filas y columnas, junto con otra informacin como se defini en la caja de dialogo
Opciones del Panel.
Tabla de Frecuencias para Type por Passengers
2
4
5
6
Compact
0
1
13 2
Large
0
0
0
11
Midsize
0
2
15 5
Small
0
8
13 0
Sporty
2
12 0
0
Van
0
0
0
0
Total por Columna
2
23 41 18
Contenido de las celdas:
Frecuencia Observada

7
0
0
0
0
0
8
8

8
0
0
0
0
0
1
1

Total por Fila


16
11
22
21
14
9
93

La muestra consiste de r = 6 diferentes tipos de vehculos por c = 6 diferentes nmeros de


pasajeros. Incluidos en la tabla estn:

Frecuencias Observadas: Las celdas en la parte principal de la tabla contienen Oij, el


nmero de veces que el rengln i ha aparecido junto con la columna j.

Total de Renglones: La columna de hasta la derecha contiene los totales de los


renglones Ri:
c

Ri = Oij

(1)

j =1

Total de Columnas: El rengln de hasta abajo contiene el total de las columnas Cj:
r

C j = Oij

(2)

i =1

Total de la Tabla : La celda inferior derecha contiene el numero de valores tabulados


r

n = Oij

(3)

i =1 j =1

Por ejemplo, 14 de los 93 carros fueron clasificados como Sporty. De estos, 2 son para 2
pasajeros mientras que el resto es para 4 pasajeros.

2005 por StatPoint, Inc.

Tabulacin Cruzada - 3

STATGRAPHICS Rev. 9/14/2006

Opciones del Panel


Informacin adicional puede ser adherida a cada celda de la tabla usando Opciones del Panel

Porcentajes de la Tabla: El porcentaje de cada celda es con respecto a el total de toda la


tabla, definido por
100

Oij
Ri

Oij
Cj

(4)

(5)

(6)

Frecuencia Esperada: Eij, el numero esperado de veces que el rengln i habra aparecido
junto con la columna j en le archivo de datos si las clasificaciones del rengln y la columna
fueron independientes:

Eij =

Porcentajes de Columna: El porcentaje de cada celda es con respecto a su columna y es


definido por

100

Porcentajes de Rengln: El porcentaje de cada celda es con respecto a su rengln y es


definido por
100

Oij

Ri C j

(7)

Desviaciones: La diferencia entre lo esperado y las frecuencias esperadas:

Oij Eij

2005 por StatPoint, Inc.

(8)

Tabulacin Cruzada - 4

STATGRAPHICS Rev. 9/14/2006


Valores Chi-Cuadrada: La contribucin de cada celda a la estadstica chi-cuadrada, usada
para probar independencia entre los renglones y las columnas:

(O

ij

Eij )

(9)

Eij

Residuos Ajustados: Una forma de estandarizar residuos calculados dividiendo cada


desviacin de la celda por un estimador de su error estndar:

ij =

(O

ij

Eij )

(10)

(1 Ri ) (1 C j )
Eij
n
n

Ejemplo Informacin Adicional sobre Sporty Cars


Tabla de Frecuencias para Type por Passengers
2
4
5
Sporty
2
12
0
2.15% 12.90% 0.00%
14.29% 85.71% 0.00%
100.00% 52.17% 0.00%
0.30
3.46
6.17
1.70
8.54
-6.17
9.59
21.05
6.17
3.40
5.74
-3.60
Total por Columna 2
23
41
2.15% 24.73% 44.09%
Contenido de las celdas:
Frecuencia Observada
Porcentaje de la tabla
Porcentaje de la fila
Porcentaje de la columna
Fecuencia Esperada
Frecuencia Observada - experada
Contribucin a la chi-cuadrada
Residuos Ajustados

6
0
0.00%
0.00%
0.00%
2.71
-2.71
2.71
-1.99
18
19.35%

7
0
0.00%
0.00%
0.00%
1.20
-1.20
1.20
-1.25
8
8.60%

8
0
0.00%
0.00%
0.00%
0.15
-0.15
0.15
-0.42
1
1.08%

Row Total
14
15.05%

93
100.00%

Los 12 carros Sporty en los datos del ejemplo de dos pasajeros representan:
12.90% del total de n = 93 carros
85.71% de los 14 carros Sporty
52.17% de los 23 carros de 4 pasajeros
El rengln y la columna fueron clasificaciones independientes, el nmero esperado de carros que
deberan ser Sporty y de 4 pasajeros es 3.46, con una desviacin de 8.54. En los clculos de
estadstica Chi-cuadrada, descrita mas abajo, esta celda adhiere un total de 21.05 a esta
estadstica. Los residuos ajustados indican que los nmeros observados de carros en esta celda es
5.74 desviaciones estndar sobre su valor esperado.

2005 por StatPoint, Inc.

Tabulacin Cruzada - 5

STATGRAPHICS Rev. 9/14/2006

Diagrama de Barras
Una manera comn para mostrar los datos es usando un diagrama de barras mltiple.
Diagrama de Barras para Type segn Passengers
15

Passengers
2
4
5
6
7
8

frecuencia

12
9
6
3
0
Compact

Large

Midsize
Small
Type

Sporty

Van

La altura de cada barra en la grafica anterior representa el nmero de carros de cada tipo que
acarrean cada nmero de pasajeros.
Opciones del panel

Tipo de Grafico: Las barras pueden estar conglomeradas como se muestra en el ejemplo o
apiladas una sobre otra.

Escala: Si la escala del eje muestra las frecuencias Oij o el porcentaje dado por

2005 por StatPoint, Inc.

Tabulacin Cruzada - 6

STATGRAPHICS Rev. 9/14/2006


pij = 100

Oij
n

(11)

Direccin: Si las barras se extienden horizontal o verticalmente.

Lnea Base: El valor de el cual las barras se extienden.

Ejemplo Diagrama de barras apiladas horizontal por porcentaje


Diagrama de Barras para Type segn Passengers
Passengers
2
4
5
6
7
8

Compact

Type

Large
Midsize
Small
Sporty
Van
0

12
frecuencia

16

20

24

Grafico de Mosaico
Una interesante variacin del diagrama de barras es si lo ancho y la altura de cada barra son
escalados para representar las frecuencias de las celdas correspondientes en la tabla.
Grfico de Mosaico para Type segnPassengers

Compact
Large
Midsize

Passengers
2
4
5
6
7
8

Small
Sporty
Van

En este grafico el tamao de cada rengln es proporcional a su total de rengln Ri. el ancho de
cada barra dentro de cada rengln es proporcional a la frecuencia de cada celda dentro de ese
2005 por StatPoint, Inc.

Tabulacin Cruzada - 7

STATGRAPHICS Rev. 9/14/2006


rengln. Esto resulta en barras cuyas reas son proporcionales a la frecuencia en una celda
particular. En los datos del ejemplo, la barra mas grande corresponde a automviles de Media
Talla que cargan 5 pasajeros

Opciones del Panel

Direccin: la orientacin de las barras.

Diagrama Tridimensional
Todas las celdas de frecuencias pueden tambin ser representadas usando barras verticales.

15
12
9
6
3
0

8
7

2
Van

Sporty

4
Small

Midsize

Large

6
5 Passengers
Compact

frecuencia

Grfico Rascacielos para Type segn Passengers

Type

Opciones del Panel

Grafico: Escalando para el eje vertical.

2005 por StatPoint, Inc.

Tabulacin Cruzada - 8

STATGRAPHICS Rev. 9/14/2006

Pruebas de Independencia
Una pregunta comn acerca de los datos en una tabla es si los renglones y columnas son o no
independientes, es decir el hecho que un objeto caiga en un rengln particular no afecta la
probabilidad de que caiga en una columna dada. En el ejemplo actual. Independencia implicara
que el tipo de vehculo no tiene relacin con el nmero de pasajeros que transportan.

Prueba Chi-cuadrada
La prueba mas comn para independencia es la prueba chi-cuadrada. Esta prueba compara las
frecuencias esperadas y observadas calculando:
r

=
2

i =1 j =1

(O

ij

Eij )

(12)

Eij

STATGRAPHICS despliega los resultados de esta prueba y su correspondiente P-valor:


Pruebas de Independencia
Prueba
Estadstico
Gl Valor-P
Chi-Cuadrada
197.595
25 0.0000
Advertencia: algunas celdas contienen menos de 5 casos.

El P-valor es calculando comparando la estadstica de prueba a una chi-cuadrada con (r-1)(c-1)


grados de libertad. P-valores pequeos (menos de 0.05 si se opera en un nivel de confianza de
95%) indican una dependencia significativa entre los renglones y columnas. El P-Valor en la
tabla anterior claramente muestra que el tipo de auto y el nmero de pasajeros que transportan no
son independientes.
Si el valor esperado Eij en cualquier celda es menor que 5, una advertencia ser desplegada. En
tales casos, el clculo de la estadstica Chi-cuadrada puede no estar bien representada por una
distribucin chi-cuadrada. Es particularmente serio si cualquier valor esperado es menor que 2.
Cuando esto ocurre, se debera reconsiderar combinar clases que no contienen muchos datos.
Como es el caso en el ejemplo actual con automviles de 7 y 8 pasajeros.
Opciones del Panel

Prueba El tipo de prueba que ser realizada.

2005 por StatPoint, Inc.

Tabulacin Cruzada - 9

STATGRAPHICS Rev. 9/14/2006


En lugar de realizar la prueba Chi-cuadrada, una prueba alternativa puede ser corrida. Detalles
sobre estas pruebas estn contenidos en la documentacin del procedimiento Tablas de
Contingencia.

Resumen Estadstico
Varias estadsticas pueden tambin ser calculadas midiendo los grados de asociacin entre
renglones y columnas.
Resmen Estadstico
Estadstico
Lambda
Coef. de Incertidumbre
Somer's D
Eta

Simtrico
0.4715
0.5303
-0.2022

Estadstico
Coef. De Contingencia
Cramer's V
Gamma Condicional
Pearson's R
Kendall's Tau b
Kendall's Tau c

Valor
0.8246
0.6519
-0.2428
0.0001
-0.2028
-0.1840

Con Filas
Dependientes
0.3803
0.4730
-0.2193
0.0001

Con Columnas
Dependientes
0.5962
0.6034
-0.1876
0.8810

Valor-P

Gl

0.0001
0.0174

91

Como un ejemplo, V de Cramer es una estadstica que mide el grado de asociacin entre los
valores de las variables rengln y columna en una escala de 0 a 1, es basada en la prueba
estadstica usual chi-cuadrada. A diferencia de la estadstica coeficiente de contingencia, esta
puede alcanzar el valor 1 para todas las tablas.
Detalles sobre estas pruebas estn contenidos en la documentacin del procedimiento Tablas de
Contingencia.

Razn de Momios
El panel Razn de Momios provee informacin especial sobre casos donde hay exactamente 2
renglones y 2 columnas. Para un ejemplo sobre esto, ver la documentacin del procedimiento
Tablas de Contingencia

Grabar Resultados
Los siguientes resultados pueden ser guardados en una hoja de datos:
1. Celda de Frecuencias (una columna) Las frecuencias de celdas Oij en una sola
columna, un rengln despus de otro.
2. Etiquetas de las Filas Los identificadores para cada rengln de la tabla.
3. Etiquetas de las Columnas Los identificadores para cada columna de la tabla.
4. Frecuencias de Celdas (matriz) - Las frecuencias de celdas Oij en mltiples columnas,
paralelas al formato de la tabla.
2005 por StatPoint, Inc.

Tabulacin Cruzada - 10