Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REPRESENTACIN
DE DATOS BIVARIADOS
Objetivo
Representar datos de dos variables de forma
tabular y grfica. Comprender la distincin entre los
propsitos bsicos del anlisis de correlacin y
regresin lineal. (Sesin 6 y 7)
Agenda Sesin 6
Datos de dos
variables
Correlacin lineal
(Sesin 6)
Regresin lineal
(Sesin 7)
Evaluacin
(Sesin 7)
Casos
2.
3.
Ejemplo
Treinta estudiantes de una Universidad fueron
identificados y clasificados aleatoriamente
segn dos variables:
Gnero (M/F)
Especializacin (Filosofa y Letras,
Administracin de Empresas, Tecnologa)
A continuacin se muestran los datos en la tabla:
Tabla cruzada
Estos datos pueden resumirse en una tabla
cruzada o de contingencia de 2 x 3 donde se
presenta la frecuencia para cada categora
cruzada de las dos variables junto con los
totales por rengln y por columna
denominados
totales
marginales
(o
marginales). El total de los totales marginales
es el gran total y es igual a n, el tamao de la
muestra.
Tabla cruzada
Frecuencias relativas
Las tablas de contingencia a menudo presentan
porcentajes (frecuencias relativas). Estos
porcentajes pueden estar basados en toda la
muestra o en las clasificaciones de la
submuestra (renglones o columnas).
Porcentajes basados en el
gran total (toda la muestra)
La tabla de contingencia puede convertirse
fcilmente en porcentajes del gran total, al dividir
cada frecuencia entre el gran total y multiplicar por
100 el resultado.
Porcentajes basados en
los totales por rengln
Los elementos de la misma tabla de contingencia
pueden expresarse como porcentajes de los totales
por rengln (o gnero), al dividir cada elemento del
rengln entre el total de ste y multiplicar por 100 el
resultado.
Porcentajes basados en
los totales por rengln
En la tabla anterior se observa que el 28% de los
hombres estn especializndose en Filosofa y
Letras, mientras que el 42% de las mujeres estn
especializndose en la misma rea.
Porcentajes basados en
los totales por columna
Los elementos de la tabla de contingencia tambin
pueden expresarse como porcentajes de los totales
por columna (o especializacin), al dividir cada
elemento de la columna entre el total de sta y
multiplicar por 100 el resultado.
Porcentajes basados en
los totales por columna
Con base en la tabla anterior, se observa que de
todos los estudiantes de Filosofa y Letras, la mitad
son hombres y la otra mitad son mujeres.
Ejemplo
Para comparar la capacidad de frenado de tres
diseos de bandas de rodamiento, se midi la
distancia necesaria para detener un automvil de
3000 libras que se desplazaba sobre pavimento
hmedo. Los neumticos de cada diseo fueron
probados en el mismo vehculo que circulaba sobre
un pavimento hmedo controlado.
Nota
El diseo de la banda de rodamiento es una
variable cualitativa con tres niveles de respuesta y
la distancia de frenado es una variable cuantitativa.
La distribucin de las distancias de frenado del
diseo A, de la banda de rodamiento, debe
compararse con las distribuciones de las distancias
de frenado de cada uno de los diseos de la banda.
Esta comparacin puede efectuarse aplicando
tcnicas numricas y grficas.
Diagrama de dispersin
Es la grfica de todos los pares ordenados de datos
de dos variables que estn en un sistema de ejes
coordenados . La variable de entrada, x, se grafica
en el eje horizontal y la variable de salida, y, se
grafica en el eje vertical.
Ejemplo
En la clase de educacin fsica del seor Torres, se
tomaron varios puntajes de condicin fsica. La
muestra siguiente es el nmero de lagartijas y
sentadillas realizadas por 10 estudiantes elegidos
aleatoriamente:
Correlacin Lineal
El objetivo primordial del anlisis de correlacin lineal es medir la
intensidad de una relacin lineal entre dos variables. Se aplica en
datos cuantitativos que muestran diferentes relaciones entre
variables independientes o de entrada, x, y variables dependientes
o de salida, y. Si a medida que crece x no hay un cambio definido
en los valores de y, se dice que no hay correlacin o relacin entre
x y y. Si a medida que crece x, hay un cambio en los valores de y,
existe una correlacin. La correlacin es positiva cuando y tiende a
crecer, y es negativa cuando y tiende a decrecer. Si los pares
ordenados (x, y) tienden a seguir un patrn de lnea recta, se tiene
una correlacin lineal. La precisin del cambio en y cuando crece x,
determina la intensidad de la correlacin lineal.
Clculo de r
El valor de r est definido por la frmula producto momento de
Pearson:
( x x )( y y )
r
(n 1) s x s y
Donde:
sx , s y
Son las desviaciones estndar de las variables x y y
Clculo de r
El valor de r se puede calcular con una frmula alternativa
equivalente al momento de Pearson como:
r
r
Donde:
SC ( x) x 2
SC ( y ) y
SC ( xy)
SC ( x) SC ( y )
x y
SC ( xy) xy
n
Ejemplo
Encuentre el coeficiente de correlacin lineal para
los datos de lagartijas y sentadillas mostrados
anteriormente.
Solucin:
Primero, es necesario, elaborar una tabla de
extensiones enumerando todos los pares de valores
(x, y) para poder encontrar las extensiones x2, xy y
y2, as como los totales en cada una de las cinco
columnas.
Tabla de extensiones
Clculos
A continuacin se realizan los preliminares,
sustituyendo las cinco sumatorias de la tabla de
extensiones en sus correspondientes frmulas:
SC ( x) x
SC ( y ) y
x2
(351)
13717
n
10
y 2
(380)
15298
n
10
1396.9
858.0
x y
(351)(380)
SC ( xy) xy
14257
919.0
n
10
Clculo de r
Finalmente se sustituyen las tres sumas de
cuadrados en el clculo de r y se obtiene el valor
del coeficiente de correlacin.
r
SC ( xy)
919.0
0.8394 0.84
SC ( x) SC ( y )
(1396.9)(858.0)
Conclusin
El valor del coeficiente de correlacin lineal calculado ayuda a
responder a la pregunta: existe una correlacin lineal entre las
dos variables en consideracin?. Cuando el valor calculado de r
est prximo a cero, se concluye que hay poca correlacin lineal o
que no hay correlacin lineal. A medida que el valor calculado de r
cambia de 0 a +1 -1, indica una correlacin lineal cada vez ms
fuerte entre las dos variables.
Desde el punto de vista grfico, al calcular r, se mide qu tan bien
una recta describe el diagrama de dispersin de los pares
ordenados. Cuando el valor de r cambia de 0 a +1 -1, los puntos
de datos que crean un patrn se acercan ms a una recta.
2.
Ventana de datos
k=2.5
1
1
k
k=4
Clculo de r
1
r (1 ) 0.75
4
Problema
Suponga que la compaa Trigos Excelentes, S.A. le haya
pedido a varios de sus representantes regionales trabajar
tiempo extra para incrementar las ventas. Usted no est
convencido de que el tiempo extra sea necesario, ni que las
horas extras estn correlacionadas con el incremento de
ventas. La siguiente tabla de datos muestra el nmero de horas
mensuales que los representantes trabajaban anteriormente
junto con el promedio de ventas. La tabla de datos tambin
muestra el incremento de horas y las nuevas ventas. Compare
el incremento de horas con el incremento de ventas para
determinar si estn correlacionados.
Problema