Está en la página 1de 44

ANLISIS DESCRIPTIVO Y

REPRESENTACIN
DE DATOS BIVARIADOS

Ing. Misael Flores Rivera

Objetivo
Representar datos de dos variables de forma
tabular y grfica. Comprender la distincin entre los
propsitos bsicos del anlisis de correlacin y
regresin lineal. (Sesin 6 y 7)

Agenda Sesin 6

Datos de dos
variables
Correlacin lineal
(Sesin 6)
Regresin lineal
(Sesin 7)
Evaluacin
(Sesin 7)

Casos

A medida que una persona crece, por lo general


aumenta de peso. Alguien podra preguntar,
existe alguna relacin entre la estatura y el
peso?

Mdicos dedicados a la investigacin, prueban


frmacos nuevos y obsoletos prescribiendo dosis
diferentes en pacientes y observando sus
respuestas. Una de las preguntas podra ser, la
dosis del medicamento prescrito determina la
cantidad de tiempo de recuperacin que necesita el
paciente?

Datos de dos variables


Estos datos constan de los valores de dos variables respuesta
diferentes que se obtienen del mismo elemento de la poblacin.
Cada una puede ser cualitativa o cuantitativa. Como resultado, los
datos bivariados pueden formarse mediante tres combinaciones de
variable:
1.

Ambas variables son cualitativas (de atributo)

2.

Una variable es cualitativa y otra cuantitativa (numrica)

3.

Ambas variables son cuantitativas

Dos variables cualitativas


Cuando los datos bivariados resultan de dos variables cualitativas, los
datos se disponen en una tabla cruzada o de contingencia.

Ejemplo
Treinta estudiantes de una Universidad fueron
identificados y clasificados aleatoriamente
segn dos variables:
Gnero (M/F)
Especializacin (Filosofa y Letras,
Administracin de Empresas, Tecnologa)
A continuacin se muestran los datos en la tabla:

Tabla cruzada
Estos datos pueden resumirse en una tabla
cruzada o de contingencia de 2 x 3 donde se
presenta la frecuencia para cada categora
cruzada de las dos variables junto con los
totales por rengln y por columna
denominados
totales
marginales
(o
marginales). El total de los totales marginales
es el gran total y es igual a n, el tamao de la
muestra.

Tabla cruzada

Frecuencias relativas
Las tablas de contingencia a menudo presentan
porcentajes (frecuencias relativas). Estos
porcentajes pueden estar basados en toda la
muestra o en las clasificaciones de la
submuestra (renglones o columnas).

Porcentajes basados en el
gran total (toda la muestra)
La tabla de contingencia puede convertirse
fcilmente en porcentajes del gran total, al dividir
cada frecuencia entre el gran total y multiplicar por
100 el resultado.

Porcentajes basados en el gran total


Con la tabla de contingencia expresada en
porcentajes puede verse fcilmente que el 60% de
la muestra son hombres, 40% mujeres, 30% estn
especializndose en tecnologa, etc.

Porcentajes basados en
los totales por rengln
Los elementos de la misma tabla de contingencia
pueden expresarse como porcentajes de los totales
por rengln (o gnero), al dividir cada elemento del
rengln entre el total de ste y multiplicar por 100 el
resultado.

Porcentajes basados en
los totales por rengln
En la tabla anterior se observa que el 28% de los
hombres estn especializndose en Filosofa y
Letras, mientras que el 42% de las mujeres estn
especializndose en la misma rea.

Porcentajes basados en
los totales por columna
Los elementos de la tabla de contingencia tambin
pueden expresarse como porcentajes de los totales
por columna (o especializacin), al dividir cada
elemento de la columna entre el total de sta y
multiplicar por 100 el resultado.

Porcentajes basados en
los totales por columna
Con base en la tabla anterior, se observa que de
todos los estudiantes de Filosofa y Letras, la mitad
son hombres y la otra mitad son mujeres.

Una variable cualitativa y


otra cuantitativa
Cuando los datos bivariados se obtienen de una
variable cuantitativa y otra cualitativa, los valores
cuantitativos se consideran como muestras ajenas,
cada una identificada por niveles de la variable
cualitativa. Se aplica la estadstica descriptiva vista
en sesiones anteriores como, la media, varianza,
desviacin estndar, Q1, mediana, Q3, etc., y los
resultados se presentan uno junto al otro para
efectos de comparacin.

Ejemplo
Para comparar la capacidad de frenado de tres
diseos de bandas de rodamiento, se midi la
distancia necesaria para detener un automvil de
3000 libras que se desplazaba sobre pavimento
hmedo. Los neumticos de cada diseo fueron
probados en el mismo vehculo que circulaba sobre
un pavimento hmedo controlado.

Nota
El diseo de la banda de rodamiento es una
variable cualitativa con tres niveles de respuesta y
la distancia de frenado es una variable cuantitativa.
La distribucin de las distancias de frenado del
diseo A, de la banda de rodamiento, debe
compararse con las distribuciones de las distancias
de frenado de cada uno de los diseos de la banda.
Esta comparacin puede efectuarse aplicando
tcnicas numricas y grficas.

Resumen de cinco puntos


para cada diseo

Dos variables cuantitativas


Cuando los datos bivariados son resultado de dos
variables cuantitativas, los datos matemticos
suelen expresarse como pares ordenados (x, y),
donde x es la variable de entrada (variable
independiente) y y es la variable de salida
(variable dependiente).
En los problemas en que intervienen dos variables
cuantitativas, los datos de la muestra se presentan
grficamente en un diagrama de dispersin

Diagrama de dispersin
Es la grfica de todos los pares ordenados de datos
de dos variables que estn en un sistema de ejes
coordenados . La variable de entrada, x, se grafica
en el eje horizontal y la variable de salida, y, se
grafica en el eje vertical.

Ejemplo
En la clase de educacin fsica del seor Torres, se
tomaron varios puntajes de condicin fsica. La
muestra siguiente es el nmero de lagartijas y
sentadillas realizadas por 10 estudiantes elegidos
aleatoriamente:

En la siguiente tabla se presentan estos datos


muestrales y un diagrama de dispersin de los
datos

Correlacin Lineal
El objetivo primordial del anlisis de correlacin lineal es medir la
intensidad de una relacin lineal entre dos variables. Se aplica en
datos cuantitativos que muestran diferentes relaciones entre
variables independientes o de entrada, x, y variables dependientes
o de salida, y. Si a medida que crece x no hay un cambio definido
en los valores de y, se dice que no hay correlacin o relacin entre
x y y. Si a medida que crece x, hay un cambio en los valores de y,
existe una correlacin. La correlacin es positiva cuando y tiende a
crecer, y es negativa cuando y tiende a decrecer. Si los pares
ordenados (x, y) tienden a seguir un patrn de lnea recta, se tiene
una correlacin lineal. La precisin del cambio en y cuando crece x,
determina la intensidad de la correlacin lineal.

Coeficiente de correlacin lineal


El coeficiente de correlacin lineal r, es la medida
numrica de la intensidad de la relacin lineal entre
dos variables. El coeficiente refleja la consistencia
del efecto que el cambio en una variable tiene sobre
la otra. Este valor ayuda a responder a la pregunta
Existe una correlacin lineal entre las dos
variables en consideracin? El coeficiente de
correlacin lineal, r, siempre tiene un valor entre -1
y +1. Un valor de +1 significa una correlacin
positiva perfecta, y un valor de -1 indica una
correlacin negativa perfecta.

Clculo de r
El valor de r est definido por la frmula producto momento de
Pearson:

( x x )( y y )

r
(n 1) s x s y

Donde:

sx , s y
Son las desviaciones estndar de las variables x y y

Clculo de r
El valor de r se puede calcular con una frmula alternativa
equivalente al momento de Pearson como:
r

suma _ de _ los _ cuadrados _ de _ xy


( suma _ de _ los _ cuadrados _ de _ x)( suma _ de _ los _ cuadrados _ de _ y )

r
Donde:

SC ( x) x 2

SC ( y ) y

SC ( xy)
SC ( x) SC ( y )

x y

SC ( xy) xy
n

Ejemplo
Encuentre el coeficiente de correlacin lineal para
los datos de lagartijas y sentadillas mostrados
anteriormente.
Solucin:
Primero, es necesario, elaborar una tabla de
extensiones enumerando todos los pares de valores
(x, y) para poder encontrar las extensiones x2, xy y
y2, as como los totales en cada una de las cinco
columnas.

Tabla de extensiones

Clculos
A continuacin se realizan los preliminares,
sustituyendo las cinco sumatorias de la tabla de
extensiones en sus correspondientes frmulas:
SC ( x) x

SC ( y ) y

x2
(351)

13717
n

10

y 2
(380)

15298
n

10

1396.9

858.0

x y
(351)(380)

SC ( xy) xy
14257
919.0
n

10

Clculo de r
Finalmente se sustituyen las tres sumas de
cuadrados en el clculo de r y se obtiene el valor
del coeficiente de correlacin.
r

SC ( xy)
919.0

0.8394 0.84
SC ( x) SC ( y )
(1396.9)(858.0)

Nota: El valor de r suele redondearse a la centsima ms prxima

Conclusin
El valor del coeficiente de correlacin lineal calculado ayuda a
responder a la pregunta: existe una correlacin lineal entre las
dos variables en consideracin?. Cuando el valor calculado de r
est prximo a cero, se concluye que hay poca correlacin lineal o
que no hay correlacin lineal. A medida que el valor calculado de r
cambia de 0 a +1 -1, indica una correlacin lineal cada vez ms
fuerte entre las dos variables.
Desde el punto de vista grfico, al calcular r, se mide qu tan bien
una recta describe el diagrama de dispersin de los pares
ordenados. Cuando el valor de r cambia de 0 a +1 -1, los puntos
de datos que crean un patrn se acercan ms a una recta.

Estimacin visual del coeficiente de


correlacin lineal
El siguiente mtodo para estimar r es rpido y en
general produce un estimado razonable cuando la
ventana de datos es aproximadamente cuadrada.
Procedimiento
1.

Coloque dos lpices sobre su diagrama de dispersin.


Mantngalos paralelos y muvalos de modo que estn lo ms
cerca posible, de modo que todos los puntos del diagrama de
dispersin estn entre ellos.

2.

Visualice una regin rectangular acotada por los dos lpices y


que termina de manera justa en los puntos extremos del
diagrama de dispersin.

Ventana de datos

Estimacin visual del coeficiente de


correlacin lineal
3. Estime cuntas veces ms largo que ancho es el
rectngulo. Una forma fcil de hacerlo es marcar
mentalmente cuadrados en el rectngulo. Denomine
k a este nmero de mltiplos.

k=2.5

Estimacin visual del coeficiente de


correlacin lineal
4. El valor de r puede estimarse como:

1
1
k

5. El signo de r se determina por la posicin general


del largo de la regin rectangular. Si el largo est en
posicin creciente, r es positivo; si est en posicin
decreciente, r es negativo. Si el rectngulo est en
posicin horizontal o vertical, entonces r es cero, sin
importar la razn del largo al ancho.

Estimacin de r para la relacin entre el


nmero de lagartijas y sentadillas

k=4

Clculo de r

1
r (1 ) 0.75
4

Coeficientes de correlacin lineal

Problema
Suponga que la compaa Trigos Excelentes, S.A. le haya
pedido a varios de sus representantes regionales trabajar
tiempo extra para incrementar las ventas. Usted no est
convencido de que el tiempo extra sea necesario, ni que las
horas extras estn correlacionadas con el incremento de
ventas. La siguiente tabla de datos muestra el nmero de horas
mensuales que los representantes trabajaban anteriormente
junto con el promedio de ventas. La tabla de datos tambin
muestra el incremento de horas y las nuevas ventas. Compare
el incremento de horas con el incremento de ventas para
determinar si estn correlacionados.

Problema

También podría gustarte