Está en la página 1de 22

Descripcion de una y varias

variables.
Descripción conjunta
de varias variables
Distribuciones de
frecuencias Distribución conjunta:
multivariantes Llamaremos distribución conjunta de frecuencias de dos
variables (x, y) a una tabla que representa los valores
Uno de los objetivos del análisis observados de ambas variables y las frecuencias relativas
estadístico es encontrar las relaciones de aparición de cada par de valores. Siempre conviene
que existen entre un grupo de variables.
En este capítulo presentamos una
dar el número de elementos observados de manera que
introducción a los métodos para podamos calcular también inmediatamente las
cuantificar estas relaciones. frecuencias absolutas si se desea. Cuando las variables
Supondremos inicialmente, para son cualitativas, la tabla resultante se denomina tabla de
simplificar, que el conjunto de datos contingencias, reservándose el nombre de distribución
contiene los valores de dos variables (x, conjunta para variables numéricas.
y), que se han medido conjuntamente
en ciertos elementos de una población.
Posteriormente, este análisis se
generaliza para cualquier número de
variables.
La tabla 3.1 presenta una tabla de
contingencia con las frecuencias relativas
del resultado de observar el color de los
ojos de 1.000 personas (variable hijo) y
preguntarles por el color de los ojos de su
madre.
Se observa que la combinación más
frecuente es oscuros-oscuros, seguida de
claros-claros. En los márgenes de la tabla
se han sumado las frecuencias relativas
por filas y por columnas.
La tabla 3.2 presenta las frecuencias
relativas de asistencia al cine y al teatro en
un mes dado para una muestra de 200
estudiantes universitarios.
Las frecuencias absolutas de las casillas se
obtienen multiplicando el total de
elementos por la frecuencia relativa. Por
ejemplo, la frecuencia absoluta de la
casilla (1,0) de la tabla 3.2 con frecuencia
relativa 0,41 es 0,41 × 200 = 82 personas.
Esta idea de representación conjunta
puede extenderse para cualquier número
de variables, aunque la representación
gráfica no sea posible para más de tres.
Cuando las dos variables no
toman valores repetidos,
como suele ocurrir con
variables continuas, la
distribución conjunta se
obtiene agrupando las dos
variables en clases y
calculando las frecuencias
relativas de las casillas
correspondientes. La tabla
3.3 presenta un ejemplo de
distribución conjunta con
datos agrupados.
Las tablas 3.1, 3.2 y 3.3 presentan
Distribuciones ejemplos de distribuciones marginales,
marginales que aparecen en los márgenes de las
tablas. Por ejemplo, la distribución
Se denomina distribución marginal marginal del color de los ojos de las
de una variable a la obtenida al madres en la tabla 3.1 toma dos posibles
estudiar la variable aisladamente, valores, claros y oscuros, con frecuencias
con independencia del resto. El
nombre de marginal proviene de
relativas 0,37 y 0,63. En la tabla 3.2 la
que esta distribución se obtiene a
distribución marginal de la variable
partir de la distribución conjunta número de asistencias al teatro toma los
acumulando en los márgenes de la valores posibles 0, 1, 2 con frecuencias
tabla la suma de las frecuencias relativas 0,72, 0,23 y 0,05respectivamente.
relativas de las filas o columnas. En la tabla 3.3 las ventas de las empresas
están en los intervalos (1-100), (101-200) y
(201-300) con frecuencias relativas 0,36,
0,33 y 0,31.
Con esta operación garantizamos que la suma de las frecuencias
Distribuciones relativas para todos los valores de la variable y es uno, ya que,
sumando para los valores de y:
condicionadas
La distribución condicionada de y para x
= xi es la distribución univariante de la
variable y que se obtiene considerando
sólo los elementos que tienen para la
variable x el valor xi . Puede obtenerse Por ejemplo, llamando y a la variable asistencia al cine y x a la
de la distribución conjunta dividiendo variable asistencia al teatro, de la tabla 3.2, la distribución de
las frecuencias relativas de la línea asistencia al cine para los estudiantes que no van nunca al
definida por x = xi por su suma. teatro se presenta en la tabla 3.4.
Llamando fr(yj |xi ) a las frecuencias
relativas de esta distribución:
Representaciones gráficas

• La representación gráfica más útil


de dos variables continuas sin
agrupar es el diagrama de
dispersión, que se obtiene
representando cada observación
bidimensional (xi yi ) como un
punto en el plano cartesiano. Este
diagrama es especialmente útil
para indicar si existe o no relación
entre las variables. La figura 3.1
presenta algunos ejemplos.
Medidas de Para datos agrupados en clases la fórmula anterior se
dependencia lineal reduce a:
Covarianza:
En el estudio conjunto de variables
continuas interesa disponer de una
medida descriptiva de la relación lineal y ahora el sumatorio está extendido a todas las clases.
entre cada par de variables. La medida
más utilizada es la covarianza, definida La covarianza fue introducida por K. Pearson para medir la
por: relación lineal entre x e y.

donde el sumatorio está extendido a las


n parejas de valores (x, y). Una
expresión equivalente de la covarianza es:
Correlación
El inconveniente de la covarianza como medida
de asociación es su dependencia de las donde sx y sy son las desviaciones típicas de x y de y. El lector
unidades de medida de las variables: debe comprobar que:
supongamos que la covarianza entre la estatura, 1.El coeficiente de correlación tiene el mismo signo que la cova -
medida en centímetros, y el peso en gramos en rianza.
unos datos es 200; si expresamos la estatura en
metros, los valores de las estaturas quedan 2.El coeficiente de correlación es adimensional: su valor no varía
divididos por 100, y si ahora expresamos los si multiplicamos x por k1 e y por k2 , siendo k1 y k2 números no
pesos en kilogramos, dividiremos los pesos por nulos del mismo signo.
1.000. En consecuencia, la covarianza entre el 3.Si existe una relación lineal exacta entre ambas variables, lo
peso y la altura en las nuevas unidades será, que supone que todos los puntos deben estar en una línea
ahora, 0,002. Para construir una medida recta, que podemos escribir como y = a + bx, el coeficiente de
adimensional de la relación lineal entre dos correlación es igual a 1 (si b > 0) o –1 (si b < 0).
variables tendremos que dividir la covarianza
por un término que tenga sus mismas 4.Si no existe una relación lineal exacta (los puntos no están
dimensiones. Como la covarianza va en el sobre una recta), –1 < r < 1
producto de las unidades de las variables,
Galton propuso definir el coeficiente de
correlación entre dos variables por:
Recta de regresión
La media de una variable minimiza las diferencias entre los datos y la
Cuando dos variables están relacionadas de media, que son en promedio cero. Podemos aplicar la misma idea para
forma lineal, los puntos tienden a agruparse en construir la recta media. Para simplificar, supongamos que estamos
el diagrama de dispersión alrededor de una interesados en minimizar los errores de la variable y cuando conocemos
recta. Un procedimiento natural de expresar el valor de x. Éste es el enfoque natural si deseamos prever y dado x.
esta relación es mediante la recta que describe Entonces la recta será de la forma:
su evolución conjunta. De la misma forma que •h(x) = a + bx
describimos una variable por la media y la
dispersión, podemos describir la relación entre
dos variables por una recta y la dispersión de donde a es la ordenada en el origen [valor de h(x) cuando x = 0] y b será
los puntos con relación a esa recta. la pendiente, que es el incremento de h(x) si x aumenta una unidad.
Esta recta se denomina recta de regresión en honor a Galton, que la
obtuvo por primera vez tomando como x las estaturas de padres e y las
estaturas de los hijos. Galton obtuvo que la pendiente de la relación es
menor que la unidad, lo que implica que cuando la estatura de un padre
es mucho mayor que la media, la estatura esperada de sus
descendientes será también mayor que la media, pero menor que la del
padre. Este fenómeno, de gran importancia en biología, se conoce como
regresión a la media.
La covarianza, el coeficiente de correlación
y la pendiente de la recta que describe la
nube de puntos son tres formas
estrechamente relacionadas de expresar la
dependencia lineal. El coeficiente de
correlación es adimensional (no cambia al
expresar las variables en otras unidades),
mientras que la covarianza tiene unidades
de (xy) y la pendiente de la recta de (y|x).
El coeficiente de correlación es simétrico
en ambas variables, ya que mide la
relación. Sin embargo, la recta de
regresión no lo es porque se construye
suponiendo que el valor de una variable es
conocido (el de la x) y que queremos
prever la otra (y).
En el estudio de variables cuantitativas
k-dimensionales, las k-observaciones
asociadas a un individuo pueden
considerarse como un vector X cuyos
components son los que él toma de
cada variable.
El conjunto de datos se representa por
la secuencia de vectores.
Vector de Medias A continuación muestra de
representacion.
Ejemplo Vector de Medias
Matriz de
varianzas y
covarianzas

 Llamaremos matriz de varianzas o


covarianzas , a la matriz cuadrada
siméetrica que tiene en la diagonal
principal las vianzas de las
observaiones y fuera de ellas las
covarianzas entre viariable. A
continuación caso bidemsional.
Matriz de
Varianzas y
covarianzas

Varianza efectiva: En una medida global


escalar de la variabilidad conjunta de K-
variables, es la varianza efectiva que es la
raiz de orden k del determinante de la matriz
de variantes y covarianzas, su raiz cuadrada
se denomina desviacion tipica efectiva.
Mantiente las siguientes propiedades:
A) Es bien definida, ya que el
determinante de la varianza y la covarianza
siempre es positive.
B) Es una medida de la variabilidad
promedio del conjunto de datos
Ejemplos de
ambos casos
 Hemos visto en este capitulo, como describer la dependencia
de conjuntos variables. Para varias variables es normalmente
mas simple estudiar las dristribuciones condicionadas de una
Resumen del Capitulo raviable con las restantes.
 Los metodos presentados en este capitulo hacen
imprescindible el uso del excel, para vizualizar los graficos de
dispersion, mediante commando de estimacion lineal,
incluidos en el menu de estadisticas

También podría gustarte