Está en la página 1de 16

3. DESCRIPCIÓN CONJUNTA DE Jhonatan R.

Sanchez Diaz
ID. 1076689
VARIAS VARIABLES Probabilidad y Estadistica
3.1 DISTRIBUCIONES DE
FRECUENCIAS MULTIVARIANTES

Uno de los objetivos del análisis estadístico es encontrar las


relaciones que existen entre un grupo de variables. En este capítulo
presentamos una introducción a los métodos para cuantificar estas
relaciones. Supondremos inicialmente, para simplificar, que el
conjunto de datos contiene los valores de dos variables (x, y), que
se han medido conjuntamente en ciertos elementos de una
población. Posteriormente, este análisis se generaliza para
cualquier número de variables.
3.1.1 DISTRIBUCIÓN
CONJUNTA
Llamaremos distribución conjunta de frecuencias
de dos variables (x, y) a una tabla que
representa los valores observados de ambas
variables y las frecuencias relativas de
aparición de cada par de valores. Siempre
conviene dar el número de elementos
observados de manera que podamos calcular
también inmediatamente las frecuencias
absolutas si se desea. Cuando las variables son
cualitativas, la tabla resultante se denomina
tabla de contingencias, reservándose el nombre
de distribución conjunta para variables
numéricas. La construcción de buenas tablas de
frecuencias no es inmediata, y el apéndice 3C
de este capítulo presenta algunos principios
generales.
La tabla 3.1 presenta una tabla de contingencia
con las frecuencias relativas del resultado de
observar el color de los ojos de 1.000 personas
(variable hijo) y preguntarles por el color de los
ojos de su madre.
3.1.2 DISTRIBUCIONES MARGINALES
Se denomina distribución marginal de una variable a la obtenida al estudiar la variable aisladamente,
con independencia del resto. El nombre de marginal proviene de que esta distribución se obtiene a partir
de la distribución conjunta acumulando en los márgenes de la tabla la suma de las frecuencias relativas
de las filas o columnas. En general, si llamamos fr(xi, yj) a las frecuencias relativas de la distribución
conjunta, las frecuencias relativas que definen la distribución marginal de x se obtienen con:

y analógicamente:

Por ejemplo, la distribución marginal del color de los ojos de las madres en la tabla 3.1 toma dos
posibles valores, claros y oscuros, con frecuencias relativas 0,37 y 0,63.
3.1.3 DISTRIBUCIONES
CONDICIONADAS
La distribución condicionada de y para x = xi es la distribución univariante de la
variable y que se obtiene considerando sólo los elementos que tienen para la
variable x el valor xi. Puede obtenerse de la distribución conjunta dividiendo las
frecuencias relativas de la línea definida por x = xi por su suma. Llamando
fr(yj|xi) a las frecuencias relativas de esta distribución:

Con esta operación garantizamos que la suma de las frecuencias relativas para
todos los valores de la variable y es uno, ya que, sumando para los valores de y:
En general la distribución condicionada de y
para x = xi puede interpretarse como la
distribución de la característica y en los
elementos de la población que tienen como
característica x el valor xi. Se diferencia de
la distribución marginal de y en que ésta
tiene en cuenta la distribución de y en todos
los elementos, con independencia del valor
que en ellos tenga la característica x.

que indica que la frecuencia de la


característica y en la población total puede
obtenerse ponderando su frecuencia en las
subpoblaciones definidas por distintos valores
de x por el peso relativo de cada
subpoblación en la población total.
3.1.4 REPRESENTACIONES
GRÁFICAS La representación gráfica más útil
de dos variables continuas sin
agrupar es el diagrama de
dispersión, que se obtiene
representando cada observación
bidimensional (xiyi) como un
punto en el plano cartesiano. Este
diagrama es especialmente útil
para indicar si existe o no
relación entre las variables. La
figura 3.1 presenta algunos
ejemplos.
3.2 MEDIDAS DE DEPENDENCIA
LINEAL
3.2.1 COVARIANZA
En el estudio conjunto de variables continuas interesa disponer de una medida descriptiva de la relación
lineal entre cada par de variables. La medida más utilizada es la covarianza, definida por:

donde el sumatorio está extendido a las n parejas de valores (x, y). Una expresión equivalente de la
covarianza es

Para datos agrupados en clases la fórmula anterior se reduce a


3.2.2 CORRELACIÓN
El inconveniente de la covarianza como medida de asociación es su dependencia de las
unidades de medida de las variables: supongamos que la covarianza entre la estatura, medida
en centímetros, y el peso en gramos en unos datos es 200; si expresamos la estatura en metros,
los valores de las estaturas quedan divididos por 100, y si ahora expresamos los pesos en
kilogramos, dividiremos los pesos por 1.000. En consecuencia, la covarianza entre el peso y la
altura en las nuevas unidades será, ahora, 0,002.
Para construir una medida adimensional de la relación lineal entre dos variables tendremos que
dividir la covarianza por un término que tenga sus mismas dimensiones. Como la covarianza va
en el producto de las unidades de las variables, Galton propuso definir el coeficiente de
correlación entre dos variables por:
CONTINUACIÓN
El lector debe comprobar que:
1. El coeficiente de correlación tiene el mismo signo que la covarianza.
2. El coeficiente de correlación es adimensional: su valor no varía si multiplicamos x por 𝐾1 e y por 𝐾2 ,
siendo 𝐾1 y 𝐾2 números no nulos del mismo signo.
3. Si existe una relación lineal exacta entre ambas variables, lo que supone que todos los puntos deben
estar en una línea recta, que podemos escribir como 𝑦 = 𝑎 + 𝑏𝑥, el coeficiente de correlación es
igual a 1 (si 𝑏 > 0) o –1 (𝑠𝑖 𝑏 < 0).
4. Si no existe una relación lineal exacta (los puntos no están sobre una recta), – 1 < 𝑟 < 1.
Es importante recordar que el coeficiente de correlación es una medida resumen de la estructura de un
diagrama de dispersión y que, en consecuencia, siempre conviene dibujar este diagrama que contiene
toda la información.
3.3 RECTA DE REGRESIÓN
Cuando dos variables están relacionadas de forma lineal, los puntos tienden a agruparse en el
diagrama de dispersión alrededor de una recta. Un procedimiento natural de expresar esta relación es
mediante la recta que describe su evolución conjunta. De la misma forma que describimos una variable
por la media y la dispersión, podemos describir la relación entre dos variables por una recta y la
dispersión de los puntos con relación a esa recta.
La media de una variable minimiza las diferencias entre los datos y la media, que son en promedio cero.
Podemos aplicar la misma idea para construir la recta media. Para simplificar, supongamos que estamos
interesados en minimizar los errores de la variable y cuando conocemos el valor de 𝑥. Éste es el enfoque
natural si deseamos prever y dado 𝑥. Entonces la recta será de la forma

ℎ 𝑥 = 𝑎 + 𝑏𝑥
donde a es la ordenada en el origen [valor de ℎ(𝑥) cuando 𝑥 = 0] y 𝑏 será la pendiente, que es el
incremento de ℎ(𝑥) si 𝑥 aumenta una unidad.
CONTINUACION
Si decidimos medir las distancias en el sentido vertical, la recta resultante se denomina recta de regresión.
Los coeficientes a y b se determinan minimizando las distancias verticales entre los puntos observados, 𝑦𝑖 ,
y las ordenadas previstas por la recta para dichos puntos, 𝑎 + 𝑏𝑥𝑖 . El criterio será minimizar:

෍(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2

donde las desviaciones se han tomado al cuadrado para prescindir de su signo. Derivando respecto a
ambos coeficientes e igualando a cero, resultan las ecuaciones:

𝟐 ෍ 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 −1 = 0

𝟐 ෍ 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 −𝑥𝑖 = 0
CONTINUACIÓN
Podemos construir una medida de variabilidad de los datos respecto a la recta de regresión
igual que hicimos con las desviaciones típicas promediando las desviaciones verticales al
cuadrado entre cada punto y la ordenada correspondiente a la recta. Llamaremos desviación
típica residual a:

σ[𝑦𝑖 − ℎ 𝑥 ]2
𝑆𝑅 =
𝑛

Observemos que si no hay relación entre 𝑥 e 𝑦 y la covarianza es nula, 𝑏 = 0 y la recta se


reduce a ℎ 𝑥 = 𝑎 = 𝑦ത . En consecuencia, la desviación típica residual se convierte en la
desviación típica de la variable 𝑦.
3.3.1 CORRELACIÓN Y REGRESIÓN

La covarianza, el coeficiente de correlación y la pendiente de la recta que describe la nube


de puntos son tres formas estrechamente relacionadas de expresar la dependencia lineal. El
coeficiente de correlación es adimensional (no cambia al expresar las variables en otras
unidades), mientras que la covarianza tiene unidades de (𝑥𝑦) y la pendiente de la recta de
(𝑦|𝑥).
El coeficiente de correlación es simétrico en ambas variables, ya que mide la relación. Sin
embargo, la recta de regresión no lo es porque se construye suponiendo que el valor de una
variable es conocido (el de la 𝑥) y que queremos prever la otra (𝑦).

También podría gustarte