Está en la página 1de 10

Med i d as d e d i sp ersi ón

La medida de dispersión tratará de medir la distancia a la que se encuentran los datos de


una determinada medida de posición. Así, cuanto menor sea la medida de dispersión,
menor será la distancia de los datos a la medida de posición y más representativa
resultará ésta.
Dentro de las medidas de dispersión encontramos unos tipos que enunciaremos a
continuación:

Rango o recorrido

El rango es la diferencia entre el mayor y el menor de los datos de una distribución


estadística.

Desviación media

La desviación respecto a la media es la diferencia entre cada valor de la variable


estadística y la media aritmética.

Di = x - x

La desviación media es la media aritmética de los valores absolutos de las desviaciones


respecto a la media.

La desviación media se representa por


Desviación media para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de


la desviación media es:

Vari an za

La varianza es la media aritmética del cuadrado de las desviaciones respecto a la


media de una distribución estadística.

La varianza se representa por .

Varianza para datos agrupados


Para simplificar el cálculo de la varianza vamos o utilizar las siguientes
expresiones que son equivalentes a las anteriores.

Varianza para datos agrupados

Propiedades de la varianza

 La varianza no puede ser nunca negativa, es decir:


𝑺𝟐 ≥ 𝟎
Cuando la calculamos, primero determinamos las distancias de cada valor a la media
aritmética y después las elevamos al cuadrado, de modo que ya tenemos únicamente
valores positivos. Estos valores positivos los multiplicamos por sus frecuencias, que
también lo son, los sumamos todos y los dividimos entre el total de datos que aparecen
en la muestra. De este modo, el resultado debe ser en cualquier caso un valor positivo.

 La varianza es la medida de dispersión más utilizada y se considera la más


precisa, ya que se cumple que:
𝒏 𝒏
𝒏𝒊 𝒏
𝟐
̅)
𝑺 = ∑( 𝒙𝟏 − 𝒙 𝟐 ̅)𝟐 𝒊 ∀𝒌 ≠ 𝒙
< ∑( 𝒙𝟏 − 𝒌 ̅
𝑵 𝑵
𝒊=𝟏 𝒊=𝟏

Es decir, que, si calculamos las distancias de todos los valores de la muestra a una
constante k y hacemos la media de sus cuadrados, esa distancia se hace mínima cuando
es respecto a la media aritmética. Dicho de otro modo, la varianza es la mínima
distancia cuadrática de todos los valores de la muestra a una constante k.

 Podemos calcular también la varianza haciendo uso de esta otra fórmula:

𝟐
∑𝒏𝒊=𝟏 𝒙𝟐𝒊 . 𝒏𝒊
𝑺 = ̅𝟐
− 𝒙
𝑵
 La varianza permanece invariable ante translaciones, es decir, si a todos los
valores de la muestra les sumamos una constante, la varianza no varía:
𝑺𝟐 (𝑿 + 𝒂) = 𝑺𝟐 (𝑿)
 Si realizamos cambios de escala a la variable, es decir, si multiplicamos por un
valor constante todos los valores de la muestra, la varianza queda multiplicada
por el cuadrado de este valor:
𝑺𝟐 (𝑿 . 𝒃) = 𝑺𝟐 (𝑿)

Desviación típica

La desviación típica es la raíz cuadrada de la varianza.

Es decir, la raíz cuadrada de la media de los cuadrados de las


puntuaciones de desviación.

La desviación típica se representa por σ.

Desviación típica para datos agrupados

Para simplificar el cálculo vamos o utilizar las siguientes


expresiones que son equivalentes a las anteriores.
Desviación típica para datos agrupados

Coeficiente de Variación
Necesitamos, por tanto, una media adimensional, es decir, una media que no tenga
unidades asociadas, para, así, poder comparar la representatividad de las medias o la
variabilidad o dispersión que presentan distintas variables, sean cuales sean las unidades
de media en las que se midan.
El coeficiente de variación es una de las medidas de dispersión adimensionales más
importantes. Se define como el cociente entre la desviación típica y la media aritmética:
𝑆
𝑉=
𝑋̅
Como ambas medidas tienen las mismas unidades que la variable original, dividirlas
hace que desaparezcan las unidades y nos proporciona una medida de dispersión o
variabilidad adimensional.

Regresión Lineal

Abordaremos en esta página las distribuciones bidimensionales. Las observaciones se


dispondrán en dos columnas, de modo que en cada fila figuren la abscisa x y su
correspondiente ordenada y. La importancia de las distribuciones bidimensionales radica
en investigar cómo influye una variable sobre la otra. Esta puede ser una dependencia
causa efecto, por ejemplo, la cantidad de lluvia (causa), da lugar a un aumento de la
producción agrícola (efecto). O bien, el aumento del precio de un bien, da lugar a una
disminución de la cantidad demandada del mismo.

Si utilizamos un sistema de coordenadas cartesianas para representar la distribución


bidimensional, obtendremos un conjunto de puntos conocido con el diagrama de
dispersión, cuyo análisis permite estudiar cualitativamente, la relación entre ambas
variables tal como se ve en la figura. El siguiente paso, es la determinación de la
dependencia funcional entre las dos variables x e y que mejor ajusta a la distribución
bidimensional. Se denomina regresión lineal cuando la función es lineal, es decir,
requiere la determinación de dos parámetros: la pendiente y la ordenada en el origen de
la recta de regresión, y=ax+b.

La regresión nos permite, además, determinar el grado de dependencia de las series de


valores X e Y, prediciendo el valor y estimado que se obtendría para un valor x que no
esté en la distribución.

Vamos a determinar la ecuación de la recta que mejor ajusta a los datos


representados en la figura. Se denomina error ei a la diferencia yi-y, entre el
valor observado yi, y el valor ajustado y= axi+b, tal como se ve en la figura
inferior. El criterio de ajuste se toma como aquél en el que la desviación
cuadrática media sea mínima, es decir, debe de ser mínima la suma
El extremo de una función: máximo o mínimo se obtiene cuando las derivadas
de s respecto de a y de b sean nulas. Lo que da lugar a un sistema de dos
ecuaciones con dos incógnitas del que se despeja a y b.

El coeficiente de correlación es otra técnica de estudiar la distribución


bidimensional, que nos indica la intensidad o grado de dependencia entre las
variables X e Y. El coeficiente de correlación r es un número que se obtiene
mediante la fórmula.

El numerador es el producto de las desviaciones de los valores X e Y respecto


de sus valores medios. En el denominador tenemos las desviaciones cuadráticas
medias de X y de Y.

El coeficiente de correlación puede valer cualquier número comprendido entre


-1 y +1.

 Cuando r=1, la correlación lineal es perfecta, directa.


 Cuando r=-1, la correlación lineal es perfecta, inversa
 Cuando r=0, no existe correlación alguna, independencia total de los
valores X e Y

Correlación lineal.
El coeficiente de correlación lineal es una media del grado de dependencia estadística
que presentan dos variables. Se calcula como el cociente entre su varianza y el producto
de sus desviaciones típicas, es decir:
𝑺𝒙𝒚
𝒓=
𝑺𝒙 . 𝑺𝒚
De forma más precisa, podemos decir que nos indica hasta qué punto dos variables
están linealmente relacionadas entre sí. El coeficiente de correlación lineal toma
siempre valores entre -1 y 1:

- Si toma el valor 1, podemos decir que existe una dependencia funcional positiva
entre las variables, es decir, que presentan una relación lineal perfecta y, además,
cuando una toma valores más grandes la otra también.
- Si toma el valor -1, podemos decir que existe una dependencia funcional
negativa entre las variables, es decir, que presentan una relación lineal perfecta,
pero cuando una toma valores más grandes la otra disminuye.
- Si toma valor 0, podemos decir que las variables son linealmente
independientes. Sin embargo, esto no quiere decir que las variables no presenten
algún tipo de estructura de dependencia que no sea lineal.
- Lo normal será que tome valores entre 0 y 1 o entre -1 y 0.
- Si toma valores entre 0 y 1, estaremos ante una relación estadística positiva, que
será más fuerte si el valor está cerca de 1 y menos si está más cerca de 0.
Si toma valores entre -1 y 0, estaremos ante una relación estadística negativa, que será
más fuerte cuanto más se aproxime el valor a -1.

Diagramas De Caja.
Los diagramas de caja son una forma útil de graficar datos divididos en cuatro
cuartiles, cada uno con igual cantidad de valores. El diagrama de caja no grafica
frecuencia ni muestra las estadísticas individuales, pero en ellos podemos ver
claramente dónde se encuentra la mitad de los datos. Es un buen diagrama para
analizar la asimetría en los datos.
A continuación, te dejamos algunas palabras que debes tener en cuenta cuando
graficas diagramas de caja:
 Q1 – Cuartil 1, la mediana de la mitad menor de los datos.

 Q2 – Cuartil 2, la mediana de todos los datos.

 Q3 – Cuartil 3, la mediana de la mitad mayor de los datos.

 IQR – Rango Inter cuartil, la diferencia entre Q3 y Q1.

 Valores extremos – Los valores más pequeños y los más grandes de los datos.
 Valores atípicos
 Los valores atípicos son aquellos mucho más grandes o mucho más pequeños
que el resto de los datos. Se representan con un punto en cualquier extremo del
diagrama. En nuestro ejemplo no hubo ningún valor atípico; y aunque 53 parece
ser mucho más pequeño que el resto, en realidad no fue lo suficientemente
pequeño.
 Para ser considerado un valor atípico, el valor debe ser:
 mayor que Q3 por, al menos, 1.5 veces el rango Inter cuartil (IQR), o menor que
Q1 por, al menos, 1.5 veces el IQR.
 Los valores atípicos son aquellos que:
 1.5(IQR) > Q3
1.5(IQR) < Q1

También podría gustarte