Está en la página 1de 9

Varianza y desviacin estndar

La desviacin slo significa qu tan lejos de lo normal

Desviacin estndar
La desviacin estndar ( ) mide cunto se separan los datos. La frmula es fcil: es la raz cuadrada de la varianza. As que, "qu es la varianza?"

Varianza
la varianza (que es el cuadrado de la desviacin estndar:
2

) se define as:

Es la media de las diferencias con la media elevadas al cuadrado. En otras palabras, sigue estos pasos: 1. Calcula la media (el promedio de los nmeros) 2. Ahora, por cada nmero resta la media y eleva el resultado al cuadrado (la diferencia elevada al cuadrado). 3. Ahora calcula la media de esas diferencias al cuadrado. (Por qu al cuadrado?)

Ejemplo T y tus amigos habis medido las alturas de vuestros perros (en milmetros):

Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm. Calcula la media, la varianza y la desviacin estndar.

Respuesta:
600 + 470 + 170 + 430 + 300 Media = 5 = 5 1970 = 394

as que la altura media es 39

4 mm. Vamos a dibujar esto en el grfico:

Ahora calculamos la diferencia de cada altura con la media:

Para calcular la varianza, toma cada diferencia, elvala al cuadrado, y haz la media: 2062 + 762 + (-224)2 + 362 + (-94)2 Varianza:
2

108,520 = = 21,704 5

= 5

As que la varianza es 21,704. Y la desviacin estndar es la raz de la varianza, as que: Desviacin estndar: = 21,704 = 147

y lo bueno de la desviacin estndar es que es til: ahora veremos qu alturas estn a distancia menos de la desviacin estndar (147mm) de la media:

As que usando la desviacin estndar tenemos una manera "estndar" de saber qu es normal, o extra grande o extra pequeo. Los Rottweilers son perros grandes. Y los Dachsunds son un poco menudos... pero que no se enteren!

*Nota: por qu al cuadrado?


Elevar cada diferencia al cuadrado hace que todos los nmeros sean positivos (para evitar que los nmeros negativos reduzcan la varianza) Y tambin hacen que las diferencias grandes se destaquen. Por ejemplo 1002=10,000 es mucho ms grande que 502=2,500. Pero elevarlas al cuadrado hace que la respuesta sea muy grande, as que lo deshacemos (con la raz cuadrada) y as la desviacin estndar es mucho ms til.

Volver arriba

Medidas descriptivas
Las medidas descriptivas son valores numricos calculados a partir de la muestra y que nos resumen la informacin contenida en ella.

Medidas de Posicin: Cuantiles


Los cuantiles son valores de la distribucin que la dividen en partes iguales, es decir, en intervalos, que comprenden el mismo nmero de valores. Los ms usados son los cuartiles, los deciles y los percentiles.  PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15% de las observaciones, y por encima queda el 85%

 CUARTILES: son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son un caso particular de los percentiles: - El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte de los datos

- El segundo cuartil Q 2 (la mediana), es el menor valor que es mayor que la mitad de los datos - El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas partes de los datos  DECILES: son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son tambin un caso particular de los percentiles.

Ejemplo:
Dada la siguiente distribucin en el nmero de hijos (Xi) de cien familias, calcular sus cuartiles.

xi 0 1 2 3 4 5

ni 14 10 15 26 20 15 n=100

Ni 14 24 39 65 85 100

Solucin:
1.Primer cuartil:

2.Segundo cuartil:

3. Tercer cuartil:

Medidas de Centralizacin
Nos dan un centro de la distribucin de frecuencias, es un valor que se puede tomar como representativo de todos los datos. Hay diferentes modos para definir el "centro" de las observaciones en un conjunto de datos. Por orden de importancia, son:  MEDIA : (media aritmtica o simplemente media). es el promedio aritmtico de las observaciones, es decir, el cociente entre la

suma de todos los datos y el numero de ellos. Si xi es el valor de la variable y ni su frecuencia, tenemos que:

Si los datos estn agrupados utilizamos las marcas de clase, es decir ci en vez de xi.  MEDIANA (Me):es el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores. Si el nmero de datos es impar la mediana ser el valor central, si es par tomaremos como mediana la media aritmtica de los dos valores centrales.

 MODA (M0): es el valor de la variable que ms veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. No tiene porque ser nica.

Medidas de Dispersin
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersin nos dicen hasta que punto estas medidas de tendencia central son representativas como sntesis de la informacin. Las medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirn comparar varias muestras. MEDIDAS DE DISPERSIN ABSOLUTAS  VARIANZA ( s ): es el promedio del cuadrado de las distancias entre cada observacin y la media aritmtica del conjunto de observaciones.
2

Haciendo operaciones en la frmula anterior obtenemos otra frmula para calcular la varianza:

Si los datos estn agrupados utilizamos las marcas de clase en lugar de Xi.

 DESVIACIN TPICA (S): La varianza viene dada por las mismas unidades que la variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersin la desviacin tpica que se define como la raz cuadrada positiva de la varianza

Para estimar la desviacin tpica de una poblacin a partir de los datos de una muestra se utiliza la frmula (cuasi desviacin tpica):

 RECORRIDO O RANGO MUESTRAL (Re). Es la diferencia entre el valor de las observaciones mayor y el menor. Re = xmax - xmin MEDIDAS DE DISPERSIN RELATIVAS  COEFICIENTE DE VARIACIN DE PEARSON: Cuando se quiere comparar el grado de dispersin de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variacin de Pearson que se define como el cociente entre la desviacin tpica y el valor absoluto de la media aritmtica

CV representa el nmero de veces que la desviacin tpica contiene a la media aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la representatividad de la media.

Medidas de Forma
Comparan la forma que tiene la representacin grfica, bien sea el histograma o el diagrama de barras de la distribucin, con la distribucin normal. MEDIDA DE ASIMETRA Diremos que una distribucin es simtrica cuando su mediana, su moda y su media aritmtica coinciden. Diremos que una distribucin es asimtrica a la derecha si las frecuencias (absolutas o relativas) descienden ms lentamente por la derecha que por la izquierda. Si las frecuencias descienden ms lentamente por la izquierda que por la derecha diremos que la distribucin es asimtrica a la izquierda. Existen varias medidas de la asimetra de una distribucin de frecuencias. Una de ellas es el Coeficiente de Asimetra de Pearson:

Su valor es cero cuando la distribucin es simtrica, positivo cuando existe asimetra a la derecha y negativo cuando existe asimetra a la izquierda.

MEDIDA DE APUNTAMIENTO O CURTOSIS Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos

de distribuciones segn su

grado de curtosis:
Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo que presenta una distribucin normal). Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable. Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.

EJEMPLO 1

El nmero de dis necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales caractersticas han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 das. Calcular la media, mediana, moda, varianza y desviacin tpica.
SOLUCIN: La media:

suma de todos los valores de una variable dividida entre el nmero total de datos de los que se dispone:

La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80. Como quiera que en este ejemplo el nmero de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el clculo de la media de estos dos valores nos dar a su vez 60, que es el valor de la mediana. La moda: el valor de la variable que presenta una mayor frecuencia es 60 La varianza S2: Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin.

Sx2= La desviacin tpica S: es la raz cuadrada de la varianza.


; S = 427,61 = 20.67

El rango: diferencia entre el valor de las observaciones mayor y el menor 80 - 15 = 65 das El coeficiente de variacin: cociente entre la desviacin tpica y el valor absoluto de la media aritmtica CV = 20,67/52,3 = 0,39 EJEMPO 2 El precio de un interruptor magentotrmico en 10 comercios de electricidad de una ciudad son : 25, 25, 26, 24, 30, 25, 29, 28, 26, y 27 Euros. Hallar la media, moda, mediana, (abrir la calculadora estadstica, ms abajo) diagrama de barras y el diagrama de caja. SOLUCIN: (Utilizar la calculadora de debajo)

[El diagrama de cajas: caja desde Q1 a Q3 (50% de los datos), bigotes el recorrido]

Resumen de Frmulas

--