Está en la página 1de 8

Cómo calcular la varianza

Coescrito por Personal de wikiHow


Referencias

En este artículo: 

Calcular la varianza de una muestra 

Calcular la varianza de una población 

Artículos relacionados 

Referencias 

Resumen del artículo

La varianza es una medida de qué tan disperso es un conjunto de datos. Es útil al


momento de crear modelos estadísticos debido a que la varianza baja puede ser una
señal de que estás sobreajustando tus datos. Calcular la varianza puede ser complicado,
pero una vez que aprendas la fórmula, solo necesitarás introducir los números correctos
para hallar la respuesta.
Método 1
Calcular la varianza de una muestra
1.

1
Toma nota de la muestra del conjunto de datos. En la mayoría de los casos, los
estadísticos solo tienen acceso a una muestra o a un subconjunto de la población que
van a analizar. Por ejemplo, en vez de analizar la población "costo de todos los autos de
Alemania", un estadístico averiguaría el costo de una muestra aleatoria de unos pocos
miles de autos. De este modo podría basarse en esa muestra para obtener una estimación
aproximada del costo de los autos en Alemania, aunque es posible que no coincida con
el valor exacto.
 Ejemplo: analizando la cantidad de panecitos que se venden todos los
días en una cafetería, tomas una muestra de seis días aleatorios y obtienes los
siguientes resultados: 17, 15, 23, 7, 9, 13. Esta es una muestra, no la
población, ya que no tienes los datos de todos y cada uno de los días en los
cuales ha estado abierta la cafetería.
 Si tienes todos los puntos de datos de una población, continúa con
el próximo método.
2.
2
Anota la fórmula de la varianza de una muestra. La varianza de un conjunto de datos
te indica qué tan dispersos están los puntos de datos. Mientras más cerca de cero esté la
varianza, más cercanos estarán entre sí los puntos de datos. Cuando vayas a trabajar con
muestras de conjuntos de datos, utiliza la siguiente fórmula para calcular la varianza:[1]
  Sx2= ∑ni=1[(xi - x̅)]2/(n - 1)
  Sx2 es la varianza. La varianza siempre se mide en unidades elevadas al
cuadrado.
 xi representa un término de tu conjunto de datos.
 ∑, que significa "sumatoria", te indica que debes calcular los siguientes
términos para cada valor de Sx2 y luego sumarlos a todos.
 x̅ es la media de la muestra.
 n es la cantidad de puntos de datos.
3.

3
Calcula la media de la muestra. El símbolo x̅ o "x barra" se refiere a la media de la
muestra.[2] Calcúlala como lo calcularías cualquier media: suma todos los puntos de
datos, luego divídela por la cantidad de puntos de datos.
 Por ejemplo: primero suma todos los puntos de datos: 17 + 15 + 23 + 7 +
9 + 13 = 84
A continuación, divide la respuesta por la cantidad de puntos de datos, en este
caso, seis: 84 ÷ 6 = 14.
Media de la muestra = x̅ = 14.
 Puedes pensar en la media como el "punto central" de los datos. Si los
datos se agrupan cerca de la media, entonces la varianza será baja. Si se
encuentran esparcidos lejos de la media, la varianza será alta.
4.

4
Réstale la media a cada punto de datos. Ahora es momento de calcular xi - x̅,
donde xi es cada número del conjunto de datos. Cada respuesta te indicará la desviación
con respecto de la media o, en lenguaje coloquial, qué tan lejos de la media está cada
número.[3] .
 Ejemplo:
x1 - x̅ = 17 - 14 = 3
x2 - x̅ = 15 - 14 = 1
x3 - x̅ = 23 - 14 = 9
x4 - x̅ = 7 - 14 = -7
x5 - x̅ = 9 - 14 = -5
x6 - x̅ = 13 - 14 = -1

 Es fácil revisar tu trabajo, ya que la suma de las respuestas debe ser igual
a cero. Esto se debe justamente a la definición de la media, ya que las
respuestas negativas (distancia de los números pequeños respecto de la
media) cancelan exactamente las respuestas positivas (distancia de los
números más grandes respecto de la media).
5.

5
Eleva cada resultado al cuadrado. Tal como se explicó más arriba, la lista actual de
desviaciones (xi - x̅) suman cero. Esto quiere decir que la "desviación promedio"
siempre será igual a cero. Por lo tanto, esto no te dice demasiado acerca de qué tan
dispersos están los datos. Para resolver este problema, debes elevar al cuadrado cada
desviación. Al hacerlo, todos los números se convertirán en positivos, por lo tanto, los
valores positivos y negativos dejarán de cancelarse y sumar cero.[4]
 Ejemplo:
(x1 - x̅) = 32 = 9
(x2 - x̅) = 12 = 1
(x3 - x̅) = 92 = 81
(x4 - x̅) = 72 = 49
(x5 - x̅) = 52 = 25
(x6 - x̅) = -12 = 1
 Ahora tienes el valor (xi - x̅)2 para cada punto de datos de tu muestra.
6.
6
Calcula la suma de los valores al cuadrado. Ahora es momento de calcular el
numerador total de la fórmula ∑ni=1[(xi - x̅)2]. La letra sigma mayúscula, ∑, te indica que
debes sumar el valor del siguiente término para cada valor de (xi) .Ya calculaste
(xi- x̅)2 para cada valor de xi en la muestra. Así que todo lo que tienes que hacer ahora,
es sumar los resultados.
 Ejemplo: 9 + 1 + 81 + 49 + 25 + 1 = 166.
7.

7
Divide por n-1, donde n es la cantidad de puntos de datos. Hace mucho tiempo, los
estadísticos dividían la varianza de la muestra por n. Esto te da el valor promedio de la
desviación al cuadrado, que coincide perfectamente con la varianza de la muestra. Pero
recuerda que la muestra es solo una estimación de una población más grande. Si tomas
otra muestra aleatoria y haces el mismo cálculo, obtendrás un resultado diferente. Por
este motivo, al dividir por n-1 en vez de por n obtendrás una mejor estimación de la
varianza de una población más grande y eso es justamente lo que estás buscando. Esta
corrección es tan común que se ha convertido en la definición aceptada de la varianza
de una muestra.[5]
 Ejemplo: en la muestra hay seis puntos de datos, por lo tanto:
Varianza de la muestra = 166 ÷ 6-1= 33,2
8.

8
Aprende a distinguir varianza de desviación estándar. Ten en cuenta que, al haber
un exponente en la fórmula, la varianza se mide en unidades al cuadrado de los datos
originales. Esto puede hacer que no sea tan sencillo entenderlo en forma intuitiva. En su
lugar, a menudo se usa la desviación estándar. De todas formas, tu esfuerzo no fue en
vano, ya que la desviación estándar no es otra cosa que la raíz cuadrada de la varianza.
Es por eso que la varianza de una muestra se expresa como Sx2 y la desviación estándar
de una muestra como Sx.
 Por ejemplo, la desviación estándar de la muestra anterior es = s = √33,2
= 5,76.
Método 2
Calcular la varianza de una población
1.

1
Comienza con un conjunto de datos de la población. El término "población" hace
referencia al total de datos de las observaciones relevantes. Por ejemplo, si vas a
analizar la edad de los residentes del estado de Texas, tu población debe incluir la edad
de cada uno de los residentes de Texas. Normalmente, para un conjunto de datos tan
grande como ese, crearías una hoja de cálculo. Sin embargo, aquí tienes un conjunto
más pequeño de datos como ejemplo:
 Ejemplo: en la habitación de un acuario hay exactamente 6 peceras. Las
seis peceras contienen la siguiente cantidad de peces:

2.

2
Anota la fórmula de la varianza de la población. Debido a que la población contiene
todos los datos que necesitas, esta fórmula te dará el valor exacto de la varianza de la
población. Para poder distinguirla de la varianza de una muestra (que es solo un valor
aproximado), los estadísticos usan otras variables:[6]
 σ = (∑( - μ))/n
 σ = varianza de la población. Es la letra sigma minúscula, elevada al
cuadrado. La varianza se mide en unidades al cuadrado.
  representa un término de tu conjunto de datos.
 Los términos dentro de ∑ se calcularán para cada valor de , y luego se
sumarán.
 μ es la media de la población.
 n es la cantidad de puntos de datos de la población.
3.
3
Encuentra la media de la población. Cuando analizas una población, el símbolo μ
("mu") representa la media aritmética. Para encontrar la media, suma todos los puntos
de datos y luego divide el resultado por la cantidad de puntos de datos.
 Puedes pensar en la media como el "promedio", pero ten cuidado, ya que
esa palabra tiene muchas definiciones en matemática.
 Ejemplo: media = μ =  = 10,5
4.

4
Réstale la media a cada punto de datos. Los puntos de datos cercanos a la media
tendrán una diferencia más cercana a cero. Repite la resta para cada punto de datos y
comenzarás a tener una noción aproximada de qué tan dispersos están los datos.
 Ejemplo:
 - μ = 5 - 10,5 = -5,5
 - μ = 5 - 10,5 = -5,5
 - μ = 8 - 10,5 = -2,5
 - μ = 12 - 10,5 = 1,5
 - μ = 15 - 10,5 = 4,5
 - μ = 18 - 10,5 = 7,5
5.

5
Eleva al cuadrado todas las respuestas. Ahora, algunos de los números del paso
anterior serán negativos mientras que otros serán positivos. Si dibujas tus datos en una
línea numérica, estas dos categorías representarán los números que están a la izquierda
de la media y los que están a la derecha de la media. Estos valores no son de mucha
ayuda para calcular la varianza, ya que los dos grupos se cancelarían entre sí. Eleva al
cuadrado cada uno de los números para transformarlos en valores positivos.
 Ejemplo:
( - μ) para cada valor de i de 1 a 6:
(-5,5) = 30,25
(-5,5) = 30,25
(-2,5) = 6,25
(1,5) = 2,25
(4,5) = 20,25
(7,5) = 56,25
6.

6
Encuentra la media de tus resultados. Ahora tienes un valor para cada punto de datos,
relacionado (indirectamente) con la dispersión que ese punto de datos tiene respecto de
la media. Calcula la media de estos valores sumándolos y luego dividiendo la suma por
la cantidad de valores.
 Ejemplo:
Varianza de la población =  24,25
7.

7
Relaciona este valor nuevamente con la fórmula. Si no estás seguro acerca de cómo
coincide este valor con la fórmula que aplicaste al principio de este método, intenta
escribir todo el problema a mano:
 Después de encontrar la diferencia entre la media y elevar al cuadrado,
obtendrás el valor ( - μ), ( - μ), y así sucesivamente hasta ( - μ), donde  es el
último punto de datos del conjunto.
 Para encontrar la media de estos valores, debes sumarlos a todos y
dividirlos por : ( ( - μ) + ( - μ) + ... + ( - μ) ) / n
 Después de rescribir el numerador en notación sigma, obtendrás (∑( - μ))/n,
que es la fórmula de la varianza.
Consejos
 Debido a que es difícil interpretar la varianza, este valor generalmente se calcula
como punto de partida para el cálculo de la desviación estándar.
 La utilización de  en lugar de  en el denominador al analizar muestras, es una
técnica conocida como corrección de Bessel. La muestra es solo un valor estimativo de
la población completa y la media de la muestra se encuentra sesgada para ajustar esa
estimación. Esta corrección sirve para eliminar ese sesgo.[7] Esto tiene que ver con el
hecho de que, una vez que hayas listado los  puntos de datos, el n-ésimo punto final ya
tendrá una restricción, dado que solamente algunos valores resultarán en la media de la
muestra (x̅) utilizada en la fórmula de la varianza.[8]

También podría gustarte