Está en la página 1de 35

Unidad 4: Análisis Estadístico

UNIDAD 4: ANALISIS ESTADÍSTICO

El Alto – Bolivia
2019
Unidad 4: Análisis Estadístico

Contenido
Pág

1 CONCEPTOS BÁSICOS ......................................................................................................................................... 1

1.1 ¿Qué es la Estadística? ................................................................................................................................ 1

1.2 Estadística descriptiva e inferencial ....................................................................................................... 1

2 DISTRIBUCIÓN DE FRECUENCIAS (DF) .......................................................................................................... 2

2.1 Tabla de distribución de frecuencias para variables cualitativas ............................................... 2

2.2 Tabla de distribución de frecuencias para variables cuantitativas para datos no


agrupados .................................................................................................................................................................... 3

2.3 Tabla de distribución de frecuencias para variables cuantitativas para datos agrupados4

3 REPRESENTACIONES GRÁFICAS ...................................................................................................................... 7

3.1 Diagrama de barras ..................................................................................................................................... 7

3.2 Diagrama de torta ........................................................................................................................................ 8

3.3 Histogramas ................................................................................................................................................... 9

3.4 Polígono de frecuencias .......................................................................................................................... 10

3.5 Curva de frecuencia ................................................................................................................................... 10

4 MEDIDAS DE TENDENCIA CENTRAL ............................................................................................................ 11

4.1 Media aritmética ......................................................................................................................................... 11

4.1.1 Para datos no agrupados ............................................................................................................... 11

4.1.2 Para datos agrupados ..................................................................................................................... 12

4.2 Moda ............................................................................................................................................................... 13

4.2.1 Para datos no agrupados ............................................................................................................... 13


Unidad 4: Análisis Estadístico

4.2.2 Para datos agrupados ..................................................................................................................... 13

4.3 Mediana ......................................................................................................................................................... 15

4.3.1 Para datos no agrupados ............................................................................................................... 15

4.3.2 Para datos agrupados ..................................................................................................................... 16

5 MEDIDAS DE POSICIÓN .................................................................................................................................... 17

5.1 Cuartiles (Qn) ................................................................................................................................................ 17

5.2 Deciles (Dn).................................................................................................................................................... 18

5.3 Percentil o Centil (Pn) ................................................................................................................................ 19

6 MEDIDAS DE DISPERSIÓN ............................................................................................................................... 19

6.1 Desviación Estándar .................................................................................................................................. 20

6.1.1 Desviación Estándar para datos no agrupados ..................................................................... 20

6.1.2 Desviación Estándar para datos agrupados ............................................................................ 20

6.2 Varianza ......................................................................................................................................................... 21

6.2.1 Varianza para datos no agrupados ............................................................................................ 21

6.2.2 Varianza para datos agrupados ................................................................................................... 22

7 MEDIDAS DE FORMA ......................................................................................................................................... 24

7.1 Medidas de asimetría ............................................................................................................................... 24

7.2 Medidas de Curtosis.................................................................................................................................. 25

8 ANÁLISIS DE DATOS BIVARIADO .................................................................................................................. 26

8.1 Diagrama de dispersión ........................................................................................................................... 26

8.1.1 Correlación lineal y no lineal ......................................................................................................... 26

8.1.2 Correlación positiva y negativa .................................................................................................... 27

8.1.3 Fuerza de la correlación .................................................................................................................. 27

8.2 El coeficiente de correlación lineal (r) ................................................................................................. 28


Unidad 4: Análisis Estadístico

8.2.1 Interpretación del coeficiente de correlación de Pearson ................................................. 28

8.2.2 Cálculo de r.......................................................................................................................................... 29


Unidad 4: Análisis Estadístico

1 CONCEPTOS BÁSICOS

1.1 ¿Qué es la Estadística?

El término estadística proviene de la palabra Estado que fue originalmente utilizado para designar
el levantamiento de datos estatales para orientar la toma de decisiones.

Definición de estadística
La estadística es la rama de la matemática usado para la recolección, organización, resumen, análisis e
interpretación de un grupo de números u observaciones.

1.2 Estadística descriptiva e inferencial

La estadística se divide en dos grandes áreas. Estas áreas son la estadística descriptiva y la
estadística inferencial.

Estadística descriptiva
La estadística descriptiva es parte de la estadística que tiene por objeto describir los datos observados.
Incluye: recolección, organización, resumen y presentación de datos.

La estadística descriptiva, cuya función es la descripción de datos, tiene las siguientes


responsabilidades:

• la obtención y recolección de datos,


• la organización de estos datos,
• la reducción y
• la presentación de datos.

La estadística descriptiva se utiliza para obtener información como medias, proporciones,


dispersiones, tendencias, índices, tasas, coeficientes, que facilitan la descripción de los fenómenos
observados.

Estadística inferencial
La estadística inferencial es parte de la estadística que tiene como objetivo obtener y generalizar los
resultados para una población a partir de una muestra, a través del cálculo de probabilidades. Incluye: hacer
inferencias, pruebas de hipótesis, determinación de relaciones y hacer predicciones.

La inferencia estadística es una técnica mediante la cual se obtienen generalizaciones o se toman


decisiones en base a una información parcial o completa obtenida mediante técnicas descriptivas.

La Estadística Inferencial se deriva de muestras, de observaciones hechas sólo acerca de una parte
de un conjunto grande de elementos. Esto implica que su análisis requiere de generalizaciones
que van más allá de los datos. La Estadística Inferencial investiga o analiza una población
partiendo de una muestra tomada.

1
Unidad 4: Análisis Estadístico

2 DISTRIBUCIÓN DE FRECUENCIAS (DF)


Es una representación organizada de los datos en forma tabular, usando clases (o intervalos) y
frecuencias.

La frecuencia de un valor de dato es el número de veces que ocurre el dato en el conjunto de


datos.

2.1 Tabla de distribución de frecuencias para variables cualitativas

Representa datos que pueden ser agrupados dentro de una categoría cualitativa. La
representación de la DF es como sigue:

xi ni fi
n1
x1 n1 f1 =
n
n2
x2 n2 f2 =
n

nk
xk nk fk =
n
n 1

Donde:

n : Número total de observaciones

xi : Variable en observación

ni : Frecuencias absolutas (número de veces que se repite xi )

f i : Frecuencias relativas

En una encuesta a 92 personas sobre su nacionalidad se determinó que 30 eran bolivianos, 22


peruanos, 16 chilenos y 24 argentinos. Representar estos datos en una DF.

Solución

x : Nacionalidad de un conjunto de individuos

2
Unidad 4: Análisis Estadístico

xi ni fi
Boliviano 30 0,33
Peruano 22 0,24
Chileno 16 0,17
Argentino 24 0,26
92 1

Interpretación:

n3 : 16 personas encuestadas eran chilenos.

f1 : 33% de las personas encuestadas eran bolivianos.

2.2 Tabla de distribución de frecuencias para variables cuantitativas


para datos no agrupados

Representa datos que tienen un gran número de observaciones pero pocos distintos. La
representación de la DF es como sigue:

xi ni fi Ni Fi
n1
x1 n1 f1 = N1 = n1 F1 = f1
n
n2
x2 n2 f2 = N 2 = n1 + n2 F2 = f1 + f 2
n

nk
xk nk fk = N k = n1 + n2 + + nk Fk = f1 + f 2 + + fk
n
n 1

Donde:

n : Número total de observaciones


xi : Variable en observación

ni : Frecuencias absolutas (número de veces que se repite xi )

f i : Frecuencias relativas

N i : Frecuencias absolutas acumuladas

Fi : Frecuencias relativas acumuladas

3
Unidad 4: Análisis Estadístico

Las notas de matemáticas de una clase son:

4, 3, 3, 5, 6, 2, 5, 0, 5, 4, 5, 0, 2,3, 2, 2, 3, 6, 5, 0.

Representar estos datos en una DF.

Solución

x : Notas de una clase de matemáticas

xi ni fi Ni Fi
0 3 0,15 3 0,15

2 4 0,20 7 0,35

3 4 0,20 11 0,55

4 2 0,10 13 0,65

5 5 0,25 18 0,90

6 2 0,10 20 1

20 1

Interpretación:

n2 : 4 estudiantes obtuvieron una nota de 2 puntos.


f5 : 25%de estudiantes obtuvieron una nota de 5 puntos.
N 3 : 11 estudiantes obtuvieron una nota de 0 a 3 puntos.
F4 : 65% de estudiantes obtuvieron una nota de 0 a 4 puntos.

2.3 Tabla de distribución de frecuencias para variables cuantitativas


para datos agrupados

Representa datos que tienen un gran número de observaciones, siendo la mayoría de ellos
distintas. En esta tabla se agrupan los datos en subgrupos llamados clases. Para la construcción
de la TDF se debe seguir los siguientes pasos:

4
Unidad 4: Análisis Estadístico

1) Calcular el rango

Rango = Valor más grande de los datos − Valor más pequeño de los datos

R = xmáx − xmín

2) Calcular del número de clases

Número de clases = Número total de observaciones

k= n

3) Calcular el ancho de clase

Rango
Ancho de clase =
Número de clases

R
Ci =
K

Ci debe ser un valor entero.

4) Calcular de los límites de clase. Una clase tiene la forma:


Linf − Lsup

Donde: Linf es el límite inferior

Lsup es el límite superior.

• Para la primera clase, Linf es el valor más pequeño de los datos y


Lsup es el límite inferior sumado el ancho de clase.
• Para las demás clases, Linf es el límite superior de la anterior clase y
Lsup es el límite inferior sumado el ancho de clase.
5) Calcular la frecuencia absoluta. La frecuencia absoluta corresponde al
número de observaciones cuyos valores se encuentran en el intervalo
[ Linf − Lsup ) .
6) Calcular la frecuencia relativa, la frecuencia absoluta acumulada y la
frecuencia relativa acumulada.

5
Unidad 4: Análisis Estadístico

La representación de la DF es como sigue:

Linf − Lsup ni fi Ni Fi
n1
[ L0 − L1 ) n1 f1 = N1 = n1 F1 = f1
n

n2
[ L1 − L2 ) n2 f2 = N 2 = n1 + n2 F2 = f1 + f 2
n

nk
[ Lk − Lk +1 ) nk fk = N k = n1 + n2 + + nk Fk = f1 + f 2 + + fk
n

n 1

Donde:

Linf − Lsup : Intervalo de clase

n : Número total de observaciones


ni : Frecuencias absolutas (número de veces que se repite xi )

f i : Frecuencias relativas

N i : Frecuencias absolutas acumuladas

Fi : Frecuencias relativas acumuladas

Los pesos en libras de 30 postulantes a la Academia de Policía son:

143 151 136 127 132 132

126 138 119 104 113 90

126 123 121 133 104 99

112 129 107 139 122 137

112 121 140 134 133 123.

Representar estos datos en una DF.

6
Unidad 4: Análisis Estadístico

Solución

x : Pesos de postulantes a la Academia de Policías

R = xmáx − xmín = 151 − 90 = 61

k = 30  5

61
Ci =  12
5

Luego, la DF será:

Linf − Lsup ni fi Ni Fi
[90 − 102) 2 0,07 2 0,07
[102 − 114) 6 0,20 8 0,27
[114 − 126) 6 0,20 14 0,47
[126 − 138) 11 0,37 25 0,84
[138 − 152) 5 0,17 30 1
30 1

Interpretación:

n4 : 11 postulantes pesan entre 126 y 137 libras.

f1 : 7% de los postulantes pesan entre 90 y 101 libras.

N 2 : 8 postulantes pesan entre 90 y 113 libras.

F3 : 47% de los postulantes pesan entre 90 y 125 libras.

3 REPRESENTACIONES GRÁFICAS
En función de la naturaleza de los datos y de la forma en que estos se presentan existen varios
tipos de gráficos.

3.1 Diagrama de barras

Es un gráfico que usa barras verticales u horizontales para representar frecuencias

Dada la DF, construir una gráfica de barras.

7
Unidad 4: Análisis Estadístico

x : Tipos de sangre.

xi ni fi
A 5 0,2
B 8 0,32
O 8 0,32
AB 4 0,16
25 1

Solución

9 8 8
8
7
6 5
Frecuenci 5 4
as 4
3
2
1
0
A B O AB
X

3.2 Diagrama de torta

También llamado diagrama de sectores circulares, consiste en un círculo dividido en trozos de


acuerdo a porcentajes.

Dada la TDF, construir un diagrama de torta.

x : Tipo de sangre.

xi ni fi  i = fi  360º
A 5 0,2 72º
B 8 0,32 115º
O 8 0,32 115º
AB 4 0,16 58º
25 1 360º

8
Unidad 4: Análisis Estadístico

Solución

AB A
4 5
O B
8 8

3.3 Histogramas

Es un gráfico que usa clases y barras para representar frecuencias. Se aplica en las DF para datos
agrupados.

Dada la DF, construir un histograma.

Clases xi ni
[0 ⎯ 2) 1 3
[2 ⎯ 4) 3 6
[4 ⎯ 6) 5 9
[6 ⎯ 8) 7 7
[8 ⎯ 10) 9 3
28

Solución

10 9
9
8 7
7 6
6
5
ni

4 3 3
3
2
1 0
0
0 2 4 6 8 10

Clases

9
Unidad 4: Análisis Estadístico

3.4 Polígono de frecuencias

Es un gráfico de línea que representa una distribución de frecuencias. El polígono de frecuencias


se traza uniendo las partes superiores de las barras correspondientes a los puntos medios de los
intervalos de clase. El polígono de frecuencias es particularmente útil cuando se desea comparar
dos o más distribuciones en un mismo gráfico.

Dada la distribución de frecuencias, construir el polígono de frecuencias absolutas.

Clases xi ni
[0 ⎯ 2) 1 3
[2 ⎯ 4) 3 9
[4 ⎯ 6) 5 36
[6 ⎯ 8) 7 34
[8 ⎯ 10) 9 12
94

Solución

3.5 Curva de frecuencia

Una curva de frecuencia es una curva continua que se ajusta a un histograma. La curva se obtiene
suavizando el polígono de frecuencias.

10
Unidad 4: Análisis Estadístico

Curva de frecuencias aproximada de un histograma

4 MEDIDAS DE TENDENCIA CENTRAL


Las medidas de tendencia central, también llamadas medidas de posición, son valores numéricos
que ubican el centro de la distribución de los datos observados. Las medidas de tendencia central
que se discutirán aquí son: la media aritmética, la media geométrica, la media armónica, la moda
y la mediana.

4.1 Media aritmética


4.1.1 Para datos no agrupados

Es el cociente de la suma de todos los valores del conjunto entre el número total de valores.

x i
x1 + x2 + ... + xN
x= i
=
N N

donde,

x es la media del conjunto de valores,

xi son los valores de la variable y

N el número de valores.

Las edades en años de un grupo de 7 estudiantes son:

10, 14, 13, 15, 16, 18 y 12.

Determinar la media aritmética.

11
Unidad 4: Análisis Estadístico

Solución

10 + 14+13+15+16+18+12
x= = 14 .
7
Por tanto, la media de las edades es 14 años.

4.1.2 Para datos agrupados

Como las frecuencias son números indicadores del número de ocurrencias de cada valor de la
variable, estos funcionan como factores de ponderación que nos permiten calcular la media
aritmética ponderada

Considerando la distribución de frecuencias de la Tabla

xi ni xi  ni
x1 n1 x1  n1
x2 n2 x2  n2
… … …
xk nk xk  nk

N x n
i =1
i i

La media aritmética estará dada por:

xn i i
x1n1 + x2 n2 + ... + xk nk
x= i =1
= .
N N

Dada la distribución de frecuencias del número de hijos de 34 familias, determinar la media


aritmética.

Número de hijos Número de familias


n
xi  ni
xi i
0 2 0
1 6 6
2 10 20
3 12 36
4 4 16
k
N = 34 xn
i =1
i i = 78

12
Unidad 4: Análisis Estadístico

Sustituyendo valores en la fórmula de la media obtenemos:

xn i i
78
x= i =1
= = 2,3 .
N 34

Por tanto, las 34 familias tienen una media de 2,3 hijos.

4.2 Moda

La moda (Mo) es el valor que ocurre con mayor frecuencia en una serie de valores.

4.2.1 Para datos no agrupados

Para datos no agrupados la moda es fácil de reconocer, es suficiente buscar el valor que se repite
con mayor frecuencia. Para esto, es recomendable colocar los datos en orden ascendente o
descendente. Por ejemplo, en la serie: 4, 5, 6, 7, 7, 7, 11, 12 la moda es 7.

En la serie donde el valor modal no existe, decimos que la serie es amodal. Por ejemplo, la serie:
3, 7, 8, 9, 11 no presenta Moda. Ésta serie es amodal.

En otros casos, podemos tener series con dos o más valores modales. Por ejemplo, la serie: 2, 2,
2, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9 presenta tres modas: 2, 4 y 7. Es una serie multimodal.

4.2.2 Para datos agrupados

Caso 1: Sin intervalos de clase. Una vez agrupados los datos es posible determinar
inmediatamente la moda. Basta observar el valor de la variable con mayor frecuencia.

La distribución de frecuencias de las temperaturas medias de 28 ciudades se muestra en la Tabla.


Determinar la moda.

Temperaturas (en °C) Frecuencias


xi n
i
0° 3
1° 8
2° 10
3° 6
4° 1
28

13
Unidad 4: Análisis Estadístico

Solución

La temperatura con mayor frecuencia es 2 ° C, por tanto, la Temperatura Modal es 2°C.

Caso 2: Con intervalos de clase. La clase que presenta la mayor frecuencia se denomina clase
modal. En este caso la moda es el valor dominante que está comprendido entre los límites de la
clase modal. El método más simple para el cálculo de la moda consiste en tomar el punto medio
de la clase modal. Es decir,

I +S
Mo = ,
2

donde, I es el límite inferior de la clase modal y

S es el límite superior de la clase modal.

Dada la distribución de frecuencias de la Tabla , determinar la estatura modal.

Estatura Frecuencias

(en pulgadas) n
i

[60 ⎯ 64) 7
[64 ⎯ 68) 11

[68 ⎯ 72) 6
[72 ⎯ 76) 4

28

Solución

La Clase Modal es [64 ⎯ 68), es la que presenta la mayor frecuencia. Luego I = 64 y S = 68 .

I + L 64 + 68
Mo = = = 66 .
2 2

Por tanto, la estatura modal es 66 pulgadas.

14
Unidad 4: Análisis Estadístico

4.3 Mediana

La mediana (Me) de un conjunto de valores, ordenados de manera creciente o decreciente, es el


valor situado de tal forma que separa el conjunto en dos subconjuntos del mismo número de
elementos. Dada la serie de valores: 5, 2, 6, 13, 9, 15, 10, ordenando de manera creciente queda:
2, 5, 6, 9, 10, 13, 15. El valor que divide la serie en dos partes iguales es 9, luego

Me = 9
4.3.1 Para datos no agrupados

Si la serie de datos tiene un número impar de términos la mediana será el término de orden
dado por la fórmula

Me = x N +1
2

donde N es el número total de observaciones.

Es decir, la mediana corresponde al valor localizado exactamente a la mitad de la serie de valores.

Calcular la mediana del siguiente conjunto de números:

1, 3, 0, 0, 2, 4, 1, 2, 5.

Solución

Ordenando la serie tenemos: 0, 0, 1, 1, 2, 2, 3, 4, 5. Luego, N = 9 y

Me = x N +1 = x9 +1 = x5 = 2 .
2 2

Es decir, el valor localizado exactamente a la mitad de la serie de números es 2.

Si la serie de datos tiene un número par de términos la mediana será el promedio entre los
dos valores centrales y está expresado por la fórmula

xN + xN
+1
Me = 2 2

15
Unidad 4: Análisis Estadístico

Calcular la mediana del siguiente conjunto de números:

1, 3, 0, 0, 2, 4, 1, 3, 5, 6.

Solución

Ordenando la serie tenemos: 0, 0, 1, 1, 2, 3, 3, 4, 5, 6. Luego, N = 10 y

xN + xN
+1 x5 + x6 2 + 3 5
Me = 2 2
= = = = 2,5 .
2 2 2 2

Es decir, el promedio de los dos números que están a la mitad es 2,5.

4.3.2 Para datos agrupados

Sin intervalos de clase. En este caso es suficiente identificar la frecuencia acumulada


inmediatamente superior.

Cuando la sumatoria de las frecuencias es impar, la mediana será el valor de la variable cuya
frecuencia acumulada sea inmediatamente superior a

N +1
2

Cuando la sumatoria de las frecuencias es par, la mediana será el promedio de los valores de la
variable cuyas frecuencias acumuladas sean inmediatamente superiores a

N N
y +1
2 2

Dada la distribución de frecuencias de la Tabla, determinar la mediana.

16
Unidad 4: Análisis Estadístico

Edades (en años) Frecuencias Frecuencia acumulada


x n N
i i i

12 1 1

14 2 3

15 1 4
16 2 6

17 1 7

20 1 8

N N
Como la sumatoria de las frecuencias es par ( N = 8 ), determinamos y +1.
2 2

N 8 N 8
= = 4 cuya frecuencia acumulada inmediatamente superior es 4 y + 1 = + 1 = 5 cuya
2 2 2 2
frecuencia acumulada inmediatamente superior es 6.

Finalmente el promedio de los valores de la variable correspondientes a éstas frecuencias


acumuladas es

15 + 16
Me = = 15,5 .
2

5 MEDIDAS DE POSICIÓN
Las medidas de posición son valores que permiten dividir el conjunto de datos en partes
porcentuales iguales y se usan para clasificar una observación dentro de una población o muestra.
Las medidas de posición más usuales son los cuartiles, los deciles y los percentiles.

5.1 Cuartiles (Qn)

Son los valores que dividen una serie de datos en cuatro partes iguales.

Los cuartiles que se precisan para dividir la serie en cuatro partes iguales son tres: Q1 , Q2 y Q3 . El
cuartil 2 ( Q2 ) siempre será igual a la mediana.

Para datos no agrupados, el método más práctico consiste en el uso del principio de cálculo de
la mediana para los tres cuartiles.

Por ejemplo, para calcular los cuartiles de la serie: 5, 2, 6, 9, 10, 13, 15, lo primero que haremos es
ordenar los valores de manera creciente: 2, 5, 6, 9, 10, 13, 15. El valor que divide a la serie en dos

17
Unidad 4: Análisis Estadístico

partes iguales es 9, lo que significa que Me = Q2 = 9 . Ahora tenemos dos grupos de valores: 2, 5, 6
y 10, 13, 15. Para el cálculo de los cuartiles Q1 y Q3 , bastará calcular las medianas de los dos grupos
de valores. Así, la mediana de la serie: 2, 5, 6 es 5, o sea Q1 = 5 y la mediana de la serie: 10, 13, 15
es 13, o sea Q3 = 13 .

Calcular los cuartiles del conjunto de números:

6, 9,1, 1, 3, 5, 5, 7, 9, 2,10, 13.

Solución

Ordenando la serie tenemos: 1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13.

Calculamos Q2 que será la mediana de la serie 1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13:

5+6
Q2 = = 5,5 .
2

Calculamos Q1 que será la mediana de la serie 1, 1, 2, 3, 5, 5:

2+3
Q1 = = 2,5 .
2

Calculamos Q3 que será la mediana de la serie 6, 7, 9, 9, 10, 13:

9+9
Q3 = =9.
2

5.2 Deciles (Dn)

Los deciles son valores que dividen una serie en diez partes iguales.

Los deciles que se requieren para dividir la serie en diez partes iguales son 9: D 1, D2,…,D9. Además
se cumple que: D5 = Q2 = Me .

Para el cálculo de los deciles se utilizan principios similares al cálculo de la mediana. Para datos
agrupados es suficiente sustituir los valores en la fórmula del n-ésimo decil

n N
− Na
Dn = Linf CDn + 10  hCDn
niCDn

donde,

18
Unidad 4: Análisis Estadístico

Linf CDn es el límite inferior de la clase del decil deseado.

Na es la frecuencia acumulada creciente de la clase anterior a la clase


del decil deseado,

niCDn es la frecuencia simple de la clase del decil deseado y

hCDn es el ancho del intervalo de la clase del decil deseado.

5.3 Percentil o Centil (Pn)

Los percentiles o centiles son 99 valores que dividen una serie en 100 partes iguales. Denotamos
los percentiles por: P1, P2,…,P99.

Para el cálculo de los percentiles se utiliza principios similares al cálculo de la mediana. Para los
datos agrupados es suficiente sustituir los valores en la fórmula del n-ésimo percentil

n N
− Na
Pn = Linf CPn + 100  hCPn
niCPn

donde,
Linf CPn es el límite inferior de la clase del percentil deseado,

N a es la frecuencia acumulada creciente de la clase anterior a la clase del percentil

deseado,
niCPn es la frecuencia simple de la clase del percentil deseado y

hCPn es el ancho del intervalo de la clase del percentil deseado.

6 MEDIDAS DE DISPERSIÓN
Las medidas de dispersión, también llamados medidas de variabilidad, muestran la variabilidad
de los valores de una variable en torno a un valor de tendencia central (media o mediana).

Por ejemplo, consideremos los siguientes conjuntos de valores:

X = {3, 8, 12, 15, 3, 1}

Y = {6, 7, 8, 8, 7, 6}

Observamos que ambos tienen la misma media:

19
Unidad 4: Análisis Estadístico

3 + 8+12+15+3+1 42
x= = =7
6 6

6+7+8+8+7+6 42
y= = =7.
6 6

De acuerdo a estas medidas de posición, ambos tienen el mismo desempeño con una media de
7, sin embargo se puede observar que los valores del conjunto X tiene mayor variabilidad que el
conjunto Y, es decir, los valores del conjunto X están más dispersos que los de Y. Por ello las
medidas de dispersión complementan la información permitiendo una visión más completa de
los datos analizados.

6.1 Desviación Estándar

La desviación estándar (S) es la medida de dispersión que más se utiliza en la estadística. Cumple
las siguientes propiedades:

− Toma como valor de referencia la media aritmética del conjunto.


− El valor de la desviación estándar generalmente es positivo, nunca es negativo.
− El valor de la desviación estándar aumenta notablemente con uno o más valores atípicos.

6.1.1 Desviación Estándar para datos no agrupados

Para calcular la desviación estándar de una población se utiliza la siguiente fórmula:

S=
 (x − x )
i
2

.
N

Si trabajamos con datos de una muestra en el denominador en lugar de N utilizaremos N − 1


(denominado Factor de Corrección de Bessel), como se muestra en la siguiente expresión:

S=
 (x − x )
i
2

.
N −1

A menudo para facilitar su cálculo se suele utilizar versiones abreviadas de la fórmula de la


desviación estándar.

N  xi 2 − (  xi ) N  xi 2 − (  xi )
2 2

S= o S= , en el caso de una muestra.


N2 N ( N − 1)

6.1.2 Desviación Estándar para datos agrupados

Para una distribución de frecuencias utilizaremos la fórmula

S=
(x − x )
i
2
 ni
.
N

20
Unidad 4: Análisis Estadístico

Si trabajamos con una muestra, utilizaremos la fórmula con el factor de corrección de Bessel.

S=
(x − x )
i
2
 ni
.
N −1

Calcular la desviación estándar para del conjunto de números:

5, 7, 1, 2, 4.

Solución

Calculamos la media del conjunto.

5+7+1+2+4 19
x= = = 3,8 .
5 5

Los cuadrados de las diferencias ( xi − x )2 son:

( x1 − x )2 = (5 − 3,8)2 = 1, 44
( x2 − x ) 2 = (7 − 3,8) 2 = 10, 24
( x3 − x ) 2 = (1 − 3,8)2 = 7,84
( x4 − x ) 2 = (2 − 3,8) 2 = 3, 24
( x4 − x ) 2 = (4 − 3,8) 2 = 0, 04

Sumando estos valores:  (x − x )


i
2
= 22,8 .

Luego, la desviación estándar será:

S=
(x − x )
i
2

=
22,8
= 2,13 .
N 5

6.2 Varianza

La varianza (S2) es una medida de dispersión igual al cuadrado de la desviación estándar. Es una
medida de dispersión que toma como referencia el valor de la media aritmética del conjunto.

6.2.1 Varianza para datos no agrupados

Se utiliza la formula

21
Unidad 4: Análisis Estadístico

S2 =
 (x i − x )2
o S2 = 
( xi − x ) 2
, en el caso de una muestra.
N N −1

N  xi 2 − (  xi )
2

Las fórmulas alternativas para el cálculo de la varianza son: S =


2
o
N2
N  xi 2 − (  xi )
2

S =
2
, en el caso de una muestra.
N ( N − 1)

Calcular la varianza para del conjunto de números:

4, 5, 8 5.

Solución

Calculamos la media del conjunto.

4+5+8+5 22
x= = = 5,5 .
4 4

Los cuadrados de las diferencias ( xi − x )2 son:

( x1 − x ) 2 = (4 − 5,5) 2 = 2, 25
( x2 − x ) 2 = (5 − 5,5) 2 = 0, 25
( x3 − x ) 2 = (8 − 5,5) 2 = 6, 25
( x4 − x ) 2 = (5 − 5,5) 2 = 0, 25

Sumando estos valores: (x − x )i


2
=9.

Luego, la varianza será:

S2 =
 (x − x )
i
2

=
9
= 2, 25 .
N 4

6.2.2 Varianza para datos agrupados

Tendremos:

S2 =
 (xi − x ) 2  ni
o S2 = 
( xi − x ) 2  ni
, en el caso de una muestra.
N N −1

22
Unidad 4: Análisis Estadístico

N  xi 2  ni − (  xi ni )
2

Las fórmulas alternativas para el cálculo de la varianza son: S = 2


o
N2
N  xi 2  ni − (  xi  ni )
2

S =
2
, en el caso de una muestra.
N ( N − 1)

Dada la distribución de frecuencias, calcular la Varianza.

xi n
i

2 3
3 5

4 8

5 4

N=20

Solución

Agregando columnas para los cálculos adicionales, obtenemos:

xi n
i xi  ni xi 2  ni

2 3 6 12

3 5 15 45
4 8 32 128

5 4 20 100

N=20 x n i i = 73 x i
2
 ni = 285

Luego, aplicando la fórmula alternativa de la varianza tenemos,

N  xi 2  ni − (  xi ni ) 20(285) − ( 73)
2 2

S =
2
=
N2 202
S2 = 0,9275

23
Unidad 4: Análisis Estadístico

7 MEDIDAS DE FORMA
En una distribución de frecuencias, también es necesario conocer su forma geométrica. Las
medidas de forma permiten determinar la simetría o asimetría de una distribución y el grado de
apuntamiento o achatamiento de la misma. Estas características se valoran mediante diferentes
coeficientes que se describirán en esta sección.

Existen dos tipos de medidas de forma: las medidas de asimetría y las de curtosis.

7.1 Medidas de asimetría

Con estas medidas se pretende conocer si los valores se distribuyen de forma simétrica, o no, con
relación a un valor central.

Se dice que una distribución es simétrica cuando x = Me = Mo. Esto ocurre cuando la gráfica de
la curva de frecuencias tiene la forma que se muestra en la siguiente figura.

= Me = Mo

Existen tres situaciones distintas, en términos de asimetría, que una distribución puede presentar:

1) Distribución asimétrica a la derecha (o de asimetría positiva):


Moda < Mediana < Media.
2) Distribución asimétrica a la izquierda (o de asimetría negativa):
Media < Mediana < Moda.
3) Distribución simétrica:
Media = Mediana = Moda.

Gráficamente se puede observar las formas de las curvas en la Figura.

Simétrica Asimétrica Asimétrica


Simétrica positiva negativa

24
Unidad 4: Análisis Estadístico

Los coeficientes de asimetría son indicadores que permiten establecer el grado de simetría (o
asimetría) de una distribución. Hay tres maneras diferentes de determinar los coeficientes de
asimetría. Estas son:

− el coeficiente de Bowley,
− el coeficientes de asimetría de Pearson y
− el coeficiente de asimetría de Fisher.

7.2 Medidas de Curtosis

Estas medidas permiten analizar el grado de achatamiento de la curva de una distribución.

Estas medidas estudian la concentración del conjunto de valores en la zona de la media. Cuanto
mayor es la concentración en la zona central, mayor es su apuntamiento o, por el contrario, si la
concentración en esta zona central es baja, se dirá que la curva es curta o achatada.

Tenemos, entonces, las siguientes posibilidades:

− Distribución o curva leptocúrtica. Es una curva alta y afilada.


− Distribución o curva Platicúrtica. Es una curva más achatada. Su diseño se asemeja a
un plato volteado.
− Distribución o curva Mesocúrtica. O de curtosis media. Es una curva que no es muy
afilada ni muy achatada, sino al centro.

Distribución Distribución Distribución


leptocúrtica Platicúrtica Mesocúrtica

Los índices de curtosis son indicadores que permiten establecer el grado de achatamiento de una
distribución. Estas son:

− Coeficiente de Curtosis de Fisher (g2)


− Coeficiente de Curtosis percentílico (Kp)

25
Unidad 4: Análisis Estadístico

8 ANÁLISIS DE DATOS BIVARIADO

8.1 Diagrama de dispersión

Los diagramas de dispersión son una excelente herramienta que ayudan en la clasificación de la
relación entre dos variables cuantitativas.

Un diagrama de dispersión es una representación gráfica de la relación entre dos variables


cuantitativas. Es un tipo de diagrama que usa coordenadas cartesianas para mostrar valores de
dos variables para un conjunto de datos

Los diagramas de dispersión son muy útiles para mostrar tendencias lineales o no lineales,
regularidades fuertes o débiles y valores atípicos.

La relación entre las dos variables se denomina correlación. La correlación mide la intensidad de
una relación lineal entre dos variables cuantitativas. Así, la correlación puede clasificarse en
función de su:

1) forma, si es lineal o no lineal;


2) dirección, si es positiva o negativa y
3) fuerza, si es fuerte, moderada o débil.

8.1.1 Correlación lineal y no lineal

Si el diagrama de dispersión se ajusta razonablemente a la forma de una recta, entonces la


correlación entre las dos variables se puede llamar lineal. De lo contrario la correlación es no lineal.

Relación lineal

Relación no lineal

26
Unidad 4: Análisis Estadístico

8.1.2 Correlación positiva y negativa

Si una variable tiende a aumentar a medida que la otra variable crece, se dice que la correlación
entre de las dos variables es positiva.

Si una variable tiende a disminuir con el aumento de la otra, la correlación se dice que es negativa.

y y

Correlación positivax Correlación negativa


x

8.1.3 Fuerza de la correlación

Cuanto más estrecho es el camino, más fuerte es la correlación entre las dos variables.

y y y

x x x
Correlación fuerte Correlación moderada Correlación débil

La variable x representa el número de miembros de una familia y la variable y el dinero gastado


por mes en comestibles por seis familias de una comunidad.

x 2 2 3 4 1 5
y $95 $110 $118 $150 $85 $180

Construir un diagrama de dispersión y estudiar la correlación.

27
Unidad 4: Análisis Estadístico

Solución

$200
$180
$160
$140
$120
$100
y

$80
$60
$40
$20
$0
0 1 2 3 4 5 6
x

En este ejemplo, el diagrama muestra la existencia de una correlación positiva fuerte entre las
variables número de miembros de la familia y dinero gastado al mes en comestibles.

8.2 El coeficiente de correlación lineal (r)

El coeficiente de correlación lineal es otra forma de determinar cómo dos variables están
relacionadas. Este coeficiente, además de estudiar la relación, permite medir la fuerza de la
asociación lineal entre dos variables. El coeficiente de correlación lineal, también llamado
coeficiente de correlación de Pearson, proporciona una medida precisa de la fuerza de la
relación lineal entre dos variables.

8.2.1 Interpretación del coeficiente de correlación de Pearson

El símbolo del coeficiente de correlación de Pearson es r. Es un número entre −1 y 1. Una


correlación positiva (cuando r  0 ) indica que a medida que crece x, también crece y. Una
correlación negativa (cuando r  0 ) indica que a medida que crece x, decrece y.

Cuanto más se acerque el valor de r a −1 y 1, más fuerte será la asociación. Si r = 0, significa que
no existe ninguna asociación.

La siguiente tabla podría servir de guía para una correcta interpretación de los posibles valores
de r.

Valor de r Interpretación
0,00 a 0,19 Correlación muy débil
0,20 a 0,39 Correlación débil
0,40 a 0,69 Correlación moderada
0,70 a 0,89 Correlación fuerte
0,90 a 1,00 Correlación muy fuerte

28
Unidad 4: Análisis Estadístico

La siguiente figura muestra las correspondencias entre la forma del diagrama de dispersión y el
valor de r.

r =1 r = −1 r= 

Correlaciones perfectamente No existe correlación lineal


lineales

r = 0,8 r = − r= 

Correlación lineal No existe correlación


Correlación lineal
fuerte positiva fuerte negativa

8.2.2 Cálculo de r

Para una muestra, la correlación r entre las variables x e y está dada por:

1  xi − x   yi − y 
r=   
N − 1  Sx   S y 
.

donde

N es el número total de pares de datos de la muestra,

Sx es la desviación estándar de los valores de x,

S y es la desviación estándar de los valores de y,

x es la media de los valores de x,

y es la media de los valores de y.

Como la fórmula de correlación anteriormente presentada es un tanto compleja, habitualmente


se usa la siguiente formula:

29
Unidad 4: Análisis Estadístico

N  xi yi −  xi   yi
S xy
r= = i i i

Sx  S y     
2 2
 
 N  xi −   xi    N  yi −   yi  
2 2

 i  i    i  i  

donde,

r es el coeficiente de correlación y

N el número total de pares de datos en el conjunto.

Las calificaciones obtenidas por 5 estudiantes en algebra y trigonometría son como sigue:

Calificaciones de algebra (x) 3 1 2 3 1


Calificaciones de
trigonometría (y)
6 3 5 7 4

Calcular la el coeficiente de correlación de Pearson.

Solución

Agregando columnas para los cálculos adicionales, obtenemos:

xi y x y xi2 yi2
i i i

3 6 18 9 36

1 3 3 1 9
2 5 10 4 25
3 7 21 9 49

1 4 4 1 16

x
i
i = 10 y i
i = 25  x  yi = 56  x
i
i
i
2
i = 24 y
i
2
i = 135

Luego, las medias son:

x i
10
y i
25
x= i
= =2 y y= i
= = 5.
N 5 5 5

Finalmente, el coeficiente de correlación será:

30
Unidad 4: Análisis Estadístico

N  xi yi −  xi   yi
r= i i i

   
2
  
2

 N  xi −   xi    N  yi −   yi  
2 2

 i  i    i  i  
5(56) − (10)(25)
=
5(24) − (10 )2  5(135) − ( 25 )2 
  
= 0,95

La correlación entre las variables x e y es positiva fuerte.

Hay dos limitaciones importantes en el uso de r. En primer lugar, r mide la fuerza de asociación
lineal, no es apropiado para datos que no son lineales, por ejemplo, para datos cuyo diagrama de
dispersión presenta una forma cuadrática o exponencial.

En segundo lugar, los valores atípicos puede sesgar el valor de r. Consecuentemente, si un


conjunto de datos lineal contiene un valor atípico, r no es una medida fiable de la fuerza de esa
relación lineal.

31

También podría gustarte