Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad 4mod7
Unidad 4mod7
El Alto – Bolivia
2019
Unidad 4: Análisis Estadístico
Contenido
Pág
2.3 Tabla de distribución de frecuencias para variables cuantitativas para datos agrupados4
1 CONCEPTOS BÁSICOS
El término estadística proviene de la palabra Estado que fue originalmente utilizado para designar
el levantamiento de datos estatales para orientar la toma de decisiones.
Definición de estadística
La estadística es la rama de la matemática usado para la recolección, organización, resumen, análisis e
interpretación de un grupo de números u observaciones.
La estadística se divide en dos grandes áreas. Estas áreas son la estadística descriptiva y la
estadística inferencial.
Estadística descriptiva
La estadística descriptiva es parte de la estadística que tiene por objeto describir los datos observados.
Incluye: recolección, organización, resumen y presentación de datos.
Estadística inferencial
La estadística inferencial es parte de la estadística que tiene como objetivo obtener y generalizar los
resultados para una población a partir de una muestra, a través del cálculo de probabilidades. Incluye: hacer
inferencias, pruebas de hipótesis, determinación de relaciones y hacer predicciones.
La Estadística Inferencial se deriva de muestras, de observaciones hechas sólo acerca de una parte
de un conjunto grande de elementos. Esto implica que su análisis requiere de generalizaciones
que van más allá de los datos. La Estadística Inferencial investiga o analiza una población
partiendo de una muestra tomada.
1
Unidad 4: Análisis Estadístico
Representa datos que pueden ser agrupados dentro de una categoría cualitativa. La
representación de la DF es como sigue:
xi ni fi
n1
x1 n1 f1 =
n
n2
x2 n2 f2 =
n
nk
xk nk fk =
n
n 1
Donde:
xi : Variable en observación
f i : Frecuencias relativas
Solución
2
Unidad 4: Análisis Estadístico
xi ni fi
Boliviano 30 0,33
Peruano 22 0,24
Chileno 16 0,17
Argentino 24 0,26
92 1
Interpretación:
Representa datos que tienen un gran número de observaciones pero pocos distintos. La
representación de la DF es como sigue:
xi ni fi Ni Fi
n1
x1 n1 f1 = N1 = n1 F1 = f1
n
n2
x2 n2 f2 = N 2 = n1 + n2 F2 = f1 + f 2
n
nk
xk nk fk = N k = n1 + n2 + + nk Fk = f1 + f 2 + + fk
n
n 1
Donde:
f i : Frecuencias relativas
3
Unidad 4: Análisis Estadístico
4, 3, 3, 5, 6, 2, 5, 0, 5, 4, 5, 0, 2,3, 2, 2, 3, 6, 5, 0.
Solución
xi ni fi Ni Fi
0 3 0,15 3 0,15
2 4 0,20 7 0,35
3 4 0,20 11 0,55
4 2 0,10 13 0,65
5 5 0,25 18 0,90
6 2 0,10 20 1
20 1
Interpretación:
Representa datos que tienen un gran número de observaciones, siendo la mayoría de ellos
distintas. En esta tabla se agrupan los datos en subgrupos llamados clases. Para la construcción
de la TDF se debe seguir los siguientes pasos:
4
Unidad 4: Análisis Estadístico
1) Calcular el rango
Rango = Valor más grande de los datos − Valor más pequeño de los datos
R = xmáx − xmín
k= n
Rango
Ancho de clase =
Número de clases
R
Ci =
K
5
Unidad 4: Análisis Estadístico
Linf − Lsup ni fi Ni Fi
n1
[ L0 − L1 ) n1 f1 = N1 = n1 F1 = f1
n
n2
[ L1 − L2 ) n2 f2 = N 2 = n1 + n2 F2 = f1 + f 2
n
nk
[ Lk − Lk +1 ) nk fk = N k = n1 + n2 + + nk Fk = f1 + f 2 + + fk
n
n 1
Donde:
f i : Frecuencias relativas
6
Unidad 4: Análisis Estadístico
Solución
k = 30 5
61
Ci = 12
5
Luego, la DF será:
Linf − Lsup ni fi Ni Fi
[90 − 102) 2 0,07 2 0,07
[102 − 114) 6 0,20 8 0,27
[114 − 126) 6 0,20 14 0,47
[126 − 138) 11 0,37 25 0,84
[138 − 152) 5 0,17 30 1
30 1
Interpretación:
3 REPRESENTACIONES GRÁFICAS
En función de la naturaleza de los datos y de la forma en que estos se presentan existen varios
tipos de gráficos.
7
Unidad 4: Análisis Estadístico
x : Tipos de sangre.
xi ni fi
A 5 0,2
B 8 0,32
O 8 0,32
AB 4 0,16
25 1
Solución
9 8 8
8
7
6 5
Frecuenci 5 4
as 4
3
2
1
0
A B O AB
X
x : Tipo de sangre.
xi ni fi i = fi 360º
A 5 0,2 72º
B 8 0,32 115º
O 8 0,32 115º
AB 4 0,16 58º
25 1 360º
8
Unidad 4: Análisis Estadístico
Solución
AB A
4 5
O B
8 8
3.3 Histogramas
Es un gráfico que usa clases y barras para representar frecuencias. Se aplica en las DF para datos
agrupados.
Clases xi ni
[0 ⎯ 2) 1 3
[2 ⎯ 4) 3 6
[4 ⎯ 6) 5 9
[6 ⎯ 8) 7 7
[8 ⎯ 10) 9 3
28
Solución
10 9
9
8 7
7 6
6
5
ni
4 3 3
3
2
1 0
0
0 2 4 6 8 10
Clases
9
Unidad 4: Análisis Estadístico
Clases xi ni
[0 ⎯ 2) 1 3
[2 ⎯ 4) 3 9
[4 ⎯ 6) 5 36
[6 ⎯ 8) 7 34
[8 ⎯ 10) 9 12
94
Solución
Una curva de frecuencia es una curva continua que se ajusta a un histograma. La curva se obtiene
suavizando el polígono de frecuencias.
10
Unidad 4: Análisis Estadístico
Es el cociente de la suma de todos los valores del conjunto entre el número total de valores.
x i
x1 + x2 + ... + xN
x= i
=
N N
donde,
N el número de valores.
11
Unidad 4: Análisis Estadístico
Solución
10 + 14+13+15+16+18+12
x= = 14 .
7
Por tanto, la media de las edades es 14 años.
Como las frecuencias son números indicadores del número de ocurrencias de cada valor de la
variable, estos funcionan como factores de ponderación que nos permiten calcular la media
aritmética ponderada
xi ni xi ni
x1 n1 x1 n1
x2 n2 x2 n2
… … …
xk nk xk nk
N x n
i =1
i i
xn i i
x1n1 + x2 n2 + ... + xk nk
x= i =1
= .
N N
12
Unidad 4: Análisis Estadístico
xn i i
78
x= i =1
= = 2,3 .
N 34
4.2 Moda
La moda (Mo) es el valor que ocurre con mayor frecuencia en una serie de valores.
Para datos no agrupados la moda es fácil de reconocer, es suficiente buscar el valor que se repite
con mayor frecuencia. Para esto, es recomendable colocar los datos en orden ascendente o
descendente. Por ejemplo, en la serie: 4, 5, 6, 7, 7, 7, 11, 12 la moda es 7.
En la serie donde el valor modal no existe, decimos que la serie es amodal. Por ejemplo, la serie:
3, 7, 8, 9, 11 no presenta Moda. Ésta serie es amodal.
En otros casos, podemos tener series con dos o más valores modales. Por ejemplo, la serie: 2, 2,
2, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9 presenta tres modas: 2, 4 y 7. Es una serie multimodal.
Caso 1: Sin intervalos de clase. Una vez agrupados los datos es posible determinar
inmediatamente la moda. Basta observar el valor de la variable con mayor frecuencia.
13
Unidad 4: Análisis Estadístico
Solución
Caso 2: Con intervalos de clase. La clase que presenta la mayor frecuencia se denomina clase
modal. En este caso la moda es el valor dominante que está comprendido entre los límites de la
clase modal. El método más simple para el cálculo de la moda consiste en tomar el punto medio
de la clase modal. Es decir,
I +S
Mo = ,
2
Estatura Frecuencias
(en pulgadas) n
i
[60 ⎯ 64) 7
[64 ⎯ 68) 11
[68 ⎯ 72) 6
[72 ⎯ 76) 4
28
Solución
I + L 64 + 68
Mo = = = 66 .
2 2
14
Unidad 4: Análisis Estadístico
4.3 Mediana
Me = 9
4.3.1 Para datos no agrupados
Si la serie de datos tiene un número impar de términos la mediana será el término de orden
dado por la fórmula
Me = x N +1
2
1, 3, 0, 0, 2, 4, 1, 2, 5.
Solución
Me = x N +1 = x9 +1 = x5 = 2 .
2 2
Si la serie de datos tiene un número par de términos la mediana será el promedio entre los
dos valores centrales y está expresado por la fórmula
xN + xN
+1
Me = 2 2
15
Unidad 4: Análisis Estadístico
1, 3, 0, 0, 2, 4, 1, 3, 5, 6.
Solución
xN + xN
+1 x5 + x6 2 + 3 5
Me = 2 2
= = = = 2,5 .
2 2 2 2
Cuando la sumatoria de las frecuencias es impar, la mediana será el valor de la variable cuya
frecuencia acumulada sea inmediatamente superior a
N +1
2
Cuando la sumatoria de las frecuencias es par, la mediana será el promedio de los valores de la
variable cuyas frecuencias acumuladas sean inmediatamente superiores a
N N
y +1
2 2
16
Unidad 4: Análisis Estadístico
12 1 1
14 2 3
15 1 4
16 2 6
17 1 7
20 1 8
N N
Como la sumatoria de las frecuencias es par ( N = 8 ), determinamos y +1.
2 2
N 8 N 8
= = 4 cuya frecuencia acumulada inmediatamente superior es 4 y + 1 = + 1 = 5 cuya
2 2 2 2
frecuencia acumulada inmediatamente superior es 6.
15 + 16
Me = = 15,5 .
2
5 MEDIDAS DE POSICIÓN
Las medidas de posición son valores que permiten dividir el conjunto de datos en partes
porcentuales iguales y se usan para clasificar una observación dentro de una población o muestra.
Las medidas de posición más usuales son los cuartiles, los deciles y los percentiles.
Son los valores que dividen una serie de datos en cuatro partes iguales.
Los cuartiles que se precisan para dividir la serie en cuatro partes iguales son tres: Q1 , Q2 y Q3 . El
cuartil 2 ( Q2 ) siempre será igual a la mediana.
Para datos no agrupados, el método más práctico consiste en el uso del principio de cálculo de
la mediana para los tres cuartiles.
Por ejemplo, para calcular los cuartiles de la serie: 5, 2, 6, 9, 10, 13, 15, lo primero que haremos es
ordenar los valores de manera creciente: 2, 5, 6, 9, 10, 13, 15. El valor que divide a la serie en dos
17
Unidad 4: Análisis Estadístico
partes iguales es 9, lo que significa que Me = Q2 = 9 . Ahora tenemos dos grupos de valores: 2, 5, 6
y 10, 13, 15. Para el cálculo de los cuartiles Q1 y Q3 , bastará calcular las medianas de los dos grupos
de valores. Así, la mediana de la serie: 2, 5, 6 es 5, o sea Q1 = 5 y la mediana de la serie: 10, 13, 15
es 13, o sea Q3 = 13 .
Solución
5+6
Q2 = = 5,5 .
2
2+3
Q1 = = 2,5 .
2
9+9
Q3 = =9.
2
Los deciles son valores que dividen una serie en diez partes iguales.
Los deciles que se requieren para dividir la serie en diez partes iguales son 9: D 1, D2,…,D9. Además
se cumple que: D5 = Q2 = Me .
Para el cálculo de los deciles se utilizan principios similares al cálculo de la mediana. Para datos
agrupados es suficiente sustituir los valores en la fórmula del n-ésimo decil
n N
− Na
Dn = Linf CDn + 10 hCDn
niCDn
donde,
18
Unidad 4: Análisis Estadístico
Los percentiles o centiles son 99 valores que dividen una serie en 100 partes iguales. Denotamos
los percentiles por: P1, P2,…,P99.
Para el cálculo de los percentiles se utiliza principios similares al cálculo de la mediana. Para los
datos agrupados es suficiente sustituir los valores en la fórmula del n-ésimo percentil
n N
− Na
Pn = Linf CPn + 100 hCPn
niCPn
donde,
Linf CPn es el límite inferior de la clase del percentil deseado,
deseado,
niCPn es la frecuencia simple de la clase del percentil deseado y
6 MEDIDAS DE DISPERSIÓN
Las medidas de dispersión, también llamados medidas de variabilidad, muestran la variabilidad
de los valores de una variable en torno a un valor de tendencia central (media o mediana).
Y = {6, 7, 8, 8, 7, 6}
19
Unidad 4: Análisis Estadístico
3 + 8+12+15+3+1 42
x= = =7
6 6
6+7+8+8+7+6 42
y= = =7.
6 6
De acuerdo a estas medidas de posición, ambos tienen el mismo desempeño con una media de
7, sin embargo se puede observar que los valores del conjunto X tiene mayor variabilidad que el
conjunto Y, es decir, los valores del conjunto X están más dispersos que los de Y. Por ello las
medidas de dispersión complementan la información permitiendo una visión más completa de
los datos analizados.
La desviación estándar (S) es la medida de dispersión que más se utiliza en la estadística. Cumple
las siguientes propiedades:
S=
(x − x )
i
2
.
N
S=
(x − x )
i
2
.
N −1
N xi 2 − ( xi ) N xi 2 − ( xi )
2 2
S=
(x − x )
i
2
ni
.
N
20
Unidad 4: Análisis Estadístico
Si trabajamos con una muestra, utilizaremos la fórmula con el factor de corrección de Bessel.
S=
(x − x )
i
2
ni
.
N −1
5, 7, 1, 2, 4.
Solución
5+7+1+2+4 19
x= = = 3,8 .
5 5
( x1 − x )2 = (5 − 3,8)2 = 1, 44
( x2 − x ) 2 = (7 − 3,8) 2 = 10, 24
( x3 − x ) 2 = (1 − 3,8)2 = 7,84
( x4 − x ) 2 = (2 − 3,8) 2 = 3, 24
( x4 − x ) 2 = (4 − 3,8) 2 = 0, 04
S=
(x − x )
i
2
=
22,8
= 2,13 .
N 5
6.2 Varianza
La varianza (S2) es una medida de dispersión igual al cuadrado de la desviación estándar. Es una
medida de dispersión que toma como referencia el valor de la media aritmética del conjunto.
Se utiliza la formula
21
Unidad 4: Análisis Estadístico
S2 =
(x i − x )2
o S2 =
( xi − x ) 2
, en el caso de una muestra.
N N −1
N xi 2 − ( xi )
2
S =
2
, en el caso de una muestra.
N ( N − 1)
4, 5, 8 5.
Solución
4+5+8+5 22
x= = = 5,5 .
4 4
( x1 − x ) 2 = (4 − 5,5) 2 = 2, 25
( x2 − x ) 2 = (5 − 5,5) 2 = 0, 25
( x3 − x ) 2 = (8 − 5,5) 2 = 6, 25
( x4 − x ) 2 = (5 − 5,5) 2 = 0, 25
S2 =
(x − x )
i
2
=
9
= 2, 25 .
N 4
Tendremos:
S2 =
(xi − x ) 2 ni
o S2 =
( xi − x ) 2 ni
, en el caso de una muestra.
N N −1
22
Unidad 4: Análisis Estadístico
N xi 2 ni − ( xi ni )
2
S =
2
, en el caso de una muestra.
N ( N − 1)
xi n
i
2 3
3 5
4 8
5 4
N=20
Solución
xi n
i xi ni xi 2 ni
2 3 6 12
3 5 15 45
4 8 32 128
5 4 20 100
N=20 x n i i = 73 x i
2
ni = 285
N xi 2 ni − ( xi ni ) 20(285) − ( 73)
2 2
S =
2
=
N2 202
S2 = 0,9275
23
Unidad 4: Análisis Estadístico
7 MEDIDAS DE FORMA
En una distribución de frecuencias, también es necesario conocer su forma geométrica. Las
medidas de forma permiten determinar la simetría o asimetría de una distribución y el grado de
apuntamiento o achatamiento de la misma. Estas características se valoran mediante diferentes
coeficientes que se describirán en esta sección.
Existen dos tipos de medidas de forma: las medidas de asimetría y las de curtosis.
Con estas medidas se pretende conocer si los valores se distribuyen de forma simétrica, o no, con
relación a un valor central.
Se dice que una distribución es simétrica cuando x = Me = Mo. Esto ocurre cuando la gráfica de
la curva de frecuencias tiene la forma que se muestra en la siguiente figura.
= Me = Mo
Existen tres situaciones distintas, en términos de asimetría, que una distribución puede presentar:
24
Unidad 4: Análisis Estadístico
Los coeficientes de asimetría son indicadores que permiten establecer el grado de simetría (o
asimetría) de una distribución. Hay tres maneras diferentes de determinar los coeficientes de
asimetría. Estas son:
− el coeficiente de Bowley,
− el coeficientes de asimetría de Pearson y
− el coeficiente de asimetría de Fisher.
Estas medidas estudian la concentración del conjunto de valores en la zona de la media. Cuanto
mayor es la concentración en la zona central, mayor es su apuntamiento o, por el contrario, si la
concentración en esta zona central es baja, se dirá que la curva es curta o achatada.
Los índices de curtosis son indicadores que permiten establecer el grado de achatamiento de una
distribución. Estas son:
25
Unidad 4: Análisis Estadístico
Los diagramas de dispersión son una excelente herramienta que ayudan en la clasificación de la
relación entre dos variables cuantitativas.
Los diagramas de dispersión son muy útiles para mostrar tendencias lineales o no lineales,
regularidades fuertes o débiles y valores atípicos.
La relación entre las dos variables se denomina correlación. La correlación mide la intensidad de
una relación lineal entre dos variables cuantitativas. Así, la correlación puede clasificarse en
función de su:
Relación lineal
Relación no lineal
26
Unidad 4: Análisis Estadístico
Si una variable tiende a aumentar a medida que la otra variable crece, se dice que la correlación
entre de las dos variables es positiva.
Si una variable tiende a disminuir con el aumento de la otra, la correlación se dice que es negativa.
y y
Cuanto más estrecho es el camino, más fuerte es la correlación entre las dos variables.
y y y
x x x
Correlación fuerte Correlación moderada Correlación débil
x 2 2 3 4 1 5
y $95 $110 $118 $150 $85 $180
27
Unidad 4: Análisis Estadístico
Solución
$200
$180
$160
$140
$120
$100
y
$80
$60
$40
$20
$0
0 1 2 3 4 5 6
x
En este ejemplo, el diagrama muestra la existencia de una correlación positiva fuerte entre las
variables número de miembros de la familia y dinero gastado al mes en comestibles.
El coeficiente de correlación lineal es otra forma de determinar cómo dos variables están
relacionadas. Este coeficiente, además de estudiar la relación, permite medir la fuerza de la
asociación lineal entre dos variables. El coeficiente de correlación lineal, también llamado
coeficiente de correlación de Pearson, proporciona una medida precisa de la fuerza de la
relación lineal entre dos variables.
Cuanto más se acerque el valor de r a −1 y 1, más fuerte será la asociación. Si r = 0, significa que
no existe ninguna asociación.
La siguiente tabla podría servir de guía para una correcta interpretación de los posibles valores
de r.
Valor de r Interpretación
0,00 a 0,19 Correlación muy débil
0,20 a 0,39 Correlación débil
0,40 a 0,69 Correlación moderada
0,70 a 0,89 Correlación fuerte
0,90 a 1,00 Correlación muy fuerte
28
Unidad 4: Análisis Estadístico
La siguiente figura muestra las correspondencias entre la forma del diagrama de dispersión y el
valor de r.
r =1 r = −1 r=
r = 0,8 r = − r=
8.2.2 Cálculo de r
Para una muestra, la correlación r entre las variables x e y está dada por:
1 xi − x yi − y
r=
N − 1 Sx S y
.
donde
29
Unidad 4: Análisis Estadístico
N xi yi − xi yi
S xy
r= = i i i
Sx S y
2 2
N xi − xi N yi − yi
2 2
i i i i
donde,
r es el coeficiente de correlación y
Las calificaciones obtenidas por 5 estudiantes en algebra y trigonometría son como sigue:
Solución
xi y x y xi2 yi2
i i i
3 6 18 9 36
1 3 3 1 9
2 5 10 4 25
3 7 21 9 49
1 4 4 1 16
x
i
i = 10 y i
i = 25 x yi = 56 x
i
i
i
2
i = 24 y
i
2
i = 135
x i
10
y i
25
x= i
= =2 y y= i
= = 5.
N 5 5 5
30
Unidad 4: Análisis Estadístico
N xi yi − xi yi
r= i i i
2
2
N xi − xi N yi − yi
2 2
i i i i
5(56) − (10)(25)
=
5(24) − (10 )2 5(135) − ( 25 )2
= 0,95
Hay dos limitaciones importantes en el uso de r. En primer lugar, r mide la fuerza de asociación
lineal, no es apropiado para datos que no son lineales, por ejemplo, para datos cuyo diagrama de
dispersión presenta una forma cuadrática o exponencial.
31