Unidad 4mod7

Unidad 4: Análisis Estadístico
UNIDAD 4: ANALISIS ESTADÍSTICO
El Alto – Bolivia
2019
Contenido
Pág
1 CONCEPTOS BÁSICOS ......................................................................................................................................... 1
1.1 ¿Qué es la Estadística? ................................................................................................................................ 1
1.2 Estadística descriptiva e inferencial ....................................................................................................... 1
2 DISTRIBUCIÓN DE FRECUENCIAS (DF) .......................................................................................................... 2
2.1 Tabla de distribución de frecuencias para variables cualitativas ............................................... 2
2.2 Tabla de distribución de frecuencias para variables cuantitativas para datos no

agrupados .................................................................................................................................................................... 3
2.3 Tabla de distribución de frecuencias para variables cuantitativas para datos agrupados4
3 REPRESENTACIONES GRÁFICAS ...................................................................................................................... 7
3.1 Diagrama de barras ..................................................................................................................................... 7
3.2 Diagrama de torta ........................................................................................................................................ 8
3.3 Histogramas ................................................................................................................................................... 9
3.4 Polígono de frecuencias .......................................................................................................................... 10
3.5 Curva de frecuencia ................................................................................................................................... 10
4 MEDIDAS DE TENDENCIA CENTRAL ............................................................................................................ 11
4.1 Media aritmética ......................................................................................................................................... 11
4.1.1 Para datos no agrupados ............................................................................................................... 11
4.1.2 Para datos agrupados ..................................................................................................................... 12
4.2 Moda ............................................................................................................................................................... 13

4.3 Mediana ......................................................................................................................................................... 15
5 MEDIDAS DE POSICIÓN .................................................................................................................................... 17
5.1 Cuartiles (Qn) ................................................................................................................................................ 17
5.2 Deciles (Dn).................................................................................................................................................... 18
5.3 Percentil o Centil (Pn) ................................................................................................................................ 19
6 MEDIDAS DE DISPERSIÓN ............................................................................................................................... 19
6.1 Desviación Estándar .................................................................................................................................. 20
6.1.1 Desviación Estándar para datos no agrupados ..................................................................... 20
6.1.2 Desviación Estándar para datos agrupados ............................................................................ 20
6.2 Varianza ......................................................................................................................................................... 21
6.2.1 Varianza para datos no agrupados ............................................................................................ 21
6.2.2 Varianza para datos agrupados ................................................................................................... 22
7 MEDIDAS DE FORMA ......................................................................................................................................... 24
7.1 Medidas de asimetría ............................................................................................................................... 24
7.2 Medidas de Curtosis.................................................................................................................................. 25
8 ANÁLISIS DE DATOS BIVARIADO .................................................................................................................. 26
8.1 Diagrama de dispersión ........................................................................................................................... 26
8.1.1 Correlación lineal y no lineal ......................................................................................................... 26
8.1.2 Correlación positiva y negativa .................................................................................................... 27
8.1.3 Fuerza de la correlación .................................................................................................................. 27
8.2 El coeficiente de correlación lineal (r) ................................................................................................. 28

8.2.1 Interpretación del coeficiente de correlación de Pearson ................................................. 28
8.2.2 Cálculo de r.......................................................................................................................................... 29

1 CONCEPTOS BÁSICOS
1.1 ¿Qué es la Estadística?
El término estadística proviene de la palabra Estado que fue originalmente utilizado para designar
el levantamiento de datos estatales para orientar la toma de decisiones.
Definición de estadística
La estadística es la rama de la matemática usado para la recolección, organización, resumen, análisis e
interpretación de un grupo de números u observaciones.
1.2 Estadística descriptiva e inferencial
La estadística se divide en dos grandes áreas. Estas áreas son la estadística descriptiva y la
estadística inferencial.
Estadística descriptiva
La estadística descriptiva es parte de la estadística que tiene por objeto describir los datos observados.
Incluye: recolección, organización, resumen y presentación de datos.
La estadística descriptiva, cuya función es la descripción de datos, tiene las siguientes

responsabilidades:
• la obtención y recolección de datos,

• la organización de estos datos,
• la reducción y
• la presentación de datos.
La estadística descriptiva se utiliza para obtener información como medias, proporciones,

dispersiones, tendencias, índices, tasas, coeficientes, que facilitan la descripción de los fenómenos
observados.
Estadística inferencial
La estadística inferencial es parte de la estadística que tiene como objetivo obtener y generalizar los
resultados para una población a partir de una muestra, a través del cálculo de probabilidades. Incluye: hacer
inferencias, pruebas de hipótesis, determinación de relaciones y hacer predicciones.
La inferencia estadística es una técnica mediante la cual se obtienen generalizaciones o se toman

decisiones en base a una información parcial o completa obtenida mediante técnicas descriptivas.
La Estadística Inferencial se deriva de muestras, de observaciones hechas sólo acerca de una parte
de un conjunto grande de elementos. Esto implica que su análisis requiere de generalizaciones
que van más allá de los datos. La Estadística Inferencial investiga o analiza una población
partiendo de una muestra tomada.
1
2 DISTRIBUCIÓN DE FRECUENCIAS (DF)

Es una representación organizada de los datos en forma tabular, usando clases (o intervalos) y
frecuencias.
La frecuencia de un valor de dato es el número de veces que ocurre el dato en el conjunto de

datos.
2.1 Tabla de distribución de frecuencias para variables cualitativas
Representa datos que pueden ser agrupados dentro de una categoría cualitativa. La
representación de la DF es como sigue:
xi ni fi
n1
x1 n1 f1 =
n
n2
x2 n2 f2 =
n
nk
xk nk fk =
n
n 1
Donde:
n : Número total de observaciones
xi : Variable en observación
ni : Frecuencias absolutas (número de veces que se repite xi )
f i : Frecuencias relativas
En una encuesta a 92 personas sobre su nacionalidad se determinó que 30 eran bolivianos, 22

peruanos, 16 chilenos y 24 argentinos. Representar estos datos en una DF.
Solución
x : Nacionalidad de un conjunto de individuos
2
xi ni fi
Boliviano 30 0,33
Peruano 22 0,24
Chileno 16 0,17
Argentino 24 0,26
92 1
Interpretación:
n3 : 16 personas encuestadas eran chilenos.
f1 : 33% de las personas encuestadas eran bolivianos.
2.2 Tabla de distribución de frecuencias para variables cuantitativas

para datos no agrupados
Representa datos que tienen un gran número de observaciones pero pocos distintos. La
representación de la DF es como sigue:
xi ni fi Ni Fi
n1
x1 n1 f1 = N1 = n1 F1 = f1
n
n2
x2 n2 f2 = N 2 = n1 + n2 F2 = f1 + f 2
n
nk
xk nk fk = N k = n1 + n2 + + nk Fk = f1 + f 2 + + fk
n
n 1
Donde:

xi : Variable en observación
N i : Frecuencias absolutas acumuladas
Fi : Frecuencias relativas acumuladas
3
Las notas de matemáticas de una clase son:
4, 3, 3, 5, 6, 2, 5, 0, 5, 4, 5, 0, 2,3, 2, 2, 3, 6, 5, 0.
Representar estos datos en una DF.
Solución
x : Notas de una clase de matemáticas
xi ni fi Ni Fi
0 3 0,15 3 0,15
2 4 0,20 7 0,35
3 4 0,20 11 0,55
4 2 0,10 13 0,65
5 5 0,25 18 0,90
6 2 0,10 20 1
20 1
Interpretación:
n2 : 4 estudiantes obtuvieron una nota de 2 puntos.

f5 : 25%de estudiantes obtuvieron una nota de 5 puntos.
N 3 : 11 estudiantes obtuvieron una nota de 0 a 3 puntos.
F4 : 65% de estudiantes obtuvieron una nota de 0 a 4 puntos.
2.3 Tabla de distribución de frecuencias para variables cuantitativas

para datos agrupados
Representa datos que tienen un gran número de observaciones, siendo la mayoría de ellos
distintas. En esta tabla se agrupan los datos en subgrupos llamados clases. Para la construcción
de la TDF se debe seguir los siguientes pasos:
4
1) Calcular el rango
Rango = Valor más grande de los datos − Valor más pequeño de los datos
R = xmáx − xmín
2) Calcular del número de clases
Número de clases = Número total de observaciones
k= n
3) Calcular el ancho de clase
Rango
Ancho de clase =
Número de clases
R
Ci =
K
Ci debe ser un valor entero.
4) Calcular de los límites de clase. Una clase tiene la forma:

Linf − Lsup
Donde: Linf es el límite inferior
Lsup es el límite superior.
• Para la primera clase, Linf es el valor más pequeño de los datos y

Lsup es el límite inferior sumado el ancho de clase.
• Para las demás clases, Linf es el límite superior de la anterior clase y
Lsup es el límite inferior sumado el ancho de clase.
5) Calcular la frecuencia absoluta. La frecuencia absoluta corresponde al
número de observaciones cuyos valores se encuentran en el intervalo
[ Linf − Lsup ) .
6) Calcular la frecuencia relativa, la frecuencia absoluta acumulada y la
frecuencia relativa acumulada.
5
La representación de la DF es como sigue:
Linf − Lsup ni fi Ni Fi
n1
[ L0 − L1 ) n1 f1 = N1 = n1 F1 = f1
n
n2
[ L1 − L2 ) n2 f2 = N 2 = n1 + n2 F2 = f1 + f 2
n
nk
[ Lk − Lk +1 ) nk fk = N k = n1 + n2 + + nk Fk = f1 + f 2 + + fk
n
n 1
Donde:
Linf − Lsup : Intervalo de clase

N i : Frecuencias absolutas acumuladas
Fi : Frecuencias relativas acumuladas
Los pesos en libras de 30 postulantes a la Academia de Policía son:
143 151 136 127 132 132
126 138 119 104 113 90
126 123 121 133 104 99
112 129 107 139 122 137
112 121 140 134 133 123.
Representar estos datos en una DF.
6
Solución
x : Pesos de postulantes a la Academia de Policías
R = xmáx − xmín = 151 − 90 = 61
k = 30  5
61
Ci =  12
5
Luego, la DF será:
Linf − Lsup ni fi Ni Fi
[90 − 102) 2 0,07 2 0,07
[102 − 114) 6 0,20 8 0,27
[114 − 126) 6 0,20 14 0,47
[126 − 138) 11 0,37 25 0,84
[138 − 152) 5 0,17 30 1
30 1
Interpretación:
n4 : 11 postulantes pesan entre 126 y 137 libras.
f1 : 7% de los postulantes pesan entre 90 y 101 libras.
N 2 : 8 postulantes pesan entre 90 y 113 libras.
F3 : 47% de los postulantes pesan entre 90 y 125 libras.
3 REPRESENTACIONES GRÁFICAS
En función de la naturaleza de los datos y de la forma en que estos se presentan existen varios
tipos de gráficos.
3.1 Diagrama de barras
Es un gráfico que usa barras verticales u horizontales para representar frecuencias
Dada la DF, construir una gráfica de barras.
7
x : Tipos de sangre.
xi ni fi
A 5 0,2
B 8 0,32
O 8 0,32
AB 4 0,16
25 1
Solución
9 8 8
8
7
6 5
Frecuenci 5 4
as 4
3
2
1
0
A B O AB
X
3.2 Diagrama de torta
También llamado diagrama de sectores circulares, consiste en un círculo dividido en trozos de

acuerdo a porcentajes.
Dada la TDF, construir un diagrama de torta.
x : Tipo de sangre.
xi ni fi  i = fi  360º
A 5 0,2 72º
B 8 0,32 115º
O 8 0,32 115º
AB 4 0,16 58º
25 1 360º
8
Solución
AB A
4 5
O B
8 8
3.3 Histogramas
Es un gráfico que usa clases y barras para representar frecuencias. Se aplica en las DF para datos
agrupados.
Dada la DF, construir un histograma.
Clases xi ni
[0 ⎯ 2) 1 3
[2 ⎯ 4) 3 6
[4 ⎯ 6) 5 9
[6 ⎯ 8) 7 7
[8 ⎯ 10) 9 3
28
Solución
10 9
9
8 7
7 6
6
5
ni
4 3 3
3
2
1 0
0
0 2 4 6 8 10
Clases
9
3.4 Polígono de frecuencias
Es un gráfico de línea que representa una distribución de frecuencias. El polígono de frecuencias

se traza uniendo las partes superiores de las barras correspondientes a los puntos medios de los
intervalos de clase. El polígono de frecuencias es particularmente útil cuando se desea comparar
dos o más distribuciones en un mismo gráfico.
Dada la distribución de frecuencias, construir el polígono de frecuencias absolutas.
Clases xi ni
[0 ⎯ 2) 1 3
[2 ⎯ 4) 3 9
[4 ⎯ 6) 5 36
[6 ⎯ 8) 7 34
[8 ⎯ 10) 9 12
94
Solución
3.5 Curva de frecuencia
Una curva de frecuencia es una curva continua que se ajusta a un histograma. La curva se obtiene
suavizando el polígono de frecuencias.
10
Curva de frecuencias aproximada de un histograma
4 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central, también llamadas medidas de posición, son valores numéricos
que ubican el centro de la distribución de los datos observados. Las medidas de tendencia central
que se discutirán aquí son: la media aritmética, la media geométrica, la media armónica, la moda
y la mediana.
4.1 Media aritmética

4.1.1 Para datos no agrupados
Es el cociente de la suma de todos los valores del conjunto entre el número total de valores.
x i
x1 + x2 + ... + xN
x= i
=
N N
donde,
x es la media del conjunto de valores,
xi son los valores de la variable y
N el número de valores.
Las edades en años de un grupo de 7 estudiantes son:
10, 14, 13, 15, 16, 18 y 12.
Determinar la media aritmética.
11
Solución
10 + 14+13+15+16+18+12
x= = 14 .
7
Por tanto, la media de las edades es 14 años.
4.1.2 Para datos agrupados
Como las frecuencias son números indicadores del número de ocurrencias de cada valor de la
variable, estos funcionan como factores de ponderación que nos permiten calcular la media
aritmética ponderada
Considerando la distribución de frecuencias de la Tabla
xi ni xi  ni
x1 n1 x1  n1
x2 n2 x2  n2
… … …
xk nk xk  nk
N x n
i =1
i i
La media aritmética estará dada por:
xn i i
x1n1 + x2 n2 + ... + xk nk
x= i =1
= .
N N
Dada la distribución de frecuencias del número de hijos de 34 familias, determinar la media

aritmética.
Número de hijos Número de familias

n
xi  ni
xi i
0 2 0
1 6 6
2 10 20
3 12 36
4 4 16
k
N = 34 xn
i =1
i i = 78
12
Sustituyendo valores en la fórmula de la media obtenemos:
xn i i
78
x= i =1
= = 2,3 .
N 34
Por tanto, las 34 familias tienen una media de 2,3 hijos.
4.2 Moda
La moda (Mo) es el valor que ocurre con mayor frecuencia en una serie de valores.
Para datos no agrupados la moda es fácil de reconocer, es suficiente buscar el valor que se repite
con mayor frecuencia. Para esto, es recomendable colocar los datos en orden ascendente o
descendente. Por ejemplo, en la serie: 4, 5, 6, 7, 7, 7, 11, 12 la moda es 7.
En la serie donde el valor modal no existe, decimos que la serie es amodal. Por ejemplo, la serie:
3, 7, 8, 9, 11 no presenta Moda. Ésta serie es amodal.
En otros casos, podemos tener series con dos o más valores modales. Por ejemplo, la serie: 2, 2,
2, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9 presenta tres modas: 2, 4 y 7. Es una serie multimodal.
Caso 1: Sin intervalos de clase. Una vez agrupados los datos es posible determinar
inmediatamente la moda. Basta observar el valor de la variable con mayor frecuencia.
La distribución de frecuencias de las temperaturas medias de 28 ciudades se muestra en la Tabla.

Determinar la moda.
Temperaturas (en °C) Frecuencias

xi n
i
0° 3
1° 8
2° 10
3° 6
4° 1
28
13
Solución
La temperatura con mayor frecuencia es 2 ° C, por tanto, la Temperatura Modal es 2°C.
Caso 2: Con intervalos de clase. La clase que presenta la mayor frecuencia se denomina clase
modal. En este caso la moda es el valor dominante que está comprendido entre los límites de la
clase modal. El método más simple para el cálculo de la moda consiste en tomar el punto medio
de la clase modal. Es decir,
I +S
Mo = ,
2
donde, I es el límite inferior de la clase modal y
S es el límite superior de la clase modal.
Dada la distribución de frecuencias de la Tabla , determinar la estatura modal.
Estatura Frecuencias
(en pulgadas) n
i
[60 ⎯ 64) 7
[64 ⎯ 68) 11
[68 ⎯ 72) 6
[72 ⎯ 76) 4
28
Solución
La Clase Modal es [64 ⎯ 68), es la que presenta la mayor frecuencia. Luego I = 64 y S = 68 .
I + L 64 + 68
Mo = = = 66 .
2 2
Por tanto, la estatura modal es 66 pulgadas.
14
4.3 Mediana
La mediana (Me) de un conjunto de valores, ordenados de manera creciente o decreciente, es el

valor situado de tal forma que separa el conjunto en dos subconjuntos del mismo número de
elementos. Dada la serie de valores: 5, 2, 6, 13, 9, 15, 10, ordenando de manera creciente queda:
2, 5, 6, 9, 10, 13, 15. El valor que divide la serie en dos partes iguales es 9, luego
Me = 9
Si la serie de datos tiene un número impar de términos la mediana será el término de orden
dado por la fórmula
Me = x N +1
2
donde N es el número total de observaciones.
Es decir, la mediana corresponde al valor localizado exactamente a la mitad de la serie de valores.
Calcular la mediana del siguiente conjunto de números:
1, 3, 0, 0, 2, 4, 1, 2, 5.
Solución
Ordenando la serie tenemos: 0, 0, 1, 1, 2, 2, 3, 4, 5. Luego, N = 9 y
Me = x N +1 = x9 +1 = x5 = 2 .
2 2
Es decir, el valor localizado exactamente a la mitad de la serie de números es 2.
Si la serie de datos tiene un número par de términos la mediana será el promedio entre los
dos valores centrales y está expresado por la fórmula
xN + xN
+1
Me = 2 2
15
Calcular la mediana del siguiente conjunto de números:
1, 3, 0, 0, 2, 4, 1, 3, 5, 6.
Solución
Ordenando la serie tenemos: 0, 0, 1, 1, 2, 3, 3, 4, 5, 6. Luego, N = 10 y
xN + xN
+1 x5 + x6 2 + 3 5
Me = 2 2
= = = = 2,5 .
2 2 2 2
Es decir, el promedio de los dos números que están a la mitad es 2,5.
Sin intervalos de clase. En este caso es suficiente identificar la frecuencia acumulada

inmediatamente superior.
Cuando la sumatoria de las frecuencias es impar, la mediana será el valor de la variable cuya
frecuencia acumulada sea inmediatamente superior a
N +1
2
Cuando la sumatoria de las frecuencias es par, la mediana será el promedio de los valores de la
variable cuyas frecuencias acumuladas sean inmediatamente superiores a
N N
y +1
2 2
Dada la distribución de frecuencias de la Tabla, determinar la mediana.
16
Edades (en años) Frecuencias Frecuencia acumulada

x n N
i i i
12 1 1
14 2 3
15 1 4
16 2 6
17 1 7
20 1 8
N N
Como la sumatoria de las frecuencias es par ( N = 8 ), determinamos y +1.
2 2
N 8 N 8
= = 4 cuya frecuencia acumulada inmediatamente superior es 4 y + 1 = + 1 = 5 cuya
2 2 2 2
frecuencia acumulada inmediatamente superior es 6.
Finalmente el promedio de los valores de la variable correspondientes a éstas frecuencias

acumuladas es
15 + 16
Me = = 15,5 .
2
5 MEDIDAS DE POSICIÓN
Las medidas de posición son valores que permiten dividir el conjunto de datos en partes
porcentuales iguales y se usan para clasificar una observación dentro de una población o muestra.
Las medidas de posición más usuales son los cuartiles, los deciles y los percentiles.
5.1 Cuartiles (Qn)
Son los valores que dividen una serie de datos en cuatro partes iguales.
Los cuartiles que se precisan para dividir la serie en cuatro partes iguales son tres: Q1 , Q2 y Q3 . El
cuartil 2 ( Q2 ) siempre será igual a la mediana.
Para datos no agrupados, el método más práctico consiste en el uso del principio de cálculo de
la mediana para los tres cuartiles.
Por ejemplo, para calcular los cuartiles de la serie: 5, 2, 6, 9, 10, 13, 15, lo primero que haremos es
ordenar los valores de manera creciente: 2, 5, 6, 9, 10, 13, 15. El valor que divide a la serie en dos
17
partes iguales es 9, lo que significa que Me = Q2 = 9 . Ahora tenemos dos grupos de valores: 2, 5, 6
y 10, 13, 15. Para el cálculo de los cuartiles Q1 y Q3 , bastará calcular las medianas de los dos grupos
de valores. Así, la mediana de la serie: 2, 5, 6 es 5, o sea Q1 = 5 y la mediana de la serie: 10, 13, 15
es 13, o sea Q3 = 13 .
Calcular los cuartiles del conjunto de números:
6, 9,1, 1, 3, 5, 5, 7, 9, 2,10, 13.
Solución
Ordenando la serie tenemos: 1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13.
Calculamos Q2 que será la mediana de la serie 1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13:
5+6
Q2 = = 5,5 .
2
Calculamos Q1 que será la mediana de la serie 1, 1, 2, 3, 5, 5:
2+3
Q1 = = 2,5 .
2
Calculamos Q3 que será la mediana de la serie 6, 7, 9, 9, 10, 13:
9+9
Q3 = =9.
2
5.2 Deciles (Dn)
Los deciles son valores que dividen una serie en diez partes iguales.
Los deciles que se requieren para dividir la serie en diez partes iguales son 9: D 1, D2,…,D9. Además
se cumple que: D5 = Q2 = Me .
Para el cálculo de los deciles se utilizan principios similares al cálculo de la mediana. Para datos
agrupados es suficiente sustituir los valores en la fórmula del n-ésimo decil
n N
− Na
Dn = Linf CDn + 10  hCDn
niCDn
donde,
18
Linf CDn es el límite inferior de la clase del decil deseado.
Na es la frecuencia acumulada creciente de la clase anterior a la clase

del decil deseado,
niCDn es la frecuencia simple de la clase del decil deseado y
hCDn es el ancho del intervalo de la clase del decil deseado.
5.3 Percentil o Centil (Pn)
Los percentiles o centiles son 99 valores que dividen una serie en 100 partes iguales. Denotamos
los percentiles por: P1, P2,…,P99.
Para el cálculo de los percentiles se utiliza principios similares al cálculo de la mediana. Para los
datos agrupados es suficiente sustituir los valores en la fórmula del n-ésimo percentil
n N
− Na
Pn = Linf CPn + 100  hCPn
niCPn
donde,
Linf CPn es el límite inferior de la clase del percentil deseado,
N a es la frecuencia acumulada creciente de la clase anterior a la clase del percentil
deseado,
niCPn es la frecuencia simple de la clase del percentil deseado y
hCPn es el ancho del intervalo de la clase del percentil deseado.
6 MEDIDAS DE DISPERSIÓN
Las medidas de dispersión, también llamados medidas de variabilidad, muestran la variabilidad
de los valores de una variable en torno a un valor de tendencia central (media o mediana).
Por ejemplo, consideremos los siguientes conjuntos de valores:
X = {3, 8, 12, 15, 3, 1}
Y = {6, 7, 8, 8, 7, 6}
Observamos que ambos tienen la misma media:
19
3 + 8+12+15+3+1 42
x= = =7
6 6
6+7+8+8+7+6 42
y= = =7.
6 6
De acuerdo a estas medidas de posición, ambos tienen el mismo desempeño con una media de
7, sin embargo se puede observar que los valores del conjunto X tiene mayor variabilidad que el
conjunto Y, es decir, los valores del conjunto X están más dispersos que los de Y. Por ello las
medidas de dispersión complementan la información permitiendo una visión más completa de
los datos analizados.
6.1 Desviación Estándar
La desviación estándar (S) es la medida de dispersión que más se utiliza en la estadística. Cumple
las siguientes propiedades:
− Toma como valor de referencia la media aritmética del conjunto.

− El valor de la desviación estándar generalmente es positivo, nunca es negativo.
− El valor de la desviación estándar aumenta notablemente con uno o más valores atípicos.
6.1.1 Desviación Estándar para datos no agrupados
Para calcular la desviación estándar de una población se utiliza la siguiente fórmula:
S=
 (x − x )
i
2
.
N
Si trabajamos con datos de una muestra en el denominador en lugar de N utilizaremos N − 1

(denominado Factor de Corrección de Bessel), como se muestra en la siguiente expresión:
S=
 (x − x )
i
2
.
N −1
A menudo para facilitar su cálculo se suele utilizar versiones abreviadas de la fórmula de la

desviación estándar.
N  xi 2 − (  xi ) N  xi 2 − (  xi )
2 2
S= o S= , en el caso de una muestra.

N2 N ( N − 1)
6.1.2 Desviación Estándar para datos agrupados
Para una distribución de frecuencias utilizaremos la fórmula
S=
(x − x )
i
2
 ni
.
N
20
Si trabajamos con una muestra, utilizaremos la fórmula con el factor de corrección de Bessel.
S=
(x − x )
i
2
 ni
.
N −1
Calcular la desviación estándar para del conjunto de números:
5, 7, 1, 2, 4.
Solución
Calculamos la media del conjunto.
5+7+1+2+4 19
x= = = 3,8 .
5 5
Los cuadrados de las diferencias ( xi − x )2 son:
( x1 − x )2 = (5 − 3,8)2 = 1, 44
( x2 − x ) 2 = (7 − 3,8) 2 = 10, 24
( x3 − x ) 2 = (1 − 3,8)2 = 7,84
( x4 − x ) 2 = (2 − 3,8) 2 = 3, 24
( x4 − x ) 2 = (4 − 3,8) 2 = 0, 04
Sumando estos valores:  (x − x )

i
2
= 22,8 .
Luego, la desviación estándar será:
S=
(x − x )
i
2
=
22,8
= 2,13 .
N 5
6.2 Varianza
La varianza (S2) es una medida de dispersión igual al cuadrado de la desviación estándar. Es una
medida de dispersión que toma como referencia el valor de la media aritmética del conjunto.
6.2.1 Varianza para datos no agrupados
Se utiliza la formula
21
S2 =
 (x i − x )2
o S2 = 
( xi − x ) 2
, en el caso de una muestra.
N N −1
N  xi 2 − (  xi )
2
Las fórmulas alternativas para el cálculo de la varianza son: S =

2
o
N2
N  xi 2 − (  xi )
2
S =
2
N ( N − 1)
Calcular la varianza para del conjunto de números:
4, 5, 8 5.
Solución
Calculamos la media del conjunto.
4+5+8+5 22
x= = = 5,5 .
4 4
Los cuadrados de las diferencias ( xi − x )2 son:
( x1 − x ) 2 = (4 − 5,5) 2 = 2, 25
( x2 − x ) 2 = (5 − 5,5) 2 = 0, 25
( x3 − x ) 2 = (8 − 5,5) 2 = 6, 25
( x4 − x ) 2 = (5 − 5,5) 2 = 0, 25
Sumando estos valores: (x − x )i

2
=9.
Luego, la varianza será:
S2 =
 (x − x )
i
2
=
9
= 2, 25 .
N 4
6.2.2 Varianza para datos agrupados
Tendremos:
S2 =
 (xi − x ) 2  ni
o S2 = 
( xi − x ) 2  ni
N N −1
22
N  xi 2  ni − (  xi ni )
2
Las fórmulas alternativas para el cálculo de la varianza son: S = 2

o
N2
N  xi 2  ni − (  xi  ni )
2
S =
2
N ( N − 1)
Dada la distribución de frecuencias, calcular la Varianza.
xi n
i
2 3
3 5
4 8
5 4
N=20
Solución
Agregando columnas para los cálculos adicionales, obtenemos:
xi n
i xi  ni xi 2  ni
2 3 6 12
3 5 15 45
4 8 32 128
5 4 20 100
N=20 x n i i = 73 x i
2
 ni = 285
Luego, aplicando la fórmula alternativa de la varianza tenemos,
N  xi 2  ni − (  xi ni ) 20(285) − ( 73)
2 2
S =
2
=
N2 202
S2 = 0,9275
23
7 MEDIDAS DE FORMA
En una distribución de frecuencias, también es necesario conocer su forma geométrica. Las
medidas de forma permiten determinar la simetría o asimetría de una distribución y el grado de
apuntamiento o achatamiento de la misma. Estas características se valoran mediante diferentes
coeficientes que se describirán en esta sección.
Existen dos tipos de medidas de forma: las medidas de asimetría y las de curtosis.
7.1 Medidas de asimetría
Con estas medidas se pretende conocer si los valores se distribuyen de forma simétrica, o no, con
relación a un valor central.
Se dice que una distribución es simétrica cuando x = Me = Mo. Esto ocurre cuando la gráfica de
la curva de frecuencias tiene la forma que se muestra en la siguiente figura.
= Me = Mo
Existen tres situaciones distintas, en términos de asimetría, que una distribución puede presentar:
1) Distribución asimétrica a la derecha (o de asimetría positiva):

Moda < Mediana < Media.
2) Distribución asimétrica a la izquierda (o de asimetría negativa):
Media < Mediana < Moda.
3) Distribución simétrica:
Media = Mediana = Moda.
Gráficamente se puede observar las formas de las curvas en la Figura.
Simétrica Asimétrica Asimétrica

Simétrica positiva negativa
24
Los coeficientes de asimetría son indicadores que permiten establecer el grado de simetría (o
asimetría) de una distribución. Hay tres maneras diferentes de determinar los coeficientes de
asimetría. Estas son:
− el coeficiente de Bowley,
− el coeficientes de asimetría de Pearson y
− el coeficiente de asimetría de Fisher.
7.2 Medidas de Curtosis
Estas medidas permiten analizar el grado de achatamiento de la curva de una distribución.
Estas medidas estudian la concentración del conjunto de valores en la zona de la media. Cuanto
mayor es la concentración en la zona central, mayor es su apuntamiento o, por el contrario, si la
concentración en esta zona central es baja, se dirá que la curva es curta o achatada.
Tenemos, entonces, las siguientes posibilidades:
− Distribución o curva leptocúrtica. Es una curva alta y afilada.

− Distribución o curva Platicúrtica. Es una curva más achatada. Su diseño se asemeja a
un plato volteado.
− Distribución o curva Mesocúrtica. O de curtosis media. Es una curva que no es muy
afilada ni muy achatada, sino al centro.
Distribución Distribución Distribución

leptocúrtica Platicúrtica Mesocúrtica
Los índices de curtosis son indicadores que permiten establecer el grado de achatamiento de una
distribución. Estas son:
− Coeficiente de Curtosis de Fisher (g2)

− Coeficiente de Curtosis percentílico (Kp)
25
8 ANÁLISIS DE DATOS BIVARIADO
8.1 Diagrama de dispersión
Los diagramas de dispersión son una excelente herramienta que ayudan en la clasificación de la
relación entre dos variables cuantitativas.
Un diagrama de dispersión es una representación gráfica de la relación entre dos variables

cuantitativas. Es un tipo de diagrama que usa coordenadas cartesianas para mostrar valores de
dos variables para un conjunto de datos
Los diagramas de dispersión son muy útiles para mostrar tendencias lineales o no lineales,
regularidades fuertes o débiles y valores atípicos.
La relación entre las dos variables se denomina correlación. La correlación mide la intensidad de
una relación lineal entre dos variables cuantitativas. Así, la correlación puede clasificarse en
función de su:
1) forma, si es lineal o no lineal;

2) dirección, si es positiva o negativa y
3) fuerza, si es fuerte, moderada o débil.
8.1.1 Correlación lineal y no lineal
Si el diagrama de dispersión se ajusta razonablemente a la forma de una recta, entonces la

correlación entre las dos variables se puede llamar lineal. De lo contrario la correlación es no lineal.
Relación lineal
Relación no lineal
26
8.1.2 Correlación positiva y negativa
Si una variable tiende a aumentar a medida que la otra variable crece, se dice que la correlación
entre de las dos variables es positiva.
Si una variable tiende a disminuir con el aumento de la otra, la correlación se dice que es negativa.
y y
Correlación positivax Correlación negativa

x
8.1.3 Fuerza de la correlación
Cuanto más estrecho es el camino, más fuerte es la correlación entre las dos variables.
y y y
x x x
Correlación fuerte Correlación moderada Correlación débil
La variable x representa el número de miembros de una familia y la variable y el dinero gastado

por mes en comestibles por seis familias de una comunidad.
x 2 2 3 4 1 5
y $95 $110 $118 $150 $85 $180
Construir un diagrama de dispersión y estudiar la correlación.
27
Solución
$200
$180
$160
$140
$120
$100
y
$80
$60
$40
$20
$0
0 1 2 3 4 5 6
x
En este ejemplo, el diagrama muestra la existencia de una correlación positiva fuerte entre las
variables número de miembros de la familia y dinero gastado al mes en comestibles.
8.2 El coeficiente de correlación lineal (r)
El coeficiente de correlación lineal es otra forma de determinar cómo dos variables están
relacionadas. Este coeficiente, además de estudiar la relación, permite medir la fuerza de la
asociación lineal entre dos variables. El coeficiente de correlación lineal, también llamado
coeficiente de correlación de Pearson, proporciona una medida precisa de la fuerza de la
relación lineal entre dos variables.
8.2.1 Interpretación del coeficiente de correlación de Pearson
El símbolo del coeficiente de correlación de Pearson es r. Es un número entre −1 y 1. Una

correlación positiva (cuando r  0 ) indica que a medida que crece x, también crece y. Una
correlación negativa (cuando r  0 ) indica que a medida que crece x, decrece y.
Cuanto más se acerque el valor de r a −1 y 1, más fuerte será la asociación. Si r = 0, significa que
no existe ninguna asociación.
La siguiente tabla podría servir de guía para una correcta interpretación de los posibles valores
de r.
Valor de r Interpretación
0,00 a 0,19 Correlación muy débil
0,20 a 0,39 Correlación débil
0,40 a 0,69 Correlación moderada
0,70 a 0,89 Correlación fuerte
0,90 a 1,00 Correlación muy fuerte
28
La siguiente figura muestra las correspondencias entre la forma del diagrama de dispersión y el
valor de r.
r =1 r = −1 r= 
Correlaciones perfectamente No existe correlación lineal

lineales
r = 0,8 r = − r= 
Correlación lineal No existe correlación

Correlación lineal
fuerte positiva fuerte negativa
8.2.2 Cálculo de r
Para una muestra, la correlación r entre las variables x e y está dada por:
1  xi − x   yi − y 
r=   
N − 1  Sx   S y 
.
donde
N es el número total de pares de datos de la muestra,
Sx es la desviación estándar de los valores de x,
S y es la desviación estándar de los valores de y,
x es la media de los valores de x,
y es la media de los valores de y.
Como la fórmula de correlación anteriormente presentada es un tanto compleja, habitualmente

se usa la siguiente formula:
29
N  xi yi −  xi   yi
S xy
r= = i i i
Sx  S y     
2 2
 
 N  xi −   xi    N  yi −   yi  
2 2
 i  i    i  i  
donde,
r es el coeficiente de correlación y
N el número total de pares de datos en el conjunto.
Las calificaciones obtenidas por 5 estudiantes en algebra y trigonometría son como sigue:
Calificaciones de algebra (x) 3 1 2 3 1

Calificaciones de
trigonometría (y)
6 3 5 7 4
Calcular la el coeficiente de correlación de Pearson.
Solución
Agregando columnas para los cálculos adicionales, obtenemos:
xi y x y xi2 yi2
i i i
3 6 18 9 36
1 3 3 1 9
2 5 10 4 25
3 7 21 9 49
1 4 4 1 16
x
i
i = 10 y i
i = 25  x  yi = 56  x
i
i
i
2
i = 24 y
i
2
i = 135
Luego, las medias son:
x i
10
y i
25
x= i
= =2 y y= i
= = 5.
N 5 5 5
Finalmente, el coeficiente de correlación será:
30
N  xi yi −  xi   yi
r= i i i
   
2
  
2
 N  xi −   xi    N  yi −   yi  
2 2
 i  i    i  i  
5(56) − (10)(25)
=
5(24) − (10 )2  5(135) − ( 25 )2 
  
= 0,95
La correlación entre las variables x e y es positiva fuerte.
Hay dos limitaciones importantes en el uso de r. En primer lugar, r mide la fuerza de asociación
lineal, no es apropiado para datos que no son lineales, por ejemplo, para datos cuyo diagrama de
dispersión presenta una forma cuadrática o exponencial.
En segundo lugar, los valores atípicos puede sesgar el valor de r. Consecuentemente, si un

conjunto de datos lineal contiene un valor atípico, r no es una medida fiable de la fuerza de esa
relación lineal.
31

Unidad 4mod7

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad 4mod7

Cargado por

Copyright:

Formatos disponibles

Unidad 4: Análisis Estadístico

UNIDAD 4: ANALISIS ESTADÍSTICO

1 CONCEPTOS BÁSICOS ......................................................................................................................................... 1

1.1 ¿Qué es la Estadística? ................................................................................................................................ 1

1.2 Estadística descriptiva e inferencial ....................................................................................................... 1

2 DISTRIBUCIÓN DE FRECUENCIAS (DF) .......................................................................................................... 2

2.1 Tabla de distribución de frecuencias para variables cualitativas ............................................... 2

2.2 Tabla de distribución de frecuencias para variables cuantitativas para datos no

3 REPRESENTACIONES GRÁFICAS ...................................................................................................................... 7

3.1 Diagrama de barras ..................................................................................................................................... 7

3.2 Diagrama de torta ........................................................................................................................................ 8

3.3 Histogramas ................................................................................................................................................... 9

3.4 Polígono de frecuencias .......................................................................................................................... 10

3.5 Curva de frecuencia ................................................................................................................................... 10

4 MEDIDAS DE TENDENCIA CENTRAL ............................................................................................................ 11

4.1 Media aritmética ......................................................................................................................................... 11

4.1.1 Para datos no agrupados ............................................................................................................... 11

4.1.2 Para datos agrupados ..................................................................................................................... 12

4.2 Moda ............................................................................................................................................................... 13

4.2.1 Para datos no agrupados ............................................................................................................... 13

4.2.2 Para datos agrupados ..................................................................................................................... 13

4.3 Mediana ......................................................................................................................................................... 15

4.3.1 Para datos no agrupados ............................................................................................................... 15

4.3.2 Para datos agrupados ..................................................................................................................... 16

5 MEDIDAS DE POSICIÓN .................................................................................................................................... 17

5.1 Cuartiles (Qn) ................................................................................................................................................ 17

5.2 Deciles (Dn).................................................................................................................................................... 18

5.3 Percentil o Centil (Pn) ................................................................................................................................ 19

6 MEDIDAS DE DISPERSIÓN ............................................................................................................................... 19

6.1 Desviación Estándar .................................................................................................................................. 20

6.1.1 Desviación Estándar para datos no agrupados ..................................................................... 20

6.1.2 Desviación Estándar para datos agrupados ............................................................................ 20

6.2 Varianza ......................................................................................................................................................... 21

6.2.1 Varianza para datos no agrupados ............................................................................................ 21

6.2.2 Varianza para datos agrupados ................................................................................................... 22

7 MEDIDAS DE FORMA ......................................................................................................................................... 24

7.1 Medidas de asimetría ............................................................................................................................... 24

7.2 Medidas de Curtosis.................................................................................................................................. 25

8 ANÁLISIS DE DATOS BIVARIADO .................................................................................................................. 26

8.1 Diagrama de dispersión ........................................................................................................................... 26

8.1.1 Correlación lineal y no lineal ......................................................................................................... 26

8.1.2 Correlación positiva y negativa .................................................................................................... 27

8.1.3 Fuerza de la correlación .................................................................................................................. 27

8.2 El coeficiente de correlación lineal (r) ................................................................................................. 28

8.2.1 Interpretación del coeficiente de correlación de Pearson ................................................. 28

8.2.2 Cálculo de r.......................................................................................................................................... 29

1.1 ¿Qué es la Estadística?

1.2 Estadística descriptiva e inferencial

La estadística descriptiva, cuya función es la descripción de datos, tiene las siguientes

• la obtención y recolección de datos,

La estadística descriptiva se utiliza para obtener información como medias, proporciones,

La inferencia estadística es una técnica mediante la cual se obtienen generalizaciones o se toman

2 DISTRIBUCIÓN DE FRECUENCIAS (DF)

La frecuencia de un valor de dato es el número de veces que ocurre el dato en el conjunto de

2.1 Tabla de distribución de frecuencias para variables cualitativas

n : Número total de observaciones

ni : Frecuencias absolutas (número de veces que se repite xi )

En una encuesta a 92 personas sobre su nacionalidad se determinó que 30 eran bolivianos, 22

x : Nacionalidad de un conjunto de individuos

n3 : 16 personas encuestadas eran chilenos.

f1 : 33% de las personas encuestadas eran bolivianos.

2.2 Tabla de distribución de frecuencias para variables cuantitativas

n : Número total de observaciones