Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de Datos:
Estadística
Descriptiva
Wilfredo Bulege Gutiérrez
Wilfredo Bulege
1
Estadística descriptiva
Wilfredo Bulege
2
Representaciones gráficas:
⚫ Histograma de frecuencia:
Solución en R Project:
Wilfredo Bulege
3
12.7 x 18.52
Wilfredo Bulege
⚫ Polígono de frecuencia:
Wilfredo Bulege
4
Solución en R Project:
Wilfredo Bulege
Wilfredo Bulege
10
5
⚫ Diagrama de barras:
Wilfredo Bulege
11
Solución en R Project:
Wilfredo Bulege
12
6
Wilfredo Bulege
13
Wilfredo Bulege
14
7
Solución en R Project:
#install.packages("dplyr")
library(dplyr)
datos <- read.csv(file="c:/r/covid-sa.csv", header=TRUE, sep=",")
datos <- arrange(datos, fallecxmh) # para Orden inverso = -fallecxmh
fall <-c(datos$fallecxmh)
pais <-c(datos$pais)
barplot(fall, width=1, col= rainbow(10), lwd=2, main="100 días de
COVID19 en Perú, fallecidos x millón de habitantes, al 13/06/20", xlab=
"Fallecidos por millón de habitantes", horiz=TRUE, las=1,
names.arg=pais, cex.names=0.7,cex.axis = 0.9)
Wilfredo Bulege
15
Wilfredo Bulege
16
8
⚫ Gráfico circular:
Wilfredo Bulege
17
Solución en R Project:
Wilfredo Bulege
18
9
Wilfredo Bulege
19
⚫ Media aritmética:
Es la suma de todos los
valores dividido por su
número.
Fuente:
http://www.universoformulas.com/estadistica/descripti
X1+X2+X3+X4+⋯+Xn va/media/
Xഥ =
n
Wilfredo Bulege
20
10
⚫ Mediana:
Es el valor en el medio de la
selección, si todos los valores
Fuente:
están dispuestos de menor a http://www.universoformulas.com/estadistica/descripti
va/mediana/
mayor.
n+1
M=
2
⚫ Moda:
Es el valor más común en
nuestro conjunto de datos. Fuente:
http://www.universoformulas.com/estadistica/descripti
Mo va/moda/
Wilfredo Bulege
21
Ejemplo:
Wilfredo Bulege
22
11
Solución en R Project:
horas <- c(342, 426, 317, 545, 264, 251, 104, 963, 512, 266, 492, 317, 298)
mean(horas)
median(horas)
moda=function(x)
{q=table(x)
q=sort(q,TRUE)
return(q[1])}
moda (horas)
Wilfredo Bulege
23
⚫ Medidas de variabilidad:
Wilfredo Bulege
24
12
⚫ Varianza: Es la dispersión 2
n
(x − x )
dentro de un conjunto de
datos. Si el valor de la
i
varianza es pequeño, significa
que los valores del conjunto S =
2 i =1
están bastante agrupados, de n −1
lo contrario, quiere decir que
los elementos dentro del
conjunto que se analiza están
dispersos.
Wilfredo Bulege
25
⚫ Desviación estándar: La
desviación estándar n 2
representa la magnitud de la
dispersión de las variables (x − x ) i
S=
dentro de un intervalo de
i =1
razón. Para su cálculo
partimos de la varianza y
calculamos su raíz cuadrada.
n −1
Wilfredo Bulege
26
13
Ejemplo:
22, 22, 23, 24, 25, 25, 26, 27, 28, 29, 29, 29, 29, 29, 31, 31, 32, 33, 34,
35, 35, 35, 36, 38, 39, 39, 42, 42, 44, 44, 45, 45, 45, 47, 48, 52, 59, 66,
67, 69, 69.
Wilfredo Bulege
27
Solución en R Project:
edad <- c(22, 22, 23, 24, 25, 25, 26, 27, 28, 24, 29, 29, 29, 29, 31, 31,
36, 33, 34, 35, 35, 35, 36, 38, 39, 39, 42, 42, 44, 44, 45, 45, 45, 47, 48,
52, 59, 66, 67, 69, 69)
range(edad)
var(edad)
sd(edad)
Wilfredo Bulege
28
14
Análisis de Datos:
Estadística Inferencial
Wilfredo Bulege Gutiérrez
29
Wilfredo Bulege
30
15
¿Qué es la Prueba de hipótesis?
Una prueba de hipótesis estadística es una regla que conduce a la
decisión de aceptar o rechazar cierta hipótesis identificada como
hipótesis nula, con base en los resultados de una muestra.
Wilfredo Bulege
31
Wilfredo Bulege
32
16
Pasos de una prueba de hipótesis utilizando el método valor-p:
Wilfredo Bulege
33
Rechazar H0 si el valor-p ≤ α
Wilfredo Bulege
34
17
Análisis de Normalidad:
Gráfico de cuantiles teóricos (Gráficos Q-Q)
Consiste en comparar los cuantiles
de la distribución observada con
los cuantiles teóricos de una
distribución normal con la misma
media y desviación estándar que
los datos.
Cuanto más se aproximen los
datos a una normal, más alineados
están los puntos entorno a la recta.
Wilfredo Bulege
35
Ejemplo:
Wilfredo Bulege
36
18
Solución en R Project:
x<-c(105, 116, 103, 124, 137, 126, 112, 129, 118, 105)
qqnorm(x)
qqline(x, col="red")
Wilfredo Bulege
37
Wilfredo Bulege
38
19
Shapiro-Wilk
La prueba de normalidad de
Shapiro-Wilk es aplicable cuando
se analizan muestras compuestas
hasta por 50 elementos (muestras
pequeñas) (Parada, 2019).
Wilfredo Bulege
39
Ejemplo:
Wilfredo Bulege
40
20
Solución en R Project:
x<-c(105, 116, 103, 124, 137, 126, 112, 129, 118, 105)
shapiro.test(x)
Wilfredo Bulege
41
Prueba de hipótesis:
1. Hipótesis:
H0: La distribución es normal
Ha: La distribución no es normal
2. Nivel de significancia: α = 0.05
3. Estadístico de prueba: valor-p
4. Comparación de p y α: valor-p = 0.6284 ≤ α = 0.05
5. Decisión: No se rechaza la H0
6. Conclusión: La distribución es normal.
Wilfredo Bulege
42
21
Kolmogorov-Smirnov
y modificación de Lilliefors
El test de Kolmogorov-Smirnov permite estudiar si una muestra procede
de una población con una determinada distribución (media y desviación
típica), no está limitado únicamente a la distribución normal.
Wilfredo Bulege
43
Ejemplo:
Wilfredo Bulege
44
22
Solución en R Project:
#install.packages("nortest")
library(nortest)
datos <- read.csv(file="c:/r/contaminacion.csv", header=TRUE, sep=",")
x <- datos$precipitacion
lillie.test(x)
Wilfredo Bulege
45
Prueba de hipótesis:
1. Hipótesis:
H0: La distribución es normal
Ha: La distribución no es normal
2. Nivel de significancia: α = 0.05
3. Estadístico de prueba: valor-p
4. Comparación de p y α: valor-p = 0.1901 ≤ α = 0.05
5. Decisión: No se rechaza H0
6. Conclusión: La distribución es normal.
Wilfredo Bulege
46
23
Pruebas paramétricas y
no paramétricas
Hay dos tipos de análisis estadísticos
que pueden realizarse para probar
hipótesis: los análisis paramétricos y
los no paramétricos.
Wilfredo Bulege
47
Nivel de
Análisis Pruebas más utilizadas
medición
48
24
Análisis paramétrico
Wilfredo Bulege
49
Wilfredo Bulege
50
25
⚫ Variables: La prueba en sí no considera a una como independiente y
a otra como dependiente, ya que no evalúa la causalidad. Se
relacionan las puntuaciones recolectadas de una variable con las
puntuaciones obtenidas de la otra, con los mismos participantes o
casos (Bagiella, 2007; Onwuegbuzie, Daniel y Leech, 2006a).
⚫ Nivel de medición de las variables: intervalos o razón.
Wilfredo Bulege
51
Ejemplo:
Gastos: 25, 21, 15, 22, 15, 16, 28, 30, 23, 15
Ventas: 126, 110, 87, 97, 80, 84, 129, 126, 115, 91
Wilfredo Bulege
52
26
Solución en R Project:
gastos<- c (25, 21, 15, 22, 15, 16, 28, 30, 23, 15)
ventas<- c (126, 110, 87, 97, 80, 84, 129, 126, 115, 91)
cor(gastos, ventas)
model <- lm(ventas ~ gastos)
summary(model)
Wilfredo Bulege
53
Valor Significado
-1 Correlación negativa grande y perfecta
-0.9 a -0.99 Correlación negativa muy alta
-0.7 a -0.89 Correlación negativa alta
-0.4 a -0.69 Correlación negativa moderada
-0.2 a -0.39 Correlación negativa baja
-0.01 a -0.19 Correlación negativa muy baja
0 Correlación nula
0.01 a 0.19 Correlación positiva muy baja
0.2 a 0.39 Correlación positiva baja
0.4 a 0.69 Correlación positiva moderada
0.7 a 0.89 Correlación positiva alta
0.9 a 0.99 Correlación positiva muy alta
1 Correlación positiva grande y perfecta
Wilfredo Bulege
54
27
Wilfredo Bulege
55
Prueba de hipótesis:
1. Hipótesis:
H0 : p = 0 No existe correlación lineal
Ha : p ≠ 0 Si existe correlación lineal
2. Nivel de significancia: α = 0.01
3. Estadístico de prueba: r de Pearson
4. Comparación de p y α: valor-p = 5.407e-05 ≤ α = 0.01
5. Decisión: Se rechaza H0
6. Conclusión: Existe correlación lineal positiva muy alta
entre gastos por publicidad y ventas.
Wilfredo Bulege
56
28
Regresión lineal simple:
Donde:
y = Variable dependiente
β0 = Intercepto en la ordenada
β1 = Pendiente de la línea
x = Variable independiente
ϵ = Error aleatorio no observado en y (Quevedo et. al, 2008)
Wilfredo Bulege
57
Wilfredo Bulege
58
29
Ejemplo:
Wilfredo Bulege
59
Restaurante x y
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
Wilfredo Bulege
60
30
Solución en R Project:
Wilfredo Bulege
61
Wilfredo Bulege
62
31
La pendiente de la ecuación de regresión estimada (b1 = 5) es positiva,
lo que implica que a medida que aumenta el tamaño de la población de
estudiantes, aumentan las ventas. Se concluye (basándose en las
ventas dadas en miles de $ y en el tamaño de la población de
estudiantes en miles) que un aumento de 1,000 en el tamaño de la
población de estudiantes corresponde a un aumento esperado de
$5,000 en las ventas; es decir, se espera que las ventas trimestrales
aumenten $5 por cada aumento de un estudiante.
Si se considera que la ecuación de regresión estimada obtenida por el
método de mínimos cuadrados describe adecuadamente la relación
entre x y y, parecerá razonable usar esta ecuación de regresión
estimada para estimar el valor de y para un valor dado de x (Anderson
et. al, 2008).
Wilfredo Bulege
63
Wilfredo Bulege
64
32
Prueba de hipótesis:
1. Hipótesis:
H0 : β1 = 0
Ha : β1 ≠ 0
2. Nivel de significancia: α = 0.01
3. Estadístico de prueba: valor-p
4. Comparación de p y α: valor-p = 2.549e-05 ≤ α = 0.01
5. Decisión: Se rechaza Ho
6. Conclusión: Existe relación significativa entre x y y.
Wilfredo Bulege
65
¿Cuál es la ecuación?
y = β0 + β1 x
Ventas trimestrales = 60 + 5 * 18
Wilfredo Bulege
66
33
Coeficiente de Determinación R2:
Wilfredo Bulege
67
Donde:
y = Variable dependiente
β0 = Coeficiente de intercepto
β1, β2 = Coeficientes de pendiente
x1, x2 = Variables independientes
ϵ = Variable aleatoria (Quevedo et. al, 2008)
Wilfredo Bulege
68
34
Ejemplo:
Wilfredo Bulege
69
Recorrido x1 x2 y
asignado
1 100 4 9.3
2 50 3 4.8
3 100 4 8.9
4 100 2 6.5
5 50 2 4.2
6 80 2 6.2
7 75 3 7.4
8 65 4 6.0
9 90 3 7.6
10 90 2 6.1
Wilfredo Bulege
70
35
Solución en R Project:
Wilfredo Bulege
71
Wilfredo Bulege
72
36
En el ejemplo de Butler Trucking con dos variables independientes, b1 =
0.0611. Por lo tanto, 0.0611 horas es la estimación del aumento
esperado en el tiempo de recorrido que corresponde al aumento en una
milla en la distancia recorrida cuando el número de entregas permanece
constante.
De manera similar, como b2 = 0.923, una estimación del aumento
esperado en el tiempo de recorrido que corresponde al aumento de una
entrega permaneciendo constante el número de millas recorridas es
0.923 horas.
Wilfredo Bulege
73
Wilfredo Bulege
74
37
Prueba de hipótesis:
1. Hipótesis:
Ho : β1 = β2 = … = βk = 0 Regresión no significativa.
Ha : βj ≠ 0 para algún i=1, 2…, k Regresión significativa.
2. Nivel de significancia: α = 0.01
3. Estadístico de prueba: valor-p < α/2
4. Comparación de p y α: valor-p = 0.0002762 ≤ α = 0.01
5. Decisión: Se rechaza H0
6. Conclusión: Se acepta que el modelo de regresión es significativo, es
decir, al menos una variable explicativa influye en la variable dependiente.
Wilfredo Bulege
75
Prueba t - Student:
Wilfredo Bulege
76
38
⚫ Variables: la comparación se realiza sobre una variable (regularmente
y de manera teórica: dependiente). Si hay diferentes variables, se
efectuarán varias pruebas t (una por cada variable), y la razón que
motiva la creación de los grupos puede ser una variable
independiente. Por ejemplo, un experimento con dos grupos, donde a
uno se le aplica el estímulo experimental y al otro no, es de control.
⚫ Nivel de medición de la variable de comparación: intervalos o razón.
Wilfredo Bulege
77
Wilfredo Bulege
78
39
Análisis de Varianza (ANOVA) one-way:
Wilfredo Bulege
79
Wilfredo Bulege
80
40
Análisis no paramétrico
Wilfredo Bulege
81
Chi cuadrada:
Wilfredo Bulege
82
41
Coeficientes de correlación e independencia para tabulaciones
cruzadas:
Wilfredo Bulege
83
Wilfredo Bulege
84
42
Eta:
Es similar al coeficiente r de
Pearson, pero con relaciones
no lineales, es decir, Eta define la
“correlación perfecta” (1.00) como
curvilineal y a la “relación nula”
(0.0) como la independencia
estadística de las variables.
Wilfredo Bulege
85
Otros coeficientes de
correlación:
⚫ Biserial (rb)
⚫ Biserial por rangos (rrb)
⚫ Biserial puntual (rpb)
⚫ Tetracórico
Además:
⚫ U de Mann Whitney
⚫ Wilcoxon (test de signos)
⚫ Kruskal Wallis
Wilfredo Bulege
86
43
Ejemplos para escribir las técnicas de
análisis de datos en el Plan de
Técnicas de análisis de datos: Investigación?
Recolectado los datos se procederá a preparar la base de datos para
realizar un análisis descriptivo a través de distribución de frecuencias y
gráficos con sus respectivas interpretaciones. Para la prueba de la
hipótesis general se hará uso del coeficiente de correlación de Rho de
Spearman cuyo contraste consistirá en validar cambios del incremento
en la variable dependiente (Y) de los estudiantes de la UNMSM a partir
de la aplicación de la variable independiente (X).
Wilfredo Bulege
87
Wilfredo Bulege
88
44
Wilfredo Bulege Gutiérrez
wilfredobulege@gmail.com
https://ctivitae.concytec.gob.pe/appDirectorioCTI
/VerDatosInvestigador.do?id_investigador=1729
Wilfredo Bulege
89
45