08-Análisis Parametrica y No Parametrica

Metodología de la Investigación
Análisis de Datos:
Estadística
Descriptiva
Wilfredo Bulege Gutiérrez
Análisis de datos cuantitativos
En primer término, se describe los

datos; posteriormente se efectúa
análisis estadísticos para
relacionar las variables; es decir,
realizar análisis de estadística
descriptiva para cada una de las
variables, luego se describe la
relación entre éstas.
Wilfredo Bulege
1
Estadística descriptiva
⚫ Recolecta, ordena, analiza y

representa un conjunto de datos, con
el fin de describir apropiadamente las
características de ese conjunto.
⚫ Este análisis es básico. Aunque hay
tendencia a generalizar a toda la
población, las primeras conclusiones
obtenidas tras un análisis descriptivo,
es un estudio calculando una serie
de medidas de tendencia central, para
ver en qué medida los datos se
agrupan o dispersan en torno a un
valor central.
Wilfredo Bulege
Distribución de frecuencias: Tabla 1

Aves en la Laguna Pucush Uclo, Junín
Frecuencia Frecuencia
Una distribución de frecuencias es N° Nombre común
absoluta %
un conjunto de puntuaciones 1 Garza grande 348 35.2%
respecto de una variable 2 Ayno, gallareta 188 19.1%
Chirigue de la puna
ordenadas en sus respectivas 3 90 9.1%
4 Gallareta gigante 88 8.9%
categorías y generalmente se Cucarachero
5 70 7.1%
presenta como una tabla (O’Leary, 6 Gavilán de campo 60 6.1%
2014 y Nicol, 2006). 7 Churrete coordillerano 50 5.1%
8 Zambullidor pimpollo 36 3.6%
9 Golondrina migratoria 30 3.0%
10 Picholin 29 2.9%
Total 989 100%
Wilfredo Bulege
2
Representaciones gráficas:
⚫ Histograma de frecuencia:
Se utiliza para representar la frecuencia de las variables cuantitativas

continuas. Aquí el área de la barra es proporcional a la frecuencia de
ese intervalo, y está en relación con la probabilidad con la que cada
intervalo puede presentarse. Las columnas, a diferencia del diagrama
de barras, están todas juntas y el punto medio es el que da el nombre
al intervalo, ejemplo:
Realizar el histograma de frecuencia y curva de densidad de los 2802
fallecidos por Covid 19 por edad, registrados en Mayo, 2020 en Perú.
Wilfredo Bulege
Solución en R Project:
datos <- read.csv(file="c:/r/covid-fallecidos.csv", header=TRUE,

sep=",")
edad <-c(datos$edad)
hist(edad, freq = F, main="Covid 19, fallecidos en Perú, Mayo 2020",
xlab="Edad", ylab="Densidad", col=3)
lines(density(edad), col = "red", lty = 1, lwd = 2)
Wilfredo Bulege
3
12.7 x 18.52
Wilfredo Bulege
⚫ Polígono de frecuencia:
Es un gráfico de líneas de las frecuencias absolutas de los valores de

una distribución en el cual la altura del punto asociado a un valor de
las variables es proporcional a la frecuencia de dicho valor, ejemplo:
Graficar el polígono de frecuencias de las altitudes de glaciares de la
Cordillera Blanca de Perú, 2014.
Wilfredo Bulege
4
alti <- c(4872,4935,5064,5103,5195, 5213,5338,4988,5132,5056,5350,

5196,5138,5216)
A<- hist(alti,main="Altitud glaciares de la Cordillera Blanca, Perú,
2014", xlab="msnm", ylab= "Cantidad", col=2)
lines(c(min(A$breaks),A$mids,max(A$breaks)),c(0,A$counts,0),
type= "l",col="blue", lwd=2)
Wilfredo Bulege
Wilfredo Bulege
10
5
⚫ Diagrama de barras:
Es un gráfico que sirve para representar las variables cualitativas

ordinales. En el eje horizontal se representan las diferentes categorías
y sobre él se levantan unas columnas o barras cuya altura es
proporcional a la frecuencia de cada categoría. También podríamos
utilizar este tipo de gráfico para representar variables cuantitativas
discretas, pero lo que no es correcto hacer es usarlo para las variables
cualitativas nominales, ejemplos:
a) Graficar un diagrama de barras verticales sobre las personas
fallecidas por cada millón de habitantes, por Covid 19 a Junio de
2020 de los países a nivel de Sudamérica.
Wilfredo Bulege
11
datos <- read.csv(file="c:/r/covid-sa.csv", header=TRUE, sep=",")

fall <-c(datos$fallecxmh)
pais <-c(datos$pais)
barplot(fall, width=1, col= rainbow(6), lwd=1, main="100 días de
COVID19 en Perú, fallecidos x millón de habitantes, al 13/06/20",
xlab="Países", ylab="Fallecidos por millón de habitantes",
names.arg=pais, cex.names=0.9, las=1)
Wilfredo Bulege
12
6
Wilfredo Bulege
13
b) Graficar un diagrama de barras horizontales sobre las personas

fallecidas por cada millón de habitantes, por Covid 19 a Junio de
2020 de los países a nivel de Sudamérica.
Wilfredo Bulege
14
7
#install.packages("dplyr")
library(dplyr)
datos <- read.csv(file="c:/r/covid-sa.csv", header=TRUE, sep=",")
datos <- arrange(datos, fallecxmh) # para Orden inverso = -fallecxmh
fall <-c(datos$fallecxmh)
pais <-c(datos$pais)
barplot(fall, width=1, col= rainbow(10), lwd=2, main="100 días de
COVID19 en Perú, fallecidos x millón de habitantes, al 13/06/20", xlab=
"Fallecidos por millón de habitantes", horiz=TRUE, las=1,
names.arg=pais, cex.names=0.7,cex.axis = 0.9)
Wilfredo Bulege
15
Wilfredo Bulege
16
8
⚫ Gráfico circular:
Es un gráfico usado para representar frecuencias, porcentajes y

proporciones. Se suele usar con variables cualitativas, ya que con
variables cuantitativas puede generar confusiones. También es
llamado, gráfico de pastel, gráfico de torta o gráfica de 360°, ejemplo:
Realizar un gráfico circular sobre las diversas especies de avifauna
existentes en la Laguna Pucush Uclo en Junín con datos de noviembre
del año 2018.
Wilfredo Bulege
17
datos <- read.csv(file="c:/r/avifauna.csv", header=TRUE, sep=",")

attach(datos)
pie(total, col = c("purple", "violetred1", "green3","cornsilk", "cyan",
"red", "yellow", "blue", "orange"), labels=especie, radius=1,
main="Avifauna de la Laguna Pucush Uclo, Noviembre,
2021",clockwise = FALSE)
Wilfredo Bulege
18
9
Wilfredo Bulege
19
⚫ Medidas de tendencia central:
⚫ Media aritmética:
Es la suma de todos los
valores dividido por su
número.
Fuente:
http://www.universoformulas.com/estadistica/descripti
X1+X2+X3+X4+⋯+Xn va/media/
Xഥ =
n
Wilfredo Bulege
20
10
⚫ Mediana:
Es el valor en el medio de la
selección, si todos los valores
Fuente:
están dispuestos de menor a http://www.universoformulas.com/estadistica/descripti
va/mediana/
mayor.
n+1
M=
2
⚫ Moda:
Es el valor más común en
nuestro conjunto de datos. Fuente:
http://www.universoformulas.com/estadistica/descripti
Mo va/moda/
Wilfredo Bulege
21
Ejemplo:
Un fabricante de baterías para linternas tomó una muestra de 13

baterías en un día de producción y las usó hasta que se agotaron. Las
horas que funcionaron sin fallar fueron las siguientes:
342, 426, 317, 545, 264, 451, 104, 963, 512, 266, 492, 317, 298.
¿Cuál es la media, mediana y moda de duración de las baterías de la

muestra?
Wilfredo Bulege
22
11
horas <- c(342, 426, 317, 545, 264, 251, 104, 963, 512, 266, 492, 317, 298)
mean(horas)
median(horas)
moda=function(x)
{q=table(x)
q=sort(q,TRUE)
return(q[1])}
moda (horas)
Wilfredo Bulege
23
⚫ Medidas de variabilidad:
⚫ Rango: Es igual al valor

máximo menos el valor
R = X max − X min
mínimo y se denota con la
letra R.
Wilfredo Bulege
24
12
⚫ Varianza: Es la dispersión 2
n
 (x − x )
dentro de un conjunto de
datos. Si el valor de la
i
varianza es pequeño, significa
que los valores del conjunto S =
2 i =1
están bastante agrupados, de n −1
lo contrario, quiere decir que
los elementos dentro del
conjunto que se analiza están
dispersos.
Wilfredo Bulege
25
⚫ Desviación estándar: La
desviación estándar n 2
representa la magnitud de la
dispersión de las variables  (x − x ) i
S=
dentro de un intervalo de
i =1
razón. Para su cálculo
partimos de la varianza y
calculamos su raíz cuadrada.
n −1
Wilfredo Bulege
26
13
Ejemplo:
Se han presentado durante un mes 41 personas para consultas

psicológicas en una clínica privada. Hallar el rango, varianza y
desviación estándar de las edades de este grupo de personas cuyas
edades son:
22, 22, 23, 24, 25, 25, 26, 27, 28, 29, 29, 29, 29, 29, 31, 31, 32, 33, 34,
35, 35, 35, 36, 38, 39, 39, 42, 42, 44, 44, 45, 45, 45, 47, 48, 52, 59, 66,
67, 69, 69.
Wilfredo Bulege
27
edad <- c(22, 22, 23, 24, 25, 25, 26, 27, 28, 24, 29, 29, 29, 29, 31, 31,
36, 33, 34, 35, 35, 35, 36, 38, 39, 39, 42, 42, 44, 44, 45, 45, 45, 47, 48,
52, 59, 66, 67, 69, 69)
range(edad)
var(edad)
sd(edad)
Wilfredo Bulege
28
14
Análisis de Datos:
Estadística Inferencial
29
¿Qué es la Estadística inferencial?
⚫ Son métodos y procedimientos

que por medio de la inducción
determinan propiedades de
una población estadística, a
partir de una pequeña parte de
la misma.
⚫ La estadística inferencial se
utiliza para probar hipótesis y
estimar parámetros.
Wilfredo Bulege
30
15
¿Qué es la Prueba de hipótesis?
Una prueba de hipótesis estadística es una regla que conduce a la
decisión de aceptar o rechazar cierta hipótesis identificada como
hipótesis nula, con base en los resultados de una muestra.
Los procedimientos de prueba de hipótesis dependen del empleo de la

información contenida en una muestra aleatoria de la población de
interés. Si esta información es consistente con la hipótesis nula se
concluye que ésta es verdadera; sin embargo, si esta información es
inconsistente con la hipótesis se concluye que es falsa (Quevedo y
Pérez, 2008).
Wilfredo Bulege
31
Las pruebas de hipótesis para un parámetro poblacional asumen una de

estas tres formas:
Ho: µ ≥ µo Ho: µ ≤ µo Ho: µ = µo

Ha: µ < µo Ha: µ > µo Ha: µ ≠ µo
A las dos primeras formas se les llama pruebas de una cola, y a la

tercera se le llama prueba de dos colas.
Wilfredo Bulege
32
16
Pasos de una prueba de hipótesis utilizando el método valor-p:
1. Formular las hipótesis nula y alterna.

2. Especificar el nivel de significancia.
3. Recabar los datos muestrales y calcular el valor del estadístico de
prueba.
4. Emplear el valor del estadístico de prueba para calcular el valor-p.
5. Rechazar Ho si el valor-p ≤ α .
6. Conclusión.
Wilfredo Bulege
33
Un valor-p es una probabilidad que aporta una medida de una evidencia

suministrada por la muestra contra la hipótesis nula. Valores-p
pequeños indican una evidencia mayor contra la hipótesis nula. El valor-
p se usa para determinar si la hipótesis nula debe ser rechazada
(Anderson et. al, 2008).
Una regla para el rechazo usando valor-p es:
Rechazar H0 si el valor-p ≤ α
Wilfredo Bulege
34
17
Análisis de Normalidad:
Gráfico de cuantiles teóricos (Gráficos Q-Q)
Consiste en comparar los cuantiles
de la distribución observada con
los cuantiles teóricos de una
distribución normal con la misma
media y desviación estándar que
los datos.
Cuanto más se aproximen los
datos a una normal, más alineados
están los puntos entorno a la recta.
Wilfredo Bulege
35
Ejemplo:
Se tiene 10 mediciones sobre duración de nuevas baterías expresadas

en horas, determinar si éstos valores tienen una distribución normal
basada en un gráfico QQ.
Wilfredo Bulege
36
18
x<-c(105, 116, 103, 124, 137, 126, 112, 129, 118, 105)
qqnorm(x)
qqline(x, col="red")
Wilfredo Bulege
37
Wilfredo Bulege
38
19
Shapiro-Wilk
La prueba de normalidad de
Shapiro-Wilk es aplicable cuando
se analizan muestras compuestas
hasta por 50 elementos (muestras
pequeñas) (Parada, 2019).
Wilfredo Bulege
39
Ejemplo:
Se tiene 10 mediciones sobre duración de nuevas baterías expresadas

en horas, determinar si éstos valores tienen una distribución normal.
Wilfredo Bulege
40
20
x<-c(105, 116, 103, 124, 137, 126, 112, 129, 118, 105)
shapiro.test(x)
Wilfredo Bulege
41
Prueba de hipótesis:
1. Hipótesis:
H0: La distribución es normal
Ha: La distribución no es normal
2. Nivel de significancia: α = 0.05
3. Estadístico de prueba: valor-p
4. Comparación de p y α: valor-p = 0.6284 ≤ α = 0.05
5. Decisión: No se rechaza la H0
6. Conclusión: La distribución es normal.
Wilfredo Bulege
42
21
Kolmogorov-Smirnov
y modificación de Lilliefors
El test de Kolmogorov-Smirnov permite estudiar si una muestra procede
de una población con una determinada distribución (media y desviación
típica), no está limitado únicamente a la distribución normal.
Kolmogorov-Smirnov asume que se conoce la media y varianza

poblacional, lo que en la mayoría de los casos no es posible. Esto hace
que el test sea muy conservador y poco potente. Para solventar este
problema, se desarrolló una modificación del Kolmogorov-
Smirnov conocida como test Lilliefors. Es aplicado cuando el número de
observaciones es mayor de 50.
Wilfredo Bulege
43
Ejemplo:
Se tiene 139 mediciones sobre precipitación en el archivo

“contaminación.csv”, determinar si éstos valores tienen una distribución
normal.
Wilfredo Bulege
44
22
#install.packages("nortest")
library(nortest)
datos <- read.csv(file="c:/r/contaminacion.csv", header=TRUE, sep=",")
x <- datos$precipitacion
lillie.test(x)
Wilfredo Bulege
45
1. Hipótesis:
H0: La distribución es normal
Ha: La distribución no es normal
5. Decisión: No se rechaza H0
6. Conclusión: La distribución es normal.
Wilfredo Bulege
46
23
Pruebas paramétricas y
no paramétricas
Hay dos tipos de análisis estadísticos
que pueden realizarse para probar
hipótesis: los análisis paramétricos y
los no paramétricos.
Cada tipo posee sus características y

presuposiciones que lo sustentan; la
elección de qué clase de análisis
efectuar depende de los supuestos.
Wilfredo Bulege
47
Nivel de
Análisis Pruebas más utilizadas
medición
IntervaloCoeficiente de correlación de Pearson, Prueba

Paramétrico t, Prueba de contraste de la diferencia de
proporciones, ANOVA unidireccional, ANOVA
De razón factorial, ANCOVA, Prueba Z, Valor p.
Nominal Chi cuadrada

No
paramétrico Chi cuadrada, Prueba de signo, Correlación de
Ordinal Spearman, Kendall Tau, Prueba de Mann-
Whitney, Wilcoxon, Kruskal-Wallis.
Wilfredo Bulege
48
24
Análisis paramétrico
Para realizar análisis paramétricos debe partirse de los siguientes

supuestos:
⚫ La distribución poblacional de la variable dependiente es normal: el
universo tiene una distribución normal.
⚫ El nivel de medición de la variable dependiente es por intervalos o
razón.
⚫ Cuando dos o más poblaciones son estudiadas, tienen una varianza
homogénea: las poblaciones en cuestión tienen una dispersión
similar en sus distribuciones (Wiersma y Jurs, 2008).
Wilfredo Bulege
49
Coeficiente de correlación de Pearson:
Es una prueba estadística para analizar la relación entre dos variables

medidas en un nivel por intervalos o de razón. Se simboliza como r.
⚫ Hipótesis a probar: correlacional, del tipo de “a mayor X, mayor Y”, “a

mayor X, menor Y”, “altos valores en X están asociados con altos
valores en Y”, “altos valores en X se asocian con bajos valores de Y”.
La hipótesis de investigación señala que la correlación es
significativa.
Wilfredo Bulege
50
25
⚫ Variables: La prueba en sí no considera a una como independiente y
a otra como dependiente, ya que no evalúa la causalidad. Se
relacionan las puntuaciones recolectadas de una variable con las
puntuaciones obtenidas de la otra, con los mismos participantes o
casos (Bagiella, 2007; Onwuegbuzie, Daniel y Leech, 2006a).
⚫ Nivel de medición de las variables: intervalos o razón.
Wilfredo Bulege
51
Ejemplo:
Se tienen los siguientes datos de las variables gastos en publicidad

radial (X) y ventas (Y) de 10 semanas. Realizar la prueba de hipótesis
de correlación de Pearson.
Gastos: 25, 21, 15, 22, 15, 16, 28, 30, 23, 15
Ventas: 126, 110, 87, 97, 80, 84, 129, 126, 115, 91
Wilfredo Bulege
52
26
gastos<- c (25, 21, 15, 22, 15, 16, 28, 30, 23, 15)
ventas<- c (126, 110, 87, 97, 80, 84, 129, 126, 115, 91)
cor(gastos, ventas)
model <- lm(ventas ~ gastos)
summary(model)
Wilfredo Bulege
53
Valor Significado
-1 Correlación negativa grande y perfecta
-0.9 a -0.99 Correlación negativa muy alta
-0.7 a -0.89 Correlación negativa alta
-0.4 a -0.69 Correlación negativa moderada
-0.2 a -0.39 Correlación negativa baja
-0.01 a -0.19 Correlación negativa muy baja
0 Correlación nula
0.01 a 0.19 Correlación positiva muy baja
0.2 a 0.39 Correlación positiva baja
0.4 a 0.69 Correlación positiva moderada
0.7 a 0.89 Correlación positiva alta
0.9 a 0.99 Correlación positiva muy alta
1 Correlación positiva grande y perfecta
Wilfredo Bulege
54
27
Wilfredo Bulege
55
1. Hipótesis:
H0 : p = 0 No existe correlación lineal
Ha : p ≠ 0 Si existe correlación lineal
3. Estadístico de prueba: r de Pearson
4. Comparación de p y α: valor-p = 5.407e-05 ≤ α = 0.01
5. Decisión: Se rechaza H0
6. Conclusión: Existe correlación lineal positiva muy alta
entre gastos por publicidad y ventas.
Wilfredo Bulege
56
28
Regresión lineal simple:
El objetivo es obtener el modelo de regresión más apropiado para fines

de predicción y estimación. Los componentes de esta ecuación son, una
variable dependiente (y) y una variable independiente (x). La ecuación
de la línea de regresión lineal simple es: y = β0 + β1 x + ϵ .
Donde:
y = Variable dependiente
β0 = Intercepto en la ordenada
β1 = Pendiente de la línea
x = Variable independiente
ϵ = Error aleatorio no observado en y (Quevedo et. al, 2008)
Wilfredo Bulege
57
Para la validación del modelo de regresión, éste se relaciona con el uso

de estadísticas como el coeficiente de determinación múltiple R2, el
coeficiente de determinación ajustado R2ajustada, el error estándar
estimado s, tablas de análisis de varianza, pruebas t de Student,
intervalos de confianza, el criterio de Mallow de Cp, PRESS, y así
sucesivamente.
⚫ Hipótesis: correlacionales y causales.

⚫ Variables: dos, una independiente y otra dependiente.
⚫ Nivel de medición de las variables: intervalos o razón.
Wilfredo Bulege
58
29
Ejemplo:
Se tiene datos de una muestra de 10 restaurantes Armand´s Pizza

Parlors ubicados todos cerca de campus universitarios. El tamaño de la
población de estudiantes (en miles) es x, y las ventas trimestrales (en
miles de dólares) es y. Elaborar el gráfico de dispersión, la prueba de
hipótesis y estimar las ventas para una población de 18 mil estudiantes.
Wilfredo Bulege
59
Restaurante x y
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
Wilfredo Bulege
60
30
datos <- read.csv(file="c:/r/rls1.csv", header=TRUE, sep=",")

attach(datos)
model <- lm(y ~ x)
summary(model)
sunflowerplot(x, y)
abline(model, col="red")
Wilfredo Bulege
61
Wilfredo Bulege
62
31
La pendiente de la ecuación de regresión estimada (b1 = 5) es positiva,
lo que implica que a medida que aumenta el tamaño de la población de
estudiantes, aumentan las ventas. Se concluye (basándose en las
ventas dadas en miles de $ y en el tamaño de la población de
estudiantes en miles) que un aumento de 1,000 en el tamaño de la
población de estudiantes corresponde a un aumento esperado de
$5,000 en las ventas; es decir, se espera que las ventas trimestrales
aumenten $5 por cada aumento de un estudiante.
Si se considera que la ecuación de regresión estimada obtenida por el
método de mínimos cuadrados describe adecuadamente la relación
entre x y y, parecerá razonable usar esta ecuación de regresión
estimada para estimar el valor de y para un valor dado de x (Anderson
et. al, 2008).
Wilfredo Bulege
63
Wilfredo Bulege
64
32
1. Hipótesis:
H0 : β1 = 0
Ha : β1 ≠ 0
4. Comparación de p y α: valor-p = 2.549e-05 ≤ α = 0.01
5. Decisión: Se rechaza Ho
6. Conclusión: Existe relación significativa entre x y y.
Wilfredo Bulege
65
¿Cuál es la ecuación?
y = β0 + β1 x
Ventas trimestrales = 60 + 5 * 18
¿Cuál es el estimado de ventas para una población de 18,000

estudiantes?
Ventas trimestrales = 150,000 dólares.
Wilfredo Bulege
66
33
Coeficiente de Determinación R2:
Este coeficiente determina qué porcentaje (en tantos por uno) de la

varianza de la variable dependiente es explicado por el modelo de
regresión.
En general, se pueden clasificar los valores de R2 de la siguiente

manera:
< 0.3 0.3 - < 0.4 0.4 - < 0.5 0.5 - 0.85 > 0.85
Muy malo Malo Regular Bueno Sospechoso
Wilfredo Bulege
67
Regresión lineal múltiple:
El objetivo es construir un modelo probabilístico que relacione una

variable dependiente (y) con dos o más variables independientes
(x1, x2, x3…). La ecuación de la línea de regresión lineal múltiple es:
y=β0 + β1 x1 + β2 x2 +⋯+βkxk + ϵk
Donde:
y = Variable dependiente
β0 = Coeficiente de intercepto
β1, β2 = Coeficientes de pendiente
x1, x2 = Variables independientes
ϵ = Variable aleatoria (Quevedo et. al, 2008)
Wilfredo Bulege
68
34
Ejemplo:
Los gerentes de la empresa Butler Trucking Company -una empresa

que se dedica al transporte de objetos y mercancías en el sur de
California- deseaban mejorar el horario de trabajo, para lo cual debían
estimar el tiempo de recorrido en horas (y) necesario para hacer las
entregas, en función al número de millas recorridas (x1) y la cantidad de
entregas (x2). Partiendo de una muestra aleatoria simple de 10 entregas
se obtuvieron los datos que se presentan a continuación (Anderson et.
al, 2008). Elaborar el gráfico de dispersión y la prueba de hipótesis.
Wilfredo Bulege
69
Recorrido x1 x2 y
asignado
1 100 4 9.3
2 50 3 4.8
3 100 4 8.9
4 100 2 6.5
5 50 2 4.2
6 80 2 6.2
7 75 3 7.4
8 65 4 6.0
9 90 3 7.6
10 90 2 6.1
Wilfredo Bulege
70
35
datos <- read.csv(file="c:/r/rlm1.csv", header=TRUE, sep=",")

attach(datos)
model <- lm(y ~ x1 + x2)
summary(model, digits=5)
pairs(datos, cex.labels=1.5, main='Matriz de dispersión', las=1,
col='dodgerblue2')
Wilfredo Bulege
71
Wilfredo Bulege
72
36
En el ejemplo de Butler Trucking con dos variables independientes, b1 =
0.0611. Por lo tanto, 0.0611 horas es la estimación del aumento
esperado en el tiempo de recorrido que corresponde al aumento en una
milla en la distancia recorrida cuando el número de entregas permanece
constante.
De manera similar, como b2 = 0.923, una estimación del aumento
esperado en el tiempo de recorrido que corresponde al aumento de una
entrega permaneciendo constante el número de millas recorridas es
0.923 horas.
Wilfredo Bulege
73
Wilfredo Bulege
74
37
1. Hipótesis:
Ho : β1 = β2 = … = βk = 0 Regresión no significativa.
Ha : βj ≠ 0 para algún i=1, 2…, k Regresión significativa.
3. Estadístico de prueba: valor-p < α/2
5. Decisión: Se rechaza H0
6. Conclusión: Se acepta que el modelo de regresión es significativo, es
decir, al menos una variable explicativa influye en la variable dependiente.
Wilfredo Bulege
75
Prueba t - Student:
Es una prueba estadística para evaluar si dos grupos difieren entre sí de

manera significativa respecto a sus medias en una variable. Se
simboliza como t.
⚫ Hipótesis: de diferencia entre dos grupos. La hipótesis de

investigación propone que los grupos difieren entre sí de manera
significativa y la hipótesis nula plantea que los grupos no difieren
significativamente. Los grupos pueden ser dos plantas comparadas
en su productividad, dos medicamentos comparados en su efecto,
etcétera.
Wilfredo Bulege
76
38
⚫ Variables: la comparación se realiza sobre una variable (regularmente
y de manera teórica: dependiente). Si hay diferentes variables, se
efectuarán varias pruebas t (una por cada variable), y la razón que
motiva la creación de los grupos puede ser una variable
independiente. Por ejemplo, un experimento con dos grupos, donde a
uno se le aplica el estímulo experimental y al otro no, es de control.
⚫ Nivel de medición de la variable de comparación: intervalos o razón.
Wilfredo Bulege
77
Prueba de diferencia de proporciones:
Es una prueba estadística para analizar si dos proporciones o

porcentajes difieren significativamente entre sí.
⚫ Hipótesis: de diferencia de proporciones en dos grupos.

⚫ Variable: la comparación se realiza sobre una variable. Si hay varias,
se efectuará una prueba de diferencia de proporciones por variable.
⚫ Nivel de medición de la variable de comparación: cualquier nivel,
incluso por intervalos o razón, pero siempre expresados en
proporciones o porcentajes.
Wilfredo Bulege
78
39
Análisis de Varianza (ANOVA) one-way:
Es una prueba estadística para analizar si más de dos grupos difieren

significativamente entre sí en cuanto a sus medias y varianzas. La
prueba t se aplica para dos grupos y el análisis de varianza
unidireccional se usa para tres, cuatro o más grupos. Aunque con dos
grupos se puede utilizar también.
⚫ Hipótesis: de diferencia entre más de dos grupos. La hipótesis de

investigación propone que los grupos difieren significativamente entre
sí y la hipótesis nula propone que los grupos no difieren
significativamente.
Wilfredo Bulege
79
⚫ Variables: una variable

independiente y una variable
dependiente.
⚫ Nivel de medición de las
variables: la variable
independiente es categórica y la
dependiente es por intervalos o
razón. Fuente:
https://en.wikipedia.org/wiki/Analysis_of_variance
Wilfredo Bulege
80
40
Análisis no paramétrico
Para realizar análisis no paramétricos debe partirse de los siguientes

supuestos:
⚫ La mayoría de estos análisis no requieren de presupuestos acerca de
la forma de la distribución poblacional. Aceptan distribuciones no
normales.
⚫ Las variables no necesariamente tienen que estar medidas en un nivel
de intervalos o de razón; pueden analizar datos nominales u
ordinales. De hecho, si se requieren aplicar análisis no paramétricos a
datos por intervalos o razón, éstos se resumen a categorías discretas.
Las variables deben ser categóricas.
Wilfredo Bulege
81
Chi cuadrada:
Es una prueba estadística para evaluar hipótesis acerca de la relación

entre dos variables categóricas. Se simboliza como X2
⚫ Hipótesis por probar: correlacionales.

⚫ Variables involucradas: dos. La prueba Chi cuadrada no considera
relaciones causales.
⚫ Nivel de medición de las variables: nominal u ordinal (o intervalos o
razón reducidos a ordinales).
Wilfredo Bulege
82
41
Coeficientes de correlación e independencia para tabulaciones
cruzadas:
Además de la Chi cuadrada, hay otros coeficientes para evaluar si las

variables incluidas en la tabla de contingencia o tabulación cruzada
están correlacionadas.
Phi, Coeficiente de contingencia C de Pearson, V de Cramer, Goodman-

Kruskal Lambda o sólo Lambda, Coeficiente de incertidumbre o entropía
o U de Theil, Gamma de Goodman y Kruskal, Tau-a, Tau-b y Tau-c, D de
Somers, Kappa.
Wilfredo Bulege
83
Coeficientes y correlación por rangos ordenados de Spearman y

Kendall:
Los coeficientes rho de Spearman, simbolizado como rs, y tau de

Kendall, simbolizado como t, son medidas de correlación para variables
en un nivel de medición ordinal (ambas), de tal modo que los individuos,
casos o unidades de análisis de la muestra pueden ordenarse por
rangos (jerarquías). Son coeficientes utilizados para relacionar
estadísticamente escalas tipo Likert por aquellos investigadores que las
consideran ordinales.
Wilfredo Bulege
84
42
Eta:
Es similar al coeficiente r de
Pearson, pero con relaciones
no lineales, es decir, Eta define la
“correlación perfecta” (1.00) como
curvilineal y a la “relación nula”
(0.0) como la independencia
estadística de las variables.
Wilfredo Bulege
85
Otros coeficientes de
correlación:
⚫ Biserial (rb)
⚫ Biserial por rangos (rrb)
⚫ Biserial puntual (rpb)
⚫ Tetracórico
Además:
⚫ U de Mann Whitney
⚫ Wilcoxon (test de signos)
⚫ Kruskal Wallis
Wilfredo Bulege
86
43
Ejemplos para escribir las técnicas de
análisis de datos en el Plan de
Técnicas de análisis de datos: Investigación?
Recolectado los datos se procederá a preparar la base de datos para
realizar un análisis descriptivo a través de distribución de frecuencias y
gráficos con sus respectivas interpretaciones. Para la prueba de la
hipótesis general se hará uso del coeficiente de correlación de Rho de
Spearman cuyo contraste consistirá en validar cambios del incremento
en la variable dependiente (Y) de los estudiantes de la UNMSM a partir
de la aplicación de la variable independiente (X).
Se utilizará el software Excel y R Studio para el procesamiento de

datos.
Wilfredo Bulege
87
Técnicas de análisis de datos:
La información recolectada será verificada, revisada, codificada y

tabulada con el fin de ordenarlas, clasificarlas y presentarlas en tablas y
gráficos estadísticos para facilitar su comprensión.
Se realizará las pruebas de hipótesis para el análisis de normalidad

de los datos, y las pruebas paramétricas y no paramétricas a aplicar a
cada variable.
El trabajo de procesamiento se realizará utilizando el Software Excel.
Wilfredo Bulege
88
44
wilfredobulege@gmail.com
https://ctivitae.concytec.gob.pe/appDirectorioCTI
/VerDatosInvestigador.do?id_investigador=1729
Wilfredo Bulege
89
45

08-Análisis Parametrica y No Parametrica

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

08-Análisis Parametrica y No Parametrica

Cargado por

Copyright:

Formatos disponibles

Metodología de la Investigación

Análisis de datos cuantitativos

En primer término, se describe los

⚫ Recolecta, ordena, analiza y

Distribución de frecuencias: Tabla 1

Se utiliza para representar la frecuencia de las variables cuantitativas

datos <- read.csv(file="c:/r/covid-fallecidos.csv", header=TRUE,

Es un gráfico de líneas de las frecuencias absolutas de los valores de

alti <- c(4872,4935,5064,5103,5195, 5213,5338,4988,5132,5056,5350,

Es un gráfico que sirve para representar las variables cualitativas

datos <- read.csv(file="c:/r/covid-sa.csv", header=TRUE, sep=",")

b) Graficar un diagrama de barras horizontales sobre las personas

Es un gráfico usado para representar frecuencias, porcentajes y

datos <- read.csv(file="c:/r/avifauna.csv", header=TRUE, sep=",")

⚫ Medidas de tendencia central:

Un fabricante de baterías para linternas tomó una muestra de 13

¿Cuál es la media, mediana y moda de duración de las baterías de la

⚫ Rango: Es igual al valor

Se han presentado durante un mes 41 personas para consultas

¿Qué es la Estadística inferencial?

⚫ Son métodos y procedimientos

Los procedimientos de prueba de hipótesis dependen del empleo de la

Las pruebas de hipótesis para un parámetro poblacional asumen una de

Ho: µ ≥ µo Ho: µ ≤ µo Ho: µ = µo

A las dos primeras formas se les llama pruebas de una cola, y a la

1. Formular las hipótesis nula y alterna.

Un valor-p es una probabilidad que aporta una medida de una evidencia

Una regla para el rechazo usando valor-p es:

Se tiene 10 mediciones sobre duración de nuevas baterías expresadas

Se tiene 10 mediciones sobre duración de nuevas baterías expresadas

Kolmogorov-Smirnov asume que se conoce la media y varianza

Se tiene 139 mediciones sobre precipitación en el archivo

Cada tipo posee sus características y

IntervaloCoeficiente de correlación de Pearson, Prueba

Nominal Chi cuadrada

Para realizar análisis paramétricos debe partirse de los siguientes

Coeficiente de correlación de Pearson:

Es una prueba estadística para analizar la relación entre dos variables

⚫ Hipótesis a probar: correlacional, del tipo de “a mayor X, mayor Y”, “a

Se tienen los siguientes datos de las variables gastos en publicidad

El objetivo es obtener el modelo de regresión más apropiado para fines

Para la validación del modelo de regresión, éste se relaciona con el uso

⚫ Hipótesis: correlacionales y causales.

Se tiene datos de una muestra de 10 restaurantes Armand´s Pizza

datos <- read.csv(file="c:/r/rls1.csv", header=TRUE, sep=",")

¿Cuál es el estimado de ventas para una población de 18,000

Ventas trimestrales = 150,000 dólares.

Este coeficiente determina qué porcentaje (en tantos por uno) de la

En general, se pueden clasificar los valores de R2 de la siguiente

Regresión lineal múltiple:

El objetivo es construir un modelo probabilístico que relacione una

Los gerentes de la empresa Butler Trucking Company -una empresa

datos <- read.csv(file="c:/r/rlm1.csv", header=TRUE, sep=",")

Es una prueba estadística para evaluar si dos grupos difieren entre sí de

⚫ Hipótesis: de diferencia entre dos grupos. La hipótesis de

Prueba de diferencia de proporciones:

Es una prueba estadística para analizar si dos proporciones o

⚫ Hipótesis: de diferencia de proporciones en dos grupos.

Es una prueba estadística para analizar si más de dos grupos difieren

⚫ Hipótesis: de diferencia entre más de dos grupos. La hipótesis de

⚫ Variables: una variable

Para realizar análisis no paramétricos debe partirse de los siguientes

Es una prueba estadística para evaluar hipótesis acerca de la relación

⚫ Hipótesis por probar: correlacionales.