Está en la página 1de 45

Metodología de la Investigación

Análisis de Datos:
Estadística
Descriptiva
Wilfredo Bulege Gutiérrez

Análisis de datos cuantitativos

En primer término, se describe los


datos; posteriormente se efectúa
análisis estadísticos para
relacionar las variables; es decir,
realizar análisis de estadística
descriptiva para cada una de las
variables, luego se describe la
relación entre éstas.

Wilfredo Bulege

1
Estadística descriptiva

⚫ Recolecta, ordena, analiza y


representa un conjunto de datos, con
el fin de describir apropiadamente las
características de ese conjunto.
⚫ Este análisis es básico. Aunque hay
tendencia a generalizar a toda la
población, las primeras conclusiones
obtenidas tras un análisis descriptivo,
es un estudio calculando una serie
de medidas de tendencia central, para
ver en qué medida los datos se
agrupan o dispersan en torno a un
valor central.
Wilfredo Bulege

Distribución de frecuencias: Tabla 1


Aves en la Laguna Pucush Uclo, Junín
Frecuencia Frecuencia
Una distribución de frecuencias es N° Nombre común
absoluta %
un conjunto de puntuaciones 1 Garza grande 348 35.2%
respecto de una variable 2 Ayno, gallareta 188 19.1%
Chirigue de la puna
ordenadas en sus respectivas 3 90 9.1%
4 Gallareta gigante 88 8.9%
categorías y generalmente se Cucarachero
5 70 7.1%
presenta como una tabla (O’Leary, 6 Gavilán de campo 60 6.1%
2014 y Nicol, 2006). 7 Churrete coordillerano 50 5.1%
8 Zambullidor pimpollo 36 3.6%
9 Golondrina migratoria 30 3.0%
10 Picholin 29 2.9%
Total 989 100%

Wilfredo Bulege

2
Representaciones gráficas:

⚫ Histograma de frecuencia:

Se utiliza para representar la frecuencia de las variables cuantitativas


continuas. Aquí el área de la barra es proporcional a la frecuencia de
ese intervalo, y está en relación con la probabilidad con la que cada
intervalo puede presentarse. Las columnas, a diferencia del diagrama
de barras, están todas juntas y el punto medio es el que da el nombre
al intervalo, ejemplo:
Realizar el histograma de frecuencia y curva de densidad de los 2802
fallecidos por Covid 19 por edad, registrados en Mayo, 2020 en Perú.
Wilfredo Bulege

Solución en R Project:

datos <- read.csv(file="c:/r/covid-fallecidos.csv", header=TRUE,


sep=",")
edad <-c(datos$edad)
hist(edad, freq = F, main="Covid 19, fallecidos en Perú, Mayo 2020",
xlab="Edad", ylab="Densidad", col=3)
lines(density(edad), col = "red", lty = 1, lwd = 2)

Wilfredo Bulege

3
12.7 x 18.52

Wilfredo Bulege

⚫ Polígono de frecuencia:

Es un gráfico de líneas de las frecuencias absolutas de los valores de


una distribución en el cual la altura del punto asociado a un valor de
las variables es proporcional a la frecuencia de dicho valor, ejemplo:
Graficar el polígono de frecuencias de las altitudes de glaciares de la
Cordillera Blanca de Perú, 2014.

Wilfredo Bulege

4
Solución en R Project:

alti <- c(4872,4935,5064,5103,5195, 5213,5338,4988,5132,5056,5350,


5196,5138,5216)
A<- hist(alti,main="Altitud glaciares de la Cordillera Blanca, Perú,
2014", xlab="msnm", ylab= "Cantidad", col=2)
lines(c(min(A$breaks),A$mids,max(A$breaks)),c(0,A$counts,0),
type= "l",col="blue", lwd=2)

Wilfredo Bulege

Wilfredo Bulege

10

5
⚫ Diagrama de barras:

Es un gráfico que sirve para representar las variables cualitativas


ordinales. En el eje horizontal se representan las diferentes categorías
y sobre él se levantan unas columnas o barras cuya altura es
proporcional a la frecuencia de cada categoría. También podríamos
utilizar este tipo de gráfico para representar variables cuantitativas
discretas, pero lo que no es correcto hacer es usarlo para las variables
cualitativas nominales, ejemplos:
a) Graficar un diagrama de barras verticales sobre las personas
fallecidas por cada millón de habitantes, por Covid 19 a Junio de
2020 de los países a nivel de Sudamérica.

Wilfredo Bulege

11

Solución en R Project:

datos <- read.csv(file="c:/r/covid-sa.csv", header=TRUE, sep=",")


fall <-c(datos$fallecxmh)
pais <-c(datos$pais)
barplot(fall, width=1, col= rainbow(6), lwd=1, main="100 días de
COVID19 en Perú, fallecidos x millón de habitantes, al 13/06/20",
xlab="Países", ylab="Fallecidos por millón de habitantes",
names.arg=pais, cex.names=0.9, las=1)

Wilfredo Bulege

12

6
Wilfredo Bulege

13

b) Graficar un diagrama de barras horizontales sobre las personas


fallecidas por cada millón de habitantes, por Covid 19 a Junio de
2020 de los países a nivel de Sudamérica.

Wilfredo Bulege

14

7
Solución en R Project:

#install.packages("dplyr")
library(dplyr)
datos <- read.csv(file="c:/r/covid-sa.csv", header=TRUE, sep=",")
datos <- arrange(datos, fallecxmh) # para Orden inverso = -fallecxmh
fall <-c(datos$fallecxmh)
pais <-c(datos$pais)
barplot(fall, width=1, col= rainbow(10), lwd=2, main="100 días de
COVID19 en Perú, fallecidos x millón de habitantes, al 13/06/20", xlab=
"Fallecidos por millón de habitantes", horiz=TRUE, las=1,
names.arg=pais, cex.names=0.7,cex.axis = 0.9)
Wilfredo Bulege

15

Wilfredo Bulege

16

8
⚫ Gráfico circular:

Es un gráfico usado para representar frecuencias, porcentajes y


proporciones. Se suele usar con variables cualitativas, ya que con
variables cuantitativas puede generar confusiones. También es
llamado, gráfico de pastel, gráfico de torta o gráfica de 360°, ejemplo:
Realizar un gráfico circular sobre las diversas especies de avifauna
existentes en la Laguna Pucush Uclo en Junín con datos de noviembre
del año 2018.

Wilfredo Bulege

17

Solución en R Project:

datos <- read.csv(file="c:/r/avifauna.csv", header=TRUE, sep=",")


attach(datos)
pie(total, col = c("purple", "violetred1", "green3","cornsilk", "cyan",
"red", "yellow", "blue", "orange"), labels=especie, radius=1,
main="Avifauna de la Laguna Pucush Uclo, Noviembre,
2021",clockwise = FALSE)

Wilfredo Bulege

18

9
Wilfredo Bulege

19

⚫ Medidas de tendencia central:

⚫ Media aritmética:
Es la suma de todos los
valores dividido por su
número.
Fuente:
http://www.universoformulas.com/estadistica/descripti
X1+X2+X3+X4+⋯+Xn va/media/
Xഥ =
n

Wilfredo Bulege

20

10
⚫ Mediana:
Es el valor en el medio de la
selección, si todos los valores
Fuente:
están dispuestos de menor a http://www.universoformulas.com/estadistica/descripti
va/mediana/
mayor.
n+1
M=
2

⚫ Moda:
Es el valor más común en
nuestro conjunto de datos. Fuente:
http://www.universoformulas.com/estadistica/descripti
Mo va/moda/

Wilfredo Bulege

21

Ejemplo:

Un fabricante de baterías para linternas tomó una muestra de 13


baterías en un día de producción y las usó hasta que se agotaron. Las
horas que funcionaron sin fallar fueron las siguientes:
342, 426, 317, 545, 264, 451, 104, 963, 512, 266, 492, 317, 298.

¿Cuál es la media, mediana y moda de duración de las baterías de la


muestra?

Wilfredo Bulege

22

11
Solución en R Project:

horas <- c(342, 426, 317, 545, 264, 251, 104, 963, 512, 266, 492, 317, 298)
mean(horas)
median(horas)
moda=function(x)
{q=table(x)
q=sort(q,TRUE)
return(q[1])}
moda (horas)

Wilfredo Bulege

23

⚫ Medidas de variabilidad:

⚫ Rango: Es igual al valor


máximo menos el valor
R = X max − X min
mínimo y se denota con la
letra R.

Wilfredo Bulege

24

12
⚫ Varianza: Es la dispersión 2
n

 (x − x )
dentro de un conjunto de
datos. Si el valor de la
i
varianza es pequeño, significa
que los valores del conjunto S =
2 i =1
están bastante agrupados, de n −1
lo contrario, quiere decir que
los elementos dentro del
conjunto que se analiza están
dispersos.

Wilfredo Bulege

25

⚫ Desviación estándar: La
desviación estándar n 2
representa la magnitud de la
dispersión de las variables  (x − x ) i
S=
dentro de un intervalo de
i =1
razón. Para su cálculo
partimos de la varianza y
calculamos su raíz cuadrada.
n −1

Wilfredo Bulege

26

13
Ejemplo:

Se han presentado durante un mes 41 personas para consultas


psicológicas en una clínica privada. Hallar el rango, varianza y
desviación estándar de las edades de este grupo de personas cuyas
edades son:

22, 22, 23, 24, 25, 25, 26, 27, 28, 29, 29, 29, 29, 29, 31, 31, 32, 33, 34,
35, 35, 35, 36, 38, 39, 39, 42, 42, 44, 44, 45, 45, 45, 47, 48, 52, 59, 66,
67, 69, 69.

Wilfredo Bulege

27

Solución en R Project:

edad <- c(22, 22, 23, 24, 25, 25, 26, 27, 28, 24, 29, 29, 29, 29, 31, 31,
36, 33, 34, 35, 35, 35, 36, 38, 39, 39, 42, 42, 44, 44, 45, 45, 45, 47, 48,
52, 59, 66, 67, 69, 69)
range(edad)
var(edad)
sd(edad)

Wilfredo Bulege

28

14
Análisis de Datos:
Estadística Inferencial
Wilfredo Bulege Gutiérrez

29

¿Qué es la Estadística inferencial?

⚫ Son métodos y procedimientos


que por medio de la inducción
determinan propiedades de
una población estadística, a
partir de una pequeña parte de
la misma.
⚫ La estadística inferencial se
utiliza para probar hipótesis y
estimar parámetros.

Wilfredo Bulege

30

15
¿Qué es la Prueba de hipótesis?
Una prueba de hipótesis estadística es una regla que conduce a la
decisión de aceptar o rechazar cierta hipótesis identificada como
hipótesis nula, con base en los resultados de una muestra.

Los procedimientos de prueba de hipótesis dependen del empleo de la


información contenida en una muestra aleatoria de la población de
interés. Si esta información es consistente con la hipótesis nula se
concluye que ésta es verdadera; sin embargo, si esta información es
inconsistente con la hipótesis se concluye que es falsa (Quevedo y
Pérez, 2008).

Wilfredo Bulege

31

Las pruebas de hipótesis para un parámetro poblacional asumen una de


estas tres formas:

Ho: µ ≥ µo Ho: µ ≤ µo Ho: µ = µo


Ha: µ < µo Ha: µ > µo Ha: µ ≠ µo

A las dos primeras formas se les llama pruebas de una cola, y a la


tercera se le llama prueba de dos colas.

Wilfredo Bulege

32

16
Pasos de una prueba de hipótesis utilizando el método valor-p:

1. Formular las hipótesis nula y alterna.


2. Especificar el nivel de significancia.
3. Recabar los datos muestrales y calcular el valor del estadístico de
prueba.
4. Emplear el valor del estadístico de prueba para calcular el valor-p.
5. Rechazar Ho si el valor-p ≤ α .
6. Conclusión.

Wilfredo Bulege

33

Un valor-p es una probabilidad que aporta una medida de una evidencia


suministrada por la muestra contra la hipótesis nula. Valores-p
pequeños indican una evidencia mayor contra la hipótesis nula. El valor-
p se usa para determinar si la hipótesis nula debe ser rechazada
(Anderson et. al, 2008).

Una regla para el rechazo usando valor-p es:

Rechazar H0 si el valor-p ≤ α

Wilfredo Bulege

34

17
Análisis de Normalidad:
Gráfico de cuantiles teóricos (Gráficos Q-Q)
Consiste en comparar los cuantiles
de la distribución observada con
los cuantiles teóricos de una
distribución normal con la misma
media y desviación estándar que
los datos.
Cuanto más se aproximen los
datos a una normal, más alineados
están los puntos entorno a la recta.

Wilfredo Bulege

35

Ejemplo:

Se tiene 10 mediciones sobre duración de nuevas baterías expresadas


en horas, determinar si éstos valores tienen una distribución normal
basada en un gráfico QQ.

Wilfredo Bulege

36

18
Solución en R Project:

x<-c(105, 116, 103, 124, 137, 126, 112, 129, 118, 105)
qqnorm(x)
qqline(x, col="red")

Wilfredo Bulege

37

Wilfredo Bulege

38

19
Shapiro-Wilk
La prueba de normalidad de
Shapiro-Wilk es aplicable cuando
se analizan muestras compuestas
hasta por 50 elementos (muestras
pequeñas) (Parada, 2019).

Wilfredo Bulege

39

Ejemplo:

Se tiene 10 mediciones sobre duración de nuevas baterías expresadas


en horas, determinar si éstos valores tienen una distribución normal.

Wilfredo Bulege

40

20
Solución en R Project:

x<-c(105, 116, 103, 124, 137, 126, 112, 129, 118, 105)
shapiro.test(x)

Wilfredo Bulege

41

Prueba de hipótesis:

1. Hipótesis:
H0: La distribución es normal
Ha: La distribución no es normal
2. Nivel de significancia: α = 0.05
3. Estadístico de prueba: valor-p
4. Comparación de p y α: valor-p = 0.6284 ≤ α = 0.05
5. Decisión: No se rechaza la H0
6. Conclusión: La distribución es normal.

Wilfredo Bulege

42

21
Kolmogorov-Smirnov
y modificación de Lilliefors
El test de Kolmogorov-Smirnov permite estudiar si una muestra procede
de una población con una determinada distribución (media y desviación
típica), no está limitado únicamente a la distribución normal.

Kolmogorov-Smirnov asume que se conoce la media y varianza


poblacional, lo que en la mayoría de los casos no es posible. Esto hace
que el test sea muy conservador y poco potente. Para solventar este
problema, se desarrolló una modificación del Kolmogorov-
Smirnov conocida como test Lilliefors. Es aplicado cuando el número de
observaciones es mayor de 50.

Wilfredo Bulege

43

Ejemplo:

Se tiene 139 mediciones sobre precipitación en el archivo


“contaminación.csv”, determinar si éstos valores tienen una distribución
normal.

Wilfredo Bulege

44

22
Solución en R Project:

#install.packages("nortest")
library(nortest)
datos <- read.csv(file="c:/r/contaminacion.csv", header=TRUE, sep=",")
x <- datos$precipitacion
lillie.test(x)

Wilfredo Bulege

45

Prueba de hipótesis:

1. Hipótesis:
H0: La distribución es normal
Ha: La distribución no es normal
2. Nivel de significancia: α = 0.05
3. Estadístico de prueba: valor-p
4. Comparación de p y α: valor-p = 0.1901 ≤ α = 0.05
5. Decisión: No se rechaza H0
6. Conclusión: La distribución es normal.

Wilfredo Bulege

46

23
Pruebas paramétricas y
no paramétricas
Hay dos tipos de análisis estadísticos
que pueden realizarse para probar
hipótesis: los análisis paramétricos y
los no paramétricos.

Cada tipo posee sus características y


presuposiciones que lo sustentan; la
elección de qué clase de análisis
efectuar depende de los supuestos.

Wilfredo Bulege

47

Nivel de
Análisis Pruebas más utilizadas
medición

IntervaloCoeficiente de correlación de Pearson, Prueba


Paramétrico t, Prueba de contraste de la diferencia de
proporciones, ANOVA unidireccional, ANOVA
De razón factorial, ANCOVA, Prueba Z, Valor p.

Nominal Chi cuadrada


No
paramétrico Chi cuadrada, Prueba de signo, Correlación de
Ordinal Spearman, Kendall Tau, Prueba de Mann-
Whitney, Wilcoxon, Kruskal-Wallis.
Wilfredo Bulege

48

24
Análisis paramétrico

Para realizar análisis paramétricos debe partirse de los siguientes


supuestos:
⚫ La distribución poblacional de la variable dependiente es normal: el
universo tiene una distribución normal.
⚫ El nivel de medición de la variable dependiente es por intervalos o
razón.
⚫ Cuando dos o más poblaciones son estudiadas, tienen una varianza
homogénea: las poblaciones en cuestión tienen una dispersión
similar en sus distribuciones (Wiersma y Jurs, 2008).

Wilfredo Bulege

49

Coeficiente de correlación de Pearson:

Es una prueba estadística para analizar la relación entre dos variables


medidas en un nivel por intervalos o de razón. Se simboliza como r.

⚫ Hipótesis a probar: correlacional, del tipo de “a mayor X, mayor Y”, “a


mayor X, menor Y”, “altos valores en X están asociados con altos
valores en Y”, “altos valores en X se asocian con bajos valores de Y”.
La hipótesis de investigación señala que la correlación es
significativa.

Wilfredo Bulege

50

25
⚫ Variables: La prueba en sí no considera a una como independiente y
a otra como dependiente, ya que no evalúa la causalidad. Se
relacionan las puntuaciones recolectadas de una variable con las
puntuaciones obtenidas de la otra, con los mismos participantes o
casos (Bagiella, 2007; Onwuegbuzie, Daniel y Leech, 2006a).
⚫ Nivel de medición de las variables: intervalos o razón.

Wilfredo Bulege

51

Ejemplo:

Se tienen los siguientes datos de las variables gastos en publicidad


radial (X) y ventas (Y) de 10 semanas. Realizar la prueba de hipótesis
de correlación de Pearson.

Gastos: 25, 21, 15, 22, 15, 16, 28, 30, 23, 15
Ventas: 126, 110, 87, 97, 80, 84, 129, 126, 115, 91

Wilfredo Bulege

52

26
Solución en R Project:

gastos<- c (25, 21, 15, 22, 15, 16, 28, 30, 23, 15)
ventas<- c (126, 110, 87, 97, 80, 84, 129, 126, 115, 91)
cor(gastos, ventas)
model <- lm(ventas ~ gastos)
summary(model)

Wilfredo Bulege

53

Valor Significado
-1 Correlación negativa grande y perfecta
-0.9 a -0.99 Correlación negativa muy alta
-0.7 a -0.89 Correlación negativa alta
-0.4 a -0.69 Correlación negativa moderada
-0.2 a -0.39 Correlación negativa baja
-0.01 a -0.19 Correlación negativa muy baja
0 Correlación nula
0.01 a 0.19 Correlación positiva muy baja
0.2 a 0.39 Correlación positiva baja
0.4 a 0.69 Correlación positiva moderada
0.7 a 0.89 Correlación positiva alta
0.9 a 0.99 Correlación positiva muy alta
1 Correlación positiva grande y perfecta
Wilfredo Bulege

54

27
Wilfredo Bulege

55

Prueba de hipótesis:

1. Hipótesis:
H0 : p = 0 No existe correlación lineal
Ha : p ≠ 0 Si existe correlación lineal
2. Nivel de significancia: α = 0.01
3. Estadístico de prueba: r de Pearson
4. Comparación de p y α: valor-p = 5.407e-05 ≤ α = 0.01
5. Decisión: Se rechaza H0
6. Conclusión: Existe correlación lineal positiva muy alta
entre gastos por publicidad y ventas.
Wilfredo Bulege

56

28
Regresión lineal simple:

El objetivo es obtener el modelo de regresión más apropiado para fines


de predicción y estimación. Los componentes de esta ecuación son, una
variable dependiente (y) y una variable independiente (x). La ecuación
de la línea de regresión lineal simple es: y = β0 + β1 x + ϵ .

Donde:
y = Variable dependiente
β0 = Intercepto en la ordenada
β1 = Pendiente de la línea
x = Variable independiente
ϵ = Error aleatorio no observado en y (Quevedo et. al, 2008)
Wilfredo Bulege

57

Para la validación del modelo de regresión, éste se relaciona con el uso


de estadísticas como el coeficiente de determinación múltiple R2, el
coeficiente de determinación ajustado R2ajustada, el error estándar
estimado s, tablas de análisis de varianza, pruebas t de Student,
intervalos de confianza, el criterio de Mallow de Cp, PRESS, y así
sucesivamente.

⚫ Hipótesis: correlacionales y causales.


⚫ Variables: dos, una independiente y otra dependiente.
⚫ Nivel de medición de las variables: intervalos o razón.

Wilfredo Bulege

58

29
Ejemplo:

Se tiene datos de una muestra de 10 restaurantes Armand´s Pizza


Parlors ubicados todos cerca de campus universitarios. El tamaño de la
población de estudiantes (en miles) es x, y las ventas trimestrales (en
miles de dólares) es y. Elaborar el gráfico de dispersión, la prueba de
hipótesis y estimar las ventas para una población de 18 mil estudiantes.

Wilfredo Bulege

59

Restaurante x y

1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202

Wilfredo Bulege

60

30
Solución en R Project:

datos <- read.csv(file="c:/r/rls1.csv", header=TRUE, sep=",")


attach(datos)
model <- lm(y ~ x)
summary(model)
sunflowerplot(x, y)
abline(model, col="red")

Wilfredo Bulege

61

Wilfredo Bulege

62

31
La pendiente de la ecuación de regresión estimada (b1 = 5) es positiva,
lo que implica que a medida que aumenta el tamaño de la población de
estudiantes, aumentan las ventas. Se concluye (basándose en las
ventas dadas en miles de $ y en el tamaño de la población de
estudiantes en miles) que un aumento de 1,000 en el tamaño de la
población de estudiantes corresponde a un aumento esperado de
$5,000 en las ventas; es decir, se espera que las ventas trimestrales
aumenten $5 por cada aumento de un estudiante.
Si se considera que la ecuación de regresión estimada obtenida por el
método de mínimos cuadrados describe adecuadamente la relación
entre x y y, parecerá razonable usar esta ecuación de regresión
estimada para estimar el valor de y para un valor dado de x (Anderson
et. al, 2008).
Wilfredo Bulege

63

Wilfredo Bulege

64

32
Prueba de hipótesis:

1. Hipótesis:
H0 : β1 = 0
Ha : β1 ≠ 0
2. Nivel de significancia: α = 0.01
3. Estadístico de prueba: valor-p
4. Comparación de p y α: valor-p = 2.549e-05 ≤ α = 0.01
5. Decisión: Se rechaza Ho
6. Conclusión: Existe relación significativa entre x y y.

Wilfredo Bulege

65

¿Cuál es la ecuación?

y = β0 + β1 x

Ventas trimestrales = 60 + 5 * 18

¿Cuál es el estimado de ventas para una población de 18,000


estudiantes?

Ventas trimestrales = 150,000 dólares.

Wilfredo Bulege

66

33
Coeficiente de Determinación R2:

Este coeficiente determina qué porcentaje (en tantos por uno) de la


varianza de la variable dependiente es explicado por el modelo de
regresión.

En general, se pueden clasificar los valores de R2 de la siguiente


manera:
< 0.3 0.3 - < 0.4 0.4 - < 0.5 0.5 - 0.85 > 0.85
Muy malo Malo Regular Bueno Sospechoso

Wilfredo Bulege

67

Regresión lineal múltiple:

El objetivo es construir un modelo probabilístico que relacione una


variable dependiente (y) con dos o más variables independientes
(x1, x2, x3…). La ecuación de la línea de regresión lineal múltiple es:
y=β0 + β1 x1 + β2 x2 +⋯+βkxk + ϵk

Donde:
y = Variable dependiente
β0 = Coeficiente de intercepto
β1, β2 = Coeficientes de pendiente
x1, x2 = Variables independientes
ϵ = Variable aleatoria (Quevedo et. al, 2008)
Wilfredo Bulege

68

34
Ejemplo:

Los gerentes de la empresa Butler Trucking Company -una empresa


que se dedica al transporte de objetos y mercancías en el sur de
California- deseaban mejorar el horario de trabajo, para lo cual debían
estimar el tiempo de recorrido en horas (y) necesario para hacer las
entregas, en función al número de millas recorridas (x1) y la cantidad de
entregas (x2). Partiendo de una muestra aleatoria simple de 10 entregas
se obtuvieron los datos que se presentan a continuación (Anderson et.
al, 2008). Elaborar el gráfico de dispersión y la prueba de hipótesis.

Wilfredo Bulege

69

Recorrido x1 x2 y
asignado
1 100 4 9.3
2 50 3 4.8
3 100 4 8.9
4 100 2 6.5
5 50 2 4.2
6 80 2 6.2
7 75 3 7.4
8 65 4 6.0
9 90 3 7.6
10 90 2 6.1

Wilfredo Bulege

70

35
Solución en R Project:

datos <- read.csv(file="c:/r/rlm1.csv", header=TRUE, sep=",")


attach(datos)
model <- lm(y ~ x1 + x2)
summary(model, digits=5)
pairs(datos, cex.labels=1.5, main='Matriz de dispersión', las=1,
col='dodgerblue2')

Wilfredo Bulege

71

Wilfredo Bulege

72

36
En el ejemplo de Butler Trucking con dos variables independientes, b1 =
0.0611. Por lo tanto, 0.0611 horas es la estimación del aumento
esperado en el tiempo de recorrido que corresponde al aumento en una
milla en la distancia recorrida cuando el número de entregas permanece
constante.
De manera similar, como b2 = 0.923, una estimación del aumento
esperado en el tiempo de recorrido que corresponde al aumento de una
entrega permaneciendo constante el número de millas recorridas es
0.923 horas.

Wilfredo Bulege

73

Wilfredo Bulege

74

37
Prueba de hipótesis:

1. Hipótesis:
Ho : β1 = β2 = … = βk = 0 Regresión no significativa.
Ha : βj ≠ 0 para algún i=1, 2…, k Regresión significativa.
2. Nivel de significancia: α = 0.01
3. Estadístico de prueba: valor-p < α/2
4. Comparación de p y α: valor-p = 0.0002762 ≤ α = 0.01
5. Decisión: Se rechaza H0
6. Conclusión: Se acepta que el modelo de regresión es significativo, es
decir, al menos una variable explicativa influye en la variable dependiente.
Wilfredo Bulege

75

Prueba t - Student:

Es una prueba estadística para evaluar si dos grupos difieren entre sí de


manera significativa respecto a sus medias en una variable. Se
simboliza como t.

⚫ Hipótesis: de diferencia entre dos grupos. La hipótesis de


investigación propone que los grupos difieren entre sí de manera
significativa y la hipótesis nula plantea que los grupos no difieren
significativamente. Los grupos pueden ser dos plantas comparadas
en su productividad, dos medicamentos comparados en su efecto,
etcétera.

Wilfredo Bulege

76

38
⚫ Variables: la comparación se realiza sobre una variable (regularmente
y de manera teórica: dependiente). Si hay diferentes variables, se
efectuarán varias pruebas t (una por cada variable), y la razón que
motiva la creación de los grupos puede ser una variable
independiente. Por ejemplo, un experimento con dos grupos, donde a
uno se le aplica el estímulo experimental y al otro no, es de control.
⚫ Nivel de medición de la variable de comparación: intervalos o razón.

Wilfredo Bulege

77

Prueba de diferencia de proporciones:

Es una prueba estadística para analizar si dos proporciones o


porcentajes difieren significativamente entre sí.

⚫ Hipótesis: de diferencia de proporciones en dos grupos.


⚫ Variable: la comparación se realiza sobre una variable. Si hay varias,
se efectuará una prueba de diferencia de proporciones por variable.
⚫ Nivel de medición de la variable de comparación: cualquier nivel,
incluso por intervalos o razón, pero siempre expresados en
proporciones o porcentajes.

Wilfredo Bulege

78

39
Análisis de Varianza (ANOVA) one-way:

Es una prueba estadística para analizar si más de dos grupos difieren


significativamente entre sí en cuanto a sus medias y varianzas. La
prueba t se aplica para dos grupos y el análisis de varianza
unidireccional se usa para tres, cuatro o más grupos. Aunque con dos
grupos se puede utilizar también.

⚫ Hipótesis: de diferencia entre más de dos grupos. La hipótesis de


investigación propone que los grupos difieren significativamente entre
sí y la hipótesis nula propone que los grupos no difieren
significativamente.

Wilfredo Bulege

79

⚫ Variables: una variable


independiente y una variable
dependiente.
⚫ Nivel de medición de las
variables: la variable
independiente es categórica y la
dependiente es por intervalos o
razón. Fuente:
https://en.wikipedia.org/wiki/Analysis_of_variance

Wilfredo Bulege

80

40
Análisis no paramétrico

Para realizar análisis no paramétricos debe partirse de los siguientes


supuestos:
⚫ La mayoría de estos análisis no requieren de presupuestos acerca de
la forma de la distribución poblacional. Aceptan distribuciones no
normales.
⚫ Las variables no necesariamente tienen que estar medidas en un nivel
de intervalos o de razón; pueden analizar datos nominales u
ordinales. De hecho, si se requieren aplicar análisis no paramétricos a
datos por intervalos o razón, éstos se resumen a categorías discretas.
Las variables deben ser categóricas.

Wilfredo Bulege

81

Chi cuadrada:

Es una prueba estadística para evaluar hipótesis acerca de la relación


entre dos variables categóricas. Se simboliza como X2

⚫ Hipótesis por probar: correlacionales.


⚫ Variables involucradas: dos. La prueba Chi cuadrada no considera
relaciones causales.
⚫ Nivel de medición de las variables: nominal u ordinal (o intervalos o
razón reducidos a ordinales).

Wilfredo Bulege

82

41
Coeficientes de correlación e independencia para tabulaciones
cruzadas:

Además de la Chi cuadrada, hay otros coeficientes para evaluar si las


variables incluidas en la tabla de contingencia o tabulación cruzada
están correlacionadas.

Phi, Coeficiente de contingencia C de Pearson, V de Cramer, Goodman-


Kruskal Lambda o sólo Lambda, Coeficiente de incertidumbre o entropía
o U de Theil, Gamma de Goodman y Kruskal, Tau-a, Tau-b y Tau-c, D de
Somers, Kappa.

Wilfredo Bulege

83

Coeficientes y correlación por rangos ordenados de Spearman y


Kendall:

Los coeficientes rho de Spearman, simbolizado como rs, y tau de


Kendall, simbolizado como t, son medidas de correlación para variables
en un nivel de medición ordinal (ambas), de tal modo que los individuos,
casos o unidades de análisis de la muestra pueden ordenarse por
rangos (jerarquías). Son coeficientes utilizados para relacionar
estadísticamente escalas tipo Likert por aquellos investigadores que las
consideran ordinales.

Wilfredo Bulege

84

42
Eta:

Es similar al coeficiente r de
Pearson, pero con relaciones
no lineales, es decir, Eta define la
“correlación perfecta” (1.00) como
curvilineal y a la “relación nula”
(0.0) como la independencia
estadística de las variables.

Wilfredo Bulege

85

Otros coeficientes de
correlación:
⚫ Biserial (rb)
⚫ Biserial por rangos (rrb)
⚫ Biserial puntual (rpb)
⚫ Tetracórico

Además:
⚫ U de Mann Whitney
⚫ Wilcoxon (test de signos)
⚫ Kruskal Wallis

Wilfredo Bulege

86

43
Ejemplos para escribir las técnicas de
análisis de datos en el Plan de
Técnicas de análisis de datos: Investigación?
Recolectado los datos se procederá a preparar la base de datos para
realizar un análisis descriptivo a través de distribución de frecuencias y
gráficos con sus respectivas interpretaciones. Para la prueba de la
hipótesis general se hará uso del coeficiente de correlación de Rho de
Spearman cuyo contraste consistirá en validar cambios del incremento
en la variable dependiente (Y) de los estudiantes de la UNMSM a partir
de la aplicación de la variable independiente (X).

Se utilizará el software Excel y R Studio para el procesamiento de


datos.

Wilfredo Bulege

87

Técnicas de análisis de datos:

La información recolectada será verificada, revisada, codificada y


tabulada con el fin de ordenarlas, clasificarlas y presentarlas en tablas y
gráficos estadísticos para facilitar su comprensión.

Se realizará las pruebas de hipótesis para el análisis de normalidad


de los datos, y las pruebas paramétricas y no paramétricas a aplicar a
cada variable.

El trabajo de procesamiento se realizará utilizando el Software Excel.

Wilfredo Bulege

88

44
Wilfredo Bulege Gutiérrez

wilfredobulege@gmail.com

https://ctivitae.concytec.gob.pe/appDirectorioCTI
/VerDatosInvestigador.do?id_investigador=1729

Wilfredo Bulege

89

45

También podría gustarte