Está en la página 1de 17

2

08

IBM SPSS STATISTICS 22.0


Estadística Inferencial

Capacidad:
Realiza y obtiene el coeficiente de correlación y regresión en base a
una aplicación del mundo real.

Contenidos:

1. Técnicas de Correlación y Regresión


2. Pruebas de Significación
3. Estadística Paramétrica
1. Correlación:
Después de haber realizado análisis bivariado, trataremos con muestras bivariantes
cuantitativas, es decir con muestras donde en cada unidad estadística se observan
dos características cuantitativas medibles X (variable independiente) e Y (variable
dependiente o respuesta); por ejemplo:
- Peso de los estudiantes de la Universidad “Señor de Sipán” vs. su estatura.
- Calificaciones obtenidas por los estudiantes del Centro de Informática y
Sistemas – USS en la Unidad II vs. las horas de estudio empleadas.
- Ingresos y gastos mensuales de los padres de familia en la ciudad de Chiclayo.

El objetivo es estudiar la asociación entre dos variables conocida también como


asociación simple. La correlación, consiste en determinar la variación conjunta de
las dos variables, su grado de relación, y su sentido (-1 negativo o +1 positivo). La
medida del grado de relación se denomina coeficiente o índice de correlación. La
ruta de acceso a esta opción la encontraremos de la siguiente forma:

Figura 07: Ruta de acceso a “Correlaciones”

MÓDULO DE COMPUTACIÓN 3 2
Coeficiente de Correlación de Pearson: Conocido como coeficiente de correlación
lineal de Pearson de n pares de valores (X1, Y1), (X2, Y2), … (Xn, Yn) de una variable
bidimensional (X e Y).es el número abstracto r que se calcula por:

𝑆𝑋𝑌
r=
𝑆𝑋 𝑆 𝑌
Donde:
SXY : es la covarianza de X e Y.
SX : es la desviación estándar de X
SY : es la desviación estándar de X

El valor de “r” de Pearson, se considera de “Alta relación” cuando sur valor de acerca a
+1 (relación directa) o -1 (relación inversa).

Paralelo a ello se debe de plasmar en un gráfico de “Dispersión de Puntos” y evaluar


visualmente la tendencia que siguen ambas variables. Estas pueden ser las formas.

Figura 08: Tipos de tendencia, Diagrama de Dispersión

En SPSS 22.0, podremos plasmar este gráfico mediante la siguiente ruta:

Figura 08: Ruta de acceso a “Dispersión Puntos”

MÓDULO DE COMPUTACIÓN 3 3
Ejemplo 03: Se realizó un estudio durante las últimas lluvias del verano de 2017 en
Chiclayo; y se evaluaron 15 avenidas principales de la ciudad y se midió el volumen de
llvua caída (m3) y su repercusión de desborde (m3) que presentó. Evaluar el nivel de
asociación entre ambas variables y determinar si existe relación entre ellas.

Volumen Volumen
Lluvia (m3) Desborde (m3)
5 4
12 10
14 13
17 15
23 15
30 25
40 27
47 46
55 38
67 46
72 53
81 70
96 82
112 99
127 100
Fuente: Senamhi – Verano 2018

1º. Plasmaremos mediante un “Diagrama de Dispersión” el comportamiento que


presentan los datos.

Varibale Dependiente : "Vol. Desborde"


(respuesta)

Varibale Independiente : "Vol. Lluvia"

Figura 09: Aplicación de “Diagrama de Dispersión”

MÓDULO DE COMPUTACIÓN 3 4
2º. Luego aplicamos la ruta de “”correlación”, para así poder determinar la
existencia de relación entre las variables de estudio.

Entonces podemos apreciar a través de la matriz de correlación, que existe una “Alta
Relación” a un 98.8% entre el “Volumen de lluvia” y el “Volumen de
Desbordamiento”.

2. Regresión
En este caso, abordaremos regresión lineal simple, la cual estima los coeficientes
de la ecuación lineal, con una o más variables independientes, que mejor prediga
el valor de la variable dependiente.
Por ejemplo:
“Intentar predecir el total de ventas anuales de un vendedor (la variable
dependiente) a partir de variables independientes tales como la edad, la formación
y los años de experiencia”.

La regresión lineal simple de Y con respecto a X, consiste en determinar la ecuación


de la recta:
Y=a+bX

Cuando un diagrama de dispersión muestra un patrón lineal es deseable resumir


ese patrón mediante la ecuación de una recta. Esa recta debe representar a la
mayoría de los puntos del diagrama, aunque ningún punto esté sobre ella.

MÓDULO DE COMPUTACIÓN 3 5
Podemos encontrar dicha opción mediante la siguiente ruta:

Figura 10: Ruta de acceso a “Regresión - Lineal”

Ejemplo 04: Basándonos en el “Ejemplo 03” buscaremos calcular y determinar el


modelo de regresión que me permita predecir: ¿cuánto sería el nivel de repercusión de
“desbordamiento” si el volumen de lluvia alcanzara los 200 m3?

Figura 11 Asignación y activación de opciones pertinentes – Regresión Lineal

MÓDULO DE COMPUTACIÓN 3 6
***Luego visualizaremos en la “Ventana de Resultados” la obtención y evaluación del
modelo de regresión.

Figura 11: Resultado Obtenidos – Regresión Lineal

1º. Podemos apreciar en la figura 05 el “”coeficiente de correlación” anteriormente


calculado (98.8%), y acompañado está R2 que sería el “Coeficiente de
Determinación” (97.5%).
2º. Se aplicó un “Análisis de Varianza” – ANOVA, y observaos que estadísticamente
es válido el coeficiente de determinación (modelo predictivo).
3º. Apreciamos los coeficientes de la “Ecuación de Regresión”¸ teniendo así:

Y = 0.827 X – 1.128

4º. Si el “volumen de lluvia” alcanza los 200 m3 entonces se tendrá un “volumen de


desborde” de 164.272.
Considerando que el modelo calculado explica en un 97.5% el volumen de lluvia.

MÓDULO DE COMPUTACIÓN 3 7
3. Estadística Paramétrica
Dentro de las medidas de resumen que pueden realizarse, existen 02 tipos de
enfoque:
- Parámetro: Es una medida (central, dispersión, distribución, etc.) que
puede obtenerse a partir de la población. En la práctica dicho valor
usualmente no es conocido ya que no podemos examinar toda la
población (factores económicos, temporales, necesidad, limitación, etc.)

- Estadístico: Es una medida (central, dispersión, distribución, etc.) que


puede obtenerse a partir de la muestra. En la práctica se suele utilizar un
estadístico para estimar al parámetro desconocido, esto se conoce como
“Inferencia Estadística”.

Medidas Parámetro Estadístico


Promedio μ ̅
X
Varianza σ2 S2
Desviación Estándar σ S
Proporción π ρ

Medias de Resumen Estadísticas

Entonces, dicho ANÁLISIS PARAMÉTRICO, son obtenidos a partir del


uso de un número finito de parámetros. Esto es, por ejemplo, si
conocemos que la altura de las personas sigue una distribución normal,
pero desconocemos cuál es la media (promedio) y la desviación de dicha
normal. La media y la desviación típica de la desviación normal son los
dos parámetros que queremos estimar.
Cuando desconocemos totalmente que distribución siguen nuestros datos
entonces deberemos aplicar primero un test no paramétrico, que nos
ayude a conocer primero la distribución.

MÓDULO DE COMPUTACIÓN 3 8
3.1. Prueba de Media contra un valor hipotético
Este procedimiento nos permite verificar si una muestra puede proceder
de una población en la cual la variable de interés presenta una media
determinada.

Para el contraste, se debe plantear la siguiente hipótesis:


H0: μ=x
H1: μ<,>,≠ x

Ruta para acceder a la opción de comparación de medias:

Analizar Comparar Medias

Por ejemplo: Las cajas de cierto tipo de cereal procesadas por una
fábrica deben tener un contenido promedio de 160 g. Por una queja ante
el INDECOPI de que tales cajas de cereal tienen menos contenido, un
inspector tomó una muestra aleatoria de 10 cajas (provienen de una
población normal) encontrando los siguientes pesos de cereal en gramos:

157, 157, 163, 158, 161, 159, 162, 159, 158, 156

¿Es razonable que el inspector multe al fabricante?

Solución: H0: μ = 160


H1: μ < 160

Accedemos a la opción:

Analizar Comparar Medias Prueba T para una muestra

MÓDULO DE COMPUTACIÓN 3 9
Figura 12: Asignación de Datos – “Prueba T para una muestra”

- Trasladamos la variable “Peso_Caja_C” (pesos de cada caja de cereal).


- Y asignamos el VALOR HIPOTÉTICO que es 160 gr.
- Click botón aceptar.

1 2 3

4 5

Figura 12: Resultados Procesamiento – “Prueba T para una muestra”

- Parte 1°: Es el total de registro que participan dentro de la prueba.


- Parte 2°: Es el promedio en base a los 10 registros.
- Parte 3°: Es la desviación estándar, es decir la distancia que existe entre
cada peso hacia el promedio (2.30 gr.)
- Parte 4°: Son los grados de libertad que se utilizan para la prueba t-
student y es producto de restar total de registros menos 1.
- Parte 5°: Basados en el nivel de significancia de 5%, podemos afirmar
que NO RECHAZAMOS H0 (0.204 MAYOR QUE 0.05), ES DECIR, se
CONCLUYE QUE el peso medio 160 gr. NO HA VARIADO, NO PUEDE
MULTAR.

MÓDULO DE COMPUTACIÓN 3 10
3.2. Prueba de Media para dos muestras Independientes
Este procedimiento nos sirve para contrastar la hipótesis nula de
que las medias de dos muestras no difieren entre sí. Este
procedimiento de comparación deberá ser utilizado en aquellos
casos en que los grupos sean independientes (grupos
categóricos: género, NSE, escuelas profesionales, etc.), es decir,
no exista ningún tipo de relación entre los términos de error de
ambos grupos.

Por ejemplo: Un administrador está probando la posibilidad de


usar un “nuevo programa estadístico”. Cambiará de programa si
hay prueba que el nuevo procesa en menos tiempo que el antiguo
al procesar determinada tarea. A fin de tomar una decisión se
selecciona una muestra aleatoria de 7 operadoras y se registra el
tiempo de procesamiento en segundos con ambos paquetes. A
partir de estos datos, ¿se cambiará el paquete de cómputo antiguo
por el nuevo? Asuma que los datos siguen una distribución normal.
Use un nivel de significación del 5%.

14 6 4 15 3 3 6 5 6 3 0 0 3 20 0 0 1 1 1 0
A A A A A A A A A A N N N N N N N N N N

Solución: H0: μA = μ N
H1: μA ≠ μN

Accedemos a la opción:

Analizar Comparar Medias Prueba T para muestras Ind.

MÓDULO DE COMPUTACIÓN 3 11
Figura 13: Procedimiento – “Prueba T para muestras Independientes”

- Trasladamos la variable “Tiempo de uso” (“Variables de prueba”).


- En “Variables de Agrupación” definimos grupos con 1 (Antiguo) y 2
(Nuevo), para que internamente el programa asuma los 02 grupos.
- Click botón aceptar.

2
3

Figura 14: Resultados Procesamiento – “Prueba T para dos muestras independientes”

- Parte 1°: Estadísticos descriptivos (promedio y desviación estándar).


- Parte 2°: Grados de libertad (obtenidos n1 – n2 -2 = 18).
- Parte 3°: LA PRUEBA DE LEVENE (diferencia de varianzas) nos muestra
que el nivel de significancia de 8.43% es MAYOR que 5%, entonces NO
RECHAZAMOS H0, ES DECIR, se CONCLUYE QUE los tiempos de
AMBOS paquetes NO DIFIEREN uno del otro, es decir NO CAMBIAR
el ANTIGUO por el NUEVO.
MÓDULO DE COMPUTACIÓN 3 12
3.3 Prueba de Media para dos muestras Relacionadas
El caso más clásico de dos muestras relacionadas es cuando a un mismo
sujeto se le hace una medición antes y otra después, producto de una
intervención. Es decir, existe algún tipo de relación entre los individuos de
ambos grupos.

Por ejemplo: Un grupo de psicólogos realiza un estudio sobre “mejoramiento


de estrategias de aprendizaje” en una institución. Para ello aplicó 02
exámenes: “previo” y “posterior”, y registró sus puntuación en ambas
pruebas. ¿Puede afirmarse que la “nueva estrategia de mejoramiento de
aprendizaje” tiene un efecto significativo? Asuma que las puntuaciones
siguen una distribución normal.

Previo Posterior
94,07 89,41 86,59 85,45
96,79 85,31 93,08 84,59
92,15 89,25 87,85 84,89
92,30 93,20 86,83 93,10
96,50 89,17 92,70 86,87
83,11 93,51 76,80 86,36
91,16 88,85 83,40 83,24
90,81 88,40 86,74 81,20
81,37 82,45 77,67 77,18
89,81 96,47 85,70 88,61
84,92 99,48 79,96 94,67
84,43 99,95 79,80 93,87
86,33 100,05 81,15 94,15
87,60 87,33 81,92 82,17
81,08 87,61 76,32 86,01
92,07 89,28 90,20 83,78
81,14 89,72 73,34 83,56
96,87 95,57 93,58 89,58
99,59 97,71 92,36 91,35
83,90 98,73 77,23 97,82

Solución: H0: μpre = μpos


H1: μpre ≠ μpos

Accedemos a la opción:

Analizar Comparar Medias Prueba T para muestras Relac.

MÓDULO DE COMPUTACIÓN 3 13
Figura 15: Procesamiento – “Prueba T para dos muestras independientes”

- Trasladamos EN PAR las variables “Previo” y “Posterior”.


- Click botón aceptar.

4
3

Figura 16: Resultados Procesamiento – “Prueba T para dos muestras relacionadas”

- Parte 1°: Estadísticos descriptivos (promedio y desviación estándar).


- Parte 2°: Correlación: podemos decir que EXISTE una ALTA RELACIÓN.
- Parte 2°: Grados de libertad (obtenidos n1 – n2 - 1 = 39).
- Parte 4°: LA PRUEBA MUESTRAS EMPAREJADAS nos muestra que el
nivel de significancia de 0,00% es MENOR que 5%, entonces
RECHAZAMOS H0, ES DECIR, se CONCLUYE QUE los “puntajes” en
AMBOS pruebas SI DIFIEREN uno del otro, es decir LA ESTRATEGIA
que aplicarán los psicólogos es adecuada.

MÓDULO DE COMPUTACIÓN 3 14
3.4 Prueba de ANOVA Paramétrica
El análisis de la varianza (ANOVA) es el método que nos permite determinar
diferencias significativas entre el “efecto medio” que producen los “distintos
tratamientos” o niveles del factor estudiado.

Pare ello se deben cumplir ciertos supuestos:


- Aleatoriedad de las muestras
- Independencia de las variables
- Normalidad de las distribuciones
- Homogeneidad de las varianzas.

Se formula el test de hipótesis:


H0: μ1 = μ2 = … = μk
H1: μ1 ≠ μ2 ≠ … ≠ μj para algún i ≠ j

Por ejemplo: Se desea contrastar la eficacia de 03 fertilizantes A, B, C. El


primero se aplica en 8 parcelas, B en 6 y C en 12. Las parcelas son de
características similares en cuanto a su fertilidad, por lo que las diferencias
en la producción serán debidas AL TIPO DE FERTILIZANTES. Las
toneladas producidas en cada parcela en una temporada y para el mismo
producto son:
A 6, 7, 5, 6, 5, 8, 4, 7
B 10, 9, 9, 10,10, 6
C 3, 4, 8, 3, 7, 6, 3, 6, 4, 7, 6, 3

Suponiendo que las 03 muestras, proceden de poblaicones normales


independientes, contrastar la igualidad de las toneladad medias, producidas
con cada fertilizante.
Solución: H0: μpre = μpos
H1: μpre ≠ μpos

Accedemos a la opción:

Analizar Comparar Medias Prueba ANOVA de un Factor.

MÓDULO DE COMPUTACIÓN 3 15
Figura 17: Procesamiento – “Prueba ANOVA UN FACTOR”

- Trasladamos “Toneladas” a “Lista de dependientes” y “T_Fertilizante” a


“FACTOR”.
- Click botón aceptar

Figura 18: Resultados Procesamiento – “Prueba Anova de un factor”

Mediante el resultado (previa evaluación de “supuestos”) apreciamos que


la varianza entre grupos es mucho mayor que la varianza dentro de los
grupos.
A cualquier nivel de significación (en la tabla es 0.000), se rechaza la
hipótesis de igualdad de medias entre los distintos tratamientos. Es decir
HAY EFECTO DEL FERTILIZANTE.

MÓDULO DE COMPUTACIÓN 3 16
Referencias Bibliográficas:

 Capa Benítez, Lenny Beatriz; López Fernández, Raúl;y más. Análisis


exploratorio de datos son SPSS Editorial Universo Sur (2017).
 Rodríguez Franco, J., Pierdant Rodríguez, A., & Rodríguez Jiménez, E.
C. (2016). Estadística para la Administración. México: Grupo Editorial
Patria.
 Tomás Sábado, J. (2009). Fundamentos de Bioestadística y análisis de
datos para enfermería. Barcelona: Servei de Publicacions.
 Fernandez Fernandez, S., Cordoba Lar0067o, A., & Cordero Sánchez, J.
M. (2002). Estadística Descriptiva.
 Salafranca Cosialls, L., Nuñez Peña, M. I., & Serra Delgado, G. (2001).
Estadística Aplicada con SPSS y StatGraphics. Barcelona: Universidad
de Barcelona.

Enlace Web
 Statistics, I. S. (2017). Documentación técnica del producto de IBM.
Obtenido de https://www.ibm.com/support/knowledgecenter/es/
 APA, N. (2017). Normas APA. Obtenido de Normas APA:
http://normasapa.com/insercion-de-tablas-y-figuras/

MÓDULO DE COMPUTACIÓN 3 17

También podría gustarte