TEMA 08 - Análisis Estadístico coSCn IBM SPSS

Tabla de Contenidos
1. ANÁLISIS ESTADÍSTICO DESCRIPTIVO CON SPSS ............................................................3

1.1 Clasificación de variables ................................................................................................................... 4
1.2 Frecuencias ........................................................................................................................................ 4
1.3 Distribución de Frecuencias (Tablas de Frecuencias) .......................................................................... 6
1.4 Generación de gráficos .................................................................................................................... 19
2. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y FORMA ......................................... 31

3. ANÁLISIS DE DATOS CON VARIABLES MÚLTIPLES CON SPSS ................................... 37
3.1. Tablas Cruzadas (Tablas de Contingencia) ...................................................................................... 37
3.2. Análisis de Regresión .................................................................................................................. 39
3.2.1. Empleando la opción Lineales: .................................................................................................... 40
3.2.2. Empleando estimación curvilínea ................................................................................................ 43
3.2.3. Gráfico de regresión .................................................................................................................... 46
3.2.4. Coeficiente de correlación ........................................................................................................... 48
4. ANÁLISIS DE VARIANZA EN DISEÑOS EXPERIMENTALES .......................................... 57

4.1. Prueba de Normalidad ................................................................................................................ 57
4.1.1. Prueba de Kolmogorov-Smirnov y Shapiro-Wilk .......................................................................... 57
4.1.2. Prueba de Kolmogorov-Smirnov ................................................................................................. 60
BIBLIOGRAFÍA.................................................................................................................. 62
Tema 08
ANÁLISIS ESTADÍSTICO CON IBM SPSS
El análisis de datos estadísticos es el proceso que nos permite interpretar los datos numéricos que
disponemos, con el objetivo de tomar las decisiones de negocio más eficaces. Las empresas pueden
tomar decisiones 5 veces más rápido que su competencia si las basan en el análisis de datos.
Cada decisión que se quiera tomar en nuestras organizaciones debe estar basada en datos. Esto
significa que la estadística es una herramienta muy potente en nuestras manos. Por ello, cerca del
81% de los directivos considera que sus decisiones deben estar basadas en datos).
La Estadística Descriptiva tiene como objetivo extraer información a partir de un conjunto de datos
que son explorados para identificar sus principales características mediante un número reducido
de gráficos y/o números. Estos datos miden una o más variables y describen una muestra que
comienza con un análisis individual y posteriormente se estudian las relaciones entre variables
medidas. Suele comenzarse con representaciones gráficas y después se calculan las medidas
numéricas o de resumen.
CAPACIDAD
Gestiona y analiza datos con IBM SPSS 26.
TEMÁTICA
1. Clasificación de variables,
2. Frecuencias, Distribución de
3. Frecuencias y Gráficos Estadísticos
4. Medidas de tendencia central,
5. dispersión y forma
6. Tablas cruzadas,
7. Análisis de regresión
8. Coeficiente de correlación
9. Prueba de Normalidad
10. Prueba de Kolmogorov-Smirnov y Shapiro-Wilk
11. Prueba de Kolmogorov-Smirnov
2
1. Análisis Estadístico Descriptivo con SPSS
La estadística descriptiva es la rama de la estadística que recolecta, analiza y caracteriza un

conjunto de datos (peso de la población, beneficios diarios de una empresa, temperatura mensual,
etc.) con el objetivo de describir las características y comportamientos de este conjunto
mediante medidas de resumen, tablas o gráficos.
POBLACIÓN MUESTRA
Objetivo:
1. Dar una visión global de cómo están distribuidas las variables sin necesidad de manejar
todo el conjunto de datos, que pueden ser representados a través de:
o Tablas de frecuencias
o Representaciones gráficas
2. Sintetizar datos, a través de:
o Medidas de posición
Centrales: Media, mediana, moda
No centrales: Percentiles
o Medidas de dispersión
Rango (Máximo y mínimo)
Desviación típica o estándar
3
1.1 Clasificación de variables
a) Por manipulación del investigador:
• Variables independientes: controladas por el investigador, variables de agrupación o
variables demográficas
• Variables dependientes: variables desenlace o variables de respuesta.
b) Por escala de medición:
• Cualitativas: miden cualidades.
o Nominales: ninguna ordenación (Ej.: grupo sanguíneo)
o Ordinales: existe ordenación (Ej.: nivel de satisfacción)
• Cuantitativas: miden cantidades
o Discretas: números enteros (Ej.: nº caries)
o Continuas: números con decimales (Ej.: nivel de hb)
1.2 Frecuencias
La frecuencia es una medida que sirve para comparar la aparición de un elemento Xi en
un conjunto de elementos (X1, X2,…, XN). Mediante tablas de distribuciones de
frecuencia se puede presentar organizadamente el recuento de datos.
Tipos:
a) Frecuencia Absoluta (número total de apariciones)
• Es el número de veces que el valor está en el conjunto ((X1, X2,…, XN).
4
• La suma de las frecuencias absolutas de todos los elementos diferentes del
conjunto debe ser el número total de sujetos N. Si el conjunto
tiene k números (o categorías) diferentes, entonces:
• Frecuencia absoluta acumulada
La frecuencia absoluta acumulada(Ni) de un valor Xi del conjunto (X1, X2,…,

XN) es la suma de las frecuencias absolutas de los valores menores o iguales
a Xi, es decir:
b) Frecuencia relativa (proporción de apariciones)
• Es la proporción de valores iguales a Xi en el conjunto de datos (X1, X2,…, XN).

Es decir, la frecuencia relativa es la frecuencia absoluta dividida por el
número total de elementos N:
• Las frecuencias relativas son valores entre 0 y 1, 0 ≤ fi ≤ 1. La suma de

las frecuencias relativas de todos los sujetos da 1. Supongamos que en el
conjunto tenemos knúmeros (o categorías) diferentes, entonces:
• Si se multiplica la frecuencia relativa por cien se obtiene

el porcentaje (tanto por cien %).
5
• Frecuencia relativa acumulada
Es la frecuencia relativa acumulada es la frecuencia absoluta

acumulada dividida por el número total de sujetos N:
La frecuencia relativa acumulada de cada valor siempre es mayor que

la frecuencia relativa. De hecho, la frecuencia relativa acumulada de un
elemento es la suma de las frecuencias relativas de los elementos menores
o iguales a él, es decir:
1.3 Distribución de Frecuencias (Tablas de Frecuencias)

Es la agrupación de datos en categorías mutuamente excluyentes que indican el número de
observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de datos.
A. Variables Cualitativas nominales
Ejercicio 01: (Use el archivo EJERCICIO01.SAV)
Se desea estudiar la ocurrencia del estado nutricional de un grupo de pacientes, usar la

base de datos Ejercicio01.sav
6
Talla Peso IMC Nutricional
1,66 55,76 20,24 Normal
1,61 64,54 24,90 Normal
1,86 86,22 24,92 Normal
1,53 74,22 31,71 Obsesidad
1,63 69,00 25,97 Sobre peso
1,62 53,89 20,53 Normal
1,80 51,74 15,97 Bajo peso
1,69 65,68 23,00 Normal
1,82 66,04 19,94 Bajo peso
1,70 61,44 21,26 Normal
1,84 76,68 22,65 Normal
1,77 60,75 19,39 Bajo peso
… … … …
Se pide:
• Determinar la distribución de frecuencias del Estado Nutricional de un grupo de

pacientes
Solución:
1. Abrir el archivo EJERCICIO01.SAV en la vista de datos.

2. Hace clic en el menú Analizar, luego en Estadísticos descriptivos y elija la opción
Frecuencias.
3. En el cuadro de dialogo de Frecuencias:
o Agregar la variable Estado Nutricional al cuadro de dialogo Variables
7
El resultado será:
4. Hacer clic en el botón Gráficos…, para representar gráficamente los resultados

obtenidos.
o En el cuadro de dialogo, seleccione:
Tipo de gráfico: Gráfico circulares
Valores del gráfico: Porcentajes
8
o Hacer clic en el botón Continuar
5. Ahora, hacer clic en el botón Aceptar.
6. En la Ventana de Resultados, tendremos los siguientes resultados:
9
Inferencia:
Se aprecia que, de un total de 250 pacientes, se tuvieron 45 de Bajo peso (18,0%) , 98

pacientes con peso Normal (39.2%), 61 pacientes con Sobre peso (24.4%) y 46 pacientes
con Obesidad (18.4%)
7. Los resultados obtenidos pueden ser guardados o exportados como ya se indicó

anteriormente.
8. Asignar el nombre al archivo y grabe.
10
B. Variables cualitativas ordinales y cuantitativas discretas
En el caso de las variables cualitativas ordinales, se debe tener cuidado de que estas tienen
ya un orden definido y en la presentación de los resultados se debe mantener el orden de
la variable ordinal.
Se realizó un estudio para determinar el número de computadoras por hogar en la localidad

de Chao, con la finalidad de establecer si existe un mercado potencial para la venta de
estos productos.
Se pide:
• Determinar la distribución de frecuencias del número de computadoras por hogar en

la localidad de Piedras gordas
De acuerdo al estudio se estableció una muestra de 56 hogares cuyo resultado de campo

es el siguiente:
2 2 2 2 1 0 0 2
1 1 2 1 0 2 0 0
1 1 3 3 0 0 1 2
1 0 2 1 3 0 0 1
0 3 2 1 1 1 0 1
2 1 0 2 1 1 3 1
1 3 0 3 0 0 2 1
Solución:

Frecuencias.
o Agregar la variable Número de computadoras al cuadro de dialogo Variables
11
El resultado será:

obtenidos.
Tipo de gráfico: Gráfico de barras
Valores del gráfico: Porcentajes
12
Frecuencia:
13
Gráfico
Editar el Gráfico:
Si desea editar el gráfico de resultados, como se requiere para nuestro caso, siga lo
siguiente:
• Doble clic en el gráfico

• Ahora se encuentra en la ventana del editor de gráfico, elija la opción adecuada para
modificar. Ejemplo: Mostrar etiqueta de datos
14
• Cierre ambas ventanas y ya tendrá el gráfico personalizado.
Inferencia:
El 28.57% de hogares no tiene computadora, el 35.71% de hogares tiene una computadora,

el 23.21% de hogares tiene 2 computadoras y el 12.550% de hogares tiene 3 computadoras.
Se infieres que tenemos un 28.57% de hogares que podrán ser nuestros clientes potenciales
para venderles las computadoras.
C. Variables cuantitativas continuas
Cuando se quiere realizar una distribución de frecuencias de una variable cuantitativa, es

necesario primero formar los grupos o clases, y mediante la opción Transformar, opción
Recodificar en distintas variables generar una nueva variable.
Se tiene la talla de 250 pacientes, como se muestra en la tabla
15
Talla paciente
1,66
1,61
1,86
1,53
1,63
1,62
1,80
En nuestro caso ya se tiene la variable agrupado RPE (Rendimiento de Pasto Estrella) con
los siguientes intervalos:
LInf LSup
< 1.60
1.61 1.70
1.71 1.80
1.81 >
1.81 112
Nota: Este proceso se desarrolló en las sesiones anteriores del SPSS.
Se pide:
• Calcular las frecuencias de la talla agrupada de los pacientes de acuerdo a los intervalos
indicados.
Solución:

Frecuencias.
o Agregar la variable Rendimiento de Pasto Estrella al cuadro de dialogo
Variables
16
El resultado será:

obtenidos.
Tipo de gráfico: Histogramas (Mostar curva normal en el histograma)

17
9. Grabe los resultados, haciendo clic en el botón de Guardar este documento.
18
1.4 Generación de gráficos
El SPSS, también nos presenta la opción de generar diferentes tipos de gráficos
directamente, sin tener que realizar algún análisis.
Gráfico de sectores (tortas)
Para generar este tipo de gráfico, nuestra variable debe tener la medida de Nominal u
Ordinal.
Representar las frecuencias de las tallas agrupadas de los pacientes con un gráfico de
sectores.
Solución:
1. Hacer clic en la opción Gráfico y luego Generador de gráficos

2. Ahora seleccione:
• Elija entre: Circular/polar (tipo de gráfico)
• Se mostrará ventana Generador de gráficos
19
• Arrastre el tipo de gráfico a la vista previa.
20
• Arrastre la variable Talla de paciente hacia el área ¿Porciones por?
• Hacer clic en el botón Aceptar.

• Los resultaron son los siguientes:
• Editando el gráfico, tendremos:

21
Inferencia:
La interpretación será la misma que la anterior.
Histogramas:
Para la realización de un histograma, nuestra variable debe tener la medida de Escala, (si
no está en Escala y, está en medida Ordinal, el resultado será un diagrama de barras).
Ejercicio 05: (use el archivo EJERCICIO05.SAV)
Representar las frecuencias del rendimiento de clones de pasto estrella en un histograma.
Solución:

2. Considerando la variable Peso paciente que está agrupada en medida escala:
• Elija entre: Histograma (tipo de gráfico)
22
23
Arrastre la variable Peso paciente hacia el área ¿Eje X?

• Los resultaron son los siguientes:
24
Inferencia:
Gráficos de barras
Para la realización del diagrama de barras las variables pueden tener medidas de Nominal
u Ordinal, si es una variable cuantitativa (discreta o continua) esta debe estar agrupada y
tener una medida de Ordinal, si se coloca una variable de medida Escala, nos proporcionara
el gráfico de un histograma. El diagrama de barras puede ser vertical como horizontal.
Usando el archivo EJERCICIO06.SAV.
Representar las frecuencias del número de pacientes atendidos por cada hospital
Solución:

2. Considerando la variable RPE (Rendimiento de Pasto Estrella) que está agrupada en
medida escala:
• Elija entre: Barras (tipo de gráfico)
25
26
• Arrastre la variable Hospital hacia el área ¿Eje X?

• Los resultaron con el gráfico editado son los siguientes:
27
Inferencia:
Gráfico de tallos y hojas:
Para este gráfico se emplean variables cuantitativas (sean estas discretas y continuas) que
tengan la medida Escala.
Considerando los valores del rendimiento de pasto estrella.
Se pide:
Clasificar los valores del rendimiento de clones de pasto estrella en un diagrama de hojas y
tallo.
Solución:
1. Hacer clic en la opción Analizar y luego en Estadísticos descriptivos, seleccione la

opción Explorar.
2. En la ventana Explorar, deberá considerar la variable sin agrupar (Ejemplo: X), la cual
será agregada a la lista de dependientes:
28
3. Seleccione la opción Gráficos.
4. Hacer clic en el botón Gráfico… y seleccione
29
5. Hacer clic en el botón Continuar y luego en Aceptar.
6. Los resultados serán:
Inferencia:
Se observa que se tiene 5 valores con rendimientos desde 51 a 59; 3 valores que tienen
rendimientos entre 6 y 68, así sucesivamente.
30
2. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y FORMA
Para realizar estos análisis, las variables necesariamente deberán ser de tipo Numérico y medida
Escala. En el caso de las medidas de tendencia central, dispersión y forma se tienen varías formas
de cálculo, empleando funciones.
Ejercicio 08: ((Use el archivo EJERCICIO08.SAV)
Se tiene los siguientes datos correspondiente a los pacientes atendidos en diferentes hospitales.
Hospital FechaAtenc Sexo Talla Peso P.Sistolica P.Diastolica Glucosa Colesterol
Belén 3/05/2015 M 1.7 53.54 120 80 194 283
Regional 6/08/2014 F 1.63 80.91 100 60 200 240
Belén 12/06/2016 M 1.63 63.22 150 60 108 230
Regional 3/09/2014 M 1.85 59.66 90 50 204 264
Regional 8/01/2017 F 1.71 56.5 110 70 98 207
La Noria 5/05/2015 M 1.72 75.64 122 85 109 190
Belén 12/10/2017 F 1.62 89.17 180 90 122 241
Regional 10/05/2015 M 1.54 56.53 120 80 186 200
Belén 7/07/2014 M 1.84 50.76 160 90 130 250
Regional 4/05/2015 F 1.6 78.03 110 70 150 180
Regional 6/10/2015 M 1.72 53.5 130 90 120 180
La Noria 8/08/2017 F 1.81 72.02 130 70 272 164
Belén 8/05/2015 M 1.76 67.29 122 85 130 228
Regional 1/10/2016 M 1.58 75.13 140 100 196 286
Belén 12/04/2016 F 1.86 80.59 145 93 70 225
Regional 1/06/2014 M 1.85 52.68 107 85 92 231
Regional 11/11/2015 F 1.62 57.05 155 77 146 254
La Noria 7/06/2017 M 1.73 75.16 145 91 70 223
Belén 8/02/2017 M 1.62 63.17 158 78 91 232
Regional 2/11/2015 F 1.9 80 130 79 179 245
Belén 3/01/2015 M 1.62 51.41 96 96 158 251
31
Regional 11/08/2017 F 1.61 74.97 134 96 88 235
Regional 4/08/2015 M 1.84 81.92 118 69 142 200
La Noria 10/09/2015 M 1.64 74.02 164 100 190 256
Belén 5/07/2016 F 1.88 66.31 138 76 87 250

… … … … … … … … …
Se pide:
Determinar los valores de medidas de tendencia central, dispersión de las variables Talla, Peso,
P.Sistolica, P.Diastolica, Glucosa, Colesterol
Solución:
1. Hacer clic en el menú Analizar, luego en Estadísticos descriptivos y elija Frecuencias…
2. Agregar a la lista de Variables, Talla, Peso, P.Sistólica, P.Diastólica, Glucosa, Colesterol y

marcar la opción Mostrar tablas de frecuencia.
32
3. Hacer clic el botón Estadísticos… y seleccione las opciones indicadas:
4. Hacer clic en el botón Continuar y luego en Aceptar
5. El resultado será el siguiente:
33
A continuación, se muestra todos los gráficos del tipo Histograma con su curva normal de las
variables seleccionadas.
Talla
Peso
34
Presión sistólica
Presión diastólica
Glucosa
35
Inferencia de la variable Colesterol:
• N Válidos = 250. Número de valores válidos 250.

• N Perdidos = 0. Número de valores perdidos 0.
• Media = 232.13. El promedio de colesterol de los pacientes atendidos es de 232.13
• Error estándar de la media =1.196. El valor que varía la media entre varias muestras es de
1.196.
• Mediana = 234.00. El valor que divide en dos partes iguales al conjunto de datos es el 234.
• Moda = 207. El valor que más veces se repite es el 207
• Desviación estándar = 18.913. La medida de dispersión respecto a la media es de 18.913.
• Varianza = 357.686. La medida de dispersión en torno a la media es igual a 357.686.
• Asimetría = -0.303. El valor de asimetría de -0.303, nos señala que se tiene una cola izquierda
larga o sesgada a la izquierda. Si fuese simétrica el valor tiene que ser igual a 0. Una distribución
que tenga una asimetría positiva significativa tiene una cola derecha larga o sesgo a la derecha.
• Error estándar de asimetría = 0.154. Llamada también razón de la asimetría sobre su error
típico, se la puede utilizar como contaste de la normalidad (es decir, se puede rechazar la
normalidad si la razón es menor que -2 o mayor que +2).
• Curtosis = - 0.029. El valor de 0.029 me indica que se tiene una curva con una distribución
leptocurtica. (Para una distribución normal, el valor del estadístico de curtosis es 0. Una curtosis
negativa indica que, se tiene distribución platicúrtica).
• Error estándar de curtosis =0.307. Llamada también la razón de la curtosis sobre su error típico,
se la utiliza como contaste de la normalidad (es decir, se puede rechazar la normalidad si la
razón es menor que -2 o mayor que +2).
• Rango = 122. La diferencia entre el valor más alto y más bajo es de 122
36
• Mínimo = 164. El valor más bajo de colesterol de los pacientes es de 16
• Máximo = 100. El valor más alto de colesterol de los pacientes es de 16
• Percentiles: 25 = 217. Representa el cuartil 1 (Q1), e indica que hasta el valor 217se encuentra
el 25% de los datos. 50 =234; Representa el segundo cuartil (Q2) o la mediana, e indica que
hasta el valor 234 se encuentra el 50% de los datos. 75 = 247; Representa el tercer cuartil (Q3),
e indica que hasta el valor 247 se encuentra el 75% de los datos.
Más abajo nos presenta el histograma, la curva de distribución normal, con la media, desviación
típica y el número de datos.
3. ANÁLISIS DE DATOS CON VARIABLES MÚLTIPLES CON SPSS
• Hasta ahora se ha realizado un análisis estadístico de las variables en forma individual, sin
considerar las consecuencias de la interacción entre ellas. SPSS tiene una variedad de
procedimientos que permiten analizar los efectos de la interacción en el comportamiento de
las variables, a través de procesos de relación o mediante comparaciones de grupos. Dentro de
los procedimientos más útiles y empleados para realizar este tipo de actividades, encontramos
las tablas de contingencia, las regresiones, correlaciones y determinación simple.
3.1. Tablas Cruzadas (Tablas de Contingencia)

Las tablas cruzadas (tablas de contingencia) nos permiten examinar o comparar los datos de
dos o más variables a través de la frecuencia o el porcentaje de cada uno de los cruces de las
categorías de las variables involucradas. Por el contrario, las variables de respuesta múltiple
nos permiten examinar las diferentes respuestas que nos ofrece cada uno de los encuestados
a una pregunta específica, determinando aspectos característicos como la marca de mayor
recordación, el porcentaje de reconocimiento, etc.
37
Usando la base de datos EJERCICIO08.sav, se desea visualizar el número de pacientes

agrupados por tallas atendidos por cada hospital.
Se pide:
• Crear una tabla de contingencia que muestre el caso solicitado.

Solución:
1. Hacer clic en el menú Analizar, luego en Estadística descriptiva seleccione Tablas Cruzada
(Tablas de Contingencia).
2. En la ventana que se muestra, agregue las variables a analizar en filas (Talla paciente) y en
Columnas (Hospital)
Clic en el botón Aceptar
38
Interpretación:
De acuerdo a la tabla mostrada, los resultados indican que hay 74 pacientes que tienen
Tallas <=1,60m de los cuales 62 paciente son varones y 12 mujeres. 56 pacientes tienen
tallas entre 1,61 y 1,70m, de los cuales 46 son varones y 10 son mujeres 3 mujeres. 52
pacientes tienen tallas entre 1,71 y 1,80 m, de los cuales 40 son varones y 12 son mujeres
y finalmente haya 68 pacientes que tienen tallas > a 1,81m, de los cuales 58 son varones y
10 mujeres.
3.2. Análisis de Regresión

Es una técnica de análisis multivariable que establece una relación funcional entre una
variable dependiente o a explicar y una o más variables independientes o explicativas, en
la que se estiman los coeficientes de regresión que determinan el efecto que las
variaciones de las variables independientes tienen sobre el comportamiento de la variable
dependiente. El modelo más utilizado es el modelo lineal, pues es el que requiere estimar
un menor número de parámetros (Bernal, A. en Martínez, Martín, Martínez, Sanz de la
Tajada y Vacchiano, 2000, pág. 584).
39
En investigaciones donde se requiere relacionar dos variables recurrimos a determinar la
correlación y determinación.
Coeficientes de Regresión, Correlación y Determinación Simple
Sabiendo que la regresión establece la relación entre dos variables encontrando una
relación funcional, se tiene principalmente dos formas para obtener los resultados:
3.2.1. Empleando la opción Lineales:

Si, por ejemplo, tenemos los datos de precipitación de lluvia (mm) y el rendimiento
de trigo (Kg/ha) se pide determinar la relación de la lluvia sobre el rendimiento
(Calzada,1982).
Considere
o Ho: No se tiene un efecto de la precipitación sobre el rendimiento de trigo

(b=0)
o H1: Se tiene un efecto de la precipitación sobre el rendimiento de trigo (b≠0)
Solución:
1. Hacer clic en el menú Analizar, luego en Regresión y seleccione Lineales

2. Agregue las variables respectivas a la lista de Dependientes e Independientes
40
3. Hacer clic en el botón Estadísticos y seleccione:
• Estimaciones
• Ajuste del modelo
4. Hacer clic en el botón Continuar y luego en el Aceptar se tendrá los siguientes

resultados
41
El resultado nos presenta en varios cuadros: El primer cuadro sobre las variables
analizadas (Variables entradas/eliminadas).
• En el cuadro Resumen del modelo, se muestra el coeficiente de Correlación (R

= 0.637), el coeficiente de Determinación (R cuadrado = 0.405); el coeficiente
de Determinación ajustado (R cuadrado ajustado =0. 331) y el error estándar
de la estimación 2.337.
42
• El análisis de varianza (ANOVA) y finalmente los coeficientes del análisis de
regresión (Coeficientes), teniendo los valores de regresión (b= 0.717), el valor
del intercepto (a = 11.083).
Inferencia
• Apreciando el coeficiente de correlación (R = 0.647), podemos afirmar que se

tiene una relación positiva media a positiva considerable.
• Considerando el coeficiente de determinación (R cuadrado = 0.405), la
precipitación tiene una influencia o afecta al rendimiento de trigo en un 40.5%,
el restante 59.5% se debe a otros factores propios del azar, involucrados como
el error experimental.
• En el análisis de varianza de la regresión, el valor de Sig. = 0.048, menor a
α=0.05; rechazamos la hipótesis nula (Ho:b=0), por lo que se puede afirmar que
existe una dependencia del rendimiento del trigo con relación a la cantidad de
lluvia caída.
Con los coeficientes elaboramos la ecuación de regresión lineal:
Y = a + bx
Y =11.083 + 0.717x
Empleando la ecuación de regresión se afirma que por cada mm de lluvia que se
incremente, se tendrá un incremento en el rendimiento en 0.72 kg/ha.
3.2.2. Empleando estimación curvilínea

Bajo este método, se obtendrán los mismos resultados que el ejercicio anterior, a
los cuales se les agrega el gráfico de dispersión i de puntos con línea de tendencia
que representará a ambas variables.
Considerando los datos del ejercicio anterior, se pide determinar el efecto de

precipitación (mm) sobre el rendimiento de trigo (kg/ha)
Se sabe que la hipótesis es la siguiente:
• Ho: No tiene un efecto de precipitación sobre el rendimiento de trigo (b=0)

• Ha: Se tiene un efecto de precipitación sobre el rendimiento de trigo (b≠0)
Solución:
1. Hacer clic en el menú Analizar, luego en la opción de Regresión y seleccione

Estimación curvilínea…
2. Se tiene la ventana Estimación Curvilínea:
a) En la lista de Dependiente, agregue la variable Rendimiento de Trigo.
43
b) En la lista de Independiente, agregue la variable Lluvia.
c) Activar la opción Incluir la constante de la ecuación
d) Activar Representar los modelos.
e) En las opciones de Modelos, seleccione la opción Lineal
f) Activar la opción Ver tabla ANOVA.
3. Los resultados son los siguientes:
44
45
Nota: Si desea mostrar la Ecuación de Regresión, debe hacer doble en el gráfico
para editarlo y hacer clic en el botón Añadir línea de ajuste total.
Los resultados y la interpretación se muestran en varios cuadros y gráficos, siendo

la ecuación de regresión la siguiente:
Y=11.08+0.72X
R2 Lineal=0.405
3.2.3. Gráfico de regresión
Los resultados descritos anteriormente pueden ser representados por un gráfico
de dispersión.
Para nuestro ejercicio, solo mostraremos el gráfico, no habrá otro valor.
Ejercicio 07: (Usar el archivo EJERCICIO07.SAV)
Considerando las mismas condiciones que el ejercicio anterior y las hipótesis se

procede a obtener el resultado gráficamente.
o Ho: No tiene relación la precipitación de la lluvia sobre el rendimiento de trigo

(b=0)
o Ha: Si tiene relación la precipitación de la lluvia sobre el rendimiento de trigo
(b≠0)
Solución:
1. Hacer clic en el menú Gráficos y luego en la opción Generador de gráficos…

a) En la ventana que se muestra, seleccione en Elija entre: Dispersión/puntos
b) En la lista de gráficos, elija el tipo Dispersión simple.
46
c) Arrastre el tipo de gráfico a la vista previa
d) Arrastre la variable Rendimiento al Eje Y, de la vista previa
e) Arrastre la variable Lluvia al Eje X, de la vista previa
2. Hacer clic en el botón Aceptar.

3. Los resultados son los siguientes:
Nota: Para mostrar la Línea y Ecuación de Regresión, edite el gráfico y haga clic
en el botón Añadir línea de ajuste.
47
Inferencia:
Con la ecuación de regresión se valida que por cada mm de Lluvia que se

incremente, se tendrá incrementará el Rendimiento en 0.72 kg/ha.
Considerando el coeficiente de determinación tenemos que un 40.50% del
rendimiento depende de la lluvia y el restante 59.50% es debido a otros factores.
Si el incremento de lluvia fuese de 0 mm, el rendimiento será de 11.08 kg/ha,

ello aplicando la ecuación obtenida.
3.2.4. Coeficiente de correlación

Establece la relación cualitativa entre dos variables.
Considere los datos del ejercicio 07 para determinar la relación entre la cantidad
de lluvia caída y el rendimiento del trigo.
Considere la hipótesis:
o Ho: No tiene relación entre la cantidad de lluvia y el rendimiento de trigo (r=0)

o Ha: Si tiene relación entre la cantidad de lluvia y el rendimiento de trigo (r≠0)
Solución:
1. Hacer clic en el menú Analizar, luego en la opción Correlacionar y elija

Bivariadas
2. Seleccione:
• Variables: Lluvia
• Variables: Rendimiento
• Coeficientes de correlación: elija Pearson
• En Prueba de significancia, elija Bilateral y Señalar las correlaciones
significativas.
48
3. Hacer clic en el botón Aceptar.
4. Los resultados son:
Inferencia:
Apreciando el coeficiente de correlación (R = 0.647), podemos afirmar que se tiene

una relación positiva media a positiva considerable. Así mismo el SPSS nos muestra
que el valor de correlación es significativa al nivel de 0.05.
Apreciando el valor de Sig. (bilateral) 0.048 es inferior 0.05 por lo que rechazamos
la hipótesis nula (r=0), el valor de correlación es diferentes de cero, existiendo
relación entre ambas variables.
49
3.2.5. Ejemplo de Regresión lineal
Una familia quiere determinar una función que le permita estimar su consumo de
un artículo especifico en base a sus ingresos. Para ello reunió la siguiente
información:
INGRESO Xi CONSUMO Yi
15 18
20 21
25 24
32 27
38 35
Sea:
Yi = Consumo en unidades
Xi = Ingreso en centenas de soles
Si queremos ver la tendencia de dispersión, insertamos un gráfico de dispersión

desde el generador de Gráficos.
50
Agregamos la variable independiente (Ingresos de las familias) en el eje X y la variable
independiente (Consumo de productos) en el eje Y
El resultado nos muestra que el comportamiento es lineal
Mediante el grafico de dispersión confirmamos que el comportamiento es una regresión

lineal simple (una sola variable)
51
Entonces ahora encontramos la función de regresión:
1. Clic en la ficha Analizar/ Regresión/Lineal
2. Nos muestra la ventana Regresión lineal
3. Ingresamos la variable dependiente e independiente y hacer clic en Aceptar
52
Resultado:
4. Análisis.
R = 0.976. Esto significa que hay una alta correlación positiva entre X y Y, también podemos
decir que haya una relación intensa directa entre el ingreso y el consumo. A mayor ingreso,
mayor consumo, a menor ingreso menor consumo.
R Cuadrado = 0.953 = 95.3% de la variación en el consumo se explica por la variación en el

ingreso
El modelo: Y=7+0.692X
53
3.2.6. Ejemplo usando la estimación curvilínea
Usando el mismo ejemplo anterior.
1. Analizar/Regresión lineal/Estimación curvilínea
2. Ingresamos las variables dependiente e independiente
A continuación, se muestran los resultados:
54
A continuación, insertamos su gráfico con el resumen de modelo y estimaciones de
parámetros
55
Agregando la ecuación de la función. Y=7+0.69*X
56
4. ANÁLISIS DE VARIANZA EN DISEÑOS EXPERIMENTALES
El análisis de la varianza en los diseños experimentales requiere previamente con supuestos que
detallamos:
• Aditividad
• Linealidad
• Normalidad
• Independencia
• Homogenidad de varaianzas
Muchos de los supuestos se cumplen directa o indirectamente, como los casos de:
• Aditividad. Los componentes del modelo estadístico son aditivos, es decir la variable de
respuesta es la suma de los efectos del modelo estadístico.
• Linealidad. La relación existente entre los factores o componentes del modelo estadístico
tienen que ser del tipo lineal.
• Independencia. Los resultados observados de un experimento son independientes entre sí.
En el SPSS abordaremos los supuestos de: Normalidad y homogeneidad de varianzas, por tener
diferentes pruebas de hipótesis para aceptarlas o rechazarlas.
4.1. Prueba de Normalidad

En esta prueba, no se considera los tratamientos sino el conjunto de datos, sin considerar
ninguna agrupación.
4.1.1. Prueba de Kolmogorov-Smirnov y Shapiro-Wilk

Los valores resultados del experimento provienen de una distribución de
probabilidad normal.
Una persona que realiza plantaciones quiso comparar los efectos de cinco
tratamientos de preparación en el sitio (A, B, C, D, E) sobre el crecimiento inicial en
altura de plántulas de pino en el terreno. Dispuso de 25 plantines y aplico cada
tratamiento a 5 plantines escogidas al azar.
Entonces, los plantines se plantaron a mano y, al final de 5 años, se midió la altura

de todos los pinos y se calculó la altura media de cada plantin. Las medidas de los
plantines (en pies) fueron como sigue (Freese 1970).
A B C D E
I 15 16 13 11 14
II 14 14 12 13 12
57
III 12 13 11 10 12
IV 13 15 12 12 10
V 13 14 10 11 11
Se pide, analizar si los datos de altura de pino presentan una distribución normal.
Hipótesis:
• Ho: Los datos de altura de pino presentan distribución normal

• H1: Los datos de altura de pino no presentan distribución normal
Solución:
1. Hacer clic en el menú Analizar, luego en la opción Estadísticos descriptivos

y elija Explorar.
2. En la ventana que se muestra, se debe ingresar la variable a la lista de
dependientes:
3. Hacer clic en el botón Gráficos... y seleccione:
4. Al hacer clic en el botón Continuar y luego en Aceptar, tendremos los

siguientes resultados:
58
59
• Los resultados se presentan en informes: el de procesamiento de datos y, el de
descriptivos, los cuales se interpretaron anteriormente.
• Luego se muestran las pruebas de normalidad de: Kolmogorov-Smirnov y
Shapiro-Wilk, terminando con los gráficos de prueba de normalidad Grafico Q-
Q normal (Quantiles reales y teóricos de una distribución normal) y el otro
gráfico de Grafico Q-Q normal sin tendencia.
Inferencia:
• Observando la prueba de Kolmogorov-Smirnov, el valor de Sig.= 0.188 es mayor
que 0.05, rechazamos la hipótesis alterna, por lo que podemos afirmar que los
“datos de altura de planta presentan una distribución normal”.
• Como el valor de Sig.=0.303 de la prueba de Shapiro-Wilk, al ser mayor que
0.05, podemos afirmar que “los datos presentan una distribución normal”.
• En el Grafico Q-Q normal, la recta representa la distribución normal teórica, los
puntos como se observa están próximos de la recta, por lo que se puede afirmar
que el ajuste es aceptable (si se alejan de la recta el ajuste de normalidad no es
aceptable).
• En el Grafico Q-Q normal sin tendencia se observan las desviaciones de los
valores respecto a la recta, los valores están fluctuando cerca del cero (no están
muy alejados), por lo que se puede afirmar que tienen una tendencia normal
(si se alejan del cero, estos se alejan de la normalidad).
4.1.2. Prueba de Kolmogorov-Smirnov

Otra forma de realizar la prueba de normalidad es solo considerar la prueba de
Kolmogorov-Smirnov.
Considerando el ejercicio anterior de la altura de todos los pinos.
Se pide analizar si los datos de altura de pino presentan una distribución normal.
Considere la Hipótesis:
60
Ho: Los datos de altura de pino presentan distribución normal.
H1: Los datos de altura de pino no presentan distribución normal.
Solución:
1. Hacer clic en el menú Analizar, luego en la opción Pruebas no paramétricas y

elija Cuadro de dialogo antiguo y en K-S de 1.
2. En la ventana que se muestra, se debe ingresar la variable a la lista de variables
de prueba:
3. Al hacer un clic en el botón Aceptar, se tiene la siguiente información:
Inferencia:
Observando el valor de Sig.=0.188 es mayor que 0.05, rechazamos la hipótesis

alterna, afirmamos que los datos de altura de planta presentan una distribución
normal.
61
Bibliografía
Colubí, A. (2017). Estadística Administrativa I.
IBM. (2015). Manual del Usuario del Sistema Básico ed IBM SPSS.
Ochoa, R. (2014). Analisis Estadístico con erl SPSS. La Paz.
62

TEMA 08 - Análisis Estadístico coSCn IBM SPSS

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TEMA 08 - Análisis Estadístico coSCn IBM SPSS

Cargado por

Copyright:

Formatos disponibles

Tabla de Contenidos

1. ANÁLISIS ESTADÍSTICO DESCRIPTIVO CON SPSS ............................................................3

1.2 Frecuencias ........................................................................................................................................ 4

1.3 Distribución de Frecuencias (Tablas de Frecuencias) .......................................................................... 6

1.4 Generación de gráficos .................................................................................................................... 19

2. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y FORMA ......................................... 31

3.2. Análisis de Regresión .................................................................................................................. 39

3.2.1. Empleando la opción Lineales: .................................................................................................... 40

3.2.2. Empleando estimación curvilínea ................................................................................................ 43

3.2.3. Gráfico de regresión .................................................................................................................... 46

3.2.4. Coeficiente de correlación ........................................................................................................... 48

4. ANÁLISIS DE VARIANZA EN DISEÑOS EXPERIMENTALES .......................................... 57

4.1.1. Prueba de Kolmogorov-Smirnov y Shapiro-Wilk .......................................................................... 57

4.1.2. Prueba de Kolmogorov-Smirnov ................................................................................................. 60

ANÁLISIS ESTADÍSTICO CON IBM SPSS

La estadística descriptiva es la rama de la estadística que recolecta, analiza y caracteriza un

2. Sintetizar datos, a través de:

Centrales: Media, mediana, moda

Rango (Máximo y mínimo)

Desviación típica o estándar

o Ordinales: existe ordenación (Ej.: nivel de satisfacción)

• Cuantitativas: miden cantidades

o Discretas: números enteros (Ej.: nº caries)

o Continuas: números con decimales (Ej.: nivel de hb)

• Es el número de veces que el valor está en el conjunto ((X1, X2,…, XN).

• Frecuencia absoluta acumulada

La frecuencia absoluta acumulada(Ni) de un valor Xi del conjunto (X1, X2,…,

b) Frecuencia relativa (proporción de apariciones)

• Es la proporción de valores iguales a Xi en el conjunto de datos (X1, X2,…, XN).

• Las frecuencias relativas son valores entre 0 y 1, 0 ≤ fi ≤ 1. La suma de

• Si se multiplica la frecuencia relativa por cien se obtiene

Es la frecuencia relativa acumulada es la frecuencia absoluta

La frecuencia relativa acumulada de cada valor siempre es mayor que

1.3 Distribución de Frecuencias (Tablas de Frecuencias)

A. Variables Cualitativas nominales

Ejercicio 01: (Use el archivo EJERCICIO01.SAV)

Se desea estudiar la ocurrencia del estado nutricional de un grupo de pacientes, usar la

1,61 64,54 24,90 Normal

1,86 86,22 24,92 Normal

1,53 74,22 31,71 Obsesidad

1,63 69,00 25,97 Sobre peso

1,62 53,89 20,53 Normal

1,80 51,74 15,97 Bajo peso

1,69 65,68 23,00 Normal

1,82 66,04 19,94 Bajo peso

1,70 61,44 21,26 Normal

1,84 76,68 22,65 Normal

1,77 60,75 19,39 Bajo peso

• Determinar la distribución de frecuencias del Estado Nutricional de un grupo de

1. Abrir el archivo EJERCICIO01.SAV en la vista de datos.

4. Hacer clic en el botón Gráficos…, para representar gráficamente los resultados

Se aprecia que, de un total de 250 pacientes, se tuvieron 45 de Bajo peso (18,0%) , 98

7. Los resultados obtenidos pueden ser guardados o exportados como ya se indicó

8. Asignar el nombre al archivo y grabe.

Ejercicio 02: (Use el archivo EJERCICIO02.SAV)

Se realizó un estudio para determinar el número de computadoras por hogar en la localidad

• Determinar la distribución de frecuencias del número de computadoras por hogar en

De acuerdo al estudio se estableció una muestra de 56 hogares cuyo resultado de campo

1. Abrir el archivo EJERCICIO02.SAV en la vista de datos.

4. Hacer clic en el botón Gráficos…, para representar gráficamente los resultados

• Doble clic en el gráfico

El 28.57% de hogares no tiene computadora, el 35.71% de hogares tiene una computadora,