Documentos de Académico
Documentos de Profesional
Documentos de Cultura
BIBLIOGRAFÍA.................................................................................................................. 62
Tema 08
El análisis de datos estadísticos es el proceso que nos permite interpretar los datos numéricos que
disponemos, con el objetivo de tomar las decisiones de negocio más eficaces. Las empresas pueden
tomar decisiones 5 veces más rápido que su competencia si las basan en el análisis de datos.
Cada decisión que se quiera tomar en nuestras organizaciones debe estar basada en datos. Esto
significa que la estadística es una herramienta muy potente en nuestras manos. Por ello, cerca del
81% de los directivos considera que sus decisiones deben estar basadas en datos).
La Estadística Descriptiva tiene como objetivo extraer información a partir de un conjunto de datos
que son explorados para identificar sus principales características mediante un número reducido
de gráficos y/o números. Estos datos miden una o más variables y describen una muestra que
comienza con un análisis individual y posteriormente se estudian las relaciones entre variables
medidas. Suele comenzarse con representaciones gráficas y después se calculan las medidas
numéricas o de resumen.
CAPACIDAD
Gestiona y analiza datos con IBM SPSS 26.
TEMÁTICA
1. Clasificación de variables,
2. Frecuencias, Distribución de
3. Frecuencias y Gráficos Estadísticos
4. Medidas de tendencia central,
5. dispersión y forma
6. Tablas cruzadas,
7. Análisis de regresión
8. Coeficiente de correlación
9. Prueba de Normalidad
10. Prueba de Kolmogorov-Smirnov y Shapiro-Wilk
11. Prueba de Kolmogorov-Smirnov
2
1. Análisis Estadístico Descriptivo con SPSS
POBLACIÓN MUESTRA
Objetivo:
1. Dar una visión global de cómo están distribuidas las variables sin necesidad de manejar
todo el conjunto de datos, que pueden ser representados a través de:
o Tablas de frecuencias
o Representaciones gráficas
o Medidas de posición
No centrales: Percentiles
o Medidas de dispersión
3
1.1 Clasificación de variables
a) Por manipulación del investigador:
• Variables independientes: controladas por el investigador, variables de agrupación o
variables demográficas
• Variables dependientes: variables desenlace o variables de respuesta.
b) Por escala de medición:
• Cualitativas: miden cualidades.
o Nominales: ninguna ordenación (Ej.: grupo sanguíneo)
1.2 Frecuencias
La frecuencia es una medida que sirve para comparar la aparición de un elemento Xi en
un conjunto de elementos (X1, X2,…, XN). Mediante tablas de distribuciones de
frecuencia se puede presentar organizadamente el recuento de datos.
Tipos:
a) Frecuencia Absoluta (número total de apariciones)
4
• La suma de las frecuencias absolutas de todos los elementos diferentes del
conjunto debe ser el número total de sujetos N. Si el conjunto
tiene k números (o categorías) diferentes, entonces:
5
• Frecuencia relativa acumulada
6
Talla Peso IMC Nutricional
1,66 55,76 20,24 Normal
… … … …
Se pide:
Solución:
7
El resultado será:
8
o Hacer clic en el botón Continuar
5. Ahora, hacer clic en el botón Aceptar.
6. En la Ventana de Resultados, tendremos los siguientes resultados:
9
Inferencia:
10
B. Variables cualitativas ordinales y cuantitativas discretas
En el caso de las variables cualitativas ordinales, se debe tener cuidado de que estas tienen
ya un orden definido y en la presentación de los resultados se debe mantener el orden de
la variable ordinal.
Se pide:
2 2 2 2 1 0 0 2
1 1 2 1 0 2 0 0
1 1 3 3 0 0 1 2
1 0 2 1 3 0 0 1
0 3 2 1 1 1 0 1
2 1 0 2 1 1 3 1
1 3 0 3 0 0 2 1
Solución:
11
El resultado será:
12
o Hacer clic en el botón Continuar
5. Ahora, hacer clic en el botón Aceptar.
6. En la Ventana de Resultados, tendremos los siguientes resultados:
Frecuencia:
13
Gráfico
Editar el Gráfico:
Si desea editar el gráfico de resultados, como se requiere para nuestro caso, siga lo
siguiente:
14
• Cierre ambas ventanas y ya tendrá el gráfico personalizado.
Inferencia:
15
Talla paciente
1,66
1,61
1,86
1,53
1,63
1,62
1,80
En nuestro caso ya se tiene la variable agrupado RPE (Rendimiento de Pasto Estrella) con
los siguientes intervalos:
LInf LSup
< 1.60
1.61 1.70
1.71 1.80
1.81 >
1.81 112
Se pide:
• Calcular las frecuencias de la talla agrupada de los pacientes de acuerdo a los intervalos
indicados.
Solución:
16
El resultado será:
17
8. En la Ventana de Resultados, tendremos los siguientes resultados:
18
1.4 Generación de gráficos
El SPSS, también nos presenta la opción de generar diferentes tipos de gráficos
directamente, sin tener que realizar algún análisis.
Para generar este tipo de gráfico, nuestra variable debe tener la medida de Nominal u
Ordinal.
Representar las frecuencias de las tallas agrupadas de los pacientes con un gráfico de
sectores.
Solución:
19
• Arrastre el tipo de gráfico a la vista previa.
20
• Arrastre la variable Talla de paciente hacia el área ¿Porciones por?
Histogramas:
Para la realización de un histograma, nuestra variable debe tener la medida de Escala, (si
no está en Escala y, está en medida Ordinal, el resultado será un diagrama de barras).
Solución:
22
• Arrastre el tipo de gráfico a la vista previa.
23
Arrastre la variable Peso paciente hacia el área ¿Eje X?
24
Inferencia:
Gráficos de barras
Para la realización del diagrama de barras las variables pueden tener medidas de Nominal
u Ordinal, si es una variable cuantitativa (discreta o continua) esta debe estar agrupada y
tener una medida de Ordinal, si se coloca una variable de medida Escala, nos proporcionara
el gráfico de un histograma. El diagrama de barras puede ser vertical como horizontal.
Representar las frecuencias del número de pacientes atendidos por cada hospital
Solución:
25
• Arrastre el tipo de gráfico a la vista previa.
26
• Arrastre la variable Hospital hacia el área ¿Eje X?
27
Inferencia:
Para este gráfico se emplean variables cuantitativas (sean estas discretas y continuas) que
tengan la medida Escala.
Se pide:
Clasificar los valores del rendimiento de clones de pasto estrella en un diagrama de hojas y
tallo.
Solución:
28
3. Seleccione la opción Gráficos.
29
5. Hacer clic en el botón Continuar y luego en Aceptar.
6. Los resultados serán:
Inferencia:
Se observa que se tiene 5 valores con rendimientos desde 51 a 59; 3 valores que tienen
rendimientos entre 6 y 68, así sucesivamente.
30
2. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y FORMA
Para realizar estos análisis, las variables necesariamente deberán ser de tipo Numérico y medida
Escala. En el caso de las medidas de tendencia central, dispersión y forma se tienen varías formas
de cálculo, empleando funciones.
Se tiene los siguientes datos correspondiente a los pacientes atendidos en diferentes hospitales.
31
Regional 11/08/2017 F 1.61 74.97 134 96 88 235
Se pide:
Determinar los valores de medidas de tendencia central, dispersión de las variables Talla, Peso,
P.Sistolica, P.Diastolica, Glucosa, Colesterol
Solución:
32
3. Hacer clic el botón Estadísticos… y seleccione las opciones indicadas:
33
A continuación, se muestra todos los gráficos del tipo Histograma con su curva normal de las
variables seleccionadas.
Talla
Peso
34
Presión sistólica
Presión diastólica
Glucosa
35
Inferencia de la variable Colesterol:
Más abajo nos presenta el histograma, la curva de distribución normal, con la media, desviación
típica y el número de datos.
• Hasta ahora se ha realizado un análisis estadístico de las variables en forma individual, sin
considerar las consecuencias de la interacción entre ellas. SPSS tiene una variedad de
procedimientos que permiten analizar los efectos de la interacción en el comportamiento de
las variables, a través de procesos de relación o mediante comparaciones de grupos. Dentro de
los procedimientos más útiles y empleados para realizar este tipo de actividades, encontramos
las tablas de contingencia, las regresiones, correlaciones y determinación simple.
37
Ejercicio 01: (Use el archivo EJERCICIO08.SAV)
Se pide:
38
Interpretación:
De acuerdo a la tabla mostrada, los resultados indican que hay 74 pacientes que tienen
Tallas <=1,60m de los cuales 62 paciente son varones y 12 mujeres. 56 pacientes tienen
tallas entre 1,61 y 1,70m, de los cuales 46 son varones y 10 son mujeres 3 mujeres. 52
pacientes tienen tallas entre 1,71 y 1,80 m, de los cuales 40 son varones y 12 son mujeres
y finalmente haya 68 pacientes que tienen tallas > a 1,81m, de los cuales 58 son varones y
10 mujeres.
39
En investigaciones donde se requiere relacionar dos variables recurrimos a determinar la
correlación y determinación.
Sabiendo que la regresión establece la relación entre dos variables encontrando una
relación funcional, se tiene principalmente dos formas para obtener los resultados:
Considere
40
3. Hacer clic en el botón Estadísticos y seleccione:
• Estimaciones
• Ajuste del modelo
41
El resultado nos presenta en varios cuadros: El primer cuadro sobre las variables
analizadas (Variables entradas/eliminadas).
42
• El análisis de varianza (ANOVA) y finalmente los coeficientes del análisis de
regresión (Coeficientes), teniendo los valores de regresión (b= 0.717), el valor
del intercepto (a = 11.083).
Inferencia
Y = a + bx
Y =11.083 + 0.717x
Empleando la ecuación de regresión se afirma que por cada mm de lluvia que se
incremente, se tendrá un incremento en el rendimiento en 0.72 kg/ha.
44
45
Nota: Si desea mostrar la Ecuación de Regresión, debe hacer doble en el gráfico
para editarlo y hacer clic en el botón Añadir línea de ajuste total.
Y=11.08+0.72X
R2 Lineal=0.405
3.2.3. Gráfico de regresión
Los resultados descritos anteriormente pueden ser representados por un gráfico
de dispersión.
Nota: Para mostrar la Línea y Ecuación de Regresión, edite el gráfico y haga clic
en el botón Añadir línea de ajuste.
47
Inferencia:
Considere los datos del ejercicio 07 para determinar la relación entre la cantidad
de lluvia caída y el rendimiento del trigo.
Considere la hipótesis:
Solución:
48
3. Hacer clic en el botón Aceptar.
4. Los resultados son:
Inferencia:
Apreciando el valor de Sig. (bilateral) 0.048 es inferior 0.05 por lo que rechazamos
la hipótesis nula (r=0), el valor de correlación es diferentes de cero, existiendo
relación entre ambas variables.
49
3.2.5. Ejemplo de Regresión lineal
Una familia quiere determinar una función que le permita estimar su consumo de
un artículo especifico en base a sus ingresos. Para ello reunió la siguiente
información:
INGRESO Xi CONSUMO Yi
15 18
20 21
25 24
32 27
38 35
Sea:
Yi = Consumo en unidades
50
Agregamos la variable independiente (Ingresos de las familias) en el eje X y la variable
independiente (Consumo de productos) en el eje Y
51
Entonces ahora encontramos la función de regresión:
52
Resultado:
4. Análisis.
R = 0.976. Esto significa que hay una alta correlación positiva entre X y Y, también podemos
decir que haya una relación intensa directa entre el ingreso y el consumo. A mayor ingreso,
mayor consumo, a menor ingreso menor consumo.
El modelo: Y=7+0.692X
53
3.2.6. Ejemplo usando la estimación curvilínea
Usando el mismo ejemplo anterior.
54
A continuación, insertamos su gráfico con el resumen de modelo y estimaciones de
parámetros
55
Agregando la ecuación de la función. Y=7+0.69*X
56
4. ANÁLISIS DE VARIANZA EN DISEÑOS EXPERIMENTALES
El análisis de la varianza en los diseños experimentales requiere previamente con supuestos que
detallamos:
• Aditividad
• Linealidad
• Normalidad
• Independencia
• Homogenidad de varaianzas
Muchos de los supuestos se cumplen directa o indirectamente, como los casos de:
• Aditividad. Los componentes del modelo estadístico son aditivos, es decir la variable de
respuesta es la suma de los efectos del modelo estadístico.
• Linealidad. La relación existente entre los factores o componentes del modelo estadístico
tienen que ser del tipo lineal.
• Independencia. Los resultados observados de un experimento son independientes entre sí.
En el SPSS abordaremos los supuestos de: Normalidad y homogeneidad de varianzas, por tener
diferentes pruebas de hipótesis para aceptarlas o rechazarlas.
Una persona que realiza plantaciones quiso comparar los efectos de cinco
tratamientos de preparación en el sitio (A, B, C, D, E) sobre el crecimiento inicial en
altura de plántulas de pino en el terreno. Dispuso de 25 plantines y aplico cada
tratamiento a 5 plantines escogidas al azar.
A B C D E
I 15 16 13 11 14
II 14 14 12 13 12
57
III 12 13 11 10 12
IV 13 15 12 12 10
V 13 14 10 11 11
Se pide, analizar si los datos de altura de pino presentan una distribución normal.
Hipótesis:
58
59
• Los resultados se presentan en informes: el de procesamiento de datos y, el de
descriptivos, los cuales se interpretaron anteriormente.
• Luego se muestran las pruebas de normalidad de: Kolmogorov-Smirnov y
Shapiro-Wilk, terminando con los gráficos de prueba de normalidad Grafico Q-
Q normal (Quantiles reales y teóricos de una distribución normal) y el otro
gráfico de Grafico Q-Q normal sin tendencia.
Inferencia:
• Observando la prueba de Kolmogorov-Smirnov, el valor de Sig.= 0.188 es mayor
que 0.05, rechazamos la hipótesis alterna, por lo que podemos afirmar que los
“datos de altura de planta presentan una distribución normal”.
• Como el valor de Sig.=0.303 de la prueba de Shapiro-Wilk, al ser mayor que
0.05, podemos afirmar que “los datos presentan una distribución normal”.
• En el Grafico Q-Q normal, la recta representa la distribución normal teórica, los
puntos como se observa están próximos de la recta, por lo que se puede afirmar
que el ajuste es aceptable (si se alejan de la recta el ajuste de normalidad no es
aceptable).
• En el Grafico Q-Q normal sin tendencia se observan las desviaciones de los
valores respecto a la recta, los valores están fluctuando cerca del cero (no están
muy alejados), por lo que se puede afirmar que tienen una tendencia normal
(si se alejan del cero, estos se alejan de la normalidad).
60
Ho: Los datos de altura de pino presentan distribución normal.
H1: Los datos de altura de pino no presentan distribución normal.
Solución:
Inferencia:
61
Bibliografía
Colubí, A. (2017). Estadística Administrativa I.
IBM. (2015). Manual del Usuario del Sistema Básico ed IBM SPSS.
62