Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADÍSTICA
CON SPSS
Ing. ALEJANDRO CALLAÑAUPA SULCA
Esta publicación no puede ser reproducida, ni en todo o en parte, ni registrada en o transmitida por
un sistema de recuperación de información, en ninguna forma ni por ningún medio, sea mecánico,
fotoquímico, electrónico, magnético, electroóptico, por fotocopia o cualquier otro, sin el permiso
previo de los autores.
I:
CONCEPTOS
BÁSICOS
1.1 INTRODUCCIÓN
Estadística, es el arte de realizar inferencias y sacar conclusiones a partir de
datos imperfectos. Los datos son generalmente imperfectos en el sentido que aun
cuando posean información útil no nos cuentan la historia completa. Es necesario
contar con métodos que nos permitan extraer información a partir de los datos
observados para comprender mejor las situaciones que los mismos representan.
Algunas técnicas de análisis de datos son sorprendentemente simples de
aprender y usar más allá del hecho que la teoría matemática que las sustentan puede
ser muy compleja.
Todos, aún los estadísticos, tenemos problemas al enfrentarnos con listados
de datos. Existen muchos métodos estadísticos cuyo propósito es ayudarnos a
poner de manifiesto las características sobresalientes e interesantes de nuestros
datos que pueden ser usados en casi todas las áreas del conocimiento.
Los métodos estadísticos pueden y deberían ser usados en todas las etapas
de una investigación, desde el comienzo hasta el final. Existe el convencimiento de
que la estadística trata con el análisis de datos (quizás porque esta es la contribución
más visible de la estadística), pero este punto de vista excluye aspectos vitales
relacionados con el diseño de las investigaciones. Es importante tomar conciencia
que la elección del método de análisis para un problema, se basa tanto en el tipo de
datos disponibles como en la forma en que fueron recolectados.
¿Por qué estudiar estadística?
Porque los datos estadísticos y las conclusiones obtenidas aplicando
metodología estadística ejercen una profunda influencia en casi todos los campos de
la actividad humana. En particular, la estadística invade cada vez más cualquier
investigación relativa a salud pública. Este crecimiento, probablemente relacionado
con el interés por aumentar la credibilidad y confiabilidad de las investigaciones, no
garantiza que en todos los casos la metodología estadística haya sido correctamente
utilizada, o peor aún, que sea válida.
¿Por qué debe preocuparnos la aplicación incorrecta de métodos estadísticos
en un trabajo científico o en un informe técnico?
• Porque las conclusiones pueden ser incorrectas.
• Porque no todos los lectores están en condiciones de detectar el error, y esto
genera un importante “ruido” en la bibliografía científica (Aunque este argumento
tiende a sobredimensionar la importancia de un paper, existe considerable evidencia
que los lectores sin formación metodológica tienden a aceptar como válidas las
conclusiones de los trabajos publicados, en especial si se encuentran publicados en
revistas prestigiosas).
El estudio de la Estadística y el modo de pensamiento que se genera a partir del
mismo, capacita a la persona para evaluar objetiva y efectivamente si la información
que recibe (vía tablas, gráficos, porcentajes, tasas, etc.) es relevante y adecuada.
Por supuesto, la interpretación de cualquier problema requiere, no sólo de
conocimientos metodológicos sino también, de un profundo conocimiento del tema.
Aun cuando una persona no esté interesada en especializarse en estadística, un
entrenamiento básico en el tema permite una mejor comprensión de la información
cuantitativa.
1.2 DEFINICIÓN DE ESTADÍSTICA
“Es una ciencia que proporciona un conjunto de métodos que se utilizan para
recolectar, resumir, clasificar, analizar e interpretar el comportamiento de los
“datos” con respecto a una característica materia de estudio o investigación”.
c) En Biología:
La estadística se puede utilizar para estimar el tamaño real de la población
de una especie animal particular, la propagación de bacterias, en mejorar la
raza de los animales.
d) En el desarrollo de la Investigación:
El desarrollo del conocimiento en la ciencia, se caracteriza porque su
ejecución se lleva a cabo según un método: ”El método científico”. La
aplicación de este método es lo que diferencia al conocimiento científico del
conocimiento ordinario.
1.5 POBLACIÓN Y MUESTRA
1º) Población.-. Total de sujetos o unidades de análisis de interés en el estudio.
Según Moya se define como “la colección de todos los individuos, objetos u
observaciones que poseen al menos una característica común”.
EJEMPLOS:
a) Las edades de los estudiantes del Perú.
b) Los pesos de los melones de una cosecha de la Cooperativa Agraria “Los
melones”.
2°) Muestra. - total de sujetos o unidades de análisis de interés en el estudio.
.Es cualquier subconjunto de los sujetos o unidades de análisis de la
población, en el cual se recolectarán los datos. Según Moya se define como
“una parte o un subconjunto representativo de la población”. Y al proceso de
obtener la muestra se llama muestreo.
1.6 TIPOS DE DATOS O VARIABLES
En este capítulo presentaremos los distintos tipos de datos o variables que podemos
encontrar en una investigación y comentaremos algunas estrategias para el manejo de
datos con una computadora.
Características de los conjuntos de datos:
En lo que sigue denominaremos:
UNIDAD DE ANÁLISIS O DE OBSERVACIÓN. - Al objeto bajo estudio. El mismo
puede ser una persona, una familia, un país, una región, una institución o en
general, cualquier objeto.
Estadística con SPSS Pag. N° 7 IESTPAOE
VARIABLE. - A cualquier característica de la unidad de observación que interese
registrar, la que en el momento de ser registrada puede ser transformada en un
número.
VALOR DE UNA VARIABLE, OBSERVACIÓN o MEDICIÓN. - Al número que
describe a la característica de interés en una unidad de observación particular.
CASO o REGISTRO. - Al conjunto de mediciones realizadas sobre una unidad de
observación.
Consideremos el siguiente ejemplo:
Caso Sexo Lugar Nacimiento EPAS
d
a
d
1 F J1 3 110
5
2 M J2 2 120
8
3 M J2 5 136
9
⇑ OBSERVACIÓN
𝑁𝜎 2 𝑍 2
𝑛=
(𝑁 − 1)𝑒 2 + 𝜎 2 𝑍 2
Donde:
n = el tamaño de la muestra.
N = tamaño de la población.
𝜎 = Desviación estándar de la población que, generalmente cuando no se tiene
su valor, suele utilizarse un valor constante de 0,5.
Z = Valor obtenido mediante niveles de confianza. Es un valor constante que, si
no se tiene su valor, se lo toma en relación al 95% de nivel de confianza que
equivale a Z=1,96 (como más usual), o en relación al 99% de nivel de confianza
que equivale a Z= 2,58, valor que queda a criterio del investigador.
e = Límite aceptable de error muestral que, generalmente cuando no se tiene su
valor, suele utilizarse un valor que varía entre el 1% (e=0,01) y 9% (e=0,09), valor
que queda a criterio del encuestador.
La fórmula del tamaño de la muestra se obtiene de la fórmula para calcular la
estimación del intervalo de confianza para la media, la cual es:
𝑁−𝑛𝜎 𝜎 𝑁−𝑛
𝑋̅ − 𝑍 ≤ 𝜇 ≤ 𝑋̅ + 𝑍
√ √
√𝑛 𝑁 − 1 √𝑛 𝑁 − 1
De donde el error es:
𝑁−𝑛 𝜎
√
𝑒=𝑍
√𝑛 𝑁 − 1
De esta fórmula del error de la estimación del intervalo de confianza para la
media se despeja la n, para lo cual se sigue el siguiente proceso:
Elevando al cuadrado a ambos miembros de la fórmula se obtiene:
2
𝑁−𝑛𝜎
(𝑒)2 = (𝑍 √ )
√𝑛 𝑁 − 1
2
𝜎2 𝑁 − 𝑛
2
𝑒 =𝑍
𝑛 𝑁−1
Multiplicando fracciones:
𝑍 2 𝜎 2 (𝑁 − 𝑛)
𝑒2 =
𝑛(𝑁 − 1)
Eliminando denominadores:
Se tiene N=500, para el 95% de confianza Z = 1,96, y como no se tiene los demás
valores se tomará 𝜎 = 0,5, y e = 0,05.
Reemplazando valores de la fórmula se tiene:
𝑁𝜎 2 𝑍 2
𝑛= 2
𝑒 (𝑁 − 1) + 𝜎 2 𝑍 2
500 ∙ 0,52 ∙ 1,962
𝑛=
0,052 (500 − 1) + 0,52 ∙ 1,962
500 ∙ 0,52 ∙ 1,962
𝑛= = 217
0,052 (500 − 1) + 0,52 ∙ 1,962
Los cálculos en Excel se muestran en la siguiente figura:
2
Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los demás
valores se tomará 𝜎 = 0,5, y e = 0,05.
Reemplazando valores en la fórmula se obtiene:
𝑁𝜎 2 𝑍 2
𝑛=
(𝑁 − 1)𝑒 2 + 𝜎 2 𝑍 2
500 ∙ 0,5 ∙ 2,582
2
832,05
𝑛= 2 2 2
= = 285,77 = 286
(500 − 1)(±0,05) + 0,5 ∙ 2,58 2,9116
Los cálculos en Excel se muestran en la siguiente figura:
C R ……………………………(03)
m
El ancho de clase debe tener la misma cantidad de decimales que los datos originales
4°) Determinar la marca de clase (Yi)
Yi (Li Ls )
2 ………………(04)
Li Xmin E ……………………………………………………………………(07)
2
Ls Xmax E ……………………………………………………………………..(08)
2
Estadística con SPSS Pag. N° 15 IESTPAOE
Ls Li c ………………………………………………………………(09)
i1
i1
O también:
Fi Fi1 fi ……………….(12)
7°) Cálculo de las frecuencias relativas
a) Cálculo de la Frecuencia Relativa (hi)
de un valor Xi, es la proporción de valores iguales a Xi en el conjunto de datos (X1,
X2, … , Xn). Es decir, la frecuencia relativa es la frecuencia absoluta dividida por el
número total de elementos n:
hi fi ……………………(13)
n
La Frecuencia Relativa son valores entre 0 y 1: 0 hi 1
La suma de las frecuencias relativas de todos los sujetos es 1. Supongamos que en
el conjunto tenemos k números (o categorías) diferentes, entonces:
h h h .....h 1
k
i 1 2 k
i1
h 1……………………………………………………(14)
k
i
i1
i1
Hi Fi …………………………………………………………(16)
n
Estadística con SPSS Pag. N° 16 IESTPAOE
O así:
Hi Hi1 hi ……………………………………………………(17)
a) La Frecuencia Relativa Porcentual (hi%) se calcula según la siguiente ecuación:
hi %100hi ……………………………………..(18)
h %100%……………………………..(19)
i
b) La Frecuencia Relativa Porcentual Acumulada (Hi%).- Se calcula según la siguiente
ecuación:
Hi % Hi1%hi %…………………………(20)
También se puede calcular así:
Hi %100Hi ………………….………(21)
8°) Confeccionar la tabla de distribución de frecuencias
Se procederá a explicar el procedimiento con el siguiente ejemplo.
EJEMPLO N° 1:
Se han registrado 50 0bservaciones referentes a los pesos de 50 lingotes de acero
producidos por SIDERPERÚ, la muestra fue obtenida de la producción semanal y las
unidades están dadas en kg.
94.3 93.0 95.5 95.3 92.4 94.4 92.8 93.2 93.6 95.5
92.9 93.6 95.7 93.8 94.8 93.9 92.7 91.6 93.6 93.7
94.2 95.7 94.7 94.3 92.7 94.5 96.2 95.4 93.7 |91.9
94.7 92.7 95.0 93.0 92.9 93.7 92.7 93.3 94.6 96.4
94.1 93.7 94.2 93.7 94.0 93.9 93.6 94.6 92.3 94.4
Construir la tabla de distribución de frecuencias e interprete lo valores: f2, f4, F1, h4 y h6%
Solución del Ejemplo N° 1:
RXmaxXmin96.491.64.8//
m13.3log(n) 13.3log(50) 13.3(1.6990) 6.60667//
C R 4.8 0.690.7//
m 7
Ls(max) Xminc(m) 91.60.7(7) 96.5
Exceso(E)Ls(max)Xmax96.596.40.1
Li Xmin E 91.6 0.1 91.5591.6//
2 2
Ls Xmax 96.4 .1 96.4596.5//
E 0
2 2
Construcción de la tabla de frecuencias:
m Li Ls Yi Conteo fi Fi hi Hi hi% Hi%
1 91.6 92.3 92.0 || 2 2 0.0400 0.0400 4% 4%
2 92.3 93.0 92.7 ||||| |||| 9 11 0.1800 0.2200 18% 22%
3 93.0 93.7 93.4 ||||| ||| 8 19 0.1600 0.3800 16% 38%
4 93.7 94.4 94.1 ||||| ||||| |||| 14 33 0.2800 0.6600 28% 66%
5 94.4 95.1 94.8 ||||| |||| 9 42 0.1800 0.8400 18% 84%
6 95.1 95.8 95.5 ||||| | 6 48 0.1200 0.9600 12% 96%
b.2. Para datos con tres dígitos el tallo estará formado por los dígitos de las centenas
y decenas, que se escribirán a la izquierda, separados de las unidades que serán las
hojas. Por ejemplo, 329 e escribirá:
Tallo Hoja
32 9
c. Cada tallo define una clase, y se escribe sólo una vez. El número de “hojas”
representa la frecuencia de dicha clase, que se ubica en una tercera columna
Del diagrama.
EJEMPLO N° 01:
Los siguientes datos representan la longitud en cm. de 16 camarones de un criadero:
11.367; 12.543; 11.382; 12.441; 14.313; 15.212; 13.301; 11.300; 17.806; 12.711;
13.456; 16.142; 12.622; 13.421; 14.697; 13.165
Construir un diagrama de tallo y hojas.
SOLUCIÓN:
1. Los datos redondeados expresados en mm. son :
114; 125; 114; 124; 143; 152; 133; 113; 178; 127; 135; 161; 126; 134;147; 132
2. Siguiendo el proceso indicado en b.2 se construye la tabla N° 01 siguiente:
EJEMPLO N° 02:
Los siguientes datos representan la vida en segundos de 50 moscas de frutas a
las que se somete a un nuevo insecticida en un experimento controlado de
laboratorio:
17 20 10 9 23 13 12 9 18 24
12 14 6 9 13 6 7 10 13 7
16 18 8 13 3 32 9 7 10 11
13 7 18 7 10 4 27 19 16 8
7 10 5 14 15 10 9 6 7 15
Construya un diagrama de tallo y hojas para las vidas de las moscas de fruta.
SOLUCIÓN:
De acuerdo con b.1 y c, se construye la tabla N° 02 siguiente:
Tallos Hojas Frecuencia
0 9696778397774875967 19
1 70329824303683013809604505 26
2 0347 4
3 2 1
Estadística con SPSS Pag. N° 19 IESTPAOE
El diagrama de tallo y hojas de la tabla contienen sólo 4 tallos, y en consecuencia no
proporciona una imagen adecuada de la distribución. Para subsanar este problema, se
requiere aumentar de tallos del diagrama. Una forma simple de lograrlo es anotar dos
veces cada uno de los valores de los tallos en el lado izquierdo de la línea vertical y
después registrar las hojas |, 1, 2, 3 y 4 frente del lado apropiado del tallo donde aparece
por primera vez; y las hojas 5, 6, 7, 8, y 9 frente de este mismo valor del tallo donde
aparece por segunda vez. Este diagrama modificado de doble tallo y hojas se ilustra
en la siguiente tabla, donde los tallos que corresponden a las hojas 0, 1, 2, 3 y 4 se han
distinguido por el símbolo * y los tallos correspondientes a las hojas 5, 6, 7, 8 y 9 por el
símbolo •. Así, por ejemplo, el primer valor observado 17 tiene el tallo 1• y la hoja 7; el
segundo valor observado 20, tiene el tallo 2* y hoja 0, etc.
Tabla N° 02: Diagrama de doble tallo y hojas de la vida de las moscas
Tallos Hojas Frecuencia
0* 34 2
0• 96967789777875967 17
1* 0322430330130040 16
1• 7986889655 10
2* 034 3
2• 7 1
3* 2 1
Problema:
En los últimos 30 días se tomaron los siguientes datos que representan la duración
en años de tres bombas de combustible similares:
2.0 3.0 0.3 3.3 1.3 0.4 0.2 6.0 5.5 6.5
0.2 2.3 1.5 4.0 5.9 1.8 4.7 0.7 4.5 0.3
1.5 0.5 2.5 5.0 1.0 6.0 5.6 6.0 1.2 0.2
a. Construya un diagrama de tallo y hojas para las duraciones de las bombas de
combustible.
b. Construya una tabla de distribución de frecuencias.
SET DE PROBLEMAS N° 02
Problema:
El contenido de nicotina, en miligramos, para 40 cigarrillos de cierta marca se registró
de la siguiente manera:
1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24
1.58 2.03 1.70 2.17 2.55 2.11 1.86 1.90 1.68 1.51
1.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2.08 1.67
1.37 1.93 1.40 1.64 2.09 1.75 1.63 2.37 1.75 1.69
b. Ser conciso: .El título debe ser breve, lo más conciso posible, aunque no debe
sacrificarse la claridad a la concisión.
Fuente: Instituto Nacional de Estadística e Informática.- Encuesta Nacional Demográfica y de Salud Familiar
(ENDES).
3. Cuadro Propiamente Dicho: Es la parte del cuadro que contiene la información y
consta de un conjunto de casillas o celdas, dispuestas en columnas y filas. Sus
elementos esenciales son: encabezamiento de las columnas, columna principal o
matriz y cuerpo.
Encabezamiento: Es la primera fila del cuadro, en el se explica las categorías,
y el objeto de cada una de las columnas, es decir indica la naturaleza de los
datos inscritos en cada celda que se hallan debajo. Deben ser breves y
explícitos. Por ejemplo en el cuadro N° 1.1 el encabezamiento es: el área, urbana
y rural y la región natural subdividida en AML, resto de costa, sierra y selva.
Columna Principal o Matriz: Es aquella en que se anotan las categorías o las
diferentes clases de la escala de clasificación utilizada. Por ejemplo, en el cuadro
N° 1.1, la columna principal está constituida por el estado conyugal: soltera,
casada, …, separada.
Cuerpo: Es el conjunto de celdas o casillas, que son las intersecciones de filas y
columnas, donde están anotados los datos numéricos (ver cuadro N° 1.1)
4. Notas Explicativas o Calce: Contiene habitualmente la fuente de los datos
representados y cualquier nota aclaratoria sobre el contenido del cuadro.
Fuente: Es la indicación al pie del cuadro que sirve para nombrar la entidad
responsable de donde se obtuvieron los datos (ver cuadro N° 1.1).
b) Elaboración de un cuadro estadístico
No es fácil la elaboración de un cuadro estadístico. Se deben plantear cuidadosamente
su tamaño, las columnas y la distribución de la información por orden de importancia,
que, por lo general, no es el orden alfabético.
Es necesario ser cuidadoso en la elección de las columnas y sus encabezamientos ya
que en ellas se pondrán en evidencia relaciones que interesa destacar.
Otro aspecto importante es la elección de las unidades de medida de las magnitudes;
después del título se debe indicar si se trabaja con cientos, miles ó millones. La buena
elección de las unidades beneficia la claridad y el tamaño del cuadro.
Para destacar cierto tipo de proporcionalidad, en lugar del tanto por uno se usa el
inverso uno por tantos.
Set de problemas N° 03
Es aquel en la cual el fenómeno que se estudia queda representado por una serie de
rectángulos, barras o paralelepípedos, los cuales pueden dibujarse horizontal o
verticalmente. Este gráfico se utiliza para representar variable de tipo cualitativo o
cuantitativo discreto.
Recomendaciones para su construcción:
1. Todas las barras, rectángulos o paralelepípedos deben tener el mismo grosor.
2. El espacio entre las barras deben ser de la misma magnitud. No debe ser inferior que
la mitad de una barra, ni mayor que el ancho de la misma.
3. Las barras, por estética deben ordenarse de mayor a menor cuando se pueda.
4. La escala de la frecuencia debe empezar por cero.
5. Deben dibujarse a buen criterio, líneas de fondo en la gráfica; ellas facilitan la lectura de
los valores.
6. No se debe recargar las barras.
EJEMPLO N° 01
Cuadro N° 01: Matrícula en el Sistema de la Educación Peruana según niveles y
modalidades: 1979-1980
Matrícula en el Sistema de la
Niveles y Modalidades Educación Peruana
1979 1980
Educación Inicial 207,637 220,966
Educación Básica Regular 3’115,974 3’144,446
Educación Secundaria 1’094,269 1’134,581
Educación No Universitaria 19,416 26,519
Educación Universitaria 235,186 249,769
Fuente: Oficina Sectorial de estadística – Ministerio de Educación del Perú.
3000000
2500000
Matrículas
2000000
1500000
1000000
500000
0
Educación Inicial Educación Básica Educación Educación No Educación
Regular Secundaria Universitaria Universitaria
Niveles y Modalidades
3500000
3000000
2500000
Matrícula
2000000
1500000
1000000
500000
0
Educación Inicial Educación Básica Educación Educación No Educación
Regular Secundaria Universitaria Universitaria
Niveles y Modalidades
12000000
10000000
NMatrícula
8000000
Total
6000000
Año 1980
4000000
Año 1979
2000000
0
Educación Inicial Educación Educación Educación No Educación
Básica Regular Secundaria Universitaria Universitaria
Nivels y Modalidades
i fi x360 hi x360
n
Donde:
αi= ángulo central del sector o clase i (°), en lo posible debe ser redondeado a cero
decimales.
fi= Frecuencia absoluta del sector o clase i.
n=tamaño total de la muestra.
hi= Frecuencia Relativa del sector o clase i.
EJEMPLO N° 02:
Cuadro N° 02: Matrícula en el Sistema de la Educación Peruana según niveles y
modalidades: 1980
Matrícula en Educación
el sistema de la Educación Peruana: 1980
Educación
No
Universitaria Educación Inicial
Universitaria
0% 5% 5%
Educación Secundaria
24%
Educación Básica
Regular
66%
EJEMPLO N° 03:
Dada la Tabla de distribución de frecuencias de los pesos de 50 lingotes de acero:
Li fi Li hi
91.5 4 91.5 0.0800
4 11 0.08 0.2200
11 20 0.22 0.4000
20 9 0.4 0.1800
9 6 0.18 0.1200
Graficar:
SOLUCIÓN:
a)
d)
e)
Set de Problemas N° 04
El profesor lo planteará en el aula de clases.
Práctica Calificada
El profesor lo planteará en el aula de clases.
Examen Parcial
El profesor lo planteará en el aula de clases.
II:
ESTADÍGRAFOS
DE POSICIÓN
X
n
i
X M(x) i1
n ……………….(2)
Ejemplo N 1:
Una persona que trabaja en forma independiente gana un mes S/. 200.00, otro mes S/.
600.00 y otro S/. 400.00.¿Cuánto gana en promedio mensual?.
Solución:
En este caso x1 = 200; x2 = 600; x3 = 400 y n=3
Aplicando la ecuación (1):
X . f
n
i i
X M(x) i1
n ……………………(3)
Note que la expresión anterior se escribe también así:
X . f
n
X .h
n
i i
X M(x) i1
n ………………….(4)
Ejemplo Nº 2:
Calcular la media aritmética de los datos agrupados en la tabla siguiente, distribución
de frecuencias, número de hijos por familia:
Número de hijos Conteo Frecuencias absolutas
Xi fi
0 / 1
1 ////// 6
2 ///// 5
3 /// 3
4 / 1
Totales 16
X . f
n
i i
X M(x) i1
n
X M(x) 29 1.81
16
Ventajas y Desventajas de la Media Aritmética
Ventajas:
La media aritmética, como un solo número que representa todo un conjunto de datos, tiene
ventajas importantes:
1. Es un conjunto familiar a la mayoría de las personas e intuitivamente claro.
2. Es una medida que puede ser calculada y es única. Ya que cada conjunto de datos
tiene una y solo una media.
3. En el cálculo de la media, es tomada en cuenta cada observación del conjunto de
datos.
4. La media es una medida digna de confianza, por que se determina con mayor
certeza que otras características de un conjunto de datos.
Desventajas:
Como cualquier medida estadística, la media aritmética tiene sus desventajas de las cuales
se debe estar consciente:
1. La media aritmética puede verse afectado por valores extremos que no son
representativos del resto de las observaciones. Por ello, cuando se está utilizando
esta medida de un análisis, vale la pena advertir la representatividad de los valores
extremos y la influencia que estos tienen sobre el resultado.
2. El cálculo de la media aritmética es tedioso porque se usan todas las observaciones
en los cálculos ( a menos, por supuesto que se use el método corto de datos
agrupados para aproximar la media).
3. No se puede calcular la media aritmética para un conjunto de datos que tiene
intervalos de clases abiertos en los extremos. Por ejemplo, suponga que un conjunto
de datos han sido arreglados en la distribución de frecuencias que se muestra en la
tabla siguiente. No se puede calcular un valor para la media de estos datos, por que
no se puede calcular el punto medio de la clase abierta.
Clases 35-40 40-45 45-50 50-55 55 a más
Frecuencia 5 12 14 6 4
Ejemplo Nº 3:
Supongamos que los haberes de los trabajadores de una pequeña empresa es como sigue:
Cargo Número de trabajadores Haberes en soles/mes
Gerente General 1 560
Administrador 1 520
Contador 1 480
Empleado 3 160 c/u
Obrero Calificado 5 150 c/u
Obrero Semicalificado 3 140 c/u
Determinar el haber promedio mensual (por trabajador) de la empresa.
Solución:
a. El haber promedio mensual es:
Ejemplo 1 :la Compañía de la tabla siguiente que emplea tres tipos de obreros no
calificados, semicalificados y calificados; para elaborar dos productos. Supongamos
que la compañía desea conocer el costo promedio de mano de obra por día para cada
producto.
Tipos de Obreros Salario por día Días de trabajo por
Xi (en S/) unidad de producto.
Producto Producto
A B
No calificados 3.00 2 4
Semicalificados 6.00 3 3
Calificados 9.00 5 5
Observe que ésta no es una tabla de distribución de frecuencias.
X
n
n 3
Aplicando la ecuación (5) al producto A , en el ejemplo del costo del salario, se tiene:
X f
n
i i
X i1 690 S /.3 porkg.
n 230
2.3. LA MEDIA GEOMETRICA
a) Para Datos No Agrupados
La media geométrica simple “Mg” ó “ XG ” de n observaciones x1, x2, …, xn positivas,
está dada por la raíz enésima del producto de los n valores observados, es decir:
x ……………………………………….( 6 )
n
XG Mg x1.x2...xn n n i
i1
Ejemplo 1:
Hallar la media geométrica de los números 3,5,8,3,5,2.
Solución:
En este caso n=6; x1=3;x2=5;x3=8;x4=3;x5=5 y x6=2; entonces la media geométrica
es:
log XG 1logxi
n
n i1
Es decir, el logaritmo de la media geométrica resulta ser la media aritmética de los
logaritmos de los xi.
Ahora basta calcular el antilogaritmo de la expresión anterior para tener:
n log X
i
XG anti log i1 ……………………………………………….( 7 )
n
Hemos usado logaritmo de base 10, es claro que puede usarse cualquier sistema
de logaritmo.
b) Para datos tabulados
Si los datos están agrupados o tabulados en clases, la media geométrica ponderada,
es la raíz enésima del producto de las marcas de clases elevadas a sus respectivas
frecuencias, es decir:
X
m
XG X1 .X2 ...Xm
n f1 f2 fm n i
fi
i1
Donde:
n=
Xi = marca de clase, i=1,2,…,m
m= número de clases.
Aplicando logaritmo a ambos miembros de la ecuación anterior se tiene:
1 fi.logxi
m
n i1
Luego:
m f logx
i i
XG anti log i1
n ………………………………………………….( 8 )
Ejemplo Nº 1:
Hallar la media geométrica de la siguiente distribución de frecuencias:
Solución:
Ordenando en la tabla:
Xi fi Log Xi fi.logXi
92 4 1.9637878 7.8551513
93 11 1.9689829 21.653312
94 21 1.9731278 41.435684
95 10 1.9777236 19.777236
96 4 1.9822712 7.929084
Totales 50 98.650469
n i1 50
Luego:
XH Mh 1 n
…………………………………………….( 9 )
n
1 /n n 1
i1 Xi i1 Xi
Ejemplo Nº 1:
La media armónica de los números 3, 4, 6 y 8 es:
XH Mh 1 4 4 4 4x24 32 4.57143
1 / n 1 1 1 1 8643 21 21 7
n
i1 Xi 3 4 6 8 24 24
2.5 LA MEDIANA
a) Definición
La mediana de un conjunto de datos es aquel valor que divide a dicho conjunto en dos
partes que poseen la misma cantidad de datos.
b) Para datos sin tabular
Conocidos los datos: x1, x2, x3, … , xn.
Ordenados en forma creciente: x1≤ x2 ≤ x3 … ≤ xn
Siendo n el total de datos, se tendrá 2 casos:
b.1) Cuando “n” es impar
Si “n” es impar, se tomará como mediana el valor central:
Xm= X
n1…………………………………………………..( 10 )
2
Ejemplo Nº 1:
Calcular la mediana de los siguientes datos:5, 7, 7, 9, 10, 12, 15.
Solución Nº 1:
n = 7 (impar)
Xm X4 9
b.2) Cuando “n” es par
Si “n” es par, habrá 2 términos centrales, y la mediana será la semisuma de dichos
valores:
X(n) X(n 1)
2 2 ………………………………..……………. ( 11)
2
Ejemplo Nº 2:
Calcular la mediana de: 5, 6, 7, 8, 10, 10, 14, 15
Solución Nº 2:
n = 8 (par)
Longitud fi Fi
8 8 8
10 16 24
12 12 36
15 8 44
17 24 68
20 32 100
La mediana debe estar ubicada en el valor que corresponde a la mitad de los datos.
Según la tabla: 100 es el total de datos, la mediana debería ocupar el lugar 50, en la
columna Fi se observa que se acumulan 44 datos en la cuarta fila, se toma el inmediato
superior:
Me = 17
O mejor aún, el valor 50 se encuentra en la Frecuencia acumulada de la quinta fila o
clase, es decir <=68; por tanto :
Me = 17
c.2) Para datos continuos
Si se tuviera una distribución con intervalos de clase, la mediana será determinada
utilizando el diagrama escalonado y la ojiva correspondiente.
Lm Lm+1
m m
Por semejanza de triángulos:
a PQ
…………………… (a)
b QR
Del gráfico, se puede señalar:
a= Xm – Lm
b= n/2 – Fm-1
PQ ancho
declasecm
QR Fm Fm1 fm
Reemplazando en (a)
Xm Lm cm
n F fm
m1
2
Despejando Xm ó Me:
Xm=Me = Mediana
X Xi fi Fi
Lm = 66
cm =3
fm =4
n = 20
Fm-1 =8
2.6 LA MODA
Definición
La moda de un conjunto de valores es el valor que más veces se repite en dicho
conjunto. Si ningún valor se repite se dirá que no existe moda y el conjunto de
datos será amodal.
b) para datos sin agrupar o tabular
Ejemplos:
2) 5, 6, 7, 7, 9, 9, 9, 10, 10 → Mo=9
Xi fi
17 10
21 18
29 19
33 11
Xi fi
[12 , 15> 10
[15 , 18> 15
[18 , 21> 25
[21 , 24> 20
[24 , 27> 10
De la tabla mostrada:
Lo = 18
Co =3
d2= f3 – f4 = 25-20 =5
Hallar:
a) La tabla de distribución de frecuencias completa.
b) Un histograma y polígono de frecuencias.
c) La media aritmética, La Mediana y la Moda. Ubicar estos valores en el polígono de
frecuencias.
SOLUCIÓN Nº 1:
n = 61
Xmin. = 35.90
Xmax. =153.56
Li Ls
f) POLIGONO DE FRECUENCIAS:
Xi. fi
n
h) Cálculo de la Mediana(Me):
n 61 30.50
2 2
Este valor se busca en la columna de Frecuencia Absoluta Acumulada (F3 ≤49 ) y
corresponde a la tercera clase, es decir al intervalo [‘69.52-86.33>
Luego:
Lm = 69.52
Cm = 16.81
fm = 19
Fm-1 = 30
En ec. (12):
Xm Me Lm cm n Fm1
fm 2
Xm Me 69.5216.81 6130 69.9624
19 2
i) Cálculo de la Moda(Mo):
La mayor frecuencia se encuentra en el segundo intervalo (f2=23), es decir: [52.71
– 69.52>
Luego:
Lo = 52.71
Co = 16.81
d1 = f2 – f1 = 23 – 7 = 16
d2 = f2 – f3 = 23 – 19 = 4
En ec. (13):
MoLo co d1
d1 d2
Mo52.7116.81 16 66.1580
164
73.3 76.9 74.0 59.0 76.9 72.3 61.3 76.4 73.6 100.0 73.8
80.5 71.4 72.7 76.9 88.2 99.6 76.9 86.4 79.6 79.6 70.0
50.4 45.6 73.6 82.4 63.4 80.7 78.2 67.7 64.1 72.7 50.5
50.9 77.5 97.5 56.8 123.7 73.3 85.4 74.0 76.9 78.1 73.0
64.8 60.6 89.6 83.0 65.6 77.4 72.2 92.3 68.6 68.3 55.0
74.0 67.5 70.5 76.5 80.2 68.1 100.0 76.9 73.2 65.9 80.0
72.8 54.6 78.1 72.6 84.7 74.6 55.7 64.5 66.3 74.0 84.0
72.0 71.0 84.6 65.9 82.6 70.5 79.3 88.7 70.0 67.3
59.7 66.0 92.5 70.0 76.5 58.8 109.0 72.4 91.9 66.3
90.9 71.0 76.9 130.0 80.6 93.7 84.4 65.7 55.5 96.0
Fuente: con autorización del Dr. N. Thilothammal.
Hallar:
d) La tabla de distribución de frecuencias completa.
e) Un histograma y polígono de frecuencias.
f) La media aritmética, La Mediana y la Moda. Ubicar estos valores en el polígono de
frecuencias.
g) Qué proporción de mediciones es menor que 100?
PROBLEMA Nº 2
Se compararon dos métodos para recolectar sangre para estudios de coagulación. Los
siguientes valores son el tiempo parcial de tromboplastina activada (APTT, siglas en inglés),
de 30 pacientes en cada uno de los dos grupos.
a) Confeccione la tabla de distribución de frecuencias completa para cada método.
b) Elabore una gráfica de valores extremos a partir de cada conjunto de mediciones.
Compare las dos gráficas.
c) Indican alguna diferencia en la distribución de los valores de APTT para ambos
métodos?
d) ¿Qué método tiene mayor mediana?
e) Compare el IQR del método 1 con el IQR del método 2.
METODO 1
METODO 2
PROBLEMA Nº 3:
Un maestro de Estadística indica a sus alumnos en el primer día de clases que se aplicarán
cinco exámenes durante el curso. Con las puntuaciones de cada examen para cada
estudiante, el profesor calcula una medida de tendencia central que servirá como
calificación final del curso del estudiante. Antes de tomar el primer examen se debe elegir
si se quiere que la calificación sea la media o la mediana de las cinco calificaciones de los
exámenes. ¿Cuál escogería usted como estudiante del curso de Estadística?, ¿Porqué?.
Práctica Grupal.
El profesor lo planteará en el aula de clases.
Set de Problemas
El profesor lo planteará en el aula de clases.
Práctica Calificada
El profesor lo planteará en el aula de clases.
Examen Parcial
El profesor lo planteará en el aula de clases.
III:
ESTADÍGRAFOS
DE DISPERSIÓN
RXmax Xmin
Así, para el ejemplo Nº 1, grupos a y b, los recorridos son:
Ra = 15 – 9 = 6
Rb = 18 – 6 = 12.
Si el recorrido de la variable es mayor en un conjunto de observaciones que en otro, debe
esperarse, en principio también que la dispersión de datos sea superior en uno que en el
otro, como puede verse en los ejemplos a y b. Sin embargo, en ciertas ocasiones, el
recorrido ofrece una medida errónea de la dispersión, debido a que sólo se emplean para
calcularlo los valores extremos. Por tanto, ignora la naturaleza de la variación entre todas
las demás observaciones y está altamente influenciado por los valores extremos.
Así en los ejemplos siguientes:
Ejemplo Nº 2:
c: 2, 2, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 14.
d: 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14.
n13, n 1 14 3.5y 3(n1) 3(131) 4210.5 , entonces para el ejemplo 1, es:
4 4 4 4 4
Q1 X(3) (X(4) X(3) )(0.5)7(77)(0.5)7
Q3 X(10) (X(11) X(10) )(0.5)9(99)(0.5)9
Para el ejemplo 2 es:
Q1 X(3) (X(4) X(3) )(0.5)4(54)(0.5)4.5
Q3 X(10) (X(11) X(10) )(0.5)11(1211)(0.5)11.5
Es decir:
1 2 2 7 7 7 8 8 8 8 9 9 9 14
2 2 3 4 5 6 7 8 9 10 11 12 13 14
↑ ↑
Q1 Q3
Por lo tanto, aunque el recorrido de la variable es igual en ambos casos, el recorrido
intercuartílico toma los valores:
RI1 Q3 Q1 97 2
RI2 Q3 Q1 11.54.5 7
Marcando claramente la mayor dispersión que existe en el segundo caso.
X X
n
i
DM i1
n
b) Para datos tabulados
n Y Y
m
i i
DM i1
n
Donde:
m=número de clases.
ni= frecuencia absoluta de la clase i.
Estadística con SPSS Pag. N° 55 IESTPAOE
Yi= Marca de clase o punto medio de la clase i.
i1 n i1
Solución 3:
Se determina como sigue:
1. En primer lugar se halla la media aritmética de los datos.
2. Se encuentra las desviaciones de cada valor observado con respecto a la media.
3. Se toma el valor absoluto de las desviaciones obtenidas en (2).
4. Se suman los valores absolutos de las dos desviaciones obtenidas en (3) y se
divide por el número total de observaciones.
5. Todos los pasos están resumidos en la tabla siguiente:
Observación Desviación Desviación Absoluta
Xi
Xi X Xi X
10 -6 6
12 -4 4
14 -2 2
15 -1 1
17 1 1
18 2 2
20 4 4
22 6 6
128 26
Cálculo de la Media Aritmética:
X i 12816kg.
X
n 8
Cálculo de la Desviación Media Absoluta:
X X
n
i
DM i1
263.25kg.
n 8
c) VENTAJAS Y DESVENTAJAS DE LA DESVIACIÓN MEDIA
1. La desviación media absoluta es una mejor medida de la dispersión que el
recorrido, por que toma en cuenta todas las observaciones en consideración.
Estas medidas son las más utilizadas en el estudio de la dispersión. Como ya hemos
dicho la varianza mide la dispersión de los datos con respecto a la media aritmética y la
desviación típica o desviación estándar es simplemente la raíz cuadrada positiva de la
varianza.
3.4.1. Varianza poblacional
La varianza o variancia de una población finita de N elementos X1, X2, … , XN, se
define como la media aritmética del cuadrado de las desviaciones de los
elementos con respecto a su media µ, y se denota por “σ2”. Es decir:
Xiµ
N
2
2 M X µ2 i1
N
3.4.2. Varianza de una muestra
La varianza o variancia de una muestra X1, X2, … , Xn de una variable o
característica X (que abreviadamente escribiremos “V(X)”, se define como la
media del cuadrado de las desviaciones de las observaciones con respecto de la
media aritmética de esos datos. Si denotamos por “S ’2”la varianza de la
característica X, entonces:
X X
n
2
n
b) PARA DATOS TABULADOS:
n (Y Y)
m
2
n
Donde:
ni = frecuencia absoluta de la clase i.
Yi = Marca de clase o punto medio de la clase i.
La última expresión se escribe también:
i1
Si conocemos el valor de la media aritmética poblacional µ, la mejor estimación de
la varianza poblacional σ2 a partir de una muestra sería:
i1 i1
Si dividimos ambos miembros de la desigualdad por n tendríamos:
Ahí resulta que la corrección apropiada puede ser hecho mediante la utilización en el
denominador de n-1 en vez de n. Es decir, se tendría:
X X
n
2
i
V(X) S2 i1
n1
PARA DATOS TABULADOS:
n Y Y
n
2
i. i
V(Y) S2 i1
n1
Note que:
S2 n S'2
n1
m
ni .(Yi Y)2
n hi.(YiY)2
n m
S2 i1
n1 n n1 i1
El factor
n se conoce como la corrección de Bessel.
n 1
Ejemplo 4:
Las frecuencias cardíacas de 5 niños son: 130, 132, 127, |29, 132 pulsaciones por
minuto.
Determinar la varianza de la frecuencia cardíaca de la muestra.
Solución 4:
Se procede como sigue:
1.
Se determina la media aritmética de la muestra.
2.
Se toma la diferencia entre cada observación y la media aritmética.
3.
Se eleva al cuadrado estas desviaciones.
4.
Se suman los cuadrados de las desviaciones.
5.
La suma se divide por n-1 si la muestra es pequeña y por n-1 ó n, si la
muestra es muy grande.
Todos los pasos están resumidos en el cuadro siguiente:
Xi Xi X (Xi X)2
127 -3 9
129 -1 1
130 0 0
132 2 4
132 2 4
X 650
i X X 18
i
2
X X
n
2
i
S'2 i1 183.6
n 5
X X
n
2
i
S2 i1 18 4.5
n1 4
Podemos observar que S’2 es claramente menor que S2, debido a que la muestra
es pequeña.
3.5 Desviación típica o desviación estándar
Si bien ya sabemos cómo expresar cuantitativamente la dispersión de un conjunto
de observaciones, ocurre un inconveniente en cuanto a la interpretación de esta
cantidad, ya que ella está dada en el cuadrado de la dimensión en que se expresa la
característica, y en ocasiones trae confusión. Es conveniente, entonces contar con
otro estadígrafo que basado en el valor de la varianza, sirva para dar una medida de la
dispersión en la misma dimensión en que están los datos. Esta medida es la
desviación típica o desviación estándar.
f i .Y i X
Yi X 2
2
m(i) Li Ls Yi fi Yifi
1 150 155 152.5 3 457.5 413.707701 1241.123103
2 155 160 157.5 6 945 235.3096428 1411.857857
3 160 165 162.5 12 1950 106.9115845 1282.939014
4 165 170 167.5 18 3015 28.51352625 513.2434725
5 170 175 172.5 25 4312.5 0.115467999 2.886699972
6 175 180 177.5 17 3017.5 21.71740975 369.1959657
7 180 185 182.5 10 1825 93.31935149 933.1935149
2°) Calculamos la media Aritmética y la varianza, luego la desviación típica, tal como se
muestra:
Media(Ῡ)= 172.84
Varianza(S2)= 91.3894
Desviación Típica(S)= 9.560
COEFICIENT C.V. S
EDEVARIACIÓN
X
Ejemplo N° 6:
En dos pruebas de conocimiento A y B, la prueba A se calificó sobre 100 puntos; la media
aritmética de las calificaciones fue de 72 puntos con una desviación típica de 9 puntos.
La prueba B se calificó sobre 80 puntos y los resultados dieron una media de 52 puntos
con una desviación típica de 6. Halle en cuál de las dos pruebas hubo menor variación.
Solución N° 6:
SA 9
C.VA. 0.125(12.50%)
X A 72
SB 6
C.VB. 0.115(11.50%)
X B 52
Por tanto, la prueba de conocimiento B tiene menor variación en los puntajes.
Ejemplo N° 7:
Una fábrica tiene dos departamentos: uno de producción y otro de ventas. Las siguientes
tablas de frecuencias presentan los haberes percibidos , hasta fines de Abril en cada uno
de los departamentos.
Haberes semanales N° trabajadores
(miles de soles) (Dpto. Producción)
[10, 15> 15
[15, 20> 25
[20, 25> 30
Determinar:
a. El haber promedio mensual y la desviación típica correspondiente a cada
departamento.
b. El Coeficiente de Variación de cada Departamento.
c. El haber promedio mensual y la desviación típica del conjunto de trabajadores de
ambos departamentos.
Solución N° 7:
a.1) Para el Departamento de Producción:
f i .Y i X
Yi X 2
2
m(i) Li Ls Yi fi Yifi
1 10 15 12.50 15 187.50 90.25 1353.75
2 15 20 17.50 25 437.50 20.25 506.25
3 20 25 22.50 30 675.00 0.25 7.50
4 25 30 27.50 20 550.00 30.25 605.00
5 30 35 32.50 5 162.50 110.25 551.25
6 35 40 37.50 5 187.50 240.25 1201.25
7 40 45 42.50 0 0.00 420.25 0.00
Σ= 100 2200.00 4225.00
Media(Ῡ)= 22.00
Varianza(S2)= 42.25
Desviación Típica(S)= 6.50
m(i) Li Ls Yi fi Yifi
1 20 60 40 0 0 5776 0
2 60 80 70 5 350 2116 10580
3 80 100 90 5 450 676 3380
4 100 120 110 15 1650 36 540
5 120 140 130 20 2600 196 3920
6 140 160 150 5 750 1156 5780
Σ= 50 5800 24200
m(i) Li Ls Yi fi Yifi
Práctica Grupal.
El profesor lo planteará en el aula de clases.
Set de Problemas
El profesor lo planteará en el aula de clases.
Práctica Calificada
El profesor lo planteará en el aula de clases.
Examen Parcial
El profesor lo planteará en el aula de clases.
Figura 3.5.1.1
Asimetría Positiva.- Se dice que una distribución de frecuencia unimodal presenta
asimetría positiva o a la derecha, si se tiene una ramificación más extendida hacia la
derecha o hacia valores grandes de la variable. En este caso la media aritmética es
mayor que la moda. La mediana por el hecho de dividir el conjunto de observaciones en
dos partes iguales, quedará comprendida entre ambas. ( fig. 3.5.1.2)
Asimetría Negativa.- Se dice que una distribución de frecuencia unimodal presenta
asimetría negativa o a izquierda, si tiene una ramificación más extendida hacia la
izquierda o hacia valores pequeños de la variable. La media aritmética es menor que la
moda. La mediana por la misma razón anterior permanecerá en el centro (fig. 3.5.1.3).
Figura 3.5.1.2
CAs X XMo
S
Sin embargo, es conocido que la moda de una distribución no es fácil de calcular y para
muchas distribuciones sólo es una aproximación. Entonces, podemos expresar el
numerador de la expresión anterior en función de la mediana. Considerando la relación
empírica entre la media aritmética, la mediana y la moda (ver 2.7) para distribuciones de
frecuencia unimodales y moderadamente asimétricas.
Xi X
N 4
Curtosis i1 3
. x4
NS
Siendo:
X :lamedia
Sx :ladesviacióntípica
1. Computación e Informática
2. Contabilidad
3. Enfermería Técnica
4. Técnico en Farmacia
5. Electrónica Industrial
6. Mecánica Automotriz
Nº 2: TURNO:
1. Diurno
2. Nocturno
Nº 3: AULA:
1. A
2. B
3. Única
Nº 4: CICLO:
1. I Ciclo
2. II Ciclo
3. III Ciclo
4. IV
Estadística conCiclo
SPSS Pag. N° 69 IESTPAOE
5. V Ciclo
6. VI Ciclo
Nº 6: EDAD (años cumplidos):
……………………………..
Nº 7: PESO (Kg.):
……………………………..
Nº 8: PROMEDIO
Después DE NOTAS
de realizada la encuesta se obtuvieron los siguientes datos, que se muestran en
la siguiente tabla:
……………………………..
Tabla N° 01: Encuesta a los Estudiantes del I.E.S.T.P.A.O.E. en el año 2015
CASO VAR01 VAR02 VAR03 VAR04 VAR05 VAR06 VAR07 VAR08 VAR09 VAR10
1 2 1 1 3 1 20 45 12 1 1
Nº 9: TRABAJA?
2 3 2 2 3 2 19 40 13 1 1
3 5 2 1 1 1 18 42 15 2 1
1. Sí4 1 1 1 1 2 17 36 14 2 1
2. Nó
5 3 2 2 3 1 21 47 11 1 2
Nº 10: ESTADO CIVIL
6
1. Soltero(a) 4 2 3 3 2 20 40 13 1 1
2. Casado(a)
7 3 1 2 3 2 19 39 12 1 1
3. Conviviente
8 1 2 2 1 1 19 44 14 2 1
4. Viudo(a)
9 4 2 3 3 2 20 38 14 1 1
5. Divorciado(a)
10 3 1 1 3 1 21 46 12 1 3
11 2 2 1 3 2 20 39 13 1 1
12 3 2 1 3 1 21 46 13 1 1
13 1 1 1 1 2 18 37 14 2 1
14 4 2 3 3 1 19 43 12 1 3
15 3 1 1 3 2 19 39 12 2 2
Fuente: Encuesta propia del autor-2015.
Ahora procederemos a trabajar con el software estadístico Pasw Statistics 18 y definir las
variables de la encuesta.
Como puede observar, éste se parece a una hoja de cálculo y tiene dos pestañas en la
parte inferior izquierda.
Hacer clic en la pestaña “vista de variables”, y definir la primera variable (pregunta Nº
1), de la siguiente manera:
En la fila 1 debe definir las características de la primera variable. Por ello escriba en la
celda correspondiente a cada característica lo siguiente:
Nombre: VAR01
Ahora ubíquese en la celda “Tipo” y hacer clic en los puntos suspensivos ubicado al
lado derecho de “numérico”, mostrará la siguiente ventana
Después de ingresar
todos los valores para la
variable Var01, ahora debe hacer clic en el botón “Aceptar”. Ahora ubíquese en la celda
Perdidos y hacer clic en los puntos suspensivos, tendrá la ventana:
Después de definir todas las variables debe grabar la estructura de la base de datos.
4.4 Hacer clic en menú “archivo” y otro en “guardar” ó presione las teclas [Ctrl]+[S], en
los dos casos se mostrará:
Como puede observar la ventana es muy similar a una hoja de Excel, lo cual facilita el
ingreso de datos. Ingrese usted los siguientes datos de la tabla:
Caso VAR01 VAR02 VAR03 VAR04 VAR05 VAR06 VAR07 VAR08 VAR09 VAR10
4.8 Observe que la casilla de la opción “Mostrar tablas de frecuencias” está seleccionada
por defecto. Déjela como está. Ahora seleccione el botón “Gráficos…”, se mostrará
la ventana:
Como puede observar ésta ventana consta de dos partes. Seleccionando la opción
del resultado en el lado izquierdo, éste se mostrará en el lado derecho.
4.8 CREACIÓN DEL INFORME O REPORTE CON LOS RESULTADOS
Ya tenemos los resultado del procesamiento de datos, pero éstos se encuentran en el
formato del Pasw Statistics 18 o SPSS, sin embargo nosotros queremos que el
resultado sea utilizado en formato word para trabajarlo con el procesador de textos
WORD, por ejemplo.
Para obtener esto hacemos lo siguiente:
Notas
Resultados creados 11-jul-2011 02:56:01
Comentarios
Entrada Datos D:\Alejandro\ISTPAOE-
2011\Estadistica\Separatas\
Encuesta01.sav
Conjunto de datos Conjunto_de_datos1
activo
Filtro <ninguno>
Peso <ninguno>
Segmentar archivo <ninguno>
Núm. de filas del 15
archivo de trabajo
Manipulación de los Definición de los Los valores perdidos
valores perdidos perdidos definidos por el usuario
serán tratados como
perdidos.
Casos utilizados Los estadísticos se basan en
todos los casos con datos
válidos.
Sintaxis FREQUENCIES
VARIABLES=VAR01 VAR02
VAR03 VAR04 VAR05
VAR09 VAR10
/BARCHART FREQ
/ORDER=ANALYSIS.
Estadísticos
CARRERA
PROFESIO
NAL TURNO AULA CICLO SEXO
N Válidos 15 15 15 15 15
Perdido 0 0 0 0 0
s
Estadísticos
TRABA ESTADO
JA CIVIL
N Válidos 15 15
Perdido 0 0
s
TABLA DE FRECUENCIA
CARRERA PROFESIONAL
Frecuenci Porcentaj Porcentaje Porcentaje
a e válido acumulado
Válido Computación e 3 20,0 20,0 20,0
s Informática
Contabilidad 2 13,3 13,3 33,3
Enfermería Técnica 6 40,0 40,0 73,3
Técnico en Farmacia 3 20,0 20,0 93,3
Electrónica 1 6,7 6,7 100,0
Total 15 100,0 100,0
TURNO
Frecuenci Porcentaj Porcentaje Porcentaje
a e válido acumulado
Válido Diurno 6 40,0 40,0 40,0
s Nocturn 9 60,0 60,0 100,0
o
Total 15 100,0 100,0
CICLO
Frecuenci Porcentaj Porcentaje Porcentaje
a e válido acumulado
Válido I Ciclo 4 26,7 26,7 26,7
s III 11 73,3 73,3 100,0
Ciclo
Total 15
100,0 100,0
SEXO
Frecuenci Porcentaj Porcentaje Porcentaje
a e válido acumulado
Válido Masculin 7 46,7 46,7 46,7
s o
Femenin 8 53,3 53,3 100,0
o
Total 15 100,0 100,0
TRABAJA
Frecuenci Porcentaj Porcentaje Porcentaje
a e válido acumulado
Válido Sí 10 66,7 66,7 66,7
s Nó 5 33,3 33,3 100,0
Total 15 100,0 100,0
ESTADO CIVIL
Frecuenci Porcentaj Porcentaje Porcentaje
a e válido acumulado
Válido Soltero(a) 11 73,3 73,3 73,3
s Casado(a 2 13,3 13,3 86,7
)
Convivien 2 13,3 13,3 100,0
te
Total 15 100,0 100,0
Notas
Resultados creados 11-jul-2011 03:21:57
Comentarios
Entrada Datos D:\Alejandro\ISTPAOE-
2011\Bioestadistica\Separatas\En
cuesta01.sav
Conjunto de datos Conjunto_de_datos1
activo
Filtro <ninguno>
Peso <ninguno>
Segmentar archivo <ninguno>
Núm. de filas del 15
archivo de trabajo
Manipulación de los Definición de los Los valores perdidos definidos
valores perdidos perdidos por el usuario serán tratados
como perdidos.
Casos utilizados Los estadísticos se basan en
todos los casos con datos
válidos.
Sintaxis FREQUENCIES
VARIABLES=VAR06 VAR07
VAR08
/STATISTICS=STDDEV
VARIANCE MEAN MEDIAN
MODE
/HISTOGRAM NORMAL
/ORDER=ANALYSIS.
[Conjunto_de_datos1] D:\Alejandro\ISTPAOE-
2011\Bioestadistica\Separatas\Encuesta01.sav
TABLA DE FRECUENCIA
EDAD
Frecuenci Porcentaj Porcentaje Porcentaje
a e válido acumulado
Válido 17 1 6,7 6,7 6,7
s 18 2 13,3 13,3 20,0
19 5 33,3 33,3 53,3
20 4 26,7 26,7 80,0
21 3 20,0 20,0 100,0
Total 15 100,0 100,0
PESO
Frecuenci Porcentaj Porcentaje Porcentaje
a e válido acumulado
Válido 36,00 1 6,7 6,7 6,7
s 37,00 1 6,7 6,7 13,3
38,00 1 6,7 6,7 20,0
39,00 3 20,0 20,0 40,0
40,00 2 13,3 13,3 53,3
42,00 1 6,7 6,7 60,0
43,00 1 6,7 6,7 66,7
44,00 1 6,7 6,7 73,3
45,00 1 6,7 6,7 80,0
46,00 2 13,3 13,3 93,3
47,00 1 6,7 6,7 100,0
Total 15 100,0 100,0
HISTOGRAMA
V: TEMAS
ESPECIALES
Ejemplo:
A continuación se presentan los Pesos (X) y la Estatura (Y) de 12 estudiantes. Trace el diagrama de
dispersión.
Peso Estatura
n
(X) (Y)
1 60 179
2 56 147
3 42 125
4 72 160
5 36 118
6 63 149
7 47 128
8 55 150
9 49 145
10 38 115
11 42 140
12 61 152
Solución:
El diagrama de dispersión correspondiente se muestra en la siguiente figura:
r Covx, y ……………………………(1)
SxSy
Cov(x, y)
i i i i
…………………………(2)
n n
La Desviación Típica se calcula así:
Sx X i
2
X
2
n
………………………………………………(3)
Yi2 2
Sy Y
n
Donde:
Cov(x , y) = es la covarianza
SX= es la desviación típica de x.
SY = es la desviación típica de y.
Reemplazando (2) y (3) en (1):
r n
X X Y
……………………………..(4)
2 2
Y
i 2 i 2
n n
Ejemplo:
Del ejemplo de peso y estatura.
n X Y X.Y X2 Y2
1 60 179 10740 3600 32041
2 56 147 8232 3136 21609
3 42 125 5250 1764 15625
4 72 160 11520 5184 25600
5 36 118 4248 1296 13924
6 63 149 9387 3969 22201
7 47 128 6016 2209 16384
8 55 150 8250 3025 22500
9 49 145 7105 2401 21025
10 38 115 4370 1444 13225
11 42 140 5880 1764 19600
12 61 152 9272 3721 23104
SUMATORIA= 621 1708 90270 33513 246838
Cálculos:
X 621 51.75
X
n 12
Y 1708 142.33
Y
n 12
SX i X 33513 (51.75)2 10.70
X2 2
n 12
SY i Y 246838 (142.33)2 17.66
2
Y 2
n 12
Reemplazando los valores en la ecuación (4):
X .Y XY i i 90270 (51.75)(142.33)
r n 12 7522.507365.58 156.92 0.8304
X X Yi
2
2 i
2
Y
2 (10.70)(17.66) 188.96 188.96
n n
b) Coeficiente de Determinación: r2
b) Seleccionar la opción Regresión > Lineales del menú Analizar para acceder al cuadro de diálogo
Regresión Lineal que muestra la figura:
e) Con solo estas especificaciones, al pulsar el botón Aceptar, el visor ofrece los resultados que se
muestran a continuación:
Regresión
Notas
Resultados creados 01-sep-2019 19:56:56
Comentarios
Entrada Datos I:\2019-2\Estadistica
General\Archivos-SPSS\reg.sav
Conjunto de datos activo Conjunto_de_datos1
Filtro <ninguno>
Peso <ninguno>
Segmentar archivo <ninguno>
Núm. de filas del archivo 100
de trabajo
Tratamiento de los datos Definición de perdidos Los valores perdidos definidos por
perdidos el usuario se tratarán como
perdidos.
Casos utilizados Los estadísticos se basan en los
casos sin valores perdidos para
ninguna variable de las utilizadas.
Sintaxis REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R
ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT tiempodevida
/METHOD=ENTER cigarrillos.
En esta tabla Resumen del modelo se observa que R toma un valor muy alto (su máximo es 1); y R 2 nos
indica que el 93.5% de la variación del tiempo de vida está explicada por el número de cigarrillos que consume.
Es importante resaltar en este momento que el análisis de regresión no permite afirmar que las relaciones
R cuadrado corregida es una corrección a la baja de R2 que se basa en el número de casos y de variables
independientes.
El error típico de la estimación es la desviación típica d los residuos. Representa una medida de la parte de
variabilidad de la variable dependiente que no es explicada por la recta de regresión. En general, cuanto
estadístico F permite contrastar la hipótesis nula de que el valor poblacional de R es cero, lo cual, en el
modelo de regresión simple, equivale a contrastar la hipótesis de que la pendiente de la recta de regresión
vale cero. El nivel crítico (Sig.) indica que, si suponemos que el valor poblacional de R es cero, es
improbable (probabilidad=0.000) que R, en esta muestra, tome el valor 0.967. Lo cual implica que R es
mayor que cero y que, en consecuencia, ambas variables están linealmente relacionadas.
Coeficientesa
Modelo Coeficientes no Coeficientes
estandarizados tipificados
B Error típ. Beta t Sig.
1 (Constante) 85,578 ,732 116,957 ,000
cigarrillos -1,561 ,041 -,967 -37,752 ,000
a. Variable dependiente: tiempo de vida
La tabla “Coeficientes” muestra los coeficientes de la recta de regresión. La columna etiquetada coeficientes
no estandarizados contiene los coeficientes de regresión parcial que definen la ecuación de regresión en
puntuaciones directas.
El coeficiente correspondiente a la Constante es el origen de la recta de regresión (lo que se llama bo). Y el
coeficiente correspondiente a Cigarrillos es la pendiente de la recta de regresión (lo que se llama b1).
b1 indica el cambio medio que corresponde a la variable dependiente (tiempodevida) por cada unidad de
cambio de la variable independiente (cigarrillos). Según esto, la ecuación de regresión queda de la siguiente
manera:
PronósticoenTiempodevida85.5781.561*Cigarrillos
A cada valor de cigarrillos le corresponde un pronóstico en tiempo de vida.
Finalmente, a partir de los resultados de la tabla, podemos llegar a las siguientes conclusiones:
contrastar la hipótesis “ao=0” carece de utilidad, pues no contiene información sobre la relación entre
Xi e Yi).
cigarrillos) es significativamente distinta de cero, lo cual nos permite concluir que entre cigarrillos y
Ejemplo:
1º. Seleccionar la opción regresión > Lineales del menú Analizar para acceder al cuadro
3º. Seleccionar las variables cigarrillos, licerveza, café y antiácido y trasladarlas a la lista
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT tiempodevida
/METHOD=ENTER cigarrillos licerveza Café Antiacido.
Regresión
ANOVAb
Modelo Suma de Media
cuadrados gl cuadrática F Sig.
1 Regresión 20886,776 4 5221,694 431,664 ,000a
Residual 1149,184 95 12,097
Total 22035,960 99
a. Variables predictoras: (Constante), Consumo de antiácidos, Consumo de Café,
cigarrillos, Litros de cerveza mensual
b. Variable dependiente: tiempo de vida
Coeficientesa
Modelo t Sig.
1 (Constante) 79,775 ,000
Cigarrillos -15,432 ,000
Litros de cerveza -4,430 ,000
mensual
Consumo de Café -1,750 ,083
Consumo de antiácidos ,339 ,736
a. Variable dependiente: tiempo de vida
1º. Las tres variables independientes incluidas en el análisis explican un 94.6% de la varianza de la variable
dependiente, pues R2 corregida=0.946. Además el error típico de los residuos (3.478 en el análisis de
regresión simple) ha disminuido algo (3.804 en el análisis de regresión múltiple), lo que indica una
pequeña mejora en el ajuste. De nuevo, el valor corregido R2 es casi idéntico al valor no corregido.
2º. El estadístico F (de la tabla ANOVA) contrasta la hipótesis nula de que todos los coeficientes de regresión
parciales son nulos, por tanto, nos permite decidir si existe relación lineal significativa entre la variable
dependiente y el conjunto de variables independientes tomadas juntas. El valor crítico Sig.= 0.000 indica
que sí existe relación lineal significativa. Podemos afirmar, por tanto, que al menos una de las variables
3º. La tabla de coeficientes de regresión parcial contiene toda la información necesaria para construir la
4º. El coeficiente correspondiente a la variable cerveza que vale -0.349, indica que, si el resto de variables
5º. Observando el nivel crítico asociado a cada prueba t (tabla coeficientes de regresión parcial), vemos que
las dos primeras variables utilizadas cigarrillos y cerveza poseen coeficientes significativamente distintos
dependiente; mientras que los valores sig correspondientes a las variables café y antiácido son mayores
de 0.05, por lo que no explican de manera significativa el tiempo de vida, por lo que deben de ser
excluidas del modelo.
6º. Estimamos nuevamente el modelo de regresión lineal múltiple, tomando solamente en cuenta las
Práctica Grupal.
El profesor lo planteará en el aula de clases.
Set de Problemas
El profesor lo planteará en el aula de clases.
Práctica Calificada
El profesor lo planteará en el aula de clases.
Examen Final
El profesor lo planteará en el aula de clases.
6.1 BIBLIOGRAFIA:
10.
6.2 LINKOGRAFIA:
1. http://www.dm.uba.ar/materias/estadistica_Q/2011/1/modulo%20descriptiva.pdf
2. http://www.universoformulas.com/estadistica/descriptiva/