Estadistica Con Spss

INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“ANTENOR ORREGO ESPINOZA”
ESTADÍSTICA
CON SPSS
Ing. ALEJANDRO CALLAÑAUPA SULCA
Estadística con SPSS Pag. N° 1 IESTPAOE

ESTADÍSTICA CON SPSS
2019
Autor: Ing. Alejandro Callañaupa Sulca
Esta publicación no puede ser reproducida, ni en todo o en parte, ni registrada en o transmitida por
un sistema de recuperación de información, en ninguna forma ni por ningún medio, sea mecánico,
fotoquímico, electrónico, magnético, electroóptico, por fotocopia o cualquier otro, sin el permiso
previo de los autores.
Es una marca registrada.

Este es un material educativo sólo para uso interno del Instituto de Educación Superior Tecnológico Público “Antenor Orrego Espinoza”

ESTADÍSTICA
CON SPSS

INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO
PÚBLICO
I:
CONCEPTOS
BÁSICOS

Ing. FREDDY NAVARRO CASTAÑEDA

Capítulo I: CONCEPTOS BÁSICOS
1.1 INTRODUCCIÓN
Estadística, es el arte de realizar inferencias y sacar conclusiones a partir de
datos imperfectos. Los datos son generalmente imperfectos en el sentido que aun
cuando posean información útil no nos cuentan la historia completa. Es necesario
contar con métodos que nos permitan extraer información a partir de los datos
observados para comprender mejor las situaciones que los mismos representan.
Algunas técnicas de análisis de datos son sorprendentemente simples de
aprender y usar más allá del hecho que la teoría matemática que las sustentan puede
ser muy compleja.
Todos, aún los estadísticos, tenemos problemas al enfrentarnos con listados
de datos. Existen muchos métodos estadísticos cuyo propósito es ayudarnos a
poner de manifiesto las características sobresalientes e interesantes de nuestros
datos que pueden ser usados en casi todas las áreas del conocimiento.
Los métodos estadísticos pueden y deberían ser usados en todas las etapas
de una investigación, desde el comienzo hasta el final. Existe el convencimiento de
que la estadística trata con el análisis de datos (quizás porque esta es la contribución
más visible de la estadística), pero este punto de vista excluye aspectos vitales
relacionados con el diseño de las investigaciones. Es importante tomar conciencia
que la elección del método de análisis para un problema, se basa tanto en el tipo de
datos disponibles como en la forma en que fueron recolectados.
¿Por qué estudiar estadística?
Porque los datos estadísticos y las conclusiones obtenidas aplicando
metodología estadística ejercen una profunda influencia en casi todos los campos de
la actividad humana. En particular, la estadística invade cada vez más cualquier
investigación relativa a salud pública. Este crecimiento, probablemente relacionado
con el interés por aumentar la credibilidad y confiabilidad de las investigaciones, no
garantiza que en todos los casos la metodología estadística haya sido correctamente
utilizada, o peor aún, que sea válida.
¿Por qué debe preocuparnos la aplicación incorrecta de métodos estadísticos
en un trabajo científico o en un informe técnico?
• Porque las conclusiones pueden ser incorrectas.
• Porque no todos los lectores están en condiciones de detectar el error, y esto
genera un importante “ruido” en la bibliografía científica (Aunque este argumento
tiende a sobredimensionar la importancia de un paper, existe considerable evidencia
que los lectores sin formación metodológica tienden a aceptar como válidas las
conclusiones de los trabajos publicados, en especial si se encuentran publicados en
revistas prestigiosas).
El estudio de la Estadística y el modo de pensamiento que se genera a partir del
mismo, capacita a la persona para evaluar objetiva y efectivamente si la información
que recibe (vía tablas, gráficos, porcentajes, tasas, etc.) es relevante y adecuada.
Por supuesto, la interpretación de cualquier problema requiere, no sólo de
conocimientos metodológicos sino también, de un profundo conocimiento del tema.
Aun cuando una persona no esté interesada en especializarse en estadística, un
entrenamiento básico en el tema permite una mejor comprensión de la información
cuantitativa.
1.2 DEFINICIÓN DE ESTADÍSTICA
“Es una ciencia que proporciona un conjunto de métodos que se utilizan para
recolectar, resumir, clasificar, analizar e interpretar el comportamiento de los
“datos” con respecto a una característica materia de estudio o investigación”.

1.3 DIVISIÓN DE LA ESTADÍSTICA
a) Estadística Descriptiva. - Es el conjunto de métodos que implican la
recolección, presentación y caracterización de un conjunto de datos a fin de
describir en forma apropiada las diversas características de éstas. Es decir,
un estudio estadístico se considera “descriptivo” cuando sólo se analiza y
describe los datos.
Ejemplo:
Un gerente de personal desea conocer las aptitudes de cinco secretarias que
trabajan en una dependencia particular de una compañía. Se aplica una
prueba de aptitudes a las cinco secretarias y las calificaciones son: 85, 90, 93,
82 y 95 puntos. Supongamos que la medida estadística que emplea el
gerente de personal es la aptitud promedio ó media aritmética, la cual es
la suma de los valores observados dividida entre el número de observaciones.
Entonces, la calificación promedio es:
8590938295 44589puntos
5 5
El resultado se limita a los datos obtenidos, en este caso particular y no implica
ninguna generalización acerca de las aptitudes de las secretarias de otras
oficinas de la misma compañía. Es decir, el gerente está usando estadística
para describir aptitudes de las secretarias de esa oficina. Este método es de
naturaleza descriptiva, debido a que el promedio condensa y describe la
información obtenida.
b) Estadística Inferencial. - Es el conjunto de métodos o técnicas que
posibilitan la generalización o toma de las decisiones en base a una
información parcial obtenida mediante técnicas descriptivas.
Ejemplo:
Suponga ahora en el ejemplo anterior, que el gerente de personal desea
conocer la aptitud promedio de todas las secretarias de la compañía, pero
carece de tiempo o de los recursos para aplicar una prueba de aptitud a todas
ellas. Entonces decide usar la aptitud promedio de las cinco secretarias para
estimar la aptitud promedio de todas las secretarias de la compañía. El
proceso de estimar esta aptitud promedio global será un problema de
Inferencia estadística.
1.4 APLICACIONES DE LA ESTADÍSTICA
La Estadística proporciona un conjunto de métodos aplicables en todas las
áreas científicas donde se acumulan, se analizan y se interpretan datos.
Resulta, pues muy difícil nombrar áreas donde no se aplica. Citaremos aquí
brevemente algunos campos en los cuales los métodos estadísticos juegan
un papel principal, como: Salud y Medicina, Biología, Economía,
Administración, Contabilidad, Ingeniería, etc. y en la Investigación Científica.
a) En Salud y Medicina:
Las estadísticas de salud incluyen toda información numérica relacionada
de modo directo con los problemas de salud, concebidos en una escala
social. Podemos citar muchos ejemplos que muestran lo necesario que
son las estadísticas de salud, lado a lado con los métodos para su análisis
e interpretación para fomentar y desarrollar una política sanitaria
adecuada. Las siguientes interrogantes y muchas más, que encuentran
respuesta en las estadísticas de salud especializada llamada
“Bioestadística”, son una muestra de ellos:
 ¿Cuál es la causa más importante de muerte en esta región: ¿el
cáncer?, ¿la tuberculosis?, los accidentes de tránsito?
 ¿A qué edad resulta más alta la mortalidad y por cuál enfermedad?

 ¿En qué zona, determinado tipo de enfermedad presenta una
incidencia mucho más elevada que la incidencia promedio?
 ¿Qué condiciones prevalecen en esas zonas?
 ¿Existen algunas áreas específicas ó algunas épocas en que se
registran preferentes brotes de alguna enfermedad?
Algunos usos principales de las estadísticas de la salud son las
siguientes:
 Describir el nivel de salud de una comunidad.
 Diagnosticar las enfermedades de una comunidad.
 Encontrar soluciones a los problemas de salud.
 Determinar prioridad para los programas de salud, etc.
Finalmente, el proceso científico en medicina, que tiene lugar (como en todas
las ciencias) como resultado de la investigación, encuentra también en la
ciencia Estadística un instrumento de incalculable valor.
b) En Economía:
La Estadística constituye uno de los pilares d la aplicación de la teoría
económica. Se utiliza en la descripción e fenómenos económicos, en la
estimación de las relaciones económicas, en la verificación de las teorías
económicas y en la predicción y previsión de las variables económicas.
c) En Biología:
La estadística se puede utilizar para estimar el tamaño real de la población
de una especie animal particular, la propagación de bacterias, en mejorar la
raza de los animales.
d) En el desarrollo de la Investigación:
El desarrollo del conocimiento en la ciencia, se caracteriza porque su
ejecución se lleva a cabo según un método: ”El método científico”. La
aplicación de este método es lo que diferencia al conocimiento científico del
conocimiento ordinario.
1.5 POBLACIÓN Y MUESTRA
1º) Población.-. Total de sujetos o unidades de análisis de interés en el estudio.
Según Moya se define como “la colección de todos los individuos, objetos u
observaciones que poseen al menos una característica común”.
EJEMPLOS:
a) Las edades de los estudiantes del Perú.
b) Los pesos de los melones de una cosecha de la Cooperativa Agraria “Los
melones”.
2°) Muestra. - total de sujetos o unidades de análisis de interés en el estudio.
.Es cualquier subconjunto de los sujetos o unidades de análisis de la
población, en el cual se recolectarán los datos. Según Moya se define como
“una parte o un subconjunto representativo de la población”. Y al proceso de
obtener la muestra se llama muestreo.
1.6 TIPOS DE DATOS O VARIABLES
En este capítulo presentaremos los distintos tipos de datos o variables que podemos
encontrar en una investigación y comentaremos algunas estrategias para el manejo de
datos con una computadora.
Características de los conjuntos de datos:
En lo que sigue denominaremos:
 UNIDAD DE ANÁLISIS O DE OBSERVACIÓN. - Al objeto bajo estudio. El mismo
puede ser una persona, una familia, un país, una región, una institución o en
general, cualquier objeto.
 VARIABLE. - A cualquier característica de la unidad de observación que interese
registrar, la que en el momento de ser registrada puede ser transformada en un
número.
 VALOR DE UNA VARIABLE, OBSERVACIÓN o MEDICIÓN. - Al número que
describe a la característica de interés en una unidad de observación particular.
 CASO o REGISTRO. - Al conjunto de mediciones realizadas sobre una unidad de
observación.
Consideremos el siguiente ejemplo:
Caso Sexo Lugar Nacimiento EPAS
d
a
d
1 F J1 3 110
5
2 M J2 2 120
8
3 M J2 5 136
9
⇑ OBSERVACIÓN
2 M J2 28 120 ⇐ REGISTRO o CASO

VARIABLE
Sexo, lugar nacimiento, edad, presión arterial sistólica son variables que describen
a una persona, su sexo, su lugar de nacimiento, su edad, etc. son los valores que
estas variables toman para esta persona.
Cuando se diseña una investigación, se intenta estudiar de qué modo una o más
variables (variables independientes) afectan a una o más variables de interés
(variables dependientes). Por ejemplo, en un experimento, el investigador impone a los
sujetos condiciones (variable independiente) y estudia el efecto de la misma sobre una
característica del sujeto (aparición de una cierta característica, modificación de una
condición, etc.).
Un paso importante al comenzar a manejar un conjunto de datos es identificar
cuántas variables se han registrado y cómo fueron registradas esas variables, lo que
permitirá definir la estrategia de análisis. En el ejemplo anterior algunas de las
variables son números y otras son letras que indican categorías. A continuación, se
presenta una clasificación de los distintos tipos de datos que podemos encontrar.
Debe notarse que distintos autores usan distintos criterios para clasificar datos por lo
que presentaremos aquí un criterio que resulta útil desde el punto de vista de
seleccionar el método de análisis estadístico más apropiado para los mismos.
Liliana Orellana marzo 2001, 5
DATOS CATEGÓRICOS O CUALITATIVOS
Las variables categóricas resultan de registrar la presencia de un atributo.
Las categorías de una variable cualitativa deben ser definidas claramente durante la
etapa de diseño de la investigación y deben ser mutuamente excluyentes y exhaustivas.
Esto significa que cada unidad de observación debe ser clasificada sin ambigüedad en
una y solo una de las categorías posibles y que existe una categoría para clasificar a
todo individuo. En este sentido, es importante contemplar todas las posibilidades
cuando se construyen variables categóricas, incluyendo una categoría tal como No
sabe / No contesta, o No registrado u Otras, que asegura que todos los individuos
observados serán clasificados con el criterio que define la variable.

Los datos categóricos se clasifican en dicotómicos, nominales y ordinales.
Dos categorías (DICOTÓMICOS)
El individuo o la unidad de observación puede ser asignada a solo una de dos
categorías.
En general, se trata de presencia - ausencia del atributo y es ventajoso asignar código 0 a
la ausencia y 1 a la presencia.
Ejemplos:
1) varón – mujer
2) embarazada - no embarazada
3) fumador - no fumador
4) hipertenso – normotenso
Debe notarse que los ejemplos 1) y 2) definitivamente cubren todas las categorías, mientras
que 3) y 4) son simplificaciones de categorías más complejas. En 3) no está claro donde se
asignan los ex-fumadores, en tanto que en 4) fue necesario establecer un criterio de corte
para armar una variable categórica a partir de una variable numérica.
Más de dos categorías
CATEGORÍAS NOMINALES
No existe orden obvio entre las categorías.
Ejemplos: país de origen, estado civil, diagnóstico.
CATEGORÍAS ORDINALES
Existe un orden natural entre las categorías.
Ejemplos:
1) Tabaquismo: No fuma / ex-fumador / fuma ≤ 10 cigarrillos diarios / fuma > 10
cigarrillos diarios
2) Severidad de la patología: Ausente / leve / moderado / severo.
Aún cuando los datos ordinales puedan ser codificados como números como en el caso
de estadios de cáncer de mama de I a IV, no podemos decir que una paciente en el
estadio IV
1.6.1. Variable Cualitativa
Se llama así, cuando la variable está asociada a una característica cualitativa. Es
decir, son variables cuyos valores son cualidades que presenta la población.
Ejemplo:
La variable “Profesión” puede adoptar las modalidades: Ingeniero, Médico, Biólogo,
Economista, etc.
Las Variables Cualitativas se clasifican en: Nominales y Ordinales.
a) Variable Cualitativa Nominal
Son aquellas que establecen la distinción de los elementos en las categorías sin
implicar orden entre ellas.
Ejemplo:
Clasificar a un grupo de individuos por:
Var01: sexo:
1) Masculino
2) Femenino
Var02: Estado civil:
1) Soltero
2) Casado
3) Viudo
Etc.

b) Variable Cualitativa Ordinal
Son aquellas que agrupan a los objetos, individuos, en categorías ordenadas, para
establecer relaciones comparativas. Es decir, son susceptibles de ordenación, pero
no de medición cuantitativas.
Ejemplo:
Clasificar a un grupo de personas por:
Var03: Hábito de fumar
1º) No fumadores
2º) Fumadores leves
3º) Fumadores moderados
4º) Fumadores severos.
Var04: Grado de instrucción
1°) Analfabeto
2°) Primaria
3°) Secundaria
4°) Superior.
c) Variable Cualitativa Dicotómica
El individuo o la unidad de observación puede ser asignada a solo una de dos
categorías.
En general, se trata de presencia - ausencia del atributo y es ventajoso asignar código 0 a
la ausencia y 1 a la presencia.
Ejemplos:
1) varón – mujer
2) embarazada - no embarazada
3) fumador - no fumador
4) hipertenso – normotenso
Debe notarse que los ejemplos 1) y 2) definitivamente cubren todas las categorías, mientras
a) que 3) y 4) son simplificaciones de categorías más complejas. En 3) no está claro
donde se asignan los exfumadores, en tanto que en 4) fue necesario establecer un
criterio de corte para armar una variable categórica a partir de una variable
numérica
1.6.2 Variable Cuantitativa

Se llama así, cuando la variable está asociada a una característica cuantitativa. Es
decir, éstas surgen cuando se puede establecer cuánto ó en qué cantidad se posee
una determinada característica.
Ejemplos:
Son variables cuantitativas:
Var05: Ingreso por familia
Var06: Longitud
Var07: Tiempo
Var08: Número de accidentes de tránsito
Var09: Peso.
Etc.
Las variables cuantitativas se clasifican en discretas y continuas.
a) Variable Cuantitativa Discreta
Son aquellas que surgen por el procedimiento de conteo. Es decir, las variables
cuantitativas discretas suelen tomar valores enteros.
Ejemplo:
Var10: Número de hijos por familia.
Var11: Número de estudiantes por aula en el IESTPAOE.
Var12: Número de habitantes por distrito.
Etc.
b) Variable Cuantitativa Continua
Son aquellas que surgen cuando se mide alguna característica. Generalmente
tienen decimales.
Ejemplo:
Var13: El peso
Var14: La estatura.
Var15: El Sueldo familiar.
1.7 CÁLCULO DEL TAMAÑO DE LA MUESTRA(n)

Para calcular el tamaño de la muestra suele utilizarse la siguiente fórmula:
𝑁𝜎 2 𝑍 2
𝑛=
(𝑁 − 1)𝑒 2 + 𝜎 2 𝑍 2
Donde:
n = el tamaño de la muestra.
N = tamaño de la población.
𝜎 = Desviación estándar de la población que, generalmente cuando no se tiene
su valor, suele utilizarse un valor constante de 0,5.
Z = Valor obtenido mediante niveles de confianza. Es un valor constante que, si
no se tiene su valor, se lo toma en relación al 95% de nivel de confianza que
equivale a Z=1,96 (como más usual), o en relación al 99% de nivel de confianza
que equivale a Z= 2,58, valor que queda a criterio del investigador.
e = Límite aceptable de error muestral que, generalmente cuando no se tiene su
valor, suele utilizarse un valor que varía entre el 1% (e=0,01) y 9% (e=0,09), valor
que queda a criterio del encuestador.
La fórmula del tamaño de la muestra se obtiene de la fórmula para calcular la
estimación del intervalo de confianza para la media, la cual es:
𝑁−𝑛𝜎 𝜎 𝑁−𝑛
𝑋̅ − 𝑍 ≤ 𝜇 ≤ 𝑋̅ + 𝑍
√ √
√𝑛 𝑁 − 1 √𝑛 𝑁 − 1
De donde el error es:
𝑁−𝑛 𝜎
√
𝑒=𝑍
√𝑛 𝑁 − 1
De esta fórmula del error de la estimación del intervalo de confianza para la
media se despeja la n, para lo cual se sigue el siguiente proceso:
Elevando al cuadrado a ambos miembros de la fórmula se obtiene:
2
𝑁−𝑛𝜎
(𝑒)2 = (𝑍 √ )
√𝑛 𝑁 − 1
2
𝜎2 𝑁 − 𝑛
2
𝑒 =𝑍
𝑛 𝑁−1
Multiplicando fracciones:
𝑍 2 𝜎 2 (𝑁 − 𝑛)
𝑒2 =
𝑛(𝑁 − 1)
Eliminando denominadores:

𝑒 2 𝑛(𝑁 − 1) = 𝑍 2 𝜎 2 (𝑁 − 𝑛)
Eliminando paréntesis:
𝑒 2 𝑛𝑁 − 𝑒 2 𝑛 = 𝑍 2 𝜎 2 𝑁 − 𝑍 2 𝜎 2 𝑛
Transponiendo n a la izquierda:
𝑒 2 𝑛𝑁 − 𝑒 2 𝑛 + 𝑍 2 𝜎 2 𝑛 = 𝑍 2 𝜎 2 𝑁
Factor común de n:
𝑛(𝑒 2 𝑁 − 𝑒 2 + 𝑍 2 𝜎 2 ) = 𝑍 2 𝜎 2 𝑁
Despejando n:
𝑍2𝜎 2𝑁
𝑛= 2
𝑒 𝑁 − 𝑒 2 + 𝑍2𝜎 2
Ordenando se obtiene la fórmula para calcular el tamaño de la muestra:
𝒁𝟐 𝝈𝟐 𝑵
𝒏= 𝟐
𝒆 (𝑵 − 𝟏) + 𝒁𝟐 𝝈𝟐
EJEMPLOS ILUSTRATIVOS
1) Calcular el tamaño de la muestra de una población de 500 elementos con
un nivel de confianza del 95%
Solución:
Realizando el gráfico que representa el 95% de confianza se obtiene:
Se tiene N=500, para el 95% de confianza Z = 1,96, y como no se tiene los demás
valores se tomará 𝜎 = 0,5, y e = 0,05.
Reemplazando valores de la fórmula se tiene:
𝑁𝜎 2 𝑍 2
𝑛= 2
𝑒 (𝑁 − 1) + 𝜎 2 𝑍 2
500 ∙ 0,52 ∙ 1,962
𝑛=
0,052 (500 − 1) + 0,52 ∙ 1,962
500 ∙ 0,52 ∙ 1,962
𝑛= = 217
0,052 (500 − 1) + 0,52 ∙ 1,962
Los cálculos en Excel se muestran en la siguiente figura:

2) Calcular el tamaño de la muestra de una población de 500 elementos con un nivel de
confianza del 99%
Solución:
Realizando el gráfico que representa el 99% de confianza se obtiene:
2
Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los demás
valores se tomará 𝜎 = 0,5, y e = 0,05.
Reemplazando valores en la fórmula se obtiene:
𝑁𝜎 2 𝑍 2
𝑛=
(𝑁 − 1)𝑒 2 + 𝜎 2 𝑍 2
500 ∙ 0,5 ∙ 2,582
2
832,05
𝑛= 2 2 2
= = 285,77 = 286
(500 − 1)(±0,05) + 0,5 ∙ 2,58 2,9116
Los cálculos en Excel se muestran en la siguiente figura:

PRÁCTICA GRUPAL N° 01
1) Proponga 3 ejemplos de población, muestra y elemento.
2) Calcule el tamaño de la muestra para una población de 500 con un error de muestreo
del 5% y nivel de confianza del 95%.
Respuesta: 217
Respuesta: 285
Respuesta: 96
Respuesta: 145

1.8 TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS
a) PARA VARIABLES CUALITATIVAS O CUANTITATIVAS DISCRETAS

Se explicará en el aula de clases.
b) PARA VARIABLES CUANTITATIVAS CONTINUAS
Para la construcción de la tabla de frecuencias, se deben seguir los siguientes pasos:

1°) Amplitud del recorrido (R)
Es la longitud del recorrido del conjunto de datos. O sea:
RXmaxXmin………………………………. (01)
Donde:
Xmin = es el valor mínimo de las observaciones.
Xmax = es el valor máximo de las observaciones
2°) Número de clases (m)

Se determina según la Regla de Sturges:
m13.33log(n) ………………………(02)
Siendo:
log = logaritmo decimal.
n = el tamaño de la muestra.
m = es el número de clases, que debe ser un número entero.
3°) Ancho de clase (C)

En lo posible es conveniente que los intervalos de clase sean de igual amplitud, la cual
está dado por:
C R ……………………………(03)
m
El ancho de clase debe tener la misma cantidad de decimales que los datos originales
4°) Determinar la marca de clase (Yi)
Yi (Li  Ls )
2 ………………(04)
5°) Determinar los límites reales de clase

Cálculo del Límite Superior de la última clase:
Ls(max) Xminc(m) …………………………(05)
(E)Ls(max)Xmax………………(06)
Exceso
Este exceso debe prorratearse entre los valores de los límites reales inferior y superior:
Li Xmin E ……………………………………………………………………(07)
2
Ls Xmax E ……………………………………………………………………..(08)
2
Ls  Li c ………………………………………………………………(09)
6°) Cálculo de las frecuencias absolutas

a) La Frecuencia Absoluta (fi) de un valor Xi es el número de veces que el valor está en
el conjunto (X1, X2, …, Xn), resultante del conteo.
La suma de las frecuencias absolutas de todos los elementos diferentes del
conjunto debe ser el número total de sujetos (n). Si el conjunto tiene k números (o
categorías) diferentes, entonces:
n  fi ……………………………………..(10)
k
i1
b) La Frecuencia Absoluta Acumulada (Fi) es la suma de las frecuencias absolutas de

los valores menores o iguales a Xi; es decir:
Fi=f1+f2+ … +fi
Fi  fi ……………………..(11)
i
i1
O también:
Fi  Fi1  fi ……………….(12)
7°) Cálculo de las frecuencias relativas
a) Cálculo de la Frecuencia Relativa (hi)
de un valor Xi, es la proporción de valores iguales a Xi en el conjunto de datos (X1,
X2, … , Xn). Es decir, la frecuencia relativa es la frecuencia absoluta dividida por el
número total de elementos n:
hi  fi ……………………(13)
n
La Frecuencia Relativa son valores entre 0 y 1: 0  hi 1
La suma de las frecuencias relativas de todos los sujetos es 1. Supongamos que en
el conjunto tenemos k números (o categorías) diferentes, entonces:
h h h .....h 1
k
i 1 2 k
i1
h 1……………………………………………………(14)
k
i
i1
b) Cálculo de la Frecuencia Relativa Acumulada (Hi)
de un valor Xi es la proporción de valores iguales o menores a Xi en el conjunto de datos

(X1, X2, … , Xn). De hecho, la frecuencia relativa acumulada de un elemento es la suma de
las frecuencias relativas de los elementos menores o iguales a él, es decir:
Hi h1 h2 .....hi
Hi  hi ………………………………………………………(15)
i
i1
También se calcula así:
Hi  Fi …………………………………………………………(16)
n
O así:
Hi  Hi1 hi ……………………………………………………(17)
a) La Frecuencia Relativa Porcentual (hi%) se calcula según la siguiente ecuación:
hi %100hi ……………………………………..(18)
h %100%……………………………..(19)
i
b) La Frecuencia Relativa Porcentual Acumulada (Hi%).- Se calcula según la siguiente
ecuación:
Hi % Hi1%hi %…………………………(20)
También se puede calcular así:
Hi %100Hi ………………….………(21)
8°) Confeccionar la tabla de distribución de frecuencias
Se procederá a explicar el procedimiento con el siguiente ejemplo.
EJEMPLO N° 1:
Se han registrado 50 0bservaciones referentes a los pesos de 50 lingotes de acero
producidos por SIDERPERÚ, la muestra fue obtenida de la producción semanal y las
unidades están dadas en kg.
94.3 93.0 95.5 95.3 92.4 94.4 92.8 93.2 93.6 95.5
92.9 93.6 95.7 93.8 94.8 93.9 92.7 91.6 93.6 93.7
94.2 95.7 94.7 94.3 92.7 94.5 96.2 95.4 93.7 |91.9
94.7 92.7 95.0 93.0 92.9 93.7 92.7 93.3 94.6 96.4
94.1 93.7 94.2 93.7 94.0 93.9 93.6 94.6 92.3 94.4
Construir la tabla de distribución de frecuencias e interprete lo valores: f2, f4, F1, h4 y h6%
Solución del Ejemplo N° 1:
RXmaxXmin96.491.64.8//
m13.3log(n) 13.3log(50) 13.3(1.6990) 6.60667//
C R  4.8 0.690.7//
m 7
Ls(max) Xminc(m) 91.60.7(7) 96.5
Exceso(E)Ls(max)Xmax96.596.40.1
Li Xmin E 91.6 0.1 91.5591.6//
2 2
Ls Xmax 96.4 .1 96.4596.5//
E 0
2 2
Construcción de la tabla de frecuencias:
m Li Ls Yi Conteo fi Fi hi Hi hi% Hi%
1 91.6 92.3 92.0 || 2 2 0.0400 0.0400 4% 4%
2 92.3 93.0 92.7 ||||| |||| 9 11 0.1800 0.2200 18% 22%
3 93.0 93.7 93.4 ||||| ||| 8 19 0.1600 0.3800 16% 38%
4 93.7 94.4 94.1 ||||| ||||| |||| 14 33 0.2800 0.6600 28% 66%
5 94.4 95.1 94.8 ||||| |||| 9 42 0.1800 0.8400 18% 84%
6 95.1 95.8 95.5 ||||| | 6 48 0.1200 0.9600 12% 96%

7 95.8 96.5 96.2 || 2 50 0.0400 1.0000 4% 100%
Σ= ----- ----- ----- ----- 50 --- 1.0000 ----- 100% -----
Donde:
fi = Frecuencia absoluta de un valor Xi, es el número de veces que el valor está en el

conjunto (X1, X2, ….., Xn).
Fi = Frecuencia absoluta acumulada
INTERPRETACIÓN DE LOS VALORES:
f2 = 9 significa que hay 9 lingotes de acero que pesan 92.3 kg. o más, pero menos de
93.0 kg.
f4 = 14 significa que hay 14 lingotes de acero que pesan 93.7 kg. o más, pero menos de
94.4 kg.
F1 = 2 significa que hay 2 lingotes de acero que pesan menos de 92.3 kg.
h4 = 0.2800 significa que es la proporción de lingotes de acero que pesan 93.7 kg. o más
pero menos de 94.4 kg.
h6% = 12 % es el porcentaje de lingotes de acero que pesan 95.1 kg. o más, pero menos
de 95.8 kg.
SET DE PROBLEMAS N° 01:
PROBLEMA N° 1:
En los últimos 30 días se tomaron los siguientes datos que representan la duración en
años de tres bombas de combustible similares:
2.0 3.0 0.3 3.3 1.3 0.4 0.2 6.0 5.5 6.5
0.2 2.3 1.5 4.0 5.9 1.8 4.7 0.7 4.5 0.3
1.5 0.5 2.5 5.0 1.0 6.0 5.6 6.0 1.2 0.2
Construya la tabla de distribución de frecuencias.

PROBLEMA N° 2:
El contenido de nicotina, en miligramos, para 40 cigarrillos de cierta marca se registró de
la siguiente manera:
1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24
1.58 2.03 1.70 2.17 2.55 2.11 1.86 1.90 1.68 1.51
1.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2.08 1.67
1.37 1.93 1.40 1.64 2.09 1.75 1.63 2.37 1.75 1.69
Construya la tabla de distribución de frecuencias.
1.9 DIAGRAMA DE TALLO Y HOJAS
Un procedimiento semi-gráfico (tabular y gráfico) de presentar la información para

datos cuantitativos, que es especialmente útil cuando el número total de observaciones
es pequeño (menor que 50), es el diagrama de tallo y hojas de TUKEY. Los principios
básicos para construirlo son:
a. Redondear los datos a dos o tres cifras significativas, expresándolos en unidades
convenientes.
b. Disponerlos en una tabla con dos columnas separadas por una línea como sigue:

b.1. Para datos con dos dígitos, escribir a la izquierda de la línea los dígitos de las
decenas, que forman el tallo, y a la derecha las unidades que serán las hojas. Por
ejemplo 85 se escribe:
Tallo Hoja
8 5
b.2. Para datos con tres dígitos el tallo estará formado por los dígitos de las centenas
y decenas, que se escribirán a la izquierda, separados de las unidades que serán las
hojas. Por ejemplo, 329 e escribirá:
Tallo Hoja
32 9
c. Cada tallo define una clase, y se escribe sólo una vez. El número de “hojas”
representa la frecuencia de dicha clase, que se ubica en una tercera columna
Del diagrama.
EJEMPLO N° 01:
Los siguientes datos representan la longitud en cm. de 16 camarones de un criadero:
11.367; 12.543; 11.382; 12.441; 14.313; 15.212; 13.301; 11.300; 17.806; 12.711;
13.456; 16.142; 12.622; 13.421; 14.697; 13.165
Construir un diagrama de tallo y hojas.
SOLUCIÓN:
1. Los datos redondeados expresados en mm. son :
114; 125; 114; 124; 143; 152; 133; 113; 178; 127; 135; 161; 126; 134;147; 132
2. Siguiendo el proceso indicado en b.2 se construye la tabla N° 01 siguiente:
Tabla N° 01: Diagrama de Tallo y Hojas de la longitud de los camarones

Tallos Hojas Frecuencia
11 443 3
12 5476 4
13 3542 4
14 37 2
15 2 1
16 1 1
17 8 1
EJEMPLO N° 02:
Los siguientes datos representan la vida en segundos de 50 moscas de frutas a
las que se somete a un nuevo insecticida en un experimento controlado de
laboratorio:
17 20 10 9 23 13 12 9 18 24
12 14 6 9 13 6 7 10 13 7
16 18 8 13 3 32 9 7 10 11
13 7 18 7 10 4 27 19 16 8
7 10 5 14 15 10 9 6 7 15
Construya un diagrama de tallo y hojas para las vidas de las moscas de fruta.
SOLUCIÓN:
De acuerdo con b.1 y c, se construye la tabla N° 02 siguiente:
0 9696778397774875967 19
1 70329824303683013809604505 26
2 0347 4
3 2 1
El diagrama de tallo y hojas de la tabla contienen sólo 4 tallos, y en consecuencia no
proporciona una imagen adecuada de la distribución. Para subsanar este problema, se
requiere aumentar de tallos del diagrama. Una forma simple de lograrlo es anotar dos
veces cada uno de los valores de los tallos en el lado izquierdo de la línea vertical y
después registrar las hojas |, 1, 2, 3 y 4 frente del lado apropiado del tallo donde aparece
por primera vez; y las hojas 5, 6, 7, 8, y 9 frente de este mismo valor del tallo donde
aparece por segunda vez. Este diagrama modificado de doble tallo y hojas se ilustra
en la siguiente tabla, donde los tallos que corresponden a las hojas 0, 1, 2, 3 y 4 se han
distinguido por el símbolo * y los tallos correspondientes a las hojas 5, 6, 7, 8 y 9 por el
símbolo •. Así, por ejemplo, el primer valor observado 17 tiene el tallo 1• y la hoja 7; el
segundo valor observado 20, tiene el tallo 2* y hoja 0, etc.
Tabla N° 02: Diagrama de doble tallo y hojas de la vida de las moscas
0* 34 2
0• 96967789777875967 17
1* 0322430330130040 16
1• 7986889655 10
2* 034 3
2• 7 1
3* 2 1
1.9.1. Ventajas y desventajas de los Diagramas de Tallo y Hojas

1. Los diagramas de tallos y hojas conservan los datos originales, por lo que es
fácil identificar algún dato particular si lo quisiéramos.
2. Es flexible en cuanto a poder incluir datos extremos sin perder el grado de
detalle en el resto de los datos.
3. Permiten percibir características de los datos que a veces los intervalos
cubren.
4. No necesita algún gráfico adicional para percibir la forma de la distribución.
Desventajas:
No es una representación práctica para volúmenes grandes de datos.
PRÁCTICA GRUPAL N° 02:
Problema:
En los últimos 30 días se tomaron los siguientes datos que representan la duración
en años de tres bombas de combustible similares:
2.0 3.0 0.3 3.3 1.3 0.4 0.2 6.0 5.5 6.5
0.2 2.3 1.5 4.0 5.9 1.8 4.7 0.7 4.5 0.3
1.5 0.5 2.5 5.0 1.0 6.0 5.6 6.0 1.2 0.2
a. Construya un diagrama de tallo y hojas para las duraciones de las bombas de
combustible.
b. Construya una tabla de distribución de frecuencias.
SET DE PROBLEMAS N° 02
Problema:
El contenido de nicotina, en miligramos, para 40 cigarrillos de cierta marca se registró
de la siguiente manera:
1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24
1.58 2.03 1.70 2.17 2.55 2.11 1.86 1.90 1.68 1.51
1.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2.08 1.67
1.37 1.93 1.40 1.64 2.09 1.75 1.63 2.37 1.75 1.69

a. Construya un diagrama de tallo y hojas para los datos.
b. Construya la tabla de distribución de frecuencias.
1.10 CUADROS ESTADÍSTICOS
Un cuadro estadístico es un arreglo ordenado, de filas y columnas de los datos o

series estadísticas, por tanto tiene dos entradas (podrían considerarse incluso con más de
dos). En ellas pueden representarse características cualitativas, cuantitativas o una
combinación de ambas. Se puede también considerar variables discretas, continuas o de
ambos tipos. La finalidad es ofrecer información resumida de fácil lectura, comparación e
interpretación. Según su objetivo, las líneas (horizontales) y columnas (verticales) de un
cuadro se deben organizar de modo que pongan en evidencia los aspectos que interesa
mostrar y resalten las comparaciones que se desean hacer notar. La tabla de distribución
de frecuencias es un caso especial de un cuadro estadístico.
a) Partes de un cuadro estadístico
1. Número.- Es el código de identificación del cuadro. Este número se escribe a

continuación de la palabra “Cuadro”. Por ejemplo Cuadro N° 2.5, indica el quinto
cuadro del capítulo dos.
2. Título.- Es la indicación que preside a la tabla y es colocada en la parte superior de

la misma. El título debe reunir las condiciones siguientes:
a. Ser completo: Un título completo debe indicar claramente cuál es el contenido

del cuadro estadístico. Debe responder a las preguntas: Qué, Cómo, Dónde y
Cuándo.
Qué: A qué se refiere la tabla que se estudia. Cuál es el universo que se
investiga.
Cómo: Cómo se estudia, de acuerdo a cuáles características se clasifican los
individuos u objetos estudiados. Las variables ubicadas en las filas se identifican
con la proposición “según” y las de la columna con la proposición “por”.
Cuándo: Momento o período de tiempo a que se refiere el estudio.
Dónde: Lugar a que se refiere la información.
b. Ser conciso: .El título debe ser breve, lo más conciso posible, aunque no debe
sacrificarse la claridad a la concisión.
EJEMPLO: En el cuadro 1.1, indicar si su título es completo.

En efecto: el título :
Perú: Distribución de las Mujeres de 15 a 49 años por área urbana, rural y región
natural, según estado conyugal.
Vemos que es completo, ya que responde a las preguntas: qué, cómo, dónde y
cuándo.
Qué : Distribución de mujeres de 15 a 49 años.
Cómo : Por área urbana, rural y región natural, según estado conyugal.
Cuándo : En 1986
Dónde : En el Perú.

Cuadro N° 1.1 PERÚ: DISTRIBUCIÓN DE LAS MUJERES DE 15 A 49 AÑOS
POR ÁREA URBANA, RURAL Y REGIÓN NATURAL, SEGÚN ESTADO
CONYUGAL: 1986
ESTADO TOTAL ÁREA REGIÓN NATURAL
CONYUGAL URBANA RURAL AML 1/
RESTO SIERRA SELVA
DE
COSTA
TOTAL 4999 3406 1593 1591 1331 1561 516
SOLTERA 1760 1335 425 660 481 473 147

CASADA 2004 1335 668 640 495 676 193
CONVIVIENTE 895 491 405 185 266 304 138
VIUDA 70 34 35 13 9 37 10
DIVORCIADA 20 20 0 14 3 5 0
SEPARADA 250 191 60 79 77 66 28
1/ Área Metropolitana de Lima.
Fuente: Instituto Nacional de Estadística e Informática.- Encuesta Nacional Demográfica y de Salud Familiar
(ENDES).
3. Cuadro Propiamente Dicho: Es la parte del cuadro que contiene la información y
consta de un conjunto de casillas o celdas, dispuestas en columnas y filas. Sus
elementos esenciales son: encabezamiento de las columnas, columna principal o
matriz y cuerpo.
Encabezamiento: Es la primera fila del cuadro, en el se explica las categorías,
y el objeto de cada una de las columnas, es decir indica la naturaleza de los
datos inscritos en cada celda que se hallan debajo. Deben ser breves y
explícitos. Por ejemplo en el cuadro N° 1.1 el encabezamiento es: el área, urbana
y rural y la región natural subdividida en AML, resto de costa, sierra y selva.
Columna Principal o Matriz: Es aquella en que se anotan las categorías o las
diferentes clases de la escala de clasificación utilizada. Por ejemplo, en el cuadro
N° 1.1, la columna principal está constituida por el estado conyugal: soltera,
casada, …, separada.
Cuerpo: Es el conjunto de celdas o casillas, que son las intersecciones de filas y
columnas, donde están anotados los datos numéricos (ver cuadro N° 1.1)
4. Notas Explicativas o Calce: Contiene habitualmente la fuente de los datos
representados y cualquier nota aclaratoria sobre el contenido del cuadro.
Fuente: Es la indicación al pie del cuadro que sirve para nombrar la entidad
responsable de donde se obtuvieron los datos (ver cuadro N° 1.1).
b) Elaboración de un cuadro estadístico
No es fácil la elaboración de un cuadro estadístico. Se deben plantear cuidadosamente
su tamaño, las columnas y la distribución de la información por orden de importancia,
que, por lo general, no es el orden alfabético.
Es necesario ser cuidadoso en la elección de las columnas y sus encabezamientos ya
que en ellas se pondrán en evidencia relaciones que interesa destacar.
Otro aspecto importante es la elección de las unidades de medida de las magnitudes;
después del título se debe indicar si se trabaja con cientos, miles ó millones. La buena
elección de las unidades beneficia la claridad y el tamaño del cuadro.
Para destacar cierto tipo de proporcionalidad, en lugar del tanto por uno se usa el
inverso uno por tantos.

c) Errores en la presentación de cuadros
Entre los principales errores que se cometen al confeccionar un cuadro estadístico se
encuentran:
1. Disposición incorrecta de datos. Es cuando no se clasifican todos los objetos o
individuos de acuerdo a las escalas establecidas.
2. Títulos y encabezamientos incompletos e inadecuados.
3. Cuadros que representan solamente porcentajes. Esto es un error. Cuanto menos
es el número de casos, menor valor tendrá el porcentaje.
4. Cuadro sobrecargado. Es cuando se intenta mostrar muchos datos a la vez,
resultando confusos e inadecuados. Es preferible varios cuadros separados.
d) Pasos a seguir al leer un cuadro estadístico
1. Leer cuidadosamente el título. Es necesario para comprender perfectamente a qué
se refiere el cuadro.
2. Leer las notas explicativas. Permiten a menudo una mejor comprensión de todo el
cuadro en su conjunto.
3. Averiguar las unidades de medidas utilizadas.
4. Fijarse en el total, promedios o porcentaje general del grupo.
5. Relacionar el total o el promedio general del grupo con cada una de las variables que
se estudian.
6. Relacionar entre sí los promedios o porcentajes de las variables que se estudian.
Práctica grupal N° 03:
Set de problemas N° 03
1.11 REPRESENTACIÓN GRÁFICA

a) Definición
Un gráfico es la representación de un fenómeno estadístico por medio de figuras
geométricas (puntos, líneas, rectángulos, paralelepípedos, etc.), cuyas dimensiones son
proporcionales a la magnitud de los datos representados. Su objetivo principal es la
representación de los datos de forma gráfica, que permita de un solo golpe de vista darse
cuenta del conjunto de elementos presentados y de evidenciar sus variaciones y
características. El gráfico es un auxiliar del cuadro estadístico, no lo sustituye sino que lo
complementa.
b) Ventajas y Desventajas del Gráfico
El gráfico tiene la ventaja sobre el cuadro o tabla, de permitir apreciar más rápidamente los
datos y abarcar todo su conjunto.
1) El gráfico no puede representar tantos grupos de datos o clases como una tabla.
2) En los cuadros o tablas pueden darse valores exactos, mientras que en los gráficos
muchas veces solo valores aproximados.
c) Partes de un gráfico
Al igual que en los cuadros estadísticos, en los gráficos se considera las siguientes
partes:
1. El título
2. El gráfico propiamente dicho.
3. Las notas explicativas
Sobre el título y las notas explicativas no es necesario redundar, pues vale todo lo
expresado con relación a los cuadros estadísticos.
d) Tipos de Gráficos
Pueden ser:

1) Diagrama de Barras: sencillas, dobles, múltiples, proporcionales.
2) Gráficas de Sectores o Pastel.
3) Diagrama de Frecuencias.
4) Histograma de Frecuencias.
5) Polígono de Frecuencias Absolutas y Relativas.
6) Polígono de Frecuencias Acumuladas u Ojivas.
7) Gráfico de Líneas.
d.1). Gráfico de barras
Es aquel en la cual el fenómeno que se estudia queda representado por una serie de
rectángulos, barras o paralelepípedos, los cuales pueden dibujarse horizontal o
verticalmente. Este gráfico se utiliza para representar variable de tipo cualitativo o
cuantitativo discreto.
Recomendaciones para su construcción:
1. Todas las barras, rectángulos o paralelepípedos deben tener el mismo grosor.
2. El espacio entre las barras deben ser de la misma magnitud. No debe ser inferior que
la mitad de una barra, ni mayor que el ancho de la misma.
3. Las barras, por estética deben ordenarse de mayor a menor cuando se pueda.
4. La escala de la frecuencia debe empezar por cero.
5. Deben dibujarse a buen criterio, líneas de fondo en la gráfica; ellas facilitan la lectura de
los valores.
6. No se debe recargar las barras.
EJEMPLO N° 01
Cuadro N° 01: Matrícula en el Sistema de la Educación Peruana según niveles y
modalidades: 1979-1980
Matrícula en el Sistema de la
Niveles y Modalidades Educación Peruana
1979 1980
Educación Inicial 207,637 220,966
Educación Básica Regular 3’115,974 3’144,446
Educación Secundaria 1’094,269 1’134,581
Educación No Universitaria 19,416 26,519
Educación Universitaria 235,186 249,769
Fuente: Oficina Sectorial de estadística – Ministerio de Educación del Perú.
a) Construir el gráfico de barras sencillas, para el año 1980.

Matrícula en el Sistema de la Educación Peruana según Niveles y
Modalidades: Año 1980
3500000
3000000
2500000
Matrículas
2000000
1500000
1000000
500000
0
Educación Inicial Educación Básica Educación Educación No Educación
Regular Secundaria Universitaria Universitaria
Niveles y Modalidades
b) Construir el gráfico de barras dobles para los años 1979 y 1980.
Matrícula en el Sistema de la Educación Peruana según Niveles y

Modalidades: Años 1979-1980
Año 1979 Año 1980
3500000
3000000
2500000
Matrícula
2000000
1500000
1000000
500000
0
Educación Inicial Educación Básica Educación Educación No Educación
Regular Secundaria Universitaria Universitaria
Niveles y Modalidades
c) Construir el gráfico de barras múltiples.

Matrícula en el Sistema de la Educación Peruana por Niveles
y Modalidades: 1979-1980
14000000
12000000
10000000
NMatrícula
8000000
Total
6000000
Año 1980
4000000
Año 1979
2000000
0
Educación Inicial Educación Educación Educación No Educación
Básica Regular Secundaria Universitaria Universitaria
Nivels y Modalidades
d.2) Gráficos de sectores o pastel

Este sistema de representación es de la misma naturaleza que el gráfico de barras. Se
utiliza para representar datos cualitativos o cuantitativos discretos. Su uso más frecuente
es con fines comparativos.
Para construir el gráfico de sector, se utiliza una circunferencia, cuyo círculo se divide en
sectores tales que sus medidas angulares centrales y, por tanto la superficie del sector
circular sean proporcionales a las magnitudes de los valores de la variable que
representan. Al total le corresponde el círculo completo, es decir los 360° de la
circunferencia y por una regla de tres simple se encontrará el número de grados que le
corresponde a cada parte:
i  fi x360  hi x360
n
Donde:
αi= ángulo central del sector o clase i (°), en lo posible debe ser redondeado a cero
decimales.
fi= Frecuencia absoluta del sector o clase i.
n=tamaño total de la muestra.
hi= Frecuencia Relativa del sector o clase i.
EJEMPLO N° 02:
Cuadro N° 02: Matrícula en el Sistema de la Educación Peruana según niveles y
modalidades: 1980
Niveles y Modalidades Año 1980

hi ángulo
Educación Inicial 220,966 0.0463 16.65°
Educación Básica Regular 3,144,446 0.6583 237.00°
Educación Secundaria 1,134,581 0.2375 85.52°
Educación No Universitaria 26,519 0.0056 2.00°

Educación Universitaria 249,769 0.0523 18.83°
TOTAL = 4,776,281 1.0000 360°
Matrícula en Educación
el sistema de la Educación Peruana: 1980
Educación
No
Universitaria Educación Inicial
Universitaria
0% 5% 5%
Educación Secundaria
24%
Educación Básica
Regular
66%
Educación Inicial Educación Básica Regular Educación Secundaria

Educación No Universitaria Educación Universitaria
d.3) Histograma de frecuencias

Se usa para representar gráficamente las distribuciones de frecuencias absolutas o
relativas de datos cuantitativos continuos agrupados en clases. El fenómeno estudiado
queda representado por una serie de rectángulos semejantes a los del diagrama de
barras; sin embargo las barras del histograma se colocan sólo verticalmente y debe ir uno
al lado de las otras sin que haya un espacio que las separe. La base de cada rectángulo
es la amplitud de la clase de la variable correspondiente. Estos gráficos reciben el
nombre de histograma de frecuencias (absolutas o relativas).
Se construye como sigue:
1. Se lleva sobre un eje horizontal los límites de los intervalos de clase.
2. Sobre cada intervalo de clase se levantan rectángulos que tengan como área
exactamente la frecuencia absoluta (o relativa).correspondiente.
3. Cuando los intervalos de clase son de igual amplitud como se ha venido
considerando en los ejemplos anteriores, las alturas de los rectángulos serán
proporcionales a las frecuencias absolutas (o relativas).
4. En este caso se acostumbra tomar las alturas numéricamente iguales a dichas
frecuencias. Esto es equivalente a poner c=una unidad.
EJEMPLO N° 03:
Dada la Tabla de distribución de frecuencias de los pesos de 50 lingotes de acero:

Frec.
Intervalos Marca Frec. Abs. Frec. Frec. Rel.
de clase de clase Abs. Acum. Relat Acum.
Alfa-
m Li Ls Yi fi Fi hi Hi Clasificación fi Fi hi Hi i
1 91.5 92.5 92.0 4 4 0.0800 0.0800 Ligeros 4 4 0.08 0.08 29
2 92.5 93.5 93.0 11 15 0.2200 0.3000
3 93.5 94.5 94.0 20 35 0.4000 0.7000 Medianos 31 35 0.62 0.7 223
4 94.5 95.5 95.0 9 44 0.1800 0.8800
5 95.5 96.5 96.0 6 50 0.1200 1.0000 Pesados 15 50 0.3 1 108
TOTAL= 50 1 50 1 360
Li fi Li hi
91.5 4 91.5 0.0800
4 11 0.08 0.2200
11 20 0.22 0.4000
20 9 0.4 0.1800
9 6 0.18 0.1200
Graficar:
a) Barras simples por clasificación de pesos.

b) Sectores o pastel para clasificación de pesos
c) Histograma de frecuencias absolutas.
d) Polígono de frecuencias relativas
e) Ojiva “menor que” de Frecuencias Relativas Acumuladas.
SOLUCIÓN:
a)

b)

c)
d)
e)

Práctica Grupal. N° 04
El profesor lo planteará en el aula de clases.
Set de Problemas N° 04
Práctica Calificada
Examen Parcial

II:
ESTADÍGRAFOS
DE POSICIÓN

Capítulo II: ESTADIGRAFOS DE POSICION
Son aquellos que describen la posición que ocupa la distribución de frecuencia respecto
a un valor de la variable. Se distinguen dos tipos: los estadígrafos de tendencia central y
los de localización.
Los Estadígrafos de Tendencia Central deben su nombre al hecho de que sus valores
tienden a ocupar posiciones centrales o intermedios entre el menor y mayor valor del
conjunto de datos, a partir de la cual se calculan estos estadígrafos; es decir, brindan de
alguna forma, información sobre el centro de la distribución. Los más importantes y muy
usados son:
 La media aritmética o simplemente media
 La media aritmética ponderada
 la media geométrica.
 la media armónica.
 la media cuadrática.
 la mediana.
Los Estadígrafos de Localización señalan la localización de los valores más frecuentes o
de valores extremos. Los más usados son:
 La moda.
 Los Cuartiles.
 Etc.
2.1. LA MEDIA ARITMÉTICA

Es la medida de tendencia central más conocida, familiar a todos nosotros, y de mayor
uso (usted mismo lo habrá empleado alguna vez), también fácil de calcular, ya sea de
datos no tabulados como de datos tabulados.
Cuando se habla de ”media”, en la práctica se entiende “media aritmética”; y en ese
sentido hablaremos de: salario medio, número medio de accidentes, rendimiento medio
de un trabajador, etc.
Para datos sin tabular
La media aritmética o simplemente media (o promedio) de una muestra x1, x2, x3, …, xn
de tamaño n de una variable o característica x, se denota por “X” o “M(x)” y se define como
la suma de todos los valores observados en la muestra, dividida por el número total de
observaciones n. Es decir:
X  M(x)  x1  x2 ..... xn
n …………….(1)
Usando la notación de sumatoria, la media aritmética se expresa:
X
n
i
X  M(x)  i1
n ……………….(2)
Ejemplo N 1:
Una persona que trabaja en forma independiente gana un mes S/. 200.00, otro mes S/.
600.00 y otro S/. 400.00.¿Cuánto gana en promedio mensual?.
Solución:
En este caso x1 = 200; x2 = 600; x3 = 400 y n=3
Aplicando la ecuación (1):

X  M(x)  x1  x2 ..... xn  2006004001200 400.00
n 3 3
El promedio mensual que gana es S/. 400.00
Para datos tabulados
Si los datos han sido clasificados en m clases en una tabla de frecuencias con marca de
clase yi y frecuencia absoluta fi, i=1, 2,3,…, m, la media aritmética de estos datos está
definida por:
y1 . f1  y2. f2 ..... ym . fm
Y  M(y) 
n
Empleando la notación de sumatoria la media aritmética de datos agrupados
(tabulados) se escribe:
X . f
n
i i
X  M(x)  i1
n ……………………(3)
Note que la expresión anterior se escribe también así:
X . f
n
 Xi i   Xi .hi

i i m f m
X  i1
n i1  n  i1
Es decir, la media aritmética, en el caso de datos tabulados, se escribe en forma
equivalente como:
X .h
n
i i
X  M(x)  i1
n ………………….(4)
Ejemplo Nº 2:
Calcular la media aritmética de los datos agrupados en la tabla siguiente, distribución
de frecuencias, número de hijos por familia:
Número de hijos Conteo Frecuencias absolutas
Xi fi
0 / 1
1 ////// 6
2 ///// 5
3 /// 3
4 / 1
Totales 16
Aplicando la fórmula de la definición, el número medio es:

Xi fi Xifi
0 1 0
1 6 6
2 5 10
3 3 9
4 1 4

Total 16 29
X . f
n
i i
X  M(x)  i1
n
X M(x) 29 1.81
16
Ventajas y Desventajas de la Media Aritmética
Ventajas:
La media aritmética, como un solo número que representa todo un conjunto de datos, tiene
ventajas importantes:
1. Es un conjunto familiar a la mayoría de las personas e intuitivamente claro.
2. Es una medida que puede ser calculada y es única. Ya que cada conjunto de datos
tiene una y solo una media.
3. En el cálculo de la media, es tomada en cuenta cada observación del conjunto de
datos.
4. La media es una medida digna de confianza, por que se determina con mayor
certeza que otras características de un conjunto de datos.
Desventajas:
Como cualquier medida estadística, la media aritmética tiene sus desventajas de las cuales
se debe estar consciente:
1. La media aritmética puede verse afectado por valores extremos que no son
representativos del resto de las observaciones. Por ello, cuando se está utilizando
esta medida de un análisis, vale la pena advertir la representatividad de los valores
extremos y la influencia que estos tienen sobre el resultado.
2. El cálculo de la media aritmética es tedioso porque se usan todas las observaciones
en los cálculos ( a menos, por supuesto que se use el método corto de datos
agrupados para aproximar la media).
3. No se puede calcular la media aritmética para un conjunto de datos que tiene
intervalos de clases abiertos en los extremos. Por ejemplo, suponga que un conjunto
de datos han sido arreglados en la distribución de frecuencias que se muestra en la
tabla siguiente. No se puede calcular un valor para la media de estos datos, por que
no se puede calcular el punto medio de la clase abierta.
Clases 35-40 40-45 45-50 50-55 55 a más
Frecuencia 5 12 14 6 4
Ejemplo Nº 3:
Supongamos que los haberes de los trabajadores de una pequeña empresa es como sigue:
Cargo Número de trabajadores Haberes en soles/mes
Gerente General 1 560
Administrador 1 520
Contador 1 480
Empleado 3 160 c/u
Obrero Calificado 5 150 c/u
Obrero Semicalificado 3 140 c/u
Determinar el haber promedio mensual (por trabajador) de la empresa.

a. ¿Será representativo este haber promedio del conjunto de trabajadores?.
b. ¿Cuál sería un procedimiento adecuado para un análisis de los datos?.
Solución:
a. El haber promedio mensual es:
Y  M(y)  1x5601x5201x4803x1605x1503x140 3210 229.3

111353 14
b. No es representativo, porque hay solo 3 personas con sueldo alto que hacen
crecer el promedio.
c. Un procedimiento adecuado podría ser estratificar previamente los datos
originales en dos categorías: los de la plana administrativa. Gerente General,
Administrador y Contador, y los de mando medio: empleado, obrero calificado y
obrero semicalificado. Luego realizar los cálculos de medias aritméticas en forma
separada para cada grupo.
2.2. LA MEDIA ARITMÉTICA PONDERADA

El promedio ponderado permite calcular un promedio que toma en cuenta la
importancia o el peso que tiene cada valor sobre el total. De aquí en tal caso
la denominación de media aritmética ponderada. Teóricamente, todas las
medias son ponderadas. Si no se dan pesos específicos a todos y cada uno
de los valores de la serie, se asume que cada observación tiene el mismo
peso y se asigna implícitamente un peso de 1, y se les llama a menudo media
aritmética simple o media aritmética no ponderada, donde “no ponderada”
significa en realidad “igualmente ponderada”. Para datos agrupados en
clases, como hemos visto, las frecuencias de clase pueden ser consideradas
como una serie de pesos para los distintos puntos medios (o marca de clase)
en el cálculo de la media aritmética.
Ejemplo 1 :la Compañía de la tabla siguiente que emplea tres tipos de obreros no
calificados, semicalificados y calificados; para elaborar dos productos. Supongamos
que la compañía desea conocer el costo promedio de mano de obra por día para cada
producto.
Tipos de Obreros Salario por día Días de trabajo por
Xi (en S/) unidad de producto.
Producto Producto
A B
No calificados 3.00 2 4
Semicalificados 6.00 3 3
Calificados 9.00 5 5
Observe que ésta no es una tabla de distribución de frecuencias.
El promedio aritmético simple de los salarios será:
X
n
X  i1  3.006.009.00 S /.6.00/ día

i
n 3

Usando este promedio, se puede calcular el costo por mano de obra de una unidad
del producto A, de la siguiente manera:
S/6.00(235) S/.6.00(10) S /.60.00

Y para una unidad del producto B será:
S/.6.00(435) S/.6.00(12) S/.72.00

Pero estos resultados son incorrectos. Para ser correctos deben tener en cuenta
que se emplean diferentes tipos de obreros.
<el resultado correcto se puede determinar de dos formas:
PRIMERA FORMA: Para el producto A, el costo total del salario por unidad es:
S/.3.00x2S/.6.00x3S/.9.00x5S/.69.00
Y como hay 2+3+5=10 días de trabajo, el costo promedio del salario es:.
S /.69.00  S /.6.90pordía
10
Para el producto B, el costo total del salario por unidad es:
S/.3.00x4S/.6.00x3S/.9.00x5S/.75.00
y como hay 4+3+5= 12 días de trabajo, el costo promedio del salario es:
S /.75.00  S /.6.25 pordía
12
SEGUNDA FORMA:Es tomar el promedio ponderado del costo de los tres tipos de
salarios. Para esto, se pondera el salario por día para cada tipo por la proporción del
salario total requerido para producir el producto.
Para el Producto A: una unidad requiere 10 días de trabajo. Los obreros no
calificados utilizan 2/10 de este tiempo. Los semicalificados utilizan 3/10 de este
tiempo y los calificados 5/10 de este tiempo. Utilizando estas fracciones como las
ponderaciones o pesos, entonces en un día de trabajo para el producto A cuesta un
promedio de:
2 xS /.3.00 3 xS /.6.00 5 xS /.9.00S /.6.90 pordía

10 10 10
Análogamente, la unidad del producto B requiere de 12 días de trabajo, de las
cuales 4/12 son utilizados por el obrero no calificado, 3/12 por el obrero semicalificado
y 5/12 por el obrero calificado. Usando estas fracciones como ponderación, un día de
trabajo para el producto B cuesta un promedio de:
4 xS /.3.00 3 xS /.6.00 5 xS /.9.00 S /.6.25/ día
12 12 12
Los promedios ponderados dan valores correctos para el costo promedio del
salario por día de los dos productos por que toman en cuenta el hecho de que se
emplean diferentes cantidades de cada tipo de trabajo en los productos.
En símbolos, la fórmula para calcular el promedio ponderado es:

XW
n
i i
X i1
………………………………………………….(5)
W
n
i
i1
Donde:
X = símbolo para la media aritmética.
Xi = valores de las observaciones individuales.
Wi = peso asignado a cada observación.
Aplicando la ecuación (5) al producto A , en el ejemplo del costo del salario, se tiene:
XW (2/10)3.00(3/10)6.00(5/10)9.00 6.90

n
i i
X 
i1
 S /.6.90/ día
 
W
n
2/10 3/10 5/10 1
i
i1
Ejemplo 2: Se compraron 40 kgs. De carne a 2 soles por kg., 20 kgs a 2.50 soles
por kg. y 20 kgs 3 soles por kg. Determinar el precio promedio por kg.de carne
Solución:
1. La variable cuyo promedio queremos calcular es el precio por kg. de algodón,
entonces, se lleva los datos a una tabla.
2. Luego, el precio promedio es:
Precio por kg. Cantidad de kgs. Xifi
Xi (S/. /kg.) fi (T.M)
3 80 240
2.5 100 250
4 50 200
Total n = 230 690
X f
n
i i
X i1 690 S /.3 porkg.
n 230
2.3. LA MEDIA GEOMETRICA
a) Para Datos No Agrupados
La media geométrica simple “Mg” ó “ XG ” de n observaciones x1, x2, …, xn positivas,
está dada por la raíz enésima del producto de los n valores observados, es decir:
x ……………………………………….( 6 )
n
XG Mg x1.x2...xn  n n i
i1
Ejemplo 1:
Hallar la media geométrica de los números 3,5,8,3,5,2.
Solución:
En este caso n=6; x1=3;x2=5;x3=8;x4=3;x5=5 y x6=2; entonces la media geométrica
es:
XG Mg6 3x5x8x3x5x2 6 32 x52 x42 3 3x5x4 3 60 3.915

En la práctica, el cálculo de la media geométrica se hace más rápido tomando
logaritmo y luego el antilogaritmo de éste, como sigue:
logXG logn x1.x2...xn
log XG  1logx1 logx2 .... logxn 
n
log XG 1logxi
n
n i1
Es decir, el logaritmo de la media geométrica resulta ser la media aritmética de los
logaritmos de los xi.
Ahora basta calcular el antilogaritmo de la expresión anterior para tener:
 n log X 
 i
XG anti log  i1  ……………………………………………….( 7 )
 n 
 
Hemos usado logaritmo de base 10, es claro que puede usarse cualquier sistema
de logaritmo.
b) Para datos tabulados
Si los datos están agrupados o tabulados en clases, la media geométrica ponderada,
es la raíz enésima del producto de las marcas de clases elevadas a sus respectivas
frecuencias, es decir:
X
m
XG  X1 .X2 ...Xm 
n f1 f2 fm n i
fi
i1
Donde:
n=
Xi = marca de clase, i=1,2,…,m
m= número de clases.
Aplicando logaritmo a ambos miembros de la ecuación anterior se tiene:
log XG 1 f1 logx1  f2.logx2 ... fm.logxm

n
1 fi.logxi
m
n i1
Luego:
 m f logx 
 i i
XG anti log i1 
 n  ………………………………………………….( 8 )
 
Ejemplo Nº 1:
Hallar la media geométrica de la siguiente distribución de frecuencias:

Marca de clase 92 93 94 95 96
Frecuencia 4 11 21 10 4
Solución:
Ordenando en la tabla:
Xi fi Log Xi fi.logXi
92 4 1.9637878 7.8551513
93 11 1.9689829 21.653312
94 21 1.9731278 41.435684
95 10 1.9777236 19.777236
96 4 1.9822712 7.929084
Totales 50 98.650469
log XG 1fi logxi  1 98.650469 1.97300938

n
n i1 50
Luego:
XG anti log1.97300938 93.974363
c) Desventajas de la media geométrica

1. Su cálculo es muy engorroso.
2. Está limitado para valores positivos para que pueda ser interpretado.
3. Si algún valor de la variable es cero, la media geométrica será cero.
4. Si aparece algún valor negativo, el estadígrafo toma un valor imaginario.
d) Aplicaciones de la media geométrica
Pese a las desventajas mencionadas, para cierto tipo de variables, en especial las
cronológicas, que sigue una tendencia exponencial, se hace indispensable su uso, si
se desea calcular valores intermedios; es decir, si se quiere interpolar linealmente.
También se usa cuando se desea promediar tasas de cambios, proporciones, índices.
Ejemplo Nº 2:
Si la población de una ciudad grande el 31 de diciembre de 1970 fue de 5.8
millones de habitantes, y el 31 de diciembre de 1980 de 7.2 millones. Determine la
población en 1975.
Solución:
Si se supone un crecimiento poblacional exponencial y a una tasa constante, es
posible usar la media geométrica, que dará la población a mitad de período, o sea en
1975. Luego:
XG  5.8x7.2  41.76 6.459millonesdehabit antes
2.4. LA MEDIA ARMÓNICA

a) Definición
La media armónica “Mh” ó “Xh” de n términos no nulos x1, x2, …, xn, es el recíproco
de la media aritmética de los recíprocos de esos términos.

b) Para datos no tabulados
Es decir:
XH  Mh  1  n
…………………………………………….( 9 )
 
n
1 /n n 1
i1 Xi i1 Xi
Ejemplo Nº 1:
La media armónica de los números 3, 4, 6 y 8 es:
XH  Mh  1  4  4  4  4x24  32  4.57143
1 / n 1  1  1  1 8643 21 21 7

n
i1 Xi 3 4 6 8 24 24
2.5 LA MEDIANA
a) Definición
La mediana de un conjunto de datos es aquel valor que divide a dicho conjunto en dos
partes que poseen la misma cantidad de datos.
b) Para datos sin tabular
Conocidos los datos: x1, x2, x3, … , xn.
Ordenados en forma creciente: x1≤ x2 ≤ x3 … ≤ xn
Siendo n el total de datos, se tendrá 2 casos:
b.1) Cuando “n” es impar
Si “n” es impar, se tomará como mediana el valor central:
Xm= X 
n1…………………………………………………..( 10 )
 
 2 
Ejemplo Nº 1:
Calcular la mediana de los siguientes datos:5, 7, 7, 9, 10, 12, 15.
Solución Nº 1:
n = 7 (impar)
Xm  X4 9
b.2) Cuando “n” es par
Si “n” es par, habrá 2 términos centrales, y la mediana será la semisuma de dichos
valores:
 X(n) X(n 1) 
 2 2  ………………………………..……………. ( 11)
 2 
 
Ejemplo Nº 2:
Calcular la mediana de: 5, 6, 7, 8, 10, 10, 14, 15
Solución Nº 2:
n = 8 (par)

 X(8)X(8 1) 
 2 2   X4 X5  810 9
 2   2   2 
 
Xm  9
c) Para datos tabulados
c.1). Para datos discretos
Cuando los datos aparecen en una tabla de frecuencias, la mediana será el
menor valor cuya frecuencia absoluta acumulada iguala o excede a la mitad
del total de datos.
Ejemplo Nº 1:
Conocida la distribución de frecuencias de las longitudes de tornillos, de un lote que
ha sido comprado.
Longitud fi Fi
8 8 8
10 16 24
12 12 36
15 8 44
17 24 68
20 32 100
La mediana debe estar ubicada en el valor que corresponde a la mitad de los datos.
Según la tabla: 100 es el total de datos, la mediana debería ocupar el lugar 50, en la
columna Fi se observa que se acumulan 44 datos en la cuarta fila, se toma el inmediato
superior:
Me = 17
O mejor aún, el valor 50 se encuentra en la Frecuencia acumulada de la quinta fila o
clase, es decir <=68; por tanto :
Me = 17
c.2) Para datos continuos
Si se tuviera una distribución con intervalos de clase, la mediana será determinada
utilizando el diagrama escalonado y la ojiva correspondiente.

Fm Q
m
Fm-1 P b
b
R
a
Lm Lm+1
m m
Por semejanza de triángulos:
a  PQ
…………………… (a)
b QR
Del gráfico, se puede señalar:
a= Xm – Lm
b= n/2 – Fm-1
PQ ancho
declasecm
QR Fm  Fm1  fm
Reemplazando en (a)
Xm  Lm  cm
n F fm
m1
2
Despejando Xm ó Me:
Xm  Me Lm  cm  n  Fm1  ………………………………………… ( 12 )

fm  2 
Donde:
Xm=Me = Mediana
Lm = Límite inferior de la clase mediana.
Cm = Ancho de clase de la clase mediana,
fm = Frecuencia absoluta de la clase mediana
n = total del datos.
Fm-1 = Frecuencia absoluta acumulada de la clase que precede a la clase mediana.

Ejemplo Nº 1:
Calcular la mediana de la tabla de frecuencias siguiente:
X Xi fi Fi

[60 , 63> 61.5 2 2
[63 , 66> 64.5 6 8
[66 , 69> 67.5 4 12
[69 , 72> 70.5 6 18
[72 , 75> 73.5 2 20

Según se observa, existen 20 datos, la mitad de ellos serían 10 datos y deben
corresponder al intervalo [66 , 69>, que sería la clase mediana.
Luego:
Lm = 66
cm =3
fm =4
n = 20
Fm-1 =8
Reemplazándolos en la ecuación ( 12 ) se tiene:
Xm  Me66 3 208

4 2 
Xm = Me = 67.50
2.6 LA MODA
Definición
La moda de un conjunto de valores es el valor que más veces se repite en dicho
conjunto. Si ningún valor se repite se dirá que no existe moda y el conjunto de
datos será amodal.
b) para datos sin agrupar o tabular
Ejemplos:
1) 7, 13, 15, 15, 17, 21 → Moda, Mo=15
2) 5, 6, 7, 7, 9, 9, 9, 10, 10 → Mo=9
3) 13, 19, 21, 37, 47 → Mo=no tiene, es amodal.

c) para datos agrupados o tabulados
.c.1) Para datos discretos
La moda será aquella que posee mayor frecuencia.
Ejemplo:
Xi fi
17 10
21 18

25 22
29 19
33 11
Según la tabla se observa la mayor frecuencia: f 3 = 22

Luego la moda será: X3 = 25
Mo = 25
c.2) Para datos continuos
Si los datos tabulados son continuos, tomados con intervalos de ancho de clase
común, el intervalo que contiene a la moda es aquella que tiene la mayor frecuencia
(se le llama clase modal). El valor de la moda estará dado por:
 d 
MoLo co  1  …………………………………………… (13)
 d1 d2 
Donde:
Lo = Límite inferior de la clase modal.
Co = ancho de la clase modal.
d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior.
d2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase

siguiente.
Ejemplo:
Xi fi
[12 , 15> 10
[15 , 18> 15
[18 , 21> 25
[21 , 24> 20
[24 , 27> 10
De la tabla mostrada:
La mayor frecuencia se presenta en el tercer intervalo:

I3=[18 , 21> , f3=25
En este caso:
Lo = 18
Co =3
d1= f3 – f2 = 25-15 =10
d2= f3 – f4 = 25-20 =5

En la ec. ( 13 ):
 
Mo18 3 10  20
105

2.7 PROBLEMAS RESUELTOS
PROBLEMA Nº 1:
Jarjour realizó un estudio en el que se midió los niveles de histamina del fluido de
lavado bronquialveolar (BAL., siglas en inglés) en individuos con rinitis alérgica,
individuos con asma y voluntarios normales. Una de las mediciones obtenidas es la
proteína total(µg/ml.) en muestras de BAL. Los siguientes son los resultados de 61
muestras analizadas.
76.33 57.73 74.78 100.36 73.50
76.63 88.78 77.40 51.16 62.20
149.49 86.24 57.90 72.10 67.20
54.38 54.07 91.47 62.32 44.73
55.47 95.06 71.50 73.53 57.68
51.70 114.79 61.70 47.23
78.15 53.07 106.00 35.90
85.40 72.30 61.10 72.20
41.98 59.36 63.96 66.60
69.91 59.20 54.41 59.76
128.40 67.10 83.82 95.33
88.17 109.30 79.55
58.50 82.60 153.56
84.70 62.80 70.17
44.40 61.90 55.05

Fuente: Utilizado con autorización de Nizar N. Jarjour, M.D.
Hallar:
a) La tabla de distribución de frecuencias completa.
b) Un histograma y polígono de frecuencias.
c) La media aritmética, La Mediana y la Moda. Ubicar estos valores en el polígono de
frecuencias.
SOLUCIÓN Nº 1:
n = 61
Xmin. = 35.90
Xmax. =153.56
a) Cálculo del Rango®:

R=Xmax – Xmin=153.56 – 35.90 = 117.66
b) Cálculo del número de clases(m):
m = 1+3.33log(n)

m = 1+3.33xlog(61)
m = 1+3.33x(1.7853)
m = 6.9451
m = 7////
c) Cálculo del ancho de clase©:

c R  117.6616.81
m 7
d) Elaboración de la tabla de frecuencias:
Intervalo Conteo Xi fi Fi hi Hi hi% Hi% Xifi
Li Ls
35.90-52.71 ///// // 44.31 7 7 0.1148 0.1148 11.48 11.48 310.17
52.71-69.52 ///// ///// 61.12 23 30 0.3770 0.4918 37.70 49.18 1405.76

///// /////
///
69.52-86.33 ///// ///// 77.93 19 49 0.3115 0.8033 31.15 80.33 1480.67

///// ////
86.33- ///// / 94.74 6 55 0.0984 0.9017 9.84 90.17 568.44

103.14
103.14- /// 111.55 3 58 0.0492 0.9509 4.92 95.09 334.65

119.95
119.95- / 128.36 1 59 0.0164 0.9673 1.64 96.73 128.36

136.76
136.76- // 145.17 2 61 0.0328 1.0000 3.28 100.00 290.34

153.57
TOTAL = ----------- --------- 61 ----- 1.0000 ---------- 100.00 --------- 4518.39

- -

e) HISTOGRAMA:
f) POLIGONO DE FRECUENCIAS:
g) Cálculo de la Media Aritmética(X):

En ec. (3):
Xi. fi
n
X M(x) i1  4518.3974.0720

n 61
h) Cálculo de la Mediana(Me):
n  61 30.50
2 2
Este valor se busca en la columna de Frecuencia Absoluta Acumulada (F3 ≤49 ) y
corresponde a la tercera clase, es decir al intervalo [‘69.52-86.33>
Luego:
Lm = 69.52
Cm = 16.81
fm = 19
Fm-1 = 30
En ec. (12):
Xm  Me Lm  cm  n  Fm1 
fm  2 
Xm Me 69.5216.81 6130  69.9624
19  2 
i) Cálculo de la Moda(Mo):
La mayor frecuencia se encuentra en el segundo intervalo (f2=23), es decir: [52.71
– 69.52>
Luego:
Lo = 52.71
Co = 16.81
d1 = f2 – f1 = 23 – 7 = 16
d2 = f2 – f3 = 23 – 19 = 4
En ec. (13):
 
MoLo co d1 
 d1 d2 
Mo52.7116.81 16   66.1580
164

2.8 SET DE PROBLEMAS
PROBLEMA Nº 1:
Thilothamal realizó un estudio para determinar la eficacia de la vacuna BCG (Bacilus-
Calmette-Guérin) para prevenir la meningitis tuberculosa. Entre los datos recolectados en
cada individuo está la medición del estado nutricional (peso real expresado como porcentaje
del peso esperado para cada estatura real). La siguiente tabla muestra los valores de los
estados nutricionales para los 107 casos de estudio.
73.3 76.9 74.0 59.0 76.9 72.3 61.3 76.4 73.6 100.0 73.8
80.5 71.4 72.7 76.9 88.2 99.6 76.9 86.4 79.6 79.6 70.0
50.4 45.6 73.6 82.4 63.4 80.7 78.2 67.7 64.1 72.7 50.5
50.9 77.5 97.5 56.8 123.7 73.3 85.4 74.0 76.9 78.1 73.0
64.8 60.6 89.6 83.0 65.6 77.4 72.2 92.3 68.6 68.3 55.0
74.0 67.5 70.5 76.5 80.2 68.1 100.0 76.9 73.2 65.9 80.0
72.8 54.6 78.1 72.6 84.7 74.6 55.7 64.5 66.3 74.0 84.0
72.0 71.0 84.6 65.9 82.6 70.5 79.3 88.7 70.0 67.3
59.7 66.0 92.5 70.0 76.5 58.8 109.0 72.4 91.9 66.3
90.9 71.0 76.9 130.0 80.6 93.7 84.4 65.7 55.5 96.0
Fuente: con autorización del Dr. N. Thilothammal.
Hallar:
d) La tabla de distribución de frecuencias completa.
e) Un histograma y polígono de frecuencias.
f) La media aritmética, La Mediana y la Moda. Ubicar estos valores en el polígono de
frecuencias.
g) Qué proporción de mediciones es menor que 100?
PROBLEMA Nº 2
Se compararon dos métodos para recolectar sangre para estudios de coagulación. Los
siguientes valores son el tiempo parcial de tromboplastina activada (APTT, siglas en inglés),
de 30 pacientes en cada uno de los dos grupos.
a) Confeccione la tabla de distribución de frecuencias completa para cada método.
b) Elabore una gráfica de valores extremos a partir de cada conjunto de mediciones.
Compare las dos gráficas.
c) Indican alguna diferencia en la distribución de los valores de APTT para ambos
métodos?
d) ¿Qué método tiene mayor mediana?
e) Compare el IQR del método 1 con el IQR del método 2.
METODO 1
20.7 29.6 34.4 56.6 22.5 29.7
31.2 38.3 28.5 22.8 44.8 41.6

24.9 29.0 30.1 33.9 39.7 45.3
22.9 20.3 28.4 35.5 22.8 54.7
52.4 20.9 46.1 35.0 46.1 22.1
METODO 2
23.9 23.2 56.2 30.2 27.2 21.8
53.7 31.6 24.6 49.8 22.6 48.9
23.1 34.6 41.3 34.1 26.7 20.1
38.9 24.2 21.1 40.7 39.8 21.4
41.3 23.7 35.7 29.2 27.4 23.1
PROBLEMA Nº 3:
Un maestro de Estadística indica a sus alumnos en el primer día de clases que se aplicarán
cinco exámenes durante el curso. Con las puntuaciones de cada examen para cada
estudiante, el profesor calcula una medida de tendencia central que servirá como
calificación final del curso del estudiante. Antes de tomar el primer examen se debe elegir
si se quiere que la calificación sea la media o la mediana de las cinco calificaciones de los
exámenes. ¿Cuál escogería usted como estudiante del curso de Estadística?, ¿Porqué?.
Práctica Grupal.
Set de Problemas
Examen Parcial

III:
ESTADÍGRAFOS
DE DISPERSIÓN

Capítulo III: ESTADIGRAFOS DE DISPERSIÓN
Los estadígrafos de dispersión, como su nombre lo indica, miden la dispersión de los
datos de la muestra.
Dos conjuntos de datos pueden tener la misma localización central, y no obstante ser
muy diferentes, si uno está más disperso que el otro. Así, en los dos ejemplos siguientes
( las unidades están en cm.):
Ejemplo Nº 1:
a: 9, 10, 11, 12, 13, 14, 15.
b: 6, 8, 10, 12, 14, 16, 18.
En ambos casos, la media aritmética es Ma = 12 y la mediana es Me = 12 cm.
Es decir, tienen la misma media y la misma mediana y sin embargo, no se
necesita mucho esfuerzo para darse cuenta que son muestras
significativamente diferentes.
A fin de obtener una primera impresión, rápida aunque no muy precisa, de la
dispersión que existe en un conjunto de datos (o en una tabla estadística en
estudio), se emplean dos tipos de recorridos. El más sencillo, es el que hemos
definido anteriormente como recorrido de la variable o amplitud, etc.
3.1) Recorrido de la variable( R )
Es la diferencia entre los dos valores extremos, es decir:
RXmax  Xmin
Así, para el ejemplo Nº 1, grupos a y b, los recorridos son:
Ra = 15 – 9 = 6
Rb = 18 – 6 = 12.
Si el recorrido de la variable es mayor en un conjunto de observaciones que en otro, debe
esperarse, en principio también que la dispersión de datos sea superior en uno que en el
otro, como puede verse en los ejemplos a y b. Sin embargo, en ciertas ocasiones, el
recorrido ofrece una medida errónea de la dispersión, debido a que sólo se emplean para
calcularlo los valores extremos. Por tanto, ignora la naturaleza de la variación entre todas
las demás observaciones y está altamente influenciado por los valores extremos.
Así en los ejemplos siguientes:
Ejemplo Nº 2:
c: 2, 2, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 14.
d: 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14.
En ambos casos el recorrido es R=14-2=12, y sin embargo, la dispersión de los datos en

la segunda serie es significativamente mayor. Este inconveniente se subsana, al menos
en parte, realizando el recorrido intercuartílico.
3.2°) Recorrido Intercuartílico (RI)

Se define como la diferencia entre el tercer y primer cuartíl (ó también la diferencia
entre los percentiles 75avo y 25avo). Es decir:
RIQ3 Q1 ó
RIP75P25

Esta medida de dispersión es, evidentemente, más exacta que el simple recorrido de la
variable, ya que evita el inconveniente de valores extremos anormales, tomando aquellos
dos valores que dejan entre sí el 50% de los valores (los más centrales) de la variable.
Así, para los dos ejemplos anteriores, tenemos:
n13, n 1  14 3.5y 3(n1)  3(131)  4210.5 , entonces para el ejemplo 1, es:
4 4 4 4 4
Q1  X(3) (X(4)  X(3) )(0.5)7(77)(0.5)7
Q3  X(10) (X(11)  X(10) )(0.5)9(99)(0.5)9
Para el ejemplo 2 es:
Q1  X(3) (X(4)  X(3) )(0.5)4(54)(0.5)4.5
Q3  X(10) (X(11)  X(10) )(0.5)11(1211)(0.5)11.5
Es decir:
1 2 2 7 7 7 8 8 8 8 9 9 9 14
2 2 3 4 5 6 7 8 9 10 11 12 13 14
↑ ↑
Q1 Q3
Por lo tanto, aunque el recorrido de la variable es igual en ambos casos, el recorrido
intercuartílico toma los valores:
RI1 Q3 Q1 97  2
RI2 Q3 Q1 11.54.5  7
Marcando claramente la mayor dispersión que existe en el segundo caso.
3.3°) Desviación media absoluta (DM)

Sea X1, X2, … , Xn una muestra de tamaño n. La desviación media absoluta o
simplemente desviación media “DM” es la media aritmética de los valores absolutos de las
desviaciones de los valores observados respecto de la media aritmética de éstas. Es
decir:
a) Para datos no tabulados
X  X
n
i
DM i1
n
b) Para datos tabulados
n Y Y
m
i i
DM i1
n
Donde:
m=número de clases.
ni= frecuencia absoluta de la clase i.
Yi= Marca de clase o punto medio de la clase i.
Esta última fórmula se puede escribir también así:
DM ni Yi Y hi Yi Y

m m
i1 n i1
La desviación media se puede utilizar como medida de dispersión en todas aquellas

distribuciones en las que la medida de tendencia central más significativa haya sido la
media. Pero, para las mismas distribuciones es mucho más significativa la desviación
típica, que se verá después.
Ejemplo 3:
Los pesos respectivos de ocho niños (en kg.) son:
15, 12, 10,18, 14, 22, 17, 20.
Determine la desviación media absoluta.
Solución 3:
Se determina como sigue:
1. En primer lugar se halla la media aritmética de los datos.
2. Se encuentra las desviaciones de cada valor observado con respecto a la media.
3. Se toma el valor absoluto de las desviaciones obtenidas en (2).
4. Se suman los valores absolutos de las dos desviaciones obtenidas en (3) y se
divide por el número total de observaciones.
5. Todos los pasos están resumidos en la tabla siguiente:
Observación Desviación Desviación Absoluta
Xi
Xi X Xi X
10 -6 6
12 -4 4
14 -2 2
15 -1 1
17 1 1
18 2 2
20 4 4
22 6 6
128 26
Cálculo de la Media Aritmética:
X  i  12816kg.
X
n 8
Cálculo de la Desviación Media Absoluta:
X X
n
i
DM i1
 263.25kg.
n 8
c) VENTAJAS Y DESVENTAJAS DE LA DESVIACIÓN MEDIA
1. La desviación media absoluta es una mejor medida de la dispersión que el
recorrido, por que toma en cuenta todas las observaciones en consideración.

Pondera cada elemento e indica que tan lejos, en promedio, se encuentra cada
observación de la media. Es menos sensible a los valores extremos de los datos.
Si es muy alta, indica gran dispersión; si es muy baja refleja un gran agrupamiento
y que los valores son pare3cidos entre sí.
2. Desde el punto de vista teórico, el empleo de la desviación media como medida de
dispersión están en desventaja, dado que es difícil de operar.
3.4°) Varianza y desviación típica
Estas medidas son las más utilizadas en el estudio de la dispersión. Como ya hemos
dicho la varianza mide la dispersión de los datos con respecto a la media aritmética y la
desviación típica o desviación estándar es simplemente la raíz cuadrada positiva de la
varianza.
3.4.1. Varianza poblacional
La varianza o variancia de una población finita de N elementos X1, X2, … , XN, se
define como la media aritmética del cuadrado de las desviaciones de los
elementos con respecto a su media µ, y se denota por “σ2”. Es decir:
Xiµ
N
 
2
2  M X µ2  i1
N
3.4.2. Varianza de una muestra
La varianza o variancia de una muestra X1, X2, … , Xn de una variable o
característica X (que abreviadamente escribiremos “V(X)”, se define como la
media del cuadrado de las desviaciones de las observaciones con respecto de la
media aritmética de esos datos. Si denotamos por “S ’2”la varianza de la
característica X, entonces:
a) PARA DATOS NO TABULADOS:
X X
n
 
2
V(X)  S'2X  M X X2  i1

i
n
b) PARA DATOS TABULADOS:
n (Y Y)
m
 
2
V(Y)  S'2y  M Y Y2  i1

i i
n
Donde:
ni = frecuencia absoluta de la clase i.
Yi = Marca de clase o punto medio de la clase i.
La última expresión se escribe también:
S' y Yi Y2.hi

2
n
i1
Si conocemos el valor de la media aritmética poblacional µ, la mejor estimación de
la varianza poblacional σ2 a partir de una muestra sería:

X 
n
2
i
V(X)  i1
n
Siendo n el número de elementos de la muestra. Sin embargo, rara vez, si es que
ello es posible, conocemos el valor de µ, de modo que en el numerador de la
expresión anterior se sustituye por su estimador X . Ahora bien X , varía de muestra
a muestra y rara vez es exactamente igual a µ. Por otro lado sabemos por propiedad
X X es mínimo; es decir es menor que la suma de cuadrados de las

n
2
que i
i1
desviaciones de las observaciones respecto de cualquier otro valor diferente de X.
Xi X2 es menor que Xi 2 .
n n
Por tanto, si X no es exactamente igual a µ,
i1 i1
En símbolos esto se escribe:
(Xi X)2  Xi 2

n n
i1 i1
Si dividimos ambos miembros de la desigualdad por n tendríamos:
X X X 

n n
2 2
i i
i1
 i1 2
n n
Esto significa que  

Xi  X / n dará una estimación demasiado pequeño de σ2.
2
Ahí resulta que la corrección apropiada puede ser hecho mediante la utilización en el
denominador de n-1 en vez de n. Es decir, se tendría:
X X X X X 

n n n
2 2 2
i i i
i1
 i1  i1 2
n n1 n
La diferencia entre Xi X / n y   
Xi X / n1 es grande para muestras
2
2
pequeñas, y es mínima para muestras grandes, prácticamente son iguales. Entonces,

para muestras grandes (n≥60), puede usarse cualquiera de las fórmulas. Para
muestras pequeñas se usa Xi X / n1, lo cual es llamadavarianza muestral o
2
también varianza corregida, y se acostumbra denotar por S2x o simplemente S2 si no

hay confusión. Es decir, la varianza muestral estará definida por:
PARA DATOS NO TABULADOS:
X  X
n
2
i
V(X)  S2  i1
n1
PARA DATOS TABULADOS:
n Y Y
n
2
i. i
V(Y)  S2  i1
n1
Note que:
S2  n S'2
n1

Entonces para DATOS TABULADOS:

m
ni .(Yi Y)2
 n hi.(YiY)2
n m
S2  i1
n1 n n1 i1
El factor
n se conoce como la corrección de Bessel.
n 1
Ejemplo 4:
Las frecuencias cardíacas de 5 niños son: 130, 132, 127, |29, 132 pulsaciones por
minuto.
Determinar la varianza de la frecuencia cardíaca de la muestra.
Solución 4:
Se procede como sigue:
1.
Se determina la media aritmética de la muestra.
2.
Se toma la diferencia entre cada observación y la media aritmética.
3.
Se eleva al cuadrado estas desviaciones.
4.
Se suman los cuadrados de las desviaciones.
5.
La suma se divide por n-1 si la muestra es pequeña y por n-1 ó n, si la
muestra es muy grande.
Todos los pasos están resumidos en el cuadro siguiente:
Xi Xi X (Xi X)2
127 -3 9
129 -1 1
130 0 0
132 2 4
132 2 4
X 650
i X  X 18
i
2
X   i  650130pulsaciones por minuto.

X
n 5
Por tanto:
X X
n
2
i
S'2  i1  183.6
n 5
X X
n
2
i
S2  i1  18 4.5
n1 4
Podemos observar que S’2 es claramente menor que S2, debido a que la muestra
es pequeña.
3.5 Desviación típica o desviación estándar
Si bien ya sabemos cómo expresar cuantitativamente la dispersión de un conjunto
de observaciones, ocurre un inconveniente en cuanto a la interpretación de esta
cantidad, ya que ella está dada en el cuadrado de la dimensión en que se expresa la
característica, y en ocasiones trae confusión. Es conveniente, entonces contar con
otro estadígrafo que basado en el valor de la varianza, sirva para dar una medida de la
dispersión en la misma dimensión en que están los datos. Esta medida es la
desviación típica o desviación estándar.

La desviación típica o desviación estándar “S” de las observaciones X1, X2, …, Xn
de una característica
X, se define como la raíz
cuadrada m(i) Li Ls Yi fi positiva de la
varianza, es 1 150 155 152.5 3 decir:
2 155 160 157.5 6
3 160 165 162.5 12
4 165 170 167.5 18
5 170 175 172.5 25
6 175 180 177.5 17
7 180 185 182.5 10
8 185 190 187.5 7
9 190 195 192.5 4
10 195 200 197.5 1
D(X)  S  V(X)  S2
Nota.- Para hallar la desviación típica se debe calcular primero la varianza.

Ejemplo 5:
Las estaturas en cm. de un grupo de 103 personas se distribuye como sigue:
Determinar la desviación típica de la distribución.

Solución 5:
1°) Efectuamos los cálculos para calcular la media aritmética, por tanto efectuamos las
operaciones en la tabla:
f i .Y i  X 
Yi  X 2
2
m(i) Li Ls Yi fi Yifi
1 150 155 152.5 3 457.5 413.707701 1241.123103
2 155 160 157.5 6 945 235.3096428 1411.857857
3 160 165 162.5 12 1950 106.9115845 1282.939014
4 165 170 167.5 18 3015 28.51352625 513.2434725
5 170 175 172.5 25 4312.5 0.115467999 2.886699972
6 175 180 177.5 17 3017.5 21.71740975 369.1959657
7 180 185 182.5 10 1825 93.31935149 933.1935149

8 185 190 187.5 7 1312.5 214.9212932 1504.449053
9 190 195 192.5 4 770 386.523235 1546.09294
10 195 200 197.5 1 197.5 608.1251767 608.1251767
Σ= 103 17802.5 9413.106796
2°) Calculamos la media Aritmética y la varianza, luego la desviación típica, tal como se
muestra:
Media(Ῡ)= 172.84
Varianza(S2)= 91.3894
Desviación Típica(S)= 9.560
a) VENTAJAS DE LA DESVIACIÓN TÍPICA:

1. La desviación típica es sin duda, la medida de dispersión que posee una mayor
estabilidad frente a las fluctuaciones de la muestra tomada.
2. Se basa en todos los valores de la variable, tanto atendiendo a su magnitud como a su
signo.
3. Su estudio es indispensable cuando se trata de interpretar datos en relación con la
distribución normal.
4.
3.6 Coeficiente de variación (CV)
El coeficiente de Variación, significa el número de veces (o tanto por uno, ya que
habitualmente el cociente será inferior a la unidad) que supone la desviación típica
respecto a la media.:
COEFICIENT C.V. S
EDEVARIACIÓN
X
Ejemplo N° 6:
En dos pruebas de conocimiento A y B, la prueba A se calificó sobre 100 puntos; la media
aritmética de las calificaciones fue de 72 puntos con una desviación típica de 9 puntos.
La prueba B se calificó sobre 80 puntos y los resultados dieron una media de 52 puntos
con una desviación típica de 6. Halle en cuál de las dos pruebas hubo menor variación.
Solución N° 6:
SA 9
C.VA.  0.125(12.50%)
X A 72
SB 6
C.VB.  0.115(11.50%)
X B 52
Por tanto, la prueba de conocimiento B tiene menor variación en los puntajes.
Ejemplo N° 7:
Una fábrica tiene dos departamentos: uno de producción y otro de ventas. Las siguientes
tablas de frecuencias presentan los haberes percibidos , hasta fines de Abril en cada uno
de los departamentos.
Haberes semanales N° trabajadores
(miles de soles) (Dpto. Producción)
[10, 15> 15
[15, 20> 25
[20, 25> 30

[25, 30> 20
[30, 35> 5
[35, 40> 5
[40, 45> 0
TOTAL = 100
Haberes mensuales N° trabajadores

(miles de soles) (Dpto. Ventas)
[20, 60> 0
[60, 80> 5
[80, 100> 5
[100, 120> 15
[120, 140> 20
[140, 160> 5
TOTAL = 50
Determinar:
a. El haber promedio mensual y la desviación típica correspondiente a cada
departamento.
b. El Coeficiente de Variación de cada Departamento.
c. El haber promedio mensual y la desviación típica del conjunto de trabajadores de
ambos departamentos.
Solución N° 7:
a.1) Para el Departamento de Producción:
f i .Y i  X 
Yi  X 2
2
1 10 15 12.50 15 187.50 90.25 1353.75
2 15 20 17.50 25 437.50 20.25 506.25
3 20 25 22.50 30 675.00 0.25 7.50
4 25 30 27.50 20 550.00 30.25 605.00
5 30 35 32.50 5 162.50 110.25 551.25
6 35 40 37.50 5 187.50 240.25 1201.25
7 40 45 42.50 0 0.00 420.25 0.00
Σ= 100 2200.00 4225.00
Calculamos la media Aritmética y la varianza, luego la desviación típica, tal como se

muestra:
Media(Ῡ)= 22.00
Varianza(S2)= 42.25
a.2) Para el Departamento de Ventas:

f i .Y i  X 
Yi  X 
2
2
1 20 60 40 0 0 5776 0
2 60 80 70 5 350 2116 10580
3 80 100 90 5 450 676 3380
4 100 120 110 15 1650 36 540
5 120 140 130 20 2600 196 3920
6 140 160 150 5 750 1156 5780
Σ= 50 5800 24200

muestra:
Media(Ῡ)= 116
Varianza(S2)= 484
Desviación Típica(S)= 22
b.1) Para el Departamento de Producción:
C.V. S  6.50 0.2954(29.54%)

X 22.00
b.2) Para el Departamento de Ventas:
C.V. S  22.00 0.1897(18.97%)

X 116.00
c) Para ambos Departamentos(todos los trabajadores):
1 10 15 12.5 15 187.5 1667.361111 25010.41667

2 15 20 17.5 25 437.5 1284.027778 32100.69444
3 20 25 22.5 30 675 950.6944444 28520.83333
4 25 30 27.5 20 550 667.3611111 13347.22222
5 30 35 32.5 5 162.5 434.0277778 2170.138889
6 35 40 37.5 5 187.5 250.6944444 1253.472222
7 40 45 42.5 0 0 117.3611111 0
8 20 60 40 0 0 177.7777778 0
9 60 80 70 5 350 277.7777778 1388.888889
10 80 100 90 5 450 1344.444444 6722.222222
11 100 120 110 15 1650 3211.111111 48166.66667
12 120 140 130 20 2600 5877.777778 117555.5556
13 140 160 150 5 750 9344.444444 46722.22222
Σ= 150 8000 322958.3333

muestra:
Media(Ῡ)= 53.3333
2
Varianza(S )= 2153.0556
Práctica Grupal.
Set de Problemas
Examen Parcial

3.7 MEDIDAS DE FORMA DE LA DISTRIBUCIÓN
En trabajos propios de algunas disciplinas surge con frecuencia la necesidad de calcular
una medida que muestre las direcciones de la dispersión de los datos con respecto a su
centro y que completan la descripción de las distribuciones de frecuencias.
Estas características se llaman: Asimetría (que significa no tener simetría) y Curtosis o
Apuntamiento. Las medidas de dispersión sólo indican la magnitud de las variaciones,
pero no dan información acerca de la dirección de las variaciones.
3.7.1. Medidas de Asimetría
a) Coeficiente de Asimetría
El concepto de asimetría de una distribución indica la deformación horizontal de las
distribuciones de frecuencia. Es una idea que y hemos utilizado anteriormente.
Una distribución es simétrica, como sabemos, cuando su curva (o polígono) de
frecuencias es simétrica respecto al eje vertical. Es decir, si se le puede doblar a lo largo
del eje vertical de manera que coincidan los dos lados.
En el caso de polígonos de frecuencia unimodales simétricas, como sabemos (ver
2.7), la media aritmética, la mediana y la moda, coinciden (fig.3.5.1.1)
Figura 3.5.1.1
Asimetría Positiva.- Se dice que una distribución de frecuencia unimodal presenta
asimetría positiva o a la derecha, si se tiene una ramificación más extendida hacia la
derecha o hacia valores grandes de la variable. En este caso la media aritmética es
mayor que la moda. La mediana por el hecho de dividir el conjunto de observaciones en
dos partes iguales, quedará comprendida entre ambas. ( fig. 3.5.1.2)
Asimetría Negativa.- Se dice que una distribución de frecuencia unimodal presenta
asimetría negativa o a izquierda, si tiene una ramificación más extendida hacia la
izquierda o hacia valores pequeños de la variable. La media aritmética es menor que la
moda. La mediana por la misma razón anterior permanecerá en el centro (fig. 3.5.1.3).
Figura 3.5.1.2

De lo expresado anteriormente, en curvas de frecuencias unimodales, una medida
absoluta de la asimetría está dado por la diferencia entre la media aritmética y la moda:
As X  XMo
Interpretación:
As, será negativa (As<0), si la distribución tiene asimetría negativa.
As, nulo (As=0), si la distribución es simétrica.
As, será positiva (As>0), si la distribución tiene asimetría positiva.
Pero tal medida tiene el inconveniente de expresarse en unidades originales de la
variable, y así cambia al cambiar la unidad de medición. También, la misma cantidad
absoluta de asimetría tiene un significado diferente para distintas series con distintos
grados de variabilidad. Para eliminar ambos defectos introducimos una medida relativa
de la asimetría.
3.7.2 Medidas de Apuntamiento o Curtosis
a) Coeficiente de Pearson (Cas)
Teniendo en cuenta que la media aritmética y la moda coinciden en una distribución
simétrica, Pearson propuso un coeficiente relativo de asimetría para curvas de
frecuencias unimodales:
CAs X XMo
S
Sin embargo, es conocido que la moda de una distribución no es fácil de calcular y para
muchas distribuciones sólo es una aproximación. Entonces, podemos expresar el
numerador de la expresión anterior en función de la mediana. Considerando la relación
empírica entre la media aritmética, la mediana y la moda (ver 2.7) para distribuciones de
frecuencia unimodales y moderadamente asimétricas.
X  XMo 3(X Me)

El coeficiente de asimetría propuesto por Pearson se expresa como:
CAs 3(X Me)

S
Interpretación:
Si Cas<0, la distribución es asimétrica negativa ( o sesgada hacia la izquierda).
Si Cas=0, la distribución es simétrica.
Si Cas>0, la distribución es asimétrica positiva (o sesgada hacia la derecha).
Los coeficientes de asimetría anteriores se llaman, respectivamente primero o segundo
coeficientes de Pearson.
b) La curtosis (o apuntamiento)
Es una medida de forma que mide cuán escarpada o achatada está una curva o
distribución.
Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera
que a mayor grado de curtosis, más escarpada (o apuntada) será la forma de la curva.

La curtosis se mide promediando la cuarta potencia de la diferencia entre cada
elemento del conjunto y la media, dividido entre la desviación típica elevado también a la
cuarta potencia. Sea el conjunto X=(x1, x2,…, xN), entonces el coeficiente de curtosis será:

 Xi  X 
N 4
Curtosis  i1 3
. x4
NS
Siendo:
X :lamedia
Sx :ladesviacióntípica

INSTITUTO DE EDUCACIÓN SUPERIOR
TECNOLÓGICO PÚBLICO
IV: MANUAL DEL

PASW
STATISTICS 18

Capítulo IV: MANUAL DEL SPSS
4.1 INTRODUCCIÓN
Bienvenidos al curso de Estadística con el uso del software Pasw Statistics 18, (antes
SPSS), con el cual realizaremos los cálculos estadísticos de una manera más sencilla y
atractiva, para ello deben seguir al pie de la letra las indicaciones del presente manual.
4.2 REQUISITOS
Para operar este software estadístico es necesario que el estudiante cumpla los
siguientes requisitos:
1º Tener conocimientos básicos del sistema operativo Windows.
2º Tener conocimientos básicos de Estadística.
3º Contar con una memoria USB mínimo de 4 Gb.
Para poder aprender el manejo de este software debemos seguir las siguientes etapas:
1º Cargar sistema operativo Windows
2º Cargar software estadístico Pasw Statistics 18
3º Definición de Variables
4º Ingreso de datos.
5º Procesamiento de datos.
6º Creación del informe o reporte con los resultados.
4.3 DEFINICIÓN DE VARIABLES-A
Para definir las variables de nuestro Proyecto, primero debemos de analizar la fuente de
información: encuesta, etc.)
Para este fin hemos simulado la siguiente encuesta:
ENCUESTA A LOS ESTUDIANTES DEL IESTPAOE
Nº 1: CARRERA PROFESIONAL QUE ESTUDIA:
1. Computación e Informática
2. Contabilidad
3. Enfermería Técnica
4. Técnico en Farmacia
5. Electrónica Industrial
6. Mecánica Automotriz
Nº 2: TURNO:
1. Diurno
2. Nocturno
Nº 3: AULA:
1. A
2. B
3. Única
Nº 4: CICLO:
1. I Ciclo
2. II Ciclo
3. III Ciclo
4. IV
Estadística conCiclo
SPSS Pag. N° 69 IESTPAOE
5. V Ciclo
6. VI Ciclo
Nº 6: EDAD (años cumplidos):
……………………………..
Nº 7: PESO (Kg.):
……………………………..
Nº 8: PROMEDIO
Después DE NOTAS
de realizada la encuesta se obtuvieron los siguientes datos, que se muestran en
la siguiente tabla:
……………………………..
Tabla N° 01: Encuesta a los Estudiantes del I.E.S.T.P.A.O.E. en el año 2015
CASO VAR01 VAR02 VAR03 VAR04 VAR05 VAR06 VAR07 VAR08 VAR09 VAR10
1 2 1 1 3 1 20 45 12 1 1
Nº 9: TRABAJA?
2 3 2 2 3 2 19 40 13 1 1
3 5 2 1 1 1 18 42 15 2 1
1. Sí4 1 1 1 1 2 17 36 14 2 1
2. Nó
5 3 2 2 3 1 21 47 11 1 2
Nº 10: ESTADO CIVIL
6
1. Soltero(a) 4 2 3 3 2 20 40 13 1 1
2. Casado(a)
7 3 1 2 3 2 19 39 12 1 1
3. Conviviente
8 1 2 2 1 1 19 44 14 2 1
4. Viudo(a)
9 4 2 3 3 2 20 38 14 1 1
5. Divorciado(a)
10 3 1 1 3 1 21 46 12 1 3
11 2 2 1 3 2 20 39 13 1 1
12 3 2 1 3 1 21 46 13 1 1
13 1 1 1 1 2 18 37 14 2 1
14 4 2 3 3 1 19 43 12 1 3
15 3 1 1 3 2 19 39 12 2 2
Fuente: Encuesta propia del autor-2015.
Ahora procederemos a trabajar con el software estadístico Pasw Statistics 18 y definir las
variables de la encuesta.

Procedimiento:
1º CARGAR EL SISTEMA OPERATIVO WINDOWS:
1.1 Encender la PC (primero el monitor y luego el CPU). La pantalla mostrará la
siguiente ventana o escritorio:
Como puede observar en ella encontrará íconos de algunos programas ya instalados

en la PC.
4.4 CARGAR EL SOFTWARE ESTADÍSTICO SPSS
Tiene dos maneras de cargarlo:
2.1 Desde el Escritorio de Windows:
Hacer doble clic en el ícono siguiente:
2.1 Desde el botón inicio:

Hacer clic en el botón INICIO, luego dirigirse con el mouse a PROGRAMAS,
enseguida a SPSSInc y luego a SPSS y finalmente hacer clic en SPSS, tal como se
muestra en la ventana:
En cualquiera de las dos maneras, se cargará el software estadístico y mostrará la

ventana siguiente:

s
Veamos las opciones:

a) Abrir un origen de datos existente.- Cuando desee abrir un archivo de datos
creado con el Pasw Statistics 18. Debe indicar la ruta.
b) Abrir otro tipo de archivo.- Cuando desee importar un archivo de datos de otro
formato como Excel u otra base de datos. Debe indicar la ruta.
c) Ejecutar el tutorial.- Cuando desee aprender el manejo de este software, este
tutorial le enseñará su manejo.
d) Introducir los datos.- Cuando desee crear un archivo de datos con este software.
Después de definir las variables puede ingresar datos y luego guardarlo (la
extensión es sav). Debe indicar la ruta.
4.5 DEFINICIÓN DE VARIABLES-B

Hacer clic en la opción Introducir los Datos y otro clic en el botón Aceptar Se tiene la
siguiente ventana:
Como puede observar, éste se parece a una hoja de cálculo y tiene dos pestañas en la
parte inferior izquierda.
Hacer clic en la pestaña “vista de variables”, y definir la primera variable (pregunta Nº
1), de la siguiente manera:
En la fila 1 debe definir las características de la primera variable. Por ello escriba en la
celda correspondiente a cada característica lo siguiente:
Nombre: VAR01
Ahora ubíquese en la celda “Tipo” y hacer clic en los puntos suspensivos ubicado al
lado derecho de “numérico”, mostrará la siguiente ventana

Elija CADENA. Hacer clic en el botón Aceptar.
Ubíquese en la celda “Etiqueta” y escriba en mayúsculas el título de la pregunta
correspondiente.
Etiqueta: CARRERA PROFESIONAL
Ahora ubíquese en la celda “Valores” y hacer clic en los puntos suspensivos del lado
derecho, tendrá lo siguiente:
Aquí debe ingresar

las opciones para la variable “Carrera Profesional”, que son las siguientes:
1. Computación e Informática
2. Contabilidad
3. Enfermería Técnica
4. Técnico en Farmacia
5. Electrónica Industrial
6. Mecánica Automotriz
7. Administración Industrial

Escriba en la celda Valor : 1
Y en la celda Etiqueta: Computación e Informática
Ahora hacer clic en el botón “Añadir”.
Continuar de esta manera con las demás opciones hasta obtener la siguiente ventana:
Después de ingresar
todos los valores para la
variable Var01, ahora debe hacer clic en el botón “Aceptar”. Ahora ubíquese en la celda
Perdidos y hacer clic en los puntos suspensivos, tendrá la ventana:
Seleccione “Valores perdidos discretos” y escriba en la primera caja el valor: 0 (cero) y

hacer clic en el botón “Aceptar”.
4.3 Continuar de esta manera con las demás variables asignando las características
siguientes:
Nombre Var01 Var02 Var03 Var04 Var05 Var06 Var07 Var08 Var09 Var10
Tipo Cadena Cadena Cadena Cadena Cadena Numéri Numér Numéric Caden Cadena
co ico o a
Anchura 2 5 2
Decimale 0 2 0
s
Etiqueta CARRERA TURNO AULA CICLO SEXO EDAD PESO PROME TRABA ESTADO
PROFESIO DIO DE JA CIVIL
NAL NOTAS

Valores 1.Computaci 1.Diurno 1. A 1. I Ciclo 1.Masculino 1.Sí 1.Soltero(a)
ón e 2.Nocturn 2. B 2. II 2.Femenino 2.Nó 2.Casado(a)
Informática o 3. Ünica Ciclo N3.Convivient
2.Contabilid 3. III óe
ad Ciclo 4.Viudo(a)
3.Enfermerí 4.IV 5.Divorciado
a Técnica Ciclo (a)
4.Técnico en 5. V
Farmacia Ciclo
5.Electrónic 6.VI
a Ciclo
6.Mecánica
Automotriz
7.
Administraci
ón Industrial
Perdidos 0 0 0 0 0 0 0
Al finalizar, la ventana del editor de datos se mostrará así:
Después de definir todas las variables debe grabar la estructura de la base de datos.
4.4 Hacer clic en menú “archivo” y otro en “guardar” ó presione las teclas [Ctrl]+[S], en
los dos casos se mostrará:

En “Buscar en” seleccione la unidad de su USB y debe crear la carpeta “Estadística” y
dentro de ella debe guardar la base de datos creada con el nombre “Encuesta01”, hacer
clic en el botón “Guardar”. En la ventana de resultados se mostrará la siguiente sintaxis:
SAVE OUTFILE=’H:\Estadistica\Encuesta01.sav’
/COMPRESSED.
4.6 INGRESO DE DATOS
Después de crear la estructura de la base de datos, procedemos a ingresar los datos para
esta estructura.
5.1 Hacer clic en la pestaña “Vista de datos”, mostrará:
Como puede observar la ventana es muy similar a una hoja de Excel, lo cual facilita el
ingreso de datos. Ingrese usted los siguientes datos de la tabla:
Caso VAR01 VAR02 VAR03 VAR04 VAR05 VAR06 VAR07 VAR08 VAR09 VAR10

1 2 1 1 3 1 20 45 12 1 1
2 3 2 2 3 2 19 40 13 1 1
3 5 2 1 1 1 18 42 15 2 1
4 1 1 1 1 2 17 36 14 2 1
5 3 2 2 3 1 21 47 11 1 2
6 4 2 3 3 2 20 40 13 1 1
7 3 1 2 3 2 19 39 12 1 1
8 1 2 2 1 1 19 44 14 2 1
9 4 2 3 3 2 20 38 14 1 1
10 3 1 1 3 1 21 46 12 1 3
11 2 2 1 3 2 20 39 13 1 1
12 3 2 1 3 1 21 46 13 1 1
13 1 1 1 1 2 18 37 14 2 1
14 4 2 3 3 1 19 43 12 1 3
15 3 1 1 3 2 19 39 12 2 2
Al finalizar mostrará la ventana siguiente:
Contiene 15 casos, registros o encuestas. Grabe su trabajo nuevamente.

Al hacer clic en el ícono “etiquetas de valor” de la barra de herramientas se tiene:

La cual muestra las etiquetas de valor de todas las variables.
4.7 PROCESAMIENTO DE DATOS
Con el archivo de datos “encuesta01.sav” todavía abierto y en uso procedemos a realizar
el procesamiento de datos para este archivo:
Hacer clic en el menú “Analizar” de la barra de herramientas y luego diríjase a “Estadísticos
descriptivos” y hacer clic en “frecuencias”, como se muestra:
Ahora se muestra otra ventana, como la siguiente:

Ahora debemos seleccionar las variables a procesar.
4.7.1 Primero seleccionaremos las VARIABLES DE CADENA. Para ello en el lado
izquierdo hacemos doble clic en las variables de tipo cadena precedidos de la letra
“a” y que están en las variables: Carrera Profesi…, Turno, Aula, Ciclo, Sexo, Trabaja
y Estado Civil, así como se muestra en la ventana:
4.8 Observe que la casilla de la opción “Mostrar tablas de frecuencias” está seleccionada
por defecto. Déjela como está. Ahora seleccione el botón “Gráficos…”, se mostrará
la ventana:

Seleccione en Tipo de gráfico a “Gráficos de barras” que es el indicado para variables
cualitativas o de cadena y; en Valores del gráfico a “Frecuencias”. Luego presione el
botón “Continuar” y mostrará la ventana de resultados siguiente:
Como ha observado el cálculo ha sido inmediato.

4.7.2 Ahora procedemos a procesar los datos de las VARIABLES CUANTITATIVAS Ó
NUMÉRICAS.
a) Hacer clic en el menú “Analizar” de la barra de herramientas y luego diríjase a
“Estadísticos descriptivos” y hacer clic en “frecuencias”. Se tiene la misma ventana
del paso 5.2, ahora debe hacer clic en el botón “Restablecer”. Seleccione las
variables numéricas: Edad, Peso y Promedio de Notas, precedidos del ícono regla
amarilla.:

b) Por ser numéricos hacer clic en el botón “Estadígrafos” y seleccione:
 Media
 Mediana
 Moda
 Desviación típica
Varianza Hacer clic en el botón “Continuar”:

a. Ahora hacer clic en el botón “Gráficos”, tal como:

Seleccione en Tipo de gráfico a “Histogramas” y “Mostrar curva normal en el
histograma”, que es el indicado para variables cuantitativas Luego hacer clic en el
botón “Continuar”, luego en el botón “Aceptar”.
Se tiene otro resultado de las variables numéricas en la siguiente ventana:
Como puede observar ésta ventana consta de dos partes. Seleccionando la opción
del resultado en el lado izquierdo, éste se mostrará en el lado derecho.
4.8 CREACIÓN DEL INFORME O REPORTE CON LOS RESULTADOS
Ya tenemos los resultado del procesamiento de datos, pero éstos se encuentran en el
formato del Pasw Statistics 18 o SPSS, sin embargo nosotros queremos que el
resultado sea utilizado en formato word para trabajarlo con el procesador de textos
WORD, por ejemplo.
Para obtener esto hacemos lo siguiente:

Hacer clic en “Resultado” del lado izquierdo, con ello se seleccionarán todas las
operaciones del resultado
Hacer clic en el menú “Archivo” y luego clic en exportar, se mostrará:

Seleccionar:
Objetos para exportar: seleccionadas

Documento Tipo: Word/RTF (*.doc)
Nombre de archivo: H:\Estadistica\Resultado de Encuesta01.doc
Ahora hacer clic en el botón “Aceptar” y tendrá el trabajo listo para su informe,
tal como se muestra a continuación:

GET
FILE=’D:\Alejandro\ISTPAOE-2011\Estadistica\Separatas\Encuesta01.sav’.
DATASET NAME Conjunto_de_datos1 WINDOW=FRONT.
SAVE OUTFILE=’D:\Alejandro\ISTPAOE-2011\Estadistica\Separatas\Encuesta01.sav’
/COMPRESSED.
FREQUENCIES VARIABLES=VAR01 VAR02 VAR03 VAR04 VAR05 VAR09 VAR10
/BARCHART FREQ
/ORDER=ANALYSIS.
a) Frecuencias (para VARIABLES DE CADENA O CUALITATIVAS)
Notas
Resultados creados 11-jul-2011 02:56:01
Comentarios
Entrada Datos D:\Alejandro\ISTPAOE-
2011\Estadistica\Separatas\
Encuesta01.sav
Conjunto de datos Conjunto_de_datos1
activo
Filtro <ninguno>
Peso <ninguno>
Segmentar archivo <ninguno>
Núm. de filas del 15
archivo de trabajo
Manipulación de los Definición de los Los valores perdidos
valores perdidos perdidos definidos por el usuario
serán tratados como
perdidos.
Casos utilizados Los estadísticos se basan en
todos los casos con datos
válidos.
Sintaxis FREQUENCIES
VARIABLES=VAR01 VAR02
VAR03 VAR04 VAR05
VAR09 VAR10
/BARCHART FREQ
/ORDER=ANALYSIS.
Recursos Tiempo de 00:00:01,718

procesador
Tiempo transcurrido 00:00:02,234

[Conjunto_de_datos1] D:\Alejandro\ISTPAOE-2011\Estadistica\Separatas\Encuesta01.sav
Estadísticos
CARRERA
PROFESIO
NAL TURNO AULA CICLO SEXO
N Válidos 15 15 15 15 15
Perdido 0 0 0 0 0
s
Estadísticos
TRABA ESTADO
JA CIVIL
N Válidos 15 15
Perdido 0 0
s
TABLA DE FRECUENCIA
CARRERA PROFESIONAL
Frecuenci Porcentaj Porcentaje Porcentaje
a e válido acumulado
Válido Computación e 3 20,0 20,0 20,0
s Informática
Contabilidad 2 13,3 13,3 33,3
Enfermería Técnica 6 40,0 40,0 73,3
Técnico en Farmacia 3 20,0 20,0 93,3
Electrónica 1 6,7 6,7 100,0
Total 15 100,0 100,0
TURNO
Válido Diurno 6 40,0 40,0 40,0
s Nocturn 9 60,0 60,0 100,0
o
Total 15 100,0 100,0

AULA
Válido A 8 53,3 53,3 53,3
s B 4 26,7 26,7 80,0
Ünica 3 20,0 20,0 100,0
Total 15 100,0 100,0
CICLO
Válido I Ciclo 4 26,7 26,7 26,7
s III 11 73,3 73,3 100,0
Ciclo
Total 15
100,0 100,0
SEXO
Válido Masculin 7 46,7 46,7 46,7
s o
Femenin 8 53,3 53,3 100,0
o
Total 15 100,0 100,0
TRABAJA
Válido Sí 10 66,7 66,7 66,7
s Nó 5 33,3 33,3 100,0
Total 15 100,0 100,0
ESTADO CIVIL
Válido Soltero(a) 11 73,3 73,3 73,3
s Casado(a 2 13,3 13,3 86,7
)
Convivien 2 13,3 13,3 100,0
te
Total 15 100,0 100,0

GRÁFICO DE BARRAS

FREQUENCIES VARIABLES=VAR06 VAR07 VAR08
/STATISTICS=STDDEV VARIANCE MEAN MEDIAN MODE
/HISTOGRAM NORMAL
/ORDER=ANALYSIS.
b) Frecuencias (para VARIABLES NUMÉRICAS O CUANTITATIVAS)
Notas
Resultados creados 11-jul-2011 03:21:57
Comentarios
Entrada Datos D:\Alejandro\ISTPAOE-
2011\Bioestadistica\Separatas\En
cuesta01.sav
Conjunto de datos Conjunto_de_datos1
activo
Filtro <ninguno>
Peso <ninguno>
Núm. de filas del 15
archivo de trabajo
Manipulación de los Definición de los Los valores perdidos definidos
valores perdidos perdidos por el usuario serán tratados
como perdidos.
Casos utilizados Los estadísticos se basan en
todos los casos con datos
válidos.
Sintaxis FREQUENCIES
VARIABLES=VAR06 VAR07
VAR08
/STATISTICS=STDDEV
VARIANCE MEAN MEDIAN
MODE
/HISTOGRAM NORMAL
/ORDER=ANALYSIS.
Recursos Tiempo de 00:00:00,578

procesador
[Conjunto_de_datos1] D:\Alejandro\ISTPAOE-
2011\Bioestadistica\Separatas\Encuesta01.sav

Estadísticos
PROMEDI
O DE
EDAD PESO NOTAS
N Válidos 15 15 15
Perdido 0 0 0
s
Media 19,40 41,4000 12,93
Mediana 19,00 40,0000 13,00
Moda 19 39,00 12
Desv. típ. 1,183 3,56170 1,100
Varianza 1,400 12,686 1,210
TABLA DE FRECUENCIA
EDAD
Válido 17 1 6,7 6,7 6,7
s 18 2 13,3 13,3 20,0
19 5 33,3 33,3 53,3
20 4 26,7 26,7 80,0
21 3 20,0 20,0 100,0
Total 15 100,0 100,0
PESO
Válido 36,00 1 6,7 6,7 6,7
s 37,00 1 6,7 6,7 13,3
38,00 1 6,7 6,7 20,0
39,00 3 20,0 20,0 40,0
40,00 2 13,3 13,3 53,3
42,00 1 6,7 6,7 60,0
43,00 1 6,7 6,7 66,7
44,00 1 6,7 6,7 73,3
45,00 1 6,7 6,7 80,0
46,00 2 13,3 13,3 93,3
47,00 1 6,7 6,7 100,0
Total 15 100,0 100,0

PROMEDIO DE NOTAS
Válido 11 1 6,7 6,7 6,7
s 12 5 33,3 33,3 40,0
13 4 26,7 26,7 66,7
14 4 26,7 26,7 93,3
15 1 6,7 6,7 100,0
Total 15 100,0 100,0
HISTOGRAMA

INSTITUTO DE EDUCACIÓN SUPERIOR
TECNOLÓGICO PÚBLICO
V: TEMAS
ESPECIALES

Capítulo V: TEMAS ESPECIALES
5.1 ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

La investigación de una relación entre dos variables, comienza con un intento de descubrir la forma
aproximada de la relación, para lo cual se representan los datos observados en un sistema de coordenadas.
Esta gráfica recibe el nombre d diagrama de dispersión, el cual muestra la ubicación de los valores o puntos
(X1, Y1) de la variable bidimensional (X, Y), en un sistema de coordenadas rectangulares. En la gráfica se
puede observar si existe o no una relación acentuada entre las variables x e y, y se puede ver qué forma
tiene: lineal u otra.
Ejemplo:
A continuación se presentan los Pesos (X) y la Estatura (Y) de 12 estudiantes. Trace el diagrama de
dispersión.
Peso Estatura
n
(X) (Y)
1 60 179
2 56 147
3 42 125
4 72 160
5 36 118
6 63 149
7 47 128
8 55 150
9 49 145
10 38 115
11 42 140
12 61 152
Solución:
El diagrama de dispersión correspondiente se muestra en la siguiente figura:

Si observa la posición de los puntos de este diagrama de dispersión, se evidencia que hay una dependencia
lineal entre los valores de las variables X e Y, pues a medida que aumenta los pesos, aumenta la estatura.
5.2 Correlación Lineal

La covarianza mide la relación lineal entre X e Y. El inconveniente de la covarianza como medida de
asociación lineal es su dependencia de las unidades de medida de las variables. En consecuencia, para
construir una medida adimensional, se tiene que dividir la covarianza por un término con sus mismas
dimensiones. Si se divide por el producto de sus desviaciones típicas se define el coeficiente de correlación
entre dos variables.
a) Coeficiente de Correlación ó Índice de Correlación Lineal de Pearson
Se define por.
r  Covx, y ……………………………(1)
SxSy
X  XY Y  XY  XY

La Covarianza se calcula así:
Cov(x, y) 
i i i i
…………………………(2)
n n
La Desviación Típica se calcula así:
Sx  X i
2
X
2
n

………………………………………………(3)
Yi2 2
Sy  Y
n
Donde:
Cov(x , y) = es la covarianza
SX= es la desviación típica de x.
SY = es la desviación típica de y.
Reemplazando (2) y (3) en (1):

X .Y  XY i i
r n
X  X Y
……………………………..(4)
2 2
Y
i 2 i 2
n n
Ejemplo:
Del ejemplo de peso y estatura.
n X Y X.Y X2 Y2
1 60 179 10740 3600 32041
2 56 147 8232 3136 21609
3 42 125 5250 1764 15625
4 72 160 11520 5184 25600
5 36 118 4248 1296 13924
6 63 149 9387 3969 22201
7 47 128 6016 2209 16384
8 55 150 8250 3025 22500
9 49 145 7105 2401 21025
10 38 115 4370 1444 13225
11 42 140 5880 1764 19600
12 61 152 9272 3721 23104
SUMATORIA= 621 1708 90270 33513 246838
Cálculos:
X    621  51.75
X
n 12
Y    1708 142.33
Y
n 12
SX   i  X  33513 (51.75)2 10.70
X2 2
n 12
SY   i Y  246838 (142.33)2 17.66
2
Y 2
n 12
Reemplazando los valores en la ecuación (4):
X .Y  XY i i 90270 (51.75)(142.33)
r n  12  7522.507365.58 156.92  0.8304
X  X Yi
2
2 i
2
Y
2 (10.70)(17.66) 188.96 188.96
n n
b) Coeficiente de Determinación: r2
r2  (0.8304)2  0.6896 0.69

Esto indica que el 69% de la variación de Y (estatura) viene explicado por la variable X.(peso).
5.2 ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre variables.
Tanto en el caso de dos variables (regresión simple) como en el de más de dos variables (regresión múltiple),
el análisis de regresión lineal puede utilizarse para explorar y cuantificar la relación entre una variable llamada
dependiente o criterio (Y) y una o más variables llamadas independientes o predictoras (X 1, X2, ….., Xk), así
como para desarrollar una ecuación lineal con fines predictivos. Además, el análisis de regresión lleva

asociados una serie de procedimientos de diagnóstico (análisis de los residuos, puntos de influencia) que
informan sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre como perfeccionarlo.
El procedimiento implica, básicamente, obtener la ecuación mínimo-cuadrática que mejor expresa la relación
entre la variable dependiente y la(s) variable(s) independiente(s) y estimar mediante el coeficiente de
determinación la calidad de la ecuación de regresión obtenida. Estos dos pasos deben ir acompañados de
un chequeo del cumplimiento de las condiciones o supuestos que garantizan la validez del procedimiento.
Ejemplo:
a) Abrir el archivo reg.sav con el software SPSS.
b) Seleccionar la opción Regresión > Lineales del menú Analizar para acceder al cuadro de diálogo
Regresión Lineal que muestra la figura:

c) Seleccionar la variable tiempodevida en la lista de variables del archivo de datos y trasladarla al
cuadro Dependientes:.
d) Seleccionar la variable cigarrillos y trasladarla a la lista Independientes:, tal como se muestra:
e) Con solo estas especificaciones, al pulsar el botón Aceptar, el visor ofrece los resultados que se
muestran a continuación:

GET
FILE='I:\2019-2\Estadistica General\Archivos-SPSS\reg.sav'.
DATASET NAME Conjunto_de_datos1 WINDOW=FRONT.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT tiempodevida
/METHOD=ENTER cigarrillos.
Regresión
Notas
Resultados creados 01-sep-2019 19:56:56
Comentarios
Entrada Datos I:\2019-2\Estadistica
General\Archivos-SPSS\reg.sav
Conjunto de datos activo Conjunto_de_datos1
Filtro <ninguno>
Peso <ninguno>
Núm. de filas del archivo 100
de trabajo
Tratamiento de los datos Definición de perdidos Los valores perdidos definidos por
perdidos el usuario se tratarán como
perdidos.
Casos utilizados Los estadísticos se basan en los
casos sin valores perdidos para
ninguna variable de las utilizadas.
Sintaxis REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R
ANOVA
/NOORIGIN
/METHOD=ENTER cigarrillos.
Recursos Tiempo de procesador 00:00:00,031

Memoria necesaria 2700 bytes
Memoria adicional 0 bytes
requerida para los
diagramas de residuos
[Conjunto_de_datos1] I:\2019-2\Estadistica General\Archivos-SPSS\reg.sav

Variables introducidas/eliminadasb
Modelo Variables Variables
introducidas eliminadas Método
d1 cigarrillosa . Introducir
i
m
e
n
s
i
o
n
0
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: tiempo de vida
Resumen del modelo

Modelo R cuadrado Error típ. de la
R R cuadrado corregida estimación
d1 ,967a ,936 ,935 3,804
i
m
e
n
s
i
o
n
0
a. Variables predictoras: (Constante), cigarrillos
En esta tabla Resumen del modelo se observa que R toma un valor muy alto (su máximo es 1); y R 2 nos
indica que el 93.5% de la variación del tiempo de vida está explicada por el número de cigarrillos que consume.
Es importante resaltar en este momento que el análisis de regresión no permite afirmar que las relaciones
detectadas sean de tipo casual: sólo es posible hablar de grado de relación.
R cuadrado corregida es una corrección a la baja de R2 que se basa en el número de casos y de variables
independientes.
El error típico de la estimación es la desviación típica d los residuos. Representa una medida de la parte de
variabilidad de la variable dependiente que no es explicada por la recta de regresión. En general, cuanto
mejor es el ajuste, más pequeño es este error típico.

ANOVAb
Modelo Suma de Media
cuadrados gl cuadrática F Sig.
1 Regresión 20618,222 1 20618,222 1425,218 ,000a
Residual 1417,738 98 14,467
Total 22035,960 99
a. Variables predictoras: (Constante), cigarrillos
La tabla resumen del ANOVA nos informa sobre si existe o no relación significativa entre las variables. El
estadístico F permite contrastar la hipótesis nula de que el valor poblacional de R es cero, lo cual, en el
modelo de regresión simple, equivale a contrastar la hipótesis de que la pendiente de la recta de regresión
vale cero. El nivel crítico (Sig.) indica que, si suponemos que el valor poblacional de R es cero, es
improbable (probabilidad=0.000) que R, en esta muestra, tome el valor 0.967. Lo cual implica que R es
mayor que cero y que, en consecuencia, ambas variables están linealmente relacionadas.
Coeficientesa
Modelo Coeficientes no Coeficientes
estandarizados tipificados
B Error típ. Beta t Sig.
1 (Constante) 85,578 ,732 116,957 ,000
cigarrillos -1,561 ,041 -,967 -37,752 ,000
a. Variable dependiente: tiempo de vida
La tabla “Coeficientes” muestra los coeficientes de la recta de regresión. La columna etiquetada coeficientes
no estandarizados contiene los coeficientes de regresión parcial que definen la ecuación de regresión en
puntuaciones directas.
El coeficiente correspondiente a la Constante es el origen de la recta de regresión (lo que se llama bo). Y el
coeficiente correspondiente a Cigarrillos es la pendiente de la recta de regresión (lo que se llama b1).
b1 indica el cambio medio que corresponde a la variable dependiente (tiempodevida) por cada unidad de
cambio de la variable independiente (cigarrillos). Según esto, la ecuación de regresión queda de la siguiente
manera:
PronósticoenTiempodevida85.5781.561*Cigarrillos
A cada valor de cigarrillos le corresponde un pronóstico en tiempo de vida.
Finalmente, a partir de los resultados de la tabla, podemos llegar a las siguientes conclusiones:
1. El origen poblacional de la recta de regresión (a0) es significativamente distinto de cero (generalmente,
contrastar la hipótesis “ao=0” carece de utilidad, pues no contiene información sobre la relación entre
Xi e Yi).

2. La pendiente poblacional de la recta de regresión (el coeficiente de regresión a 1 correspondiente a
cigarrillos) es significativamente distinta de cero, lo cual nos permite concluir que entre cigarrillos y
tiempo de vida existe relación lineal significativa.
5.3 ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE
Ejemplo:
Para el mismo archivo reg.sav que está en uso.
1º. Seleccionar la opción regresión > Lineales del menú Analizar para acceder al cuadro
de diálogo regresión Lineal como se muestra:
2º. Seleccionar la variable tiempodevida en la lista de variables del archivo de datos y
trasladarla al cuadro Dependiente.
3º. Seleccionar las variables cigarrillos, licerveza, café y antiácido y trasladarlas a la lista
Independientes, tal como se observa:

4º. Con estas especificaciones mínimas, al pulsar el botón Aceptar, el visor ofrece la
información que muestran las siguientes tablas:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/NOORIGIN
/METHOD=ENTER cigarrillos licerveza Café Antiacido.
Regresión

Notas
Resultados creados 01-sep-2019 22:40:37
Comentarios
Entrada Datos I:\2019-2\Estadistica
General\Archivos-SPSS\reg.sav
Conjunto de datos activo Conjunto_de_datos1
Filtro <ninguno>
Peso <ninguno>
Núm. de filas del archivo 100
de trabajo
Tratamiento de los datos Definición de perdidos Los valores perdidos definidos por
perdidos el usuario se tratarán como
perdidos.
Casos utilizados Los estadísticos se basan en los
casos sin valores perdidos para
ninguna variable de las utilizadas.
Sintaxis REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R
ANOVA
/NOORIGIN
/METHOD=ENTER cigarrillos
licerveza Café Antiacido.
Recursos Tiempo de procesador 00:00:00,031

Memoria necesaria 3572 bytes
Memoria adicional 0 bytes
requerida para los
diagramas de residuos
[Conjunto_de_datos1] I:\2019-2\Estadistica General\Archivos-SPSS\reg.sav

Variables introducidas/eliminadasb
Modelo Variables Variables
introducidas eliminadas Método
d1 Consumo de . Introducir
i antiácidos,
m Consumo de
e Café,
n cigarrillos,
s Litros de
i cerveza
o mensuala
n
0
a. Todas las variables solicitadas introducidas.
Resumen del modelo

d1 ,974a ,948 ,946 3,478
i
m
e
n
s
i
o
n
0
a. Variables predictoras: (Constante), Consumo de antiácidos,
Consumo de Café, cigarrillos, Litros de cerveza mensual
ANOVAb
Modelo Suma de Media
cuadrados gl cuadrática F Sig.
1 Regresión 20886,776 4 5221,694 431,664 ,000a
Residual 1149,184 95 12,097
Total 22035,960 99
a. Variables predictoras: (Constante), Consumo de antiácidos, Consumo de Café,
cigarrillos, Litros de cerveza mensual

Coeficientes de Regresión parciala
Modelo Coeficientes no Coeficientes
estandarizados tipificados
B Error típ. Beta
1 (Constante) 85,897 1,077
Cigarrillos -1,243 ,081 -,771
Litros de cerveza -,349 ,079 -,222
mensual
Consumo de Café -,236 ,135 -,041
Consumo de antiácidos ,043 ,127 ,008
Coeficientesa
Modelo t Sig.
1 (Constante) 79,775 ,000
Cigarrillos -15,432 ,000
Litros de cerveza -4,430 ,000
mensual
Consumo de Café -1,750 ,083
Consumo de antiácidos ,339 ,736
Interpretación de los resultados:
1º. Las tres variables independientes incluidas en el análisis explican un 94.6% de la varianza de la variable
dependiente, pues R2 corregida=0.946. Además el error típico de los residuos (3.478 en el análisis de
regresión simple) ha disminuido algo (3.804 en el análisis de regresión múltiple), lo que indica una
pequeña mejora en el ajuste. De nuevo, el valor corregido R2 es casi idéntico al valor no corregido.
2º. El estadístico F (de la tabla ANOVA) contrasta la hipótesis nula de que todos los coeficientes de regresión
parciales son nulos, por tanto, nos permite decidir si existe relación lineal significativa entre la variable
dependiente y el conjunto de variables independientes tomadas juntas. El valor crítico Sig.= 0.000 indica
que sí existe relación lineal significativa. Podemos afirmar, por tanto, que al menos una de las variables
independientes explica de manera significativa el tiempo de vida.
3º. La tabla de coeficientes de regresión parcial contiene toda la información necesaria para construir la
ecuación de regresión mínimo-cuadrática.
4º. El coeficiente correspondiente a la variable cerveza que vale -0.349, indica que, si el resto de variables
se mantienen constantes, a un aumento de un litro en el consumo mensual de cerveza le corresponde,
en promedio, una disminución de 0.349 años en el tiempo de vida.
5º. Observando el nivel crítico asociado a cada prueba t (tabla coeficientes de regresión parcial), vemos que
las dos primeras variables utilizadas cigarrillos y cerveza poseen coeficientes significativamente distintos

de cero (Sig.=0,000), por tanto, contribuyen de forma significativa a explicar lo que ocurre con la variable
dependiente; mientras que los valores sig correspondientes a las variables café y antiácido son mayores
de 0.05, por lo que no explican de manera significativa el tiempo de vida, por lo que deben de ser
excluidas del modelo.
6º. Estimamos nuevamente el modelo de regresión lineal múltiple, tomando solamente en cuenta las
variables independientes café y antiácido arrojando los siguientes resultados:
Resumen del modelo

d1 ,088a ,008 -,013 15,013
i
m
e
n
s
i
o
n
0
a. Variables predictoras: (Constante), Consumo de antiácidos,
Consumo de Café
Práctica Grupal.
Set de Problemas
Examen Final

CAPÍTULO VI: MATERIAL DE REFERENCIA
6.1 BIBLIOGRAFIA:
1. BEJARANO, Estadística descriptiva, Probabilidades y Lineamientos para la Elaboración del

Protocolo de Investigaciones en Ciencias de la salud y Conducta.UPCH.Ed. Litografía Artística S.A,
1998. Perú .
2. CALZADA BENZA, Estadística, 1995. Universidad Nacional Agraria. Perú
3. CAMEL Payed. Estadística Médica y de Salud Pública. Ed. Universidad de Los Andes, 1969. México.
4. CELESTINO ORÉ, 2000. Estadística. Universidad Nacional de Ingeniería, 2000, Perú
5. DANIEL , BIOESTADISTICA, Edit. Limusa, 2014.
6. MINISTERIO DE SALUD. Lineamientos de Política Poblacional. Ed. MINSA, 2000. Perú
7. MURRIA SPIEGEL, Teoría y problemas de Bioestadística. Ed. El Ateneo, 1970. España
8. ONU. Estudios sobre Población. Publicación Nº 10.ONU
9. RUFINO MOYA CALDERON/ GREGORIO SARAVIA A. Probabilidades e Inferencia Estadística, Edit. San
Marcos, 2004. Perú.
10. RUFINO MOYA CALDERON, Estadística Descriptiva (Conceptos y Aplicaciones), Editorial San Marcos, 2005.
11. NEL QUEZADA LUCIO, Estadística con SPSS 22, Editorial Macro, 2014, Perú.
12. GUILLERMO GAMARRA A./ TITO A. RIVERA E./FRANCISCO J. WONG C./OSCAR E. PUJAY C.,
Estadística e Investigación con Aplicaciones de SPSS, Editorial San Marcos, 2015, Perú.
10.
6.2 LINKOGRAFIA:
1. http://www.dm.uba.ar/materias/estadistica_Q/2011/1/modulo%20descriptiva.pdf
2. http://www.universoformulas.com/estadistica/descriptiva/

Contenido
Capítulo I: CONCEPTOS BÁSICOS ................................................................................................................ 5
1.1 INTRODUCCIÓN ..................................................................................................................................... 5
1.2 DEFINICIÓN DE ESTADÍSTICA ....................................................................................................... 5
1.3 DIVISIÓN DE LA ESTADÍSTICA....................................................................................................... 6
a) Estadística Descriptiva ............................................................................................................ 6
b) Estadística Inferencial .............................................................................................................. 6
1.4 APLICACIONES DE LA ESTADÍSTICA ........................................................................................... 6
1.5 POBLACIÓN Y MUESTRA ............................................................................................................... 7
1.6 TIPOS DE DATOS O VARIABLES ......................................................................................................... 7
DATOS CATEGÓRICOS O CUALITATIVOS ..................................................................................... 8
1.6.1. Variable Cualitativa ........................................................................................................... 9
1.6.2 Variable Cuantitativa ..............................................................................................................10
1.7 CÁLCULO DEL TAMAÑO DE LA MUESTRA(n) ........................................................................... 11
EJEMPLOS ILUSTRATIVOS ............................................................................................................12
PRÁCTICA GRUPAL N° 01 .............................................................................................................14
1.8 TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS .............................................................................. 15
a) PARA VARIABLES CUALITATIVAS O CUANTITATIVAS DISCRETAS ..............................15
b) PARA VARIABLES CUANTITATIVAS CONTINUAS .............................................................15
SET DE PROBLEMAS N° 01: ..........................................................................................................18
1.9 DIAGRAMA DE TALLO Y HOJAS ......................................................................................................... 18
1.9.1. Ventajas y desventajas de los Diagramas de Tallo y Hojas .............................................20
PRÁCTICA GRUPAL N° 02: ...........................................................................................................20
1.10 CUADROS ESTADÍSTICOS ............................................................................................................... 21
a) Partes de un cuadro estadístico ...........................................................................................21
b) Elaboración de un cuadro estadístico ..................................................................................22
c) Errores en la presentación de cuadros ................................................................................23
d) Pasos a seguir al leer un cuadro estadístico .......................................................................23
Práctica grupal N° 03:................................................................................................................................ 23
Set de problemas N° 03 ............................................................................................................................. 23
1.11 REPRESENTACIÓN GRÁFICA .......................................................................................................... 23
a) Definición .................................................................................................................................23
b) Ventajas y Desventajas del Gráfico ......................................................................................23
c) Partes de un gráfico ...............................................................................................................23
d) Tipos de Gráficos ...................................................................................................................23
d.1). Gráfico de barras ....................................................................................................................24
d.2) Gráficos de sectores o pastel .................................................................................................26
d.3) Histograma de frecuencias .....................................................................................................27
Práctica Grupal. N° 04 ......................................................................................................................31
Set de Problemas N° 04 ....................................................................................................................31
Práctica Calificada .............................................................................................................................31
Examen Parcial .................................................................................................................................31

Capítulo II: ESTADIGRAFOS DE POSICION ................................................................................................ 33
2.1. LA MEDIA ARITMÉTICA ................................................................................................................. 33
Para datos sin tabular .....................................................................................................................33
Para datos tabulados ......................................................................................................................34
Ventajas y Desventajas de la Media Aritmética ...........................................................................35
2.2. LA MEDIA ARITMÉTICA PONDERADA ........................................................................................ 36
2.3. LA MEDIA GEOMETRICA .............................................................................................................. 38
a) Para Datos No Agrupados .....................................................................................................38
b) Para datos tabulados .............................................................................................................39
c) Desventajas de la media geométrica ....................................................................................40
d) Aplicaciones de la media geométrica ...................................................................................40
2.4. LA MEDIA ARMÓNICA ................................................................................................................... 40
a) Definición .................................................................................................................................40
b) Para datos no tabulados ........................................................................................................41
2.5 LA MEDIANA ......................................................................................................................................... 41
a) Definición .................................................................................................................................41
b) Para datos sin tabular ............................................................................................................41
b.1) Cuando “n” es impar ...............................................................................................................41
b.2) Cuando “n” es par ...................................................................................................................41
c) Para datos tabulados .............................................................................................................42
c.1). Para datos discretos ...............................................................................................................42
c.2) Para datos continuos ..............................................................................................................42
2.6 LA MODA......................................................................................................................................... 44
Definición .........................................................................................................................................44
b) para datos sin agrupar o tabular ...............................................................................................44
c) para datos agrupados o tabulados ...........................................................................................44
.c.1) Para datos discretos ...............................................................................................................44
c.2) Para datos continuos ...............................................................................................................45
2.7 PROBLEMAS RESUELTOS ................................................................................................................ 47
2.8 SET DE PROBLEMAS .......................................................................................................................... 51
Capítulo III: ESTADIGRAFOS DE DISPERSIÓN .......................................................................................... 54
3.1) Recorrido de la variable( R ) ................................................................................................................ 54
Es la diferencia entre los dos valores extremos, es decir: .......................................................................... 54
3.2°) Recorrido Intercuartílico (RI) ............................................................................................................... 54
3.3°) Desviación media absoluta (DM) ........................................................................................................ 55
a) Para datos no tabulados ............................................................................................................55
b) Para datos tabulados .............................................................................................................55
c) VENTAJAS Y DESVENTAJAS DE LA DESVIACIÓN MEDIA .................................................56
3.4°) Varianza y desviación típica ............................................................................................................... 57
3.4.1. Varianza poblacional ......................................................................................................57
3.4.2. Varianza de una muestra ...............................................................................................57
a) PARA DATOS NO TABULADOS: ...........................................................................................57

b) PARA DATOS TABULADOS: .................................................................................................57
3.5°) Desviación típica o desviación estándar ..................................................................................59
3.6 Coeficiente de variación (CV) ................................................................................................61
3.7 MEDIDAS DE FORMA DE LA DISTRIBUCIÓN ................................................................................... 65
3.7.1. Medidas de Asimetría .....................................................................................................65
a) Coeficiente de Asimetría ............................................................................................................65
3.7.2 Medidas de Apuntamiento o Curtosis ............................................................................................ 66
a) Coeficiente de Pearson (Cas) ................................................................................................66
b) La curtosis (o apuntamiento) ................................................................................................66
Capítulo IV: MANUAL DEL SPSS ................................................................................................................. 69
4.1 INTRODUCCIÓN ....................................................................................................................................... 69
4.2 REQUISITOS......................................................................................................................................... 69
4.3 DEFINICIÓN DE VARIABLES-A ..................................................................................................... 69
4.4 CARGAR EL SOFTWARE ESTADÍSTICO SPSS ................................................................................ 71
4.5 DEFINICIÓN DE VARIABLES-B ...............................................................................................72
4.6 INGRESO DE DATOS ..............................................................................................................77
4.7 PROCESAMIENTO DE DATOS ..............................................................................................79
4.8 CREACIÓN DEL INFORME O REPORTE CON LOS RESULTADOS ...................................83
Capítulo V: TEMAS ESPECIALES ................................................................................................................ 97
5.1 ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL ..................................................................... 97
5.2 Correlación Lineal .................................................................................................................................. 98
a) Coeficiente de Correlación ó Índice de Correlación Lineal de Pearson ...........................98
b) Coeficiente de Determinación: r2 ..........................................................................................99
5.2 ANÁLISIS DE REGRESIÓN LINEAL SIMPLE ...................................................................................... 99
5.3 ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE .............................................................................. 105
CAPÍTULO VI: MATERIAL DE REFERENCIA............................................................................................. 111
6.1 BIBLIOGRAFIA: ................................................................................................................................... 111
6.2 LINKOGRAFIA: ............................................................................................................................. 111

Estadistica Con Spss

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Con Spss

Cargado por

Copyright:

Formatos disponibles

INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO

“ANTENOR ORREGO ESPINOZA”

Estadística con SPSS Pag. N° 1 IESTPAOE

Es una marca registrada.

Estadística con SPSS Pag. N° 2 IESTPAOE

Estadística con SPSS Pag. N° 3 IESTPAOE

Ing. ALEJANDRO CALLAÑAUPA SULCA

Estadística con SPSS Pag. N° 4 IESTPAOE

Estadística con SPSS Pag. N° 5 IESTPAOE

Estadística con SPSS Pag. N° 6 IESTPAOE

2 M J2 28 120 ⇐ REGISTRO o CASO

Estadística con SPSS Pag. N° 8 IESTPAOE

Estadística con SPSS Pag. N° 9 IESTPAOE

1.6.2 Variable Cuantitativa

1.7 CÁLCULO DEL TAMAÑO DE LA MUESTRA(n)

Estadística con SPSS Pag. N° 11 IESTPAOE

Estadística con SPSS Pag. N° 12 IESTPAOE

Estadística con SPSS Pag. N° 13 IESTPAOE

Estadística con SPSS Pag. N° 14 IESTPAOE

a) PARA VARIABLES CUALITATIVAS O CUANTITATIVAS DISCRETAS

Para la construcción de la tabla de frecuencias, se deben seguir los siguientes pasos:

2°) Número de clases (m)

3°) Ancho de clase (C)

5°) Determinar los límites reales de clase

6°) Cálculo de las frecuencias absolutas

b) La Frecuencia Absoluta Acumulada (Fi) es la suma de las frecuencias absolutas de

b) Cálculo de la Frecuencia Relativa Acumulada (Hi)

de un valor Xi es la proporción de valores iguales o menores a Xi en el conjunto de datos

También se calcula así:

Estadística con SPSS Pag. N° 17 IESTPAOE

fi = Frecuencia absoluta de un valor Xi, es el número de veces que el valor está en el

Construya la tabla de distribución de frecuencias.

1.9 DIAGRAMA DE TALLO Y HOJAS

Un procedimiento semi-gráfico (tabular y gráfico) de presentar la información para

Estadística con SPSS Pag. N° 18 IESTPAOE

Tabla N° 01: Diagrama de Tallo y Hojas de la longitud de los camarones

1.9.1. Ventajas y desventajas de los Diagramas de Tallo y Hojas

PRÁCTICA GRUPAL N° 02:

Estadística con SPSS Pag. N° 20 IESTPAOE

1.10 CUADROS ESTADÍSTICOS

Un cuadro estadístico es un arreglo ordenado, de filas y columnas de los datos o

a) Partes de un cuadro estadístico

1. Número.- Es el código de identificación del cuadro. Este número se escribe a

2. Título.- Es la indicación que preside a la tabla y es colocada en la parte superior de

a. Ser completo: Un título completo debe indicar claramente cuál es el contenido

EJEMPLO: En el cuadro 1.1, indicar si su título es completo.

Estadística con SPSS Pag. N° 21 IESTPAOE

SOLTERA 1760 1335 425 660 481 473 147

Estadística con SPSS Pag. N° 22 IESTPAOE

1.11 REPRESENTACIÓN GRÁFICA

Estadística con SPSS Pag. N° 23 IESTPAOE

d.1). Gráfico de barras

a) Construir el gráfico de barras sencillas, para el año 1980.

Estadística con SPSS Pag. N° 24 IESTPAOE

b) Construir el gráfico de barras dobles para los años 1979 y 1980.

Matrícula en el Sistema de la Educación Peruana según Niveles y

c) Construir el gráfico de barras múltiples.

Estadística con SPSS Pag. N° 25 IESTPAOE

d.2) Gráficos de sectores o pastel

Niveles y Modalidades Año 1980

Estadística con SPSS Pag. N° 26 IESTPAOE

Educación Inicial Educación Básica Regular Educación Secundaria

d.3) Histograma de frecuencias

Estadística con SPSS Pag. N° 27 IESTPAOE