Separata de Estadistica - Untrm 2014

Universidad Toribio Rodríguez de Mendoza de
Amazonas
MÓDULO DE ESTADÍSTICA
DESCRIPTIVA E INFERENCIAL
Docente de la asignatura
Ing. Jhon Aguilar Castillo
Universidad Nacional Toribio Rodríguez “Módulo de Estadística Descriptiva e Inferencial”
de Mendoza de Amazonas _________________________________________________________________
RECOMENDACIONES
Las siguientes recomendaciones son útiles para tener éxito en esta asignatura:
1. Para aprovechar esta asignatura al máximo, es necesario que se comprometa con usted mismo y con la
asignatura. Es necesario que le inviertas tiempo, energía y esfuerzo creativo. Debes pensar y actuar como un
científico, ingeniero o maestro que se preparan para ejercer en el mundo real.
2. Tu participación en clase y las preguntas que hagas te ayudarán a entenderte a ti mismo, a que la docente
pueda identificar áreas donde necesitas ayuda y tus áreas de fortalezas. El uso de la razón al analizar las
diversas situaciones permitirá entender mejor el material de la asignatura. No se trata de aplicar una fórmula
para obtener una contestación numérica. Es necesario cuestionarlo y justificarlo todo, inclusive a ti mismo.
3. La asignatura se enseñará en una forma constructivista, por lo cual debe de participar activamente en la
construcción, derivación y explicación concreta de los conceptos. Es conveniente que recrees las
construcciones hechas previamente en clase.
4. Se realizarán ejercicios y prácticas de la asignatura, las cuales formarán parte de su formación, los temas de
cada capítulo lo complementará con sus aportaciones, ya sean teóricas o ejercicios y problemas.
5. Al analizar el material, no deberá de mirar y memorizar las fórmulas, sino que deberá de explicarlas y
aplicarlas. Será de gran ayuda reproducir el proceso llevado a cabo en el aula de clases, prestando atención al
significado de los conceptos y al por qué de las derivaciones.
El docente de la asignatura
______________________________________________________________________________________________
Estadística Descriptiva e Inferencial Ing. Jhon Aguilar Castillo
Capítulo 1
ASPECTOS BÁ SICOS DE LA ESTADÍSTICA Y

DISTRIBUCIÓ N DE FRECUENCIAS.
1.1. ESTADÍSTICA
Es la ciencia que tiene por objeto el estudio de datos, brindando métodos y/o técnicas para recopilar,
organizar, presentar, analizar e interpretar datos, con la finalidad de obtener conclusiones y deducir leyes
que lo rigen. Así como la buena toma de decisiones frente a casos de incertidumbre.
La estadística se encarga a su vez de reunir, organizar, presentar y analizar datos numéricos, así como
ayudar a diseñar experimentos, mismos que tienen como intención primordial la generación de
predicciones sobre un comportamiento de una determinada población.
1.2 IMPORTANCIA
______________________________________________________________________________________________
Sirve como herramienta de investigación objetiva, porque a través de un conjunto de datos, permite
tomar decisiones adecuadas y oportunas.
La Estadística estudia el comportamiento de los fenómenos de masas, por tanto, el objetivo de la

estadística es hallar las regularidades que se encuentran en los fenómenos de masa. Sirve como
herramienta de investigación objetiva, porque a través de un conjunto de datos, permite tomar
decisiones adecuadas y oportunas. El trabajo estadístico es un proceso que pasa generalmente por las
siguientes etapas:
• Formulación del Problema
• Diseño del Experimento
• Recopilación de Datos
• Clasificación, tabulación y descripción de datos.
• Generalización o Inferencia.
1.3 DIVISIÓN
1.3.1 Estadística descriptiva: Es el conjunto de métodos que implican la recolección, presentación y

caracterización de un conjunto de datos a fin de describir en forma apropiada las diversas
características de esta.
1.3.2 Estadística inferencial: Es el conjunto de métodos o técnicas que posibilitan la generalización o
toma de las decisiones en base a una formación parcial obtenida mediante técnica descriptiva.
1.4 DEFINICIÓN DE TÉRMINOS

1.4.1 Población: Es una colección de elementos (personas, animales, objetos, instituciones, etc.) que
poseen por lo menos una característica en común.
Ejemplo: En un estudio sobre el rendimiento académico de los estudiantes matriculados en el
semestre 2014-II, de la Facultad de Ciencias de la Salud de la Universidad Nacional de
Amazonas. La población en estudio está conformada por los estudiantes matriculados en el
semestre 2014-II, de la Facultad de Ciencias de Salud de la Universidad Nacional de Amazonas.
La Población según el número de elementos que la componen se clasifica en:
a. Población Finita: Una población finita es aquella que tiene un número limitado de elementos
y el tamaño simboliza por “N”. Por ejemplo: Las edades de los estudiantes que actualmente
estudian en la UNTRM.
b. Población Infinita: Una población infinita es aquella que no tiene límite o cuota. Por
ejemplo: la población de personas infectadas con VIH.
1.4.2 Muestra: Es un subconjunto que seleccionamos de la población, es decir, es una parte o

pequeña porción representativa y adecuada de la población. Representativa en el sentido de
______________________________________________________________________________________________
reflejar fielmente las características de la población de la cual procede y difiere de ella sólo en
el tamaño. Adecuada, quiere decir que debe incluir un número óptimo y mínimo de elementos
de la población. Este número óptimo se determina mediante el empleo de las fórmulas del
muestreo, existiendo muchos métodos para elegir una buena muestra, entre ellos: el muestreo
probabilístico y el muestreo no probabilístico, siendo el más recomendable el muestreo aleatorio
o probabilístico. El tamaño de una muestra se simboliza mediante “n”.
1.4.3 Unidad de análisis: Es todo elemento indivisible que conforma la población, pudiendo ser: una
persona, un aula, una fábrica, una empresa, una familia, un empleado, una institución, etc.
1.4.4 Parámetro: Es una medida que resume una característica de la población, tal como:
• La Media Poblacional = 
• Desviación Estándar Poblacional = 
• Varianza Poblacional = 2
• Proporción Poblacional = P
1.4.5 Estadígrafo: Es una medida que resume una característica de la muestra, tal como:
• La media aritmética =
• Desviación estándar de una muestra = S
• Varianza de una muestra = S2
• Proporción de una muestra = p
1.4.6 Dato: Es la respuesta que adquiere la característica en estudio en cada unidad de análisis.
Ejemplo:
Ejemplo: Se preguntó al empelado de una fábrica acerca de las siguientes características:
Características Respuesta Naturaleza

Edad 23 Cuantitativa
Peso (Kg) 67.0 Cuantitativa
Número de hijos 2 Cuantitativa
Estado civil soltero Cualitativa
______________________________________________________________________________________________
LA INVESTIGACIÓN Y LA ESTADÍSTICA
En el proceso de investigación primero se debe definir la población o elemento de estudio, luego identificar
las variables en estudio, recolectar los datos, describir los datos, para luego procesarlos estadísticamente e
interpretar los resultados encontrados.
ETAPAS DE LA INVESTIGACIÓN ESTADÍSTICA

La investigación estadística por su naturaleza se preocupa de la confiabilidad, validez y significación de los
datos, de las muestras, así como de los métodos y técnicas de recolección y análisis estadístico.
1. Planeamiento o preparación, comprende la fundamentación del estudio, la identificación y
organización de variables, determinación de los objetivos, identificación y evaluación de fuentes de
información, determinación del ámbito de la investigación (población, unidad de análisis), preparación
del plan para la ejecución de la investigación (métodos, técnicas e instrumentos, selección de muestra,
elaboración de cuestionarios, preparar plan de tabulaciones y de los cuadros de análisis).
2. Recopilación de los datos, se realiza con el propósito de obtener los datos o respuestas a las
variables en estudio. Existen diversos métodos de recolección, dependiendo del tipo y naturaleza de la
fuente de datos, además se debe tener en cuenta de las posibilidades de acceso con las unidades
investigadas, del tamaño de la población o muestra, del presupuesto y del tiempo.
DEPURACIÓN DE DATOS, previamente a la siguiente etapa es indispensable realizar una
evaluación crítica, corrección y ajuste de los datos, con el propósito de superar omisiones,
inconsistencias, desechar respuestas no significativas, erróneas. Se debe tener presente que la validez
de los resultados y conclusiones dependen de la validez de los datos que a su vez constituyen la
materia prima del procesamiento estadístico.
3. Organización y presentación de datos, comprende la organización, clasificación y tabulación de
los datos recopilados, de modo que se facilite la presentación en tablas, cuadros o gráficos. Los
cuadros y tablas estadísticas facilitaran el cálculo de los indicadores (porcentajes, promedios,
proporciones, índices, tasas, etc).
4. Análisis e interpretación de los datos, comprende los métodos estadísticos, se calcula indicadores y
medidas de resumen, se establecen relaciones entre las variables, se estiman valores, se ejecutan
pruebas estadísticas, etc., como elementos de referencia para la descripción, análisis e interpretación
del comportamiento de los datos, hacer inferencias válidas, obteniendo información de los elementos o
unidades estudiadas.
Los métodos de análisis estadístico son numerosos y depende del tipo de investigación que se realiza.
La interpretación de los datos y resultados se hacen en el contexto de los objetivos de investigación.
5. Formulación de conclusiones y preparación del informe, comprende la formulación de
conclusiones en base a los objetivos planteados y a los resultados encontrados
______________________________________________________________________________________________
OPERACIONALIZACIÓN DEL TRABAJO ESTADÍSTICO
INFORME
INTERPRETACIÓN
ANÁLISIS
RESULTADOS – CONCLUSIONES – RECOMENDACIONES
DESCRPCIÓN
Concepto Clasificación
Modelos
Categorías Crítica
FENÓMENO Pruebas
HECHO Identificación Codificación
PROBLEMA Métodos
VARIABLES DATOS
Procesamiento INFORMACIÓN
Técnicas INDICADORES
Objetivos
Hipótesis
Observación Tablas
Proporciones
RECOPILACIÓN Entrevista Cuadros
DE DATOS Porcentajes
POBLACIÓN MUESTRA Cuestionario Gráficas Tasas
Ubicación Unidades
Tamaño de
Encuestas por muestreo
Tiempo análisis Índices
Análisis de contenido
Estadígrafos
Coeficientes
VARIABLE
El proceso de investigación científica relaciona conceptos y variables, los conceptos son abstracciones que
representan fenómenos empíricos y para pasa de la etapa conceptual de la investigación a la etapa empírica, los
conceptos se convierten en variables.
DEFINICIONES
- Característica con capacidad de asumir distintos valores, ya sea cualitativa o cuantitativamente.
- Característica observable, susceptible de adoptar distintos valores o ser expresados en varias categorías.
- Cualquier característica del objeto de investigación que puede cambiar de valor y expresarse en diferentes
categorías. En todo proyecto de investigación se trabaja con variables.
- Es una característica de la población que se va investigar y que pueden tomar dos o más valores (que
pueden ser cualidades o números) y es susceptible de ser medida y evaluada.
- La variable es una característica, cualidad o medida que puede sufrir cambios y que es objeto de análisis,
medición o control en una investigación
Las variables adquieren valor para la investigación científica cuando pueden ser relacionadas con otras, es decir
forman parte de una hipótesis o una teoría.
¿Dónde se identifica la variable?: El atributo, característica a estudiar en un sujeto u objeto se identifica:
Las variables se definen e identifican en función del problema y de los objetivos en estudio y todas tienen una
escala de registro.
¿Dónde definimos a las variables?
¿Dónde observamos o medimos a las variables?
Las variables deben ser definidas en dos formas: conceptual y operacionalmente.
Ejemplo 1:
Se quiere realizar un estudio de las características socioeconómicas de los trabajadores del minimercado MERPISA
en el año 2012, con el objetivo de conocer las principales características socioeconómicas de los trabajadores.
 MUESTRA: Trabajadores del minimercado (n=32)
 UNIDAD DE ANÁLISIS: Un trabajador de MERPISA
 VARIABLES:
Sexo: a. Varón b. Mujer

Edad: a. 20 – 29 b. 30 – 39 c. 40 – 49 d. 50 – 59
Estado civil: a. Soltero b. Casado c. Viudo d. Divorciado
Nivel educativo: a. Primaria b. Secundaria c. Superior
Número de hijos: a. 0 b. 1 c. 2 d. 3 e. 4 f. Más de 4
Tenencia de vivienda: a. Propia b. Alquilada c. Otra
Tiempo de servicios (meses):
a. Menos de 6 b. De 6 a menos de 12 c. De 12 a menos de 18 d. Más de 18
Ejemplo 2:
Se quiere realizar un estudio de la percepción de calidad de servicios de telefonía que brinda la empresa
TELEFÓNICA en la ciudad de Lima en el año 2010, con el objetivo de conocer cómo perciben los usuarios la
calidad de los servicios de telefonía que brinda la empresa TELEFÓNICA.
 MUESTRA: Usuarios de TELEFONICA en la ciudad de Lima

 UNIDAD DE ANÁLISIS: Usuario de TELEFONICA
 VARIABLES:
Sexo: a. Varón b. Mujer
Edad: a. 18 – 25 b. 26 – 35 c. 36 – 39 d. 40 – 49 e. 50 a más
Estado civil: a. Soltero b. Casado c. Viudo d. Divorciado
Nivel educativo:
a. Primaria b. Secundaria c. Superior no universitario d. Superior universitario
Tiempo de cliente de TELEFÓNICA (años):

a. Menos de 1 b. De 1 a menos de 5 c. De 5 a menos de 10 d. Más de 10
Opinión acerca de los costos de telefonía

a. Bajos b. Normales c. Altos d. Excesivamente altos
Opinión del servicio de telefonía de la empresa TELEFÓNICA

a. Excelente b. Bueno c. Regular d. Malo e. Muy malo
ACTIVIDAD
Plantee un tema de investigación (título y objetivos), determine la muestra, la unidad de análisis y las variables en
estudio.
ELEMENTOS DE UNA VARIABLE

La identificación y definición de variables es la tarea más delicada en toda investigación y del trabajo estadístico,
por eso se recomienda distinguir 5 elementos:
a. Nombre o denominación de la variable
b. Definición o conceptualización de la variables
c. Definición de las categorías de las variables (pueden ser 2 o más y dependen de los objetivos de la
investigación)
d. Procedimientos para obtener el dato, categorizar o agrupar las unidades de análisis
e. Determinar qué medidas de resumen o indicadores.
2
Ejemplo 1:
Nombre de la variable: Estado civil (cualitativa)
Definición: Situación de la persona mayor de 12 años de acuerdo a las leyes y costumbres del país.
Categorías:
1. Soltero 1. Soltero
2. Casado o 2. No soltero
3. Viudo
4. Divorciado
Obtención y categorización:
¿Cuál es su estado civil?
Indicadores:
- Distribución porcentual
- Tasa de nupcialidad (indica la frecuencia de matrimonios)
Ejemplo 2:
Nombre de la variable: Ingreso económico (cuantitativa)
Definición: Son los recursos monetarios netos, incluyendo todas las bonificaciones que percibe una persona por su
ocupación principal y secundaria durante el período de referencia de la encuesta.
Categorías: (puede ser en forma de niveles o de intervalos)
1. Alto 1. Menos de S/. 400
2. Medio o 2. De S/ 400 a S/. 800
3. Bajo 3. De S/. 801 a S/. 1 000
4. Más de S/ 1 000
¿Cuál fue su ingreso económico total en el último mes?
Indicadores:
- Ingreso promedio, ingreso mediano
- Dispersión de los ingresos, índice de Gini, etc.
Ejemplo 3: Tendencia de la tasa de analfabetismo de la población mayor de 15 años. 1980 - 2005

Nombre de la variable: Tasa de analfabetismo
Definición: Sirve para estimar el porcentaje de personas mayor de 15 años que no saben leer ni escribir.
Categorías: (puede ser en forma de niveles o de intervalos)
1. Bajo (menos del 10%)
2. Medio (de 10 a 20%)
3. Alto (de 21 a 30%)
4. Muy alto (más de 30%)
¿Sabe leer y escribir?
Indicadores:
- Tasa de analfabetos por años
- Tasa de analfabetos varones y mujeres
- Tasa de analfabetos por área urbano – rural, etc.
3
CLASIFICACIÓN DE VARIABLES:
CLASIFICACIÓN DE VARIABLES
VARIABLE CUALITATIVA Ó CATEGÓRICA
Es aquella característica cuyas respuestas son cualidades o atributos que sólo
pueden clasificarse. Por ejemplo: sexo, estado civil, lugar de procedencia, calidad
de un producto, presencia de niveles de plomo, etc.
DISCRETA
Es aquella que resulta de la
operación de contar y se le puede
asociar un número entero positivo,
es decir, aquellas que por su
VARIABLE CUANTITATIVA naturaleza no admiten un
SEGÚN SU Son aquellas que se expresan numéricamente, fraccionamiento de la unidad, por
NATURALEZA es decir por una cantidad como por ejemplo ejemplo número de hermanos,
el peso, altura, edad, número de hermanos, número de carpetas por aula,
etc. número de trabajadores de una
A su vez este tipo de variable se puede empresa, etc.
dividir en dos subclases: CONTINUA
Es aquella que resulta de la
operación de medir y se le puede
asociar un número dentro de un
intervalo, por ejemplo peso, tiempo,
temperatura, presión atmosférica,
velocidad, peso (kg), etc.
INDEPENDIENTE: Es aquella que no
depende de ninguna otra variable, y cuya
influencia sobre otra variable (dependiente)
se pretende descubrir. Indica el antecedente o
causa. Ejemplo: Gasto familiar, ingreso
DEPENDIENTE: Es aquella que se ve económico, conducta de consumo.
SEGÚN LA
influenciada u afectada por el Variable independiente: ingreso
RELACIÓN
comportamiento de otra(s) variable(s).Indica económico
ENTRE ELLAS
el efecto, resultado o consecuencia. Variable dependiente: gasto
INTERVINIENTE Ó INTERFERENTE: familiar
Es aquella que coparticipa en el Variable interviniente: conducta de
comportamiento de la variable independiente, consumo.
condicionando el comportamiento de la
variable dependiente.
TEÓRICAS: Son aquellas que necesitan
definirse operacionalmente, debido a que sus
características o cualidades no son fácilmente
observables ni medibles. Ejemplo:
rendimiento académico, hábitos de consumo, Ejemplo:
calidad de un producto, etc. Variable teórica: Rendimiento
POR SU
INTERMEDIAS: Son aquellas que académico
GENERALIDAD O
especifican a la variable teórica con la Variable intermedia: calificaciones
NIVEL DE
finalidad de poder observarlas y medirlas. (notas) con sus categorías alta,
ABSTRACCIÓN
EMPÍRICAS: Son aquellas que no necesitan media, baja
definirse operacionalmente (transformar la Variable empírica: alta (16 a 20),
variable teórica) porque sus valores se media(11 a 15) y baja(menos de 11)
identifican inmediatamente y se miden
fácilmente. Ejemplo: calificativos, edad,
peso, etc.
4
MEDICIÓN DE VARIABLES: Las variables se miden para poder diferenciar por comparación un elemento
de otro en las características de la variable, ésta medición se hace mediante escalas o niveles, entre las cuales se
tienen:
Escala de Definición Tipo de Ejemplos

medición variable
Escala Es aquella que establece la distinción de los Variable Sexo, estado civil, lugar de
Nominal elementos en categorías sin implicar orden cualitativa procedencia, etc.
entre ellas.
Escala Es aquella que agrupa a los objetos, Variable Grado de instrucción, orden
Ordinal individuos, en categorías ordenadas, para cualitativa de mérito, nivel socio
establecer relaciones comparativas. económico, etc.
Es una escala ordinal con cuyos valores no

sólo se pueden verificar igualdad, no
igualdad y orden, si no también, se puede Variable
Escala de elegir una unidad de escala y comprobar cuantitativa Temperatura, rendimiento
Intervalo cuántas veces es la diferencia entre dos continúa de académico, coeficiente de
valores es igual a la diferencia entre otros origen inteligencia, tiempo
dos valores de la escala. convencional calendario, etc.
La escala de intervalo tiene un cero
relativo, es decir si el valor de la variable es
cero eso no implica ausencia.
Es una escala de intervalo con cuyos
valores además podemos comprobar
cuántas veces un valor de la escala es igual Variable Edad en años, número de
Escala de a otro valor de la escala. cuantitativa productos defectuosos,
razón La escala de razón tiene un cero absoluto. de origen número de trabajadores de
Es decir si es cero el valor de la variable natural. una compañía, etc.
implica ausencia.
Las variables cuantitativas tienen escalas de intervalo o

razón
Las variables cualitativas, tienen escalas nominales u
ordinales.
VARIABLE
CUALITATIVA CUANTITATIVA
Discreta
Contínua
NOMINAL ORDINAL INTERVALO RAZÓN
5
PRÁCTICA Nº 1
1. Teniendo en cuenta los siguientes enunciados, dentro de los

paréntesis indicar con una P si es una población, y, con una M si es
una muestra.
( ) a. Estudio del rendimiento académico de los alumnos universitarios del Perú en el año 2013.
( ) b. Estudio del 20% de trabajadores de la empresa textil “Penélope”.
( ) c. Estudio de los precios de productos de primera necesidad en 2 mercados de la provincia de
Chachapoyas.
( ) d. 12% de la ganancia total por la venta de gaseosas importadas en el año 2012.
( ) e. Estudio del nivel socioeconómico de las familias del asentamiento humano Pedro Castro en
Marzo del 2013.
( ) f. Estudio de la oferta laboral del 75% de alumnos egresados de los institutos superiores de la
ciudad de Lima.
2. Identifique la unidad de análisis en los siguientes enunciados:
a. Nivel socioeconómico de los trabajadores de la industria pesquera en el Perú en el año 2010.
______________________________
b. Condiciones de vida de los pobladores del distrito de Chachapoyas.
______________________________
c. Nivel académico de los alumnos de la Universidad San Marcos matriculados en el semestre 2014-I.
______________________________
d. Crecimiento poblacional de los habitantes de la provincia de Rodríguez de Mendoza.
______________________________
e. Ventas de las empresas agroindustriales del Perú.
______________________________
3. Teniendo en cuenta los siguientes enunciados, dentro de los paréntesis coloque una V para
referirse a variable y C a constante.
( ) a. Lugar de procedencia de los estudiantes de la UNI
( ) b. Sexo de las alumnas de la I.E. Virgen Asunta de Chachapoyas
( ) c. Edad de los empleados de la fábrica Nestlé
4. De los siguientes enunciados clasifique las variables según su naturaleza:

 Grado de instrucción ______________________________
 Marca de neumáticos ______________________________
 Lugar de residencia ______________________________
 Número de accidentes laborales ______________________________
 Ingreso económico ______________________________
 Edad de los empleados de una fábrica ______________________________
 Temperatura ambiental ______________________________
 Número de plantas de café infectadas ______________________________
 Preferencia electoral ______________________________
 Calidad de un producto ______________________________
 Tiempo de vida útil de una artefacto ______________________________
 Caudal máximo (m3/seg) de un río ______________________________
6
PROCESO DE OPERACIONALIZACIÓN DE UNA VARIABLE
DEFINICIONES
- Es un conjunto de operaciones secuenciales para la conversión de una variable en dato.

- Es un indicio, señal o unidad de medida que permite estudiar o cuantificar una variable o sus
dimensiones.
- Es llevar una variable que está en términos abstractos a un nivel operacional, empírico.
Algunas variables no ofrecen mayor dificultad en cuanto a su descripción, definición y medición, otras más
complejas se tienen que descomponer en específicas, que tengan el mismo significado y sean susceptibles de
medición empírica.
- Es un paso importante en el desarrollo de la investigación. Cuando se identifican las variables,
el próximo paso es su operacionalización.
La operacionalización comprende tres tipos de definiciones:

1. Nominal, es el nombre de la variable que le interesa al investigador.
2. Real, consiste en determinar las dimensiones que contienen las variables nominales.
3. Operacional o indicadores, ésta da las base para su medición y la definición de los indicadores que
constituyen los elementos más concretos de una variable y de donde el investigador derivará los ítems o
preguntas para el instrumento con que recolectará la información.
Ejemplos:
Los criterios para evaluar el proceso de operacionalización de una variable (o definición operacional) son la
adecuación al contexto, la confiabilidad y la validez.
La operacionalización de variables, es fundamental porque a través de ella se precisan los aspectos y elementos
que se quieren conocer, cuantificar y registrar con el fin de llegar a conclusiones.
No todas las variables requieren de definición conceptual, en algunas el mismo título las define, en otras el
investigador al tener varias alternativas debe elegir la que proporcione mayor información sobre la variable,
capte mejor la esencia de ella, se adecue a su contexto y sea más precisa.
Ejemplo:
7
PASOS EN EL PROCESO DE OPERACIONALIZACIÓN DE UNA VARIABLE

 Conceptuar la variable, llamada también definición conceptual.
 Establecer las dimensiones de las variables o variables contenidas en la definición conceptual.
 Encontrar los indicadores de esas dimensiones (definición operacional)
 Determinar las escalas de las variables (tipo de medición)
Ejemplo:
Variables Conceptualización Dimensiones Indicador Escala Categorías

Higiene bucal Es la utilización del Si
Realiza Cepillado Nominal
cepillo dental No
Higiene bucal Es la cantidad de
placa bacteriana Intervalo. Se 0-0.6 Buena
adherida a la I.H.O. puede convertir a 0.7-1.8 Regular
superficie de los ordinal 1.9-3 Mala
dientes
Grado de Primaria
escolaridad Años Estudiados Ordinal Secundaria

Superior
Frecuencia de El número de veces 0 No se cepilla
cepillado que realiza un Nº de veces de 1 vez/día

Razón
cepillado dental en un cepillado 2 veces/día
dental
día 3 veces/día
Caries dental Es una enfermedad
infecto-contagiosa
0 lesión
caracterizada por la
Lesión Cariosa Razón 1 lesión
pérdida a favor de la
2 lesiones
desmineralización con
pérdida estructural.
8
CONSTRUCCIÓN DE CUADROS DE DISTRIBUCIÓN DE FRECUENCIAS
1. DEFINICIÓN: Un cuadro estadístico es un arreglo ordenado de filas y columnas de datos ó características

relacionadas, con el objeto de ofrecer información estadística de fácil lectura, comparación e interpretación.
2. PARTES DE UN CUADRO
- Número del cuadro: Es el código de identificación para ubicar el cuadro en un documento. se escribe a
continuación de la palabra “cuadro”.
- Título: En el que destaca el objeto del cuadro (qué, cómo, dónde y cuándo). Su redacción debe ser breve,
clara y completa del contenido del cuadro. Ejemplo: Lugar de procedencia por Departamento de los
estudiantes de la maestría en administración educativa y desarrollo sostenible de la UNTRM en el
año 2014.
- Encabezamiento: Es la primera fila del cuadro que indica la(s) variable(s), sus categorías o un período de
tiempo, además, de ser el caso, se debe indicar las unidades de medida de la variable, por ejemplo miles de
soles, miles de personas, etc.
- Cuerpo: Parte que contiene la información numérica del cuadro
- Nota de pie o explicativas: Tiene por objeto aclarar ciertos términos ó siglas que se utilizan en el cuadro.
Va debajo del cuerpo del cuadro.
- Fuente: Sirve para nombrar la publicación, entidad, estudio responsable de donde se obtuvieron los datos
utilizados en la construcción del cuadro. Es una indicación que va al pie del cuadro.
- Elaboración: Indicación que se coloca debajo de la fuente, sirve para mencionar el responsable que
elaboró el cuadro estadístico final. indica la responsabilidad de la publicación del cuadro. es opcional.
3. RECOMENDACIONES
- No debe ser complicado, ni grande, ni largo, sino tiene que ser preciso y claro
- Si se tiene dos variables, estas tienen que estar relacionadas entre sí.
- Las categorías consideradas en el cuadro debe estar arreglada de modo tal que se facilite el análisis y las
comparaciones.
Por ejemplo:
o El tiempo se arreglará en orden cronológico
o La clasificación geográfica se puede arreglar en orden alfabético, o de acuerdo a la importancia de
las áreas, o considerando la denominación numérica que tienen (I, II, etc.)
o Si la variable es cualitativa, las categorías se pueden arreglar de acuerdo a su importancia
4. CONSTRUCCIÓN
Para la construcción de un cuadro estadístico se debe tener en cuenta las siguientes frecuencias:
9
: Frecuencia absoluta que representa el nº de veces que se repite la característica de interés (v. cualitativa)
o nº de veces que la variable X toma el valor Xi (v. cuantitativa).
: Frecuencia relativa que representa la proporción de veces que se repite la característica de interés (v.
cualitativa) o la proporción de veces que la variable X toma el valor Xi (v. cuantitativa).
: Frecuencia porcentual que representa el porcentaje de veces que se repite la característica de interés (v.
cualitativa) ó el porcentaje de veces que la variable X toma el valor Xi (v. cuantitativa).
Para construir cuadros de frecuencias para variables cuantitativas continuas (con intervalos) se debe considerar
el siguiente procedimiento:
- Calcular el número de intervalos (k) a trabajar, se puede usar la fórmula de Sturges
(Debe ser un valor entero)
- Determinar el rango o recorrido de la variable
X min: valor mínimo de la variable X máx: valor máximo de la variable

- Calcular la amplitud del intervalo
La amplitud debe ser entera si los datos son enteros, si no es así se debe aproximar por exceso al inmediato
superior. Si los datos tienen un decimal, A puede ser entera o tener hasta un decimal.
- Construir los intervalos , donde Li: Límite inferior y Lu: límite superior del intervalo.
1er intervalo:
2do intervalo: y así sucesivamente hasta el intervalo k.
K-ésimo intervalo:
Se trabajará intervalos cerrado-abierto del tipo [ > y por excepción el límite inferior (Li) del primer
intervalo y el límite superior (Lu) del último intervalo siempre son cerrados.
- Calcular y y las siguientes frecuencias:
: Frecuencia absoluta acumulada
.
.
.
10
: Frecuencia relativa acumulada
.
.
.
- Calcular la marca de clase (Xi) de cada intervalo, que será igual a la suma del Límite inferior y el límite
superior, dividido entre 2.
- Tabular los datos (hacer el recuento) y llenar las frecuencias respectivas
Cuadro N°_____
Título:________________________________________________________________
Intervalos
fi xi
Fi hi Hi
 Xmin – Xmin +A  f1 x1
F1 h1 H1
 Xmin +A –Xmin +2A f2 x2
F2 h2 H2
. . .. . .
. . .. . .
. . .. . .
 Xmin +(k-1)A –Xmin +(k)A fk xk
Fk hk Hk
Total n --- 1 ----
Fuente: _________________________________________________________________
11
CONSTRUCCIÓN DE GRÁFICOS ESTADÍSTICOS
Una gráfica es la representación de un fenómeno estadístico por medio de figuras geométricas, (puntos, líneas,
rectángulos, etc.). Su objetivo es la presentación de datos en forma gráfica, para que la persona que observe la
gráfica se dé cuenta rápidamente del conjunto de datos presentados y pueda evidenciar sus variaciones y
características.
PARTES:
1. Número
2. Título
3. El gráfico propiamente dicho
4. Notas explicativas
5. Fuente
Sobre el número, título, notas explicativas y la fuente, podemos utilizar lo dicho en el cuadro estadístico.
TIPOS DE GRÁFICOS:
1. Gráfico de barras: Se utiliza para presentar distribuciones de frecuencias de variables de escalas nominal y
ordinal. El largo de la barra indica la frecuencia: el ancho, la constante. Ejemplo:
CUADRO Nº 1: Distribución de empleados de la fábrica de cemento Pacasmayo, según sexo. 2013.
Sexo nº empleados
fi pi (%)
Masculino 270 60.0
Femenino 180 40.0
Total 450 100.0
Fuente: Encuesta
GRÁFICO Nº 1: Distribución de empleados de la fábrica de cemento Pacasmayo, según sexo. 2013.
Fuente: Encuesta
12
2. Gráfico de pastel o torta: Se utiliza con fines comparativos. Presenta cifras absolutas ó porcentajes, en los
que cada 1% corresponde a 3.61 del círculo. Donde el ángulo será hi x 360º
GRÁFICO Nº 2: Distribución de empleados de la fábrica de cemento Pacasmayo, según sexo. 2013.
3. Gráfico de bastones: Se usa para graficar variables cuantitativas discretas. Ejemplo:

CUADRO Nº 2: Distribución de empleados de la fábrica de cemento Pacasmayo, según el número de
accidentes laborales. 2013.
Nº accidentes laborales nº empleados
Xi fi
1 14
2 19
3 12
4 7
5 1
Total 53
GRÁFICO Nº 3: Distribución de empleados de la fábrica de cemento Pacasmayo, según el número de

accidentes laborales. 2013.
fi : nº empleados
20
15
10
1 2 3 4 5
Número de accidentes laborales
13
4. Histograma: Es semejante al de barras, pero sin espacios entre una y otra barra. Presenta la distribución de
frecuencias en una escala cuantitativa continua. Ejemplo:
CUADRO Nº 3: Distribución de empleados de la fábrica de ladrillos Fortex, según sus salarios mensuales
(S/.) en Abril de 2012.
Salarios mensuales (S/)
nº empleados
600 – 800 14
800 – 1000 19
1000 - 1200 23
1200 - 1400 12
1400 - 1600 5
Total 73
GRÁFICO Nº 4: Distribución de empleados de la fábrica de ladrillos Fortex, según sus salarios mensuales
(S/.) en Abril de 2012.
5. Polígono de frecuencias: Se presenta una comparación de distribución de frecuencias en escalas

continuas, en las que los puntos se unen con una línea sin interrupción. Ejemplo:
14
6. Gráfico de líneas: Si se quiere resaltar los datos a través del tiempo. Ejemplo:
CUADRO Nº 4: Perú: Cobertura escolar para grupo de edad de 3 a 5
años, 1990-1998.
Años 1990 1991 1992 1993 1994 1995 1996 1997 1998
Tasa de escolaridad 51.5 51.3 51.1 52.0 52.9 55.7 59.8 62.0 60.0
Fuente: MINEDU. Unidad de Estadística Educativa.
Tasa
63
61
59
57
55
53
51
49
47
45
1990 1991 1992 1993 1994 1995 1996 1997 1998
7. Gráfico de Ojiva: Se utiliza para graficar alguna de las frecuencias acumulativas.

8. Gráfico de barras agrupadas: Cuando se trata de comparar solamente las componentes o las frecuencias
en cada modalidad.
Ejemplo:
nº alumnos nº alumnos
Año Total
varones mujeres
1990 8 17 25
1995 12 20 32
2000 10 30 40
2005 18 27 45
15
30
25
20
15 Varones
Mujeres
10
0
1990 1995 2000 2005
9. Gráfico de barras superpuestas: Si se quiere resaltar a la vez el total y las frecuencias de cada
componente en cada modalidad.
45
40
35
27
30
25 30
20 Mujeres
20 Varones
17
15
10 18
12 10
5 8
0
1990 1995 2000 2005
10. Diagrama de puntos (dispersión o correlación): Se emplea para el estudio de la relación de variables en
escala continua. Los ejes son del mismo tamaño y sólo se colocan puntos.
Por ejemplo, puede ocurrir que dos variables estén relacionadas de manera que al aumentar el valor de una,
se incremente el de la otra (existencia de una correlación positiva). También podría ocurrir que al
producirse una en un sentido, la otra derive en el sentido contrario; por ejemplo, que al aumentar el valor
de la variable x, se reduzca el de la variable y (correlación negativa). Si los valores de ambas variable se
revelan independientes entre sí, se afirmaría que no existe correlación.
16
11. Diagrama de Pareto: Permite discriminar entre las causas más importantes de un problema (los pocos y
vitales) y las que son menos (los muchos y triviales). Ayuda a concentrarse en las causas que tendrán
mayor impacto en caso de ser resueltas. Proporciona una visión simple y rápida de la importancia relativa
de los problemas. Ayuda a evitar que se empeoren algunas causas al tratar de solucionar otras.
CUADRO Nº 5: Distribución de obreros de una planta de construcción de piezas metálicas que sufrieron
accidentes laborales, según zona del daño en su cuerpo .
Zona de daño nº accidentes

Dedos 16
Cara 12
Brazos 6
Piernas 2
Total 36
17
12. Pictograma: Se usan con fines publicitarios y se representan con figuras que indican cantidades, y son
alusivos al tema de estudio, representando a diferentes escalas un mismo dibujo
Las áreas con proporcionales a las frecuencias
18
EJEMPLOS PRÁCTICOS DE CUADROS Y GRÁFICOS ESTADÍSTICOS
1. Se tiene el número de productos vendidos por 16 empleados de una tienda comercial que fueron
elegidos al azar: 2, 1, 3, 1, 2, 1, 3, 0, 2, 1, 2, 3, 4, 1, 1 y 2
a. Construya la tabla de distribución de frecuencias
b. Interprete las frecuencias f2, h1, F3, H4%

f2: ______________________________________________________________________
h1: ______________________________________________________________________
F3:_______________________________________________________________________
H4%: ____________________________________________________________________
c. Construya un gráfico
2. Los siguientes datos corresponden al tiempo (en segundos) que utilizan 60 empleados de una fábrica de
cereales en ordenar las cajas de pedidos.
4201 2808 3848 9112 2082 5913 1620
33072 11768 14768 4731 1583 9853 78811
7012 1803 51892 1982 64227 34867 28840
16723 43003 72643 2823 26463 2120 3100
14001 24487 15241 16281 1810 2390 6380
29508 3113 11440 18480 5420 7880 12110
5871 2460 2690 8315 11100 14537 20400
21657 2225 10205 21657 2225 10205 20400
18305 6719 1930 9410
19
Con los datos construya:

- Un cuadro de distribución de frecuencias
- Un histograma y un polígono de frecuencias simples
- Hacer un gráfico de Ojiva
Solución:
X: Tiempo (microsegundos) n = 60 empleados
Para elaborar el Cuadro estadístico primero construimos los intervalos de clase semi abiertos de la forma [
>.
1. R = Xmáx – Xmin = 78811-1583 = 77228
2. Número de intervalos k = 1 + 3.3 (log 60) = 7
3. A = R / k =77228 / 7 = 11032.6 =11033 aproximación por a entero porque los datos no tienen
decimales
4. R’ = AI * k = 11033(7) = 77231
5. R’ – R = 77231 – 77228 = 3 (como el valor es impar se divide en dos partes distintas muy cercanas
que sean igual a 3, por ejemplo 1 y 2; restar el menor valor a Xmin. = 1583 y el mayor valor sumarle
a Xmáx. = 78811). Los nuevos límites del conjunto de datos serían: Xmin. - 1 = 1582 y Xmáx. + 2
= 78813
Los 7 intervalos del cuadro estadístico son:

I1 =  1582 – (1582 +11033) =  1582 - 12615
I2 = 12615 - 23648
I3 = 23648 - 34681
I4 = 34681 - 45714
I5 = 45714 - 56747
I6 = 56747 - 67780
I7 = 67780 - 78813
Cuadro N° 1: Distribución de empleados, según su tiempo de ordenamiento de las cajas de cereal pedido.
Tiempo (en segundos) nº empleados

xi fi hi Fi Hi hi %
 1582-12615 7098.5 3 0.05 3 0.05 5.0
12615-23648 18131.5 4 0.07 7 0.12 7.0
23648-34681 29164.5 5 0.08 12 20.0 8.0
34681-45714 40197.5 36 0.60 48 80.0 60.0
45714-56747 51230.5 6 0.10 54 90.0 10.0
56747-67780 62263.5 4 0.07 58 97.00 7.0
67780-78813 73296.5 2 0.03 60 100.0 3.0
Total 60 1.00 --- --- 100.0
Fuente: Área de Almacenamiento de la Empresa M&M.
20
Gráfico N° 1: Distribución de empleados, según su tiempo de ordenamiento de las cajas de cereal pedido.
Fuente: Cuadro Nº 1
Para elaborar el gráfico de Ojiva, se calcula la frecuencia a cumulada Fi

Tiempo en segundos nº empleados
fi Fi
 1582-12615 3 3
12615-23648 4 7
23648-34681 5 12
34681-45714 36 48
45714-56747 6 54
56747-67780 4 58
67780-78813 2 60
Total 60 ---
21
En el eje de las abscisas estarán los límites de los intervalos, en el eje de las ordenadas irán los valores de Fi
Ejemplo con SPSS:
Los siguientes datos se tomaron de un grupo de alumnos de

segundo año de secundaria de la I.E. Monterrey:
nº Sexo edad Peso (Kg) Nº de hermanos Nota en matemática
1 M 12 45,2 2 14
2 F 11 36,8 1 13
3 M 12 42,1 2 12
4 M 13 48,6 1 10
5 F 12 39,7 3 11
6 M 12 45,5 4 9
7 F 14 50,2 2 12
8 M 11 38,7 3 13
9 F 12 45,6 1 14
10 F 13 54,6 2 15
11 M 12 52,4 0 14
12 M 11 45,2 4 13
13 M 13 49,9 3 12
14 F 13 51,6 2 12
15 M 12 52,3 4 8
16 F 12 53,1 3 10
17 M 13 55,7 2 13
18 M 12 51,0 4 12
19 F 12 49,3 3 11
20 F 11 48,4 3 11
Del ejemplo podemos identificar las siguientes variables:
Cualitativas: sexo
Discretas: número de hermanos
Continuas: edad, peso, notas (asociado a una unidad de medida)
22
Seleccione la variable sexo (variable cualitativa) y construya una tabla de distribución de frecuencias, luego
grafique.
Cuadro 1: Distribución de los alumnos de segundo año de secundaria

de la I.E. Monterrey, según su sexo.
Sexo nº alumnos %
Masculino 11 55
Femenino 9 45
Total 20 100
Fuente: Encuesta sociodemográfica.
Del cuadro se puede interpretar:

1.
2.
Gráfico 1: Distribución de los alumnos de segundo año de secundaria
de la I.E. Monterrey, según su sexo.
GRÁFICO DE
BARRAS
La misma información se puede representar mediante el siguiente gráfico:
Gráfico 2: Sexo de los alumnos de segundo año de secundaria de la I.E. Monterrey.
GRÁFICO DE
PASTEL O PIE
23
NOTA: Para calcular los ángulos de inclinación de cada categoría, se debe multiplicar hi x 360 ○
Seleccione la variable número de hermanos (variable cuantitativa discreta) y construya una tabla de
distribución de frecuencias, luego grafique.
Cuadro 2:
Xi
Número de nº alumnos
hermanos %
0
1
2
3
4
Total

1.
2.
Gráfico 3:
sexo
GRÁFICO DE
BASTONES
Seleccione la variable peso en Kg (variable cuantitativa contínua) y construya una tabla de distribución de
frecuencias, luego grafique.
Para construir este cuadro, se debe tener en cuenta las siguientes consideraciones:
- Calcular el número de intervalos (m) a trabajar, puede trabajar con la fórmula de Sturges
- Determinar el rango o recorrido de la variable

Xmin y Xmáx (valor mínimo y máximo de la variable x)
- Calcular la amplitud del intervalo
24
- Construir los intervalos , donde Li: Límite inferior y Lu: límite superior del intervalo.
1er intervalo:
2do intervalo: y así sucesivamente hasta el intervalo m.
NOTA: Por excepción el Li del primer intervalo y el Lu del último intervalo siempre son cerrados.
Cuadro 3:
Peso (Kg) nº alumnos %

1.
2.
Gráfico 4:
sexo
HISTOGRAMA DE
FRECUENCIAS
La misma información se puede representar mediante el siguiente gráfico:

Gráfico 5:
POLÍGONO DE
FRECUENCIAS
25
26
PRÁCTICA Nº 2
1. En el siguiente diagrama estadístico circular se muestra la distribución de cómo una compañía invirtió un total
de 250 000 dólares. Educación
Inversiones; 7%
Salud; 11%
Reserva en
efectivo
Servcios
Públicos; 35%
Tecnología; 35%
Si se sabe que en Educación la compañía invirtió la tercera parte de lo que guardó como reserva en efectivo:
a) ¿Cuántos dólares se invirtieron en Educación?
_______________________________________________________________________________
b) ¿Cuál debe ser la medida en grados sexagesimales del ángulo central que corresponde al sector
Servicios Públicos?
_______________________________________________________________________________
2. Construya un gráfico de barras con la siguiente información acerca de la preferencia por el color de bebidas
gaseosas de un grupo de niños de la I.E. San Juan de la Frontera de los Chachapoyas en Abril de 2014: B, B,
N, A, N, J, B, B, A, N, J A, N, N, J, J, B, B, A, A, A, A, N, J, N, A, A, N, A, A, J, N, J, N, B, B, A, A, B, J, N,
A, A. Teniendo en cuenta que A: Amarilla, N: Negra J: Naranja y B: Blanca
3. Con los siguientes datos correspondientes a las causas más frecuentes de accidentes de tránsito en cierta
ciudad, construir un diagrama de Pareto.
D,D,F,F,P,D,D,F,B,P,B,B,F,D,D,D,D,F,D,D,D,F,B,B,B,D,D,F,D,D,D,D,D,D,F,B,B,B,F,D,D,D,B,B,B,B,D,D,
D,D,D,D,D,F,B,D,D,P,D,D,D.
Donde: D:descuido del peatón F: Falta de señales de tránsito P: mal conductor que tiene penalidades B:
Causada por otro vehículo con conductor ebrio
27
4. Los siguientes datos indican el número de tardanzas de los

empleados que trabajan en una fábrica, observados en 50 días
de trabajo:
3 2 3 5 4 3 3 2 3 1
4 1 5 3 2 3 2 2 3 1
3 2 4 5 1 5 5 3 2 2
3 1 1 0 1 2 4 0 2 4
5 2 6 2 2 1 3 1 1 3
a. Construya un cuadro de distribución de frecuencias
b. Interpretar f3, h4, F2, H3%

f3: ________________________________________________________________
h4: ________________________________________________________________
F2: ________________________________________________________________
28
H3%: _______________________________________________________________
c. Graficar
5. Los siguientes datos corresponden al puntaje obtenido por un grupo de estudiantes en un test:
405 335 419 267 370 391 612 383 434 462
288 317 540 295 508 400 299 276 361 583
607 350 410 369 409 260 360 630 327 268
a. Construya un cuadro de distribución de frecuencias
=
=
Puntaje en el test
Xi nº niños
b. Interpretar f2, h3, F2, H4%
f2: ________________________________________________________________
h3: ________________________________________________________________
F2: ________________________________________________________________
H4%: _______________________________________________________________
29
c. Graficar un histograma y un polígono de frecuencias
d. Graficar una ojiva
30
MEDIDAS DESCRIPTIVAS
Una vez que se han recogido los datos que toman las variables en estudio, se procede al análisis descriptivo de las
mismas. Para variables categóricas, como el sexo o el estado civil, se quiere conocer el número de casos en cada
una de las categorías, reflejando habitualmente el porcentaje que representan del total, y expresándolo en una tabla
de frecuencias.
Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha de optar
por un método de análisis descriptivo de datos cuantitativos. Estas cifras descriptivas que se obtienen como función
de una muestra, se llama Estadígrafo o Estadístico.
Los estadígrafos de posición son aquellas que describen la posición que ocupa la distribución de frecuencia
respecto a un valor de la variable. Se distinguen dos tipos: Las medidas de tendencia central y medidas de
localización.
ESTADÍGRAFOS DE TENDENCIA CENTRAL: Se llaman así porque dan una descripción compacta de cómo
están centrados los datos y una visualización más clara del nivel que alcanza la variable, pueden servir de base para
medir o evaluar valores extremos o raros y brinda mayor facilidad para efectuar comparaciones. Las medidas de
tendencia central más usadas son la medida aritmética, la medida geométrica, medida armónica, medida ponderada
mediana.
1. LA MEDIA ARITMÉTICA Ó PROMEDIO: Se denota indistintamente por M(x), M(y), ,

según convenga. Es la medida más utilizada y conocida y se define como el promedio aritmético de una
distribución.
Es la suma de todos los valores dividida entre el número de casos. Se aplica cuando la variable es por
intervalos o de razón. (cuantitativas)
Media Poblacional:
Media Muestral:
Propiedades:
Si X e Y son variables y K es constante, entonces:
- M(K) = K
- M(KX)= KM(X)
- M(X+K) = M(X) + K
- M(X+Y) = M(X) + M(Y)
Defecto: Se ve afectada o sesgada por valores extremos. Ejemplo: Calcule la media de los siguientes
valores:
- 55, 56, 57, 58, 59, 60 M(X)= 57.5
- 55, 56, 57, 58, 59, 100 M(X)= 64.2
- 55, 56, 57, 58, 59, 0 M(X)= 47.5
Ejemplos: Calcular la media de los siguientes datos:

a. Xi: Número de tardanzas de un grupo de trabajadores: 8, 7, 6, 4, 3, 2, 6, 9, 8
 la media es: _________.
Interpretación: _________________________________________________________
_____________________________________________________________________
31
b. Distribución de piezas cajas, según su número de piezas defectuosas.

Xi fi Xi fi
Nº de piezas Número de cajas
0 2
1 4
2 7
3 6
4 2
Total 21
El número promedio de piezas defectuosas es: _____________________
c. Distribución de sueldos de trabajadores de una empresa

Sueldo (S/.) Xi fi Xi fi
nº de
trabajadores
600 – 800 4
800 – 1000 11
1000 – 1200 20
1200 – 1400 9
1400 – 2000 6
Total -
Considere que por incremento del costo de vida se presentan dos alternativas de aumento a partir del
siguiente mes. La primera consistente en un aumento de S/. 80 a todos los trabajadores y la segunda en
un aumento del 15% de su sueldo más S/ 5 de bonificación por movilidad. ¿Qué propuesta conviene
aceptar a los trabajadores?.
2. LA MEDIANA (Me), es el valor que divide la distribución por la mitad (en dos partes del mismo
tamaño). Esto es, la mitad de los casos caen por debajo de la mediana y la otra se ubica por encima de la
mediana. La mediana refleja la posición intermedia de la distribución.
Ventajas:
- No se ve afectada por valores extremos, por lo tanto es más representativa que la media
aritmética cuando alguno de los valores de la variable se aleja mucho de los demás o cuando las series
son poco simétricas.
- Se aplica también a variables de escala ordinal
Procedimiento:
- Ordenar los datos en forma ascendente u descendente (En caso de datos simples o sin agrupar).
En caso de variables ordinales, de intervalo o de razón calcular Fi.
- Ubicar la mediana en el centro de los datos. Si el centro de los datos son dos valores, sumarlos
y dividirlos entre dos. Para tablas de frecuencia calcular el intervalo de la mediana:
- Ubicar el valor de la mediana. Para tablas con intervalo se puede presentar uno de dos casos:
a) Si = Fi-1, entonces:
b) Si > Fi-1, entonces:
32
Donde:
: Límite inferior del intervalo de la mediana
Ai : Amplitud de intervalo.
La mediana se ve afectada por el número de datos, pero no por los valores extremos. Esta medida
de tendencia central es propia de los niveles de medición ordinal, por intervalos y de razón.
(cualitativas y cuantitativas).
Ejemplos:
- Los siguientes datos representan las edades de un grupo de empleados:
57, 35, 31, 35, 38, 50, 45, 43, 24 
Es decir que el 50% de los empleados tienen como máximo _____ años de edad.
- Los salarios (S/.) de 10 empleados de una empresa son:
1500, 700, 1000, 1100, 850, 1050, 1420, 1250, 1350, 1200
Ordenando: 700, 850, 1000, 1050, 1100, 1200, 1250, 1350, 1420, 1500
Ubicando los valores centrales, sumándolos y dividiendo entre 2, se tiene que la Mediana es
S/.______, es decir que el 50% de los empleados tienen un salario máximo de S/_______.
- Distribución de cajas, según su número de piezas defectuosas
Xi fi Fi
Nº de piezas Número de cajas
0 2 2
1 4 6
2 7 13
3 6 19
4 2 21
Total 21 -
La mediana se ubica en la posición de X 11, entonces Me es ______ años, es decir que

____________________________________________________________________________
- Distribución de sueldos de trabajadores de una empresa

Sueldo (S/.) Xi fi Fi
nº de
trabajadores
600 – 800 700 4 4
800 – 1000 900 11 15
1000 – 1200 1100 20 35
1200 – 1400 1300 9 44
1400 – 2000 1700 6 50
Total - n = 50 -
Calculando n/2 = 50/2 = 25 Como n/2 no es igual a alguna Fi, sino que el valor de la Me estará
en el tercer intervalo (intervalo mediano), se utilizará la siguiente fórmula:
Reemplazando se tiene:
33
Entonces no más del 50% de los trabajadores tienen sueldos de S/. 1100
3. LA MODA (Mo), es la categoría o puntuación que ocurre con mayor frecuencia. Se utiliza con cualquier
nivel de medición. La moda no siempre existe y si existe no siempre es única.
Para tablas con intervalo se usa la siguiente fórmula:
• La distribución que no tiene Moda se llama Amodal.

• La distribución que tiene una moda se llama Unimodal.
• La distribución que tiene dos modas se llama Bimodal.
• La distribución que tiene más de dos modas se llama Multimodal.
Ejemplo:
- Espesor de las capas de óxido de silicio: 90, 95, 94, 93, 95, 91, 94, 95
=> Mo = , entonces se encontró que con mayor frecuencia el espesor de las capas de óxido de
silicio fue de: _______
- Distribución de cajas, según su número de piezas defectuosas.
Xi fi Xi fi
Nº de piezas defectuosas Número de cajas
0 2
1 4
2 7
3 6
4 2
Total 21
El número más frecuente de piezas defectuosas es: 2, es decir que _____________________
- Distribución de sueldos de trabajadores de una empresa

Sueldo (S/.) fi
nº de
trabajadores
600 – 800 4
800 – 1000 11
1000 – 1200 20
1200 – 1400 9
1400 – 2000 6
Total
Primero se identifica la frecuencia (fi) más alta, en este caso es f 3 = 20 que corresponde al 3er intervalo,
entonces la moda está entre 1000 y 1200. Luego se reemplaza en la fórmula:
Con mayor frecuencia los trabajadores ganan S/. 1090 de sueldo.
34
MEDIDAS DE POSICIÓN O CUANTILES: Son estadígrafos que dividen a una distribución de frecuencias en
cuatro, diez ó cien partes iguales.
1. Cuartiles (Qk para k=1, 2, 3): Son estadígrafos que dividen a la información (serie de datos) ordenada, en
cuatro partes iguales, donde cada parte incluye el 25% de las observaciones. Si se quiere estudiar el 25% de las
observaciones se calculará el primer cuartil (Q 1) y se interpretará como el límite máximo del 25% de las
observaciones inferiores, ó como el límite mínimo del 75% de las observaciones superiores.
 Q1= Valor de la variable que deja a la izquierda el 25% de la distribución.
 Q2= Valor de la variable que deja a la izquierda el 50% de la distribución = mediana.
 Q3= Valor de la variable que deja a la izquierda el 75% de la distribución.
Al igual que ocurre con el cálculo de la mediana, el cálculo de estos estadísticos, depende del tipo de variable y
si los datos son simples ó agrupados.
Procedimiento:
Datos simples o sin agrupar Datos agrupados
Ordenar los datos en forma ascendente Calcular Fi

u descendente
Ubicar el cuartil buscado en los datos.
Si el centro de los datos son dos valores, Calcular el intervalo del cuartil k mediante: luego
sumarlos y dividirlos entre dos. ubicar el valor del cuartil. Para tablas con intervalos se
puede presentar uno de dos casos:

Donde:
: Límite inferior del intervalo del cuartil.
2. Deciles (Dk para k=1,2,…,9): Son estadígrafos que dividen a la información (serie de datos) ordenada, en
diez partes iguales, donde cada parte incluye el 10% de las observaciones. Si se quiere estudiar el 10% de las
observaciones se calculará el primero decil (D 1) y se interpretará como el límite máximo del 10% de las
observaciones inferiores, ó como el límite mínimo del 90% de las observaciones superiores. De manera similar
se hará con los demás deciles.
Procedimiento:
Ordenar los datos en forma ascendente u Calcular Fi

descendente
Ubicar el decil buscado en los datos. Si el
centro de los datos son dos valores, Calcular el intervalo del decil k, mediante: luego
sumarlos y dividirlos entre dos. ubicar el valor del decil. Para tablas con intervalos se
35
puede presentar uno de dos casos:

Donde:
: Límite inferior del intervalo del decil.
3. Percentiles (Pk para k=1,2,…,99): Estadígrafos que dividen a la información (serie de datos) ordenada en
cien partes iguales, donde cada parte incluye el 1% de las observaciones.
Procedimiento:
Ordenar los datos en forma ascendente u Calcular Fi

descendente
Ubicar el percentil buscado en los datos.
Si el centro de los datos son dos valores, Calcular el intervalo del percentil k, mediante:
sumarlos y dividirlos entre dos. luego ubicar el valor del percentil. Para tablas con
intervalos se puede presentar uno de dos casos:
Donde:
: Límite inferior del
intervalo del percentil.
De todo esto, se establece la siguiente relación:
36
EJEMPLOS:
1. Los siguientes datos representan las edades de un grupo de empleados de una fábrica en Abril de
2012. Calcular e interpretar el Q1, D3 y P60
26, 18, 24, 41, 17, 35, 31, 35, 38, 47, 45, 43, 24, 20, 22
18, 21, 45, 38, 26, 29, 20, 26, 27, 22, 41, 38, 25, 34, 24
Como los datos son simples, se procede a ordenar los datos en forma ascendente y luego se ubicará el valor de
los cuantiles.
17,18,18,20,20,21,22,22,24,24,24,25,26,26,26,27,29,31,34,35,35,38,38,38,41,41,43,45,45,47
Donde X1 = 17, X2=18, X3=18, X4=20 y así sucesivamente hasta X30 = 47
Calculando el Q1:
Como n=30 lo dividimos en 4 partes iguales, por lo tanto:
, es decir que el 25% de los empleados tendrán hasta 22 años de edad, y el 75% restante más de
22 años de edad.
Por lo tanto el Q2: será igual a:
, es decir que el 50% de los empleados tienen hasta 26.5 años de edad, y el
50% más de 26.5 años de edad.
De manera similar el Q3:
, es decir que el 75% de los empleados tienen hasta 38 años de edad, y el 25% restante más de
38 años de edad.
Calculando el D3:
Como n=30 lo dividimos en 10 partes iguales, por lo tanto cada parte estará conformada de 3 datos:
, es decir que el 30% de los empleados tienen hasta 24 años de edad, y el 70%
restante más de 24 años de edad.
El decil 3 (D3) es equivalente al percentil 30 (P30).
Calculando el P60:
Como n=30 lo dividimos en 100 partes iguales, es decir:
, es decir que el 60% de los empleados tienen hasta 32.5 años de edad, y el
30% restante más de 32.5 años de edad.
El percentil 60 (P60) es equivalente al decil 6 (D6).
2. Distribución de trabajadores, según el número de accidentes laborales
Nº de Nº trabajadores Fi
accidentes fi
de trabajo
0 2 2
1 4 6
2 7 13
3 10 23
4 4 27
5 3 30
Total n = 30 -
Calcular e interpretar Q3, D5 y P80
Calculando el Q3:
37
Como n=30 lo dividimos en 4 partes iguales, por lo tanto se calculará , donde k=3, quedando:
, es decir que el cuartil 3 será el X23 que es igual al valor de 3 accidentes.
, es decir que el 75% de los trabajadores tuvieron hasta 3 accidentes de trabajo, y el 25%
restante más de 3 accidentes.
Calculando el D5:
Como n=30 lo dividimos en 10 partes iguales, para tomar 5 de ellas, por lo tanto se calculará , donde k=5,
quedando: , es decir que el decil 5 estará entre el X15 y el X16 entonces:
, es decir que el 50% de los trabajadores tuvieron hasta 3 accidentes de trabajo, y

el otro 50% restante más de 3 accidentes.
El decil 5 (D5) es equivalente al percentil 50 (P50), y a cuartil 2 (Q2) y esto a su vez es igual a la mediana.
Calculando el P80:
Como n=30 lo dividimos en 100 partes iguales, para tomar 80 de ellas, por lo tanto se calculará , donde
k=80, quedando: , es decir que el percentil 80 estará entre el X 24 y el X25 entonces:
, es decir que el 80% de los trabajadores tuvieron hasta 4 accidentes de trabajo y

el 20% restante más de 4.
El percentil 80 (P80) es equivalente al decil 8 (D8).
3. La siguiente información de un grupo de empleados referente al tiempo de trabajo (meses).

Calcular e interpretar el Q1, el Q3, D3 y P45.
Tiempo Xi Fi
número de empleados
(meses)
fi
[ Xi-1-Xi >
45 – 55 50 6 6
55 – 65 60 10 16
65 – 75 70 19 35
75 – 85 80 11 46
85 – 95 90 4 50
Total - 50
Calculando el cuartil 1 (Q1):

- Se busca , entonces k=1 y reemplazando se tiene:
- En Fi se busca el valor que supere al 25% de n, correspondiente al 2do intervalo, es decir qué, en el 2do
intervalo estará el valor del cuartil 1, reemplazando en la fórmula :
Interpretación: El 25% de los empleados tienen hasta 61.5 meses de trabajo y el 75% restante en más de
61.5 meses.
38
Calculando el cuartil 3 (Q3):

- En Fi se busca el valor que supere al 75% de n, correspondiente al 4to intervalo, es decir qué, en el 4to
intervalo estará el valor del cuartil 3, reemplazando en la fórmula :
Interpretación: El 75% de los empleados tuvieron hasta 77.27 meses de trabajo y el 25% restante en más de
77.27 meses.
Calculando el decil 3 (D3):

- En Fi se busca el valor que supere al 30% de n, correspondiente al 2do intervalo, es decir qué, en el 2do
intervalo estará el valor del decil 3, reemplazando en la fórmula :
Interpretación: El 30% de los empleados tienen hasta 64 meses de trabajo y el 70% restante en más de 64
meses.
Calculando el percentil 45 (P45):

- En Fi se busca el valor que supere al 45% de n, correspondiente al 3er intervalo, es decir qué, en el 3er
intervalo estará el valor del percentil 45, reemplazando en la fórmula:

Interpretación: El 45% de los empleados tienen hasta 68.421 meses de trabajo y el 25% restante en más de
77.27 meses.
39
ESTADÍGRAFOS DE DISPERSIÓN: Estudia la distribución de los valores de la serie, analizando si estos se

encuentran más o menos concentrados, o más o menos dispersos. Existen diversos estadígrafos de dispersión, entre
las más utilizadas podemos destacar las siguientes:
1. EL RANGO O RECORRIDO (R), es la diferencia entre la puntuación mayor y la puntuación menor.

Cuando más grande es el rango, mayor será la dispersión de los datos de una distribución.
2. RANGO O RECORRIDO INTERCUARTÍLICO (RI ó IQR)
|---------|---------|---------|---------|
Q1 Q2 Q3
P25 P75
3. LA VARIANZA (S ), es la media aritmética de los cuadrados de las diferencias entre los valores de la
2
distribución y su media aritmética. Es la medida más utilizada en el estudio de la dispersión. Mide la dispersión
absoluta de los datos en torno a la media aritmética.
3.1 Poblacional (σ2)
3.2 Muestral (S2)

Datos simples
para n ≥ 30 para n < 30
Datos agrupados
UTILIZANDO EL MÉTODO ABREVIADO

Datos simples
Datos agrupados
Como ésta medida no está expresada en términos de las unidades originales, sino en unidades al cuadrado, es
más útil calcular la raíz cuadrada positiva de ésta la cual es llamada desviación estándar ó desviación típica.
PROPIEDADES:
- La varianza es siempre positiva
- Si todas las observaciones son iguales, entonces la varianza es cero V(K) = 0
- Sea y las medias aritméticas de dos sub muestras de tamaño n 1 y n2 respectivamente y
y sus varianzas correspondientes, entonces:
Si X: variable y K constante, entonces:

- V(KX) = K2 V(X)
- V(X+K) = V(X)
40
4. LA DESVIACIÓN ESTÁNDAR (S), conocida también como desviación típica. Es la raíz cuadrada
positiva de la varianza se expresa en las mismas unidades de medida de la variable en estudio. A mayor
dispersión corresponde una mayor desviación estándar. Es la medida más importante porque nos permite
determinar con mayor precisión donde se sitúan los valores de una distribución en relación con su media. Su
importancia radica en que esta expresada en las mismas unidades originales de los datos. Es también usada
como una medida de riesgo, a mayor desviación estándar mayor es el riesgo.
5. COEFICIENTE DE VARIACIÓN (CV): Es una medida de dispersión relativa, se expresa en porcentajes

y usa para comparar el grado de homogeneidad o heterogeneidad en dos o más distribuciones cuyas unidades
de medida de las variables son diferentes. A mayor homogeneidad, menor variabilidad.
Tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras,
cual es la que presenta mayor dispersión relativa se define por:
Si:
- CV < 33% Aceptable dispersión, entonces quedarse con la media aritmética como medida
representativa.
- CV ≥ 33% Alta dispersión, entonces quedarse con la Me como medida representativa y utilizar
la ESTADÍSTICA NO PARAMÉTRICA.
ESTADÍGRAFOS DE FORMA: Mide la forma de la distribución, es frecuente que los valores de una
distribución tiendan a ser similares a ambos lados de las medidas de centralización. La simetría es importante para
saber si los valores de la variable se concentran en una determinada zona del recorrido de la variable.
As>0 As=0 As<0
Asimetría Positiva a la Derecha Simétrica Asimetría Negativa a la Izquierda
Para medir la asimetría se puede realizar comparando la , Me y Mo ó con el coeficiente de Asimetría:
- Si As = 0 la distribución es SIMÉTRICA
- Si As > 0 la distribución es ASIMÉTRICA POSITIVA
- Si As < 0 la distribución es ASIMÉTRICA NEGATIVA
RELACIÓN ENTRE MEDIA, MEDIANA Y MODA

La distribución de frecuencias es:
- SIMÉTRICA si la media, la mediana y la moda tienen el mismo valor.
- ASIMÉTRICA POSITIVA (COLA A LA DERECHA), entonces:
- ASIMÉTRICA NEGATIVA (COLA A LA IZQUIERDA), entonces:
41
Ejemplos:
1. Los salarios (S/.) de 10 empleados de una empresa son:
1200, 1050, 1100, 1500, 1250, 1350, 1420, 700, 850, 1000
Calcular el rango, la varianza, la desviación estándar y el coeficiente de variación.
Calculando el Rango (R):
Calculando la varianza (S2):

- Como los datos son simples y n < 30, entonces se usará la siguiente fórmula:
- Como necesitamos el promedio ( ) se calculó que es igual a S/. 1142, entonces

reemplazando:
soles2.
Calculando la desviación estándar (S):

- Como la desviación estándar es la raíz cuadrada positiva de la varianza, entonces como la
varianza es igual a 63862.22 entonces la desviación estándar es igual a:
soles
En promedio, los sueldos de los empleados varían respecto a su promedio en S/. 252.71
Calculando el coeficiente de variación (CV):

- Como la desviación estándar es igual a 252.71 y la media igual a 1142, entonces:
La desviación estándar es del 22.13% de la media, además se sabe que el CV < 33%, por lo cual hay una
aceptable dispersión de los sueldos de los empleados, concluyéndose que son homogéneos.
Calculando el coeficiente de asimetría (As):

= 1142 S = 252.71 Me = 1150
Reemplazando en la fórmula:
Asimétrica positiva ó de cola a la derecha
2. Distribución de productos, según su número de defectos.
Xi fi
Nº de defectos Número de productos
0 2 0 0
1 5 5 5
2 17 34 68
3 29 87 261
4 2 8 32
Total n = 55 134 366
42
Calcular e interpretar la desviación estándar y el coeficiente de variación

defectos
Calculando la desviación estándar (S):
- Como la desviación estándar es la raíz cuadrada positiva de la varianza, entonces debemos
calcular la varianza que será igual a:
Fórmula abreviada para datos agrupados y n ≥ 30, reemplazando se tiene:
defectos
Calculando el coeficiente de variación (CV):
Como CV ≥ 33%, entonces los datos son heterogéneos.
Calculando el coeficiente de asimetría (As):

= 2.436 S = 0.849 Mo = 3
Reemplazando en la fórmula:
Asimétrica negativa ó de cola a la izquierda.
3. Distribución de sueldos de trabajadores de una empresa

Sueldo (S/.) Xi fi Xi fi fi
nº de
trabajadores
600 – 800 700 4 2800
800 – 1000 900 11 9900
1000 – 1200 1100 20 22000
1200 – 1400 1300 9 11700
1400 – 2000 1700 6 10200
Total - n = 50 56600
soles
soles CV=23.53%
43
PRÁCTICA Nº 3
1. Los datos que a continuación se presentan corresponden al número de accidentes de tránsito

registrados en 30 días.
9 3 3 8 3 4 4 5 7 8
5 5 5 5 5 5 8 6 6 6
8 6 7 7 3 7 7 5 6 7
a. Con la información calcular e interpretar la media, la mediana, la moda, la varianza, el coeficiente de
variación, Q1, Q3, D4, P75, y la asimetría.
b. Construya una tabla de distribución de frecuencias y calcular e interpretar las mismas medidas,
consiguientemente compárelas y establezca conclusiones.
2. La siguiente información se refiere al salario diario (soles) de un grupo de obreros que

trabajan en 3 empresas distintas.
Salario Xi Empresa
(S/.) A B C
15-18 3 10 7
18-21 12 5 9
21-24 14 15 14
24-27 9 3 8
27-30 7 2 3
Total
a. ¿Qué empresa tiene menor variabilidad absoluta?

b. ¿Cuál de las empresas tiene salarios más homogéneos?
3. Los siguientes datos corresponden a los puntajes de un grupo de docentes que rindieron examen de
ubicación
a. Calcular el puntaje máximo y el puntaje promedio que obtuvieron los docentes evaluados
b. Calcular e interpretar las medidas de dispersión
4. Completar el siguiente cuadro resumen descriptivo de los datos con la información que se presenta
a continuación, acerca del espesor del puntaje de un grupo de niños de una Institución Educativa.
Serie Medias Desv. típica CV Coef. Asimetría
44
Puntajes
90.00 92.20 94.90 92.70 91.6 88.20 92.00 98.20 96.00
91.80 94.50 93.90 77.30 92.0 89.90 87.90 92.80 93.30
90.30 91.10 93.30 93.50 87.2 88.10 90.10 91.90 94.50
92.60 90.30 92.80 91.60 92.7 91.70 89.30 95.50 93.60
91.10 89.80 91.50 91.50 90.6 93.10 88.90 92.50 92.40
76.10 90.20 96.80 84.60 93.3 95.70 90.90 100.30 95.20
92.40 91.70 91.60 91.10 88.0 92.40 88.70 92.90 92.60
91.30 90.10 95.40 89.60 90.7 95.80 91.70 97.90 95.70
96.70 93.70 93.90 87.90 90.4 92.00 90.50 95.20 94.30
92.00 94.60 93.70 94.00 89.3 90.10 91.30 92.70 94.50
94.10 91.50 95.30 92.80 93.4 92.20 89.40 94.50 95.40
91.70 97.40 95.10 96.70 77.5 91.40 90.50 95.20 93.10
93.00 89.90 93.60 89.00 93.6 90.90 89.80 92.40 93.00
91.40 90.60 92.20 91.90 92.4 87.60 88.90 90.90 92.80
91.90 91.80 92.80 96.40 93.8 86.50 92.70 90.90 92.80
90.60 91.30 94.90 88.30 87.9 92.20 90.70 91.30 93.60
93.10 91.80 94.60 88.90 90.0 97.90 92.10 91.60 98.40
90.80 91.50 91.50 91.50 94.0 91.00 92.10 91.80 94.00
88.00 91.80 90.50 90.40 90.3 91.50 89.40 93.20 93.90
88.30 96.00 92.80 93.70 89.6 89.60 90.20 95.30 93.00
94.20 92.20 95.80 92.50 91.0 91.40 92.80 93.60 91.00
101.50 103.10 103.20 103.50 96.1 102.50 102.00 106.70 105.40
92.80 90.80 92.20 91.70 89.0 88.50 87.50 93.80 91.40
92.10 93.40 94.0 94.70 90.8 92.10 91.20 92.30 91.10
45
Capítulo 2
DISTRIBUCIONES BIDIMENSIONALES
REGRESIÓ N Y CORRELACIÓ N
46
DISTRIBUCIÓN BIDIMENSIONAL DE FRECUENCIAS
Con frecuencia estamos interesados en investigar dos o más características de cada individuo o elemento. Por
ejemplo podemos observar la estatura en cm. y el peso en Kg. de cada alumno de una Institución Educativa
Primaria de Lima.
Si asociamos a cada característica bajo estudio una variable, digamos X e Y respectivamente, tendremos el par
ordenado (X,Y) de variables. Así por ejemplo: si todas las estaturas medidas formaron la variable X, y todos los
pesos, la variable Y el par (X,Y) se llamará variable estadística bidimensional.
Donde:
Recorridos de las variables
fij es la frecuencia bidimensional y (total de observaciones) i (representa filas) y j (columnas). La
tabla que describe las “n” observaciones se llama tabla de distribución de frecuencias bidimensional.
Las variables bidimensionales (X,Y) se pueden clasificar según la naturaleza de sus variables de acuerdo a ello, se
obtienen los siguientes tipos de distribución de dos variables:
1. Las dos variables cualitativas.

2. Una cualitativa y la otra cuantitativa.
3. Las dos variables cuantitativas.
Ejemplo:
La información siguiente corresponde a una encuesta sociodemográfica aplicada a un grupo de personas
GRADO DE GRADO DE CONDICIÓN

Nº INSTRUCCIÓN CONDICIÓN SOCIAL Nº INSTRUCCIÓN SOCIAL
1 PRIMARIA BAJA 31 SUPERIOR MEDIA
2 SUPERIOR MEDIA 32 SUPERIOR MEDIA
4 SUPERIOR ALTA 34 SUPERIOR MEDIA
5 PRIMARIA MEDIA 35 SUPERIOR ALTA
6 SECUNDARIA ALTA 36 SUPERIOR ALTA
7 PRIMARIA BAJA 37 PRIMARIA BAJA
8 SUPERIOR MEDIA 38 PRIMARIA BAJA
9 SUPERIOR ALTA 39 PRIMARIA MEDIA
10 PRIMARIA ALTA 40 PRIMARIA MEDIA
11 SECUNDARIA ALTA 41 SECUNDARIA MEDIA
12 PRIMARIA MEDIA 42 PRIMARIA MEDIA
13 SECUNDARIA BAJA 43 SUPERIOR ALTA
14 PRIMARIA MEDIA 44 PRIMARIA MEDIA
15 SUPERIOR ALTA 45 SECUNDARIA MEDIA
16 SUPERIOR ALTA 46 SECUNDARIA MEDIA
17 PRIMARIA MEDIA 47 SECUNDARIA MEDIA
18 SECUNDARIA BAJA 48 SECUNDARIA MEDIA
19 SUPERIOR MEDIA 49 SECUNDARIA MEDIA
20 PRIMARIA ALTA 50 SECUNDARIA ALTA
21 SECUNDARIA MEDIA 51 SUPERIOR ALTA
22 SUPERIOR BAJA 52 SECUNDARIA MEDIA
24 SUPERIOR MEDIA 54 SUPERIOR ALTA
25 PRIMARIA ALTA 55 SUPERIOR MEDIA
47
26 SECUNDARIA BAJA 56 SUPERIOR ALTA

27 PRIMARIA ALTA 57 SUPERIOR MEDIA
28 SUPERIOR MEDIA 58 SUPERIOR MEDIA
CONDICIÓN SOCIAL
GRADO DE TOTAL
INSTRUCCIÓN BAJA MEDIA ALTA
PRIMARIA 6 8 4 18
SECUNDARIA 3 8 3 14
SUPERIOR 1 15 12 28
TOTAL 10 31 19 60
Se puede determinar que 15 trabajadores de la empresa son clasificados como clase social media y tienen grado de
instrucción superior. También se puede determinar que un trabajador que es clasificado como clase baja, tiene
grado de instrucción superior.
La tabla que describe las “n” observaciones se llama tabla de distribución de frecuencias bidimensional.
MEDIAS MARGINALES
VARIANZAS MARGINALES
COVARIANZA: Mide el grado de dispersión o variabilidad conjunta de dos variables (X, Y) con respecto a sus
medias ( ). Se define como:
Fórmula abreviada datos agrupados
48
CORRELACIÓN LINEAL
Sirve para analizar el grado de relación (asociación) entre dos variables cuantitativas. Se denota por r y cuando el
nivel de medición de las variables es por intervalos o razón.
Su valor varía entre –1 y 1, donde el signo indica la dirección de la correlación y el valor numérico la magnitud de
la correlación. El coeficiente (índice) de correlación de Pearson:
Donde:
Cov(X,Y): Covarianza
Sx: Desviación estándar de X
Sy: Desviación estándar de Y
r Correlación
-1.00 Negativa perfecta
-0.90 Negativa muy fuerte
-0.75 Negativa
considerable
-0.50 Negativa media
-0.10 Negativa débil
0.00 No existe
0.10 Positiva débil
0.50 Positiva media
0.75 Positiva considerable
0.90 Positiva muy fuerte
1.00 Positiva perfecta
REGRESIÓN LINEAL SIMPLE

Consiste en determinar la ecuación: Y = a + bx que mejor ajuste a los valores de la muestra.
Donde:
Y : Variable dependiente X : Variable independiente a y b: Parámetros (constantes)
La ecuación puede utilizarse para estimar valores de una variable en base a los valores conocidos de otra variable,
intuir la relación causa-efecto entre dos variables y predecir valores futuros de una variable.
Si:
- b>0 la tendencia lineal es creciente
- b<0 la tendencia lineal es decreciente
- b=0 no hay regresión
“b” es el cambio promedio cuando X cambia una unidad.

49
REGRESIÓN NO LINEAL
En muchos casos los valores en parejas de las variables X, e Y, no se ajustan a una línea recta, se puede conseguir
que una relación no lineal sea transformada en una relación lineal mediante la transformación de variables.
Entre ellas se tiene:

Ecuación Transformación lineal
Exponencial
Potencia
Hiperbólica
Ejemplos:
1. Un fabricante de soldaduras de puntos de aluminio de alta resistencia al esfuerzo cortante,
desea predecir la resistencia al esfuerzo cortante por los diámetros de las soldaduras de punto, en lugar de
destruir el producto con ese propósito. Una muestra de 10 soldaduras se escoge aleatoriamente para establecer
la relación entre estas dos variables:
DIÁMETRO Y RESISTENCIA AL ESFUERZO CORTANTE POR PUNTO DE ALUMNIO
Diámetro de soldaduras 2.4 1.8 1.6 1.0 1.2 1.1 2.8 1.6 1.5 2.3
(en pulgadas) X
Resistencia al esfuerzo cortante 7.0 5.3 4.2 3.3 3.8 6.6 8.5 6.6 4.5 8.8
(en millones de libras) Y
a. Construya un diagrama de dispersión
b. Estime la recta de regresión lineal
2. Se observa los siguientes datos de una muestra:

X 1.5 2 3 3.5 4 5
Y 2.6 2.4 1.2 1.8 1.6 1.4
Ajuste a la función potencia (Respuesta: a = 3.12 b = -0.532 r = - 0.79)
3. Se han recopilado los tiempos de duración (minutos) de la publicidad por semana (X) y el
número de artículos vendidos (Y)
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad(X) 20 30 30 40 50 60 60 60 70 80
50
Ventas(Y) 50 73 69 87 108 128 135 132 148 170
a. Trazar el diagrama de dispersión
b. Calcular la recta de regresión
c. Estimar la venta si en la semana se hace 100 minutos de publicidad
d. Calcular e interpretar “r”
51
Capítulo 3
INTRODUCCIÓ N AL CÁ LCULO DE
PROBABILIDADES
52
INTRODUCCIÓN A LA PROBABILIDAD
La estadística representa un método para la toma de decisiones frente a situaciones de incertidumbre, y como tal se
basa en la teoría de probabilidades. La probabilidad es la medida de la incertidumbre y de los riesgos asociados con
ella.
DEFINICIÓN DE TÉRMINOS
1. EXPERIMENTO ALEATORIO O NO DETERMINISTICO (ξ): Se llama así

al fenómeno ó experimento que se realiza una o más veces y cuyos resultados no se pueden determinar con
certeza, debido a que las causas que lo originan son no predecibles por ser aleatorias.
Ejemplos:
1. Lanzar una moneda sobre una mesa y observar el resultado
2. Consideremos un partido entre dos equipos de Fútbol A y B
3. Observar la vida útil de un artículo.
4. Contar el número de artículos defectuosos producido por una máquina
5. Todos los juegos (dados, barajas, loterías, ruletas, etc) son típicamente aleatorios.
2. ESPACIO MUESTRAL (): Es el conjunto conformado por todos los resultados

posibles de un experimento aleatorio. A cada elemento del espacio muestral se le conoce como punto muestral.
En notación matemática el espacio muestral se define como sigue:
 = {x / x es resultado de un experimento aleatorio}
Ejemplos: Describir el espacio muestral asociado a cada uno de los experimentos aleatorios:
1. Lanzar una moneda al piso y observar el resultado que ocurre en la cara superior de la moneda.
 = {c, s}  n () = 2
2. Lanzar dos monedas consecutivas al piso y observar el resultado que ocurre en la cara superior de las
monedas.
 = {(c, c), (c, s), (s, c), (s, s)}  n () = 4
3. Elegir como presidente de una asociación, de un grupo de 5 candidatos (A, B, C, D, E).

 = {A, B, C, D, E}  n () = 5
4. Observar el número de artículos defectuosos

 = {1, 2, 3,…,k}
5. Determinar la vida útil de un artículo.

 = {w  / w  0}
3. EVENTO O SUCESO: Es un subconjunto del espacio muestral. Se le denota con

las primeras letras mayúsculas del alfabeto.
A = Es un evento  A  
Al espacio muestral  se le considera evento seguro y a  evento imposible.
Ejemplo: Suponga que se lanza dos monedas consecutivas al piso y se observa el resultado que ocurre en la
cara superior de las monedas. Enliste los siguientes eventos:
a) Obtener exactamente una cara.
b) Obtener exactamente dos sellos.
c) Obtener por lo menos una cara.
d) Obtener más de una cara.
53
e) Obtener a lo más una cara.

f) Obtener menos de dos caras.
Solución:
 = {(c, c), (c, s), (s, c), (s, s)}  n () = 4
a) A = {(c, s), (s, c)}  n (A) = 2
b) B = {(s, s)}  n (B) = 1
c) C = {(c, c), (c, s), (s, c)}  n (C) =3
d) D = {(c, c)}  n (D) = 1
e) E = {(c, s), (s, c), (s, s)}  n (E) = 3
f) F = {(c, s), (s, c), (s, s)}  n (F) = 3
4. ALGEBRA DE EVENTOS: Usando las leyes del álgebra de conjuntos se puede

formar nuevos eventos, los cuales son subconjuntos del mismo espacio muestral de donde provienen los
eventos dados. Para los eventos dados A, B y C de  se cumplen las siguientes leyes:
LEY UNIÓN INTERSECCIÓN

IDEMPOTENCIA AA =A AA =A
ASOCIATIVA A(BC)=(AB)C=(ABC) A(BC)=(AB)C=(ABC)
CONMUTATIVA AB = BA AB =BA
DISTRIBUTIVA A(BC) = (AB)  (AC) A(BC) =(AB)  (AC)
DE MORGAN (AB)´ =A´  B´ (AB)´ = A´  B´
DEL COMPLEMENTO AA´ =  AA´ = 
DE IDENTIDAD A=A y A =  A =  y A=A
TÉCNICAS DE CONTEO
1. PERMUTACIONES: Es un arreglo lineal de todos los elementos de un
conjunto o parte de los elementos del conjunto (subconjunto) tomados en un orden definido. El número total
de permutaciones está en función al número de elementos tomados a la vez para cada permutación. Según
esto podemos distinguir tres casos:
a) Permutaciones simples.
nPn = n
nPr = n / (n-r) 
b) Permutaciones con objetos repetidos.

nPn1, n2, n3,...nk = n / (n1 * n2 * … *nk)
c) Permutaciones circulares.
PCn = (n-1) 
Ejemplos:
1. Se reúnen 5 ingenieros civiles para evaluar un proyecto a realizar. ¿De cuántas maneras distintas se
pueden sentar los ingenieros en una fila?
5P5 = 120
2. De un grupo de 4 ingenieros, se tiene que elegir a 3 que deben ocupar el cargo de presidente,
secretario, y vocal del sindicato. ¿De cuántas maneras se pueden hacer los arreglos?
4P3 = 4 / (4-3) = 24
3. El número de formas diferentes de permutar 12 objetos iguales en todo, salvo el color, de los cuales 3
son negros, 4 son blancos y 5 son rojos es,
12P3, 4, 5 = 12 / (3 * 4 *5) =27720
4. ¿De cuántas maneras diferentes pueden sentarse 9 personas alrededor de una mesa elipsoidal?
PC9 = (9-1)  =8
2. COMBINACIONES: Cuando hablamos de combinaciones, no debemos

tener en cuenta el orden de los elementos; sólo nos interesa que se combine un elemento con otro.
54
Ejemplos:
1. ¿Cuántos cables de conexión se necesitan para que dos aulas cualesquiera, de doce aulas existentes en total
en una Universidad, puedan comunicarse directamente?
12C2 = 66
2. Una caja contiene 20 tornillos similares, de los cuales 10 son buenos, 8 tienen defectos del tipo A, 5 tienen
defectos del tipo B, y 3 los dos tipos de defectos. ¿Cuántos elementos tiene el espacio muestral que resulta
de escoger al azar 11 tornillos de manera que 2 tengan defectos Ay B, 3 defectos sólo A, 2 con defectos
sólo B y 4 sin defectos?
10C4 * 5C3 * 3C2 * 2C2 = 6300
3. Dados los eventos A de 4 elementos, y B de 8 elementos. ¿Cuántos eventos de 6 elementos pueden

formarse si cada uno debe contener:
a) Un solo elemento de A?
4C1 * 8C5 = 224 formas
b) Por lo menos un elemento de A?
4C1 * 8C5+ 4C2 * 8C4+ 4C3 * 8C3+ 4C4 * 8C2 = 896 formas
DEFINICIÓN DE PROBABILIDAD
Definición clásica: Se tiene que si A es un evento de , la probabilidad de que ocurra el evento A está dada.
Ejemplo: Suponga que el experimento aleatorio consiste en lanzar un dado y observar el resultado que ocurre en la
cara superior del dado. Calcular la probabilidad de que ocurra:
a) El número 6.
b) Por lo menos el número 4.
c) A lo más el número 2.
d) Por lo menos el número 1.
Solución:
 = {1, 2, 3, 4, 5, 6}  n () = 6
a) A= {6}  n (A) = 1
P(A)= n(A) / n () = 1/6
b) B= {4, 5, 6} n (B) = 3.

P (B)= n(B) / n () = 3/6
c) C = {1, 2}  n (C) = 2.
P (C)= n(C) / n () =2/6
d) D = {1, 2, 3, 4, 5, 6}  n (D) = 6
P (D)= n(D) / n () =6/6
Definición de frecuencia relativa: La probabilidad de un evento (que suceda o que resulte) es la proporción de
veces que el evento sucedería en una serie prolongada de eventos repetidos.
Ejemplo:
La tabla siguiente, muestra la calidad evaluada de 35 productos.
Calidad nº productos
Buena 20
Regular 10
55
Deficiente 5
TOTAL 35
Si se selecciona al azar un producto, ¿cuál es la probabilidad de que el producto sea bueno?

Solución:
P (Buena) = 20 / 35
AXIOMAS DE PROBABILIDAD
- 0 P(A)  1
- P() =1
- Si A y B son dos eventos en , tales que A y B son mutuamente excluyentes
(AB = )  P(AB) = P(A)+P(B)
Este axioma se puede extender para k eventos mutuamente excluyentes A 1, A2,…, AK, es decir
P( A1A2 …AK) = P(A1)+P(A2)+…+P(AK)
TEOREMAS DE PROBABILIDAD
- P( ) = 0
- P(A´) = 1- P(A)
- Si AB  P(A)  P(B)
- Si A y B no son mutuamente excluyentes ( AB  )
 P(AB) = P(A)+P(B) -P (AB)
- Si A, B y C no son mutuamente excluyentes
 P(ABC) = P(A)+P(B)+P(C) -P (AB) - P (AC)- P (BC)+ P (ABC)
Ejemplos:
1. La probabilidad de que una persona reciba por lo menos 8 llamadas telefónicas en un día es 0.2 y la
probabilidad de que reciba a lo más 5 llamadas telefónicas en un día es 0.3. Hallar la probabilidad de que la
persona reciba 6 ó 7 llamadas en un día.
Solución:
 = {0,1 ,2 ,3 ,4 ,5, 6, 7, 8, 9,...}
A= {8, 9,…}  P(A) = 0.2
B= {0, 1, 2, 3, 4, 5} P(B)=0.3
C = {6, 7}  P(C) = ?
ABC = 
P (ABC) = P()
P(A) + P(B) + P(C) = 1
0.2 + 0.3 + P( C) = 1  P( C) = 0.5
2. Una persona ingresa a una ferretería. La probabilidad de que compre cemento es 0.7, la probabilidad de
que compre fierro es 0.5 y la probabilidad de que compre ambos (cemento y fierro) es 0.3. Hallar la
probabilidad de compre cemento, o fierro.
Solución:
Sean los eventos:
A = La persona compra cemento P(A) = 0.7
B = La persona compra fierro P(B) = 0.5
AB = La persona compra cemento y fierro P(A∩B) = 0.3
P (AB) = P (A) + P (B) – P (AB)

= 0.7 + 0.5 – 0.3
= 0.9
PROBABILIDAD CONDICIONAL
A menudo se quiere determinar la probabilidad de que ocurra un evento sabiendo que otro evento ha ocurrido. La
probabilidad condicional (o condicionada) de que un evento B ocurra dado que otro evento a ha ocurrido se denota
56
por P (B/A). Esta notación se lee: “La probabilidad de que B ocurra dado que A ha ocurrido” ó simplemente la
probabilidad de B dado A”
Ejemplo:
Un club consiste de ciento cincuenta miembros. Del total, 3/5 son hombres y 2/3 son profesionales. Además, 1/3 de
las mujeres son no profesionales.
a) Se elige al azar un socio del club:

- Calcular la probabilidad de que sea hombre y profesional.
- Calcular la probabilidad de que sea hombre, dado que es profesional.
b) Se eligen tres socios al azar:

- Si las tres son mujeres, ¿cuál es la probabilidad de que sólo l de ellas sea profesional?
- Si resultan ser del mismo sexo, ¿cuál es la probabilidad de que sean mujeres?.
Solución:
Profesional No profesional Total
Hombre (H) 60 30 90
Mujer (M) 40 20 60
Total 100 50 150
a)
- P(H  P) = 60/150 = 0.4
- P(H/P) = P (HP) / P(P) = (60/150) / (100/150) = 0.6
b)
- A = Las tres son mujeres
B = Sólo una es profesional P(B/A) = ( 40C1 * 20C2)/ 60C3
- A = Los tres son del mismo sexo
B = Las tres son mujeres P(B/A) = ( 60C3 )/ (90C3 + 60C3) = 0.23
EVENTOS INDEPENDIENTES: Se dice que el evento B es independiente del evento A, si,

P(B/A) = P(B)
Se verifica que, si P(B/A) = P(B), entonces, P(A/B) = P(A) y recíprocamente
En consecuencia, podemos afirmar que:
Los eventos A y B son independientes si, y sólo si,

P(B/A) = P(B) y P(A/B) = P(A).
Esto equivale a decir que A y B son independientes si sólo si

P(AB) = P (A) P(B)
PROBABILIDAD TOTAL
Si k eventos: A1, A2,..,AK, constituyen una partición del espacio muestral , entonces, para cualquier evento B en
,
P(B) = P(A1) * P(B/A1)+P(A2)*P(B/A2)+…+P(AK)*P(B/AK)

57
A1 A2 … AK
TEOREMA DE BAYES
Para cualquier evento Ai de la partición, se tiene:
P(Ai/B) = P (Ai ) P(B/ P(Ai) / P(B) , Si P(B)  0

Ejemplo:
Las probabilidades de que los socios S 1 y S2 sean elegidos presidente de un club son respectivamente 0.4 y 0.6. Las
probabilidades de que se aumenten las cuotas mensuales de los socios son de 0.9 si sale elegido S 1 y de 0.2 si sale
elegido S2.
a) ¿Cuál es la probabilidad de que haya un aumento en las cuotas mensuales de los socios?.
b) Si se aumenta la cuota mensual, ¿ cómo se modifican las probabilidades de que salgan elegidos los
socios S1 y S2 ?.
Solución:
S1 0.9 A
0.4
0.6 S2 0.2 A
a) P(A) = P(S1) * P(A/S1)+P(S2)*P(A/S2) = 0.4*0.9 + 0.6*0.2 = 0.48
b)
P(S1/A) = P (S1 ) P(A/ P(S1) / P(A) = 0.75
P(S2i/B) = P (S2) P(B/ P(S2) / P(A) = 0.25
La probabilidad de S1 se modifica de 0.4 A 0.75 y la de S2 se modifica de 0.2 a 0.25
58
VARIABLES ALEATORIAS
Definición: Es una variable estadística cuantitativa definida en un espacio muestral. Es una función que asocia un
número real a cada elemento de un espacio muestral.
X es una función real X: Ω →
Es aquella que pueden asumir diferentes valores, como resultado de un experimento aleatorio y pueden ser
discretas ó continuas.
1. VARIABLE ALEATORIA DISCRETA (DISCONTINUA)

Si el rango de la variable aleatoria (v.a.) X es un conjunto finito o infinito numerable, se llama v.a. discreta. En
este caso se tiene:
Rx = {x 1, x 2, …}
Ejemplos:
- El número de accidentes laborales en una empresa en un año
- El número de piezas defectuosas producidas a lo largo de un día en una cadena de producción
- El número de días de baja de un trabajador al mes
FUNCIÓN O LEY DE PROBABILIDAD (FUNCIÓN DE CUANTÍA)

Corresponde a la función que asigna el valor que toma P(X = x) para cada valor de x la v.a. discreta con rango
Rx, satisfaciendo los siguientes axiomas:
a. Rx
b.
La colección de pares se llama distribución de probabilidad de x y usualmente se

representa en una tabla o gráficamente.
x x1 x2 ...
p(x) = P (X=x) p(x 1) p(x 2) ...
Gráficamente se tiene:
FUNCIÓN DE DISTRIBUCIÓN (FUNCIÓN DE DISTRIBUCIÓN ACUMULATIVA)

Esta función corresponde al valor de la probabilidad acumulada hasta un valor específico de x y se denota por
P(X≤x). Esta función es no negativa y no decreciente y se define como:
59
CARACTERÍSTICAS
a. Esperanza Matemática (valor esperado o media)
Se define por:
siempre que sea convergente (finita)
b. Varianza
Ejemplo:
Sea el experimento aleatorio que consiste en observar la calidad de un producto (M: mala, B: buena) de tres
observaciones.
Su espacio muestral será:
Ω = { MMM, MBM, BMM, MMB, BMB, BBM, MBB, BBB} 8 puntos muestrales
Si el interés es el número de productos malos, X será la función definida sobre Ω de tal manera que:
X(MMM) = 3
X(MMB) = X(MBM) = X(BMM) = 2
X(MBB) = X(BMB) = X(BBM) = 1
X(BBB) = 0
La función X en Ω definida por X(w) = “número de productos malos”.
X: Ω → { 0, 1, 2, 3 }
w → x (w)
Donde Ω : dominio y Rx = {x/x = 0, 1, 2, 3}. Es decir x puede tomar los valores 0, 1, 2 ó 3.
a. Determinar la función de probabilidad de x y graficar.

b. Determinar la función de distribución de x y graficar.
c. ¿Cuál es la probabilidad de que se tenga exactamente dos productos malos?
d. ¿Cuál es la probabilidad de que se tenga cuando mucho 2 productos malos?
e. ¿Cuál es la probabilidad de que se tenga por lo menos 2 productos malos?
Solución:
X =Xi Suceso correspondiente P(X = Xi) F(x) = P(X≤xi)
N° Productos defectuosos
3 MMM 1/8 1/8
2 MBM, BMM, MMB 3/8 4/8
1 BMB, BBM, MBB 3/8 7/8
0 BBB 10/8 8/8 =1
60
2. VARIABLE ALEATORIA CONTINUA

Si el rango Rx, de una v.a. X es un intervalo sobre la recta de números reales, se llama v.a. contínua.
Ejemplos:
- Los kilogramos que pierde una persona al seguir una dieta específica durante cierto período.
- La tensión de fractura de una muestra de asfalto
- El grosor de una lámina de aluminio
- El pH de una muestra de lluvia
- La duración de una llamada telefónica
FUNCIÓN O LEY DE PROBABILIDAD (FUNCIÓN DE DENSIDAD)

Sea f(x) una función integrable que satisface las siguientes condiciones:
a. Rx
b. ó
Si se está interesado en calcularla probabilidad de que la v.a. tome valores entre a y b, donde es
decir se quiere calcular la ; puesto que el área vale 1.
FUNCIÓN DE DISTRIBUCIÓN (FUNCIÓN DE DISTRIBUCIÓN ACUMULATIVA)

Sea x una v.a. contínua con función de densidad f(x). la función de distribución ó Función de distribución
acumulativa esta denotado por:
CARACTERÍSTICAS
a. Esperanza Matemática (valor esperado o media)
Se define por:
si es finita
b. Varianza
Ejemplo:
Sea X una v.a. con función de densidad:
a. Hallar el coeficiente a
b. Graficar la función de densidad de probabilidad
c. Calcular la probabilidad que x se encuentre en el intervalo
d. Calcular la probabilidad que x se encuentre en el intervalo <-2,2>
61
1. Doscientas personas están distribuidas de acuerdo a su sexo y lugar de procedencia de la siguiente manera:
130 son hombres, 110 son de la capital y 30 son mujeres y de provincias. Si se eligen dos personas al azar
calcular la probabilidad de que:
a. Ambos sean hombres y de provincias.
b. Al menos uno de los dos escogidos sea mujer.
2. Sólo el 60% de la mercadería que recibe un comerciante del fabricante A es de calidad excepcional,
mientras que el 90% de la mercadería que recibe del fabricante B es de calidad excepcional. Sin embargo la
capacidad del fabricante B es limitada, y, por esta razón sólo el 30% de la mercadería le es permitido adquirir
del fabricante B, el 70% la adquiere de A. Se inspecciona un embarque que acaba de llegar y se encuentra que
es de calidad excepcional, ¿cuál es la probabilidad de que provenga del fabricante A?.
62
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIONES DE PROBABILIDAD
Se relacionan con las distribuciones de frecuencia. Por ejemplo observe la siguiente tabla:
TABLA 1: Distribución de trabajadores, según el número de días que faltaron a laborar
Número de días Número de Frecuencia relativa Probabilidad

trabajadores P (X = x) = f(x)
1 25 0.25 P(x = 1) = 0.25
2 15 0.15 P(x = 2) = 0.15
3 36 0.36 P(x = 3) = 0.36
4 24 0.24 P(x = 4) = 0.24
Total 100 1.00 ∑ P(X = x) = 1.00
En este caso, x son los valores que asume X (1, 2, 3, 4), y la frecuencia relativa de la ocurrencia de la variable X,
constituye la probabilidad que será denotada por p(X=x). Si se selecciona al azar un trabajador de esta población, la
probabilidad de que haya faltado un día a trabajar es 0.25, es decir P(x = 1) = 0.25; en tanto que la probabilidad de
que haya faltado dos días es 0.15, es decir P(x = 2) = 0.15, y así sucesivamente.
De todo esto se puede sostener que la distribución de probabilidad es un listado que nos especifica las
probabilidades de todos los resultados posibles de una variable aleatoria, al llevar a cabo un experimento aleatorio.
La distribución de probabilidad debe cumplir las siguientes propiedades:

a. 0 ≤ P(X = x) ≤ 1
b. ∑ P(X = x) = 1.00
Dependiendo del tipo de población en estudio, se pueden tener diferentes formas de distribuciones de probabilidad.
En la realidad existen un conjunto de variables aleatorias que para estudiarlas se tiene que suponer que siguen una
distribución teórica de probabilidad, constituyéndose un esquema ideal del comportamiento de la variable en
estudio.
Las distribuciones teóricas de probabilidad se usarán como modelos de comportamiento del hecho o fenómeno que
se está investigando. Entre las distribuciones teóricas de probabilidad para variable discreta y para variable
continua se tienen:
DISCRETAS: Bernoulli, Binomial, Geométrica, Hipergeométrica y Poisson
CONTÍNUAS: Uniforme, Normal, Gamma, Exponencial, Chi Cuadrado, T-Student y F-Snedecor.
63
DISTRIBUCIÓN BINOMIAL
Se utiliza para calcular probabilidades de variable aleatoria discreta, y se aplica en experimentos aleatorios que
tienen sólo dos resultados mutuamente excluyentes.
Ejemplo:
Experimento aleatorio Resultados posibles
Lanzamiento de una moneda Cara, sello
Sexo de un recién nacido Varón mujer
Situación ocupacional de una persona Ocupado, desocupado
adulta
Calidad de un producto Bueno, malo
Condición de una alumno Aprobado, desaprobado
Estos experimentos con resultados dicotómicos son conocidos como ensayo de Bernoulli.
Cuando se llevan a cabo estos experimentos aleatorios, siempre se está interesado en que suceda uno de los dos
posibles resultados. Si el resultado que se espera sucede, entonces se dirá que se hubo ÉXITO, en caso contrario se
dirá que hubo FRACASO.
En términos de probabilidad se define a p como probabilidad de éxito y a q = 1 - p la probabilidad de fracaso,

además se debe cumplir que p + q =1
.Resultados Probabilidad
Éxito p (éxito)
Fracaso q (fracaso)
p+q=1
A este fenómeno aleatorio también se denomina experimento binómico y se caracteriza porque consiste en realizar
“n” ensayos independientes y repetitivos de Bernoulli, y el resultado de cada prueba son dos eventos mutuamente
excluyentes: ÉXITO (E) y FRACASO (F), donde la probabilidad “p” de éxito es invariante (no cambia) en cada
una de las pruebas.
Ω = {(w1, w2, . . . , wn) / wi = E ó F}
Cuando la variable aleatoria X se distribuye como Binomial se denota por:
X ~ B (n, p) n: Número de ensayos o pruebas

p: Probabilidad de éxito
PARAMETROS
Si:
p =1/2, entonces la distribución es simétrica
p → 1 la distribución es asimétrica negativa
p → 0 la distribución es asimétrica positiva.
FUNCIÓN DE PROBABILIDAD
64
FUNCIÓN DE DISTRIBUCIÓN
CARACTERÍSTICAS
Sí X ~ B (n, p), entonces:
 Valor esperado (Esperanza matemática o media)

µ = E(x) = np
 Varianza
σ2 = V(x) = npq = np(1-p)
Ejemplos:
1. Si la probabilidad de que un foco cualquiera dure por lo menos 1000 horas es 0.80. Calcule la probabilidad
de que:
a. exactamente 9 de 10 focos duren 1000 horas ó más
b. a lo más 9 de 10 focos duren 1000 horas por lo menos
c. por lo menos 9 de 10 focos duren 1000 horas ó más
d. exactamente 4 de 10 focos duren menos de 1000 horas
2. Una máquina produce cierto tipo de piezas, de las cuales un promedio de 5% son defectuosas. En una
muestra aleatoria de 5 piezas. Cuál es la probabilidad de obtener:
a. Exactamente 1 pieza defectuosa
b. Por lo menos 1 pieza defectuosa
c. Cuando mucho 2 piezas defectuosas
65
DISTRIBUCIÓN POISSON
Es una distribución de probabilidad de variable discreta. Los ensayos corresponden a aquellos que consisten en
observar el número de veces que ocurre un determinado éxito o carácter de interés en unidades de observación
con respecto al tiempo, longitud, área, volumen, etc., sabiendo que en promedio ocurren λ éxitos por unidad de
observación.
Los siguientes ensayos pueden usar como modelo a la distribución de Poisson:
- Número de individuos que requieren atención en un día en la ventanilla de un banco
- Número de accidentes de tránsito ocurridos en un mes en la ciudad de Lima
- Número de fallas en una superficie rectangular
- Descripción del recuento de bacterías en unidades de aislamiento
El parámetro de la distribución es λ (λ >0) el promedio de ocurrencias por unidad de observación.
FUNCIÓN DE PROBABILIDAD
e = 2.71828 (base del sistema de logaritmos naturales)
CARACTERÍSTICAS
Sí X ~ P (λ), entonces:
 Valor esperado (Esperanza matemática o media)
E(x) = λ
 Varianza
V(x) = λ
Ejemplo:
En una determinada colectividad, el número de casos de accidentes de trabajo por semana, en promedio es de 3.
Suponiendo que se ajusta a una distribución de Poisson, calcule la probabilidad de que:
a. En la siguiente semana no ocurran accidentes de trabajo
b. En la siguiente semana se produzca exactamente un accidente de trabajo
c. En 4 semanas, se produzca no más de dos accidente de trabajo
d. En 1 mes, se produzca al menos tres accidentes de trabajo
LA DISTRIBUCIÓN DE POISSON COMO APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL

Para “n” muy grande y “p” pequeña en problemas de n ensayos de Bernoulli, X sigue una distribución Binomial,
pero se obtiene una muy buena aproximación con la distribución de Poisson con λ = np, es decir si n ≥ 50 y p≤
0.05, entonces se hará la aproximación.
Ejemplo: Los registros de mantenimiento revelan que solamente 1 de cada 100 máquinas de cierta marca, requiere
de una reparación mayor durante el primer año de uso. El gerente ordenó la compra de 100 de tales máquinas de
esa marca. Encuentre la probabilidad de que:
a. Ninguna de las máquinas requiera una reparación mayor durante el primer año de uso
b. Dos máquinas requieran de una reparación mayor durante el primer año de uso
66
DISTRIBUCIÓN NORMAL
Esta distribución es la de mayor importancia en Estadística, puesto que se presenta naturalmente en muchos casos
reales como peso de grano, peso por hectárea, etc. En plantas de la misma variedad.
En general, son muchas las características continuas que se ajustan al modelo de la distribución normal, cuyos
valores van desde -∞ a +∞.
FUNCIÓN DE DENSIDAD:
e = 2.71828 π = 3.1416 µ y σ: parámetros (media y desviación estándar respectivamente)
Para referir que la variable X se aproxima a la distribución Normal suele escribirse X ~ N (µ, σ).
La representación gráfica se asemeja a una campana y es de forma simétrica. Conocida también como curva ó
Campana de Gauss.
DISTRIBUCIÓN NORMAL ESTANDAR (reducida)
Si X ~ N (µ, σ).y se toma la transformación , la variable aleatoria Z sigue también una distribución
normal con parámetros µ = 0 y σ = 1 y se puede escribir: Z ~ N (0, 1).
LA DISTRIBUCIÓN NORMAL COMO APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL

Si x es una v.a. que sigue una distribución Binomial con parámetros n y p, y se verifica que:
a. 0.10 < p < 0.90
b. np > 5 y nq > 5
Entonces se puede usar la distribución Normal como una aproximación de la Binomial, teniendo en cuenta que
µ=np y σ2 = npq y que además será necesario efectuar la corrección por continuidad como sigue:
P(X= x) equivale a P(x-0.5≤ X ≤ x + 0.5)
Binomial con n y p Normal con µ y σ
P(X ≤ x) equivale a P(X ≤ x + 0.5)
Binomial con n y p Normal con µ y σ
Ejemplo:
El tiempo requerido para ensamblar una pieza mecánica es una v.a. con distribución normal, con media µ=12.9
minutos y desviación estándar σ = 2.0 minutos. ¿Cuáles son las probabilidades de que el ensamblador de tal pieza
mecánica tarde:
a. por lo menos 11.5 minutos?
b. cuando mucho 12.5 minutos
c. entre 11.0 y 14.8 minutos?
67
PRÁCTICA Nº 4
1. Se conoce que en las universidades, sólo 25% de los estudiantes que ingresan a estudiar Ingeniería
de Sistemas, logran terminar sus estudios de pre grado, por lo que un equipo de investigación se propuso
estudiar los factores que influyen en la deserción, para lo cual tomó una muestra de 20 alumnos que están en el
X ciclo de la Carrera de Ingeniería de Sistemas. Calcular la probabilidad de que:
a. Más de la mitad logren culminar su carrera?
b. Exactamente 15 alumnos logren culminar su carrera?
c. Más de 10, pero menos de 15 logren culminar su carrera?
d. Estimar el número promedio de alumnos que no lograrán terminar su carrera.
e. Estimar el número promedio de alumnos que lograrán terminar su carrera.
2. Un estudiante contesta al azar (es decir sin saber nada) 9 preguntas, siendo cada una de 4
respuestas de las cuales sólo una es la correcta.
a) Determinar la distribución de probabilidades del número de preguntas contestadas correctamente.
b) Si para aprobar tal examen debe contestar correctamente al menos 6 preguntas, ¿cuál es la probabilidad de
aprobar el examen?
3. EL número medio de automóviles que llegan a una garita de peaje es de 120 por hora.
a) Calcular la probabilidad de que en un minuto cualquiera no llegue automóvil alguno.
b) Calcular la probabilidad de que en e] período de 3 minutos lleguen más de 5 automóviles.
4. Por estadísticas pasadas se sabe que el 40% de los estudiantes de cierta universidad desaprueban la
asignatura de Estadística General. Si se tiene un grupo de 20 estudiantes. ¿Cuál es la probabilidad de que
desaprueben:
a. 5 o más estudiantes?
b. exactamente 4 estudiantes?
c. más de 7 estudiantes?
d. cuando mucho 10 estudiantes?
68
e. entre 6 y 10 alumnos?
¿Cuál es el número esperado de estudiantes que aprobarían la asignatura de Estadística General?
5. El ingreso familiar mensual en una comunidad tiene distribución normal con media $400 y
desviación estándar $50. Si se elige al azar a una familia de esa comunidad, calcular la probabilidad de que:
a. Tenga ingresos menores a $ 450
b. Tenga ingresos de cuando mucho $ 600
c. Tenga ingresos entre $ 500 y $700
d. Si el 10% de las familias con mayores ingresos debe pagar un impuesto, ¿a partir de que ingreso familiar se
debe pagar el impuesto?
6. Un estudio realizado en las tierras de cultivo de Tarapoto concluye afirmando que la probabilidad
de que cada hectárea de siembra de arroz contenga por lo menos un nido de hormiga es de 0.005 ¿qué
probabilidad hay de que al menos 5 de 600 hectáreas de siembras de arroz escogidas al azar, contengan por lo
menos un nido de hormiga?
7. Una compañía grande dedicada a la construcción tiene en promedio 2 camiones de carga inactivos
en un día cualquiera debido a reparaciones. La compañía tiene 2 camiones extra. ¿Cuál es la probabilidad de
que en un día
a. no se necesite ningún camión extra?
b. El número de camiones extra sea insuficiente?
69
MUESTREO
El principal objetivo de la mayoría de los estudios, análisis o investigaciones, es hacer generalizaciones acertadas
con base en muestras de poblaciones de las que se derivan tales muestras.
Se utiliza con mucha frecuencia en investigación de mercados, ya que ofrece algunos beneficios importantes en
comparación con la realización de un censo. Es una herramienta de la investigación científica cuya función básica
es determinar que parte de una realidad en estudio (población) debe examinarse con la finalidad de hacer
inferencias sobre dicha población.
N unidades
MUESTREO
n unidades
ELEMENTOS FUNDAMENTALES DEL MUESTREO

1. Población Objetivo: Es el conjunto ideal que se pretende estudiar, acerca del cual el investigador desea hacer
la generalización. Debe definirse en términos de su contenido, extensión y tiempo. Los elementos de la
población objetivo pueden ser de carácter social, económico, agropecuario, etc. Rara vez el investigador
puede acceder a la totalidad de la población objetivo.
Ejemplo:
Se desea estudiar algunas características de los estudiantes de Ingeniería civil de la UCV. La población
objetivo estaría conformada por todos los estudiantes de esa universidad y cada uno de ellos constituiría una
unidad de información.
2. Población: Es el conjunto que en realidad podemos estudiar y que han sido escogidos para el estudio y que a
partir de ellos se desea obtener la información. El número de unidades elementales de una población se denota
con la letra N.
Una población infinita es la que contiene un número infinito de unidades elementales; por ejemplo, el
conjunto de piezas que se obtienen en un proceso productivo; en el sentido de que se siguen produciendo
indefinidamente. Otro ejemplo son todos los posibles resultados al lanzar una moneda sin cesar. Número de
peces de un río, número de granos de arroz recolectados de una región.
70
El comportamiento de una población demasiado grande, aún siendo finita, tiende a ser considerada como una
población infinita, al calcular el tamaño de muestra.
Una población es finita cuando tiene un número finito de unidades elementales. Por ejemplo, los estudiantes
de una determinada universidad; el número de escuelas que existen en una determinada ciudad, el número de
árboles de café sembrados en una determinada parcela, etcétera.
3. Plan de muestreo: Conjunto de reglas o especificaciones para seleccionar una muestra. Para el logro de los
objetivos, se diseñará un plan muestral que contemple tres decisiones: a quien entrevistar, a cuántos, y la
forma de recoger la información.
El plan de muestreo es un mapa, ahí se debe definir cuál es el área que requiere mayor tiempo y recursos, y
cuantificarlos; estudiar e identificar los riesgos que puedan ocurrir. Un buen plan de muestreo permite obtener
resultados confiables.
4. Marco muestral: Es el conjunto de todas las unidades de muestreo que conforman la población y que están
disponibles para su elección en la etapa del muestreo. Puede estar conformado por una lista de persona, listado
de unidades de vivienda, mapa subdividido en áreas, lista de nombres y domicilios almacenados en algún
medio electrónico (archivo en disco duro o en una base de datos).
Ejemplo:
- Nómina de pago de los trabajadores de una empresa, fábrica, I.E., etc.
- Listado de matriculados en la UCV
5. Diseño muestral: Una vez que se ha establecido el marco muestral se seleccionaran los elementos que
constituyen la muestra. Este proceso se denomina Diseño de la muestra.
6. Muestra: Es una pequeña porción representativa y adecuada de la población.

Es una parte o subconjunto de la población, seleccionada con el propósito de representar a dicha población. El
proceso de selección de una muestra de n elementos de la población de tamaño N, se llama MUESTREO. El
número de unidades elementales de una población se denota con la letra n.
- Representativa, es decir que la muestra debe tener las mismas características de la población,
constituyéndose en una población en miniatura. Esta debe reflejar fielmente las características de la
población de la cual procede y diferir de ella sólo en el número de unidades incluidas. Una técnica para
obtener muestras representativas de la población es el muestreo aleatorio (probabilístico).
- Adecuada, es decir debe tener un tamaño óptimo para tener resultados precisos y confiables. Esto se
garantiza con una selección al azar (aleatoria). Debe incluir un número óptimo y mínimo de unidades, este
número se determina mediante el empleo de fórmulas estadísticas.
- Aleatoria, es decir que todos los elementos de la población deben tener la misma probabilidad de ser
incluidos (seleccionados) en el estudio.
7. Error de muestreo: Es el error que se comete debido al hecho de que se obtienen conclusiones acerca del
total (población) a partir de la observación de sólo una parte de ella (muestra).
71
8. Unidad de muestreo: Son cada uno de los elementos de la población que mediante técnicas de muestreo van a
ser seleccionados para constituir la muestra. Es el individuo, entidad u objeto, al cual deseamos observar todas
o algunas de sus características. Las unidades de muestreo las elige el investigador y deben ser adecuadas al
objeto de la investigación.
Ejemplo:
Una persona, una familia, una vivienda, una manzana, un barrio, un establecimiento, una historia clínica, una
ficha, una empresa, etc.
9. Variables: Son las características que se investigan en una unidad o elemento, las cuales se clasifican en
cualitativas y cuantitativas.
Cualitativas: Son atributos susceptibles de ser expresados en palabras, por ejemplo: Ocupación, profesión,
sexo, actividad económica, nacionalidad, marcas de ropa, puertos de embarque, estado civil, etc. Son de escala
nominal u ordinal.
Cuantitativas: Se expresan numéricamente, por ejemplo: Ingresos, ventas, consumos, edad, estatura, gasto,
número de empleados, etc. Son de escala de intervalo o de cociente (razón).
OBJETIVO DEL MUESTREO

El objetivo fundamental del muestreo es obtener conclusiones válidas sobre la población de la cual se obtuvo la
muestra.
MUESTREO
POBLACIÓ Muestra
CONCLUSIONE
N
VENTAJAS DEL MUESTREO
- Costo reducido: Permite conocer con relativa aproximación determinadas características de una población de
gran tamaño dentro de un costo razonable y en menor tiempo que si se estudiara dicha población al 100%.
Debido a que sólo se estudia una pequeña fracción del total, los gastos son menores que llevar a cabo un censo
completo.
- Mayor exactitud: Permite mayor exactitud de los resultados que un estudio al 100%, aunque parezca
paradójico, puesto que los factores artificiales de variación pueden controlarse mejor debido a que al reducir el
volumen de trabajo se puede emplear personal más capacitado y someterlo a un entrenamiento intensivo. Así
mismo estas condiciones serán factibles para una supervisión cuidadosa del trabajo de campo y del
procesamiento de los resultados, por lo tanto una muestra puede producir resultados más exactos que la
enumeración completa.
- Mayor rapidez: Cuando se realizan elecciones, estamos acostumbrados a ver los resultados del escrutinio de
las primeras mesas de sufragio, de las cuales se obtiene una aproximación bastante buena del resultado final
72
con muchas horas antes del recuento final de votos. Los datos pueden ser recolectados y procesados más
rápidamente con una muestra que con un censo, y dar resultados más oportunos.
- Mayor alcance (más posibilidades): Cuando el universo es infinito o muy grande, entonces el estudio sólo se
podrá realizar mediante una muestra. Asimismo cuando se trata de ensayos destructivos o no recuperables,
necesariamente se tendrá que utilizar una muestra y no el 100% de la inspección. Las encuestas basadas en el
muestreo tienen más posibilidades y flexibilidad respecto a la información que puede obtenerse.
DESVENTAJA DEL MUESTREO

Por buena que pueda ser la muestra y los cuidados puestos en ella, siempre existe el riesgo de sesgo debido a
factores a aleatorios. Dicho riesgo debe ser establecido a priori por el investigador de modo que se tenga suficiente
garantía de la muestra seleccionada.
TIPOS
1. Muestreo No probabilístico
Es aquel en el que la selección de los elementos de la muestra no se hace al azar sino según el criterio del
investigador por lo cual suele presentar grandes sesgos y es poco fiable. No se puede extrapolar los resultados
a la población.
En este tipo de muestreo puede haber clara influencia de la persona o personas que seleccionan la muestra o
simplemente se realiza atendiendo a razones de comodidad. Cuando la aplicación del muestreo probabilístico
supone demasiado costo o tiempo, los investigadores aplican el muestreo el muestreo no probabilístico.
Algunos investigadores sienten que este tipo de muestreo puede, en muchas circunstancias ser muy útil,
incluso no pueda medirse el error muestral.
Este método está sujeto a errores ya que se confía en el juicio subjetivo de los seres humanos, tal como sucede
en las encuestas de opinión que realizan los locutores deportivos, cuando se juega un partido de futbol o en las
entrevistas para la televisión, radio, prensa, hechas en las principales vías de las ciudades, con el ánimo de
conocer la opinión sobre algún asunto de interés para la comunidad.
Entre ellos se tiene:
- Por cuotas
Consiste en un número de entrevistas, encuestas, condiciones o cuotas que se le fijan al encuestador para
que a su vez seleccione los elementos en la forma que considere oportuno, por lo cual se presta a
distorsiones. Es ampliamente utilizado en encuestas sobre opinión electoral, investigación de mercado o
similares.
Ejemplo:
El encuestador obtiene información acerca de un número específico de personas de cierta edad, sexo, nivel
de ingresos, etc.
73
- Por conveniencia
Consiste en incluir en el estudio a los individuos más accesibles o que están más al alcance del
investigador. A veces se recurre a voluntarios, lo cual tiene el inconveniente de que pueden no ser
representativos de la población, es más utilizado en investigaciones preliminares, exploratorias y pruebas
de cuestionarios.
Ejemplo:
Se desea investigar el consumo de drogas entre jóvenes. El investigador selecciona por conveniencia
determinados puntos de la ciudad donde habitualmente se concentran los jóvenes y entrevista a un número
que considera razonable sin utilizar ningún otro criterio de selección adicional. Este procedimiento facilita
la capacitación de unidades muestrales válidas para el estudio.
- Bola de nieve
Se emplea muy frecuentemente cuando se hacen estudios con poblaciones “marginales”, delincuentes,
sectas, determinados tipos de enfermos, etc.
Se localiza a algunos individuos y se les entrevista, éstos conducen a otros, y estos otros a otros más, y así
sucesivamente hasta conseguir una muestra suficiente.
2. Muestreo Probabilístico
Permite que en el proceso de selección de la muestra, cada elemento que compone la población tenga una
probabilidad perfectamente conocida de ser incluido en la muestra. Este método es el más recomendable
debido a que asegura la representatividad de la muestra extraída. Es el único científicamente válido y que
permite realizar inferencias.
Este muestreo satisface la exigencia intuitiva de disminuir o eliminar la carga subjetiva que podría influir en la
elección en la elección de los elementos que se van a examinar. Son los únicos en los que se puede fijar el
nivel de confianza y calcular los errores de muestreo. Entre ellos se tiene:
- Muestreo aleatorio simple (MAS)
Es un procedimiento de selección de una muestra por la cual todos y cada uno de los elementos de la
población tienen oportunidad igual e independiente de ser incluidos en la muestra. Es indispensable contar
con un marco de referencia, es decir una lista de las unidades, que resulta de la información previamente
disponible, respecto a la población sobre la cual se basan los esquemas particulares de muestreo.
- Muestreo aleatorio estratificado (MAE)

Requiere que la población esté dividida en grupos heterogéneos o clases llamados estratos, y en cada
estrato los elementos sean homogéneos. Se toma una muestra de cada estrato por el método aleatorio
simple. Permite una selección más eficiente que el obtenido mediante el M.A.S., en especial cuando la
característica que se investiga presenta gran variabilidad. Se centra en obtener unidades homogéneas dentro
74
de los estratos y heterogéneos entre ellos. Permite analizar las diferencias entre estratos de manera que se
puedan identificar más fácilmente aquellos grupos que requieren de una mayor atención.
- Muestreo sistemático
Consiste en elegir el primer individuo al azar y el resto de manera sistemática, cada k-ésimo elemento.
Con el muestreo sistemático se logra mayor eficiencia si las unidades que se hallan próximas tienen mayor
uniformidad que las unidades que se encuentran alejadas entre sí. Es especialmente útil en auditorías,
cuando la información relevante se registra en forma ordenada, como en la memoria de una computadora o
en un archivo de tarjetas.
- Muestreo por conglomerados

Consiste en dividir a la población en grupos o conglomerados de unidades y se extrae una muestra de
conglomerados que representan a la población. La unidad de muestreo es un conglomerado de elementos.
El interés de este muestreo se centra en obtener en lo posible, unidades heterogéneas dentro de los
conglomerados y homogéneos entre ellos.
75
ESTADÍSTICA INFERENCIAL
Es parte de la estadística en la que se hacen afirmaciones acerca de la población o de sus parámetros en base a la
información obtenida de una muestra o muestras extraídas de dicha población, para tomar decisiones frente a
situaciones de incertidumbre.
ESTIMACIÓN DE PARÁMETROS
8. Estimación puntual:
El parámetro θ se estima en base a un número que se escucha a partir de una muestra (este valor es un
aproximado del valor exacto desconocido θ).
θ: μ, σ2, π : , S2, p
9. Estimación interválica (Intervalo de confianza):
Una vez rechazada la hipótesis nula (Ho) surge la natural inquietud por resolver ¿cuál es el parámetro?, puesto
que no es μ0 (valor supuesto). Con el valor muestral de ya se tiene una estimación del parámetro μ
(estimación puntual), pero no se tiene gran confiabilidad de que este valor sea precisamente el parámetro, por
lo que resulta mucho más conveniente construir un intervalo confidencial para µ, con lo que se llegara a
proporcionar una estimación interválica, la cual es mucho más confiable porque se tiene en cuenta la
variabilidad del estimador . Los límites confidenciales que determinan este intervalo son dos puntos
L1: Límite inferior y L2: Límite superior
En base a una muestra aleatoria y su correspondiente estadístico se trata de encontrar un intervalo
(intervalo de confianza) el cual debe contener el parámetro θ, con una probabilidad dada de 1- α (nivel de
confianza).
1- α
α/2 α/2
L1 θ L2
La estimación interválica consiste en calcular L 1 y L2, dada una muestra aleatoria y un nivel de confianza (1-
α). Se dice que θ tiene una confianza de 100(1- α) % que se encuentre en el intervalo.
L1 y L2 son límites de confianza
2.1 Estimación interválica para la Media Poblacional (μ):
Si n<30 y σ desconocido, entonces usar la distribución T-Student, caso contrario la distribución normal Z (se
puede estimar σ mediante S).
76
2.2 Estimación interválica para la proporción poblacional (π):
2.3 Estimación interválica para la Varianza Poblacional (σ2):
2.4 Estimación interválica para la diferencia entre dos medias
Para y <30 y varianzas y desconocidas pero iguales, se usa:
Para y <30 y varianzas y desconocidas pero supuestamente diferentes, se usa:
Donde r se calcula:
Si r no es entero, entonces se debe aproximar al entero más cercano.
2.5 Estimación interválica para la diferencia entre dos proporciones poblacionales :
77
2.6 Estimación interválica para la razón entre dos varianzas :
78
PRUEBA DE HIPÓTESIS
Una hipótesis estadística es una suposición (afirmación o conjetura) que se plantea acerca de la distribución de una
o más variables aleatorias ó poblaciones.
1. Definición:
Es una técnica que se sigue mediante observaciones muestrales para decidir si ACEPTAR ó RECHAZAR una
hipótesis estadística. A partir de la información muestral se puede determinar que unidades satisfacen la
hipótesis y que unidades no.
2. Elementos:
2.1 Hipótesis nula (Ho): Conocida también como la hipótesis de no diferencia, es la hipótesis estadística
principal, es establecida con el único propósito de rechazarla o anularla.
2.2 Hipótesis alternativa (H 1): Es la hipótesis opuesta a la hipótesis nula Ho, es decir es aquella que
contradice a Ho y sirve para contrastarla.
3. Tipos de prueba:
Unilaterales (una cola):
3.1.1. Cola inferior o de cola a la izquierda:
Ho: θ = θo
H1: θ < θo
3.1.2. Cola superior o de cola a la derecha:

Ho: θ = θo
H1: θ > θo
Bilateral (dos colas):

Ho: θ = θo
H1: θ ≠ θo
4. Errores:
4.1. Error tipo I: Ocurre cuando se RECHAZA una hipótesis correcta ó verdadera.
4.2. Error tipo II: Ocurre cuando se ACEPTA una hipótesis falsa o incorrecta.
Decisión Ho verdadera Ho falsa

Rechazar Ho Error tipo I Decisión correcta
Probabilidad: α Probabilidad: 1- β
Aceptar Ho Decisión correcta Error tipo II
Probabilidad: 1- Probabilidad: β
α
79
5. Nivel de significación o riesgo:

Está representada por α y los valores que frecuentemente toma es 0.01 ó 0.05, pero el más utilizado es 0.05 (α =
5%).
6. Regiones de aceptación y de rechazo:

A partir de la información muestral se puede determinar que unidades satisfacen la hipótesis y que unidades no,
el problema fundamental radica en precisar el punto crítico tal que se establezcan las regiones de aceptación y
de rechazo.
 Región de Aceptación: Es la que contiene los valores para los cuales no se rechaza la hipótesis
formulada.
 Región de rechazo: Es la que contiene los valores para los cuales se rechaza la hipótesis formulada.
7. Procedimiento para formular una prueba de hipótesis:

Relativa al parámetro θ de una población.
- Formular la hipótesis nula Ho de acuerdo al problema.
Ho: θ = θo
- Formular la hipótesis alternativa adecuada, que puede ser una de estas tres:
Ho: θ < θo
Ho: θ > θo
Ho: θ ≠ θo
- Escoger el nivel de significación o riesgo α (generalmente es igual a 0.05)
Si se utiliza la distribución normal, se puede hacer uso de estos valores:
Α 0.20 0.10 0.05 0.02 0.01 0.005 0.002 0.001
1-α 0.80 0.90 0.95 0.98 0.99 0.995 0.998 0.999
Z1-α (una cola) ± ± 1.2817 ± 1.645 ± ± 2.327 ± 2.88 ± 2.575 ± 3.09
Z 1-α/2 (dos colas) ± 1.28 ± 1.645 ± 1.96 ± 2.327 ± 2.575 ± 3.08 ± 2.81 ± 3.29
Cuando se trabaja con una cola, tener en cuenta que para cola a la izquierda tomar el coeficiente de
confianza (Z) con signo negativo, y para cola a la derecha tomar dicho coeficiente con signo positivo.
- Seleccionar la Estadística de Prueba adecuada.

- Establecer la regla de decisión determinando la región crítica de la prueba ó los valores críticos.
- Calcular el valor del estadístico de la prueba a partir de los datos de la muestra.
- Tomar la decisión de rechazar la hipótesis nula Ho, si el valor del estadístico de la prueba está en la región
crítica. En caso contrario, no rechazar Ho.
- Formular la conclusión.
Las pruebas de hipótesis se realizan para los diferentes parámetros de la población; éstas son para la media, para la
varianza, para la proporción, así como para sus respectivas diferencias y razón.
80
PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL
Ho: µ = µo
H 1: Rechazar Ho si: (Región crítica)
µ > µo Zc > Z1-α
µ < µo Zc < -Z1-α
µ ≠ µo ‫׀‬Zc‫ >׀‬Z 1-α/2
Estadístico de Prueba:
~ N(0,1)
Si la población Normal con σ 2 desconocido y n<30, entonces no usar la distribución normal, sino usar la
distribución T- Student, es decir el coeficiente de confianza no será z sino será t (n-1), donde n-1 son los grados de
libertad de la distribución T-Student, por lo tanto el estadístico de Prueba será el siguiente:
~ t(n-1)
PRUEBA DE HIPÓTESIS PARA LA PROPORCIÓN POBLACIONAL
o
Ho: π = π
H 1: Rechazar Ho si: (Región crítica)
π > πo Zc > Z1-α
π < πo Zc < -Z1-α
π ≠ πo ‫׀‬Zc‫ >׀‬Z 1-α/2
~ N(0,1)
PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA ENTRE DOS MEDIAS
81
Ho: µ1 = µ2 = δ
H1: Rechazar Ho si: (Región crítica)
Zc > Z1-α
µ1 > µ2 tc > t1 -α
µ1 - µ2 > δ
Si y es desconocido y < 30, usar t1 -α en lugar de Z1-
α.
Zc < -Z1-α
µ1 < µ2 tc < -t1-α
µ1 - µ2 < δ
Si y es desconocido y < 30, usar t1 -α en lugar de Z1-
α.
µ1 ≠ µ2 ‫׀‬Zc‫ >׀‬Z 1-α/2

µ1 - µ2 ≠ δ ‫׀‬tc‫ >׀‬t 1-α/2
Si y es desconocido y < 30, usar t1 –α/2 en lugar de Z

1-α/2
1. Para ≥ 30 (muestras grandes) y las varianzas y supuestas conocidas:
~ N(0,1)
2. Para ≥ 30 (muestras grandes) y las varianzas y supuestas desconocidas:
~ N(0,1)
3. Si < 30 (muestras pequeñas) y las varianzas = son supuestas desconocidas:
4. Si < 30 (muestras pequeñas) y las varianzas ≠ son supuestas desconocidas:
Donde r es igual a:
82
Si r no es entero, entonces aproximar al entero más cercano.
83
PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA ENTRE DOS PROPORCIONES
Ho: π1 - π2 = δ
H1: Rechazar Ho si: (Región crítica)
π1 > π2
π1 - π2> δ Zc > Z1-α
tc > t1-α
Si < 30, usar en lugar de Z1-α.
π1 < π2
π1 - π2< δ Zc < -Z1-α
tc < -t1-α
Si < 30, usar en lugar de Z1-α.
π1 ≠ π2
π1 - π2 ≠ δ ‫׀‬Zc‫ >׀‬Z 1-α/2
‫׀‬tc‫ >׀‬t 1-α/2
Si < 30, usar en lugar de
~ N(0,1) con
Si < 30, usar la distribución T-Student:
84
PRÁCTICA Nº 5
1. El fabricante de cierto tipo de cigarrillos asegura que éstos

contienen una media de 14 mg. de alquitrán. Se seleccionan 5 cigarrillos aleatoriamente y se obtiene que
contienen 14.5, 14.2, 14.4, 14.3 y 14.6 mg. de alquitrán. Construya un intervalo del 95% de confianza para la
media del contenido de alquitrán por cigarrillo. Establezca los supuestos necesarios.
2. Se estima que el 60% de conductores son varones. Por

otra parte, un estudio realizado en 120 accidentes de tránsito muestra que el 70% de los accidentes fueron
provocados por un varón conductor ¿se puede concluir que los varones son más peligrosos al volante?
3. Se quiere comparar el rendimiento promedio en el trabajo

de 2 grupos de trabajadores, registrándose sus tiempos en realizar un trabajo:
Equipo 1 59 73 74 61 92 60 84 54 73 47 102 75 33
Equipo 2 71 63 40 34 38 48 60 75 47 41 44 86 53 68 39
¿Ambos grupos tienen igual rendimiento promedio?
4. Se sembró en forma experimental una nueva variedad de uvas en el viñedo de San pedro
de San Martín. El empresario agroindustrial dueño del viñedo afirma que el peso promedio por racimo es de al
menos 160 gramos; sin embargo una muestra de 10 racimos de la uva de la reciente cosechada ha dado los
siguientes pesos en gramos: 157, 157, 163, 158, 161, 159, 162, 159, 158, 156
¿Cree usted que el empresario tiene la razón?. Utilice un nivel de significación del 5% y asuma que la población
de pesos de los racimos tiene distribución normal. ¿Cuáles son los límites inferior y superior donde se ubica el
verdadero peso medio de los racimos de uvas con un riesgo de 0.05?
5. EJEMPLO 1 DE APLICACIONES EN TESIS DE INVESTIGACIÓN

El objetivo de una tesis de maestría fue el siguiente: Determinar la influencia que ejerce el uso de los juegos
matemáticos en el rendimiento académico de las operaciones básicas en el área de Matemática en las
estudiantes del tercer grado de primaria de la Institución Educativa N°18288 “Isabel Lynch de Rubio” de
Chachapoyas - 2012. Con los datos reales, ¿a qué conclusiones llegaría Usted?
GRUPO EXPERIMENTAL GRUPO CONTROL
N° PRE TEST POST TEST PRE TEST POST TEST
1 8 13 9 6
2 6 12 10 10
3 8 12 10 10
4 7 10 9 11
5 9 10 12 12
6 10 10 9 14
7 5 10 8 9
8 9 13 9 11
9 9 12 9 11
10 11 12 11 9
11 7 9 11 10
12 9 11 8 11
13 12 14 10 9
14 12 13 5 10
85
15 5 9 6 13
16 5 8 5 12
17 8 9 5 10
18 9 13 8 10
19 9 12 8 10
20 11 13 7 10
21 4 10 10 11
22 9 13 12 9
23 9 16 8 10
24 10 18 8 10
25 10 16 7 10
26 7 16 9 13
27 11 14 11 10
28 5 12 10 12
29 8 12 9 12
30 7 13 10 12
31 14 16
32 11 13
33 12 12
34 9 11
35 5 15
36 8 11
37 11 11
38 8 10
39 8 10
40 10 10
41 11 12
42 13 13
43 5 11
44 14 16
45 13 14
46 13 15
47 15 14
48 10 12
49 9 11
50 11 14
51 12 13
52 10 15
53 10 14
54 10 11
55 14 16
56 12 12
57 10 14
58 10 10
59 11 10
86
60 11 15
61 8 11
62 10 10
63 12 14
64 11 13
65 10 16
66 9 10
6. EJEMPLO 2 DE APLICACIONES EN TESIS DE INVESTIGACIÓN

Con la información de la siguiente tabla:
a. Calcular los estadísticos descriptivos
b. Mediante un gráfico de líneas comparar la tendencia de la evolución de los puntajes obtenidos en el pre y
en el post test de los 15 estudiantes
c. Graficar los puntajes promedios de las 5 evaluaciones
d. Realizar las pruebas de hipótesis correspondientes (experimental y control en el pre test y experimental y
control en el post test)
e. Realizar las pruebas de hipótesis correspondientes (experimental en el pre y post test y control en el pre test
y post test)
f. Reagrupar los puntajes según niveles de aprendizaje para ambos grupos, evalué y grafique la información
Puntaje del nivel de aprendizaje de los estudiantes que conformaron el grupo experimental.
Evaluaciones objetivas
nº Pre test 1 2 3 4 5 Post test
1 11 10 11 12 12 14 14
2 13 12 12 14 14 16 16
3 14 12 14 14 16 18 17
4 11 10 12 12 13 13 13
5 12 10 11 13 14 16 15
6 11 10 12 12 14 14 14
7 10 10 12 12 14 16 15
8 9 8 10 12 15 14 13
9 12 10 12 14 14 16 16
10 13 12 12 Grupo14 Control
16 16 16
11 Nº 14 12 Pre 14 14 16 Post18test 18
test
12 15 13 14 16 16 18 18
01 10 11
13 02 12 12 12
11 14 14 16
12 16
14 03 13 11 13 15 16 17 17
09 11
15 04 10 10 12
11 14 14 14
11 14
05 12 13
06 13 12
07 08 10
08 11 11
09 10 11
10 12 12
11 12 13
12 14 14
13 09 09
14 11 11
15 08 10
Promedio
Desviación Estándar
Varianza
Coeficiente de 87
Variación
Mediana
Moda
REFERENCIAS BIBLIOGRAFICAS
1. AVILA, Roberto. 2000. "Estadística Elemental". Edit. R.A. Lima – Perú.
2. CORDOVA ZAMORA, Manuel. Estadística: Descriptiva e Inferencial
3. D'OTTONE, Horacio. 1982. "Estadística". Cooperativa de Cultura. Publicaciones y Multiactiva Ltda.

Santiago – Chile.
4. GARCIA ORE. 1995. Distribuciones y Estadística Inferencial. Edit. San Marcos.
5. GENE Y GLASS/JULIAN C. STANLEY. 1996. Métodos aplicados a las ciencias sociales México
Editorial Prentice-Hill
6. HERNÁNDEZ SAMPIERI y col. 2003. “Metodología de la investigación”. 3era edición. Edit. Mc Graw
Hill.
7. LINCOYAN, Govincen. 1984. “Curso Práctico de Estadística". Edit. Mc. Graw - Hill Latinoamericano,
S.A. Bogotá – Colombia.
8. MARTINEZ BENCARDINO, Ciro. 2002. Estadística y Muestreo. Ecoe Ediciones
9. MENDENHALL, William. 1998. Introducción a la Probabilidad y la Estadística, 4ta. ed., Universidad

de Florida.
10. MOYA C., Rufino, SARAVIA A. 1988. Estadística Descriptiva. Segunda Edición. Perú
11. RONALD E. WALPOLE y RAYMOND H. MYERS. 1989. Probabilidad y estadística. Cuarta Edición.
Editorial Mc Graw Hill Interamericana.
12. STEVENSON, William. 1981. “Estadística para Administración y Economía" Edit. Harla S.A.
México.
88

Separata de Estadistica - Untrm 2014

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Separata de Estadistica - Untrm 2014

Cargado por

Copyright:

Formatos disponibles

Universidad Toribio Rodríguez de Mendoza de

ASPECTOS BÁ SICOS DE LA ESTADÍSTICA Y

La Estadística estudia el comportamiento de los fenómenos de masas, por tanto, el objetivo de la

1.3.1 Estadística descriptiva: Es el conjunto de métodos que implican la recolección, presentación y

1.4 DEFINICIÓN DE TÉRMINOS

1.4.2 Muestra: Es un subconjunto que seleccionamos de la población, es decir, es una parte o

Características Respuesta Naturaleza

ETAPAS DE LA INVESTIGACIÓN ESTADÍSTICA

¿Dónde se identifica la variable?: El atributo, característica a estudiar en un sujeto u objeto se identifica:

¿Dónde definimos a las variables?

¿Dónde observamos o medimos a las variables?

Las variables deben ser definidas en dos formas: conceptual y operacionalmente.

Sexo: a. Varón b. Mujer

 MUESTRA: Usuarios de TELEFONICA en la ciudad de Lima

Estado civil: a. Soltero b. Casado c. Viudo d. Divorciado

Tiempo de cliente de TELEFÓNICA (años):

Opinión acerca de los costos de telefonía

Opinión del servicio de telefonía de la empresa TELEFÓNICA

ELEMENTOS DE UNA VARIABLE

Ejemplo 3: Tendencia de la tasa de analfabetismo de la población mayor de 15 años. 1980 - 2005

Escala de Definición Tipo de Ejemplos

Es una escala ordinal con cuyos valores no

Las variables cuantitativas tienen escalas de intervalo o

NOMINAL ORDINAL INTERVALO RAZÓN

1. Teniendo en cuenta los siguientes enunciados, dentro de los

4. De los siguientes enunciados clasifique las variables según su naturaleza:

PROCESO DE OPERACIONALIZACIÓN DE UNA VARIABLE

- Es un conjunto de operaciones secuenciales para la conversión de una variable en dato.

La operacionalización comprende tres tipos de definiciones:

PASOS EN EL PROCESO DE OPERACIONALIZACIÓN DE UNA VARIABLE

Variables Conceptualización Dimensiones Indicador Escala Categorías

escolaridad Años Estudiados Ordinal Secundaria

cepillado que realiza un Nº de veces de 1 vez/día

CONSTRUCCIÓN DE CUADROS DE DISTRIBUCIÓN DE FRECUENCIAS

1. DEFINICIÓN: Un cuadro estadístico es un arreglo ordenado de filas y columnas de datos ó características

X min: valor mínimo de la variable X máx: valor máximo de la variable

2do intervalo: y así sucesivamente hasta el intervalo k.

: Frecuencia absoluta acumulada

: Frecuencia relativa acumulada

- Tabular los datos (hacer el recuento) y llenar las frecuencias respectivas

CONSTRUCCIÓN DE GRÁFICOS ESTADÍSTICOS

CUADRO Nº 1: Distribución de empleados de la fábrica de cemento Pacasmayo, según sexo. 2013.

GRÁFICO Nº 1: Distribución de empleados de la fábrica de cemento Pacasmayo, según sexo. 2013.

3. Gráfico de bastones: Se usa para graficar variables cuantitativas discretas. Ejemplo:

GRÁFICO Nº 3: Distribución de empleados de la fábrica de cemento Pacasmayo, según el número de

5. Polígono de frecuencias: Se presenta una comparación de distribución de frecuencias en escalas

7. Gráfico de Ojiva: Se utiliza para graficar alguna de las frecuencias acumulativas.

Zona de daño nº accidentes

Las áreas con proporcionales a las frecuencias

EJEMPLOS PRÁCTICOS DE CUADROS Y GRÁFICOS ESTADÍSTICOS

b. Interprete las frecuencias f2, h1, F3, H4%

Con los datos construya:

Los 7 intervalos del cuadro estadístico son:

Tiempo (en segundos) nº empleados

Para elaborar el gráfico de Ojiva, se calcula la frecuencia a cumulada Fi

Ejemplo con SPSS:

Los siguientes datos se tomaron de un grupo de alumnos de

Cuadro 1: Distribución de los alumnos de segundo año de secundaria

Del cuadro se puede interpretar:

Fuente: Encuesta sociodemográfica.

La misma información se puede representar mediante el siguiente gráfico:

Gráfico 2: Sexo de los alumnos de segundo año de secundaria de la I.E. Monterrey.