Material para Maestria Administracion

Métodos Cuantitativos
Universidad Nacional Autónoma de Nicaragua

Facultad de Ciencias Económicas
Maestría en Administración de Negocios
Msc. Isabel Velásquez Pinell

Docente, UNAN Managua
Managua, octubre 2018
4
Universidad Nacional Autónoma de Nicaragua

Facultad de Ciencias Económicas
Maestría en Administración de Negocios
Objetivo General:
Contextualizar algunas visiones de las distintas aplicaciones de la estadística

descriptiva e inferencial al campo empresarial.
Objetivos Específicos:
1. Proporcionar a los estudiantes las herramientas y los modelos básicos para

una eficiente toma de decisiones.
2. Trabajar con el paquete estadístico SPSS para el procesamiento de datos

que permitan su interpretación y análisis para una correcta toma de
decisiones.
3. Identificar los métodos empleados para la captura y procesamiento de las

variables de respuesta múltiple, abordando los procedimientos empleados
en el análisis descriptivo.
Contenido Página
I. Estadística Descriptiva 1
II. Introducción al manejo de SPSS para windows 17
III. Probabilidades 27
IV. Introducción al muestreo y la estimación 36
V. Análisis de regresión y correlación 65
Evaluaciones
 Caso 1 (10 puntos)

 Trabajo de grupo (20 puntos)
 Examen Final (20 puntos)
 Trabajo final (30 puntos)
Material elaborado para uso de la maestría
Elaborado por: Msc. Isabel Velásquez Pinell

Docente, UNAN-Managua
INDICE DE CONTENIDO
Tema 1. Estadística descriptiva
1.1 Introducción…………………………………………………………..1
1.2 Conceptos básicos…………………………………………………….1
1.3 Procedimiento básico para realizar análisis estadístico………………3
1.4 Organización (resumen) de los datos…………………………………3
1.5 Caracterización ( análisis) de los datos………………………………7
1.6 Ejercicios de aplicación………………………………………………15
Tema 2. Introducción al manejo de SPSS para Windows

2.1 Introducción…………………………………………………………...17
2.2 Crear archivos o ficheros de datos en SPSS……………………….….17
2.3 Estudio de las variables del fichero de datos………………………….21
2.4 Recodificación de variables…………………………………………...21
2.5 Estadística bivariable (tablas de contingencia)………………………..22
2.6 Comparación de medias…………………………………………...…..23
2.7 Intervalos de confianza para la media…………………………………24
2.8 Análisis exploratorio de datos………………………………………...24
2.9 Regresión lineal………………………………………………………..26
Tema 3. Probabilidades
3.1 Introducción……………………………………………………………27
3.2 Conceptos básicos……………………………………………………...27
3.3 Enfoques de probabilidades……………………………………………27
3.4 Reglas básicas de probabilidad………………………………………...28
3.5 Probabilidad condicional……………………………………………….29
3.6 Regla de la multiplicación……………………………………………..29
3.7 Independencia Estadística…………………………………………..…30
3.8 Teorema de Bayes…………………………………………………..…30
3.9 Ejercicios propuestos……………………………………………..……31
Tema 4. Introducción al muestreo y la estimación

4.1 El modelo normal………………………………………………………36
4.2 Distribución normal estándar…………………………………………..38
4.3 Estudio de la normalidad……………………………………………….42
4.4 Métodos de muestreo…………………………………………………..45
4.5 Conceptos básicos (Muestreo).…………………………………….…..46
4.6Muestreo aleatorio simple……………………………………..………..46
4.7Como seleccionar una muestra aleatoria simple………..……………….47
4.8 Estimador puntual y por intervalo………………………………….….48

4.9 Estimador por intervalo para  y τ cuando  es conocida…….….49
4.10 Estimador por intervalo para  y  cuando  es desconocida……….……
50
4.11 Estimador por intervalo para P y 
…………………………………………………………..52
4.12 El tamaño de muestra………………………………………………...53
4.13 Prueba de hipótesis…………………………………………….…..…57
4.14 Ejercicios propuestos………………………………………..………..61
Tema 5. Análisis de regresión y correlación

5.1 Introducción…………………………………………………….….….65
5.2 Aspectos teóricos…………………………………………………..….65
5.3 Análisis estadístico regresión lineal simple………………………..….66
5.4 Tabla de análisis de varianza………………………………………..…70
5.5 Análisis de Correlación…………………………………………….….71
5.6 Prueba de significación sobre 1……………………………………..73
5.7 Crostabs –chi Cuadrado………………………………………………..73
5.8 Ejercicios propuestos…………………………………………………..74
Tema 1: Estadística descriptiva
1.1 Introducción
Este material ha sido preparado po r la p rofesora de Estadísti ca s Apli cad as

para ser utilizadas por los estudiantes como material de consulta alternativo de
los textos recomendados en la bibliografía. El material difiere del contenido de
los clásicos textos de estadísticas puras porque como el curso es para
estudiantes de administración, el mismo no se ocupa de demostrar propiedades y
teoremas, sino de aplicar estos resultados para la resolución de problemas
relevantes de la ciencia económica y administrativa.
Con el desarrollo de nuevas tecnologías, los cálculos estadísticos dejaron de ser

una ardua tarea digna de un genio y se han convertido en una labor relativamente
sencilla que cualquier persona puede realizar. En la actualidad existen en el
mercado diversos software para el análisis de datos, destacándose entre ellos el
paquete estadístico SPSS (statistical package for the social sciences)
principalmente por su gran capacidad, la facilidad de uso y su adaptabilidad a la
mayoría de las ramas de la ciencia y los negocios.es por esta razón que el capitulo
II es un pequeño manual del uso de este software.
Los ejercicios y casos prácticos han sido seleccionados de forma de contemplar

todos los temas del programa;. Estos casos prácticos tienen el propósito de
mostrar las aplicaciones, así como ejercitar a los estudiantes en el uso de los
conceptos de la estadística y el análisis , Aplicando la metodología de aprender
haciendo.
De esta forma se espera que los alumnos adquieran familiaridad con el

instrumental estadístico para lograr un buen aprovechamiento en las
siguientes asignaturas de la maestría.
1.2 Conceptos Básicos
¿Qué es la estadística?
La Estadística estudia los métodos y procedimientos para recopilar, organizar,
presentar y analizar datos, siempre y cuando la variabilidad e incertidumbre sea
una causa intrínsica de los mismos; así como de realizar inferencias a partir de
ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular
predicciones.
División de la estadística
Estadística descriptiva
Es la parte de la estadística que estudia los métodos de recopilación,

organización, presentación y caracterización o análisis de un conjunto de datos.
Estadística inferencial
Estudia los métodos que hacen posible la estimación de un parámetro en base a
datos muéstrales.
Población
Es un conjunto de elementos de naturaleza cualquiera de los cuales estamos
interesados en estudiar al menos una característica común y observable de dichos
elementos en un determinado lugar y en un momento dado.
Muestra
Es una parte de la población que se espera sea representativa de ella. Con
frecuencia usaremos el término muestra para referirnos a los datos muestrales,
x1 , x2 , … , xn
Parámetros
Es una medida que proviene de todos los datos de la población. Los parámetros
son constantes que representan por lo general características de la población.
Generalmente se representan por letras griegas.
Estadístico o estimador
Es una medida que proviene de los datos muestrales. Las estimaciones varían de
una muestra a otra y representan características de las muestras.
Variables
Utilizaremos variables como X, Y, Z, etc. para representar las características de
los elementos
Existen básicamente 2 tipos de variables:
Variables cualitativas: Son las que producen respuestas categóricas. ( atributos o
modalidades )
Variables cuantitativas : Son las que producen respuestas numéricas. (valores)
Si X representa la edad entonces X es cuantitativa.

Si Y representa el sexo entonces Y es cualitativa.
Las variables cuantitativas pueden considerarse como variables discretas y
variables contínuas.
Variables discretas: Son aquellas cuyos valores posibles tienen interrupción

( esto es, se separan sin haber valores intermedios ) Por lo general provienen de
un proceso de conteo.
Si Z representa el número de asignaturas que lleva entonces Z es discreta.
Variables contínuas: Son aquellas cuyos valores posibles no tienen interrupción.

Por lo general provienen de un proceso de medición.
Si X representa la estatura entonces X es continúa.
Datos estadísticos
Loa valores posibles de una característica X los denotaremos por x , mientras que
los valores realmente observados de esa característica X , los llamaremos datos y
los denotaremos por xi donde el valor del subíndice i nos indica que es la i-ésima
observación de X.
1.3 Procedimiento básico para realizar análisis estadístico

El método científico que utiliza la estadística puede verse como un estudio que
consta de etapas, para cumplir con el fin de cada etapa se utilizan técnicas
especiales.
Recopilación de datos
Organización de datos
Presentación de datos
Análisis simple de datos Inferencia Estadística
Los datos son la población

o una muestra
Interpretación de los
resultados del análisis
Recopilación de datos
Consiste en la utilización adecuada de técnicas que permitan recoger la
información de la manera más eficiente.
Los datos pueden ser recopilados de:
a) Registros internos
b) Publicaciones
c) Encuestas
Cuando a) y b) no son apropiados para el estudio que estamos haciendo
utilizamos la encuesta, esto es, un instrumento que nos permite recopilar la
información necesaria.
La encuesta está limitada por factores: tiempo, dinero, recursos materiales y
humanos disponibles.
Se puede llevar a cabo por dos formas:
a) Por muestreo
b) Por censo.
1.4 Organización (resumen) de los datos

Aquí la información se resume generalmente utilizando tablas de frecuencias y
gráficos estadísticos con el fin de facilitar su presentación y análisis posterior.
Datos agrupados en clases

Introduciremos primero algunos conceptos:
 Un intervalo de clase o simplemente clase se denota y define como:
Li ---- Ls : Más de Li hasta Ls
donde Li el límite inferior y Ls es el límite superior de la clase.
 Una clase de extremo abierto es la que no especifica uno de sus límites

y la denotaremos así:
Hasta Ls
Más de Li
 Amplitud o tamaño de un intervalo de clase
c = Ls – Li
 Punto medio de un intervalo de clase o marca de clase j
Li +Ls
m j=
2 j = 1, 2, ....., g
EJEMPLO 1
Tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso.
Datos originales en minutos
70 47 57 52 51 71 68 55 63 50
60 55 65 60 63 54 57 50 56 67
63 59 53 67 65 60 74 59 59 74
Organice los datos recopilados anteriormente en 5 clases
g
Criterio para determinar el número de clases: 2 ≥n
1. Ordenar los datos
47 50 50 51 52 53 54 55 55 56
57 57 59 59 59 60 60 60 63 63
63 65 65 67 68 70 71 74 74 74
2. Determinar el rango
R = xmayor – xmenor = Dato mayor - Dato menor R = 74 -

47 = 27
1. Determinar N clases '' g '' y tamaño de clase ''c''.
2g ≥ n
2. Determinar la amplitud o tamaño de los intervalos

R
c> pero cercano a
Si g es dado , g
27
c> 5 = 5.4 tomaré C = 6
3. Escribir las clases.
4. Contar los datos
El límite inferior de la primera clase debe ser un número menor y cercano al dato
menor.
Tiempo en minutos Número de auditores
46 ------- 52 5
52 ------- 58 7
58 ------- 64 9
64 ------- 70 5
70 ------- 76 4
30
1.5 Presentación de datos

Una vez organizados los datos debemos presentarlos de una forma fácil de
entender, esto es que podamos percibir fácilmente los hechos esenciales de la
información.
Los datos serán presentados en una tabla que contendrá básicamente : un título,
un cuerpo y una fuente.
También presentaremos los datos por gráficas,
Para presentar datos agrupados en clases necesitaremos introducir los siguientes

conceptos:
fj : frecuencia ( absoluta ) de la clase j. Número de datos en la clase j

faj : frecuencia acumulada hasta la clase j. Número de datos cuyos valores son
inferiors o iguales al límite superior de la clase j .
faj = f1 + f2 + … + fj
frj : frecuencia relativa de la clase j. Proporción de datos que corresponde a la
clase j .
fj
fr j =
n j=1,2,…,g
fraj : frecuencia relativa acumulada hasta la clase j. Proporción de datos cuyos

valores son inferiores o iguales al límite superior de la clase j
.
fa j
fra j =
n j=1,2,…,g
Cuando los datos están agrupados en clases diremos que forman una distribución
de frecuencias , la cual, puede ser presentada por una tabla estadística o una
gráfica estadística.
Distribuciones de frecuencias del Tiempo que tarda (en minutos) un grupo

de expertos en auditar un proceso.
Prop. de auditores
Tiempo en No de Prop. De No de auditores hasta la clase j
minutos auditores auditores hasta la clase j

fj frj faj fraj
46 - 52 5 0.167 5 0.167
52 - 58 7 0.233 12 0.400
58 - 64 9 0.300 21 0.700
64 - 70 5 0.167 26 0.867
70 - 76 4 0.133 30 100.0
Total 30 100.0
Por ejemplo: 7 expertos tardan entre 52 y 58 minutos en realizar la auditoria del

proceso o el 23.3% de los expertos tardan entre 52 y 58 minutos en realizar la
auditoria del proceso; 9 expertos tardan entre 58 y 64 minutos en realizar la
auditoria del proceso o el 30% de los expertos tardan entre 58 y 64 minutos en
realizar la auditoria del proceso, así sucesivamente.
Gráfico de Barras
Conteste las siguientes preguntas :

1. ¿ Cuántos auditores tardaron entre 58 y 64 minutos ?
2. ¿ Qué proporción de auditores tardaran entre 70 y 76 minutos ?

3. ¿ Qué porcentaje de auditores tardan menos de 70 minutos ?
4. ¿ Qué proporción de auditores hacen tiempo inferior a 58 minutos?
POLÍGONO DE FRECUENCIAS
Se forman haciendo que cada marca de clase represente los datos de esa clase.
Luego se toman las frecuencias correspondientes a cada marca de clase para
después unir los puntos resultantes con segmentos. Algunos prolongan el
polígono hasta las marcas de clase imaginarias inferior y superior inmediata
1.6 Caracterizacion ( análisis ) de los datos
Aquí el investigador trata de resumir la información disponible en algunas

expresiones, esto es, valores o medidas que nos fijen el comportamiento global
del fenómeno.
El análisis de los datos consiste básicamente en la determinación de dos medidas

que representan características de los datos.
 Medidas de posición
Nos indican las posiciones o lugares alrededor de los cuales se distribuyen los
datos.
 Medidas de dispersión
Nos informan sobre la variabilidad de los datos alrededor de las medidas de
posición.
Medidas de posición para datos no agrupados
a) La media aritmética
Si x1, x2,..........,xn representan datos muestrales entonces su media muestral se
denota y define así
n
∑ xi
.
x̄=
n
Si x1, x2,..........,xN representan todos los datos poblacionales entonces su media

poblacional se denota y define así
N
∑ xi
.
μ=
N
Datos repetidos
Si los datos forman una distribución de frecuencias de la variable X utilizaremos la

siguiente fórmula:
∑ xi f i
.
x̄=
n
Desventajas de la media aritmética

i. Es muy sensible a las observaciones extremas cuando éstas no están
equilibradas en ambos lados.
ii. Es inadecuada si hay clases de extremo abierto.
b) La mediana
Para datos que contienen valores extremos es recomendable utilizar la mediana
porque ésta no es sensible a las observaciones extremas.
La mediana es el valor que se encuentra en el centro de una secuencia ordenada
de datos.
Si un conjunto de datos están ordenados según su magnitud en orden creciente o
decreciente entonces la mediana la determinamos así:
i. Si n es impar entonces la mediana es el valor central
n+1
Posición: 2
ii. Si n es par la mediana es el promedio de los dos valores centrales
n n
+1
Posiciones: 2 y 2
c) La moda
La moda de un conjunto de datos es aquel valor que se presenta con más
frecuencia.
La moda no es afectada por valores extremos. Sin embargo sólo se utiliza para
propósitos descriptivos porque es más variable para distintas muestras que las
demás medidas de posición.
Relacion entre media , mediana y moda.
Las diferencias entre los valores de la media, la mediana y la moda permiten
saber la forma de la distribución de frecuencias
Distribuciones simetricas
Si en una distribución de frecuencias, la media, la mediana y la moda coinciden
16 15 entonces decimos que la
14 distribución es simétrica.
12
10 10
10
8
6 5 5
4
2
0
Distribuciones asimetricas
Si los valores de la media , la mediana y la moda no coinciden entonces decimos

que la distribución es asimétrica.
Para distribuciones asimétricas unimodales las posiciones relativas de las tres
medidas serán tales que la mediana estará siempre entre la media y la moda.
 Distribución asimétrica a la izquierda o negativa.

40
34
35 Figura 1.8
30 28
25
25
20 La cola mayor se extiende a la
20 izquierda o dirección negativa y por
15
15 tanto la media es la menor de las
10 7 tres medidas.
5
5
0 x̄ < Me. < Mo.
Media Me Mo
 Distribución asimétrica a la
derecha o positiva.
45 40
40
35 33
28
Figura 1.9
30 26
25
La cola mayor se extiende a la
20 18 derecha o dirección positiva motivo
15 10
por el cual la media es la mayor de
10 5 las tres medidas.
5 Mo
0
< Me. < x̄
Mo Me Media
Medidas de posición para datos agrupados en clases
a)La media
Si los datos representados por la variable de interés X están agrupados en “g “
clases consideraremos que los valores de X serán las marcas de clase, motivo por
el cual escribiremos:
Para una muestra:
g
∑ mj f j
.
x̄=
n mj: marca de la clase j
f j: frecuencia de la clase j
Para una población:
g
∑mjf j
.
μ=
N
b)La mediana
1. Identificar la clase mediana ( k )

Es la primera clase con una frecuencia acumulada  n / 2
2. Aplicar la fórmula
n
−fa k −1
2
Me=Li k +( )c
fk
donde:
fa k-1 es la frecuencia acumulada de la clase que precede a la clase mediana.

Lik es el límite inferior de la clase mediana.
fk es la frecuencia de la clase mediana.
n es el número de datos.
c)La moda
1. Identificar la clase modal ( k )

Es la clase con la más alta frecuencia.
Δ1
Mo=Li k +( )c
Δ1 + Δ2
donde:
Lik es el límite inferior de la clase modal.
1 es la diferencia absoluta entre la frecuencia de la clase modal y la
frecuencia de la clase precedente.
2 es la diferencia absoluta entre la frecuencia de la clase modal y la
frecuencia de la clase siguiente.
Medidas de dispersion
¿ Cómo se dispersan los datos y alrededor de qué posición lo hacen ?
¿ Qué conjunto de datos tendría la menor variación?
Cuando la dispersión de los datos se considera pequeña en comparación a la

magnitud de los datos decimos que la medida de posición es confiable, esto es,
representativa de los datos.
La varianza , la desviacion estandar y el coeficiente de variacion.
Datos no agrupados en clases

Si x1, x2,..........,xN representan todos los datos poblacionales entonces su
varianza poblacional se denota y define así
N
∑ ( x i −μ )2
.
σ 2=
N
La desviación estándar poblacional se denota y define así
σ =√ σ 2
Si x1, x2,..........,xn representan datos muestrales entonces su varianza muestral se
denota y define así
Fórmula
abreviada
n
∑ ( x i− x̄ )2
.
s2=
n−1
n
n ( ∑ x i )2
.
∑ x i2 − n
.
s2=
n−1
La desviación estándar muestral se denota y define así s= √ s 2
Tanto la varianza como la desviación estándar de un conjunto de datos son

medidas de variabilidad de los datos alrededor de la media.
La desviación estándar puede interpretarse como una desviación promedio de
los datos alrededor de la media, en otras palabras, cuánto se alejan en promedio
los datos de la media.
El coeficiente de variación es una medida relativa de dispersión. Se expresa

como porcentaje y es útil cuando se compara la variabilidad de dos o más
conjuntos de datos expresados en diferentes o iguales unidades de medición.
s
CV mtra = (100 )
Para una muestra x̄ Para una población
σ
CV pob = (100 )
μ
La regla empírica
En un conjunto de datos moderamente asimétricos aproximadamente el 67% de
los datos (la mayoría de los datos) están comprendidos dentro de la distancia de
una desviación estándar en torno a la media, y aproximadamente entre un 90%
y 95% de los datos están comprendidos dentro de la distancia de dos
desviaciones estándar en torno a la media.
Datos agrupados en clases

La varianza poblacional se denota y define como
m j es la marca de la clase j
g es en número de clases
g
∑ (m j−μ )2 f j
.
σ 2=
N fj es la frecuencia de la clase j
La desviación estándar poblacional se denota y define como
σ =√ σ 2
La varianza muestral se denota y define como
Fórmula abreviada.
g
g g ( ∑ m j f j )2
∑ (m j − x̄ )2 f j ∑ m j2 f j− .
n
. .
s 2= s 2=
n−1 n−1
La desviación estándar muestral se denota y define como
s= √ s 2
El coeficiente de variación se denota y define así
s
CV mtra= (100 )
Para una muestra x̄ Para una población
σ
CV pob = (100 )
μ
Coeficiente de asimetría de Pearson
Un indicador posible de la asimetría de una distribución es la diferencia ( x̄−Mo )

dividida por s, esto es,
x̄−Mo
s
Una medida adimensional,es decir, invariable ante cambios de escala y de origen.
Pero como ( x̄−Mo )=3 ( x̄ −Me ) consideraremos, para distribuciones
moderamente asimétricas y en forma de campana, el siguiente indicador que
llamaremos coeficiente de asimetría de Pearson.
3( x̄−Me) 3( μ−Me )
P= P=
s para una muestra σ para una
población
Apoyándonos en este coeficiente diremos que:
Si P = 0 entonces la distribución es simétrica.

Si P  0 entonces la diatribución tiene asimetría negativa.
Si P  0 entonces la distribución tiene asimetría positiva.
EJEMPLO
Para el ejemplo de las unidades producidas por 30 obreros de una fábrica, durante
una semana, obtenga las medidas de posición, las de dispersión y clasifique la
distribución.
Ejercicio
Supongamos que tenemos los salarios mensuales (en dólares) de 100 obreros no
calificados, los cuales se dan en la siguiente tabla.
Salarios N° de Obreros
140 ---- 159 7

159 ---- 178 20
178 ---- 197 33
197 ---- 216 25
216 ---- 235 11
235 ---- 254 4
100
a) ¿Cuál es el salario promedio de los 100 Obreros?

b) ¿Cuál es la varianza y la desviación estándar del salario mensual?
Calcule el coeficiente de variación.
c) Obtenga el coeficiente de asimetría de Pearson e interprete.
Medidas de posición no central
Cuartiles: Los cuartiles dividen a una distribución de observaciones en cuatro

partes iguales
 Primer Cuartil (Q1): Es el valor que corresponde al punto por debajo del
cual se encuentra el 25% de las observaciones. Si el número de
observaciones en n, Q1 se ubica en la posición (n + 1)/4.
 Segundo Cuartil (Q2): Es el valor que separa el 50% superior de un

conjunto de observaciones, del 50% inferior (Coincide con la mediana)
 Tercer Cuartil (Q3): Es el valor que corresponde al punto por encima del
cual se encuentra el 25% de las observaciones. Se localiza en la posición
3(n + 1)/4.
Centiles o Percentiles
Son medidas que dividen a una distribución en cien partes iguales.

El percentil r, denotado por Pr, donde r = 1, 2, ........, 99 es el valor por debajo del
cual queda el r% de los datos.
1. Identificar la clase que contiene al Pr (k)

r
n( )
Es la primera clase con una frecuencia acumulada  100
r
n( )−fa k−1
100
Pr =Li k +( )c
fk
donde
n es el número de datos
Lik es el límite inferior de la clase que contiene al Pr
r
n( )
100 es el r% de n
fk es la frecuencia de la clase que contiene al Pr

fak-1 es la frecuencia acumulada de la clase que precede a la clase que contiene
al Pr.
1.7 Aplicación: estadística descriptiva
1 A na lic e los s ig uie nte s c om e nta r ios
a ) ¨l a mej o r me di d a de te nd e n cia ce n tral e s la me di a , p o r eso la

u til i za mo s si e mp re ¨
b ) ¨La s cl a se s e n cu a lq u i e r d i stri bu ci ón d e fre cu e n cia s re la ti va s

son exh a u sti va s y mu tu a me n te excl u ye n te s¨
c) ¨Lo s va l o re s e xtre mo s en un co n ju n to de d a to s i n flu ye n

p ro fu n d a me n te en l a me di a n a ¨
d ) ¨La d i sp e rsió n (d e svi a ció n e stá nd a r) de u n co n ju n to d e d a to s

no s pe rmi te co no ce r la co n fi ab i li d a d de la me d ia ¨
2 Señale cual de las siguientes variables son continuas ( C ) y cuales son

discretas (D).
a) Cantidad de quintales de café cortados ( D)
b) Cantidad de cajas de fósforos en un determinado conteo físico ( D )
c) Galones de gasolina consumidos por un automóvil en una semana
(c
d) Cantidad de camisas vendidas diariamente ( D)
e) Tiempo de vida de los bombillos eléctricos ( C)
3 Los ingresos anuales de varios directivos de una empresa son
$42900, $49100, $38300, $56800

a) Encuentre la media muestral

b) La media que usted calculó es un estadístico o es un parámetro? Por qué?
c) Obtenga la desviación estándar y el coeficiente de variación
4 Todos los estudiantes de ciencias de la computación obtuvieron las siguientes

notas:
92, 96, 61, 86, 79 y 84
a) Calcule la media de las notas

b) La media que usted calculó es un estadístico o es un parámetro? Por qué?
c) Obtenga la desviación estándar y el coeficiente de variación
5 Calcule la media, la mediana, la moda, la desviación estándar y el coeficiente

de variación de los salarios por hora que una muestra de 6 trabajadores, los
datos son los siguientes:
$15.40, $20.10, $18.75, $22.76, $30.67 y $18.00
7. De acuerdo a la ética publicitaria una planta refinadora de gasolina ha

realizado n = 10 pruebas experimentales para comparar un aditivo nuevo con la
marca regular ya en el mercado. Los incrementos en millas por galón en las 10
pruebas son las siguientes:
1.8, 3.4, 0.2, 1.8, 3.4 , 1.8, 2.9, 3.7, 0.2, 2.6
a) Calcule el aumento promedio, mediano y modal en millas por galón debido al

nuevo aditivo (Clasifique la distribución)
8. Una compañía de construcción paga a sus empleados $6.5, $7.5 y $8.5 por
hora, se toma una muestra de 26 empleados a 14 le pagan $6.5 por hora a 10 le
pagan $7.5 por hora y a 2 le pagan $8.5 por hora.
¿Cuál es el salario medio ponderado por hora pagado a los 26 empleados?
9) En una empresa de congelados, la demanda diaria, en lotes de producto,

durante 30 días de trabajo es:
38 35 76 58 48 59 67 63 33 69
53 51 28 25 36 32 61 57 49 78
48 42 72 52 47 66 58 44 44 56
a) Construya una distribución de frecuencias que contenga 5 clases.

b) Grafique el histograma, el polígono de frecuencias.
c) Calcule la media aritmética, la mediana, la moda, la desviación estándar
y el coeficiente de variación. Interprete los resultados.
Tema 2. Introducción al manejo del SPSS
2.1 Introducción
El programa SPSS está diseñado para la entrada, organización, manejo y análisis

de datos estadísticos. Es una herramienta de investigación utilizada en los
negocios, la administración, la academia y en otras áreas de la producción social.
En cuanto a sus fines académicos es recomendado para la enseñanza y la
investigación cuantitativa en las ciencias sociales, aunque no se limita a estas
disciplinas. Precisamente, un dato histórico importante es que fue desarrollado por
el científico Norman Nie (1967) y su nombre original era "Statistical Package for
the Social Sciences"; de ahí sus siglas SPSS. Una de sus ventajas es su
compatibilidad con la mayoría de los sistemas operativos que existen en el
mercado privado y de código abierto. El mismo es revisado y actualizado
periódicamente, por lo que hay diversas versiones del mismo, tanto para Windows
como para Mac, que son los sistemas operativos más conocidos y utilizados.
5.1 Crear Archivos o Ficheros de Datos en SPSS
Para generar un archivo de datos en SPSS, es necesario cumplir con dos

parámetros fundamentales; el primero corresponde a tratar de introducir la
información de forma numérica (siempre que sea posible); para lo cual es preciso
otorgar números de identificación a las categorías de las variables Ordinales o
Nominales, así como también a las variables que contengan valores perdidos
estipulados por el usuario. El segundo parámetro es definir cada una de las
propiedades de las variables, de acuerdo a las características de los datos que
contiene. Para comprender mejor la metodología empleada en la elaboración de
un archivo de datos en SPSS, vamos a generar un archivo con los datos de la
siguiente encuesta, realizada a cinco personas.
Número de encuesta ______
1. ¿En la actualidad su estado civil es?
2. ¿Cuál es su nivel de educación de acuerdo al título máximo obtenido?

3. ¿Cuál es su edad actual en años cumplidos? ______
Antes de iniciar el ingreso de la información de cada una de las encuestas, es

necesario definir la estructura del archivo de acuerdo al orden de las preguntas y
el tipo de datos obtenidos con ellas. Para realizarlo debemos apoyarnos en el
formato de la encuesta y tratar de identificar cada una de las variables que
podemos obtener de ella.
Si nos fijamos en la encuesta de ejemplo, notaremos que en la parte superior se

agrega un espacio para el número de identificación de la encuesta; este valor es
de suma importancia ya que al momento de depurar los datos de la encuesta
(Corregir errores), este valor nos indicará la ubicación de la fuente (Formulario de
encuesta), en donde se presento el error y nos permite remitirnos a él para intentar
corregirlo. Dada la importancia de este dato, definiremos el número de encuesta
como nuestra primera variable y le asignaremos el nombre (ncuest).
Una vez definido el número de encuesta, seguimos bajando y nos encontramos

con la primera pregunta ¿En la actualidad su estado civil es?, para lo que
contamos con 5 posibles respuestas. Esta pregunta debemos considerarla como
una variable, la cual puede tomar cinco diferentes estados (Opciones), cada uno
de los cuales nos define un estado civil distinto. Para facilitar la captura de los
datos en esta pregunta, debemos asignarle un valor representativo a cada una de
las opciones de respuesta iniciando con el número uno (1) y aumentando de uno
en uno de acuerdo a cada opción, de manera que cada categoría pueda ser
diferenciada fácilmente.
Dado que es posible que alguno de los encuestados no responda la pregunta; es

decir, no seleccione ninguna de las opciones, le otorgaremos a este suceso el
valor nueve (9), con lo que los datos quedarían [Variable = Estciv], (Soltero = 1,
Casado = 2, Divorciado = 3, Viudo = 4, Unión libre =5 y No responde = 9).
La segunda pregunta corresponde a ¿Cuál es su nivel de educación de acuerdo

al título máximo obtenido?, para lo que tenemos seis diferentes categorías u
opciones de respuesta. Al igual que en la pregunta anterior, esta pregunta debe
ser considerada una variable a la que le otorgamos un nombre y a su vez,
debemos asignarle un valor a cada categoría y precaver la falta de respuesta, por
lo que los datos quedan [Variable = Niveduc] (Primaria = 1, Secundaria = 2,
Preparatoria = 3, Universidad = 4, Postgrado = 5, Doctorado = 6 y No responde =
9).
Por último encontramos la pregunta ¿Cuál es su edad actual en años cumplidos?,

note que esta pregunta no cuenta con opciones de respuesta, sino que por el
contrario nos ofrece un espacio en el cual ingresar el valor; esta variable es de
otro tipo de medida y por lo tanto su tratamiento es diferente. Para las variables de
escala como la edad, el peso, la distancia o las ventas, no se le asignan valores
representativos, ya que sus datos representan magnitudes o cantidades y no
categorías de pertenencia. Después de establecer la estructura de las variables y
organizarla adecuadamente, obtenemos los resultados de la figura siguiente:
Después de establecer la estructura del archivo, estamos listos para ingresar la

información de las encuestas. Para realizarlo SPSS nos ofrece dos posibilidades;
ingresar primero los datos antes de definir las propiedades de las variables o
definir primero las propiedades de las variables e ingresar posteriormente los
datos. Dado que la definición de las variables se puede emplear como orientación
en el ingreso de los valores de los datos, es recomendable utilizar siempre la
segunda opción; es decir, definir primero las propiedades de las variables y a
continuación ingresar los datos.
Procedimiento
Para definir las propiedades de las variables es indispensable crear un nuevo

archivo de datos en SPSS. Si aún no has abierto el programa, es necesario abrirlo
mediante la ruta Inicio... Programas... SPSS para Windows... SPSS 15.0 para
Windows o mediante el acceso directo (si existe). Una vez se activa el
programa aparece el asistente de inicio, en el cual hacemos clic en el botón
Cancelar, de manera que desaparezca y surja en su lugar la ventana Editor de
datos de SPSS lista para trabajar
En la parte inferior hay dos pestañas: vista de variables y vista de datos.

Elegiremos vista de variables y nos situaremos en el rectángulo de la primera
fila que está bajo “NOMBRE” e introduciremos en él el nombre de la primera
variable ncuest .
Luego siguiendo en la misma fila, bajo TIPO elegiremos el tipo de esta variable.
Para ver los tipos posibles se pulsa en el cuadradito con puntos suspensivos. Para
esta variable podemos elegir numérica con anchura 3 y con ningún decimal y
pulsamos el botón aceptar. Debajo de etiqueta pondremos “Número de
cuestionario”, las otra casillas se pueden quedar en blanco.
En la segunda fila escribiremos el nombre de la siguiente variable, Estciv, en tipo

pondremos cadena, en anchura pondremos 1 en etiqueta pondremos “Estado
civil del encuestado” en valores el valor 1 le etiquetamos como soltero y se
pulsa añadir al valor 2 le etiquetamos como casado, pulsar añadir, al valor 3 como
Divorciado, al valor 4 como Viudo y al valor 5 como unión libre y añadir y luego
aceptar. Bajo perdidos pondremos 0 (para los que no respondan a esta pregunta).
En medida poner nominal.
En la tercera fila escribimos el nombre de la variable, niveduc, en tipo ponemos

cadena, anchura 1 en etiqueta pondremos “Nivel educativo de acuerdo al
título máximo obtenido” en valores 1 Primaria y añadir, 2 Secundaria y añadir, 3
Preparatoria y añadir, 4 universidad y añadir, 5 Postgrado y añadir y 6 Doctorado y
añadir, definir valores perdidos.
En la cuarta fila bajo NOMBRE pondremos el nombre de la segunda variable

Edad , tipo numérico, anchura 3, decimales ninguno, en valores dejamos
ninguno y en perdidos pondremos 999 (para los que no contesten a esta
pregunta), en medida pondremos escala
Antes de continuar, se guarda este trabajo, por si surgen problemas, que no lo

perdamos. Se hace en la forma habitual de guardar un fichero en WINDOWS
Base de Datos
ncuest Estciv niveduc Edad

1 5 4 25
2 4 5 49
3 2 2 38
4 1 2 17
5 5 6 58
6 2 3 22
7 1 4 27
8 1 4 35
9 5 4 26
10 1 2 21
2.3 Estudio de las variables del fichero de datos.
En el menú superior, elegiremos:

ANALIZAR - > ESTADISTICOS DESCRIPTIVOS -> FRECUENCIAS
Obtendremos un rectángulo, a la izquierda, con la lista de variables disponibles y

otro rectángulo, a la derecha vacío. Las variables que pasemos del rectángulo de
la derecha al de la izquierda, serán con las que trabajará el programa en el paso
siguiente.
En la parte inferior de este rectángulo hay tres botones:
ESTADÍSTICOS: permite elegir los estadísticos que queremos que calcule el

SPSS en el siguiente análisis. Pulsando con el botón izquierdo se eligen los
estadísticos y pulsando con el derecho se obtiene información sobre cada
estadístico.
GRÁFICOS: nos deja elegir entre los gráficos disponibles
FORMATO: permite cambiar la presentación de las tablas de frecuencias.
Se recomienda tomar nota de la distribución de las frecuencias de cada una de las

variables nominales (estado civil) y de las ordinales (nivel de educación), para el
resto de las variables se recomienda usar:
ANALIZAR -> ESTADISTICOS DESCRIPTIVOS-> DESCRIPTIVOS, para

conocer el valor máximo, mínimo, media y desviación típica. Tratar de conocer
otros estadísticos para las variables cuantitativas.
Hacer las representaciones gráficas mas adecuadas para cada variable.
2.4 RECODIFICACIÓN DE VARIABLES
Los pasos a realizar son:
Con el fichero de datos cargado elegiremos en el menú superior la opción
TRANSFORMAR  RECODIFICAR  en distintas variables
Es importante NO elegir en la misma variable, pues en ese caso se pierde la

información anterior y solo nos quedamos con los valores de las tres categorías que
vamos a definir, pero perderíamos el valor de la paga real.
Nos aparecerá un rectángulo a la izquierda con la lista de todas las variables de

nuestro fichero de datos, pasaremos al rectángulo de la derecha las variables que
vamos a recodificar, pulsaremos en el botón “cambiar” y en la etiqueta pondremos
la nueva etiqueta pulsamos en “valores antiguos y nuevos” y en RANGO
pondremos los intervalos por ejemplo valor nuevo 1 (añadir); y aceptar.
Al final de la lista de variables tiene que aparecer la nueva variable que acabamos
de definir. En la columna VALORES de esa nueva variable pincharemos para definir
las etiquetas.
Recodificar la variable Edad de la base de datos que introdujimos
Variables adecuadas para recodificar y alguna sugerencia para ello:
Número de hermanos: podemos hacer 3 grupos : pocos para 1 y 2, regular para 3

y 4, y muchos para 5 o 6.
En edad tendremos cuatro grupos de 16 a 27, de 27 a 38, de 38 a 49 y de 49 a 60.
Rendimiento escolar: recodificar a suspenso, aprobado, notable y sobresaliente.
Ejercicios
1-Los resultados de 18 estudiantes en un test sobre hábitos de estudio han sido

los siguientes: 154, 109, 138, 115, 154 , 140, 154, 178, 101, 103, 126, 127, 137,
165, 165, 129, 200, 148. calcula la media, la moda, la mediana. Haz el gráfico de
cajas.
2- A un grupo de 10 estudiantes se les hizo una prueba de razonamiento y otra de

habilidad. Calcular en qué prueba hubo mayor variabilidad de resultados, sabiendo
que éstos fueron:
Razonamiento: 40, 38, 65, 56, 16, 55, 28, 62, 32, 48
Habilidad: 36, 18, 54, 47, 21, 56, 68, 70, 72, 38.
Indicación: comparar los coeficientes de variación.,
2.5 ESTADÍSTICA BIVARIABLE (TABLAS DE CONTINGENCIA)
Para estudiar simultáneamente dos variables así como la relación entre las
mismas es adecuado usar las tablas de contingencia.
Una cuestión importante es llegar a conocer si las dos variables estudiadas son o
no estadísticamente independientes entre sí o si por el contrario existe entre ellas
alguna asociación. (Hipótesis nula: las variables son independientes). El
procedimiento es el siguiente:
ANALIZAR -> ESTADÍSTICOS DESCRIPTIVOS -> TABLAS DE CONTINGENCIA
Habrá que elegir una variable para las filas de la tabla y otra para las columnas. Es
conveniente que sean variables ordinales o nominales.
El programa puede calcular el valor del estadístico 2 de Pearson (chi-cuadrado)

este estadístico se basa en la comparación entre las frecuencias observadas (las
que se obtienen del recuento de los datos del estudio) y las frecuencias esperadas
(las que se deberían obtener si las variables no estuvieran asociadas). La salida
que se obtiene al pedir una chi cuadrado muestra el valor del estadístico, los
grados de libertad de la tabla (gl) , el nivel de significación (Sig. Asintótica) que
equivale a la probabilidad de equivocarnos al rechazar la hipótesis nula que afirma
que las variables son independientes.
Conviene que antes de realizar el test fijemos el nivel de confianza que

estimamos necesario para que los resultados sean aceptables, por ejemplo:O,05 ó
0,01. Estos valores no se introducen en el SPSS, sirven para comparar con la
significación que calcula el SPSS a partir de nuestros datos. Si el nivel prefijado es
0,05 y la significación que obtiene el SPSS es menor que 0,05 habrá que rechazar
la Hipótesis nula (la que afirma que las variables son independientes)
Significación < 0,05 rechazamos H 0 y concluiremos que las variables son

dependientes entre sí
Significación > 0,05 aceptamos H0 y concluiremos que las variables son
independientes entre sí
2.6 Comparación de Medias
Este análisis tiene como objetivo comparar si la media es significativamente

diferente en diversas variables o en distintos subgrupos de la misma variable .
El más sencillo es el test de la t .
Para realizar estos análisis se elige: Analizar -> comparar medias y las posibles
opciones son: Medias, Pruebas T para una muestra, Pruebas T para muestras
independientes, pruebas T para muestras relacionadas y Anova de un factor.
La primera opción (Medias) nos permite una variable dependiente (por ejemplo
paga semanal) y una variable dependiente que haga subgrupos en la población
total, por ejemplo Nivel socioeconómico. Y da la media y la desviación típica de
las variables elegidas, en los subgrupos creados por el Nivel socioeconómico y en
la población completa. Así pues el procedimiento Medias calcula medias de
subgrupo y estadísticos univariados relacionados para variables dependientes
dentro de las categorías de una o más variables independientes.
La segunda , El procedimiento Prueba T para una muestra contrasta si la media

de una sola variable difiere de una constante especificada por el investigador.
Recordar que la decisión de aceptar la Hipótesis nula (No hay diferencias
significativas) se toma en función del número que aparece en la casilla que da la
significación. Si el número de esa casilla es menor que el nivel mínimo aceptable

prefijado (por ejemplo: 0,05 o 0,01)se rechaza la H 0 y en caso contrario de
acepta. También nos da este procedimiento un intervalo de confianza para la
diferencia entre la media y el valor elegido por nosotros.
El procedimiento Prueba T para muestras independientes compara las medias

de dos grupos de casos. Para esta prueba, idealmente los sujetos deben
asignarse aleatoriamente a dos grupos, de forma que cualquier diferencia en la
respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros factores.
Este caso no ocurre si se comparan los ingresos medios para hombres y mujeres.
El sexo de una persona no se asigna aleatoriamente. En estas situaciones, debe
asegurarse de que las diferencias en otros factores no enmascaren o resalten una
diferencia significativa entre las medias. Las diferencias de ingresos medios
pueden estar sometidas a la influencia de factores como los estudios y no
solamente el sexo. Lo que decide si hay que considerar igual varianza lo da el
número que aparece bajo Sig (detrás de F). Lo que decide si los subgrupos
tienen media significativamente distinta es el número que aparece bajo Sig.
Bilateral. La interpretación de estos números es la ya explicada previamente.
El procedimiento Prueba T para muestras relacionadas compara las medias de

dos variables de un solo grupo. Calcula las diferencias entre los valores de las dos
variables de cada caso y contrasta si la media difiere de 0. Es lógico elegir
variables cuya media sea similar, en caso contrario carece de sentido realizar esta
prueba.
El procedimiento ANOVA de un factor genera un análisis de varianza de un factor

para una variable dependiente cuantitativa respecto a una única variable de factor
(la variable independiente). El análisis de varianza se utiliza para contrastar la
hipótesis de que varias medias son iguales. Esta técnica es una extensión de la
prueba t para dos muestras, la diferencia es que ahora los grupos pueden ser mas
de dos. Pero la variable que hace los grupos (el factor) debe estar definida al
menos como ordinal.
2.7 Intervalos de confianza para la media
Analizar -> estadísticos descriptivos -> explorar
Llevar las variables de las que queremos conocer el intervalo de confianza al

rectángulo "Dependientes" (por ejemplo "simpatía norte- africanos")
En estadísticos señalar descriptivos y el nivel de confianza se puede dejar al 95%

o cambiarlo.
Si se desea tener un intervalo de confianza para los hombres y otro para las
mujeres habrá que llevar la variable sexo al rectángulo "Factores"
2.8 Análisis exploratorio de datos
- ¿Qué es el análisis exploratorio de datos?
El Análisis Exploratorio de Datos (A.E.D.) es un conjunto de técnicas

estadísticas cuya finalidad es conseguir un entendimiento básico de los
datos y de las relaciones existentes entre las variables analizadas. Para
conseguir este objetivo el A.E.D. proporciona métodos sistemáticos sencillos
para organizar y preparar los datos, detectar fallos en el diseño y recogida
de los mismos, tratamiento y evaluación de datos ausentes (missing),
identificación de casos atípicos (outliers) y comprobación de los supuestos
subyacentes en la mayor parte de las técnicas multivariantes (normalidad,
linealidad, homocedasticidad).
El examen previo de los datos es un paso necesario, que lleva tiempo, y

que habitualmente se descuida por parte de los analistas de datos. Las tareas
implícitas en dicho examen pueden parecer insignificantes y sin consecuencias
a primera vista, pero son una parte esencial de cualquier análisis estadístico.
Etapas del A.E.D.
Para realizar un A.E.D. conviene seguir las siguientes etapas:
1) Preparar los datos para hacerlos accesibles a cualquier técnica

estadística.
2) Realizar un examen gráfico de la naturaleza de las variables
individuales a analizar y un análisis descriptivo numérico que
permita cuantificar algunos aspectos gráficos de los datos.
3) Realizar un examen gráfico de las relaciones entre las variables
analizadas y un análisis descriptivo numérico que cuantifique el grado
de interrelación existente entre ellas.
4) Evaluar, si fuera necesario, algunos supuestos básicos subyacentes
a muchas técnicas estadísticas como, por ejemplo, la normalidad,
linealidad y homocedasticidad.
5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto
potencial que puedan ejercer en análisis estadísticos posteriores.
Preparación de los datos

El primer paso en un A.E.D. es hacer accesible los datos a cualquier
técnica estadística. Ello conlleva la selección del método de entrada (por teclado o
importados de
un archivo) y codificación de los datos así como la de un paquete estadístico
adecuado para procesarlos en este caso el SPSS.
Datos atípicos (outliers)

Los casos atípicos son observaciones con características diferentes
de las demás. Este tipo de casos no pueden ser caracterizados
categóricamente como benéficos o problemáticos sino que deben ser
contemplados en el contexto del análisis y debe evaluarse
el tipo de información que pueden proporcionar. Su principal problema radica en
que son elementos que pueden no ser representativos de la población
pudiendo distorsionar seriamente el comportamiento de los contrastes
estadísticos. Por otra parte, aunque diferentes a la mayor parte de la muestra,
pueden ser indicativos de las características de un segmento válido de la
población y, por consiguiente, una señal de la falta de representatividad
de la muestra.
Identificación de outliers
Los casos atípicos pueden identificarse desde una perspectiva univariante
o multivariante.
La perspectiva univariante examina la distribución de observaciones para
cada variable, seleccionando como casos atípicos aquellos casos cuyos valores
caigan fuera de los rangos de la distribución.
La cuestión principal consiste en el establecimiento de un umbral para la
designación de caso atípico. Esto se puede hacer gráficamente mediante
histogramas o diagramas de caja o bien numéricamente, mediante el
cálculo de puntuaciones tipificadas. Para muestras pequeñas (de 80 o incluso
menos observaciones),
las pautas sugeridas identifican como atípicos aquellos casos con valores
estándar de 2.5 o superiores. Cuando los tamaños muestrales son mayores, las
pautas sugieren que el valor umbral sea 3.
2.9 Regresión lineal con SPSS.
Introducir estos datos en el SPSS, las variables serán Volumen de ventas y

Gastos en publicidad
Nos vamos a GRÁFICOS -> C. DE DIÁLOGOS ANTIGUOS -> SIMPLE ->
DEFINIR
Llevaremos la variable Gastos en publicidad al eje X (variable independiente), y la
variable volumen de ventas al eje Y(variable dependiente), pulsando ACEPTAR se
obtendrá la nube de puntos.
Si se quiere cambiar la escala de los ejes X –Y, se llevará el cursor sobre el gráfico
y se pulsará el botón derecho del ratón. Se nos abrirá un pequeño menú del que
eligiremos la opción Objeto gráfico del SPSS -> abrir. EN el menú superior abrir
Diseño -> ejes.
Para cambiar la escala del eje X, señalar escala eje X y aceptar. Cambiar a los
valores que deseemos y hacer lo mismo con el eje Y.
Para obtener el coeficiente de correlación y la ecuación de la recta de regresión ,
se elige: Analizar -> correlación -> bivariada
Llevar las variables Gastos en publicidad y volumen de ventas al rectángulo de
variables de la derecha y pulsar aceptar y obtendremos el valor 0.875 del
coeficiente de correlación
Analizar -> Regresión - > lineal
Llevaremos volumen de ventas a variable dependiente y gastos en publicidad
variable independiente y pulsamos en aceptar.
Del último cuadro de la salida del SPSS, podemos deducir la ecuación de la recta
de regresión de Y sobre X.
Recordemos que la ecuación de la recta que calculamos al hacer el problema era
Y== 52.5675 X + 43.4865 . Tanto la ordenada en el origen de la recta 43.4865
como la pendiente de la recta de regresión 43.4865 los podemos encontrar en la
última tabla de resultados, aparecen en el recuadro “Coeficientes no
estandariazados”, bajo la letra B.
Además R2 mide la capacidad de la variable independiente para predecir la
dependiente (cociente entre la varianza explicada y la varianza total)
Tema 3: Probabilidades
3.1 Introduccion
En la actualidad la teoría de la probabilidad constituye el fundamento de la
Estadística Inferencial, una rama de la Estadística con importantes aplicaciones a
situaciones en que interviene la incertidumbre. En tales circunstancias la
Estadística Inferencial permitirá hacer estimaciones de parámetros basados en la
información muestral.
3.2 Conceptos básicos

Experimento aleatorio ( )
Es aquel que al repetirse bajo condiciones aproximadamente idénticas el
resultado no es necesariamente el mismo.
Podríamos decir que todos los juegos de azar son experimentos aleatorios
 Lanzar un dado y observar el número de puntos que aparecen en la cara

superior.
 Elegir al azar un naipe de la baraja común de 52 naipes.
 Lanzar una moneda y observar la cara superior.
La característica principal de estos experimentos es la existencia de incertidumbre

en el resultado que se puede obtener al realizar el fenómeno.
El espacio muestral ( s ) asociado a un experimento

Es el conjunto de todos los resultados posibles del experimento experimento
aleatorio.
3.3 Enfoques de probabilidad
El propósito de la teoría de probabilidad es asignar un número a cada evento A, el
cual llamaremos probabilidad de que ocurra A y lo denotaremos así: P(A)
La probabilidad de cualquier evento indicará que tan factible es que ocurra el
evento, entre mayor sea la probabilidad, más grande será la factibilidad de que
ocurra el evento.
Ahora estaremos interesados en cómo obtener P(A)
Enfoque de probabilidad clásica a priori
Aquí suponemos que el experimento no se realiza y que además todos los

resultados posibles del experimento se consideran igualmente probables.
Según la historia es la manera más antigua de medir incertidumbre, teniendo su
origen en los juegos de azar.
Número de maneras que puede ocurrir A #A
P(A) = =
Número de resultados posibles del experimento #S
Enfoque de probabilidad clasica a posteriori (empirica)
Aquí suponemos que el experimento se realizó un número n (suficientemente

grande) de veces del cual se observó el número x veces que ocurrió el evento A.
De manera que esta probabilidad puede verse como una frecuencia relativa
observada del evento A obtenida de repetir el experimento un número grande de
veces.
Número de veces que ocurrió A x

P( A ) = =
Número de veces que se repitió el experimento n
Enfoque de probabilidad subjetiva

Se basa en una combinación de la experiencia, la opinión personal y el análisis de
una situación en particular. Es útil cuando no se pueden utilizar los enfoques
anteriores.
3.4 Reglas básicas de probabilidad

1) P ( ) = 0 y P(S)=1
2) Para cualquier evento A, 0  P( A )  1
3) Si A y B son eventos mutuamente excluyentes entonces
P( A  B ) = P( A) + P( B )
4) Regla del complemento.
P(A) + P( A’ ) = 1  P( A’ ) = 1 – P( A )
5) Regla de la adición.
Sean A y B eventos cualesquiera
P( A  B ) = P( A ) + P( B ) – P( A  B )
Ejemplo
En una univversidad se seleccionó una muestra de 1590 estudiantes de
posgrados para determinar diversas informaciones relacionadas con el perfil de la
maestría seleccionada. Entre las preguntas hechas, se encontraba “¿Usted optó
por la maestría en Administración, en Finanzas o en Auditoria?. De 755 hombres
320 dijeron estar en Administración y 125 en Auditoría. De 835 mujeres 245
dijeron estar en Finanzas y 180 en auditoría.
1) Elabore una tabla de contingencia ( o de clasificación cruzada )

2) Se selecciona al azar un entrevistado, determinar la probabilidad de que:
a) Sea mujer
b) Sea hombre
c) Sea de Administración
d) Sea hombre y sea de Finanzas
e) Sea mujer o esté en Auditoría
f) Sea mujer y esté en Administración
3.5 Probabilidad condicional

a probabilidad de que un evento A ocurra supuesto que otro evento B ha ocurrido
se denota y define como:
Probabilidad conjunta de A y B
P( A∩B )
P( A|B )=
P(B ) =
Probabilidad marginal de B
Mide en cierto sentido la probabilidad relativa de A con respecto al espacio

reducido B
¿( A∩B )
P( A|B )=
Si B es finito entonces #B
g) Suponga que el entrevistado seleccionado es mujer, ¿ cuál es la

probabilidad de que esté en Finanzas.
h) Suponga que el entrevistado seleccionado está en Administración, ¿cuál
es la probabilidad de que sea hombre?
3.6 Regla de la multiplicacion

Sean A1 y A2 eventos
P( A 1∩ A 2 )
Sabemos que P( A2 A1 ) = P( A1 ) 
P( A 1 ∩A 2 )=P( A1 ) P( A 2|A1 )
La probabilidad de A1 A2 es igual a la probabilidad del primer evento A 1 por la
probabilidad del segundo evento A2 dado que el primer evento A1 ya ocurrió.
3.7 Independencia estadística
Dos eventos A1 y A2 son independientes si y sólo si
P(A1 A2 ) = P( A1 ) ó P(A2 A1 ) = P(A2)
Si dos eventos A1 y A2 son eventos independientes entonces según la regla de la
multiplicación
P( A 1 A2 ) = P(A1 ) P(A2 )
ix) Determinar si la preferencia por productos importados es estadísticamente

independiente del evento ser hombre.
Teorema de la probabilidad total

Supongamos un experimento aleatorio con su correspondiente espacio muestral
S, decimos que los eventos A1 , A2 ,.........., An forman una partición del espacio
muestral S, si se cumple que:
i) Ai  A j =  para todo i  j
ii) A1 A2  .......... An = S

y que B es otro evento respecto a S.
Entonces P(B) = P(A1)P(BA1) + P(A2)P(BA2) + ......... + P(An)P(BAn)

n
∑ P( Ai )P (B|Ai )
= .
Cada vez que se realice el experimento aleatorio anterior podemos presentar

mediante un árbol de probabilidad todos sus resultados posibles con sus
correspondientes probabilidades.
3.8 Teorema de Bayes

Queremos saber ahora , cuál es la probabilidad de que A i sea la causa de la
ocurrencia de B.
P ( A i ) P( B|A i ) P( A i ) P(B|A i )
P( A i| B)= n
=
P( B)
∑ P( Ai )P (B|Ai )
.
Ejemplo
Un gerente de crédito clasifica las cuentas a su cargo en 3 tipos:
Tipo 1: buen pagador Tipo 2: pagador atrasado Tipo 3: mal pagador
De los archivos se estima que el 75%, 20% y 5% de las cuentas caen en las
categorías 1, 2 y 3 respectivamente. Por experiencia en el trabajo el gerente
considera que el 90% de los clientes con cuentas del tipo 1 tienen casa propia,
mientras que el 50% de los clientes con cuentas del tipo 2 y el 20% de los clientes
con cuentas del tipo 3 tienen casa propia.
) ¿ Cuál es la probabilidad de que una nueva aplicación de crédito corresponda

a un cliente con casa propia ?
ii) Suponga que la nueva aplicación corresponde a un cliente con casa
propia, ¿ cuál es la probabilidad de que sea pagador atrasado?
Ejercicio
El departamento de crédito de una tienda informó que el 30% de sus ventas son
en efectivo, el 30% se pagan con cheques y el 40% son al crédito. Se tiene
información de que las compras por más de C$ 500 en efectivo, con cheques y al
crédito son el 25%, 90% y 60% respectivamente. Una persona acaba de decidir
comprar un artículo cuyo precio es de C$ 800, ¿ cuál es la probabilidad de que
pague con cheque ?
3.9 Ejercicios propuestos del tema: probabilidades
1. Para cada uno de los siguientes casos, diga si los eventos que se crean son
(i) mutuamente excluyentes, (ii) colectivamente exhaustivos.
a) A los votantes registrados se les preguntó si son liberales o sandinistas.

b) Los encuestados se clasificaron como propietarios de automóviles en las
categorías norteamericano, europeo, japonés, ninguno.
c) A las personas se les preguntó: “¿Actualmente vive en (i) un apartamento
(ii) una casa?”.
d) Un producto se clasificó como: (i) defectuoso (ii) no defectuoso.
e) A las personas se les preguntó “ ¿tiene intención de comprar un televisor a
colores en los siguientes seis meses ?” (i) si, (ii) no.
f) Un país obtuvo un crecimiento económico del (i) 5% al año (ii) 7% al año.
g) Se clasificaron las ventas anuales en (i) a lo más cinco millones de
córdobas (ii) de más de cinco a diez millones (iii) de más de diez millones.
h) En un tipo de industria se clasifican las utilidades anuales en (i) entre uno y
siete millones de córdobas (ii) de cinco millones o más.
i)En una fábrica se clasifican las partes defectuosas de la producción en: (i)
menos del 7%. (ii) más del 2%, (iii) igual al 5% de la producción.
2. En cada uno de los casos siguientes indique si se usa probabilidad clásica,

empírica o subjetiva.
a) Un jugador de baloncesto falla 30 de 50 tiros. La probabilidad de que falle el
siguiente tiro es 0.6
b) Se forma un comité de siete estudiantes para estudiar las cuestiones

ambientales ¿Cuál es la probabilidad de que uno de ellos sea elegido como
el portavoz?
c) Usted compra uno de los 2 millones de lotería. ¿Cuál es la probabilidad de
que usted gane el premio mayor de un millón?
d) La probabilidad de un temblor en el norte del país en los próximos 10 años
es de 0.8
3. Antes de llevar a cabo una encuesta a nivel nacional, se seleccionaron 40

personas para probar el cuestionario. Una pregunta acerca de que si el aborto
debería legalizarse exigía una respuesta de si o no.
a) ¿Cuál es el experimento?
b) Dé un evento posible
c) 10 de 40 estuvieron a favor del aborto. Según estas respuestas ¿Cuál es la
probabilidad de que una persona determinada esté a favor de la
legalización del aborto?
d) ¿Qué concepto dee probabilidad ilustra esto?
e) ¿Son todos los resultados posibles igualmente probables y mutuamente
excluyentes?
4. Se desarrolló un nuevo videojuego portátil. Su potencial de mercado se va a

probar mediante 80 jugadores veteranos.
a) ¿Cuál es el experimento?
b) ¿Cuál es un resultado posible?
c) Suponga que 65 jugadores prueban el nuevo juego y dicen que les gusta
¿es 65 una probabilidad?
d) Se cálculo que la probabilidad de que el nuevo juego sea un éxito es -1
¿Qué opina usted?
e) Dé un ejemplo de un evento conjunto.
5. La probabilidad de que una nueva política de mercadeo tenga éxito (S) se

calculó en 0.60. la probabilidad de que los gastos para desarrollar la política de
mercadeo puedan mantenerse dentro del presupuesto inicial (B) es 0.50. la
probabilidad de que se logren los dos objetivos es 0.30.
a) ¿Cuál es la probabilidad de que se logre por lo menos uno de estos
objetivos?
b) ¿Cuál es la probabilidad de que la nueva política de mercado tenga éxito
dado que el costo de desarrollo se mantuvo dentro del presupuesto inicial.
c) ¿Son los eventos S y B estadísticamente independientes?
6. De 100 personas que solicitaron empleo de operador de computadoras en una

firma el año pasado, 40 tenían experiencia anterior (E), 30 tenían certificado ( C ),
y 20 tenían experiencia anterior y certificado.
a) ¿Cuál es la probabilidad de que un solicitante escogido aleatoriamente:
i) Tenga experiencia o certificado.

ii) No tenga certificado.
iii) No tenga ni experiencia ni certificado.
iv) Tenga certificado dado que tiene alguna experiencia anterior.
b) Determine si la experiencia y el certificado son eventos independientes.
7. En una gran área metropolitana se seleccionó una muestra de 500

encuestados para determinar información diversa respecto al comportamiento de
los consumidores. Entre las preguntas formuladas estaba “¿disfruta comprar
ropa ?”. De 240 hombres, 136 respondieron que sí. De las 260 mujeres, 44
respondieron que sí.
1) Construya una tabla de contigencia para evaluar las probabilidades.
2)¿Cuál es la probabilidad que un encuestado elegido aleatoriamente:
a) Sea hombre?
b) Disfrute comprar ropa?
c) Sea una mujer y disfrute comprar ropa?
d) Sea un hombre y no disfrute comprar ropa?
e) Sea una mujer o no disfrute comprar ropa’
3) Suponga que el encuestado elegido es un hombre. ¿Cuál es la

probabilidad que no disfrute comprar ropa?
4) ¿Disfrutar de comprar ropa y el sexo del individuo son estadísticamente
independientes?.
8. El director de una gran agencia de empleo desea estudiar las diversas

características de sus solicitantes de trabajo. Se ha seleccionado una muestra de
200 solicitantes para su análisis. Sesenta solicitantes habían tenido sus trabajos
actuales durante al menos cinco años; ochenta de los solicitantes son graduados
universitarios; 25 de los graduados universitarios duraron en sus trabajos al menos
cinco años.
a) ¿Cuál es la probabilidad que un solicitantes escogido aleatoriamente?.
a.1. Sea un graduado universitario?
a.2. Sea un graduado universitario y haya tenido su trabajo al actual
menos de cinco años?.
a.3. Sea un graduado universitario o haya tenido su trabajo actual al
menos de cinco años?
b) Dado que un empleado particular es un graduado universitario, ¿cuál es la
probabilidad que haya durado en su trabajo menos de cinco años?.
9. Se han llevado acabo numerosos estudios intensivos de la planeación de los

consumidores para la compra de bienes duraderos como televisores,
refrigeradores, lavadora, etc. En uno de estos estudios se preguntó a 1000
individuos de una muestra aleatoriamente seleccionada si estaban planeando

comprar una nueva televisión en los siguientes 12 meses. Un año después se
entrevistó a las mismas personas para ver si realmente compraron una nueva T.V.
la respuesta a ambas entrevistas se tabula de manera cruzada a continuación.
Compraron ( C ) No compraron (C’) Totales
Planearon ( P ) 200 50 250
No planeando ( P’ 100 650 750

)
Totales 300 700 1000
a) si un individuo se selecciona aleatoriamente, ¿cuál es la probabilidad de

que en el último año.
a.1. Haya comprado una nueva T.V.?.
a.2. No haya planeado comprar una nueva T.V.?.
a.3. Haya planeado comprar y realmente haya comprado una nueva T.V.?.
a.4. Haya planeado comprar o realmente no haya comprado una nueva
T.V.?.
b) si el entrevistado no planeo comprar una nueva T.V., ¿cuál es la
probabilidad que no haya comprado una?.
c) ¿Planear comprar una T.V. y realmente comprar una son eventos
estadísticamente independientes?. Explique.
10. Un comprador de ropa de una gran tienda departamental compra anualmente

20% de las piezas a un fabricante A, 30% a un segundo fabricante B y el 50%
restante a diversos proveedores. De la ropa comprada a A se vende el 80%; 75%
de la de B y 90% de los restantes. ¿Cuál es la probabilidad de que una pieza que
no se vendió al final de la temporada, provenga del fabricante B?
11. El gerente de comercialización de una compañía fabricante de juguete está

planeando introducir un nuevo juguete en el mercado. En el pasado, 40% de los
juguetes introducidos por la compañía han tenido éxito y 60% no lo han tenido.
Antes de que se comercialice el juguete, se lleva a cabo un estudio de mercado y
se compila un informe, ya sea favorable o desfavorable. Anteriormente, 80% de
los juguetes exitosos recibieron informes favorables y 30% de los juguetes no
exitosos también recibieron informes favorables.
a) Suponga que el estudio de mercado da un informe favorable sobre el
nuevo juguete. ¿Cuál es la probabilidad de que el nuevo juguete tenga éxito
b) ¿Qué proporción de los juguetes nuevos reciben informes favorables de

estudios de mercado?.
12. Una empresa compra cierto tipo de pieza que es suministrada por tres
proveedores: el 45%de las piezas son compradas al primer proveedor resultando
defectuoso el 1%. El segundo proveedor suministra el 30% de las piezas, y de
ellas es defectuoso el 2%. Las restantes piezas provienen del tercer proveedor,
siendo defectuoso el 3% de la mismas. En un control de recepción de artículos se
selecciona una pieza al azar y es defectuosa. Calcular la probabilidad de que la
haya suministrado el segundo proveedor.
13. Ochenta por ciento de material de vinil que se recibe del vendedor A es de
calidad excepcional, en tanto que solo cincuenta por ciento de material de
vendedor B es de calidad excepcional. Sin embargo, la capacidad de fabricación
del vendedor A es limitada y, por esa razón, solo cuarenta por ciento del vinil que
la empresa adquiere proviene de este vendedor. El sesenta por ciento restante se
compra al vendedor B. Se inspecciona un embarque de vinil que acaba de llegar y
se encuentre que es de excepcional calidad. ¿Cuál es la probabilidad de que
provenga del vendedor A?
Tema4: Introducción al muestreo y a la estimación
Distribución normal
Esta distribución es considerada la más importante por las siguientes razones:
1. Numerosos fenómenos contínuos parecen seguirla o se pueden aproximar

mediante ella.
2. Se puede utilizar para aproximar distribuciones de probabilidad de variables
aleatorias discretas.
3. Proporciona la base para la Estadística Inferencial.
4.1 El modelo normal

Decimos que una variable aleatoria continua X, tiene una distribución normal con
parámetros  y 2, lo cual denotaremos por X  N (  , 2 ), si la función de
densidad de probabilidad de X está definida por:
Características.
1 x - μ 2
f(x ) =
1
e
− (
2 σ ) , -∞ < x < ∞
σ√ 2 π
e = 2 . 71828 ⋯
1. Es una familia de distribuciones normales de tal forma que cada vez que se
especifican los parámetros  y 2 se identifica al correspondiente miembro de la
familia, esto es, se produce una distribución normal particular.
2. Los dos parámetros  y 2 conciden con la media (esperanza) y la varianza
respectivamente de X, esto es
E(X) = 
V( X ) = 2  X = √ V( X )
Tiene forma de campana y el valor máximo de f ( x ) ocurre en x = .
También tiene puntos de inflexión que ocurren en x =  -  y x =  + 
-  + X
La mediana y la moda coinciden con  , y por lo tanto, es simétrica con respecto a
 , así que
1
P(X   ) = P(X  ) = 2
3. A medida que x aumenta o disminuye a partir de  , f ( x ) decrece

uniformemente, de tal forma que cuando x    , f ( x )  0. Esto significa
que el eje X es asíntota de la curva normal, en otras palabras, que a medida que x
se aleja de  , en ambas direcciones, f ( x ) se acerca cada vez más al eje X, pero
nunca llega a tocarlo. Formando de esta manera colas que se extienden
indefinidamente en ambas direcciones.
4. La posición y forma de la campana dependerá respectivamente de los valores

 y . Esto quiere decir que  le dará posición a la campana, mientras que  le
dará forma. Así que cuanto menor sea , mayor área habrá concentrada
alrededor de  y la curva será muy apuntada cerca de  ; y cuanto mayor sea 
menor área habrá alrededor de  y más aplastada será la curva.
B
A
C
1 2
En la figura se dan tres funciones de densidad de probabilidad normales. Las

funciones de densidad de probabilidad A y B tienen la misma media  1 pero
diferentes desviaciones estándar.
La desviación estándar de la función de densidad de probabilidad B es menor que

la desviación estándar de la función de densidad de probabilidad de A, motivo por
el cual aparece más apuntada .
Por otra parte, las funciones de densidad de probabilidad A y C tienen la misma

desviación estándar  pero medias diferentes. Más aún, las funciones de
densidad de probabilidad de B y C tiene n diferentes medias y también diferentes
desviaciones estándar.
4.2 LA DISTRIBUCION NORMAL ESTANDAR
Si una variable aleatoria Z tiene una distribución normal con parámetros  Z = 0

y Z = 1 entonces estamos en presencia de un miembro “muy honorable” de la
familia, que llamaremos distribución normal estándar. La figura 4.4 ilustra esta
distribución.
Z = 1
Z = 0 Z
Estandarizacion de la distribucion normal
Cada vez que apliquemos una distribución normal a una situación dada será
necesario identificar un miembro de la familia, esto es, una variable aleatoria X
que tenga distribución normal con parámetros  y  , con el fin de poder calcular
las probabilidades solicitadas.
Lo anterior significa que cada situación o problemas tendría su propia distribución
normal, lo cual resulta muy incómodo.
Para evitar ese inconveniente convertiremos la variable aleatoria X que tiene

distribución normal con media  y desviación estándar  a otra variable aleatoria
Z que tenga distribución normal estándar, mediante la siguiente fórmula de
transformación:
X -μ
= Z
σ
Esto es, las diferencias X -  expresadas en unidades de la desviación estándar.
A Z le llamaremos variable aleatoria estandarizada y su función de densidad de

probabilidad estará definida así:
− 1 Z2
1
f(z ) = e 2 , -∞ < z < ∞
σ√ 2 π
El procedimiento de estandarización de una distribución normal puede apreciarse

con el siguiente gráfico.
 Z
= 1
 X  Z = 0
Z
En símbolos lo anterior puede escribirse así:
X - μ
X ~ N ( μ , σ) ⇒ = Z ~ N ( 0,1 )
σ
La funcion de distribucion acumulada de la variable aleatoria z
Suponga que f ( s ) es la función de densidad de probabilidad de Z.
La función de distribución acumulada de Z se denota y define como
z
F( z ) = P ( Z ≤z ) = ∫ -∞ f ( s ) d s = A
Las figuras siguientes ilustran la función de distribución acumulada de Z.
0 z Z
z 0 Z
Con el propósito de no recurrir a los métodos de integración se ha elaborado una
tabla para la función de distribución acumulada de Z, que nos permite leer
directamente el valor de F ( z ) para cualquier z.
Uso de la tabla
Note que la tabla consta de dos partes, una arriba, para los valores negativos de z
y otra abajo para los valores positivos de z.
Observe, para ambas partes de la tabla, que en el márgen izquierdo está el dígito
unitario y una décima de z, mientras que en el margen superior se encuentran las
centésimas de z.
Ejemplo
Encuentre P ( Z  - 1.24 )
Aplicando la definición de función de distribución acumulada de Z tenemos que:
− 1. 24
P ( Z ≤ -1.24 ) = F (-1. 24) = ∫ -∞ f ( z) dz
Para no calcular la integral definida anterior es que usaremos la tabla 2, que

aparece en la página 130, de la siguiente manera: Bajamos sobre el márgen
izquierdo o columna z, de la parte de arriba de la tabla, hasta encontrar -1.2,
luego buscamos en el margen superior el 4.
Ahora tracemos dos líneas imaginarias, una horizontal que pase por –1.2 y otra
vertical que pasa por 4. En la intersección de las líneas anteriores encontraremos
el valor 0.1075.
De manera que F (-1.24 ) = 0.1075.
La ilustración gráfica del resultado anterior es
0.1075
- 1.24 0 Z
Como calcular probabilidade de eventos descritos por variables aleatorias

normales.
Suponga que la variable aleatoria X tienen una distribución normal con parámetros
 y 2. Estamos interesados en calcular probabilidades de eventos de finidos por
X. Según la forma en que se definan estos eventos, consideraremos los siguientes
casos:
Caso 1.
El evento tiene la forma X  c donde c es un valor determinado, queremos
calcular P(Xc).
Lo primero que tenemos que hacer es estandarizar la variable aleatoria X y el
valor c.
Una ilustración gráfica sería la siguiente donde se ha sombreado el área que

representa P(X c )
 A
1
x- μ
= Z
A σ
c−μ
 c X 0 σ
Z
El hecho anterior permitirá que:
c−μ c−μ
P( X <c )=P( Z<
σ
)=F
σ ( )
=A
c-μ
Esta área acumulada a la izquierda de σ podemos leerla directamente en
la tabla
Caso 2.
El evento tiene la forma X  c donde c es un valor determinado, queremos calcular
P ( X  c ). Una ilustración gráfica sería la siguiente donde se ha sombreado el
área que representa P ( X  c ).
 c X
Como la distribución normal es simétrica podemos escribir que:
P(X  c) = 1 - P(X c) = A
Esto es, el área acumulada a la derecha de c es igual a 1 menos el área

acumulada a la izquierda
de c. El área acumulada a la izquierda de c, esto es, P ( X  c ) se encuentra
aplicando el Caso 1.
Caso 3.
El evento tiene ahora la forma a  X  b donde a y b son valores determinados,

queremos calcular P ( a  X  b ). Una ilustración gráfica sería la siguiente donde
se ha sombreado el área que representa P ( a  X  b ).
A
a b X
Aplicando diferencias de áreas acumuladas a la izquierda de b y a podemos

escribir que:
P( aXb) = P(X b) - P(X  a) = A
donde P ( X  b ) y P ( X  a ) se encuentran aplicando el caso 1 a cada una.
4.3 Estudio de la normalidad

Muchos métodos estadísticos se basan en la hipótesis de normalidad de
la variable objeto de estudio. De hecho, si la falta de normalidad de la
variable es suficientemente fuerte, muchos de los contrastes utilizados en los
análisis estadístico-inferenciales no son válidos. Incluso aunque las muestras
grandes tiendan a disminuir los efectos perniciosos de la no normalidad, el
investigador debería evaluar la normalidad de todas las variables incluidas
en el análisis.
Existen varios métodos para evaluar la normalidad de un conjunto de

datos que pueden dividirse en dos grupos: los métodos gráficos y los contrastes
de hipótesis.
a) Métodos gráficos
El método gráfico univariante más simple para diagnosticar la

normalidad es una comprobación visual del histograma que compare los
valores de los datos observados con una distribución normal. Aunque atractivo
por su simplicidad, este método es problemático para muestras pequeñas,
donde la construcción del histograma puede distorsionar la representación
visual de tal forma que el análisis sea poco fiable.
Otras posibilidades, también basadas en información gráfica, consisten en
realizar
diagramas de cuantiles (Q-Q plots).
Los diagramas de cuantiles comparan en un sistema de coordenadas

cartesianas, los cuantiles muestrales (eje X) con los cuantiles esperados bajo la
hipótesis normalidad. Si la distribución de partida es normal dichos diagramas
tenderán a ser rectas que pasan por el origen. Cuanto más se desvíen de una
recta menos normales serán los datos.
b) Contrastes de Hipótesis
La segunda de las formas para comprobar la normalidad de una

distribución se efectúa a través de un contraste de hipótesis. No existe un
contraste óptimo para probar la hipótesis de normalidad. La razón es que la
potencia relativa depende del tamaño muestral
y de la verdadera distribución que genera los datos. Desde un punto de vista poco
riguroso,
el contraste de Shapiro y Wilks es, en términos generales, el más conveniente

en muestras pequeñas (n < 30), mientras que el contraste de Kolmogorov-
Smirnov, en la versión modificada de Lilliefors es adecuado para muestras
grandes.
En el test de Kolmogorov-Smirnov la hipótesis nula que se pone a prueba
es que los datos proceden de una población con distribución normal frente a una
alternativa de que no
es así. Este contraste calcula la distancia máxima entre la función de distribución
empírica
de la muestra y la teórica. Si la distancia calculada es mayor que la encontrada en

las tablas, fijado un nivel de significación, se rechaza el modelo normal.
Otros contrastes muy utilizados son los tests de asimetría y curtosis.
Ejemplo
1. Tenemos un programa de entrenamiento diseñado para mejorar la calidad de

las habilidades de supervisión de los supervisores de línea de producción. Debido
a que el programa es auto administrativo, los supervisores requieren un número
diferente de horas para terminarlo. Un estudio de los participantes anteriores
indica que el tiempo medio que se lleva completar el programa es de 500 horas, y
que esta variable aleatoria normalmente distribuida tiene una desviación estándar
de 100 horas.
a)¿Cuál es la probabilidad de que un participante elegido al azar requiera más de

500 horas para completar el programa?
b). ¿Cuál es la probabilidad de que un candidato elegido al azar se tome entre 500
y 650 horas para completar el programa de entrenamiento?
2. Una empresa lleva a cabo una prueba para seleccionar nuevos empleados. Por
la experiencia de pruebas anteriores, se sabe que las puntuaciones siguen una
distribución normal de media 80 y desviación típica 25. ¿Qué porcentaje de
candidatos obtendrá entre 75 y 100 puntos?
Solución: 36,74 %
3. En la rama de la construcción está establecido por la ley un salario mínimo de

C$ 12 por hora para los obreros. Si suponemos que los salarios en esta rama
están distribuidos normalmente con una media de C$ 18 por hora y una desviación
estándar de C$ 3.
a)¿Qué porcentaje de los obreros podrían iniciar un proceso de demanda por

incumplimiento a la ley?
Supongamos que la variable aleatoria X representa al salario de los obreros.
4)Las encuestas realizadas por una corporación financiera han revelado que la
vida de una cuenta regular de ahorros abierta en uno de sus bancos tiene una
distribución normal con un promedio de 26 meses y una desviación estándar de
8.2 meses.
Si un depositante abre una cuenta en un banco que es miembro de esa
corporación:
a) ¿Cuál es la probabilidad de que en esa cuenta haya todavía dinero después

de 30 meses?
b) ¿Cuál es la probabilidad de que la cuenta haya sido cancelada antes de un
año y medio?
5)El número de días entre la facturación y el pago de las cuentas de crédito de un
almacén tiene una distribución aproximadamente normal con una media de 18
días y desviación estándar de 4 días.
a) ¿Qué proporción de las cuentas serán pagadas.
a.1. entre 12 y 18 días?
a.2. en menos de 8 días?
a.3. en 12 días o más.
b) ¿En cuántos días estarán pagadas el 99.5% de las cuentas?
6)La empresa Consolidada de Conformación de Metales produce varillas de

aluminio. Se conoce que según el proceso empleado se fabrican varillas cuyas
longitudes son normalmente distribuidas con media población igual a 6.00 pulg y
desviación estándar igual a 0.30 pulg. Si las especificaciones requeridas para las
longitudes son desde 5.60 pulg hasta 6.50 pulg:
a) ¿Qué proporción de las varillas son cortas?
b) La empresa afirma que a lo sumo el 5% de las varillas resultan largas. ¿Es
cierta dicha afirmación? Explique su respuesta.
7)La duración de un determinado tipo de lavadora automática tiene una

distribución aproximadamente normal, con una media de 3.1 años y una
desviación estándar de 1.2 años.
¿ Qué proporción del total de unidades vendidas tendrá que ser reemplazado
si la garantía es de
un año.?
8)La demanda semanal de artículos que produce una empresa es una variable
aleatoria aproximadamente normal con una media de 20 artículos y una
desviación estándar de 2 artículos.
¿Cuál es la probabilidad de que cierta semana la demanda sea:
i) Como máximo 12 artículos?

ii) Como mínimo 20 artículos?
9)Una empresa de jabonería y perfumería usa una máquina para llenar cajas con
polvo facial. En un informe del departamento de control estadístico de la calidad,
se afirma que los pesos netos de las cajas están distribuidos normalmente con
una media igual a 15 onzas y desviación estándar igual a 0.8 onzas.
a) Se selecciona al azar una caja, ¿cuál es la probabilidad de que tenga un
peso neto mayor de 14.5 onzas?
b) Si cierto día la máquina llena 1500 cajas, ¿cuántas cajas tendrán pesos
netos menores que 14.5 onzas?
4.4 Métodos de muestreo
En todo muestreo lo deseable básicamente es obtener una muestra que sea una
buena representación de la población en miniatura y que además su costo sea el
menor posible, ya que a mayor representatividad de la muestra se espera mayor
precisión en las estimaciones de los parámetros.
Existen dos métodos que tratan de obtener la muestra anterior: el muestreo no

probabilístico y el muestreo probabilístico.
Muestreo no probabilistico
- En este método no todos los elementos poblacionales tendrán posibilidad de
integrar la muestra, motivo por el cual se espera poca representatividad de la
muestra.
- Se usan el conocimiento, la experiencia y la opinion personal para identificar los

elementos de la población que van a incluirse en la muestra.
A pesar de esta falta de objetividad los métodos de muestreo no probabilísticos
son importantes en los negocios y la investigación económica.
Muestreo probabilistico
- Es un método de muestreo en el cual cada elemento de la población tiene una
probabilidad conocida (no igual a cero) de ser incluido en la muestra.
- Las unidades muestrales se seleccionan conforme a las leyes del azar en vez del
criterio personal.
- La precisión de sus resultados se puede medir objetivamente porque, según

veremos más adelante, los estimadores de parámetros seguirán las leyes del azar,
esto es, una distribución de probabilidad conocida de la cual podremos considerar
su desviación estándar como un error de muestreo esperado (promedio).
Tipos de muestreos probabilisticos.

Algunos tipos de muestreos probabilísticos son los siguientes: muestreo aleatorio

simple, muestreo aleatorio sistemático, muestreo aleatorio estratificado y
muestreo aleatorio por conglomerado.
4.5 Conceptos básicos (Muestreo)
Error Muestral, de estimación o standard. Es la diferencia entre un estadístico y

su parámetro correspondiente. Es una medida de la variabilidad de las
estimaciones de muestras repetidas en torno al valor de la población, nos da una
noción clara de hasta dónde y con qué probabilidad una estimación basada en una
muestra se aleja del valor que se hubiera obtenido por medio de un censo
completo.
Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la
realidad. Cualquier información que queremos recoger está distribuida según una
ley de probabilidad (Gauss o Student), así llamamos nivel de confianza a la
probabilidad de que el intervalo construido en torno a un estadístico capte el
verdadero valor del parámetro.
Varianza Poblacional. Cuando una población es más homogénea la varianza es
menor y el número de entrevistas necesarias para construir un modelo reducido
del universo, o de la población, será más pequeño. Generalmente es un valor
desconocido y hay que estimarlo a partir de datos de estudios previos.
Inferencia estadística. Trata el problema de la extracción de la información sobre
la población contenida en las muestras.
Para que los resultados obtenidos de los datos muestrales se puedan extender a
la población, la muestra debe ser representativade la población en lo que se
refiere a la característica en estudio, o sea, la distribución de la característica en la
muestra debe ser aproximadamente igual a la distribución de la característica en la
población.
La representatividad en estadística se logra con el tipo de muestreo adecuado que
siempre incluye la aleatoriedad en la selección de los elementos de la población
que formaran la muestra. No obstante, tales métodos solo nos garantizan una
representatividad muy probable pero no completamente segura.
Después de estos preliminares imprescindibles es posible pasa a tratar algunas de
las formas que desde el punto de vista científico se puede extraer una muestra.
4.6 Muestreo aleatorio simple: Es aquel en que cada elemento de la población
tiene la misma probabilidad de ser seleccionado para integrar la muestra.
En la práctica no nos interesa el individuo o elemento de la población seleccionado
en general, sino solo una característica que mediremos u observaremos en él y
cuyo valor será el valor de una variable aleatoria que en cada individuo o elemento
de la población puede tomar un valor que será un elemento de cierto conjunto de

valores. De modo que una muestra simple aleatoria se puede
interpretar como un conjunto de valores de variables aleatorias
independientes, cada una de las cuales tiene la misma distribución que es llamada
distribución poblacional.
Existen dos formas de extraer una muestra de una población: con reposición y sin
reposición.
Muestreo con reemplazo: Es aquel en que un elemento puede ser seleccionado
más de una vez en la muestra para ello se extrae un elemento de la población se
observa y se devuelve a la población, por lo que de esta forma se pueden hacer
infinitas extracciones de la población aun siendo esta finita.
Muestreo sin reemplazo: No se devuelve los elementos extraídos a la población
hasta que no se hallan extraídos todos los elementos de la población que
conforman la muestra.
4.7 Como seleccionar la muestra aleatoria simple.
1. Construir el marco muestral.

El primer paso al seleccionar una muestra de una población es hacer lo que
llamaremos un marco muestral, esto es, una lista completa y actualizada de todos
los elementos de la población.
2. Especificar si el muestreo será con o sin reposicion.
Cuando muestreamos sin reposición de una población de tamaño N (el elemento

seleccionado no se devuelve a la población y por tanto no puede seguir siendo
considerado para otra extracción) las probabilidades de seleccionar los elementos
restantes después de cada extracción van aumentando porque el tamaño de la
población se va reduciendo en uno tras cada extracción. De manera que la
probabilidad de seleccionar un elemento particular en la primera extracción es
l
N , la probabilidad de seleccionar otro elemento particular en una segunda
l
extracción consecutiva es N - 1 y así sucesivamente.
3. Utilizar una tabla de numeros aleatorios.

Una tabla de números aleatorios consiste en una serie de dígitos generados en
forma aleatoria y en listados en la secuencia en la que fueron generados.
Asignar números de códigos a los elementos de la población utilizando

cierto número de dígitos.
El número de dígitos a utilizar dependerá del tamaño de la población N y será el

mismo para cada situación.
Ejemplo, si N = 140 sus elementos se codificarán así: 001, 002, ... ,139, 140
Si N = 10 sus elementos se codificarán así: 01,02, .... , 09, 10 donde “0” debe
leerse como 10.
Si N = 100 sus elementos se codificarán así: 001, 002, , 099, 100 .
Escoja una entrada a la tabla.

La entrada se especificará dando un número de fila y un número de columna de
manera arbitraria.
Un método satisfactorio consiste en cerrar los ojos y colocar la punta de un lápiz
en la tabla, el número señalado por la punta será la entrada a la tabla
Escoja una dirección.

Por ejemplo: Descendente ( ↓ ) , horizontal de izquierda a derecha ( → ) ,
etc.
Si el número a seleccionar es mayor que N (o fue seleccionado previamente en un
muestreo sin reposición) se descarta y se selecciona el siguiente.
Si al terminar la fila o columna en la dirección escogida, no se tienen aún los n
números que requiere la muestra, continue en la siguiente fila o columna.
2 Hágale corresponde a cada número seleccionado de código su elemento

correspondiente.
EJEMPLO
La población de supermercados de una ciudad se dan en la siguiente tabla.
No de 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16
super
Venta 8. 7. 5. 3. 6. 7. 8. 2. 1. 4. 3. 5. 4. 8. 9. 3.
s 1 5 4 0 2 0 0 5 8 3 8 5 6 3 0 6
diarias
(en
miles
Si X representan las ventas diarias.

a) Diga que representan  y  en el problema.
b) Tome una muestra aleatoria simple de 4 supermercados. Luego

márquelos con un *.
c) Estime  ,  y  utilizando la muestra del inciso
d) Obtenga los errores de muestreo correspondientes a las
estimaciones de  y  hechas en el inciso c)
4.8 Estimador puntual y por intervalo
Un estimador puntual de un parámetro es aquel que proporciona un único

estimado de ese parámetro al utilizar los datos muestrales.
Un estimador por intervalo de confianza de un parámetro es aquel que define un

par de variables aleatorias Li y Ls (que llamaremos límite inferior y límite superior
del intervalo) entre los cuales diremos que hay una probabilidad de 1 -  (que
llamaremos nivel de confianza) de que el parámetro se encuentre entre dichos
límites; y también diremos que hay una probabilidad  (que llamaremos riesgo)
de que no se encuentre entre dichos límites.
Cada muestra particular proporcionará un intervalo conocido que llamaremos

intervalo de confianza del (1 - )100% para el parámetro.
En un muestreo repetido esperamos que un (1 - )100% de los intervalos

particulares cubran el parámetro y que un (  ) 100% no lo cubran.
4.9 Estimador por intervalo para  y τ cuando  es conocida.

Si una población es normal, esto es, si su característica de interés X tiene una
distribución normal con desviación estándar  conocida, entonces:
1) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado

así:
i) Para una población infinita.

σ
X̄ ± z α /2
√n para cualquier n
donde
z α/2 es un valor de la normal estándar que tiene a su izquierda una área
α
1-
acumulada de 2 ,
y el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y

el límite superior ( Ls ) es la suma señalada por las mismas expresiones.
ii) Para una población finita.

σ N - n
X̄ ± z α /2
√n √ N - 1 para
cualquier n
donde el límite inferior ( Li ) es la diferencia señalada por las expresiones

anteriores y el límite superior ( Ls ) es la suma señalada por las mismas
expresiones.
2) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado

así:
53
σ N - n
N { X̄ ± z α/2 N
√n √ N - 1
¿
para cualquier n

expresiones.
 Si la población es no normal pero n  30 podemos aplicar el teorema del

límite central para garantizar la aplicación de las fórmulas anteriores a esas
circunstancias.
Ejemplo
Una máquina empaca azúcar en bolsas plásticas. Se quiere estimar el peso
promedio de las bolsas de azúcar sabiendo por estudios anteriores que la
desviación estándar poblacional es de 0.10 lbs. Del flujo de producción se toma
una muestra aleatoria sistemática de 10 bolsas, obteniendo los siguientes pesos
en libras.
5.10, 4.90, 4.80, 5.15, 5.05, 4.95, 4.97, 4.85, 5.03, 5.00
Suponiendo que el peso de las bolsas de azúcar se distribuye normalmente:
Obtenga un intervalo de confianza del 80% para el peso promedio de las bolsas
de azúcar.
4.10 Estimador por intervalo para  y  cuando  es desconocida
Ahora que ya estudiamos la distribución t de student, podemos utilizar el mismo

razonamiento que se utilizó para la distribución Z para demostrar que las
expresiones que definen los límites inferior y superior de un intervalo de confianza

para  y  son:
1) Un estimador por intervalo de confianza del ( 1 -  ) 100% para  está dado

así:
i) Para una población infinita
S
X̄ ± t α /2
√n siempre que n  30
donde t α/2 es un valor de la distribución t de Student que tiene a su derecha una
α
área de 2
ii) Para una población finita
S N-n
X̄ ± tα /2
√
√ n N-1 siempre que n  30

expresiones.

así
S N-n
N { X̄ ± t α /2 N
√
√ n N-1
¿
siempre que n  30
Notas:
α
 t α/2 se obtiene de la expresión P(t  t α /2 ) = 2
N-n
 Si
n
N  0.05 podemos omitir el factor de corrección √ N-1
EJEMPLO 1
Un auditor quiere estimar el saldo promedio y el saldo total de una población de
1000 cuentas por cobrar. Con tal propósito selecciona al azar una muestra de 6
cuentas, obteniendo los siguientes resultados en miles de córdobas.
2.6 , 3.0 , 3.5 , 2.4 , 2.0 1.5

Si suponemos que los saldos de las cuentas se distribuyen aproximadamente

normal.
1) Determine un intervalo de confianza del 90% para:

i) el saldo promedio de las cuentas
ii) el saldo total de las cuentas
2) Si el auditor quiere estimar el saldo promedio de las cuentas con un error de

más o menos C$ 500 y con una confianza del 98%, ¿qué tamaño mínimo de
muestra se requiere?
3) Suponga para el ejemplo que ahora el auditor decide seleccionar una muestra
aleatoria de 36 cuentas por cobrar, obteniendo los siguientes resultados en
miles de córdobas.
X̄ = 2.6 (en miles de C$)
S = 0.5 (en miles de C$)
Determine un intervalo de confianza del 95% para el saldo promedio de las

cuentas.
EJEMPLO 2
Se va a vender un nuevo cereal para desayuno como prueba de mercados
durante un mes en las tiendas de una cadena de autoservicio. Los resultados de
una muestra de 36 tiendas indicaron ventas promedio de C$ 1200 con una
desviación estándar de C$ 180.
a) Establezca un intervalo de confianza del 99% para las ventas promedios reales
de este nuevo cereal.
b) Si la cadena tiene 200 tiendas, establezca un intervalo de confianza del 99%
para las ventas promedios reales de este producto.
4.11 Estimador por intervalo para p y 
Puede demostrarse que las expresiones que definen los limites inferior y superior
de un intervalo de confianza para p y  son:
1) Un estimador por intervalo de confianza del ( 1 -  )100 % para p esta dado
así

p ( 1-p )
donde
pS ± z α /2
z α/2
√ S
n
S
es un valor de la normal estándar que tiene a su derecha una área

α
acumulad de 2

pS ( 1 - pS )
pS ± z α /2
√ n √ N-n
N-1

expresiones.
N-n
Si
n
N  0.05 , podemos omitir el factor de corrección √ N-1

así
pS ( 1 - pS )
N p S ± z α /2 N
√ n √ N-n
N-1

expresiones.
N-n
Si
n
N  0.05 , podemos omitir el factor de corrección √ N-1
Según la distribución poblacional y el tamaño de muestra se presentan en la tabla

de abajo distintas situaciones en las cuales los estadísticos Z o t pueden ser
utilizados.
DISTRIBUCION DE LA POBLACION
Tamaño Normal No Normal
De muestra n  conocido   conocido 

desconocido desconocido
Z t
n  30
n  30 Z Z Z Z
4.12 El tamaño de la muestra:

Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número
mínimo de unidades de análisis ( personas, organizaciones, capitulo de
telenovelas, etc), que se necesitan para conformar una muestra ( que me
asegure un error estándar menor que 0.01 ( fijado por el muestrista o investigador)
y un nivel de confianza de ( 1 -  ) 100% , dado que la población es
aproximadamente de tantos elementos.
En el tamaño de una muestra de una población tenemos que tener presente

además si es conocida o no la varianza poblacional.
Para determinar el tamaño de muestra necesario para estimar con un error
máximo permisible E prefijado y conocida la varianza poblacional ( σ2 ) podemos
utilizar las formulas:
2
z α /2 σ
n = [ ] E
2
z α /2 σ
no = [ ] E
no no N
> 0 . 05, n =
Si N n0 puede ser reducida a no + ( N - 1 )
Ejemplo
Se desea estimar el peso promedio de los sacos que son llenados por un nuevo
instrumento en una industria. Se conoce que el peso de un saco que se llena con
este instrumento es una variable aleatoria con distribución normal. Si se supone
que la desviación típica del peso es de 0.5 kg. Determine el tamaño de muestra
aleatoria necesaria para determinar una probabilidad igual a 0.95 de que el
estimado y el parámetro se diferencien modularmente en menos de 0.1 kg.
Solución:
E=0.1
σ =0.5
1−∝=0.95
∝
z =1.96
2
2 2
z α /2 σ 0.5*1 .96
n = [ ]E =
n=
[
0 .1 ] = 96.4
Evidentemente un tamaño de muestra no puede ser fraccionario por lo que se
debe aproximar por exceso. El tamaño de muestra sería de 97.
Si la varianza de la población es desconocida, que es lo mas frecuente se ve en la
práctica el tratamiento será diferente, no es posible encontrar una fórmula cuando
la varianza poblacional es desconocida por lo que para ello aconsejamos utilizar el
siguiente procedimiento-
Primeramente, se toma una pequeña muestra, que se le llama muestra piloto, con
ella se estima la varianza poblacional ( ) y con este valor se evalúa en la
formula (1), sustituyendo ( ) por su estimación ( ). El valor de obtenido será
aproximadamente el valor necesario, nuevamente con ese valor de se extrae
una muestra de este tamaño de la población se le determina la varianza a esa
muestra, como una segunda estimación de ( ) y se aplica de nuevo la formula
(1), tomando la muestra con el obtenido como muestra piloto para la siguiente
iteración, se llegará a cumplir con las restricciones prefijadas. Se puede plantear
esta afirmación ya que la de tiende a estabilizarse a medida que aumenta
alrededor de la por lo que llegará el momento en que se encuentre el
tamaño de muestra conveniente, sin embargo, en la práctica es mucho más
sencillo pues, a lo sumo con tres iteraciones se obtiene el tamaño de muestra
deseado, este procedimiento para obtener el tamaño de muestra deseado se
puede realizar utilizando en Microsoft Excel en la opción análisis de datos las
opciones estadística descriptiva para ir hallando la varianza de cada una de las
muestras y la opción muestra para ir determinado las muestras pilotos. Para
obtener el tamaño de la muestra utilizando este método recomendamos la
utilización de un paquete de computo como por ejemplo el Microsoft Excel,
aplicando las opciones muestra y estadística descriptiva.
Tamaño de la muestra para una proporción

Para determinar el tamaño de la muestra cuando los datos son cualitativos es

decir para el análisis de fenómenos sociales o cuando se utilizan escalas
nominales para verificar la ausencia o presencia del fenómeno a estudiar, se
recomienda la utilización de la siguiente formula:
El tamaño de muestra requerido n para estimar p con un error máximo permitido
E y un nivel de confianza de ( 1 -  ) 100% es

2
z α /2
n= p (1− p) ( )
E donde p puede ser estimado con pS
ii) Para una población finita.
2
z α /2
n0 = p(1− p ) ( )
E donde p puede ser estimado con pS
no
> 0 . 05,
Si N n0 puede ser reducida a
no N
n =
no + ( N - 1 )
Si no se cuenta con una estimación de p , utilizaremos en la fórmula anterior el

valor de p que hace máxima la expresión p ( 1 – p ), es decir tomaremos p =
0.50
EJEMPLO
El gerente de una cadena de tiendas de departamentos desea determinar la
proporción de poseedores de tarjetas de crédito que comprarían en las tiendas si
estuvieran abiertos los domingos. Con tal propósito decide seleccionar una
muestra aleatoria de 100 tarjetahabientes, la cual informó que 60 comprarían los
domingos.
i) Encuentre un intervalo de confianza del 99% para la proporción real de

tarjetahabientes que comprarían los domingos.
ii)Si el gerente quiere estimar la proporción real de tarjetahabientes que
comprarían los domingos con un 99% de confianza de tener una tolerancia de 
0.025, ¿qué tamaño de muestra se requiere?
Ejercicios sobre estimación por intervalos.
1)Una muestra aleatoria de 36 cigarrillos de una determinada marca dio un

contenido promedio de nicotina de 3 miligramos. El contenido en nicotina de estos
cigarrillos sigue una normal con una desviación estándar de 1 miligramo. a)
Obtenga e interprete un intervalo de confianza del 95% para el verdadero
contenido promedio de nicotina en estos cigarrillos. b) El fabricante garantiza que
el contenido promedio de nicotina es 2.9 miligramos, ¿qué puede decirse de
acuerdo con el intervalo hallado?
2)Los siguientes números representan el tiempo(en minutos) que tardaron 15

operarios en familiarizarse con el manejo de una nueva máquina adquirida por la
empresa: 3.4, 2.8, 4.4, 2.5, 3.3, 4, 4.8, 2.9, 5.6, 5.2, 3.7, 3, 3.6, 2.8, 4.8.
Supongamos que los tiempos se distribuyen normalmente. a) Determina e
interpreta un intervalo del 95% de confianza para el verdadero tiempo promedio. b)
El instructor considera que el tiempo promedio requerido por los trabajadores es
mayor que 5 minutos, ¿qué se puede decir de acuerdo con el intervalo hallado?
3)Una marca de lavadoras quiere saber la proporción de amas de casa que

preferirían usar su marca. Toman al azar una muestra de 100 amas de casa y 20
dicen que la usarían. Calcula un intervalo de confianza del 95% para la verdadera
proporción de amas de casa que preferirían dicha lavadora.
4)Un fabricante de baterías para automóvil asegura que las baterías que produce
duran en promedio 2 años, con una desviación típica de 0.5 años. Si 5 de estas
baterías tienen duración 1.5, 2.5, 2.9, 3.2, 4 años, determine un intervalo de
confianza del 95% para la varianza e indique si es válida la afirmación del
fabricante.
Ejercicios sobre el tamaño de la muestra.
1. Queremos ajustar una máquina de refrescos de modo que el promedio del

líquido dispensado quede dentro de cierto rango. La cantidad de liquido vertido por
la máquina sigue una distribución normal con desviación estándar 0.15 decilitros.
Deseamos que el valor estimado que se vaya a obtener comparado con el
verdadero no sea superior a 0.2 decilitros con una confianza del 95%.¿De qué
tamaño debemos escoger la muestra?
2. Es necesario estimar entre 10.000 establos, el número de vacas lecheras por

establo con un error de estimación de 4 y un nivel de confianza del 95%. Sabemos
que la varianza es 1.000. ¿Cuántos establos deben visitarse para satisfacer estos
requerimientos? .
3. Una máquina llena cajas con cierto cereal. El supervisor desea conocer con un
error de estimación de máximo 0.1 y un nivel de confianza del 90%, una media
estimada del peso. Como la varianza era desconocida se procedió a escoger una
muestra piloto. Los resultados fueron los siguientes: 11.02, 11.14, 10.78, 11.59,
11.58, 11.19, 11.71, 11.27, 10.93, 10.94. ¿Cuántas cajas debe escoger para que
se cumplan los requisitos propuestos?(Sol. Debemos tomar la varianza estimada y
al ser n<30 el valor de t, al sustituir en la fórmula obtenemos n=34).
4. Se desea hacer una encuesta para determinar la proporción de familias que

carecen de medios económicos para atender los problemas de salud. Existe la
impresión de que esta proporción está próxima a 0.35. Se desea determinar un
intervalo de confianza del 95% con un error de estimación de 0.05. ¿De qué
tamaño debe tomarse la muestra?(Sol. N=350 ).
5. Un productor de semillas desea saber con un error de estimación del 1% el

porcentaje de semillas que germinan en la granja de su competidor. ¿Qué tamaño
de muestra debe tomarse para obtener un nivel de confianza del 95%?(Sol. Como
no tenemos ninguna estimación de la proporción, tomaremos 0´5 y así obtenemos
n=9.604)
6. Se desea realizar una encuesta entre la población juvenil de una determinada

localidad para determinar la proporción de jóvenes que estaría a favor de una
nueva zona de ocio. El número de jóvenes de dicha población es N=2.000.
Determinar el tamaño de muestra necesario para estimar la proporción de
estudiantes que están a favor con un error de estimación de 0.05 y un nivel de
confianza del 95%.(Sol. Como no nos dan ninguna estimación de la proporción,
tomaremos 0´5. El valor de n es 322).
4.13 Prueba de hipótesis
La estadística inferencial es el proceso de usar la información de una muestra

para describir el estado de una población. Sin embargo es frecuente que usemos
la información de una muestra para probar un reclamo o conjetura sobre la
población. El reclamo o conjetura se refiere a una hipótesis. El proceso que
corrobora si la información de una muestra sostiene o refuta el reclamo se llama
prueba de hipótesis.
HIPÓTESIS Y NIVELES DE SIGNIFICANCIA
En la prueba de hipótesis se pone a prueba una premisa hecha sobra la
naturaleza de una población a base de la información de una muestra. La premisa
se llama hipótesis estadística.
Hipótesis Estadística: Una hipótesis estadística es una afirmación

hecho sobre la naturaleza de una población.
Por ejemplo, la afirmación formulada por un productor de baterías para autos de

que su batería dura en promedio 48 meses, es una hipótesis estadística porque el
manufacturero no inspecciona la vida de cada batería que él produce.
Si surgieran quejas de parte de los clientes, entonces se pone a prueba la

afirmación del manufacturero. La hipótesis estadística sometida a prueba se llama
la hipótesis nula ( Siempre contiene una igualdad) , y se denota como H0.
COMO ESTABLECER LA HIPÓTESIS NULA Y LA ALTERNA
Hipótesis Nula (H0): Afirmación, premisa, reclamo, o conjetura que se

pronuncia sobre la naturaleza de una o varias
poblaciones.
Por ejemplo, para probar o desaprobar la afirmación pronunciada por el
productor de baterías debemos probar la hipótesis estadística de que <
48. Por lo tanto, la hipótesis nula es:
H0 : = 48.
Luego se procede a tomar una muestra aleatoria de baterías y medir su
vida media. Si la información obtenida de la muestra no apoya la
afirmación en la hipótesis nula (H0), entonces otra cosa es cierta. La
premisa alterna a la hipótesis nula se llama hipótesis alterna y se
representa por H1.
Hipótesis Alterna: Una premisa que es cierta cuando la hipótesis nula es

falsa (por lo general es la negación de la hipótesis nula).
Por ejemplo, para el productor de baterías

H0 :µ = 48 y
H1 : µ < 48
Para probar si la hipótesis nula es cierta, se toma una muestra aleatoria y

se calcula la información, como el promedio, la proporción, etc. Esta
información muestral se llama estadística de prueba.
Estadística de Prueba: Una estadística de prueba se basa en la

información de la muestra como la media o la
proporción
X̄ − μ 0 S
Zot = σ X̄
^ donde
σ
^ X̄ = √n Población infinita.
S N - n
σ^ X̄ = √n √ N - 1 Población finita
ERROR TIPO 1 Y ERROR TIPO 2

A base de la información de una muestra nosotros podemos cometer dos

tipos de errores en nuestra decisión.
1. Podemos rechazar un H0 que es cierto.
2. Podemos aceptar un H0 que es falso.
El primero se llama error Tipo 1
Error Tipo 1: Cuando rechazamos una Hipótesis Nula que es cierta
cometemos error tipo 1.
Y el segundo error se llama error Tipo 2.

Error Tipo 2: Cuando aceptamos una Hipótesis Nula que es falsa
cometemos error tipo 2.
NIVEL DE SIGNIFICANCIA ()

Para ser muy cuidadosos en no cometer el error tipo 1, debemos
especificar la probabilidad de rechazar H 0, denotada por . A ésta se le
llama nivel de significancia.
Nivel de Significancia: La probabilidad ( más alta de rechazar H0

cuando H0 es cierto se llama nivel de significancia.
Comentario: Para mantener la probabilidad de cometer el error tipo 1 baja,
debemos escoger un valor pequeño de .
Usando un valor preasignado de  se construye una región de rechazo o

región crítica en la curva normal estándar o en la curva t que indica si
debemos rechazar H0.
Región Crítica o de Rechazo: Una región crítica o de rechazo es una

parte de la curva de z o de la curva t donde se
rechaza H0.
La región puede ser de una cola o de dos dependiendo de la hipótesis
alterna.
Ejemplos Para H1: µ > valor aceptado, la región de rechazo está dada por:

(cola derecha, z ó t)

Para H1 : µ < valor aceptado, la región de rechazo está dada por:
(cola izquierda, z ó t)
Para H1 : µ ≠ valor aceptado, la región de rechazo es de dos colas y está dada

por:
/2 /2 (2-colas, z ó t)
Ejemplo : Establezca las hipótesis nula y alterna.

a. Las millas por galón (mpg). promedio de un nuevo modelo de
automóvil es 32.
b. Más del 65% de los empleados de un colegio aportan a
Fondos Unidos.
c. En promedio, los empleados de cierta compañía viven a no
más de 15 millas de la misma.
d. Al menos un 60% de la población adulta de una comunidad
votará en las próximas elecciones Presidenciales.
e. El peso promedio de un pollo para asar es de al menos cuatro
libras.
En los ejercicios (7 - 18) complete la región de rechazo (encuentre el valor de

z y t).
7.  a) z, si α = .05 b) t, si α = .025 y n = 9
8.  a) z, si α = .01 b) t, si α = .05 y n
= 13

9. a) z, si α = .02 b) t, si α = .01 y n = 5
10.  a) z, si α = .025 b) t, si α = .01 y n = 9
11. /2 /2 a) z, si α = .05 b) t, si α =.05 y

n = 10
12. a) z, si α = .01 b) t, si α =0.1 y

/2 /2
n=7
En los ejercicios (13 - 18) establezca las hipótesis nula y alterna.
13. Los automóviles estacionados en el estacionamiento de periodo

prolongado del aeropuerto internacional de Baltimore permanecen un
promedio de 2.5 días.
14. Una nueva marca de llantas radiales dura en promedio más de

48,000 millas.
15. El balance promedio de una cuenta de cheques en el First State

Bank es de al menos $150.
16. Se reclama que al menos el 60% de las compras realizadas en cierta

tienda por departamentos son artículos de especiales.
17. Se reclama que el 20% de los graduados de cierto colegio privado

solicitan admisión a escuelas de medicina.
18. Un dentista reclama que el 5% de sus pacientes sufren

enfermedades en las encías.
4.14 Ejercicios propuestos: prueba de hipótesis

1. Suponga, según registros históricos de la industria de la langosta en

Nicaragua, que la captura de langosta por trampa tiene una distribución normal y
que además la captura promedio de langostas ha sido de 30.31 libras. Hace unos
años el gobierno de un país vecino declaró que se prohibía a los pescadores
nicaragüenses operar en la parte de su plataforma continental, razón por la cual se
cree la captura promedio de langosta en libras por trampa ha disminuido
notablemente.
Una muestra aleatoria de 10 trampas para langostas, desde que la restricción
entró en vigor, proporcionó los siguientes resultados:
17.4, 18.9, 39.6, 34.4, 19.6, 33.7, 37.2, 27.5, 41.7, 24.1
¿ Ha disminuido la captura promedio de langosta por trampa a un nivel de

significación del 1% ?
2. El rendimiento promedio de maíz en las plantaciones hace un tiempo era de

50qq. por manzana con una desviación estándar de 4qq. Se utilizó un nuevo
fertilizante a un grupo de 52 plantaciones seleccionadas al azar obteniendo un
rendimiento promedio de 55qq. por manzana. Suponiendo que la desviación
estándar de los rendimientos con el nuevo fertilizante sigue siendo la misma, ¿ Se
puede afirmar que ha habido un incremento significativo en el rendimiento? Use un
nivel de significación del 5%.
3. Suponga que se tiene un proceso de produccion de llenado de cajas de pasas

del cual se supone que el peso neto de las pasas en las cajas tiene una
distribución aproximadamente normal, y que además, proporciona un peso neto
promedio de pasas por caja de 15 onzas.
Debido a que ha habido quejas de consumidores que dicen que las cajas
contienen un peso neto menor que el anunciado por la etiqueta del producto, se
tomó una muestra aleatoria de 20 cajas para aclarar el asunto obteniéndose un
peso neto promedio de 13.5 onzas y una desviación estándar de 1 onza.
¿ Podemos decir a un nivel de significación del 1% que el reclamo de los

consumidores es justo ?
4. Un laboratorio lanza al mercado un nuevo producto logrado a base de

hormonas afirmando que al ser suministrado a las aves de corral el peso promedio
de sus huevos será igual o mayor que 3 onzas. En una de nuestras granjas
avícolas se aplicó el tratamiento masivamente y un día determinado se tomaron de
forma aleatoria 80 huevos, y se comprobó que el peso promedio de los mismos
era de 2.9 onzas, con una desviación estándar de 0.2 onzas. ¿Podría decir usted
que la afirmación del laboratorio no es cierta a un nivel de significación del 5%?
5. Una tienda ha iniciado una promoción especial para su horno de gas propano
y piensa que la promoción deberá culminar en un cambio de precios. Sabe desde
antes de comenzar la promoción que el precio de menudeo de los hornos sigue
una distribución normal y que el precio promedio de menudeo de los hornos era de
C$ 419.50, con una desviación estándar de C$53.60. La tienda muestrea 16 de
sus detallistas una vez iniciada su promoción y descubre que el precio promedio al
menudeo de los hornos es de C$ 389.50. En un nivel de significación de 0.02.
¿ tiene motivos para pensar que el precio promedio al menudeo ha disminuido?
6 Un proceso industrial usado por una fábrica durante algunos años da una
producción promedio de 100 unidades por hora con una desviación estándar de 8
unidades. Acaba de ponerse en el mercado una nueva máquina para producir el
mismo producto. Aunque es muy costosa comparada con la que se usa
actualmente, su adopción sería muy lucrativa , si su producción promedio fuera
mayor de 150 unidades por hora. La gerencia de la fábrica compra una de las
nuevas máquinas como un experimento y la prueba durante 35 horas encontrando
una producción promedio de 160 unidades por hora.
Suponiendo que la desviación estándar de la producción para la nueva máquina

es idéntica a la de las antiguas, ¿ deberá ser adquirida la nueva máquina a un
nivel de significación del 1% ?
7. El gerente de una compañía financiera se queja de que el 7% de los pagos

parciales de préstamos hechos a consumidores no se cubren a tiempo.
¿Podríamos afirmar que esta cifra es diferente, si 80 de 1500 pagos de préstamos
no se hacen a tiempo? Utilice un nivel de significación del 1%?
8. Un corredor de bolsas sostiene que puede predecir con un 85% de exactitud si

una acción del mercado bursátil cambiará de valor durante el próximo mes. A
manera de prueba predice el resultado de 60 acciones y acierta en 45 de sus
pronósticos. ¿Ofrecen los datos evidencia concluyente, cuando el nivel de
significación es del 2%, de qué la exactitud de su predicción es significativamente
diferente al 85% afirmado por el corredor?.
9. Una empresa de camiones de carga sospecha que la duración promedio de

25,000 Kms que se le adjudica a ciertos neumáticos es demasiado larga. Para
demostrar la afirmación la empresa coloca una muestra tomada al azar de 35
neumáticos en sus camiones y descubre después que su duración promedio es de
24410 Kms y la desviación estándar es de 1348 Kms. ¿Se podría concluir a un
nivel de significación de 0.01 que la duración promedio no es tan larga como se
afirma?
10 Una persona que planea abrir un restaurante cerca de una zona residencial de
cierta ciudad, informa al banco al que desea pedir el capital necesario, que por lo
menos el 50% de los residentes en ese distrito patrocinarán su restaurante
esporádicamente cuando este abierto. Suponga que Ud. Es el encargado de
préstamos del banco y desea verificar si lo que dice la persona no es cierto con un
nivel de significación del 5%. Además suponga que de una muestra aleatoria de
50 residentes de ese distrito solamente el 44% indicaron su intención de
patrocinar el restaurante propuesto.
a) ¿ No debo autorizarle el préstamo ?.

b) Suponga que la muestra ha sido de 200 en lugar de 50, y que la proporción
muestral fuera aún de 0.44, ¿ Sería diferente su conclusion ?
16. Un fabricante de salsa de tomate está a punto de decidir si producir una marca
nueva de mucho condimento. El departamento de investigación de la fabrica aplicó
una encuesta telefónica a nivel nacional a 6,000 familias y averiguó que la salsa
sería comprada por 335 de ellas. Un estudio mucho más exhaustivo hecho dos
años antes reveló que el 5% de las familias comprarían la marca. En un nivel de
significación de 1% ¿ Debería la compañía concluir que hay un mayor interés en el
sabor tan condimentado?
17. La experiencia de un comerciante en aparatos y accesorios mostró que el 10%

de clientes que compran a plazos liquidan sus cuentas antes del vencimiento de la
última mensualidad. Al sospechar un incremento en este porcentaje, el
comerciante muestreó 200 compradores a crédito para saber sus intenciones, 33
de ellos afirmaron tener planeado pagar sus deudas antes de la última
mensualidad. ¿Son los datos suficientes para indicar que el porcentaje de
compradores a plazos que pagarán sus deudas antes de la última mensualidad
excede de 10% ?. Haga la prueba con un nivel de significacion de 0.02.
18. Un fabricante de televisores anuncia que el 90% de sus aparatos no necesitan

ninguna reparación durante los dos primeros años de uso. La oficina de protección
al consumidor selecciona una muestra de 100 aparatos y encuentra que 14
necesitan alguna reparación durante los dos primeros años de uso. A un nivel de
significación de 0.05. ¿a qué conclusión puede llegar la oficina de protección al
consumidor?
19. El editor de una revista encontró basándose en su experiencia que el 60% de

sus suscriptores renuevan sus suscripciones. Como la compañía se encaminaba a
una recesión en sus negocios, decidió seleccionar una muestra de clientes para
determinar si planeaban renovar sus suscripciones. 108 personas de una muestra
de 200 indicadores que si pensaban renovarlas. ¿Proporcionan los datos
suficiente evidencia para detectar una reducción en la proporción de los

suscriptores que si renovarán? Realice la prueba usando un nivel de significación
del 5%.
20. Aproximadamente uno de cada diez consumidores de una región determinada

prefieren el refresco de cola marca A. Después de una campaña de promoción en
esa región, se seleccionó aleatoriamente 200 consumidores de ese producto
resultando que 26 expresaron su preferencia por el refresco de cola marca A. ¿
Hubo aumento en la preferencia del refresco de cola marca A en la región a un
nivel de significación del 10% ?
23. Un fabricante de azúcar que la empaca en bolsas de plástico dice que cuando
el proceso está bajo control cada bolsa debe contener 10 onzas como promedio.
Periódicamente se toma una muestra de 9 bolsas para comprobar el proceso. Se
acaba de tomar una muestra aleatoria de 9 bolsas y se encontró que el peso
promedio es de 10.3 onzas con una desviación estándar de 0.45 onzas.
Suponiendo que los pesos de las bolsas de azúcar siguen una distribución normal,
¿ podrá decirse que el proceso está fuera de control a un nivel de significación del
2%?
Tema5: Análisis de regresión y correlación
5.1 Introducción
Si sabemos que existe una relación entre una variable denominada dependiente y
otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las
estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes
utilizados, etc.), puede darse el problema de que la dependiente asuma múltiples
valores para una combinación de valores de las independientes.
La dependencia a la que hacemos referencia es relacional matemática y no

necesariamente de causalidad. Así, para un mismo número de unidades
producidas, pueden existir niveles de costo, que varían empresa a empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en los

cuales se obtiene una nueva relación pero de un tipo especial denominado
función, en la cual la variable independiente se asocia con un indicador de
tendencia central de la variable dependiente. Cabe recordar que en términos
generales, una función es un tipo de relación en la cual para cada valor de la
variable independiente le corresponde uno y sólo un valor de la variable
dependiente.
5.2 ASPECTOS TEÓRICOS
REGRESIÓN SIMPLE Y CORRELACIÓN
La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar

para solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar

alguna Relación Funcional entre dos o más variables, donde una variable depende
de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera

en un modelo de Regresión Simple.
"Y es una función de X"
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresión es muy importante identificar cuál es la variable
dependiente y cuál es la variable independiente.
En el Modelo de Regresión Simple se establece que Y es una función de sólo una

variable independiente, razón por la cual se le denomina también Regresión
Divariada porque sólo hay dos variables, una dependiente y otra independiente y
se representa así:
Y = f (X)
"Y está regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. También se

le llama REGRESANDO ó VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó

REGRESOR y se le utiliza para EXPLICAR Y.
5.3 Análisis estadístico: regresión lineal simple
en el estudio de la relación funcional entre dos variables poblacionales, una

variable X, llamada independiente, explicativa o de predicción y una variable Y,
llamada dependiente o variable respuesta, presenta la siguiente notación:
 Principales técnicas utilizadas en el análisis de regresión lineal simple

Diagrama de dispersión e interpretación
El primer paso para determinar si existe o no una relación entre dos variables es
observar la grafica de datos observados. Esta grafica se llama diagrama de
dispersión.
Un diagrama nos puede da dos tipos de información, visualmente podemos buscar

patrones que nos indiquen que las variables están relacionadas. Entonces si esto
sucede, podemos ver que tipo de línea, o ecuación de estimación, describe esta
relación.
Primero tomamos los datos de la tabla que deseamos analizar y dependiendo de

que se desea averiguar se construye la grafica colocando la variable dependiente
en el eje Y y la independiente en el eje X, Cuando vemos todos estos puntos
juntos, podemos visualizar la relación que existe entre estas dos variables. Como
resultado, también podemos trazar, “o ajustar” una línea recta a través de nuestro
diagrama de dispersión para representar la relación. Es común intentar trazar
estas líneas de forma tal que un numero igual de puntos caiga a cada lado de la
línea.
Recta de regresión por el método de mínimos cuadrados.

Ahora que hemos visto como determinar la ecuación para una línea recta,
pensemos como podemos calcular una ecuación para una línea dibujada en medio
de un conjunto de puntos en un diagrama de dispersión. Para esto debemos
minimizar el error entre los puntos estimados en la línea y los verdaderos puntos
observados que se utilizaron para trazarla.
Para esto debemos introducir un nuevo símbolo, para simbolizar los valores
individuales de los puntos estimados, esto es, aquellos puntos que caen en la
línea de estimación. En consecuencia escribiremos la ecuación para la línea de
estimación como
Una forma en que podemos medir el error de nuestra línea de estimación es

sumando todas las diferencias, o errores, individuales entre los puntos observados
y los puntos estimados.
La suma de las diferencias individuales para calcular el error no es una forma

confiable de juzgar la bondad de ajuste de una línea de estimación.
El problema al añadir los errores individuales es el efecto de cancelación de los

valores positivos y negativos, por eso usamos valores absolutos en esta diferencia
a modo de cancelar la anulación de los signos positivos y negativos, pero ya que
estamos buscando el menor error debemos buscar un método que nos muestre la
magnitud del error, decimos que la suma de los valores absolutos no pone énfasis
en la magnitud del error.
Parece razonable que mientras más lejos este un punto de la línea e estimación,
mas serio seria el error, preferiríamos tener varios errores pequeños que uno
grande. En efecto, deseamos encontrar una forma de “penalizar” errores absolutos
grandes, de tal forma que podamos evitarlos. Puede lograr esto si cuadramos los
errores individuales antes de sumarlos. Con estos se logran dos objetivos:
 penaliza los errores más grandes
 cancela el efecto de valores positivos y negativos
Como estamos buscando la línea de estimación que minimiza la suma de los

cuadrados de los errores a esto llamamos método de mínimos cuadrados.
El modelo de regresión lineal simple
El modelo de regresión trata de la dependencia de una variable, la variable

dependiente (explicada) en una o más variables, las variables independientes
(explicativas), con el objeto de estimar o predecir la media o el valor promedio
poblacional de la variable dependiente con base en los valores conocidos o fijados
de las variables independientes.
El modelo de línea recta
Se puede presentar como:
Y =β 0 + β1 x 1 +ε i Donde:
β 0 : Es la ordenada al origen
β1 : Es la pendiente real de la población, representa el cambio unitario en y por
cambio unitario en x
ε i : Error aleatorio en Y para la observación i
El principal interés del análisis de regresión radica en poder estimar la función
poblacional
Y =β 0 + β1 x 1 +ε i con base en la función de regresión
muestra
y i=b0 +b1 x
Principio de los mínimos cuadrados
Este método determina una ecuación de regresión minimizando la suma de los

cuadrados de la distancia vertical entre el valor real de y y el valor predictorio de
y.
Supuestos de los mínimos cuadrados
Supuesto1: (Normalidad)
Para cada valor de x existe un grupo de valores de y, y estos valores de y se
distribuyen normalmente
Supuesto2:
Las medias de estas distribuciones normales de valores de y se encuentran todas
en la recta de regresión
Supuesto3: (Homocedasticidad)
Las desviaciones estándar de dichas distribuciones normales son iguales
Supuesto4: (Independencia del error)
El error (diferencia residual entre el valor observado y y uno predicho y ) debe ser
independiente para cada valor de x
Estimación puntual de la línea de regresión
n n
n ∑ x i ∑ Yi
. .
∑ xi Yi -
n
.
b1 = 2
n n n
∑
n
x2i -
(∑ )
.
xi
b0 =
∑ Yi -
.
b1 ∑ xi
.
. n y n
Ejemplo: La siguiente tabla muestra los gastos publicitarios y volúmenes de

ventas de una compañía durante 10 meses elegidos al azar.
Gastos Volumen de ventas

publicitarios (en miles)
(en miles)
1.2 101
0.8 92
1.0 110
1.3 120
0.7 90
0.8 82
1.0 93
0.6 75
0.9 91
1.1 105
a) obtenga el diagrama de dispersión y comente la impresión visual

b) Encuentre la función de regresión lineal muestral e interprete los coeficientes de
regresión estimados.
c) Trace sobre el diagrama de dispersión anterior la línea de ajuste
5.4 Tabla de análisis de varianza de y

Las sumas de cuadrados anteriores y sus grados de libertad correspondientes son
presentados en lo que llamaremos una tabla de análisis de varianza o
simplemente tabla ANOVA.
Fuente de variación SS GL MS
Regresión SSR 1 MSR = SSR/1
Error SSE n-2 MSE = SSE/n
-2
SST n-1
 SST Será llamada suma de cuadrados total y representa una medida de
variación de las observaciones Yi alrededor de Ȳ . Esta medida tendrá
asociada n – 1 grados de libertad. Un grado de libertad es perdido debido a la
n
∑ ( Yi - { Ȳ )= 0 ¿
restricción . que tienen sus desviaciones.
 SSE Será llamada suma de cuadrados debida al error y representa una

medida de variación de Y no explicada por X alrededor de la línea de
regresión estimada.
Esta medida tendrá asociada n - 2 grados de libertad. Dos grados de libertad
son perdidos debido a la estimación de los dos parámetros o y 1.
 SSR Será llamada suma de cuadrados debida a la regresión y representa

una medida de variación de Y, explicada por X, y asociada con la línea de
regresión estimada.
Esta medida tendrá asociada 1 grado de libertad.
Las fórmulas computacionales para SST, SSR y SSE puede demostrarse que
son las siguientes.
n 2
SST=
n
∑ Y 2i -
(∑ ) Yi
n n n
SSE= ∑ Y 2i - b o ∑ Y i - b 1 ∑ xi Y i
SSR = SST - SSE
5.5 Análisis de correlación
El análisis de correlación es la herramienta estadística que podemos usar para

describir el grado hasta el cual una variable esta linealmente relacionada con la
otra. Con frecuencia el análisis de correlación se utiliza junto con el análisis de
regresión para medir que tan bien la línea de regresión explica los cambio de la
variable dependiente Y. Sin embargo, la correlación también se puede usar sola
para medir el grado de asociación entre dos variables.
Los estadísticos han desarrollado dos medidas para describir la correlación entre
dos variables: el coeficiente de determinación y el coeficiente de correlación.
Coeficiente de determinación
El coeficiente de determinación es la principal forma en que podemos medir la

extensión, o fuerza de asociación que existe entre dos variables, X y Y. Puesto que
hemos desarrollado una muestra de puntos para desarrollar las líneas de
regresión, nos referimos a esta medida como el coeficiente de determinación de la
muestra.
El coeficiente de determinación de la muestra se desarrolla de la relación entre

dos tipos de variación: la variación de los valores Y en conjunto de los datos
alrededor de
 la línea de regresión ajustada
 su propia media
Podríamos considerar que SST es una medida de variación total de las
observaciones Yi que refleja la incertidumbre en estimar o predecir Y cuando
ninguna variable independiente X es tomada en cuenta. Cuando un modelo de
regresión que utilice la variable independiente X es utilizado SST se dividirá en
dos componentes SSE y SST tales que el cociente
SSE
SST
representará una medida de la proporción de la variación de Y no explicada por X
que aún queda y el complemento
SSE SST−SSE SSR
r2= 1 − = = donde 0 ≤ r 2≤1
SST SST SST
una medida de la proporción de la variación total de Y explicada por X que

llamaremos coeficiente de determinación muestral. Esta medida podrá verse
también como una reducción proporcional de la variación total de Y (incertidumbre)
cuando la variable independiente X es introducida.
De manera que r2 podrá interpretarse así:
 Es la proporción de la variación total de Y que es explicada por X.

 Es la reducción proporcional de la variación total de Y cuando la variable
independiente X es introducida.
Límites de los valores de r2

n
2
∑ ( Y i −^ Y i )2 = 0
Y i=Y i ^
1. r = 1  SSE = 0  
Para el ejemplo anterior determine el coeficiente de determinación e interprételo.
Coeficiente de correlacion.
La raíz cuadrada de r2.
r= ± √ r2 , -1 ≤ r ≤ 1 , r tiene el mismo signo

que b1
es llamada coeficiente de correlación.

Observe que r2 < | r | o sea que r puede dar la impresión de una relación “más
fuerte” entre X , Y que la correspondiente. Por ejemplo r2 = 0.10 indica que la
variación total en Y es reducida en sólo un 10% cuando X es introducida, y | r | =
0.3162 puede dar la impresión de una mayor asociación entre X , Y.
Interpretación de r
No tiene una interpretación tan clara como la de r2 , sin embargo podemos decir
que a medida que
| r | se acerque a 1 mayor será el grado de relación entre X, Y, lo cual permitirá
hacer inferencias más precisas sobre Y a partir de X.
el termino variación en estos dos casos se refiere a “la suma de un grupo de
desviaciones cuadradas”. Al usar esta definición, entonces es razonable expresar
la variación de los valores Y alrededor de la línea de regresión con esta ecuación:
EJEMPLO
La gerente de una compañía desea estimar la relación entre los costos de
materiales usados en un proceso químico (Y) y las horas de operación (X). Con
esta información ella espera ser capaz de preparar un presupuesto más preciso y
tener un mejor control sobre los costos.
Datos sobre los costos en centenas de dólares para varias horas de operación del
proceso son presentados abajo.
Horas 50 20 30 50 40 30 30 10 40 20
Costo 6.5 4.0 4.5 6.0 5.5 5.0 5.5 3.5 6.0 4.5
s
a) Construya un diagrama de dispersión.

Encuentre la función de regresión lineal muestral e interprete los coeficientes de
regresión estimados.
b) Estime el costo promedio de materiales utilizados cuando el proceso opere 15
horas.
c) Trace sobre el diagrama de dispersión anterior la línea de ajuste
5.6 Prueba de significacion sobre 1

1. Formulacion de las hipotesis.
Podemos ver la verificación del valor que toma la pendiente 1 como la acción y la
diferencia de 1 con respecto a cero como el efecto.
Por tanto podemos escribir las hipótesis así
H0 : β 1 = 0
No hay relación entre X , Y
H 1 : β1 ≠ 0
Hay relación entre X , Y
H 0 : β 1= 0
donde esta suponiendo que no hay diferencia de 1 con respecto a
H 1 : β1 ≠ 0
cero, mientras que la hipótesis alterna supone que hay diferencia
de 1 con respecto a cero.
Observe que la prueba es bilateral porque nos interesan tanto las diferencias de 1
hacia la izquierda de cero como hacia la derecha de cero.
2. ELEGIR UN NIVEL DE SIGNIFICACION.
El error I consiste en decir que hay relación entre X , Y cuando en realidad no hay.
Controlaremos el error I suponiendo que P (error I )  
3. Identificar el estadistico de prueba y establecer una regla de decision.
Como las hipótesis son suposiciones acerca de 1 el estadístico de prueba será su

estimador b1 pero estandarizado, esto es,
b1 - 0
σ^ b
1
b1
σ^ b
puede demostrarse que 1 sigue una distribución t de Student con n – 2
grados de libertad.
Por tanto el estadístico de prueba será
b1 Pendiente estimada σ^ Y
t = = donde { σ^ = ¿
σ^ b El error estándar de b1 b1 n 2
√ (∑ )
1
n
xi
.
∑ xi2 -
. n
4. Tomar una muestra aleatoria y determinar el valor del estadistico de

prueba.
σ^ b
Con la información muestral calculemos primero b1 y 1 para obtener el
valor de t
5. Seleccionar una alternativa
Si t cae en la región de rechazo entonces diremos que rechazamos

H0 : β1 = 0 H 1 : β1 ≠ 0
a un nivel  , esto es, que aceptamos . Luego
hay relación lineal entre X , Y.
Si t cae en la región de no rechazo entonces diremos que no hay suficiente
0 1
H :β = 0 H0 : β1 = 0
evidencia para rechazar , esto es, aceptamos .
Luego no hay relación lineal entre X , Y.
Ejercicio: Para el ejemplo anterior pruebe si hay una relación lineal significativa
entre el volumen de ventas y los gastos publicitarios con un nivel de significaciñon
del 5%.
5.7 Ejercicios del tema5: Análisis de regresión lineal.
1. El Vicepresidente de investigación y desarrollo de una empresa de productos

químicos piensa que las utilidades anuales (Y) dependen de la cantidad que
invierta (X) en investigación y desarrollo. Suponga que se dispone de los
siguientes datos históricos en millones de C$
Año 2005 2006 2007 2008 2009 2010

Cant. 2 3 4 5 11 5
Invertida
Util. Anual 20 25 30 34 40 31
a) Dibuje un diagrama de dispersión y comente las impresiones visuales que

le ofrece la figura.
b) Obtenga la función de regresión muestral de Y sobre X e interprete la
pendiente.
c) Prediga la utilidad anual para 2010 suponiendo una inversión de 8 millones
de C$ en investigación y desarrollo.
d) Trace sobre el diagrama del inciso a) la línea de ajuste.
2. La demanda de un artículo en toneladas (Y) para diferentes precios en

córdobas (X) se presenta en la tabla de abajo.
X 20.5 21.0 21.0 21.5 21.5 21.5 22.0 22.0 22.5 23.0
Y 4.5 4.0 4.7 3.5 3.0 4.0 3.5 2.5 2.0 1.8
a) Construya un diagrama de dispersión y comente las impresiones visuales que

le ofrece la figura.
b) Determine la función de regresión muestral de Y sobre X e interprete la
pendiente estimada.
c) Obtener la demanda esperada si el precio del bien fuese de C$ 22.40
d) Trace sobre el diagrama de dispersión del inciso a) la línea de los mínimos
cuadrados.
a) Trace sobre el diagrama de dispersión del inciso a) la línea de ajuste.
b) ¿En qué porcentaje la variación de la emisión de CO 2 es explicada por el
número de días transcurridos desde la instalación del filtro?
3. El gerente de personal de una empresa intuye que quizás haya relación entre
el ausentismo en días (Y) y la edad en años (X) por lo que quiere tomar la edad
de un trabajador para desarrollar un modelo de predicción de días de ausencia
durante un año laboral. Se selecionó una muestra aleatoria de 10 trabajadores con
los resultados que se presentan a continuación:
X 27 61 37 23 46 58 29 36 64 40
Y 15 6 10 18 9 7 14 11 5 8
a) Construya un diagrama de dispersión y comente las impresiones visuales que

le ofrece la figura..
b) Obtenga la función de regresión muestral de Y sobre X e interprete la
pendiente
c) ¿Cuántos días espero que un trabajador de 45 años se ausente durante el

año?
d) Trace sobre el diagrama de dispersión anterior la línea de mínimos cuadrados.
4. Supóngase que una cadena de supermercados financia un estudio sobre los

gastos anuales en comestibles de familias de 4 miembros. La investigación se
limitó a familias con ingresos netos (después de los impuestos) que van de
C$20000 a C$60000. Se obtuvo la siguiente ecuación de regresión lineal:
Y^ = - 200 + 0.10X
En la cual Y representa los gastos anuales estimados en comestibles y X

representa los ingresos netos anuales
Supóngase que la ecuación proporciona un ajuste razonablemente bueno, y
que se obtuvieron los datos por medio de métodos de muestreo aleatorio,
a) Estime los gastos de una familia de 4 miembros, con un ingreso anual de

C$25000.
b) Uno de los vicepresidentes de la compañía se preocupa por el hecho de que
la ecuación aparentemente indica que una familia que tiene un ingreso de C$2000
no gastaría nada en alimentos. ¿ Cuál sería su respuesta?
5. Un asegurador de propiedades realizó un estudio para investigar el pago anual

(Y) por concepto de demandas por daños a propiedades (en miles de dólares)
en la región norte de Nicaragua como una función del número X de huracanes
que azotan esa región durante el año. Un modelo de regresión lineal, que se
ajusta a los datos de un período de 10 años, produjo la siguiente ecuación:
Y^ = 22.4 + 15.8 X
∑ x i= 15 ∑ x 2i σ^ Y2
con , = 27.45 , = 41.2
¿Proporcionan los datos evidencia suficiente para indicar que el número X

de huracanes aportan información para predecir la cantidad anual pagada por el
asegurador por concepto de daños a propiedades a un nivel de significación del
5%?
6. Un estudio de mercado trata de cuantificar el efecto que sobre la demanda de

un artículo tiene una campaña publicitaria en televisión. Para ello se miden las
cantidades demandadas, en miles de unidades, antes de la campaña (X) y la
cantidades demandadas, en miles de unidades, después de la campaña (Y).
Después de 3 semanas de emisión del anuncio en 10 regiones se obtuvo la
siguiente relación lineal estimada entre X, Y.
Y^ = 65.5812 + 0.3547X
con un error estándar de su pendiente de 0.1826
¿Existe relación lineal significativa entre X, Y a un nivel de significación  = 0.02 ?
7. Un investigador esta interesado en conocer la relación entre los años de

experiencia en ventas (X) y el volumen de ventas en millones de córdobas (Y) de
los vendedores de cierta compañía.
Los datos muestrales resumidos para tal fin, se dan a continuación.
∑ xi ∑ x 2i ∑ Yi
n = 5 , = 15 , = 55 , = 23 ,
∑ xi Y i ∑ Y i2
= 84.6 , = 130.98
Si con la información anterior se obtuvo la siguiente relación lineal estimada.
Y^ = - 0.08 + 1.56 X
y la tabla de análisis de varianza que aparece abajo
Fuente SS G.L MS
Regresión 24.336 1 24.3360
Error 0.844 3 0.2813
25.180 4
i) Interprete la pendiente.
ii) ¿Qué proporción de la variación total del volumen de ventas puede ser
explicada por los años de experiencia?
iii) ¿Existe relación lineal significativa entre los años de experiencia y el volumen
de ventas a un nivel de significación del 1%?
8. Una cadena de tiendas de repostería ha tenido grandes fluctuaciones en sus

ingresos durante los últimos años. Abundantes ofertas y técnicas de publicidad se
han utilizado durante este tiempo, por lo cual es difícil determinar cuáles de esos
factores tienen la influencia más profunda en las ventas. El departamento de
mercadotecnia ha estudiado varias relaciones y piensa que los gastos mensuales
destinados a carteles pueden ser significativos.
Se muestreó 7 meses con los siguientes resultados:
∑ x i=167 , ∑ Y i =203 , ∑ x i Y i=5427 , ∑ x 2i =4703 ,

∑ Y 2i =6527
donde X representa el gasto mensual en carteles (en centenas de C$)
y Y representa el ingreso mensual por ventas (en decenas de miles de C$).
Si con la información anterior se obtuvo la siguiente relación lineal estimada
Y^ = 9.6185 + 0.8124X
a) Interprete el intercepto y la pendiente.

b) Obtenga la tabla de análisis de varianza.
c) ¿Existe relación lineal significativa entre el ingreso mensual por ventas y los
gastos mensuales destinados a carteles a un nivel de significación del 1%?
d) Encuentre los coeficientes de determinación y correlación. Luego
interprételos.
9. Con los siguientes datos sobre el costo de construcción de residencias
unifamiliares en miles de dólares (Y) y el tamaño del lote en miles de pies
cuadrados (X).
n = 12 , ∑ xi = 198 , ∑Yi = 625.5 , ∑ xi Y i = 11840.1

2 2
∑ xi = 4396 , ∑ Yi = 34878.58
a) Encontrar la función de regresión muestral de X sobre Y e interprete la

pendiente.
b) ¿Cuál debería ser el costo promedio de construcción de casas que se van a
construir en un lote de 15000 pies cuadrados?
10. Una investigación del departamento de publicidad de una empresa en la que

se buscaba la relación entre las ventas en unidades (Y) y el número de
comerciales televisados (X) dió los siguientes resultados:
n = 7 , ∑ xi = 340 , ∑Yi = 751 , ∑ xi Y i = 41450

2 2
∑ xi = 19000 , ∑ Yi = 90571
a) Encontrar la función de regresión muestral de Y sobre X e interprete el

intercepto y la pendiente.
b) Obtenga la tabla de análisis de la varianza.
c) ¿Existe relación lineal significativa entre el número de comerciales televisados
y las ventas a un nivel de significación del 5%?
d) Calcule el coeficiente de determinación e interprételo.
11. Un analista toma una muestra aleatoria de 10 embarques recientemente

enviados por camión y registra la distancia en kilómetros (X) y el tiempo de
entrega en días (Y) para determinar si existe relación entre ellos y obtiene los
siguientes resultados:
∑ xi = 7620 , ∑ Y i = 28.5 , ∑ xi Y i = 26370 , ∑ x 2i = 7104300 ,

∑ Y 2i = 99.75
Si con la información anterior se obtuvo la siguiente relación lineal estimada:
Y^ = 0.1181 + 0.0036X
a) ¿Existe relación lineal significativa entre X y Y a un nivel del 1%?

b) Encuentre el coeficiente de determinación e interprételo.
12. El gerente de mercadotecnia de una cadena de supermercados quiere

determinar el efecto del espacio de las estanterías en pies (X) sobre la venta
semanal de cosméticos en cientos de córdobas (Y). Seleccionó una muestra
aleatoria de 12 tiendas de igual tamaño obteniendo los resultados siguientes:
∑ xi = 150 , ∑Yi = 28.5 , ∑ xi Y i = 384 , ∑ x2i = 2250 , ∑ Y 2i

= 70.79
Encontró la ecuación de regresión: Y^ = 1.45 + 0.074X
y construyó la tabla de análisis de varianza:
Fuente SS G.L MS
Regresión 2.0535 1 2.0535

Error 1.0490 10 0.1049
3.1025 11
a) Interprete la pendiente.
b) Pruebe al nivel de significación de 0.05 si los resultados de la muestra

permiten llegar a la conclusión de que hay una relación lineal significativa entre el
espacio en las estanterías y la venta semanal de cosméticos.
c) Calcule los coeficientes de determinación y de correlación e interprételos.

Ejemplo de una encuesta aplicada
Con el objetivo de instrumentar una filosofía de administración para la calidad total

(TQM) en la empresa K1 e incrementar así la eficiencia y la productividad, se
aplicó una encuesta a 400 trabajadores para medir la satisfacción en el trabajo,
evaluar la antigüedad y el progreso profesional, valorar las aspiraciones, actitudes
y opiniones de sus trabajadores.
Encuesta sobre la satisfacción de los empleados

En las preguntas 1-12, por favor inserte el valor marque con una X según sea
apropiado.
1. ¿Cuántas horas trabajó la semana pasada? _________
2. ¿Cuál es su posición en la empresa?
1 Gerencial_____ 2 Profesional______ 3 Técnico/ventas______ 4 Apoyo

adm.___
5 Servicios_____ 6 Producción_______ 7 Obrero______
3. ¿Cuál es su edad, respecto al último cumpleaños? ______

4. ¿Cuántos años de escuela concluidos? _______
5. ¿Cuál es su género? 1 Masculino______ 2. Femenino_______
6. Entre los miembros de su familia que viven en su casa actualmente,
cuántos, incluyéndose usted, estuvieron empleados el año pasado?
________
7. ¿Cuáles fueron sus ingresos, antes de los impuestos el año pasado?
_______
8. ¿Cuáles fueron sus ingresos familiares totales antes de los impuestos el
año pasado? ______
9. En general, ¿Qué tan satisfecho está con su trabajo?
1. Muy satisfecho 2.Moderadamente satisfecho 3.Un poco satisfecho

4. Muy insatisfecho
10. Si de la noche a la mañana se enriqueciera por una herencia, un regalo o la

lotería ¿Dejaría de trabajar? 1. Si____ 2. No _____ 3. No está seguro
______
11. ¿Cuál de las siguientes características del trabajo es la más importante

para usted (marque una opción)?
1. Altos ingresos ______ 2. Ningún riesgo de ser despedido_____ 3.
Horario flexible___
4. Oportunidades de progreso______ 5. Disfrute del trabajo_______
12. En general cómo describiría las relaciones en su lugar de trabajo entre la

gerencia y los empleados?
1. Muy buenas_____ 2. Buenas____ 3. Regulares_____ 4. Malas_____ 5.
Muy malas______
iden hrstrab ocupa edad aescola sexo trabfa ingreso ingfam satif retiro1 carat1 Relcom1
tf 1 2 3 4 5 6 7 8 9 0 1 2
1 50 1 35 20 1 2 78.3 85.3 2 1 4 2
2 30 7 64 14 2 2 25.7 81.9 1 1 3 1
3 40 1 33 15 1 2 40.5 85.6 2 1 3 1
4 40 3 23 14 1 1 20.2 20.2 1 1 1 2
5 50 4 33 12 2 1 25.2 25.2 1 1 1 1
6 40 3 60 14 1 4 35.7 35.7 1 1 1 1
7 40 5 37 14 2 1 15 15 2 2 1 1
8 40 6 25 13 2 3 18 49.5 2 1 5 2
9 50 2 39 18 1 1 60.8 60.8 2 1 5 1
10 30 1 35 16 1 1 38.4 38.4 2 2 1 2
11 32 2 35 12 2 1 31 33.5 1 1 1 3
12 55 6 49 13 1 2 76.6 93.5 3 2 1 1
13 40 3 34 12 2 2 33.3 55.2 2 1 1 4
14 40 4 50 14 2 1 15.8 17.4 3 2 1 3
15 40 7 49 4 1 1 27.5 27.6 2 2 3 1
16 40 5 39 16 1 2 64.2 67.2 1 1 5 1
17 40 3 61 12 2 1 32 34.6 1 1 1 1
18 40 1 59 16 1 1 26.6 35.4 2 1 5 1
19 40 4 25 16 1 1 33.1 33.1 4 1 5 1
20 50 7 20 11 1 2 10.5 14.3 1 1 1 1
21 64 3 37 13 2 1 35.7 35.7 1 1 5 3
22 49 4 24 12 2 2 24.3 27.4 3 1 4 2
23 30 6 33 10 1 2 33.3 42.8 3 1 5 1
24 55 3 30 16 1 1 33.8 33.8 1 1 5 2
25 50 5 43 13 1 4 25.2 91.8 1 1 4 1
26 40 4 56 16 2 1 36.1 36.9 1 2 1 1
27 40 6 35 15 1 2 42.7 51.8 1 1 5 1
28 40 4 35 16 1 2 14.7 46.9 2 1 5 2
29 40 2 42 16 2 3 23.7 51.2 1 1 1 1
30 48 1 34 12 2 2 31.3 67.7 1 1 3 2
Laboratorio No 1 : Estadística descriptiva y probabilidades
Actividad 1
Abrir el archivo Encuesta1
Elaborar la tabla de frecuencia de la variable carat11

(Analizar-Estadísticos descriptivos-frecuencia) aceptar
Actividad 2
Elaborar un gráfico de barras para la variable carat11

(Analizar-Estadísticos descriptivos-frecuencia), Gráficos-grafico de barras y
aceptar
Actividad 3
Para la variable Edad3 obtenga: Media, mediana, moda, mínimo, máximo

desviación estándar, varianza, rango, percentiles, asimetría y curtosis
(Analizar-Estadísticos descriptivos- frecuencia) opciones y marcar todos los

estadísticos pedidos
Actividad 4
Agrupar la variable ingreso7 en intervalos de clase
(Transformar- re codificar en distintas variables)
Actividad 5: Análisis exploratorio de datos
a) Para las variables: ingreso7 y sexo5, hacer histograma, Diagrama de

tallo y hoja y gráfico de caja y bigote (Boxplot)
(Analizar-Estadísticos descriptivos -explorar) poner la variable ingreso7 en

variable dependiente y la variable sexo5 en factores, seleccionar gráficos –
descriptivos (tallo y hoja e histograma) y en diagrama de caja ( niveles de los
factores juntos) continuar y aceptar
b) Repetir esta actividad y en estadísticos solicitar valores atípicos

La siguiente tabla de valores críticos de “z” para contraste de uno o dos extremos
en varios niveles de significación.
Nivel de
0.10 0.05 0.01 0.005 0.02
significación
Valores críticos de
-1.645 o -2.33 o -2.58 o
“z” para Test -1.28 o 1.28 -2.88 o 2.88
1.645 2.33 2.58
Unilaterales
Valores Críticos de
- 1.645 y -2.58 y -2.81 y
“z” para Test - 1.96 y 1.96 -3.08 y 3.08
1.645 2.58 2.81
Bilaterales
BIBLIOGRAFIA
1) BERENSON, M. L., LEVINE, D. M. y KREHBIEL, T. (2001). Estadística para

Administración. 2da edic. Prentice Hall. México.
2) FLORES G., R y LOZANO de los S., H. (1998). Estadística aplicada para

administración. Grupo editorial Iberoamerica. México.
3) FUENLABRADA, S. (2000). Probabilidad y Estadística. McGraw-Hill. México
4) HILDEBRAND, D. K. y OTT, R. L. (1997). Estadística aplicada a la

administración y a la economía. Adisson- Wesley Iberoamerican. Caracas,
Venezuela.
5) KAZMIER, L. (1998). Estadística aplicada a la administración y a la economía.

McGraw-Hill. España
6) MASON, R., LIND, D. Y MARCHAL, W. (2001) Estadística para Administración y

Economía. 10ª edic. Alfaomega. Colombia
7) SUNYER BORREL LEMUS , Manual de Estadísticas, Departamento de

Matemáticas y Estadísticas, Facultad de Ciencias económicas, UNAN-Managua

Material para Maestria Administracion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Material para Maestria Administracion

Cargado por

Copyright:

Formatos disponibles

Métodos Cuantitativos

Universidad Nacional Autónoma de Nicaragua

Msc. Isabel Velásquez Pinell

Managua, octubre 2018

Universidad Nacional Autónoma de Nicaragua

Contextualizar algunas visiones de las distintas aplicaciones de la estadística

1. Proporcionar a los estudiantes las herramientas y los modelos básicos para

2. Trabajar con el paquete estadístico SPSS para el procesamiento de datos

3. Identificar los métodos empleados para la captura y procesamiento de las

 Caso 1 (10 puntos)

Material elaborado para uso de la maestría

Elaborado por: Msc. Isabel Velásquez Pinell

Tema 2. Introducción al manejo de SPSS para Windows

Tema 4. Introducción al muestreo y la estimación

4.8 Estimador puntual y por intervalo………………………………….….48

Tema 5. Análisis de regresión y correlación

Tema 1: Estadística descriptiva

Este material ha sido preparado po r la p rofesora de Estadísti ca s Apli cad as

Con el desarrollo de nuevas tecnologías, los cálculos estadísticos dejaron de ser

Los ejercicios y casos prácticos han sido seleccionados de forma de contemplar

De esta forma se espera que los alumnos adquieran familiaridad con el

1.2 Conceptos Básicos

Es la parte de la estadística que estudia los métodos de recopilación,

Si X representa la edad entonces X es cuantitativa.

Variables discretas: Son aquellas cuyos valores posibles tienen interrupción

Si Z representa el número de asignaturas que lleva entonces Z es discreta.

Variables contínuas: Son aquellas cuyos valores posibles no tienen interrupción.

1.3 Procedimiento básico para realizar análisis estadístico

Los datos son la población

1.4 Organización (resumen) de los datos

Datos agrupados en clases

 Un intervalo de clase o simplemente clase se denota y define como:

Li ---- Ls : Más de Li hasta Ls

donde Li el límite inferior y Ls es el límite superior de la clase.

 Una clase de extremo abierto es la que no especifica uno de sus límites

 Punto medio de un intervalo de clase o marca de clase j

Datos originales en minutos

Organice los datos recopilados anteriormente en 5 clases

1. Ordenar los datos

R = xmayor – xmenor = Dato mayor - Dato menor R = 74 -

1. Determinar N clases '' g '' y tamaño de clase ''c''.

2. Determinar la amplitud o tamaño de los intervalos

3. Escribir las clases.

4. Contar los datos

Tiempo en minutos Número de auditores

1.5 Presentación de datos

Para presentar datos agrupados en clases necesitaremos introducir los siguientes

fj : frecuencia ( absoluta ) de la clase j. Número de datos en la clase j

fraj : frecuencia relativa acumulada hasta la clase j. Proporción de datos cuyos

Distribuciones de frecuencias del Tiempo que tarda (en minutos) un grupo

Tiempo en No de Prop. De No de auditores hasta la clase j

minutos auditores auditores hasta la clase j

Por ejemplo: 7 expertos tardan entre 52 y 58 minutos en realizar la auditoria del

Conteste las siguientes preguntas :

2. ¿ Qué proporción de auditores tardaran entre 70 y 76 minutos ?

1.6 Caracterizacion ( análisis ) de los datos

Aquí el investigador trata de resumir la información disponible en algunas

El análisis de los datos consiste básicamente en la determinación de dos medidas

Medidas de posición para datos no agrupados

Si x1, x2,..........,xN representan todos los datos poblacionales entonces su media

Si los datos forman una distribución de frecuencias de la variable X utilizaremos la

Desventajas de la media aritmética

Si los valores de la media , la mediana y la moda no coinciden entonces decimos