Está en la página 1de 95

Profesor: Ing.

Lilian Esperanza Rodríguez Torres

Alumno: Susana Cruz Cázares


3er Semestre
Contador Público
La Distribución de Poisson

Debe su nombre a Siméon Denis Poisson (1781-1840), un


francés que desarrolló la distribución a partir de los estudios
que realizó durante la última parte de su vida

Se utiliza para describir ciertos tipos de procesos, entre los que se encuentran la
distribución de llamadas telefónicas que llegan a un conmutador, las solicitudes de
pacientes que requieren servicio en una institución de salud, las llegadas de camiones
y automóviles a una caseta de cobro, y el número de accidentes registrados en cierta
intersección. Estos procesos tienen en común un elemento: pueden ser descritos
mediante una variable aleatoria discreta que toma valores enteros (0, 1, 2, 3, 4, 5, …,
etc).
Formula de la Distribución de Poisson

Lambda (el número medio de e ó 2.71828 (base de los logaritmos


presentaciones por intervalos de neperianos o naturales), elevada a la
tiempo) elevada a la x potencia potencia lambda negativa

x factorial

Probabilidad de tener exactamente x ocurrencias


Fórmula:

Ejemplo: 𝜆𝑥 ⋅ ⅇ −𝜆
𝑃 𝑥 =
𝑥!
Suponga que estamos investigando la seguridad de una peligrosa
intersección. Los registros policiacos indican una media de cinco accidentes
mensuales en esta intersección. El número de accidentes está distribuido de
acuerdo con una distribución de Poisson, y el Departamento de Seguridad de
Tránsito desea que calculemos la probabilidad de que en cualquier mes ocurran
exactamente 0, 1, 2, 3 o 4 accidentes.

Datos: Número medio de


𝜆=5 presentaciones por
intervalos de tiempo

𝑥=𝟎 Ocurrencias

(5)0 ⋅ⅇ −5 (5)0 ⋅(2.71828)−5 1 (6.7380𝑥10−03 )


𝑃 0 = = =
0! 0! 1

𝑃 0 = 0.00674 = 0.67%
Datos: Número medio de
𝜆=5 presentaciones por
intervalos de tiempo

𝑥=𝟏 Ocurrencias

(5)1 ⋅ⅇ −5 (5)1 ⋅(2.71828)−5 5 (6.7380𝑥10−03 )


𝑃 1 = = =
1! 1! 1

𝑃 1 = 0.0337 = 3.37%
Datos: Número medio de
𝜆=5 presentaciones por
intervalos de tiempo

𝑥=𝟐 Ocurrencias

(5)2 ⋅ⅇ −5 (5)2 ⋅(2.71828)−5 25 (6.7380𝑥10−03 )


𝑃 2 = = =
2! 2! 2

𝑃 2 = 0.08422 = 8.42%
Datos: Número medio de
𝜆=5 presentaciones por
intervalos de tiempo

𝑥=3 Ocurrencias

(5)3 ⋅ⅇ −5 (5)3 ⋅(2.71828)−5 125 (6.7380𝑥10−03 )


𝑃 3 = = =
3! 3! 6

𝑃 3 = 0.1404 = 14.04%
Datos: Número medio de
𝜆=5 presentaciones por
intervalos de tiempo

𝑥=𝟒 Ocurrencias

(5)4 ⋅ⅇ −5 (5)4 ⋅(2.71828)−5 625 (6.7380𝑥10−03 )


𝑃 4 = = =
4! 4! 24

𝑃 4 = 0.1755 = 17.55%
Distribución Normal
Es un modelo teórico capaz de aproximar satisfactoriamente el valor de una
variable aleatoria a una situación ideal. En esta distribución se ven casos en que la
variable aleatoria puede tomar cualquier valor que esté en un intervalo de valores
dado, y para los cuales la distribución de probabilidad es continua.

Varios matemáticos han contribuido a su desarrollo, entre los que


podemos contar al astrónomo-matemático del siglo XVIII Karl
Gauss. En honor a su trabajo, la distribución de probabilidad
normal también es conocida como distribución gaussiana.

Existen dos razones fundamentales por las cuales la distribución normal ocupa un
lugar tan prominente en la estadística. Primero, tiene algunas propiedades que la
hacen aplicable a un gran número de situaciones en las que es necesario hacer
inferencias mediante la toma de muestras. Segundo, la distribución normal casi se
ajusta a las distribuciones de frecuencias reales observadas en muchos fenómenos,
incluyendo características humanas (peso, altura, coeficiente intelectual), resultados
de procesos físicos (dimensiones y rendimientos), y muchas otras medidas de interés
para los administradores, tanto en el sector público como en el privado
Características de la distribución normal de probabilidad

Este diagrama pone de manifiesto varias características importantes de una


distribución normal de probabilidad:

Curva de frecuencias para la


distribución normal de
probabilidad

1. La curva tiene un solo pico; por tanto, es unimodal. Tiene la forma de campana
que mencionamos anteriormente.
2. La media de una población distribuida normalmente cae en el centro de su curva
normal.
3. Debido a la simetría de la distribución normal de probabilidad, la mediana y la
moda de la distribución se encuentran también en el centro; en consecuencia,
para una curva normal, la media, la mediana y la moda tienen el mismo valor
4. Las dos colas de la distribución normal de probabilidad se extienden
indefinidamente y nunca tocan el eje horizontal (desde luego, esto es imposible de
mostrar de manera gráfica).
100%

50% 50%

Limite Limite
Inferior Superior

∗ ∗𝜇
Fórmula: z = Área Bajo la curva
𝑧 =𝑥−𝜇 𝜎 (Sigma)=Desviación estándar
𝜎 𝜇 = Media de Población
Tabla #1
Ejemplo:
■ 5-46 Glenn Howell, vicepresidente de personal de la Standard Insurance, ha
desarrollado un nuevo programa de capacitación completamente adaptable al
ritmo de los usuarios. Los nuevos empleados trabajan en varias etapas a su propio
ritmo de trabajo; el término del entrenamiento se da cuando el material es
aprendido. El programa de Howell ha resultado especialmente efectivo en acelerar
el proceso de capacitación, ya que el salario de un empleado durante el
entrenamiento es de sólo 67% del que ganaría al completar el programa. En los
últimos años, el promedio de término del programa ha sido de 44 días, con una
desviación estándar de 12 días.
Fórmula:

a) Encuentre la probabilidad de que un empleado


𝑧 =𝑥−𝜇
termine el programa entre 33 y 42 días. 𝜎
Datos: 𝑥 = 33
𝑥 = 42
𝜇 = 44
𝜎 = 12
𝑥 = 33

𝑧 = 33 − 44
= 0.9166 = 0.92
12
Según tabla #1
𝑧 =0.3212
𝑥 = 42
𝑧 = 42 − 44
= 0.1666 = 0.17
12
Según tabla #1
𝑧 =0.0675
50% 50%

0.3212

0.0675
Limite
Inferior
Limite

33 42

44
Superior

𝑃 𝑥 =33 − 44 = 0.3212-0.0675 = 0.2537 = 25.37%


b) ¿Cuál es la probabilidad de terminar el programa en menos de 30 días?

Fórmula: Datos: 𝑥 = 30
𝑧 =𝑥−𝜇 𝜇 = 44
𝜎 = 12
𝑃(𝑥 =30) 𝜎
𝑧 = 30 − 44
= 1.1666 = 1.17
12
Según tabla #1
𝑧 =0.3790

𝑃 𝑥 < 33 = 0.50-0.3790 = 0.121 = 12.10%


50% 50%

0.50

0.3790
Limite
Inferior
Limite

30

44
Superior

𝑃 𝑥 =33 − 44 = 0.3212-0.0675 = 0.2537 = 25.37%


c) ¿De terminarlo en menos de 25 o más de 60 días?

Fórmula: Datos: 𝑥 = 25
𝑧 =𝑥−𝜇 𝑥 =60
𝜇 = 44
𝑃(𝑥 = 25) 𝜎 𝜎 = 12
𝑧 = 25 − 44
= 1.5833 = 1.58
12
Según tabla #1
𝑧 =0.4429
𝑃(𝑥 = 60)

𝑧 = 60 − 44
= 1.3333 = 1.33
12
Según tabla #1
𝑧 =0.4082
𝑃 𝑥 > 60 = 0.50-0.4429 = 0.0571 = 5.71%
𝑃 𝑥 < 25 = 0.50-0.4082 = 0.0918 = 9.18%
𝑃 𝑥 < 25 ó > 60 = 9.18% ó 5.71%
50% 50%

Limite
Inferior
Limite

25

44
Superior
60
Introducción al muestreo
Es común que los compradores prueben una porción pequeña de queso antes de
comprar alguno; a partir del trocito, determinan el sabor de queso completo. Lo
mismo hace un químico cuando toma una muestra de whisky de una barrica,
determina que es de grado 90 e infiere que todo el whisky de esa barrica es de ese
grado. Si el químico examinara todo el whisky o los compradores probaran todo el
queso, no quedaría nada para vender. Probar todo el producto es innecesario y a
menudo, destructivo. Para determinar las características del todo, tenemos que
muestrear sólo una porción. El tiempo también es un factor importante cuando los
administradores requieren obtener información rápidamente para ajustar una
operación o modificar una política.
Algunas veces es posible y práctico examinar a cada persona o elemento de la
población que deseamos describir. Esta acción se conoce como enumeración
completa o censo. Se recurre al muestreo cuando no es posible contar o medir
todos los elementos de la población
Los especialistas en estadística usan la palabra población para referirse no sólo a
personas sino a todos los elementos que han sido escogidos para su estudio y la
palabra muestra para describir una porción escogida de la población.
Matemáticamente, podemos describir muestras y poblaciones al emplear
mediciones como la media, la mediana, la moda y la desviación estándar. Cuando
estos términos describen las características de una muestra, se denominan
estadísticas. Cuando describen las características de una población, se llaman
parámetros.

➢ Una estadística es una característica de una muestra


➢ Un parámetro es una característica de una población.

Los especialistas en estadística emplean literales latinas minúsculas para


representar estadísticas de muestra, y literales griegas o latinas mayúsculas para
representar parámetros de población.

Símbolos Estándar

Población Muestra
Parámetros Estradísticas
N= Tamaño de la Población n=Tamaño de la Muestra
𝜇 =Media de la Poblacion 𝑥=
ҧ Media de la Muestra
𝜎=Desviación estándar de la Población s=Desviación estándar de la Muestra
Existen dos métodos para seleccionar muestras de poblaciones:

➢ muestreo no aleatorio o de juicio


➢ muestreo aleatorio o de probabilidad

Muestreo no aleatorio o de juicio


En el muestreo de juicio, se emplea el conocimiento y la opinión personal para
identificar a los elementos de la población que deben incluirse en la muestra. Una
muestra seleccionada por muestreo de juicio se basa en la experiencia de alguien
con la población.
Un guardabosques, por ejemplo, reuniría una muestra de juicio si decidiera
con anticipación las zonas de una gran área arbolada que recorrería para estimar
la cantidad de madera que podría obtenerse. Algunas veces, una muestra de
juicio se usa como guía o muestra tentativa para decidir cómo tomar una muestra
aleatoria más adelante. El riguroso análisis estadístico que puede llevarse a cabo
a partir de muestras aleatorias, no puede ser efectuado con muestras de juicio.
Son más cómodas y pueden usarse con éxito aunque no podamos medir su
validez. No debe perderse de vista que si un estudio recurre al muestreo de juicio
a costa de perder un grado importante de representatividad, la comodidad habrá
costado un precio demasiado alto
Muestras sesgadas

Las muestras sesgadas son el resultado no intencional de seleccionar muestras


de una población que favorecen un resultado sobre otro.

Ejemplo:
El Congreso se encuentra en el debate sobre algunas leyes de control de
armas. Se pide que se lleve a cabo una encuesta de opinión. Debido a que los
cazadores son los más afectados por las leyes de control de armas, se va a una
hostería de cazadores para hacer las entrevistas. Después se informa que en
una encuesta realizada, cerca del 97% de quienes respondieron estaba a favor
de derogar todas las leyes de control de armas.
Una semana después el Congreso estudia otro proyecto de ley: “¿Debe
darse a las mujeres embarazadas trabajadoras una incapacidad por
maternidad de un año con salario completo para cuidar a sus bebés?” Como
este asunto afecta más a las mujeres, esta vez se decide ir a los complejos de
oficinas de la ciudad y entrevistar a empleadas en edad de tener hijos. De
nuevo se informa que en un sondeo realizado, alrededor del 93% de quienes
respondieron estaba a favor de la incapacidad de un año por maternidad con
pago completo.
En ambas situaciones se seleccionó una muestra sesgada al elegir a personas que
tienen un fuerte interés en el asunto. ¿Cómo se puede estar seguro de que los
entrevistadores que proporcionan la información no cometen el mismo error? La
respuesta es que no se puede, a menos que tengan una excelente reputación respecto
a la realización de sondeos estadísticamente exactos. Sin embargo, es posible tomar en
cuenta los riesgos derivados de no pedir más información o investigar más la
competencia de las compañías encuestadoras.

Muestreo aleatorio o de probabilidad


En este tipo de muestreo, todos los elementos de la población tienen la oportunidad de
ser escogidos para la muestra. Por lo que conocemos las posibilidades de que un
elemento de la población se incluya o no en la muestra. Como resultado de lo anterior,
es posible determinar objetivamente las estimaciones de las características de la
población que resultan de una muestra dada; es decir, se puede describir
matemáticamente qué tan objetivas son las estimaciones correspondientes.
1. Muestreo aleatorio simple
Este tipo de método de muestreo es el mas utilizado ya que selecciona
muestras mediante métodos que permiten que cada posible muestra tenga una
igual probabilidad de ser seleccionada y que cada elemento de la población total
tenga una oportunidad igual de ser incluido en la muestra.

Ejemplo:
Supongamos que tenemos una población de cuatro estudiantes en un
seminario y queremos muestras de dos estudiantes cada vez para entrevistarlos. En
la siguiente tabla ilustramos todas las combinaciones posibles de muestras de dos
estudiantes en una población de cuatro, la probabilidad de cada muestra de ser
seleccionada y la de que cada estudiante esté en una muestra
En este ejemplo se utiliza una población finita de cuatro estudiantes. Por finito
nos referimos a que la población tiene un tamaño establecido o limitado, es decir,
existe un número entero (N) que indica cuántos elementos hay en la población.
Ciertamente, si muestreamos sin “reemplazar” al estudiante, pronto agotaremos
nuestro pequeño grupo de población. Observe también que si muestreamos con
reemplazo (es decir, si sustituimos al estudiante muestreado inmediatamente
después de haber sido escogido y antes de elegir al segundo estudiante), la misma
persona podría aparecer dos veces en la muestra.

Una población infinita es aquella en la que es teóricamente imposible observar


todos los elementos. Aunque muchas poblaciones parecen ser excesivamente
grandes, no existe una población realmente infinita de objetos físicos. En términos
prácticos, entonces, utilizaremos el término población infinita cuando hablemos
de una población que no podría enumerarse en un periodo razonable de tiempo.

La forma más fácil de hacer un muestreo aleatorio es seleccionar una muestra


mediante el uso de números aleatorios. Estos números pueden generarse ya sea
con una computadora programada para revolver números o mediante una tabla
de números aleatorios, que, propiamente, debería llamarse tabla de dígitos
aleatorios.
Otra forma de hacerlo sería escribir los datos en pedazos de papel y depositar
estos pedazos en una caja. Después de revolverlos bien, podría extraer 10
pedazos al azar. Este método funciona bien con un grupo pequeño de datos, pero
presenta problemas si el número de la población llega a cantidades del orden de
los miles. También está el problema adicional de no estar seguro de que los
pedazos de papel estén bien revueltos.

2. Muestreo de racimo o conglomerado


En este muestreo se divide la población en grupos, o racimos, y luego
seleccionamos una muestra aleatoria de estos racimos, asumiendo que cada uno
de ellos es representativo de la población

Ejemplo:
Si una investigación de mercado tiene la intención de determinar por
muestreo el número promedio de televisores por casa en una ciudad grande,
podrían usar un mapa de la ciudad para dividir el territorio en manzanas y luego
escoger un cierto número de éstas (racimos) para entrevistar a sus habitantes.
Cada casa perteneciente a cada una de estas manzanas sería considerada para
entrevistar a sus habitantes.
Un procedimiento de muestreo de racimo bien diseñado puede producir una
muestra más precisa a un costo considerablemente menor que el de un
muestreo aleatorio simple

Tanto en el muestreo estratificado como en el de racimo, la población se divide


en grupos bien definidos.

Usamos el muestreo estratificado cuando cada grupo tiene una pequeña


variación dentro de sí mismo, pero hay una amplia variación de un grupo a
otro.

Usamos el muestreo de racimo en el caso opuesto, cuando hay una variación


considerable dentro de cada grupo, pero los grupos son esencialmente
similares entre sí.

3. Muestreo Sistemático
En este método los elementos son seleccionados de la población dentro de un
intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio.
Ejemplo:
Si tuviera que entrevistar a cada vigésimo estudiante de una universidad,
escogería un punto de inicio aleatorio entre los primeros 20 nombres del directorio
estudiantil y luego seleccionaría cada veintavo nombre de ahí en adelante.

El muestreo sistemático difiere del muestreo aleatorio simple en que cada elemento
tiene igual oportunidad de ser seleccionado, pero cada muestra no tiene una
posibilidad igual de ser seleccionada.

En el muestreo sistemático existe el problema de introducir un error en el proceso de


muestreo.

Supongamos que estuviera muestreando el desecho de papel producido


domésticamente, y decidiera muestrear 100 casas cada lunes. La probabilidad de que
esa muestra no fuera representativa es alta porque la basura de los lunes incluiría,
muy probablemente, el periódico dominical. Por tanto, la cantidad de desechos
estaría sesgada hacia arriba por haber elegido este procedimiento de muestreo.

Pero el muestreo sistemático también tiene ventajas. Aun cuando este tipo de
muestreo puede ser inapropiado cuando los elementos entran en un patrón
secuencial, este método puede requerir menos tiempo y, algunas veces, tiene como
resultado un costo menor que el método de muestreo aleatorio simple
4. Muestreo Estratificado. (Dos formas de tomar muestras
estratificadas).

Para utilizar este tipo de muestreo primero dividimos la población en grupos


relativamente homogéneos, llamados estratos. Después utilizamos uno de los dos
planteamientos: o bien seleccionamos aleatoriamente, en cada estrato, un número
específico de elementos correspondiente a la proporción del mismo en relación con la
población completa, o extraemos el mismo número de elementos de cada estrato y
después ponderamos los resultados considerando la proporción que el estrato
representa con respecto a la población total. Con cualquiera de los planteamientos, el
muestreo estratificado garantiza que cada elemento de la población tenga posibilidad de
ser seleccionado.
El muestreo estratificado resulta apropiado cuando la población ya está dividida en
grupos de diferentes tamaños y deseamos tomar en cuenta esta condición.

Ejemplo:
Supongamos que los pacientes de un médico están divididos en cuatro grupos de
acuerdo con su edad. El médico desea averiguar cuántas horas duermen sus pacientes.
Para obtener una estimación de esta característica de la población, podría tomar una
muestra aleatoria de cada uno de los cuatro grupos de edades y ponderar las muestras
de acuerdo con el porcentaje de pacientes en ese grupo.
La ventaja de las muestras estratificadas es que, cuando se diseñan adecuadamente,
reflejan de manera más precisa las características de la población de la cual fueron
elegidas, en comparación con otro tipo de muestras.
Es una técnica estadística sistemática cuyo objetivo es realizar una serie de
pruebas en las que se introducen cambios deliberados para averiguar si
determinados factores influyen en la variable de interés o estudio y si existe
influencia de algún factor en el proceso o producto y cuantificarla.

Conceptos:
Evento: Uno o mas resultados posibles de hacer algo.
Experimento: Actividad que tendría como resultado tales eventos.

Fases del diseño experimental


1. Se hace la afirmación
2. Se establecen los objetivos
3. Se selecciona la variable de respuesta
4. Se hace la pregunta ¿Cuántas probar?
5. ¿Condiciones experimentales se mantienen constantes?
6. Se analizan los datos

Ejemplo:
Se afirma que una batería Crankmaster pondrá en marcha mejor el motor
de su automóvil que una batería X. Crankmaster puede diseñar su experimento de la
siguiente manera:
Objetivo Éste es nuestro punto de inicio. Crankmaster desea probar su batería frente a
su principal competidor. Aunque es posible diseñar un experimento que pruebe las dos
baterías con respecto a varias características (tiempo de vida, tamaño, poder de
arranque, peso y costo, para nombrar sólo unas cuantas), Crankmaster ha decidido
limitar este experimento a su poder de arranque.

Lo que se medirá Esta característica se conoce también como la variable de respuesta. Si


Crankmaster ha de diseñar un experimento que compare el poder de arranque de su
bateria con la de otra debe definir cómo se medirá el poder de arranque. Una vez más,
existen varias formas de hacer esto. Por ejemplo, Crankmaster podría medir 1) el tiempo
que tardaron las baterías en agotarse mientras ponían en marcha un motor, 2) el
número total de arranques de motor que agotaron las baterías o 3) el número de meses
en uso que se podría esperar duraran las dos baterías. Crankmaster decide que la
variable de respuesta en este experimento será 1) el tiempo que tardan las baterías en
agotarse mientras encienden motores.

Qué tamaño de muestra Crankmaster desea asegurarse de que elige un tamaño de


muestra lo suficientemente grande para respaldar sus afirmaciones respecto a su batería
sin temor a ser desmentido; sin embargo, sabe que mientras más baterías pruebe, el
costo del experimento será más alto. Al no desear elegir un tamaño de muestra
demasiado caro, Crankmaster decide que será suficiente comparar 10 baterías de cada
una de las dos compañías
Conducción del experimento Crankmaster debe tener cuidado de efectuar su
experimento bajo condiciones controladas; es decir, debe asegurarse de estar
midiendo el poder de arranque, y de que las otras variables (como la temperatura,
la edad del motor y la condición de los cables de la batería, por nombrar unas
cuantas) se mantengan tan constantes como sea factible. Al intentar lograr
precisamente esto, el grupo estadístico de Crankmaster utiliza automóviles nuevos
de la misma marca y modelo, lleva a cabo las pruebas a la misma temperatura
externa y tiene cuidado en ser bastante preciso al medir la variable de tiempo. De
esta manera, Crankmaster reúne los datos experimentales sobre el rendimiento de
20 baterías.

Análisis de los datos Los datos obtenidos sobre las pruebas de las 20 baterías
individuales están sujetos a la prueba de hipótesis.

A la compañía Crankmaster le interesa saber si existe una diferencia significativa


entre el poder de arranque de su batería y el de su competidor. Resulta ser que la
diferencia que existe entre la vida media de arranque de la batería de Crankmaster
y la de su competidor sí es significativa. Crankmaster incorpora el resultado de este
experimento en su publicidad.
Definición de la distribución de muestreo
Las distribuciones muestrales son las distribuciones de estadísticos de muestras que
pertenecen a la misma población. Por ejemplo, la distribución muestral de la Media es
la distribución de las Medias de muestras de un mismo tamaño extraídas de la misma
población.

Una distribución de probabilidad de todas las medias posibles de las muestras es una
distribución de las medias de las muestras. Los especialistas en estadística la conocen
como distribución de muestreo de la media.

También es posible obtener una distribución de muestreo de una proporción.


Supongamos que hemos determinado la fracción de pinos infestados de escarabajos en
muestras de 100 árboles, escogidos de un bosque muy grande. Hemos tomado un gran
número de tales muestras de 100 elementos. Si trazamos una distribución de
probabilidad de las proporciones posibles de árboles infestados en todas estas
muestras, obtendríamos una distribución de las proporciones de las muestras. En
estadística, a esto se le conoce como distribución de muestreo de la proporción.
(Observe que el término proporción se refiere a la fracción de árboles infestados.)
Descripción de las distribuciones de muestreo
Cualquier distribución de probabilidad (y, por tanto, cualquier distribución de muestreo)
puede ser descrita parcialmente por su media y su desviación estándar. La tabla describe
varias poblaciones; a un lado de cada una de ellas, incluye la muestra tomada de esa
población, la estadística medida y la distribución de muestreo que estaría asociada con
ella.
En el primer ejemplo, la distribución de muestreo de la media puede ser descrita
parcialmente por su media y su desviación estándar. La distribución de muestreo de la
mediana, en el segundo ejemplo, puede ser descrita, en parte, por la media y por la
desviación estándar de la distribución de las medianas. Y en el tercero, la distribución de
muestreo de la proporción puede ser descrita parcialmente por la media y la desviación
estándar de la distribución de las proporciones.
Concepto de error estándar (Explicación del término error estándar)
En vez de decir “la desviación estándar de la distribución de las medias de la
muestra” para describir una distribución de medias de la muestra, los especialistas
en estadística se refieren al error estándar de la media. De manera similar, la
“desviación estándar de la distribución de las proporciones de la muestra” se abrevia
como error estándar de la proporción. El término error estándar se utiliza porque da
a entender un significado específico.

Ejemplo:
Supongamos que deseamos saber algo sobre la estatura de los alumnos de
nuevo ingreso de una gran universidad estatal. Podríamos tomar una serie de
muestras y calcular la estatura media de cada muestra. Es altamente improbable que
todas estas medias de muestra fueran iguales; es de esperar alguna variabilidad en
las medias observadas. Esta variabilidad en las estadísticas de muestras proviene de
un error de muestreo debido al azar; es decir; hay diferencias entre cada muestra y la
población, y entre las diversas muestras, debido únicamente a los elementos que
decidimos escoger para las muestras.
La desviación estándar de la distribución de las medias de las muestras mide el grado
hasta el cual es de esperar que varíen las medias de las diferentes muestras, debido a
este error cometido en el proceso de muestreo. Por tanto, la desviación estándar de la
distribución de una estadística de muestra se conoce como error estándar de la
estadística.

El error estándar indica no sólo el tamaño del error al azar que se ha cometido, sino
también la probable precisión que puede obtenerse al utilizar una estadística de muestra
para estimar un parámetro de población. Una distribución de medias de muestra que
está menos extendida (y que tiene un error estándar pequeño) constituye una mejor
estimación de la media de la población que una distribución de medias de muestra que
está ampliamente dispersa y que tiene un error estándar más grande.
La estimación en estadística es un conjunto de técnicas que permite dar un valor
aproximado de un parámetro de una población a partir de los datos proporcionados
por una muestra. Hay dos tipos de de estimaciones:

1. Estimaciones Puntules. Es un valor discreto elegido de una muestra para


estimar un parámetro de población.
2. Estimaciones de intervalo. Es un rango de valores dentro del cual se encuentra
el parámetro de población

La estimación se realiza a partir de la evaluación estadística de una muestra, no de


toda la población objetivo.

Cálculo de estimaciones
Todo el mundo hace estimaciones. Cuando está por cruzar una calle, hace una
estimación de la velocidad del automóvil que se acerca, de la distancia que hay entre
usted y el auto y de su propia velocidad. Habiendo hecho rápidamente todas estas
estimaciones, usted decide si espera, camina o corre. Los administradores también
deben hacer estimaciones rápidas. El resultado de estas estimaciones puede afectar
sus organizaciones de manera tan seria como el resultado de su decisión de cruzar la
calle.
50% 50%

19 𝑥ҧ = 25 21
FORMULAS

Error estándar Población Finita

𝜎 𝑁−𝑛 Intervalos Lim. Sup 𝑥ҧ + 𝑧𝜎𝑥ҧ


𝜎𝑥ҧ = ∗
𝑛 𝑁−1 De
Confianza Lim. Inf. 𝑥ҧ − 𝑧𝜎𝑥ҧ
Error estándar Población Infinita
𝜎
𝜎𝑥ҧ =
𝑛
Cálculo de estimaciones de intervalo de la media. Ejemplo:
■ 7-27 El gerente de la división de bombillas de la Cardinal Electric debe estimar el
número promedio de horas que durarán los focos fabricados por cada una de las
máquinas. Fue elegida una muestra de 40 focos de la máquina A y el tiempo promedio
de funcionamiento fue 1,416 horas. Se sabe que la desviación estándar de la duración es
30 horas.
a) Calcule el error estándar de la media.
b) Construya un intervalo de confianza del 90% para la media de la población.

Primer paso:
Datos
n = 40 nivel de confianza (nc)=90%
𝑥ҧ = 1416
𝜎 = 30
Formula
Error estándar Población Infinita
Segundo paso:
Definir que tipo de población (N) es: en este caso es población Infinita 𝜎
𝜎𝑥ҧ =
𝑛
Tercer paso: Sustituir valores:
30 30
𝜎𝑥ҧ = = = 𝟒. 𝟕𝟒𝟑𝟒 Error estándar de la media
40 6.3245
Cuarto paso: Dibujar la Grafica de distribución normal

nivel de confianza 90%=0.90

Limite Limite
Inferior Superior


1408.22 𝑥ҧ = 1416 ∗1423.78

Quinto paso: Sacar el valor de Z

nc = 90/100=0.90 se convierte en decimal


nc = 0.90/2 se reparte entre las dos áreas
nc = 0.45 esta cantidad debe de tener cuatro cifras por lo que se agregan 2 ceros
para poder buscarla en la tabla numero 1 (Valor de Z) en la parte interna si no
existe se toma uno antes y uno después y se agarra el que tenga menor diferencia
si tiene una diferencia igual se agarra el menor
nc = 0.4500 según tabla #1 Z = 1.64
Sexto paso: Calcular el intervalo de confianza

Lim. Sup 𝑥ҧ + 𝑧𝜎𝑥ҧ


Intervalos 1416+(1.64)(4.7434) = 1416 + 7.7791 = 1423.7791 = 1423.78
De
Confianza
Lim. Inf. 𝑥ҧ − 𝑧𝜎𝑥ҧ
1416−(1.64)(4.7434) = 1416 − 7.7791 = 1408.2209 = 1408.22
Cálculo de estimaciones de intervalo de la proporción.
Los especialistas en estadística, a menudo, utilizan una muestra para estimar la
proporción de ocurrencias de un evento en una población.

Teóricamente, la distribución binomial es la distribución correcta a utilizar en la


construcción de intervalos de confianza para estimar una proporción de población.

Debido a que el cálculo de probabilidades binomiales puede ser largo, el uso de la


distribución binomial para elaborar estimaciones de intervalo de la proporción de una
población es una proposición complicada. Afortunadamente, conforme aumenta el
tamaño de la muestra, la distribución binomial puede aproximarse por una distribución
normal apropiada, que podemos utilizar para aproximar la distribución muestral.

En el ejercicio siguiente se nos da la muestra y un tamaño de población. Aplicamos la


distribución normal aun cuando solo nos den esos datos por lo que se habla de una
proporción muestral
Ejemplo:

■ 7-85 La compañía de confección de ropa High Fashion Marketing está


considerando la recolocación en el mercado de corbatas de lana de cachemira.
Con el fin de evitar un fracaso, la High Fashion entrevistó a 90 jóvenes ejecutivos
(su principal mercado) y encontró que de los 90 entrevistados, 79 creían que las
corbatas de cachemira estaban de moda y les interesaba comprarse una. Use un
nivel de confianza del 98% para dar un intervalo de confianza para la proporción
de todos los jóvenes ejecutivos que piensan que las corbatas de cachemira están
de moda.
Datos:
muestra n=90
proporción muestral p=79
nivel de confianza nc=98%

Se aplica regla de 3 para sacar el porcentaje de la proporción

90 → 100 79 × 100 87.78


= 87.78 Convertir a decimal 100
= 0.8778
79 → x 90

redondeado
Media de la proporción 𝑝ҧ = 0.8778
(proporción de éxito)
Aquellas personas que piensan que las corbatas de cachemira están de moda

Restamos 1 a 0.8778 para sacar

Diferencia de media de la proporción = 0.1222


(proporción de fracaso)
Aquellas personas que piensan que las corbatas de cachemira No están de moda

La suma de Media de proporción y la diferencia de proporción nos debe dar 1 que es el


100% de la muestra

Calcular el error estándar 𝑝ҧ


𝜎𝑝ҧ =
𝑛

(0.8778)(0.1222)
𝜎𝑝ҧ = = 0.034523286 = 0.0345
90
Lim. Sup 𝑝ҧ + 𝑧𝜎𝑝ҧ
Intervalos 0.8778+(2.33)(0.0345) = 0.8778 + 0.0804 = 0.95185 = 0.9582
De
Confianza
Lim. Inf. 𝑝ҧ − 𝑧𝜎𝑝ҧ
0.8778 - 2.33 0.0345 = 0.8778 − 0.0804 = 0.7974

nivel de confianza 98%=0.98

Limite Limite
Inferior Superior


0.7974 𝑝ҧ ∗
= 0.8778 0.9582
Nos mostrarán cómo determinar tanto la naturaleza como la fuerza de una relación
entre dos variables. El término regresión fue utilizado por primera vez como un
concepto estadístico en 1877 por sir Francis Galton. Más tarde, los estadísticos acuñaron
el término regresión múltiple para describir el proceso mediante el cual se utilizan varias
variables para predecir otra.

En el análisis de regresión, desarrollaremos una ecuación de estimación, esto es, una


fórmula matemática que relaciona las variables conocidas con la variable desconocida.
Después de conocer el patrón de esta relación, podremos aplicar el análisis de
correlación para determinar el grado en e que las variables se relacionan.
El análisis de correlación, entonces, nos indica qué tan bien la ecuación de
estimación describe realmente la relación.

Tipos de relaciones
Los análisis de regresión y de correlación se basan en la relación, o asociación,
entre dos (o más) variables. La variable (o variables) conocida(s) se llaman
variable(s) independiente(s); la que tratamos de predecir es la variable
dependiente.

Relaciones directas e inversas entre la variable independiente X y la


variable dependiente Y
Los científicos saben, por ejemplo, que existe una relación entre las ventas anuales
de latas de aerosoles y la cantidad de fluorocarburos liberados a la atmósfera cada
año. Si estudiáramos esta relación, “el número de latas de aerosol vendidas cada
año” sería la variable independiente y “la cantidad de fluorocarburos liberados
anualmente” sería la variable dependiente. Otro ejemplo. Los economistas
pueden basar sus predicciones del producto interno bruto anual, o PIB, en el gasto
final de consumo dentro de la economía. Por tanto, “el consumo final” es la
variable independiente y “el PNB” la variable dependiente.

A menudo encontramos una relación causal entre variables, esto es, la variable
independiente “causa” cambios en la variable dependiente.

Por esta razón, es importante considerar que las relaciones encontradas por la
regresión son relaciones de asociación, pero no necesariamente de causa y efecto.
A menos que tenga razones específicas para creer que los valores de la variable
dependiente se originan por los valores de las variables independientes, no infiera
causalidad en las relaciones encontradas por la regresión.

Diagramas de dispersión
El primer paso para determinar si existe una relación entre dos variables es
examinar la gráfica de los datos observados (o conocidos). Esta gráfica o dibujo se
llama diagrama de dispersión.
Diagrama de dispersión
de las calificaciones de
estudiantes en
exámenes de admisión
graficadas contra el
promedio general
acumulado

Un diagrama de dispersión nos puede dar dos tipos de información. Visualmente,


podemos identificar patrones que indiquen que las variables están relacionadas. Si
esto sucede, podemos ver qué tipo de línea, o ecuación de estimación, describe esta
relación

Diagrama de
dispersión en donde la
línea recta representa
la relación entre X y Y
“ajustada”
En este caso, la línea trazada a través de los puntos representa una relación directa,
porque Y se incrementa al aumentar X. Como los puntos están relativamente cerca
de esta línea, podemos decir que existe un alto grado de asociación entre las
calificaciones de exámenes y el promedio de calificaciones acumulativo. Relación
Lineal
La figura ilustra la La dirección de la
relación curvilínea del curva puede indicar
fenómeno de “curva si la relación
de aprendizaje”. curvilínea es directa
Relación curvilínea o inversa. La curva
entre el tiempo de de la figura
construcción de un describe una
nuevo avión y el relación inversa
número de unidades porque Y disminuye
producidas al aumentar X.

La relación entre las variables X y Y también puede tomar la forma de una curva. Los
especialistas en estadística la llaman relación curvilínea. Los empleados de muchas
industrias, por ejemplo, experimentan lo que se denomina “curva de aprendizaje”,
es decir, al fabricar un nuevo producto, el tiempo requerido para producir una
unidad se reduce en alguna proporción fija al duplicarse el número total de
unidades. Una industria de este tipo es la aviación. El tiempo de fabricación por
unidad de una nueva aeronave tiende a disminuir 20% cada vez que se duplica el
número de nuevos aviones terminados.
Relaciones posibles entre X y Y en diagramas de dispersión

Las gráficas (a) y (b) muestran relaciones lineales directas e inversas. Las gráficas (c) y (d)
son ejemplos de relaciones curvilíneas que indican asociaciones directas e inversas entre
variables, respectivamente. La gráfica (e) ilustra una relación lineal inversa con un patrón de
puntos ampliamente disperso. Esta mayor dispersión indica que existe menor grado de
asociación entre las variables independiente y dependiente que el existente en la gráfica
(b). El patrón de puntos en la gráfica (f) parece indicar que no existe relación entre las dos
variables; por tanto, conocer el pasado referente a una variable no nos permitirá
pronosticar ocurrencias futuras
Estimación mediante la recta de regresión

En los diagramas de dispersión que se han utilizado, se colocaron las líneas de


regresión ajustando las líneas visualmente entre los puntos de datos. Aquí,
examinaremos sólo relaciones lineales entre dos variables. aprenderemos a calcular
la línea de regresión de manera más precisa, usando una ecuación que relaciona las
dos variables matemáticamente.
La ecuación para una línea recta donde la variable dependiente Y está determinada
por la variable independiente X es:

Ecuación para la línea recta


Variable dependiente Variable independiente

𝑌 = 𝑎 + 𝑏𝑋
Ordenada Y
Pendiente de la recta
Línea recta con
pendiente
positiva, con la
ordenada Y y dos
puntos en la línea
designada

Podemos encontrar a
visualmente (la ordenada Y)
localizando el punto donde la
recta cruza el eje Y. En la figura
esto sucede cuando a = 3.

Uso de la ecuación de estimación para una línea recta


Para encontrar la pendiente de la recta, b, debemos determinar cómo cambia la
variable dependiente, Y, al cambiar la variable independiente, X. Podemos empezar
por elegir dos puntos sobre la línea de la figura anterior. Ahora, debemos
encontrar los valores de X y Y (las coordenadas) de ambos puntos. Podemos llamar
a las coordenadas de nuestro primer punto (X1, Y1) y (X2, Y2) a las del segundo. Al
examinar la figura anterior, podemos ver que (X1, Y1) (1, 5) y (X2, Y2) (2, 7).
Entonces podemos calcular el valor de b, usando la siguiente ecuación
La pendiente de una línea recta

𝑌2 − 𝑌1
𝑏=
𝑋2 − 𝑋1

El método de mínimos cuadrados


Ajuste matemático de una recta de regresión

En estadística, la línea tendrá un “buen ajuste” si minimiza el error entre los


puntos estimados en la recta y los puntos observados reales que se utilizaron para
trazarla. Hasta ahora, hemos utilizado Y para representar los valores individuales de los
puntos observados medidos a lo largo del eje Y. Ahora debemos comenzar a usar 𝑌෠ (ye
gorro) para simbolizar los valores individuales de los puntos estimados, esto es,
aquellos puntos que están en la línea de estimación. En consecuencia, escribiremos la
ecuación para la línea de estimación como:
La línea de estimación

𝑌෠ = 𝑎 + 𝑏𝑥

Donde:
𝑌෠ es el valor estimado para Y para distintos X
𝑎 es la intersección o el valor estimado de Y cuando X=0
𝑏 es la pendiente de la línea o el cambio promedio de 𝑌෠ para cada
cambio en una unidad de X
Dos líneas de estimación diferentes ajustadas a los mismos tres puntos observados; se
muestran errores en ambos casos

Una forma en que podemos “medir el error” de nuestra línea de estimación es


sumando todas las diferencias, o errores, individuales entre los puntos estimados
mostrados en círculo y los puntos observados mostrados en negro. En la tabla
෠ y
siguiente, calculamos las diferencias individuales entre las Y correspondientes y 𝑌,
luego encontramos la suma de estas diferencias
Usando el criterio de los mínimos cuadrados, podemos determinar si una línea de
estimación es mejor ajuste que otro. Pero para un conjunto de puntos a través de los
cuales podríamos trazar un número infinito de líneas de estimación, ¿cómo podemos
saber cuándo hemos encontrado la recta del mejor ajuste?

Los estadísticos han desarrollado dos ecuaciones que podemos utilizar para encontrar la
pendiente y la ordenada Y de la recta de regresión de mejor ajuste.
La primera fórmula calcula la pendiente:

Pendiente de la recta de regresión de mejor ajuste


Pendiente de
la recta de
σ 𝑥 𝑦− 𝑛𝑥ҧ 𝑦ത regresión de
𝑏= mínimos
σ 𝑥 2 − 𝑛𝑥ҧ 2 cuadrados

Donde:

•b pendiente de la línea de estimación de mejor ajuste


•X valores de la variable independiente
•Y valores de la variable dependiente
• 𝑥ҧ media de los valores de la variable independiente
• 𝑦ത media de los valores de la variable dependiente
•n número de puntos (es decir, el número de pares de valores de las variables
independiente y dependiente)
La segunda fórmula calcula la ordenada Y de la recta cuya pendiente calculamos
usando la ecuación:

Ordenada Y de la recta de regresión de mejor ajuste


Ordenada de la
recta de

𝑎 = 𝑌ത − 𝑏𝑋ത regresión de
mínimos
cuadrados

Donde:
•a ordenada Y
•b pendiente de la ecuación
• 𝑌ത media de los valores de la variable dependiente
•𝑋ത media de los valores de la variable independiente

Con estas dos ecuaciones, podemos encontrar la recta de regresión de mejor ajuste
para cualquier conjunto de puntos para dos variables.
El error estándar de la estimación
Para medir la confiabilidad de la ecuación de estimación, los especialistas en
estadística han desarrollado el error estándar de la estimación. Este error
estándar se simboliza por "Se".

El error estándar de la estimación, por otra parte, mide la variabilidad, o


dispersión, de los valores observados alrededor de la recta de regresión

Error estándar de la estimación

2
෍ 𝑌 − 𝑌෠
𝑠ⅇ =
𝑛−2
Donde:

• Y valores de la variable dependiente


• 𝑌෠ valores estimados con la ecuación de estimación que corresponden a
cada valor de Y
• n número de puntos utilizados para ajustar la línea de regresión
Método abreviado para encontrar
el error estándar de la estimación

σ 𝑌 2 − 𝑎 σ 𝑌 − 𝑏 σ 𝑋𝑌
𝑠ⅇ =
𝑛−2

donde:
•X valores de la variable independiente
•Y valores de la variable dependiente
•a ordenada Y de la ecuación
•b pendiente de la ecuación de estimación de la ecuación
•n número de puntos
Análisis de Correlación
El análisis de correlación es la herramienta estadística que podemos usar para describir
el grado en el que una variable está linealmente relacionada con otra.

Los estadísticos han desarrollado dos medidas para describir la correlación entre dos
variables: el coeficiente de determinación y el coeficiente de correlación.

El coeficiente de determinación

Es la principal forma en que se puede medir el grado, o fuerza, de la asociación que


existe entre dos variables, X y Y. Debido a que usamos una muestra de puntos para
desarrollar rectas de regresión, nos referimos a esta medida como el coeficiente de
determinación muestral.

El coeficiente de determinación muestral se deriva de la relación entre dos tipos de


variación: La variación de los valores Y en un conjunto de datos alrededor de 1. la recta
de regresión ajustada; 2. su propia media.
El término variación en estos dos casos se utiliza en su sentido estadístico usual
para expresar “la suma de los cuadrados de un grupo de desviaciones”. Usando
esta definición, entonces, es razonable expresar la variación de los valores Y
alrededor de la recta de regresión con esta ecuación:

Variación de los valores de Y alrededor de la recta de regresión


Escriba aquí la ecuación. 2
Variación de los valores de Y alrededor de la recta de regresión = ෍ 𝑌 − 𝑌෠

La segunda variación, la de los valores de Y alrededor de su propia media, está


determinada por:

Variación de los valores de Y alrededor de su propia media


Escriba aquí la ecuación.
Variación de los valores de Y alrededor de la recta de regresión = ෍ 𝑌 − 𝑌ത
2
Uno menos la razón entre estas dos variaciones es el coeficiente de determinación
muestral, que se denota por 𝑟 2 :

Coeficiente de determinación muestral

2
෍ 𝑌 − 𝑌෠
𝑟2 = 1 −
෌ 𝑌 − 𝑌ത 2

Una interpretación intuitiva de 𝑟 2


Considere las dos formas extremas en las que las variables X y Y pueden
relacionarse. En la tabla siguiente cada valor observado de Y cae en la línea de
estimación, como puede verse en la figura siguiente. Ésta es una correlación
perfecta.
Correlación perfecta
entre X y Y:
todos los puntos
caen en la recta de
regresión
La ecuación de estimación apropiada para estos datos es fácil de determinar. Dado
que la recta de regresión pasa por el origen, sabemos que la ordenada Y es cero;
como Y se incrementa en 4 cada vez que X se incrementa en 1, la pendiente debe
ser igual a 4. Por tanto, la recta de regresión es:

𝑌෠ = 4X
Interpretación de los valores 𝑟 2

En los problemas con que se topa la mayoría de los responsables de la toma de


decisiones, 𝑟 2 caerá en alguna parte entre estos dos extremos de 1 y 0. Recuerde,
no obstante, que 𝒓𝟐 cercana a 1 indica una fuerte correlación entre X y Y, mientras
que 𝒓𝟐 cercana a 0 significa que existe poca correlación entre estas dos variables.

Un punto que debemos resaltar es que 𝑟 2 mide sólo la fuerza de una relación lineal
entre dos variables. Por ejemplo, si tuviéramos muchos puntos X y Y, y todos
cayeran en la circunferencia de un círculo, aunque dispersos aleatoriamente,
claramente habría una relación entre estos puntos (todos están en el mismo
círculo). Pero en este caso, si calculáramos 𝑟 2 , resultaría estar cerca de cero, porque
los puntos no tienen una relación lineal entre ellos
Método abreviado para obtener
el coeficiente de determinación de la muestra

𝑎𝛴𝑌+𝑏 σ 𝑋𝑌−𝑛 ത
𝑌 2
𝑟2=
෌ 𝑌 2 −𝑛𝑌ത 2

donde:
• 𝑟2 coeficiente de determinación de la muestra
•a ordenada Y
•b pendiente de la línea de estimación de mejor ajuste
•n número de puntos de datos
•X valores de la variable independiente
•Y valores de la variable dependiente
• 𝑌ത media de los valores observados de la variable dependiente
Desviación total,
desviación explicada y
desviación no
explicada para un valor
observado de Y
El coeficiente de correlación
El coeficiente de correlación es la segunda medida que podemos usar para describir
qué tan bien explica una variable a otra. Cuando tratamos con muestras, el
coeficiente de correlación de la muestra se denota por r y es la raíz cuadrada del
coeficiente de determinación de muestra:

Coeficiente de determinación muestral

𝑟= 𝑟2
Cuando la pendiente de la ecuación de estimación es positiva, r es la raíz cuadrada
positiva, pero si b es negativa, r es la raíz cuadrada negativa. Entonces, el signo de r
indica la dirección de la relación entre las dos variables X y Y. Si existe una relación
inversa —esto es, si Y disminuye al aumentar X—, entonces r caerá entre 0 y 1. De
manera similar, si existe una relación directa (si Y aumenta al aumentar X), entonces r
será un valor en el intervalo de 0 a 1
Varias
características de r,
el coeficiente de
correlación de la
muestra
Ejemplo:

■ 12-20 El editor en jefe de un importante periódico metropolitano ha intentado


convencer al dueño para que mejore las condiciones de trabajo en la imprenta. Está
convencido de que, cuando trabajan las prensas, el grado de ruido crea niveles no
saludables de tensión y ansiedad. Recientemente hizo que un sicólogo realizara una
prueba durante la cual situaron a los prensistas en cuartos con niveles variables de
ruido y luego les hicieron otra prueba para medir niveles de humor y ansiedad. La
siguiente tabla muestra el índice de su grado de ansiedad o nerviosismo y el nivel de
ruido al que se vieron expuestos (1.0 es bajo y 10.0 es alto).

Nivel de ruido 4 3 1 2 6 7 2 3
Grado de ansiedad 39 38 16 18 41 45 25 38

a) Grafique estos datos.


b) Desarrolle una ecuación de estimación que describa los datos.
c) Pronostique el grado de ansiedad que podríamos esperar cuando el nivel de ruido
es 5.
d) Calcule el coeficiente de determinación de la muestra y el coeficiente de
correlación.
T Nivel de ruido Grado de ansiedad
a n X Y (X)(Y) X2
b 8 4 39 156 16
l 3 38 114 9
a ഥ
𝒙 1 16 16 1
3.5 2 18 36 4
d 6 41 246 36
e ഥ
𝒀 7 45 315 49
32.5 2 25 50 4
D
3 38 114 9
a
t Ʃ 28 Ʃ 260 Ʃ 1047 Ʃ 128
o Y estimada
s ෡
𝒀 ෡
𝒀−𝒀 ෡ )𝟐
(𝒀 − 𝒀 ഥ
𝒀−𝒀 ഥ
𝒀−𝒀 𝟐

C 34.8 4.2 17.64 6.5 42.25


o 30.2 7.8 60.84 5.5 30.25
m 21.1 -5.1 26.01 -16.5 272.25
p 25.6 -7.6 57.76 -14.5 210.25
l 43.9 -2.9 8.41 8.5 72.25
e 48.5 -3.5 12.25 12.5 156.25
t 25.6 -0.6 0.36 -7.5 56.25
a 30.2 7.8 60.84 5.5 30.25
Ʃ 244.11 Ʃ 870
a) Grafique estos datos.
Nivel de Grado de Grafico de Datos
ruido ansiedad
50
X Y 45

4 39 40

3 38 35

30
1 16 25
2 18 20

6 41 15

7 45 10

5
2 25 0
3 38 0 1 2 3 4 5 6 7 8

b) Desarrolle una ecuación de estimación que describa los datos.


28 260
෍ 𝑋 𝑌 = 1047 𝑥ҧ = = 3.3 𝑦ത = = 32.5
8 8
𝑛=8 𝛴𝑥 2 = 128 ഥ
𝑥 2 = (3.3)2 = 12.25
σ 𝑥 𝑦 − 𝑛𝑥ҧ 𝑦ത
𝑏=
σ 𝑥 2 − 𝑛𝑥ҧ 2

1047 − (8)(3.5)(32.5) 137


𝑏= = = 4.56666 = 4.57
128 − (8)(12.25) 30

𝑎 = 𝑌ത − 𝑏𝑋ത
𝑎 = 32.5 − 4.57 3.5 = 32.5 − 16 = 16.50
𝑌෠ = 𝑎 + 𝑏𝑥

𝑌෠ = 16.5 + 4.5 4 = 33.78 = 34.8


Nivel de
Y estimada
ruido 𝑌෠ = 16.5 + 4.5 3 = 30.21 = 30.2
X 𝑌෠
4 34.8
𝑌෠ = 16.5 + 4.5 1 = 21.07 = 21.1
3 30.2 𝑌෠ = 16.5 + 4.5 2 = 25.64 = 25.6
1 21.1
2 25.6 𝑌෠ = 16.5 + 4.5 6 = 43.92 = 43.9
6 43.9 𝑌෠ = 16.5 + 4.5 7 = 48.49 = 48.5
7 48.5
2 25.6 𝑌෠ = 16.5 + 4.5 2 = 25.64 = 25.6
3 30.6
𝑌෠ = 16.5 + 4.5 3 = 30.21 = 30.2
Gráfica de Estimación
60

50

40

30

20

10

0
0 1 2 3 4 5 6 7 8

c) Pronostique el grado de ansiedad que podríamos esperar


cuando el nivel de ruido es 5.

𝑌 = 𝑎 + 𝑏𝑋

Y= 16.5 + 4.57 5 = 39.35


d) Calcule el coeficiente de determinación de la muestra y el
coeficiente de correlación

2
෍ 𝑌 − 𝑌෠
𝑟2 = 1 −
෌ 𝑌 − 𝑌ത 2

244.11
𝑟2 =1− = 1 − 0.280586 = 1 − 0.28 = 0.72
870

𝑟= 𝑟2

𝑟 = 0.72 = 0.84852 = 0.8485 = 84.85%


Análisis de regresión múltiple y correlación
Podemos utilizar más de una variable independiente para estimar la variable
dependiente e intentar, de esta manera, aumentar la precisión de la estimación. Este
proceso se conoce como análisis de regresión múltiple y correlación. Está basado en las
mismas suposiciones y procedimientos que encontramos al utilizar la regresión simple.

La principal ventaja de la regresión múltiple es que nos permite utilizar más información
disponible para estimar la variable dependiente. En algunas ocasiones, la correlación
entre dos variables puede resultar insuficiente para determinar una ecuación de
estimación confiable; sin embargo, si agregamos los datos de más variables
independientes, podemos determinar una ecuación de estimación que describa la
relación con mayor precisión. La regresión múltiple y el análisis de correlación implican
un proceso de tres pasos como el que usamos en la regresión simple. En este proceso:

1. Describimos la ecuación de regresión múltiple;


2. Examinamos el error estándar de regresión múltiple de la estimación, y
3. Utilizamos el análisis de correlación múltiple para determinar qué tan bien la
ecuación de regresión describe los datos

Además, en la regresión múltiple podemos observar cada una de las variables


independientes y probar si contribuyen de manera significativa a la forma en que la
regresión describe los datos.
Ejemplo:

■ 13-12 Una estudiante graduada que quiere comprar un auto Neptune usado
investigó los precios. Piensa que el año del modelo y el número de millas recorridas
influyen en el precio de compra. Los datos siguientes corresponden a 10 autos con
precio (Y) en miles de dólares, año (X1) y millas recorridas (X2) en miles.
𝛴𝑦 = 𝑛𝑎 + 𝑏1 𝛴𝑥1 + 𝑏2 𝛴𝑥2 → 𝐸𝑐 1
𝛴 𝑥1 𝑦 = 𝑎𝛴𝑥1 + 𝑏1 𝛴(𝑥1 )2 + 𝑏2 𝛴𝑥1 𝑥2 → 𝐸𝑐 2
𝛴 𝑥2 𝑦 = 𝑎𝛴𝑥2 + 𝑏1 𝛴𝑥1 𝑥2 + 𝑏2 ෌ 𝑥2 2 → 𝐸𝑐 3
𝑦ො = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 → 𝐸𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑀𝑖𝑛𝑖𝑚𝑜𝑠 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑟𝑜𝑠

a) Encuentre (calcule) la ecuación de mínimos cuadrados que mejor relacione


estas tres variables.

(Y) Precio
X2
(Miles de X1 Año (X1)(Y ) (X2)(Y ) (X1)(X2) (X1)2 (X2)2 (Y)2
Millas(miles
Dolares)
2.99 1987 55.6 5941.13 166.244 110477.2 3948169 3091.36 8.9401
6.02 1992 18.4 11991.84 110.768 36652.8 3968064 338.56 36.2404
8.87 1993 21.3 17677.91 188.931 42450.9 3972049 453.69 78.6769
3.92 1988 46.9 7792.96 183.848 93237.2 3952144 2199.61 15.3664
9.55 1994 11.8 19042.7 112.69 23529.2 3976036 139.24 91.2025
9.05 1991 36.4 18018.55 329.42 72472.4 3964081 1324.96 81.9025
9.37 1992 28.2 18665.04 264.234 56174.4 3968064 795.24 87.7969
2.2 1988 44.2 4373.6 97.24 87869.6 3952144 1953.64 4.84
4.8 1989 34.9 9547.2 167.52 69416.1 3956121 1218.01 23.04
5.74 1991 26.4 11428.34 151.536 52562.4 3964081 696.96 32.9476

ƩY 62.51 Ʃx1 19905 Ʃx2 324.1 Ʃ(X1)(Y ) 124479.27 Ʃ(X2)(Y ) 1772.431 Ʃ(X1)(X2) 644842.2 Ʃ(X1)2 39620953 Ʃ(X2)2 12211.27 Ʃ(Y)2 461
𝛴𝑦 = 𝑛𝑎 + 𝑏1 𝛴𝑥1 + 𝑏2 𝛴𝑥2 → 𝐸𝑐 1
62.51= 10𝑎 + 19905𝑏1 + 324.1𝑏2 → 𝐸𝑐 1
𝛴 𝑥1 𝑦 = 𝑎𝛴𝑥1 + 𝑏1 𝛴(𝑥1 )2 + 𝑏2 𝛴𝑥1 𝑥2 → 𝐸𝑐 2
124479.27= 19905𝑎 + 39620953𝑏1 + 644842.2𝑏2 → 𝐸𝑐 2
𝛴 𝑥2 𝑦 = 𝑎𝛴𝑥2 + 𝑏1 𝛴𝑥1 𝑥2 + 𝑏2 ෌ 𝑥2 2 → 𝐸𝑐 3
1772.43= 324.10𝑎 + 644842.2𝑏1 + 12211.27𝑏2 → 𝐸𝑐 3

Ecuaciones simultaneas
De la Ecuación 1 y la Ecuación 2 Obtenemos La Ecuación 4
(-19905) 62.51 = 10𝑎 + 19905𝑏1 + 324.1𝑏2 → 𝐸𝑐 1
(10) 124479.27 = 19905𝑎 + 39620953𝑏1 + 644842.2𝑏2 → 𝐸𝑐 2
-1244262 = −199050𝑎 − 396209025𝑏1 − 6451210.5𝑏2 → 𝐸𝑐 1
1244792.70 = 199050𝑎 + 396209530𝑏1 + 6448422𝑏2 → 𝐸𝑐 2
531.15= 505𝑏1 − 2788.5 𝑏2 → 𝐸𝑐 4
De la Ecuación 1 y la Ecuación 3 Obtenemos La Ecuación 5
(-324.10) 62.51 = 10𝑎 + 19905𝑏1 + 324.1𝑏2 → 𝐸𝑐 1
(10) 1772.43= 324.10𝑎 + 644842.2𝑏1 + 12211.27𝑏2 → 𝐸𝑐 3
--20259.49 = −3241𝑎 − 6451210.5𝑏1 − 105040.81𝑏2 → 𝐸𝑐 1
17724.30 = 3241𝑎 + 64484.22𝑏1 + 122112.7𝑏2 → 𝐸𝑐 3
-2535.19= −2788.5𝑏1 − 17071.89 𝑏2 → 𝐸𝑐 5

De la Ecuación 4 y la Ecuación 5 Obtenemos el valor de 𝒃𝟐


(2788.5) 531.15= 505𝑏1 − 2788.5 𝑏2 → 𝐸𝑐 4
(505) -2535.19= −2788.5𝑏1 + 17071.89 𝑏2 → 𝐸𝑐 5

1481111.78= 1408192.5𝑏1 − 7775732.25 𝑏2 → 𝐸𝑐 4


-1280271.46= −1408192.5𝑏1 + 8621304.45𝑏2 → 𝐸𝑐 5
-200840.32= 845572.20𝑏2 → 𝑉𝑎𝑙𝑜𝑟 𝑑ⅇ 𝑏2
200840.32
𝑏2 = 0.2375 = 𝟎. 𝟐𝟒 → Valor de 𝑏2
845572.20
De la Ecuación Obtenemos el valor de 𝒃𝟏
531.15= 505𝑏1 − 2788.5 𝑏2 → 𝐸𝑐 4
531.15= 505𝑏1 − 2788.5 (𝟎. 𝟐𝟒) → 𝐸𝑐 4
531.15= 505𝑏1 − 669.24 → Valor de 𝑏1
531.15 + 669.24 1200.39
𝑏1 = = = 𝟐. 𝟑𝟖 → Valor de 𝑏1
505 505
Obtenemos el valor de 𝒂 de la ecuación 1

62.51= 10𝑎 + 19905𝑏1 + 324.1𝑏2 → 𝐸𝑐 1


62.51= 10𝑎 + 19905(𝟐. 𝟑𝟖) + 324.1(𝟎. 𝟐𝟒) → 𝐸𝑐 1
62.51= 10𝑎 + 47373.90 + 77.78 → 𝑉𝑎𝑙𝑜𝑟 𝑑ⅇ 𝑎
62.51= 10𝑎 + 474451.68 → 𝑉𝑎𝑙𝑜𝑟 𝑑ⅇ 𝑎
62.51 − 47451.68 −47389.17
𝑎= = = −𝟒𝟕𝟑𝟖. 𝟗𝟏 → 𝑉𝑎𝑙𝑜𝑟 𝑑ⅇ 𝑎
10 10
𝑦ො = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 → 𝐸𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑀𝑖𝑛𝑖𝑚𝑜𝑠 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑟𝑜𝑠
Por lo que la ecuación de mínimos cuadrados que mejor relaciona estas
tres variables queda de la siguiente manera:

𝑦ො = −4738.91 + 2.38𝑥1 + 0.24𝑥2


b) La estudiante desea comprar un Neptune 1991 con alrededor de 40,000
millas recorridas. ¿Cuánto pronostica que pagará?

𝑦ො = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 → 𝐸𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑀𝑖𝑛𝑖𝑚𝑜𝑠 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑟𝑜𝑠

𝑦ො = −4738.91 + 2.38𝑥1 + 0.24𝑥2

𝑦ො = −4738.91 + 2.38 1991 + 0.24(40000)

𝑦ො = −4738.91 + 2.38 1991 + 0.24(40000)

𝑦ො = 9,599.57 𝑚𝑖𝑙ⅇ𝑠 𝑑ⅇ 𝑑𝑜𝑙𝑎𝑟ⅇ𝑠

También podría gustarte