Está en la página 1de 133

PROBABILIDAD

PROBABILIDAD
Temario
Bloque I
Fundamentos de teoría de probabilidad
Variables aleatorias
Modelos analíticos de fenómenos aleatorios discretos

Bloque II
Modelos analíticos de fenómenos aleatorios continuos
Técnicas de muestreo

Bloque III
Distribuciones muestrales
Estimación puntual y por intervalo

Bloque IV
Prueba de hipótesis
Regresión y correlación lineales
OBJETIVO
El estudiante aplica conocimientos básicos de las teorías de la
estadística, desarrollando el pensamiento cuantitativo y relacional
como instrumento de las habilidades de comprensión, expresión e
interpretación de los fenómenos que ocurren en la ingeniería; el
estudiante debe apoyar su proceso de aprendizaje mediante actitudes
de responsabilidad, puntualidad, participación, colaboración y
creatividad.
Bloque I
Fundamentos de
teoría de probabilidad

Variables aleatorias

Modelos analíticos de
fenómenos aleatorios
discretos
FUNDAMENTOS DE LA
TEORIA DE
PROBABILIDAD
Definición de probabilidad
La probabilidad es una rama de las matemáticas que se encarga del estudio
formal de las reglas de la incertidumbre que permiten modelar lo
impredecible.

Nace en el siglo XVII como consecuencia de la inquietud de modelar juegos


de azar.

El término probabilidad es una medida de la creencia de que un evento


futuro pueda ocurrir. El concepto de probabilidad es necesario para trabajar
con mecanismos físicos, biológicos o sociales que generan observaciones que
no se pueden predecir con certeza.
Definicion según Bernoulli:

La probabilidad de un suceso A de un experimento aleatorio se puede


definir como el número al que se aproximan las frecuencias relativas de
dicho suceso cuando el experimento se repite un número indefinido de
veces.
Definición de Laplace

Si un espacio muestral consta de un número finito de sucesos simples y


todos ellos tienen la misma posibilidad de suceder (equiprobables). Se
define la probabilidad de cualquier suceso A como:
Definicion de Kolmogorov
Si un espacio muestral consta de un número finito de sucesos simples y
todos ellos tienen la misma posibilidad de suceder (equiprobables). Se
define la probabilidad de cualquier suceso A como:
Evaluación de probabilidades. Frecuencias
relativas, espacios muestra con puntos equi-
probables.
Espacio muestral:

• Se llama espacio muestral al conjunto de todos los resultados simples


posibles de un experimento aleatorio.

El espacio muestral lo designaremos por E. Cada elemento del espacio


muestral E le llamaremos punto muestral.
Ejemplos :

1.- Lanzar una moneda al aire y anotar los resultados.


E={ cara(c), cruz (x) }
2.- Lanzar dos monedas al aire:
E={ cc, cx , xc, xx }
3.- Lanzar dos dados al aire y sumar los números que salen:
E={ 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
En lo sucesivo trabajaremos con espacios muestrales finitos
Se llama suceso elemental a cada uno de los resultados simples de un
experimento aleatorio. En definitiva está formado por un solo punto
muestral.

Ejemplo
1.-En el caso de
E={ c, x } de lanzamiento de una moneda sus sucesos elementales son :
{c} , {x}
2.-En el supuesto de lanzamiento de un dado : E={1,2,3,4,5,6}.

Son sucesos elementales {1}, {2}, {3} , {4}, {5}, {6}.


Los estadísticos utilizan la palabra experimento para describir cualquier
proceso que genere un conjunto de datos. En estadística nos interesan,
en particular, las observaciones que se obtienen al repetir varias veces
un experimento. En la mayoría de los casos los resultados dependerán
del azar, por lo tanto, no se pueden predecir con certeza.

Concepto: Un experimento es el proceso por medio del cual se hace


una observación.
Concepto: Al conjunto de todos los resultados posibles de un
experimento estadístico se le llama espacio muestral y se representa
con el símbolo S.
A cada resultado en un espacio muestral se le llama elemento o
miembro del espacio muestral, o simplemente punto muestral. Si el
espacio muestral tiene un número fi nito de elementos, podemos listar
los miembros separados por comas y encerrarlos entre llaves. Por
consiguiente, el espacio muestral S, de los resultados posibles cuando
se lanza una moneda al aire, se puede escribir como
S = {H, T},
en donde H y T corresponden a “caras” y “cruces”, respectivamente
Teoremas básicos. Axiomatización y
teoremas básicos.
Los axiomas de probabilidad son las condiciones mínimas que deben
verificarse para que una función definida sobre un conjunto de sucesos
determine consistentemente sus probabilidades. Fueron formulados
por Kolmogórov en 1933.
Una probabilidad es una medida sobre una σ-álgebra de subconjuntos
del espacio muestral, siendo los subconjuntos miembros de la σ-
álgebra los sucesos y definida de tal manera que la medida del total sea
1. Tal medida, gracias a su definición matemática, verifica igualmente
los tres axiomas de Kolmogórov. A la terna formada por el espacio
muestra, la σ-álgebra y la función de probabilidad se la
denomina Espacio probabilístico, esto es, un "espacio de sucesos"
(el espacio muestral) en el que se han definido los posibles sucesos a
considerar (la σ-álgebra) y la probabilidad de cada suceso (la función de
probabilidad).
PROPIEDADES

1. donde el conjunto vacío representa en probabilidad el suceso


imposible
2.Para cualquier evento
3. donde representa el conjunto complemento de
4. Si entonces
5.
• Axioma 1
La probabilidad de un evento 𝑆 no puede ser negativa

• Axioma 2
La probabilidad del evento seguro, Ω, es igual a 1, denotado
simbólicamente como

• Axioma 3
Si son eventos mutuamente excluyentes (es decir, su intersección es
el conjunto vacío), entonces:
VARIABLE ALEATORIA
Una variable aleatoria es una variable estadística cuyos valores se
obtienen de mediciones en algún tipo de experimento aleatorio.
Formalmente es una función, que asigna eventos. Por ejemplo, el
lanzamiento de un dado o una moneda.

Tipos de variables aleatorias

Discretas: el conjunto de posibles valores es


finito(numerable). Suelen estar asociadas a experimentos
en los que se mide el numero de veces que sucede algo.

Continuas: el conjunto de posibles valores es infinito( o


no numerable), puede tomar todos los valores de un
intervalo. Suelen ser el resultado de mediciones.
Ejemplos
Variables aleatorias discretas Variables aleatorias continuas
 Lanzamiento de una moneda.  Cantidad de jugo en un envase
 Número de estudiantes en una escuela  La longitud de un pescado
 Cantidad de pizzas vendidas en un  Cantidad de agua en un rio
restaurante a lo largo de un día  Tiempo de vida de una bacteria en un
 Numero de rebanadas en que un pastel fue recipiente
cortado  Tiempo de vida de un elemento radioactivo
en un laboratorio
Variables aleatorias conjuntas

Si X1, X2, X3…Xn son variables aleatorias definidas sobre el mismo espacio
muestral, dichas variables aleatorias reciben el nombre de variables
aleatorias conjuntas.

Variables aleatorias conjuntas Variables aleatorias conjuntas


discretas continuas
Variables aleatorias conjuntas discretas

Si X1, X2, X3…Xn son variables aleatorias conjuntas discretas, se define su función de
probabilidad conjunta como:
Variables aleatorias conjuntas continuas

Dos o más variables aleatorias conjuntas son continuas, si de manera individual, cada una de las
variables consideradas es continua. La probabilidad de que el par (x,y) de variables aleatorias
continuas se sitúe en un conjunto A bidimensional se obtiene integrando una función llamada función
de densidad conjunta.

Si X y Y son v.a. conjuntas continuas, entonces su función de densidad conjunta se define como una
función que cumple las siguientes características:
Para el caso particular, donde tenemos dos variables continuas, tenemos que:
Marginal de y
Funciones de densidad
marginal Marginal de x

Funciones de
densidad condicional
Medidas de dispersión
• Valor esperado de una función de dos variables aleatorias
Si X y Y son variables aleatorias conjuntas con función de probabilidad o
de densidad conjunta f(x,y) y si g(x,y) es una función de dichas variables
aleatorias, entonces el valor esperado de g(x,y) es:
Nota: La desviación
estándar es la raíz cuadrada
de la varianza
Coeficiente de correlación lineal

Propiedades
Momentos
Si X es una variable aleatoria, el momento de orden k de X se define
como:
Funciones generadores de momentos
Teorema
Modelos analíticos de
fenómenos aleatorios
discretos
Distribución uniforme y discreta

La distribución uniforme discreta es una distribución de


probabilidad que asume un número finito de valores con la misma
probabilidad. Es decir, si la distribución asume n valores distintos (), su
función de probabilidad es:
Ejemplos:

• Para un dado perfecto, todos los resultados tienen la misma


probabilidad 1/6.
• Para una moneda perfecta, todos los resultados tienen la misma
probabilidad 1/2.
Distribución binomial y multinomial
La distribución binomial es una distribución de probabilidad discreta
que cuenta el número de éxitos en una secuencia de n ensayos
de Bernoulli independientes entre sí, con una probabilidad fija p de
ocurrencia del éxito entre los ensayos.
La función de densidad de probabilidad de esta distribución es:
Características de un experimento binomial

• El experimento consiste en n intentos idénticos.


• Cada intento tiene dos resultados posibles: éxito(p) o fracaso(q=1-p).
• Los n intentos son independientes.
• La probabilidad el éxito permanece constante de una prueba a otra.
• ,
Ejemplo:
Calcular la probabilidad de obtener 5 caras en 12 lanzamientos al aire
de una moneda equilibrada.
Solución:
x=5, n=12, p=0.5, q=0.5

Por lo tanto, la probabilidad de obtener 5 caras en 12 lanzamientos de


una moneda equilibrada es del 19.3%.
La distribución multinomial es similar a la distribución binomial, con la
diferencia de que en lugar de dos posibles resultados en cada ensayo,
puede haber múltiples resultados.

La distribución multinomial tiene la siguiente función de densidad:


𝑛! 𝑥 𝑥
( 1
𝑋 = 𝑥1 , 𝑋 2 = 𝑥 2 , … . , 𝑋 𝑛 = 𝑥 𝑛) =
𝑥 1 ! ∗ 𝑥2 ! ∗ …∗ 𝑥𝑛 !
𝑝 1
1
∗ 𝑝 2 ∗ …∗ 𝑝
2

Donde:
 : indica que el suceso aparezca veces.
 n: indica el número de veces que se ha repetido el suceso
 : es la probabilidad del suceso
Ejemplo:
En una fiesta, el 20% de los asistentes son españoles, el 30% franceses,
el 40% italiano y el 10% portugueses. En un pequeño grupo se han
reunido 4 invitados: ¿cuál es la probabilidad de que 2 sean españoles y
2 italianos?
Solución:

4! 2 0 2 0
𝑃 ( 𝑋 ¿ ¿ 1=2 , 𝑋 2 =0 , 𝑋 3=2 , 𝑋 4 =0)= ( 0.2) ( 0.3) ( 0.4) (0.1) =0.0384 ¿
2! ∗ 0 ! ∗ 2! ∗ 0 !

Por lo tanto, la probabilidad de que 2 sean españoles y 2 italianos es del


3.84%.
Distribución hipergeométrica
Suponga que una población contiene un numero finito de n elementos,
cada uno de los cuales K se consideran aciertos(éxitos) y N-K como
fallas (fracasos).
Se selecciona una muestra aleatoria sin reemplazo de n elementos de la
población. La variable aleatoria de interés es x, el número de éxitos en
la muestra. Esta variable aleatoria tiene una distribución de
probabilidad hipergeométrica.
La función de distribución de esta distribución es:
Donde:
• N= número total de elementos.
• K= número de resultados exitosos en los N elementos
• n= número de elementos extraídos
• x= número de resultados exitosos de los n elementos.

Características

Ejemplo
Como parte de un estudio de contaminación del aire, un inspector
decide examinar la emisión de gases 6 de los 24 camiones de carga en
una compañía. Si 4 de los camiones emiten cantidades excesivas de
contaminación ¿Cuál es la probabilidad de que ninguno de ellos sea
incluido en la muestra del inspector?
Solución:

Por lo tanto, la probabilidad de que ninguno de los 4 camiones sea


incluido en la muestra del inspector es del 28.7972%.
Distribución binomial negativa y
geométrica
La distribución binomial negativa es un caso particular de la distribución
binomial .
La distribución binomial negativa se caracteriza por:
• Cada repetición del experimento es independiente de las otras.
• En cada intento solo son posibles dos resultados: éxito(p) o fracaso(1-p).
• La probabilidad de éxito es constante en cada secuencia.
• Los intentos continúan hasta que se consigan r éxitos.

La función de probabilidad para esta distribución es:

( )
𝑃 ( 𝑋 =𝑥 ) = 𝑥 −1 𝑝𝑟 (1 −𝑝 )𝑥 −𝑟
𝑟 −1
X= Número de experimentos realizados hasta
obtener el r-ésimo éxito
Ejemplo
• Se sabe que la probabilidad de que un niño expuesto a una cierta enfermedad
contagiosa la contraiga es de 0.4. Un grupo de médicos han decidido realizar un
estudio con todos los niños en la ciudad con el fin de erradicarla. Calcula la
probabilidad de que el décimo niño estudiado sea el tercero en contraer la
enfermedad.
Solución
Dando valor a los parámetros, tenemos que:
x=10 , r=3 , y p=0.4

La probabilidad de que el decimo niño sea el tercero


infectado, es de 6.45%
La distribución geométrica es un caso particular de la distribución
binomial negativa donde r=1, es decir que se realiza el experimento hasta
que se obtenga el primer éxito.
Su función de distribución entonces está dada por:
Ejemplo
• ¿Cuál es la probabilidad de obtener por primera y única vez “cara” al
lanzar una moneda por quinta vez?

Solución

La probabilidad de obtener por primera y única vez “cara” al lanzar una moneda
por quinta vez es de 3.125%
Distribución de Poisson y proceso de
Poisson
La variable aleatoria discreta que también tiene numerosas
aplicaciones es la variable aleatoria Poisson. Su distribución de
probabilidad da un buen modelo para datos que representan el número
de sucesos de un evento especificado en una unidad determinada de
tiempo o espacio.
Su función de distribución está dada por:

Donde λ es el número medio de eventos en una unidad dada de


tiempo, área o volumen.
Características

• ,
• El experimento consiste en contar el número x de veces que ocurre un
evento en particular durante una unidad de tiempo dada o en un área
o volumen.
• La probabilidad de que un evento ocurra en una unidad dada es la
misma para todas las unidades.
• El valor medio o esperado de eventos se denota por
Ejemplo

El número promedio de accidentes de tránsito e cierto crucero de


carretera es dos por semana. Suponga que el número de accidentes
sigue una distribución de Poisson con .

a) Encuentre la probabilidad de que no haya accidentes en este


crucero de carretera durante un periodo de una semana.

b) Encuentre la probabilidad de que a lo sumo haya tres accidentes en


esta sección de carretera durante un periodo de 2 semanas.
Solución
a)

Por lo tanto, la probabilidad de no haya accidentes en este crucero de


carretera durante una semana es del 13.53%.

b)

Por lo tanto, la probabilidad de que ocurran a lo sumo 3 accidentes en


este crucero en un lapso de tiempo de 2 semanas es del 43.347%.
Actividad Bloque I
1.-Define el tipo de variable aleatoria que corresponda:
Tipo de variable aleatoria
Cantidad de monedas en una alcancía
Cantidad de litros de agua en un río
Cantidad de muebles de una casa
Cantidad de perfume en una botella

2.-Determina el valor de k, para el cual la función f, es una función de densidad.

{
𝑘𝑥 0 ≤ 𝑥 < 𝑎
𝑓 (𝑥 )= 𝑘(2 𝑎− 𝑥 ) 𝑎≤ 𝑥 ≤ 2 𝑎
0 ; 𝑑𝑒 𝑜𝑡𝑟𝑜 𝑚𝑜𝑑𝑜
• 3.-Una variable aleatoria discreta x tiene la función de probabilidad para x=1,2 y 3. Encuentra el
valor de k para que la función f sea de densidad , y determina la función de distribución
acumulada, además dibújala.

• 4.-Un agente de seguros vende pólizas a 5 personas de la misma edad y que disfrutan de una
buena salud. Según tablas actuales, la probabilidad de que una persona en estas condiciones viva
30 años o más es 2/3. Encuentre la probabilidad de que transcurridos 30 años vivan:
a) Las 5 personas
b) Al menos 3 personas
c) Exactamente 2 personas
d) Obtenga la media y la desviación estándar.

• 5.-Entre los 120 aspirantes para ocupar un empleo, solo 80 están realmente calificados para
hacerlo, si se seleccionan al azar 5 aspirantes para realizar una entrevista a fondo. ¿ Cuál es la
probabilidad de que solo 2 de los 5 estén calificados para el trabajo?
Bloque II

 Modelos analíticos
de fenómenos
aleatorios continuos

 Técnicas de muestreo
Modelos analíticos de
fenómenos aleatorios
continuos
Distribución de probabilidad continua
• Una distribución continua describe las probabilidades de los posibles
valores de una variable aleatoria continua.
• Las probabilidades de las variables aleatorias continuas (X) se definen
como el área por debajo de la curva de su función de distribución .
Por lo tanto, solo los rangos de valores pueden tener una probabilidad
diferente de cero. La probabilidad de que una variable aleatoria
continua equivalga a algún valor siempre es cero.
𝑥
En las funciones de distribución continuas que
se verán, las tablas de cada distribución
contienen el área acumulada , que se obtiene
𝑃 ( 𝑋 ≤ 𝑥 ) =∫ 𝑓 ( 𝑥 ) 𝑑𝑥
mediante la fórmula: −∞
Distribución normal
Esta distribución sirve como una aproximación excelente a una gran
cantidad de distribuciones que tienen mucha importancia práctica.
Se dice que una variable aleatoria x es una variable aleatoria normal si
y solo si su función de densidad es:

Donde es la media de la distribución y su desviación estándar.


La gráfica de una distribución normal de probabilidad es:
Características:

• La media se localiza en el centro de la distribución y su distribución es simétrica


alrededor de la media (el área a la derecha de la media es 0.5).
• La forma de la distribución está determinada por la desviación estándar.
• Valores grandes de reducen la altura de la curva y aumenta la dispersión
• Valores pequeños de aumentan la altura de la curva y reducen la dispersión.
• Casi todos los valores de una variable aleatoria normal se encuentran en el intervalo ( .
• A la distribución normal con se conoce como distribución normal estándar.
• Si una variable no sigue una distribución normal estándar, se puede realizar un proceso
de estandarización: para poder emplear con este valor z , la tabla de distribución
normal estándar.
Ejemplo
Utilizando la tabla de la distribución normal, calcular las siguientes
probabilidades:
a) , 73.57%
b) , 69.15%
c) , 53.28%
Aproximación binomial a la normal
• Un método alternativo para el cálculo de la distribución Es fundamental que se satisfagan las
binomial es por medio del uso de la distribución normal siguientes condiciones:
 np ≥ 5
para aproximar la distribución binomial.  n(1 - p) ≥ 5
• Debido a que la distribución normal es continua, y en  p está próximo a 0,5.

consecuencia entre dos valores existirá una serie


infinita de valores posibles, para estimar una variable Cuando queremos hacer el calculo de un
número en especifico, debemos calcular 2
aleatoria discreta se requiere de un leve ajuste, valores de Z , uno sumando un medio y otro
denominado factor de corrección de continuidad, restando un medio y obtener la probabilidad
de z entre esos valores.
sumando o restando 1/2 al valor de x. De esta forma el
valor de z se obtiene mediante la fórmula: Cuando queremos realizar el cálculo de que
Z sea un mayor o igual a un número en
( 𝑥 ± 0.5) −𝜇
𝑧= específico, debemos restar un medio , o si
𝜎 deseamos que sea un mayor estricto,
debemos sumar un medio. De manera
análoga para el menor o igual y menor
estricto.
Ejemplo
• El 45% de todos los empleados de una dependencia pública poseen
título que los acredita para un determinado puesto. ¿Cuál es la
probabilidad de que de los 160 empleados elegidos al azar 75 posean
título para dicho puesto?
Solución
Datos: n = 160, x = 75, p = 0.45, q=1-p = 0.55

𝑃 ( 0.40< 𝑧 <0.56 )=𝑃 ( 𝑧 =0.56 ) − 𝑃 ( 𝑧 =0.40 )=0.7123 −0.6554=0.0569

Por lo tanto, la probabilidad de que 75 empleados de los 160 posean


título para el puesto es de 5.69%.
Distribución gamma
La fórmula para la función de densidad gamma contiene dos
parámetros: . El parámetro llamado de escala, refleja el tamaño de las
unidades en que se mide y el parámetro se conoce como parámetro de
forma, si se modifica su valor cambia la forma de la distribución
gamma.
Ahora bien, una variable aleatoria x tiene una distribución gamma y se
conoce como variable aleatoria gamma, si y solo si, su función de
densidad de probabilidad está dada por:

Características:

• ,
• Ejemplo
En cierta ciudad el consumo diario de energía eléctrica, en millones de
kilovoltios por hora puede considerarse como una variable aleatoria gamma
de parámetros 0.5. La planta de energía de esta ciudad tiene una capacidad
diaria de 10 millones de Kw/hora.
¿Cuál es la probabilidad de que este abastecimiento sea insuficiente en un
día cualquiera?

Solución
Técnicas de muestreo
• Todas las posibles muestras tienen la misma probabilidad de
Muestreo
aleatorio selección
simple

• Seleccionar una muestra aleatoria simple de cada estrato o


Muestreo
aleatorio
estratifica
subgrupo.
do

Muestre
o de
• Se puede obtener de manera facil y sencilla sin seleccion aleatoria.
convenie
ncia

Muestr
• Muestra aleatoria tomada de los conglomerados disponibles en la
eo de
conglo
merad
poblacion
os
Actividad Bloque II
1.-Menciona 2 características de la distribución normal

2.-¿ A quién se le conoce como distribución normal estándar?

3.-Utilizando la tabla de la normal estándar , calcula las siguientes probabilidades:

4.-Escribe la función gamma, cuyos parámetros son

5.-Cuando aproximamos la distribución binomial a la normal , es necesario hacer un ajuste en el cual


sumamos o restamos 0.5, ¿qué nombre recibe dicho ajuste y por qué es necesario hacerlo?

6.-Se sabe que el tiempo en horas en que semanalmente requiere una maquina para mantenimiento es
una variable aleatoria gamma con parámetros , encuentre la probabilidad de que el tiempo de
mantenimiento sea mayor a 8 horas.
Bloque III

 Distribuciones
muestrales

 Estimación puntual y
por intervalo
Distribuciones muestrales
Media muestral
Si la población tiene una distribución normal, la distribución muestral
de estará exactamente distribuida en forma normal, cualquiera que
sea el tamaño muestral n.

Si la distribución poblacional es NO normal, la distribución muestral


estará distribuida normalmente en forma aproximada para muestras
grandes.
Pasos para el cálculo para la media muestral
1.-Encuentra µ y calcular SE(
2.-Escribir el evento de interés y localizar el área aproximada en la curva
normal.
3.-Convertir los valores necesarios en valores z, usando:

4.-Utilizar la tabla de la normal estándar para calcular la probabilidad.


Ejemplo

Una máquina de refresco está arreglada para que la cantidad de bebida


que sirve sea una variable aleatoria con media de 200 mililitros y una
desviación estándar de 15 mililitros ¿Cuál es la probabilidad de que la
cantidad promedio servida en una muestra aleatoria de tamaño 36 sea
al menos de 204 mililitros?
Solución
P(

Por lo tanto, la probabilidad de que la cantidad media de refresco servida


sea más de 204 mililitros es de 5.4%.
Ji cuadrada
• La distribución ji-cuadrada es una distribución gamma con parámetros
y , donde v representa los grados de libertad de la distribución (en
general v suele valer n-1).
• Es decir , una variable aleatoria x, tendrá una distribución ji cuadrada
si y solo si, su función de densidad está dada por:
Aspectos importantes
• La distribución ji cuadrada no es simétrica.
• Esta distribución se utiliza para algunas pruebas de hipotesis.
• Si son variables aleatorias independientes con distribuciones normal
estándar, entonces:
tiene distribución ji cuadrada con v=n grados de libertad .
• Al estimar se pierde un grado de libertad.
• Varianza muestral:

Estadístico de prueba:

Ji cuadrada calculado Ji cuadrada tabulado


T-Student ( desconocida)
• La distribución t se publicó por primera vez en 1908 en un articulo de
W,S Gosset, En esta época, Gosset trabajaba para una cervecería
irlandesa que prohibía a sus empleados que publicaran los resultados
de sus investigaciones. Para evadir la prohibición Gosset publicó su
trabajo en secreto bajo el seudónimo de “student”.Es por cierto que
a la distribución t se le suele llamar distribución t de student o
simplemente distribución t.
• Una variable aleatoria x, tendrá una distribución t, si y solo si , su
función de densidad está dada por:

Con v los grados de libertad


Aspectos importantes
• La distribución t trabaja con nivel de significancia y v=n-1 grados de
libertad. 𝑛

• El estadístico de prueba t es:


∑ ( 𝑥 𝑖 − 𝑥 ) 2

𝑠2 = 𝑖 =1
, dado que es desconocida. 𝑛 −1
• La distribución t se parece a la distribución z en que ambas son
simétricas alrededor de una media 0.
• Cada curva t tiene forma de campana con centro en 0.
• A medida que los grados de libertad aumentan, la dispersión de la
curva t correspondiente disminuye.
• Cuando k (grados de libertad) tiene a infinito, la secuencia de curvas t
se aproxima a la curva normal estándar .
F-Fisher
• La distribución F tiene una amplia aplicaciones en la comparación de dos varianzas
muestrales y también es aplicable en problemas que implican dos o mas muestras. El
estadístico F se define como el cociente de dos variables aleatorias ji cuadradas
independientes, dividida cada una entre sus grados de libertad .

• Es decir si son las varianzas de variables aleatorias independientes de muestras de


tamaño y , tomadas de poblaciones normales con las varianzas , entonces:
Estadístico
de prueba

Se llama distribución F con nivel de significancia y () y () grados de libertad


Nota:
Coeficientes de varianzas
• El coeficiente de variación, también denominado como coeficiente de variación
de Spearman, es una medida estadística que nos informa acerca de la
dispersión relativa de un conjunto de datos. Su cálculo se obtiene de dividir la
desviación típica entre el valor absoluto de la media del conjunto y por lo
general se expresa en porcentaje para su mejor comprensión.
• El coeficiente de variación se puede ver expresado con las letras CV o r,
dependiendo del manual o la fuente utilizada. Su fórmula es la siguiente:


• S= Desviación estándar del conjunto de datos.
• = Valor absoluto de la media del conjunto de datos
Ejercicio
Calcula los coeficientes de variación de los siguientes conjunto de
datos:

•B
•C
Teorema del límite central
• Si muestras aleatorias de n observaciones se sacan de una población
no normal con media finita y desviación estándar , entonces cuando
n es grande, la distribución de muestreo de la media muestral está
distribuida normalmente en forma aproximada con media y
desviación estándar .

• La aproximación se hace mas precisa cuando n se hace mas grande.


Estimaciones puntuales y por
intervalos de confianza
Ejemplos
• 1.-Una muestra de n=50 observaciones de entre una población cuantitativa produjo =56.4
y =2.6. Dé la mejor estimación puntual para la media poblacional para una confianza del
95% .

Solución
Datos: , /2 = 0.025 , =1.96 , n=50 , =56.4 , =2.6

La media poblacional puede ser 55.9531 o 56.8496 con una confianza del 95% .
• 2.-En 16 recorridos, el consumo de gasolina de un motor experimental tuvo una
desviación estándar de 2.2 galones. Construya un intervalo de confianza del
99% para .
Solución
Datos : , /2 = 0.005 , =32.8013 , =4.6009 , n=16

se encuentra en el intervalo (2.2133,15.7795) con una confianza del 99% .

Nota:
= 32.8013 =4.6009
Estos valores se obtuvieron de la tabla de la distribución ji cuadrada
• 3.-Para comparar el efecto del estrés en la forma de ruido sobre la
capacidad de realizar un trabajo sencillo, 80 personas fueron divididas
en dos grupos. El primer grupo de 35 personas actúo como control,
en tanto que el segundo grupo de 45 personas fueron el grupo
experimental. Aun cuando cada persona realizo el trabajo en el
mismo cuarto de control, cada una de las personas del grupo
experimental tuvo que realizar el trabajo cuando se reproducía
música de rock a alto volumen. El tiempo para terminar el trabajo se
registró y se obtuvieron los siguientes datos:
Control Experimental
n 35 45
31 minutos 23 minutos
5 minutos 10 minutos

• Encuentre un intervalo de confianza del 99% para la diferencia en


tiempos medios de terminación para estos dos grupos.
Solución
• Datos , /2 = 0.005 , =2.575

(( < ()

((31 < (31)

(<)

( <8+4.4126)

(3.5874 <12.4126)

El intervalo para la diferencia de medias es el (3.5874,12.4126), además como todos los valores del
intervalo son positivos, podemos asegurar que la media 1 es mayor que la media 2 con una confianza
Actividad Bloque III
1.-¿Cuál es el dominio de la distribución ji-cuadrada?

2.-La distribución ji cuadrada, ¿es simétrica?

3.-¿ En que se parecen la distribución t y la distribución normal?

4.-Calcula el coeficiente de variación de los siguientes conjuntos de datos:

5.- Una muestra de n=100 observaciones de entre una población cuantitativa produjo
=52.4 y =9. Dé la mejor estimación puntual para la media poblacional para una confianza
del 99%

6.-Mientras se diseñan asientos de cine, se obtienen las estaturas (en mm) de una
muestra aleatoria simple de mujeres adultas mientras están sentadas: 849,807,821,859,
864, 877, 772, 848, 807, 802,887 y 815. Utilice estos datos muestrales para construir un
intervalo de confianza del 95% para , la desviación estándar de las estaturas de todas las
mujeres mientras están sentadas.
Bloque IV

 Prueba de hipótesis

 Regresión y
correlación lineales
Prueba de hipótesis
¿Qué es una hipótesis ?

Una hipótesis es una suposición


hecha a partir de unos datos que
sirve de base para iniciar una
investigación o una argumentación.
¿Qué es la prueba de hipótesis?
Una prueba de hipótesis es una regla que especifica si se
puede aceptar o rechazar una afirmación acerca de una
población dependiendo de la evidencia proporcionada por
una muestra de datos.

Una prueba de hipótesis examina dos


hipótesis opuestas sobre una población: la
hipótesis nula y la hipótesis alternativa

 La hipotesis nula suele denotarse por


 La hipotesis alternativa suele denotarse por o
NOTA: por lo general la hipotesis alternativa es la que
desea probar el investigador.
Errores tipo I y II
• Cuando realizamos una prueba de hipótesis al igual que en los
ejercicios anteriores necesitamos un nivel de confianza ya sea del 95%
, 99%, etc., pero notemos que siempre existe la probabilidad de que
cometer un error ya sea en mayor o en menor medida.
• En la prueba de hipótesis estos errores se denominan error tipo I y
error tipo II, y se definen de la siguiente manera:

Error tipo I: se rechaza cuando


es verdadera.

Error tipo II: Se acepta cuando


es falsa.
Ejemplo
• Un investigador ha preparado un nivel de dosis de droga que, según él ,inducirá el sueño en 80%
de las personas que sufren insomnio. Después de examinar la dosis, pensamos que lo dicho por
él respecto a efectividad de la dosis es exageradamente alto. Si se realizara un estudio en un
intento por desmentir este hecho ¿Cuáles serían los errores tipo I y tipo II en este contexto?

• Solución
Dado que deseamos desmentir lo afirmado por el investigador, nuestras hipótesis quedarían
planteadas de la siguiente manera:
: La dosis de droga inducirá al 80% de las personas con insomnio.
La dosis de droga inducirá a menos del 80% de las personas con insomnio

De donde, los errores tipo I y tipo II serían:


Error tipo I: rechazar que la dosis de droga inducirá el sueño al 80% de las personas con insomnio
cuando sí lo hace.
Error tipo II: Aceptar que la dosis de droga inducirá el sueño al 80% de las personas con insomnio
cuando no lo hace.
Prueba de hipótesis para medias poblacionales
• 1.- Plantear
• 2.-Plantear :
Prueba de una cola Prueba de dos
colas
: (cola derecha) :
O
(cola izquierda)

• 3.-El estadístico de prueba

• 4.-Región de rechazo:
Prueba de una cola Prueba de dos colas
z> :
(o z<- cuando la z> o z<
hipótesis alternativa es
)
Ejemplo
• 1.-Ingenieros civiles registran la cantidad del sal (tons) usadas para
mantener en buen estado las autopistas durante una tormenta de
nieve. La cantidad de sal para n=30 tormentas tiene =1,798.4 tons y
=671,330.9, de modo que s=819.35 tons. Realice una prueba de
hipótesis con la intención de demostrar que el uso medio de sal
durante una tormenta de nieve es menor que 2,000 tons. Considere
Solución

Planteando las hipótesis tenemos que: Recordemos que en


ponemos lo que queremos
: probar

Ahora calculamos el estadístico de prueba:

Tomamos el valor de alfa completo, pues es


una prueba de una cola y tomamos el valor
Luego, tenemos que de con signo negativo pues es una prueba
de cola inferior (o izquierda)
• Ahora dibujamos la región de aceptación y de rechazo, y ubicamos el
valor crítico y nuestro estadístico de prueba:

Vemos que nuestro estadístico


está en la zona de aceptación de ,
con lo cual aceptamos

El uso medio de sal durante una


tormenta de nieve es mayor o
Región de aceptación igual a 2000 toneladas, con una
Región de rechazo de -1.645 confianza del 95%.
-1.3476 de
Prueba de hipótesis para la diferencia de medias poblacionales
• 1.- Plantear
Donde es alguna diferencia especificada, si
• 2.-Plantear : se desea probar que no hay diferencia
Prueba de una cola Prueba de dos colas entre las medias entonces =0

: (cola derecha) :
O
cola izquierda)

• 3.-El estadístico de prueba:

• 4.-Región de rechazo:

Prueba de una cola Prueba de dos colas


z> :
(o z<- cuando la hipótesis z> o z<
alternativa es )
Ejemplo
• 2.-¿Los estudiantes universitarios hombres se aburren más fácilmente
que sus compañeras mujeres? Esta pregunta se analizó en un artículo
de investigación donde sus autores aplicaron la escala de propensión
al aburrimiento a 97 estudiantes hombres y 148 mujeres de
universidades de Estados Unidos. ¿La información apoya la hipótesis
de investigación de que la tasa de aburrimiento es más alta para
hombres?. Pruebe las hipótesis apropiadas usando un nivel de
significancia de 0.05.
Género Tamaño muestral Media muestral Desviación
estándar muestral
Hombres 97 10.4 4.83
Mujeres 148 9.26 4.68
Solución
Planteamos , pues queremos probar que ,
Planteando las hipótesis tenemos que: pero una equivalencia para esto es

Ahora calculamos el estadístico de prueba:

Tomamos el valor de alfa completo, pues es


una prueba de una cola y tomamos el valor
Luego, tenemos que de con signo positivo pues es una prueba
de cola superior(o derecha)
• Ahora dibujamos la región de aceptación y de rechazo, y ubicamos el
valor crítico y nuestro estadístico de prueba:

Vemos que nuestro estadístico


está en la zona de rechazo de ,
con lo cual rechazamos y
aceptamos

La tasa de aburrimiento sí es más


alta para los hombres que para las
mujeres con una confianza del
Región de aceptación 1.645 1.8289 95%.
de
Región de rechazo de
Otras pruebas de hipótesis
• Como ya hemos visto, se pueden
1.-Se plantea la hipótesis nula
realizar pruebas de hipótesis
utilizando la distribución normal.
Sin embargo también se pueden 2.- Se plantea la hipótesis
realizar pruebas de hipótesis con alternativa
las distribuciones F, T, Ji cuadrada,
entre otras, utilizando con cada 3.-Se calcula el estadístico de
una su respectivo estadístico de prueba de la prueba
prueba y en función de lo que se correspondiente
pida probar.
4.-Se dibuja la región de aceptación y de rechazo
de la hipótesis nula en función del valor en la
tabla de la distribución , finalmente se ubica el
estadístico de prueba , y se toma una decisión.
Regresión y correlación
lineales
¿Qué es el análisis de regresión?
El análisis de regresión es una herramienta de frecuente uso
en Estadística que permite estudiar y valorar las relaciones
entre diferentes variables cuantitativas tenidas en cuenta
mediante la construcción de una ecuación

El esquema básico de análisis de regresión plantea un


proceso o modelo en el cual se analiza la relación entre
una variable dependiente (porque es influida por el resto)
y una o varias variables independientes o fijas (las que
influyen en el objeto de estudio).
Las principales aplicaciones de este elemento estadístico son la predicción o previsión
de hechos a partir de unos datos determinados, teniendo en cuenta el grado de
influencia (en Estadística se conoce a esto como correlación lineal) de las diferentes
variables en los mismos a raíz de la experiencia que aporta esta información.

Cuando solo se tiene en cuenta una variable independiente


hablamos de regresión lineal simple, mientras que si
existen más se trataría de regresión lineal múltiple.
Método de mínimos cuadrados
• Gauss propuso en 1809 el método de mínimos cuadrados para obtener
los datos m y b, que mejor se ajustan a la ecuación de la recta:

Si m>0 , la relación lineal es


positiva.
Si m<0, la relación lineal es
𝑌 =𝑚𝑥 +𝑏
negativa.

La ecuación de dicha recta, es la recta que mejor se ajusta a un conjunto


finito de puntos de coordenadas(x,y). El método consiste en minimizar la
suma de los cuadrados de las distancias verticales entre y las estimaciones,
es decir, minimizar la suma de los residuos al cuadrado.
Ejemplo
• Calcule la ecuación de la recta que mejor se aproxime al siguiente
conjunto de puntos:
x y
7 2
1 9
10 2
5 5
4 7
3 11
13 2
10 5
2 14
Solución
x y x*y
𝑛 ∑ (𝑥 ∗ 𝑦 )−∑ 𝑥 ∑ 𝑦 9 ( 233 ) −( 55)(57) −1038 −519
7 2 14 49 𝑚= = = = ≈ −0.8425
𝑛 ∑ 𝑥2−( ∑ 𝑥 )
2 2
9 ( 473 ) − ( 55 ) 1232 616
1 9 9 1
10 2 20 100
55 57
5 5 25 25 𝑥= ≈ 6.1111 𝑦 = ≈ 6.3333
9 9
4 7 28 16

( )
3 11 33 9 57 − 519 55 643
𝑏=𝑦 −𝑚 𝑥= − = ≈ 11.4821
13 2 26 169 9 616 9 56
10 5 50 100
2 14 28 4
−519 643
∑. 57 233 473 𝑌=
616
𝑥+
56
≈− 0.8425 x +11.4821
Ejercicio
• Calcule la ecuación de la recta que mejor se aproxime al siguiente
conjunto de puntos:
x y
1 9
2 11
10 1
5 7
8 -2
3 4
4 5
-1 8
0 14
Modelo de regresión lineal simple
• El modelo de regresión lineal simple supone que:

Donde: y se llaman coeficientes de


 : representa el valor de la variable respuesta para la observación regresión

i-ésima
 : representa el valor de la variable explicativa para la
observación
i-ésima. Los parámetros a estimar
son y
 representa el error para la observación i-ésima que se asume
normal ()
Hipótesis del modelo de regresión lineal simple

• Linealidad: La relación existente entre X e Y es lineal ()


• Homogeneidad: El valor promedio del error es cero,
• Homocedasticidad: La varianza de los errores es contante
• Independencia: Las observaciones son independientes.
• Normalidad: Los errores siguen una distribución normal
Residuos
Estimación de la varianza
Inferencia para la pendiente ()
Intervalo de confianza para la pendiente
Inferencia para el intercepto()
Intervalo de confianza para el intercepto
Inferencia para la varianza
¿Qué es una banda de confianza?
• Una banda de confianza son las líneas de una gráfica de probabilidad
o gráfica de línea ajustada que representan los bordes de confianza
superior e inferior para todos los puntos de una línea ajustada dentro
del rango de los datos. En una gráfica de línea ajustada, el intervalo de
confianza para la respuesta media de un valor predictor especificado
son los puntos de las bandas de confianza que están ubicados
directamente por encima y por debajo de dicho valor.
Medidas de dependencia lineal
• La covarianza
Una medida de dependencia lineal es la covarianza:
𝑛

∑ ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 )
𝐶𝑜𝑣 ( 𝑥 , 𝑦 ) = 𝑖 =1 La covarianza es el valor que refleja en
𝑛 −1
qué cuantía dos variables aleatorias
varían de forma conjunta respecto a sus
 Si hay relación lineal positiva, la covarianza será positiva medias.
y grande.
 Si hay relación lineal negativa, la covarianza será Nos permite saber cómo se comporta
negativa y grande en valor absoluto. una variable en función de lo que hace
 Si hay no hay relación entre las variables o la relación otra variable. Es decir, cuando X sube
es marcadamente no lineal, la covarianza será próxima a ¿Cómo se comporta Y?
cero.
Coeficiente de correlación lineal
• Una medida de dependencia lineal que no depende de las unidades de
medida es el coeficiente de correlación lineal:

Donde: y

Propiedades
Coeficiente de determinación
El coeficiente de determinación, también llamado R cuadrado, refleja la bondad del ajuste de
un modelo a la variable que pretender explicar.

Es importante mencionar que el coeficiente de determinación oscila entre 0 y 1, mientras más


se acerque a 1, mayor será el ajuste del modelo.

2
𝑅 =
∑ ^
( 𝑦 𝑖 − 𝑦) 2

∑ 𝑖
( 𝑦 − 𝑦)
2
Actividad Bloque IV
1.-Describa de manera general, cuáles son los pasos para realizar una prueba de hipótesis .

2.-Debido a una estimación obsoleta del peso medio de hombres y mujeres, han muerto personas en
accidentes de barco. Si se utilizan los pesos de una muestra aleatoria simple de hombres, se obtienen los
siguientes estadísticos muestrales: n=40 y Investigaciones de muchas otras fuentes sugieren que la
población de pesos tienen un desviación estándar de Utilice estos resultados para someter a prueba la
afirmación de que los hombres tienen un peso medio mayor que 166.3 libras, que era la recomendación del
sistema nacional de transporte. Hágase para una confianza del 99% .

3.-Un empacador de lácteos afirma que el promedio de llenado es de 250 gramos por yogur. Esta afirmación
debe ser verificada muestreando sucesivamente durante un mes; se toma una muestra de 10 datos
considerando una distribución t, el llenado de los envases es de: 247, 260, 234, 244, 251, 249, 250, 251,248 y
247 gramos, respectivamente.¿ La afirmación del empacador es valida o el llenado es superior?. Hágase para
una confianza del 90%.

4.-Suponga la siguiente afirmación: “El 50% de los trabajadores en la compañía X, pescara un resfriado en el
invierno , debido a las malas condiciones de trabajo”.
Suponga que se desea probar lo contrario, determine entonces y escriba los errores tipo I y tipo II en esta
situación .
• 5.- Considere los siguientes conjuntos de puntos:

x y x y
1 0 0 2
2 2 1 3
3 4 3 2
4 8 4 5
5 7 7 9
6 10 8 8
7 11 9 11
8 17 10 15
9 13 11 12

En cada caso, determine lo siguiente:


 Determine la ecuación de la recta que mejor se ajusta a los puntos, utilizando mínimos cuadrados.
 Calcule los residuos.
 Calcule la covarianza.
 Determine los coeficientes de correlación lineal y de determinación.

También podría gustarte