Apuntes Cap 5

UNIDAD V
INFERENCIA ESTADÍSTICA
Conceptos Fundamentales
Uno de los objetivos principales de la estadística es extraer
conclusiones e información sobre una determinada población.
Recordando que se denomina población al conjunto completo de
elementos, con alguna característica común, objeto de nuestro
estudio (personas, objetos, experimentos, etc.).
Evidentemente, la forma más directa de cumplir dicho objetivo

sería estudiar todos y cada uno de los elementos de la población.
Sin embargo, en numerosas ocasiones esto no es posible ya que,
por ejemplo, el tamaño de la población puede ser demasiado
grande (ej. estrellas del cielo) e incluso infinito (ej. tiradas
posibles de un dado), o bien porque estudiar los elementos
implica la destrucción de estos (ej. ensayos destructivos de
control de calidad) o, simplemente porque el costo económico es
inviable. En estos casos, es necesario trabajar con un subconjunto
de elementos de la población que se conoce como muestra. Y al
proceso de obtener las muestras se le denomina muestreo.
La inferencia estadística se ocupa de estudiar los métodos

necesarios para extraer, o inferir aquellas conclusiones que sean
válidas a cerca de una población, a partir del estudio experimental
de una muestra de dicha población.
Un problema importante de la inferencia estadística es la

estimación de parámetros poblacionales, o simplemente
parámetros (por ejemplo, la media y la varianza de una
población), a partir de los estadísticos muestrales
correspondientes, o simplemente los estadísticos (por ejemplo, la
media y la varianza calculada de dichas muestras).
Los métodos utilizados en la inferencia estadística dependen de
la información previa que se tenga de la población. Cuando se
conoce la forma de distribución de probabilidad que sigue la
variable aleatoria a estudiar de dicha población, entonces el
problema consiste en determinar los diferentes parámetros de la
distribución (ej. media y varianza para la distribución normal).
Para ello se utilizan los métodos paramétricos, consistentes en
procedimientos óptimos para encontrar dichos parámetros.
Cuando la distribución de la población es desconocida, el
problema principal es encontrar la forma y características de la
distribución, lo cual se hace mediante los llamados métodos no
paramétricos. Una prueba no paramétrica es una prueba de
hipótesis que no requiere que la distribución de la población sea
caracterizada por ciertos parámetros. Por ejemplo, muchas
pruebas de hipótesis parten del supuesto de que la población
sigue una distribución normal con los parámetros μ y σ.
MUESTRA
El tamaño de una muestra que se representa con la letra “N”, es el
número de elementos de la muestra. Una muestra puede ser de
cualquier tamaño, desde N= 1, hasta el número total de elementos
del universo.
El método de elección de una muestra es un factor importante

para saber que uso puede hacerse de la muestra. Si algunos
elementos del universo son elegidos más fácilmente que otros, se
dice que la muestra es no centrada.
TEORIA DE MUESTREO
La Teoría de Muestreo estudia la relación entre una población y
las muestras tomadas de ella. Por ejemplo, para estimar
magnitudes desconocidas de una población, tales como la media
y varianza que se conocen como parámetros.
DECISIONES ESTADÍSTICAS
En la práctica es común tomar decisiones relativas a una
población, a partir de información que proviene de muestras.
Tales decisiones se llaman “decisiones estadísticas”.
TEOREMA DEL LÍMITE CENTRAL
El teorema del límite central, es un teorema fundamental de

probabilidad y estadística. El teorema describe la distribución de
la media de una muestra aleatoria que proviene de una población
con varianza finita. Cuando el tamaño de la muestra es lo
suficientemente grande, la distribución de las medias (𝜇) sigue
aproximadamente una distribución normal. El teorema se aplica
independientemente de la forma de la distribución de la
población.
El Teorema del Límite Central establece que la distribución de

muestreo de las medias del muestreo, se aproxima a una
distribución normal a medida que el tamaño de la muestra
aumenta, sin importar la forma de la distribución de la población.
Este hecho es especialmente cierto para los tamaños de muestra
superiores a 30. Todo lo que se dice es que a medida que toma
más muestras, su gráfica de la media (𝜇) de las muestras se verá
más como una distribución normal.
Esto es lo gráficamente dice el Teorema del Límite Central, la

siguiente imagen muestra uno de los tipos más simples de
prueba: lanzar un dado justo. Cuantas más veces mueva el dado,
es más probable que la forma de la distribución de la media (𝜇),
se parezca un gráfico de distribución normal.
Propiedades
 El teorema del límite central garantiza una distribución

aproximadamente normal cuando n es suficientemente
grande.
 Existen diferentes versiones del teorema, en función de las

condiciones utilizadas para asegurar la convergencia. Una
de las más simples establece que es suficiente que las
variables que se suman sean independientes, idénticamente
distribuidas, con valor esperado y varianza finitas.
 La aproximación entre las dos distribuciones en general, es

mayor en el centro de las mismas que en sus extremos o
colas, motivo por el cual se prefiere el nombre "teorema del
límite central.
 Este teorema, perteneciente a la teoría de la probabilidad,
encuentra su aplicación en muchos campos, entre ellos la
inferencia estadística o la teoría de renovación
Muchos procedimientos estadísticos requieren que los datos sean

aproximadamente con distribución normal. El teorema de límite
central le permite aplicar estos procedimientos a poblaciones que
no son necesariamente distribuciones normales. El tamaño que
debe tener la muestra depende de la forma de la distribución
original. Si la distribución de la población es simétrica, un tamaño
de muestra de 5 podría producir una aproximación adecuada. Si
la distribución de la población es considerablemente asimétrica,
es necesario un tamaño de muestra más grande.
Por ejemplo, la distribución de la media puede ser

aproximadamente normal si el tamaño de la muestra es mayor
que 50.
Muestras de una población uniforme

Una población que sigue una distribución uniforme es simétrica,
pero marcadamente no normal, como lo muestra el primer
histograma. Sin embargo, la distribución de las medias (𝜇) de
1000 muestras de tamaño 5 de esta población es
aproximadamente normal, debido al teorema del límite central,
como lo muestra el segundo histograma.
Este histograma de las medias de las muestras incluye una curva
normal superpuesta para ilustrar la característica de distribución
normal.
Muestras de una población exponencial
Una población que sigue una distribución exponencial es

asimétrica y con distribución no normal, como lo muestra el
primer histograma. Sin embargo, la distribución de medias (𝜇)
obtenidas a partir de 1000 muestras de tamaño 50, resulta para
esta población una aproximadamente normal, debido al teorema
del límite central como lo muestra el segundo histograma.
El histograma de las medias (𝜇)obtenidas a partir de las 1000

muestras, incluye una curva normal superpuesta para ilustrar
esta característica de distribución normal.
ESTIMACIÓN PUNTUAL
Supóngase que se desconoce un parámetro poblacional, tal como
una media poblacional 𝜇 o una proporción 𝑝 de una población,
que se desea estimar. Por ejemplo:
𝑝 = la proporción (desconocida) de estudiantes universitarios 18
a 24 años, que tengan un teléfono inteligente
μ = el número medio (desconocido) de días que les toma a los

pacientes de Alzheimer alcanzar ciertas características.
En cualquier caso, posiblemente no es posible encuestar a toda la

población. Es decir, no podemos encuestar a todos los estudiantes
universitarios entre las edades de 18 y 24. Tampoco podemos
encuestar a todos los pacientes con la enfermedad de Alzheimer.
Entonces, por supuesto, que se tomará una muestra aleatoria de
la población, y se usan los datos resultantes para estimar el valor
del parámetro de la población. También se busca que la
estimación sea "buena" de alguna manera.
Existen dos métodos, uno de ellos conocido como el de máxima

probabilidad y el método de momentos, utilizados para derivar
fórmulas para una “buena” estimación puntual de los parámetros
poblacionales.
MÉTODOS DE ESTIMACIÓN DE MÁXIMA PROBABILIDAD

(VEROSIMILITUD)
Planteamiento del problema

Suponga que se tiene una muestra de variables aleatoria 𝑋 , 𝑋 ,
𝑋 , … 𝑋 cuya distribución de probabilidad se supone depende
de algún parámetro desconocido 𝜃. Entonces el objetivo principal
aquí encontrar un estimador de puntual 𝑢(𝑋 , 𝑋 , 𝑋 , … 𝑋 ), tal
que 𝑢(𝑥 , 𝑥 , 𝑥 , … 𝑥 ) sea un "buen" punto de estimación de 𝜃,
donde 𝑥 , 𝑥 , 𝑥 , … 𝑥 son los valores observados de la muestra
aleatoria.
Por ejemplo, si planeamos tomar una muestra aleatoria 𝑋 , 𝑋 , 𝑋 ,

… 𝑋 , donde se supone que los 𝑋 tienen una distribución normal
con media 𝜇 y varianza 𝜎 , por lo tanto el objetivo será encontrar
una buena estimación de 𝜇, a partir de los datos 𝑥 , 𝑥 , 𝑥 , …
𝑥 que se obtuvo de la muestra aleatoria específica.
La idea básica
Parece razonable que una buena estimación del parámetro
desconocido 𝜃, podría ser el valor de 𝜃 que maximiza la
probabilidad, es decir, la probabilidad ... que se obtiene de los
datos observamos. Pero, ¿cómo implementaría el método en la
práctica? Bien, suponga que se tiene una muestra aleatoria 𝑋 , 𝑋 ,
𝑋 , … 𝑋 para la cual, la función de densidad de probabilidad de
cada 𝑋 es 𝑓(𝑥 ; 𝜃). Entonces, la función de probabilidad conjunta
de 𝑋 , 𝑋 , 𝑋 , … 𝑋 , al cual llamaremos 𝐿( 𝜃) es:
𝐿 ( 𝜃 ) = 𝑃 (𝑋 = 𝑥 , 𝑋 = 𝑥 , 𝑋 = 𝑥 , … 𝑋 = 𝑥 )
= 𝑓 (𝑥 ; 𝜃 ) ∗ 𝑓 (𝑥 ; 𝜃 ) ∗ 𝑓 (𝑥 ; 𝜃 ) ∗ … ∗ 𝑓 (𝑥 ; 𝜃 )
= 𝑓 (𝑥 ; 𝜃 )
Ahora la forma razonable de proceder es tratar la "función de

máxima probabilidad" 𝐿( 𝜃 ) como una función de 𝜃, y hallar el
valor de 𝜃 que lo maximice.
EJEMPLO
Supongamos que tenemos una muestra aleatoria 𝑋 , 𝑋 , 𝑋 , … 𝑋
donde:
𝑋 = 0 El estudiante seleccionado al azar que no posee un

automóvil deportivo
𝑋 = 1 El estudiante seleccionado al azar posee un auto
deportivo.
Suponiendo que las 𝑋 son variables aleatorias independientes

con distribución Bernoulli, y se el parámetro 𝑝 desconocido,
encuentre el estimador de máxima probabilidad de 𝑝, la
proporción de estudiantes que poseen un automóvil deportivo.
NOTA: una distribución de probabilidad discreta, que toma valor 1

para la probabilidad de éxito (𝑝) y valor 0 para la probabilidad de
fracaso 𝑞 = 1 − 𝑝
Solución
Si los 𝑋 son variables independientes de Bernoulli con el
parámetro desconocido p, entonces la función de densidad de
probabilidad de cada 𝑋 es
𝑓 (𝑥 ; 𝑝) = 𝑝 (1 − 𝑝)
Para 𝑥 = 0 o 1 y 0 < 𝑝 < 1, por lo tanto, la función de máxima
probabilidad 𝐿(𝑝) esta definida por
𝐿 ( 𝑝) = 𝑓 (𝑥 ; 𝑝 )
= 𝑝 (1 − 𝑝) ∗ 𝑝 (1 − 𝑝 ) ∗ … ∗ 𝑝 (1 − 𝑝)
Para 0 < 𝑝 < 1, y realizando la simplificación de los exponentes

se tiene
𝐿( 𝑝) = 𝑝∑ (1 − 𝑝) ∑
Ahora, con la idea de implementar el método de máxima

probabilidad, necesitamos encontrar la 𝑝 que maximice la
probabilidad 𝐿( 𝑝). Entonces para maximizar la función, es
necesario derivar la función máxima probabilidad 𝐿( 𝑝) con
respecto a 𝑝. Al hacerlo, se usará el "truco" que a menudo hace
que la diferenciación sea más fácil. Tomando en cuenta que el
logaritmo natural es una función creciente de 𝑥.
Es decir, si 𝑥 < 𝑥 , entonces 𝑓 (𝑥1 ) < 𝑓 (𝑥2 ). Esto significa que el

valor de 𝑝 que maximiza el logaritmo natural de la función de
máxima probabilidad ln(𝐿(𝑝)), también el valor 𝑝 es el que
maximiza la función de máxima probabilidad 𝐿(𝑝). Nuevamente
haciendo, el "truco" es tomar la derivada de ln(𝐿(𝑝)), (con
respecto a 𝑝) en lugar de tomar la derivada de 𝐿(𝑝). En esta
sección se usará ln(𝐿(𝑝)) o log(𝐿(𝑝)). para indicar el logaritmo
natural de la función de máxima probabilidad.
log 𝐿( 𝑝) = 𝑥 log(𝑝) + (𝑛 − 𝑥 )𝑙𝑜𝑔(1 − 𝑝)
Posteriormente se realiza la derivada del logaritmo de 𝐿( 𝑝) y se

iguala a cero, se obtiene:
𝜕 log 𝐿 ( 𝑝) (∑ 𝑥 ) (𝑛 − ∑ 𝑥 )
= − =0
𝜕𝑝 𝑝 (1 − 𝑝 )
Ahora, multiplicándolo por p (1-p), obtenemos:
(∑ 𝑥 ) (𝑛 − ∑ 𝑥 ) (∑ 𝑥 )(1 − 𝑝) − (𝑛 − ∑ 𝑥 )𝑝
− =0=
𝑝 (1 − 𝑝 )
Al distribuir, vemos que dos de los términos resultantes se
cancelan entre sí:
𝑥 − 𝑥 𝑝 − 𝑛𝑝 + 𝑥 𝑝=0
𝑥 − 𝑛𝑝 = 0
∑ 𝑥
𝑝=
𝑛
Eso todo lo que se tiene que hace para resolver 𝑝. Se agrega un
gorrito ("^") en el parámetro, en este caso a 𝑝, para indicar que
es una estimación
∑ 𝑥
𝑝^ =
𝑛
EJEMPLO
Supongamos que se hace un experimento de Bernoulli (por
ejemplo, en el control de calidad de 3 artículos para ver sin son
defectuosos) y encontramos dos éxitos y un fracaso. Queremos
estimar el parámetro p (probabilidad de éxito) de la distribución
binomial. Si consideramos X = 1 como éxito y X = 0 como fracaso,
la función de 𝐿( 𝑝) podrá calcularse como
𝐿( 𝑝) = 𝑓 (𝑥 ; 𝑝) ∗ 𝑓 (𝑥 ; 𝑝) ∗ 𝑓 (𝑥 ; 𝑝) ∗ … ∗ 𝑓 (𝑥 ; 𝑝)
𝐿( 𝑝) = 𝑃(𝑋 = 1; 𝑝) ∗ 𝑃(𝑋 = 1; 𝑝) ∗ 𝑃(𝑋 = 0; 𝑝) = 𝑝𝑝𝑞
= 𝑝 (1 − 𝑝) = 𝑝 − 𝑝
𝜕 𝐿( 𝑝)
= 2𝑝 − 3𝑝 = 0
𝜕𝑝
(2 − 3𝑝)𝑝 = 0
𝑝 = 2/3
cuyas soluciones son 𝑝 = 2/3 (no nos vale) y 𝑝 = 2/3. Así que p =
2/3 es la estimación de máxima
probabilidad de p y coincide, además, con lo que se esperaría de
forma natural como probabilidad de éxito (número de éxitos
dividido por el número de ensayos).
Ejemplo
Se tienen 5 papeletas, unas llevan marcada una cruz y otras un
asterisco. Se desconoce la proporción (p) de cruces (+) (esto es,
cuantas hay de cada clase). Se tomará una muestra de tamaño 3,
independientes e idénticamente distribuidas (es decir. cada vez
que se realiza una extracción, se devuelve la papeleta a la urna
(independientes) y se mezclan muy bien antes de la siguiente
extracción (idénticamente distribuidas). El resultado de las tres
extracciones sucesivas han sido (+,*,*)
El objetivo del método es determinar el valor de p (la proporción)

que haga máxima probabilidad de haber seleccionado esta
muestra.
Uso del logaritmo neperiano

Por razones prácticas, se suele trabajar con el logaritmo
neperiano de la función de máxima probabilidad. De esta forma
para encontrar el valor de 𝜃 que lo hace máximo se iguala la
siguiente derivada a cero
𝑑 ln 𝐿 1 𝑑𝐿
= =0
𝑑𝜃 𝐿 𝑑𝜃
y se resuelve esta ecuación para encontrar 𝜃. En el caso de que la
distribución de probabilidad tenga más de un parámetro
poblacional, se hacen las derivadas parciales respecto a cada
parámetro y se resuelve el sistema de ecuaciones.
Como ejemplo del método a continuación se derivan los

estimadores de la función de máxima probabilidad para las
principales distribuciones:
Supongamos que la población sigue una distribución binomial,
consistiendo la muestra en n ensayos en los que, en cada uno, se
obtiene un éxito, que representaremos por X = 1, o un fracaso, X
= 0. La función de probabilidad para un único ensayo vendría
dada por
1−𝑝 ; 𝑥=0
𝑓 (𝑥, 𝑝) = 𝑝 (1 − 𝑝) =
𝑝 ; 𝑥=1
donde 𝑝 es la probabilidad de éxito, parámetro desconocido a

determinar. Supongamos que en el experimento de n ensayos se
obtienen 𝑓 éxitos. Entonces, la función de máxima probabilidad, o
función de probabilidad conjunta, será
𝑛−𝑓
𝐿= 𝑓(𝑥 ; 𝑝) = 𝑝𝑓 (1 − 𝑝)
𝑙𝑛𝐿 = 𝑓 ln(𝑝) + (𝑛 − 𝑓) ln(1 − 𝑝)
Derivando con respecto al parámetro 𝑝
𝑑 ln 𝐿 𝑓 (𝑛 − 𝑓)
= − =0
𝑑𝑝 𝑝 ( 1 − 𝑝)
𝑓 ( 1 − 𝑝) = ( 𝑛 − 𝑓 ) 𝑝
𝑓 − 𝑓𝑝 = 𝑛𝑝 − 𝑓𝑝
𝑓
𝑝=
𝑛
Por lo tanto, el estimador de máxima probabilidad del parámetro
𝑝 es la frecuencia relativa de éxitos.
Supongamos ahora que se tiene una distribución normal con

parámetros 𝜇 y 𝜎, es decir 𝑁(𝜇, 𝜎) de la que se extrae una muestra
de tamaño 𝑛. La función de máxima probabilidad será en este caso
1 ( 𝜇)
𝐿= 𝑒 𝜎2
𝜎√2𝜋
(𝑥 − 𝜇)
𝑙𝑛𝐿 = −𝑙𝑛𝜎 − 𝑙𝑛√2𝜋 −
2𝜎 2
1/2 1
𝑙𝑛𝐿 = −𝑛𝑙𝑛 𝜎2 − 𝑛𝑙𝑛2𝜋1/2 − 2 (𝑥 − 𝜇)
2𝜎
𝑛 𝑛 1
𝑙𝑛𝐿 = − 𝑙𝑛𝜎2 − 𝑙𝑛2𝜋 − 2 (𝑥 − 𝜇)
2 2 2𝜎
A continuación, se hacen las derivadas parciales respecto a los
dos parámetros poblacionales para calcular sus estimadores
𝑑 ln 𝐿 2
= 2 (𝑥 − 𝜇) = 0
𝑑𝜇 2𝜎
𝑥 = 𝑛𝜇
∑𝑛𝑖=1 𝑥𝑖
𝜇=
𝑛
Por lo tanto, el estimador de función de máxima probabilidad
para μ coincide con la media muestra, es decir, con el estimador
puntual usado hasta ahora. Similarmente, para la varianza
𝑑 ln 𝐿 𝑛 1 1
= − + (𝑥 − 𝜇) = 0
𝑑 𝜎2 2 𝜎 2 2𝜎 4
1 𝑛 1
(𝑥 − 𝜇) =
2 𝜎4 2 𝜎2
Multiplicando por 2𝜎 en ambos lados de la ecuación se llega
∑ (𝑥 − 𝜇)
(𝑥 − 𝜇) = 𝑛𝜎2 , 𝑒𝑠𝑡𝑜 𝑒𝑠 𝜎2 =
𝑛
Ejemplo
Supongamos que los pesos de estudiantes universitarias
seleccionadas al azar se distribuyen normalmente con media
desconocida 𝜇 y desviación estándar 𝜎.
Una muestra aleatoria de 10 estudiantes universitarias
estadounidenses arrojó los siguientes pesos (en libras):
115 122 130 127 149 160 152 138 149 180
Con base en las definiciones dadas anteriormente, identifique la

función de verosimilitud y el estimador de función de máxima
probabilidad para el parámetro 𝜇, y 𝜎
115 + 122 + 130 + 127 + 149 + 160 + 152 + 138 + 149 + 180
𝜇=
10
= 142.2
𝜎
(115 − 142.2)2 + (122 − 142.2)2 + (130 − 142.2)2 + (127 − 142.2)2
=
10
+(149 − 142.2) + (160 − 142.2) + (152 − 142.2) + (138 − 142.2)
3479.6
(149 − 142.2) + (180 − 142.2) =
10
𝜎 = 347.96
𝜎 =18.6536
Supongamos ahora que se tiene una distribución de Poisson,

determinar el estimador de máxima probabilidad para el
parámetro 𝜆.
𝜆𝑥 𝑒 −𝜆
𝑓 (𝑥; 𝜆) =
𝑥!
𝜆 𝑒
𝐿=
𝑥!
𝑙𝑛𝐿 = (𝑥 𝑙𝑛𝜆 − 𝑙𝑛(𝑥 !) − 𝜆) = 𝑙𝑛𝜆 𝑥 − 𝑙𝑛(𝑥 !) − 𝑛𝜆
𝑑 ln 𝐿 1
= 𝑥 −𝑛 =0
𝑑𝜆 𝜆
1
𝑥 = 𝑛 𝑒𝑠𝑡𝑜 𝑒𝑠 𝑥 = 𝜆𝑛
𝜆
∑ 𝑥
𝜆=
𝑛
EJEMPLO
Una fuente radiactiva emite partículas según un proceso de
Poisson con media λ desconocida. Durante 10 minutos se han
contado el número de partículas emitidas:
12, 6, 11, 3, 8, 5, 3, 9, 7, 5
Determinar el estimador de máxima probabilidad para el

parámetro 𝜆.
12 + 6 + 11 + 3 + 8 + 5 + 3 + 9 + 7 + 5 69
𝜆= = = 6.9
10 10
ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Generalmente, una estimación puntual no proporciona un valor

exacto del parámetro poblacional que se desea encontrar. En la
mayoría de los casos, no se tiene información sobre la precisión
de tal estimación, esto es, un valor único no informa sobre la
probabilidad de que se encuentre cerca o lejos del valor
verdadero.
En la práctica, no solamente es necesario dar una estimación, sino

precisar la incertidumbre de dicha estimación. Esto se consigue
mediante la estimación por intervalos de confianza, donde se
calcula un intervalo, sobre el que pueda establecerse cierta
probabilidad, de que el parámetro poblacional desconocido esté
dentro.
De esta manera, en vez de calcular un estimador único, se

determinan dos estimadores conocidos como: límite inferior (𝐿 )
y límite superior (𝐿 ) (o límites de confianza) de un intervalo de
confianza 𝐼 = [𝐿 , 𝐿 ]. A esta pareja de valores se le llama
estimador por intervalo.
Estos límites de confianza son estadísticos que variarán de

muestra a otra muestra, de forma que podrá considerarse al
intervalo como una variable aleatoria bidimensional.
Efectivamente, los límites del intervalo están en función de los
valores que toma la variable aleatoria en el muestreo.
𝐿 = 𝑓 (𝑋 , 𝑋 , … , 𝑋 ); 𝐿 = 𝑓 (𝑋 , 𝑋 , … , 𝑋 );
Al valor que realmente toma el intervalo aleatorio en una muestra

en particular, se le llama estimación por intervalo. El estimador
por intervalo es una variable aleatoria, donde puede decirse que
existe una cierta probabilidad de que el intervalo aleatorio cubra
el verdadero valor del parámetro poblacional 𝛽. Es decir
𝑃(𝐿 < 𝛽 < 𝐿 ) = 1 − 𝛼
Donde, por definición a 1 − 𝛼 se le llama nivel de confianza y al

intervalo [𝐿 , 𝐿 ] se le denomina intervalo de confianza del
100(1 − 𝛼 )%.
El 100(1 − 𝛼 )% de los intervalos correspondientes a todas las

muestras posibles del mismo tamaño contienen a 𝛽 y el 100𝛼%
no lo contienen.
Evidentemente, al aumentar el tamaño de la muestra, también

aumenta la precisión del parámetro poblacional que se desea
conocer, y por lo tanto, para un nivel de confianza fijo, el intervalo
de confianza se vuelve más pequeño. Es decir, la longitud del
intervalo de confianza indica la precisión de la estimación.
Supongamos que para realizar la estimación por intervalos de

confianza de un parámetro poblacional se calcula un estadístico
B. Si este estadístico tiene una distribución muestral asociada, con
media 𝜇 y desviación típica 𝜎 .
Por ejemplo, si la distribución muestral de B es aproximadamente
normal (además, es una buena aproximación, si la muestra es lo
suficientemente grande). Entonces, si se usan las propiedades de
la curva normal, se pueden establecer las siguientes
probabilidades
𝑃(𝜇 − 𝜎 < B < 𝜇 + 𝜎 ) = 0.6827

𝑃(𝜇 − 2𝜎 < B < 𝜇 + 2𝜎 ) = 0.9544
𝑃(𝜇 − 3𝜎 < B < 𝜇 + 3𝜎 ) = 0.9973
𝑙𝑎 𝑑𝑒𝑠𝑖𝑔𝑢𝑎𝑙𝑑𝑎𝑑 𝑖𝑧𝑞 𝜇 − 𝜎 < B, es eqivalente a 𝜇 < B + 𝜎
𝑙𝑎 𝑑𝑒𝑠𝑖𝑔𝑢𝑎𝑙𝑑𝑎𝑑 𝑑𝑒𝑟𝑒𝑐ℎ𝑎 B < 𝜇 + 𝜎 es eqival a B − 𝜎 < 𝜇

Por lo tanto, se puede llegar a las siguientes probabilidades
𝑃(B − 𝜎 < 𝜇 < B + 𝜎 ) = 0.6827

𝑃(B − 2𝜎 < 𝜇 < B + 2𝜎 ) = 0.9544
𝑃(B − 3𝜎 < 𝜇 < B + 3𝜎 ) = 0.9973
Si el estadístico B no está sesgado, es decir si 𝜇 coincide con el

parámetro poblacional 𝛽 a determinar, las expresiones anteriores
proporcionan intervalos de confianza del 68.27 %, 95.44% y
99.73%, respectivamente para dicho parámetro poblacional.
Normalmente, se trabaja con niveles de confianza de 0.95 o 0.99.

Para conseguir estas probabilidades hay que buscar en la tabla de
la distribución normal, en las abscisas que dejan a su derecha un
área igual a (1 − 0.95)/2 = 0.05/2 = 0.025 y (1 − 0.99)/2 = 0.01/2
= 0.005, respectivamente. Estas son aproximadamente 𝑧 . =
1.96 y 𝑧 . = 2.58. (de las tablas, sabiendo que 0.025 y 0.005 son
valores de probabilidades). Por lo tanto, los intervalos de
confianza del 95% y 99% serán respectivamente
𝑃(B − 1.96𝜎 < 𝜇 < B + 1.96𝜎 ) = 0.95

𝑃(B − 2.58𝜎 < 𝜇 < B + 2.58𝜎 ) = 0.99
En general, para un nivel de confianza (1 − 𝛼 ) habrá que buscar

en las abscisas 𝑧 / de la distribución normal tipificada N(0, 1)
que dejan a su derecha un área igual a 𝛼/2, expresándose
entonces el intervalo de confianza del (1 − 𝛼 )100%. como
𝑃(B − 𝑧 / 𝜎 <𝜇 < B+ 𝑧 / 𝜎 ) = (1 − 𝛼)
La expresión anterior sumamente útil para calcular intervalos de

confianza para estadísticos que se obtienen de muestras con una
distribución normal. Lo único que debe hacerse es substituir B
por el estadístico correspondiente que esté sesgado, 𝜇 y 𝜎 por
la media y desviación típica de la distribución muestral.
En el caso de que la distribución muestral del estadístico no

corresponda a la distribución normal, entonces deben hacerse las
modificaciones correspondientes.
EJEMPLO
Consideremos una caja con tarjetas, cada una con un número.
Suponemos que la población tiene 𝜇 = 10 y 𝜎 = 4. Extraemos
muestras de tamaño 𝑛 = 9 (con reemplazamiento):
Primera muestra: 4, 13, 8, 12, 8, 15, 14, 7, 8. Media 𝑋 = 9.9
Segunda muestra: 17, 14, 2, 12, 12, 6, 5, 11, 5. Media 𝑋 = 9.3
Tras una serie de 10 muestras obtenemos 𝑋 =9.9, 9.3, 9.9, 10.9,

9.6, 9.2, 10.2, 11.5, 9.0 y 11.8.
Comprobamos que el valor medio de 𝑋 es 10.13, y su desviación

típica 𝜎 =0.97.
Aplicando las fórmulas se obtiene 𝜎 = = = 1.3333

√ √
Ahora se desea calcular el intervalo de confianza para la media

(𝜎 = 4 es conocida) de las dos primeras muestras (usar nivel de
confianza 0.95).
• Muestra i): 4, 13, 8, 12, 8, 15, 14, 7, 8 ⇒ 𝑋 =9.9
Entonces el intervalo de 1 − 𝛼 = 0.95, o bien 𝛼 = 0.05.025 y

𝑧 / =𝑧 . = 1.96 (obtenido de las tablas)
4
𝐼 = 𝑋±𝑧 / 𝜎 = 9.9 ± 1.96 = 9.9 ± 2.6133
√9
𝐼 = (7.2867,12.513)
• Muestra ii): 17, 14, 2, 12, 12, 6, 5, 11, 5. ⇒ 𝑋 =9.3
4
𝐼 = 𝑋±𝑧 / 𝜎 = 9.3 ± 1.96 = 9.3 ± 2.6133
√9
𝐼 = (6.6867,11.9133)
De cada 100 muestras, en el 95% de ellas el intervalo de confianza

así calculado incluirá al valor real.
Ejemplo.
Una muestra aleatoria de 200 alumnos de la ESIME-ZAC tiene un
puntaje de Coeficiente Intelectual (CI) medio de 112 y una
desviación típica de 10.
(a) Obtener un intervalo de confianza 0.95 de estimación del

puntaje medio de CI de los alumnos de la ESIME-ZAC.
(b) Obtener un intervalo de confianza 0.99 de estimación del
puntaje medio de CI de los alumnos de la ESIME-ZAC.
Solución
a)
10
𝐼 = 112 ± 1.96 = [112 ± 1.38]
√200
El Intervalo de Confianza
𝐼 = ( 110.62,113.38)
(b)
10
𝐼 = 112 ± 2.58 = [112 ± 1.82]
√200
El Intervalo de Confianza
𝐼 = ( 110.18,113.82)
INTERVALO DE CONFIANZA PARA T DE STUDENT CON 𝒏

GRADOS
Cuando las muestras son pequeñas, la varianza muestral puede

variar considerablemente de una muestra a otra muestra. En
estos casos, el intervalo confianza se puede construir recordando
que la variable sigue una distribución t de Student con 𝑛 − 1
grados de libertad
𝑋−𝜇
𝑇 = ±1.96
𝑆/√𝑛
Por ejemplo, si B tiene una distribución t de Student con 𝑛 grados

de libertad, el intervalo de confianza está dado por
𝑃(B − 𝑡 / , 𝜎 <𝜇 < B+ 𝑡 / , 𝜎 ) = (1 − 𝛼)
Donde 𝑡 / , representa el valor de la abscisa de la distribución 𝑡

con 𝑛 grados de libertad, que deja a su derecha un área igual a
𝛼/2.
EJEMPLO
Calcular los intervalos de confianza para la media del ejemplo
anterior, suponiendo que la varianza es desconocida.
• Muestra i): 4, 13, 8, 12, 8, 15, 14, 7, 8 ⇒ 𝑋 =9.9,

𝑆= ((4 − 9.9) + (4 − 9.9) + ⋯ + (8 − 9.9) /8 = 3.7231
𝛼 = 0.05 ⇒ 𝑡 . , = 2.306 (𝑡𝑎𝑏𝑙𝑎, 𝑟𝑒𝑛𝑔𝑙𝑜𝑛 8, 𝑐𝑜𝑙𝑢𝑚 0.025)
𝑆 3.72
𝐼= 𝑋± 𝑡 / , = 9.9 ± 2.306 = [9.9 ± 2.859]
√𝑛 √9
𝐼 = (7.041,12.759)
El resultado que se obtiene es un intervalo mayor que en el

ejemplo anterior, lo cual es lógico porque se ha introducido una
nueva fuente de incertidumbre, se estimó la varianza (porque no
se conoce previamente).
• Muestra ii): 17, 14, 2, 12, 12, 6, 5, 11, 5. ⇒ 𝑋 =9.3
𝑆= ((17 − 9.3) + (14 − 9.3) + ⋯ + (11, 5 − 9.3) /8 = 5
𝑆 5
𝐼= 𝑋± 𝑡 / , = 9.3 ± 2.306 = [9.3 ± 3.8433]
√𝑛 √9
𝐼 = (5.45,13.14)
También es un intervalo mayor que el caso i)

INTERVALO DE CONFIANZA PARA DISTRIBUCION BINAMIAL
Supongamos que la población sigue una distribución binomial
con parámetro desconocido 𝑝. Ya se ha visto como la proporción
de éxitos 𝑃 (número de éxitos dividido por el número de ensayos)
constituye un buen estimador de 𝑝. Además, la distribución
muestral del estadístico 𝑃 puede aproximarse a la distribución
normal cuando la muestra (o número de ensayos) es grande. En
se demostró que la media y varianza de la distribución muestral
de una proporción son respectivamente 𝜇 = 𝑝 = p y 𝜎 =
𝑝(1 − 𝑝)/𝑛 Entonces, aproximando la distribución por una
normal, el estadístico es P, se obtiene
𝑃(1 − 𝑃) 𝑃(1 − 𝑃)
𝑃(𝑃 − 𝑧 <𝑝< 𝑃+ 𝑧 / ) = (1 − 𝛼)
𝑛 𝑛
𝑃(1 − 𝑃)
𝐼= 𝑃± 𝑧
𝑛
EJEMPLO
Un jugador de baloncesto lanza 100 tiros libres y anota 85.
Calcular el intervalo de confianza para la proporción de aciertos.
Como 𝑛 = 100 es claramente mayor que 30, podemos aproximar
por la distribución normal. La proporción de éxitos será entonces
𝑃= = 0.85 Usando un nivel de confianza 1 − 𝛼 = 0.95
0.85 ∗ 0.15
𝐼 = 0.85 ± 1.96 = [0.85 ± 0.0699]
100
Lo que conduce a un intervalo
𝐼 = (0.78,0.92)
DECISIONES ESTADÍSTICAS
En la práctica, es común que se tomen decisiones acerca de una

población con base en información muestral. A tales decisiones se
les llama decisiones estadísticas. Por ejemplo, tal vez se tenga que
decidir, con base en datos muestrales, si un determinado suero
es realmente eficaz en la curación de una enfermedad, si un
método educativo es mejor que otro, o bien si una moneda está
cargada o no.
HIPÓTESIS ESTADÍSTICAS
Cuando se trata de tomar una decisión, es útil hacer suposiciones
(o conjeturas) acerca de la población de estudio. A estas
suposiciones, que pueden ser ciertas o no, se les llama hipótesis
estadísticas. Estas hipótesis estadísticas son por lo general
afirmaciones acerca de las distribuciones de probabilidad de las
poblaciones.
Hipótesis nula
En muchas ocasiones se formula una hipótesis estadística con la
única finalidad de refutarla (rechazar la validez) o anularla. Por
ejemplo, cuando se quiere decidir si una moneda está cargada o
no, se formula “la hipótesis de que no está cargada” (es decir, 𝑝 =
0.5, donde p es la probabilidad de cara). También, si se quiere
decidir si un método es mejor que otro, se formula “la hipótesis
de que no hay diferencia entre los dos” (es decir, que cualquier
diferencia que se observe se debe sólo a las fluctuaciones del
muestreo de una misma población). A estas hipótesis se les llama
hipótesis nula y se denota 𝐻
Hipótesis alternativa
A toda hipótesis que difiera de una hipótesis dada se le llama
hipótesis alternativa. Por ejemplo, si en una hipótesis es 𝑝 = 0.5,
entonces la hipótesis alternativa puede ser 𝑝 = 0.7, 𝑝 ≠ 0.7 o 𝑝 >
0.7. La hipótesis alternativa a la hipótesis nula se denota 𝐻 .
PRUEBAS DE HIPÓTESIS Y DE SIGNIFICANCIA O REGLAS DE
DECISIÓN
Suponga que una hipótesis es verdadera, pero los resultados
observados en una muestra aleatoria difieren consideradamente
de lo esperado, de acuerdo con la hipótesis (aquellos que se
esperan con base sólo en la casualidad, empleando la teoría del
muestreo), entonces se dice que las diferencias observadas son
significativas y se estará inclinado a rechazar la hipótesis (o por
lo menos a no aceptarla de acuerdo con la evidencia obtenida).
Por ejemplo, si en 20 lanzamientos de una moneda se obtienen 16

caras, se estará inclinado a rechazar que la moneda es buena, aun
cuando puede estarse equivocando.
A los procedimientos que permiten determinar si las muestras

observadas difieren significativamente de los resultados
esperados, y que ayudan a decidir si se acepta o se rechaza la
hipótesis, se les llama pruebas de hipótesis, pruebas de
significancia (nivel de significación) o reglas de decisión.
ERRORES TIPO I Y TIPO II

Si se rechaza una hipótesis que debería aceptarse se dice que se
comete un error tipo I. Si, por otro lado, se acepta una hipótesis
que debería rechazarse, se comete un error tipo II. En cualquiera
de los casos se ha tomado una decisión errónea o se ha hecho un
juicio erróneo.
Para que una regla de decisión (o pruebas de hipótesis) sea

correcta, debe diseñarse de manera tal que se minimicen los
errores de decisión. Esto no es sencillo, ya que, para cualquier
tamaño de muestra cuando se trata de disminuir un tipo de error,
suele incrementarse el otro tipo de error.
En la práctica, un tipo de error puede ser más importante que otro
y habrá que sacrificar a uno de ellos con objeto de limitar al más
notable. La única manera de reducir los dos tipos de error es
aumentando el tamaño de la muestra, lo que no siempre es
posible.
NIVEL DE SIGNIFICANCIA
Cuando se prueba una determinada hipótesis, a la probabilidad
máxima con la que se está dispuesto a cometer un error tipo I se
le llama nivel de significancia de la prueba. Esta probabilidad
acostumbra denotarse 𝛼, y por lo general se especifica antes de
tomar cualquier muestra para evitar que los resultados obtenidos
influyan sobre la elección del valor de esta probabilidad.
En la práctica, se acostumbra especificar los niveles de

significancia 0.05 o 0.01, aunque también pueden usarse otros
valores. Por ejemplo, al diseñarse una regla de decisión se elige el
nivel de significancia 0.05 (o bien 5%), esto indica que existen 5
posibilidades en 100 de que se rechace la hipótesis que debía ser
aceptada; es decir, se tiene una confianza de aproximadamente
95% de que se ha tomado la decisión correcta. En tal caso se dice
que la hipótesis ha sido rechazada al nivel de significancia 0.05, lo
que significa que la hipótesis tiene una probabilidad de 0.05 de
ser errónea.
PRUEBAS EMPLEANDO DISTRIBUCIONES NORMALES

Para ilustrar las ideas presentadas previamente, supóngase que,
de acuerdo con determinada hipótesis, la distribución muestral
de un estadístico 𝑆 es una distribución normal con media 𝜇 y
desviación estándar 𝜎 . Por lo tanto, la distribución de la variable
estandarizada (o puntuación 𝑧), que está dada por 𝑧 = (𝑆 −
𝜇 )/𝜎 , es la distribución normal estándar (media 0, varianza 1),
que se muestra en la figura.
Como indica la figura, se puede tener una confianza del 95% de
qué, la hipótesis es verdadera, entonces la Puntuación 𝑧 del
estadístico muestral real 𝑆 estará entre −1.96 𝑦 1.96 (ya que es el
área bajo la curva normal entre estos dos valores es 0.95).
Si se toma una sola muestra aleatoria y se encuentra que la

puntuación 𝑧 del estadístico se encuentra fuera del rango
−1.96 𝑦 1.96, entonces se concluye que, la hipótesis dada es
verdadera, y esto sólo puede ocurrir con una probabilidad de 0.05
(es área total sombreada de la figura). En tal caso, se dice que la
puntuación 𝑧 difiere en forma significativa de lo esperado de
acuerdo con la hipótesis dada y se estará inclinado a rechazar esa
hipótesis.
El 0.05, es el total de área sombreada, y es el nivel de significancia

de la prueba. Esta cantidad representa la probabilidad de estar
equivocado al rechazar la hipótesis (es decir, la probabilidad de
cometer un error tipo I). Por lo tanto, se dice que la hipótesis se
rechaza al nivel de significancia 0.05 o que la puntuación 𝑧 del
estadístico muestral dado, es significante al nivel 0.05.
El conjunto de puntuaciones z que queda fuera del intervalo −1.96
a 1.96, constituye lo que se llama región crítica de la hipótesis,
región de rechazo de la hipótesis o región de significancia. Al
conjunto de puntuaciones z que queda dentro del intervalo −1.96
a 1.96 se le llama región de aceptación de la hipótesis o región de
no significancia. De acuerdo con las observaciones anteriores, se
puede formular la siguiente regla de decisión (o prueba de
hipótesis o de significancia):
Rechazar la hipótesis, al nivel de significancia de 0.05, si la

puntuación z del estadístico S se encuentra fuera del rango −1.96
a 1.96 (es decir, si z > 1.96 o z < −1.96). Esto equivale a decir que
el estadístico muestral observado es significante al nivel 0.05. Si
no es así, se acepta la hipótesis (o, si se desea, no se toma ninguna
decisión).
Debido a que la puntuación z es tan importante en las pruebas de

hipótesis, también se le conoce como el estadístico de prueba. Hay
que hacer notar que también pueden emplearse otros niveles de
significancia. Por ejemplo, si se emplea el nivel 0.01, el 1.96,
empleado antes se sustituirá por 2.58 (ver la tabla 10.1).
3. AJUSTE DE CURVAS
En la práctica se encuentra a menudo que existen relaciones entre
dos o más variables, por ejemplo, los pesos de las personas
dependen en cierta medida de sus estaturas. Generalmente estas
relaciones se expresan en forma matemática mediante una
ecuación que conecte a las variables. Para hallar una ecuación que
relaciones las variables, el primer paso es recolectar datos que
muestren valores correspondientes a las variables bajo estudio.
Por ejemplo, supongamos que 𝑥 e 𝑦 representan respectivamente

la estatura y el peso de personas adultas, entonces la muestra de
"𝑁" individuos revela las estaturas 𝑥 , 𝑥 , 𝑥 , … . . , 𝑥 , y los pesos
correspondientes son 𝑦 , 𝑦 , 𝑦 , … . . , 𝑦 .
El siguiente paso es marcar los puntos (𝑥 , 𝑦 ), (𝑥 , 𝑦 ), (𝑥 , 𝑦 ),

… , (𝑥 , 𝑦 ) sobre un sistema de coordenadas rectangulares; el
conjunto de puntos que resulta se le llama “diagrama de
dispersión”.
A partir del diagrama de dispersión es posible visualizar una

curva suave que se aproxime a los datos.
A tal curva, se llama curva de aproximación, los datos pueden

aproximarse en una línea recta, y dice que hay una relación lineal
entre las variables. En otros casos, aunque exista una relación
lineal entre variables, no es lineal, y se dice que es una relación no
lineal.
Regresión lineal simple
En el estudio de las variables estadísticas bidimensionales se

aborda el análisis de la existencia de relaciones o dependencias
entre las dos variables x e y que forman la variable bidimensional.
Básicamente, la relación entre las dos variables podrá ser de dos
tipos: funcional, cuando exista una relación matemática exacta
que ligue ambas variables (ejemplo, el radio y el área de un
círculo), o de manera aleatoria, cuando no exista entre las
variables una relación exacta, pero es posible observar (aunque
no siempre es el caso) una cierta tendencia entre el
comportamiento de ambas (ejemplo el peso y la altura de un
individuo).
El primer paso para el estudio de la relación entre las variables

consiste en la construcción y observación de un diagrama de
dispersión.
El problema de la regresión se concreta entonces en ajustar una

función a la nube de puntos, representada en dicho diagrama.
Esta función permite obtener al menos de forma aproximada, una
estimación del valor de una de las variables a partir del valor que
tome la otra.
Cuando la función sea del tipo 𝑦 = 𝑓(𝑥), se puede decir que es la

regresión de y sobre x (a partir de los valores de x se pueden
estimar los de y). Por el contrario, la regresión de x sobre y se
basará en una función del tipo 𝑥 = 𝑓(𝑦).
Se conoce como línea de regresión a la representación gráfica de

la función que se ajusta a la nube de puntos del diagrama de
dispersión. Un primer problema para el estudio de la regresión es
la elección del tipo de línea de regresión. Efectivamente, ésta
podrá adoptar diferentes formas funcionales, y el tipo de línea se
elegirá a partir de la forma de la nube de puntos.
Cuando dicha nube se distribuya aproximadamente a lo largo de

una línea recta, entonces se ajusta una recta de regresión. Este es
el caso particular de la regresión lineal. En este caso importante,
la regresión de y sobre x vendrá dada entonces por 𝑦 = 𝑎 + 𝑏𝑥
Donde 𝑎 y 𝑏 son dos parámetros a determinar. Gráficamente 𝑎
será la ordenada de la recta en el origen (es decir, el valor de 𝑦
para 𝑥 = 0) y 𝑏 es la pendiente de esta.
Por simplicidad, se abordará la regresión lineal, la línea de

regresión puede responder a otras formas funcionales como, por
ejemplo, es el caso de la regresión parabólica (𝑦 = 𝑎 + 𝑏𝑥 + 𝑐𝑥 )
y la regresión exponencial (𝑦 = 𝑎𝑏 ).
Ajuste de una recta de regresión

Dentro del estudio de la regresión lineal se analiza cómo se
pueden determinar los parámetros 𝑎 y 𝑏 de la recta de regresión,
es decir, en el caso de la regresión de 𝑦 sobre 𝑥 (el caso contrario
es similar). Como ya se ha indicado dicha recta de regresión
permitirá obtener valores aproximados de 𝑦 conocidos los de 𝑥.
Para calcular la recta que mejor se ajusta a la nube de puntos se
usa el método de mínimos cuadrados. A continuación, se muestra
en qué consiste.
Considere una muestra de tamaño 𝑛 donde la variable estadística

bidimensional toma los valores
(𝑥 , 𝑦 ), (𝑥 , 𝑦 ),. . . , (𝑥 , 𝑦 )
A cada valor 𝑥 de la variable 𝑥 le corresponde entonces un valor

𝑦 de la variable 𝑦, pudiendo además asociársela un valor 𝑦 ∗ , que
sería el que se obtenga por la ecuación de recta que se quiere
estimar. Es decir
𝑦 ∗ = 𝑎 + 𝑏𝑥
Llamemos 𝑑 a la diferencia entre los dos valores; la observada y

la estimada por la recta, de la variable 𝑦 en cada punto, ver figura
𝑑 = 𝑦∗ − 𝑦
Para que la estimación de la ecuación de la recta sea la que mejor

se ajuste a la nube de puntos de entre todas las rectas posibles,
dichas distancias 𝑑 deberán ser lo más pequeñas posible. Es
decir, hay que minimizar los 𝑑 . Para ello es conveniente tomar
los cuadrados de las distancias, para que así no se anulen
desviaciones positivas y negativas
De esta forma, el problema se reduce a minimizar la expresión
𝑀= |𝑑 | = |𝑦 ∗ − 𝑦 |
o, utilizando la expresión para 𝑦 ∗
𝑀= |𝑎 + 𝑏𝑥 − 𝑦 |
Para encontrar los valores de a y b que hacen mínima esa

expresión, se deriva 𝑀 respecto a esos dos parámetros y se
igualan la derivada a cero (a partir de aquí se simplifica la
notación de los sumatorios y no se indica que el índice va
desde 𝑖 = 1 ℎ𝑎𝑠𝑡𝑎 𝑛)
⎧ 𝜕𝑀 = 2(𝑎 + 𝑏𝑥 − 𝑦 )(1) = 0
⎪ 𝜕𝑎
⎨𝜕𝑀
⎪ = 2(𝑎 + 𝑏𝑥 − 𝑦 )(𝑥 ) = 0
⎩ 𝜕𝑏
Desarrollando los sumatorios y recordando que ∑ 𝑎n

Entonces
⎧ (𝑎 + 𝑏𝑥 − 𝑦 ) = 0 ⎧ 𝑎𝑛 + 𝑏 𝑥 = 𝑦
⎪ ⎪
⇒
⎨ ⎨
⎪ (𝑎𝑥 + 𝑏𝑥 −𝑦 𝑥 )=0 ⎪𝑎 𝑥 +𝑏 𝑥 = 𝑥𝑦
⎩ ⎩
Este sistema de ecuaciones, es conocida como ecuaciones

normales, se puede resolver por el método de Cramer, calculando
en primer lugar el determinante ∆.
⎡ 𝑛 𝑥 ⎤
⎢ ⎥
∆= ⎢ ⎥=𝑛 𝑥 − 𝑥
⎢ ⎥
⎢ 𝑥 𝑥 ⎥
⎣ ⎦
y cada uno de los parámetros por

⎡ 𝑦 𝑥 ⎤
1⎢ ⎥
𝑎= ⎢ ⎥
∆⎢ ⎥
⎢ 𝑥𝑦 𝑥 ⎥
⎣ ⎦
∑ 𝑦 ∗∑ 𝑥 −∑ 𝑥 𝑦 ∗∑ 𝑥
=
𝑛∑ 𝑥 − ∑ 𝑥
⎡ 𝑛 𝑦 ⎤
1⎢ ⎥ 𝑛∗∑ 𝑥 𝑦 −∑ 𝑥 ∗∑ 𝑦
𝑏= ⎢ ⎥=
∆⎢ ⎥ 𝑛∑ 𝑥 − ∑ 𝑥
⎢ 𝑥 𝑥𝑦⎥
⎣ ⎦
Estas expresiones para los parámetros de la recta se pueden

simplificar, introduciendo las definiciones de media
∑ 𝑥 ∑ 𝑦
𝑥= 𝑦𝑦=
𝑛 𝑛
Dividiendo por 𝑛 en el numerador y denominador de la

expresión para 𝑏, ésta queda como
1
∑ 𝑥 𝑦 − 𝑥𝑦
𝑏= 𝑛
1
∑ 𝑥 −𝑥
𝑛
Y para 𝑎 ésta queda como

1 1
𝑦∗ ∑ 𝑥 − ∑ 𝑥 𝑦 ∗𝑥
𝑎= 𝑛 𝑛
1
∑ 𝑥 −𝑥
𝑛
Por otra parte, dividiendo por 𝑛 en la primera expresión de
𝑦 = 𝑎 + 𝑏𝑥
Es decir, una vez calculado 𝑏, 𝑎 se puede calcular de forma

inmediata por
𝑎 = 𝑦 − 𝑏𝑥
Esta expresión es interesante, ya que indica que la recta de

regresión debe pasar por (x, y), es decir, por el centro de la nube
de puntos.
El desarrollo anterior puede generalizarse para calcular

expresiones similares para la regresión parabólica y, en general,
polinómica (𝑦 = 𝑎 + 𝑎 𝑥 + 𝑎 𝑥 + 𝑎 𝑥 + ⋯ . +𝑎 𝑥 ).
En el caso de la regresión exponencial el problema de la regresión

se puede simplificar a la regresión lineal, tomando logaritmos
𝑦 = 𝑎𝑏 ⇒ log(𝑦) = log(𝑎) + 𝑥 ∗ 𝑙𝑜𝑔(𝑏)
Ejemplo
Construir una recta que aproxime los datos y hallar su ecuación:
x 3 4 6 6 8 9
y 2 4 8 10 14 16
Corresponde a las coordenadas (3, 2), (4,4), (6,8), (8, 14), (9, 16),
Una forma aproximada y rápida, es tomar los datos extremos y
presentar dos ecuaciones, para calcular las incógnitas a y b
2 = a + b3
16 = a + b9
De donde se obtiene que 𝑎 = −5 y 𝑏 = 2.3333, así la ecuación de

la recta es
𝑦 = −5 + 2.3333x
𝑥 3 4 6 6 8 9 ∑ 𝑥
𝑥= =6
𝑛
𝑦 2 4 8 10 14 16 ∑ 𝑦
𝑦= =9
𝑛
Cuando se utiliza el método de mínimos cuadrados

𝑥 9 16 36 36 64 81 1
𝑥 = 40.333
𝑛
𝑥𝑦 6 16 48 60 112 144 1
𝑥 𝑦 = 64.333
𝑛
1
∑ 𝑥 𝑦 − 𝑥𝑦 64.3333 − 6 ∗ 9 10.3333
𝑏= 𝑛 = = = 2.3846
1 40.3333 − 36 4.3333
∑ 𝑥 −𝑥
𝑛
1 1
𝑦∗ ∑ 𝑥 − ∑ 𝑥 𝑦 ∗𝑥
𝑎= 𝑛 𝑛
1
∑ 𝑥 −𝑥
𝑛
9 ∗ 40.3333 − 64.3333 ∗ 6 −23.0001
= = = −5.3077
40.3333 − 36 4.3333
O bien 𝑎 = 𝑦 − 𝑏𝑥
𝑎 = 9 − 2.3846 ∗ 6 = −5.3076
Entonces la expresión de la line recta queda como
𝑦 = −5.3077 + 2.3846𝑥
Si un conjunto de pares de datos, al ser graficados no muestra un

agrupamiento en torno a una línea recta sino en torno a una
curva, como primera aproximación se puede hacer un "ajuste" a
la parábola, lo cual en términos sencillos significa intentar llevar
a cabo el ajuste de los datos a un polinomio cuadrático como el
siguiente:
𝑦 =𝑎 +𝑎 𝑥+𝑎 𝑥
Se tiene un ligero cambio de notación en los parámetros del

polinomio, en preparación para la eventual generalización hacia
un "ajuste" de mínimos cuadrados con la curva correspondiente
a un polinomio de grado 𝑝.
Procediendo exactamente de la misma manera como se hizo con

la recta de mínimos cuadrados, se postula la diferencia entre cada
valor real de 𝑦 = 𝑦 , 𝑦 , 𝑦 , . . , 𝑦 y cada valor calculado para su
correspondiente 𝑥 usando la ecuación cuadrática de mínimos
cuadrados, lo cual da una "distancia" vertical 𝐷 que aleja a ambos
valores:
𝐷 =𝑎 +𝑎 𝑥 +𝑎 𝑥 −𝑦
De igual manera que se hizo para buscar la ecuación de la recta

por mínimos cuadrados, también aquí se extiende el criterio de
buscar el polinomio cuadrático, tal que la suma de los cuadrados
de las distancias verticales de cada uno de los puntos "reales" a
los puntos calculados de acuerdo a dicho polinomio sea un
mínimo. En pocas palabras, queremos minimizar la función:
𝑆 = [𝑎 + 𝑎 𝑥 + 𝑎 𝑥 − 𝑦 ] + [𝑎 + 𝑎 𝑥 + 𝑎 𝑥 −𝑦 ]
+ [𝑎 + 𝑎 𝑥 + 𝑎 𝑥 − 𝑦 ] …
+ [𝑎 + 𝑎 𝑥 + 𝑎 𝑥 − 𝑦 ]
Puesto que ahora se tienen tres parámetros en lugar de dos, es

necesario llevar a cabo tres diferenciaciones parciales, las cuales
conducen eventualmente al siguiente sistema de ecuaciones:
𝑎 𝑛+𝑎 𝑥 +𝑎 𝑥 = 𝑦
𝑎 𝑥 +𝑎 𝑥 +𝑎 𝑥 = 𝑥𝑦
𝑎 𝑥 +𝑎 𝑥 +𝑎 𝑥 = 𝑥 𝑦
Este conjunto de ecuaciones es conocido como las ecuaciones

normales para la parábola de mínimos cuadrados. Nuevamente,
se tiene un sistema de ecuaciones simultáneas, con tres
incógnitas, los parámetros son 𝑎 , 𝑎 , 𝑦 𝑎 que definirán la curva
de los mínimos cuadrados para un conjunto de datos dados, que
parece tener un crecimiento exponencial de segundo grado.
PROBLEMA: Ajustar, según convenga, a una recta o a una

parábola de mínimos cuadrados, los datos dados están la
siguiente tabla:
𝑥 0 1 2 3 4 5 6
𝑦 2.4 2.1 3.2 5.6 9.3 14.6 21.9
El primer paso obligado antes de tratar de ajustar una serie de

datos a una fórmula, es poner los datos sobre una gráfica para
intentar descubrir la tendencia que los datos muestren. En este
caso, la gráfica resulta ser:
Aunque a primera vista nuestro primer impulso sea el tratar de
llevar a cabo un ajuste utilizando una recta de mínimos
cuadrados, el punto que aparece en la gráfica para X0=0 si
realmente representa no una equivocación en la toma de una
lectura sino un dato genuinamente válido nos debe llevar a
pensar en la posibilidad de que los datos en vez de estar
modelados por una línea recta tal vez estén modelados por una
curva. Y la curva más sencilla de todas es la proporcionada por un
polinomio de segundo grado, un polinomio cuadrático. Utilizando
las ecuaciones normales derivadas arriba, la parábola de mínimos
cuadrados resulta ser:
𝑎 𝑛+𝑎 𝑥 +𝑎 𝑥 = 𝑦
𝑎 𝑥 +𝑎 𝑥 +𝑎 𝑥 = 𝑥𝑦
𝑎 𝑥 +𝑎 𝑥 +𝑎 𝑥 = 𝑥 𝑦
𝑥 0 1 2 3 4 5 6 𝑥 = 21
𝑦 2.4 2.1 3.2 5.6 9.3 14.6 21.9 𝑦 = 59.1
𝑥 ^2 0 1 4 9 16 25 36 𝑥 ^2 = 91
𝑥 ^3 0 1 8 27 64 125 216 𝑥 ^3 = 441
𝑥 ^4 0 1 16 81 256 625 1296 𝑥 ^3 = 2275
𝑥 *𝑦 0 2.1 6.4 16.8 37.2 73 131.4 𝑥 ∗ 𝑦 = 266.9
𝑥 ^2*𝑦 0 2.1 12.8 50.4 148.8 365 788.4 𝑥 ∗ 𝑦 = 1367.5
SOLUCIÓN
7 21 91 𝑎 59.1
21 91 441 𝑎 = 266.9
91 441 2275 𝑎 1367.5
𝑎 7 21 91 59.1 2.50952
𝑎 = 21 91 441 266.9 = −1.2000
𝑎 91 441 2275 1367.5 0.73333
Por lo tanto, la ecuación del polinomio de segundo orden
𝑦 = 2.50952 − 1.20000𝑥 + 0.73333𝑥
El graficado de esta curva, sobrepuesta sobre los datos

experimentales, presenta el siguiente aspecto:
Puede observarse que el ajuste de los datos a una fórmula
cuadrática es bastante bueno. Y no sólo eso, sino que permite
detectar la presencia de lo que parece ser un mínimo. Este
mínimo muy bien podría ser un punto óptimo para minimizar las
pérdidas en un proceso industrial, obtener el mayor grado de
pureza en un proceso químico, o lograr la mejor calidad en una
aleación.
Se utilizaron los siete pares de datos experimentales para llevar a

cabo el modelaje sin necesidad de tener que recurrir a un
polinomio de grado seis si hubiéramos insistido en un ajuste
exacto de los datos.
De una serie de puntos discretos, tras llevar a cabo el ajuste de los

datos a una fórmula, estamos anticipando la existencia de un
mínimo, y no solo ello, sino que estamos anticipando la zona en la
cual está localizada dicho punto mínimo. Este es precisamente
uno de los objetivos en ajustar una serie de datos a una fórmula,
el poder utilizar dicha fórmula para intentar hacer predicciones
dentro de los rangos estudiados, o inclusive extrapolar la fórmula
fuera de los rangos estudiados.

Apuntes Cap 5

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes Cap 5

Cargado por

Copyright:

Formatos disponibles

UNIDAD V

Evidentemente, la forma más directa de cumplir dicho objetivo

La inferencia estadística se ocupa de estudiar los métodos

Un problema importante de la inferencia estadística es la

El método de elección de una muestra es un factor importante

TEOREMA DEL LÍMITE CENTRAL

El teorema del límite central, es un teorema fundamental de

El Teorema del Límite Central establece que la distribución de

Esto es lo gráficamente dice el Teorema del Límite Central, la

 El teorema del límite central garantiza una distribución

 Existen diferentes versiones del teorema, en función de las

 La aproximación entre las dos distribuciones en general, es

Muchos procedimientos estadísticos requieren que los datos sean

Por ejemplo, la distribución de la media puede ser

Muestras de una población uniforme

Muestras de una población exponencial

Una población que sigue una distribución exponencial es

El histograma de las medias (𝜇)obtenidas a partir de las 1000

μ = el número medio (desconocido) de días que les toma a los

En cualquier caso, posiblemente no es posible encuestar a toda la

Existen dos métodos, uno de ellos conocido como el de máxima

MÉTODOS DE ESTIMACIÓN DE MÁXIMA PROBABILIDAD

Planteamiento del problema

Por ejemplo, si planeamos tomar una muestra aleatoria 𝑋 , 𝑋 , 𝑋 ,

Ahora la forma razonable de proceder es tratar la "función de

𝑋 = 0 El estudiante seleccionado al azar que no posee un

Suponiendo que las 𝑋 son variables aleatorias independientes

NOTA: una distribución de probabilidad discreta, que toma valor 1

Para 0 < 𝑝 < 1, y realizando la simplificación de los exponentes

Ahora, con la idea de implementar el método de máxima

Es decir, si 𝑥 < 𝑥 , entonces 𝑓 (𝑥1 ) < 𝑓 (𝑥2 ). Esto significa que el

log 𝐿( 𝑝) = 𝑥 log(𝑝) + (𝑛 − 𝑥 )𝑙𝑜𝑔(1 − 𝑝)

Posteriormente se realiza la derivada del logaritmo de 𝐿( 𝑝) y se

El objetivo del método es determinar el valor de p (la proporción)

Uso del logaritmo neperiano

Como ejemplo del método a continuación se derivan los

donde 𝑝 es la probabilidad de éxito, parámetro desconocido a

Derivando con respecto al parámetro 𝑝

Supongamos ahora que se tiene una distribución normal con

Multiplicando por 2𝜎 en ambos lados de la ecuación se llega

Con base en las definiciones dadas anteriormente, identifique la

Supongamos ahora que se tiene una distribución de Poisson,

Determinar el estimador de máxima probabilidad para el

Generalmente, una estimación puntual no proporciona un valor

En la práctica, no solamente es necesario dar una estimación, sino

De esta manera, en vez de calcular un estimador único, se

Estos límites de confianza son estadísticos que variarán de

Al valor que realmente toma el intervalo aleatorio en una muestra

Donde, por definición a 1 − 𝛼 se le llama nivel de confianza y al

El 100(1 − 𝛼 )% de los intervalos correspondientes a todas las

Evidentemente, al aumentar el tamaño de la muestra, también

Supongamos que para realizar la estimación por intervalos de

𝑃(𝜇 − 𝜎 < B < 𝜇 + 𝜎 ) = 0.6827

𝑙𝑎 𝑑𝑒𝑠𝑖𝑔𝑢𝑎𝑙𝑑𝑎𝑑 𝑖𝑧𝑞 𝜇 − 𝜎 < B, es eqivalente a 𝜇 < B + 𝜎

𝑙𝑎 𝑑𝑒𝑠𝑖𝑔𝑢𝑎𝑙𝑑𝑎𝑑 𝑑𝑒𝑟𝑒𝑐ℎ𝑎 B < 𝜇 + 𝜎 es eqival a B − 𝜎 < 𝜇

𝑃(B − 𝜎 < 𝜇 < B + 𝜎 ) = 0.6827

Si el estadístico B no está sesgado, es decir si 𝜇 coincide con el

Normalmente, se trabaja con niveles de confianza de 0.95 o 0.99.

𝑃(B − 1.96𝜎 < 𝜇 < B + 1.96𝜎 ) = 0.95

En general, para un nivel de confianza (1 − 𝛼 ) habrá que buscar

𝑃(B − 𝑧 / 𝜎 <𝜇 < B+ 𝑧 / 𝜎 ) = (1 − 𝛼)

La expresión anterior sumamente útil para calcular intervalos de

En el caso de que la distribución muestral del estadístico no