Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Objetivo
Reseña histórica
La estadística que muchos consideran algo nuevo, debido al alcance que tiene en el manejo
de grandes cantidades de datos (información), pero su aplicación se remonta a las antiguas
civilizaciones como china donde el emperador Yao (2239 AC), dispuso la realización de un
censo; algo similar ocurrió con el rey Herodes, relacionado con un empadronamiento cuando
se habló del nacimiento de Jesús.
La estadística como disciplina, tuvo su origen en Alemania a mediados del siglo XVII, en el
reinado de Godofredo de Achewall (1719-1772), se usó la palabra estadística y se separó de
la sociología, hoy en día a alcanzó un alto desarrollo, con el apoyo de investigadores
dedicados a desarrollar y perfeccionar los métodos estadístico y a través del avance
tecnológico, permitiendo la selección de aquellos procedimientos que buscan mejorar los
resultados, al mismo tiempo disminuyendo los márgenes de error.
La palabra estadística, proviene de la palabra status que significa estado, algunos creen que
podría venir de la palabra alemana Stara que significa estado.
Conceptos básicos.
Clasificación de la estadística
Estadistica
Descriptiva Inferencial
Descriptiva:
Inferencial:
Esta utiliza datos de las muestras para obtener conclusiones acerca de cierta población.
Las definiciones anteriores hacen énfasis en población y muestra, pero que es población y
que es muestra.
Como en toda ciencia para realizar las conclusiones del estudio, se requiere datos, pero,
Datos:
Fuentes de informacion
Para poder llavar a cabo un estudio estadistico de una poblacion, primero se debe tener muy
claro que se quiere analizar para recolectar los datos adecuados , ahora, la recoleccion se
puede hacer recurriendo a las diversas fuentes, en terminos generales, las fuentes de donde
se obtienen los datos pueden clasificarse en primarias y secundarias
Secundarios: como las bases de datos ya existentes, por ejemplo, la de FAO, OMS u otro tipo
de institucion.
Censo y muestreo
Metodos de muestreo.
Muestra probabilística: los elementos que la componen se eligen de acuerdo con las
probabilidades de ocurrencia, esto es, existe un trabajo estadístico previo a la selección de la
muestra. El proceso de muestreo puede realizarse por etapas y en cada una de ellas es posible
aplicar un método distinto.
De acuerdo con este método, para obtener la muestra requerida primero se divide el tamaño
de la población (N) entre el tamaño de muestra (n) deseado y el resultado obtenido (k) se
redondea al entero más cercano. Luego, para seleccionar la muestra se elige al azar el primer
elemento y los subsiguientes se escogen cada k elementos. Cabe precisar que el muestreo
sistemático tiene un pequeño inconveniente: si existe algún patrón (comportamiento u
ordenamiento bajo algún criterio, como orden alfabético o por fecha de nacimiento) en la
lista de la población, existirán errores de selección que afectarán los resultados.
Esta técnica se utiliza cuando una población está dividida en grupos, llamados estratos,
formados con base en cierta característica, pues así se garantiza que cada miembro de la
población esté en un y solamente un estrato. Después se toma una muestra de cada estrato y
se hacen comparaciones entre ellas. Merece la pena indicar que para que este tipo de
muestreo ofrezca una buena precisión es necesaria la homogeneidad de los elementos en
cada estrato, así como la heterogeneidad entre los estratos.
Objetivos
Rango
Numero de intervalos
Ancho de clase
𝑅 56.7
𝐴= = = 8.2
𝑘 7
Tabla
2. Sirve como un método para comparar o interpretar cualquier valor en relación con el
puntaje central o típico.
3. Sirve como un método para comparar el valor adquirido por una misma variable en dos
diferentes ocasiones.
4. Sirve como un método para comparar los resultados medios obtenidos por dos o más
grupos.
Este valor se obtiene al multiplicar la marca de clase con la frecuencia absoluta, e ir sumando,
al final la suma total se divide entre el número total de datos, su fórmula es:
∑ 𝑓𝑖 ∗ 𝑚𝑖
𝑥̅ =
𝑛
Donde
𝑛 es el numero de datos
Los datos medidos en escala de intervalo o de razón, tienen una media aritmética.
El valor de la media aritmética es único, es decir, un conjunto de datos tiene un solo valor de
media aritmética.
Para el cálculo de la media aritmética se consideran todos los datos observados. Esta
propiedad determina que la media aritmética sea sensible a la presencia de valores extremos.
Es una medida muy útil cuando se necesita comparar estudios estadísticos de la misma
naturaleza.
Lamediaaritméticaeslaúnicamedidadetendenciacentral,dondelasumadelas desviaciones de
los elementos con respecto a ella, siempre es cero.
Mediana
La mediana Es el punto medio del total de observaciones ,luego de que han sido ordenados y
que deja al mismo número de observaciones por debajo de su valor ,así como por arriba de
él.
Donde:
A es el ancho de clase
𝑛 es el numero de datos
Cálculo de la mediana
𝑛
Paso 1. Es encontrar el intervalo donde está la mediana, para ello calculamos el valor de 2 =
60
= 30, este valor se busca en la frecuencia absoluta acumulada de la tabla de distribución
2
de frecuencia, el intervalo es el siguiente
Propiedades de la mediana
Al igual que la media aritmética, su valor es único, entonces, un conjunto de datos posee una
sola mediana.
No se ve afectada por la presencia de valores extremos bajos o altos, en el caso del Ejemplo
anterior en el literal (a.) puede ser el último dato un valor tan alto como se quisiese, que la
mediana seguirá siendo la misma.
Puede ser determinada para distribuciones de frecuencia que tengan intervalos abiertos,
siempre y cuando la mediana no se encuentre en esa categoría.
Puede determinarse para datos que han sido medidos en escala de intervalo, de razón u
ordinal.
Moda
La moda es otra medida de tendencia central, que es muy útil para describir conjuntos de
datos nominales y ordinales y su determinación es sencilla, toda vez que queda fijada por la
ubicación del elemento que mayor frecuencia tiene, es decir, el que más veces aparece en el
estudio. En definitiva, la moda puede determinarse para cualquier conjunto de datos y al
igual que la mediana no se ve afectada por la presencia de valores extremos y puede ser
determinada para categorías con intervalos abiertos. Sin embargo la moda tiene una
desventaja, la cual hace que no sea muy utilizada, principalmente para datos numéricos y es
que muchos estudios no poseen moda no hay elementos con mayor frecuencia o puedan
tener varias modas (cuando dos o más elementos tienen la misma mayor frecuencia),dando
lugar en este último caso a que los estudios sean bimodales o plurimodales.
Esta distribución de datos, es bimodal debido a que hay dos intervalos con mayor frecuencia
que es 14, se hare el cálculo de una de ellas, el cálculo del segundo valor queda como ejercicio
para el estudiante
De acá obtenemos que el límite inferior es 70, la frecuencia acumulada modal es 32, por lo
tanto
𝑑1 = 32 − 18 = 14 𝑑2 = 46 − 32 = 14
La moda es:
14
𝑚𝑜𝑑𝑎 = 70 + ( ) ∗ 8.2 = 74.1 𝑘𝑔
14 + 14
Varianza
2
∑(𝑚𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖
𝑠 =
𝑛−1
Debido a que la varianza está en unidades al cuadrado, esto presenta un inconveniente al
momento de realizar deducciones es por ello, que se le extrae raíz cuadrado, a este resultado
se le llama desviación estándar, su fórmula es:
∑(𝑚𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖
𝑠=√
𝑛−1
Coeficiente de variación
Además, aun cuando se utilice la misma unidad de medición, las dos medias pueden ser
bastante distintas. Si se compara la desviación estándar de los pesos de niños de primer año
de primaria con la desviación estándar de los pesos de jóvenes de primer año de secundaria,
puede encontrarse que fa desviación estándar de estos último, es numéricamente mayor que
la de los primeros debido a que los propios pesos son mayores y no porque la dispersión sea
mayor. Lo que se necesita en situaciones como esta es una medida de variación relativa, más
que una de variación absoluta. Dicha medida se encuentra en el coeficiente de variación, que
expresa la desviación estándar como un porcentaje de la media. La fórmula está dada por la
expresión:
𝑠
𝐶𝑉 = ∗ 100%
𝑥̅
Cálculo de las medidas de dispersión
Frecuencia Marca de ̅
𝒎𝒊 − 𝒙 ̅)𝟐
(𝒎𝒊 − 𝒙 ̅) 𝟐
(𝒎𝒊 − 𝒙
absoluta clase (mi) ∗ 𝒇𝒂
(fa)
7 57.7 -19.49 379.8601 2659.0207
11 65.9 -11.89 141.3721 1555.0931
14 74.1 -3.69 13.6161 190.6254
14 82.3 4.51 20.3401 284.7614
7 90.5 12.71 161.5441 1130.8087
4 98.7 20.91 437.2281 1748.9124
3 106.9 29.11 847.3921 2542.1763
𝑠2
2659.0207 + 1555.0931 + 190.6254 + 284.7614 + 1130.8087 + 1748.9124 + 2542.1763
=
60 − 1
= 171.3796
Como este valor esta expresado en kg^2, para obtener la desviación estándar únicamente
debemos calcular su raíz cuadrada.
𝑠 = √171.3796 = 13.0912 𝑘𝑔
Ejercicio propuesto.
Gráficos estadísticos
. Ahora veremos las herramientas estadísticas más comunes para presentar datos y hacer
más comprensible la información. Esto se logra mediante la elaboración de tablas o gráficas.
En el esquema
Presentación de
datos
Tablas de Polígonos Diagramas Diagramas
Histogramas Ojivas
frecuencia de de barra circulares
frecuencia
Histograma
2. En el eje x se localizan las marcas de cada clase. Como cada columna ejemplifica un
intervalo de clase, la base debe coincidir con el ancho de clase.
3. En el eje y se refiere la frecuencia (absoluta o relativa), así que la altura de cada columna
corresponde a ésta.
Como se puede apreciar, este grafico nos muestra que la mayoría de los datos se concentran
en el centro, y aparte de ello la forma que tiene se asemeja a una colina, nos indica que los
datos cumplen con la normalidad.
Polígono de frecuencia
Un polígono de frecuencias es una gráfica de línea que sirve para representar la distribución
de frecuencias de datos continuos. Igual que el histograma, se utiliza para ver la forma de la
distribución de los datos, así como la ubicación de la mayor concentración de éstos. Como ya
se explicó, un histograma y un polígono de frecuencias sirven para ver la forma de la
distribución de los datos.
Cada persona decide cómo presentar la gráfica, si con columnas o con línea. Trazo de un
polígono de frecuencias
2. Se dibuja un punto por cada coordenada. Las coordenadas son pares ordenados donde la
abscisa es la marca de clase (el eje x) y la ordenada es la frecuencia absoluta o relativa (el eje
y).
Grafico
Diagrama de pastel o grafico circular
Un diagrama circular o de pastel, igual que el diagrama de barras, se usa para representar
una distribución de frecuencias de datos discretos o categóricos y, como su nombre lo indica,
hay que trazar un círculo, en el que luego hay que dibujar divisiones (rebanadas) que
representan la frecuencia relativa.
Ejemplo
17%
30%
10%
10%
20%
13%
REFRESCOS
cola
9
cola ligh
6 toronja
limon 5
4 manzana naranja
3 3
Ejercicios en clase
Ejercicio 1
¿Cuántos estudiantes obtuvieron una calificación de menos de 70? ¿Cuántos más de 90?
Ejercicio 2
Responda
Ejercicio 3
Se preguntó a 30 jóvenes cuántas horas dedicaban cada día a navegar en internet (el tiempo
que dedican a sesiones de chat y a las redes sociales quedan incluidos). Los resultados son
los siguientes:
Responda
Traza un histograma .
Ejercicio 4
Responda
Las medidas de tendencia central permiten obtener valores que representen el punto central
de los datos, es decir, determinar el valor más representativo de la variable que estamos
analizando. Las medidas de tendencia central más utilizadas son la media, la mediana y la
moda.
A continuación, un ejemplo.
Mediana.
Definición.
La mediana de un conjunto de datos es la medida de tendencia central que implica el valor
intermedio, cuando los datos originales se presentan en orden de magnitud creciente (o
̃ (y se x lee “x con tilde).
decreciente). La mediana suele denotarse con 𝒙
Para calcular la mediana, primero se ordenan los datos (de menor a mayor) y luego se sigue
uno de los siguientes dos procedimientos:
Ejemplo. Se retomarán los datos del ejemplo anterior, se ordenarán de menor a mayor.
Un conjunto de datos puede tener una moda, más de una moda o ninguna moda.
•Cuando dos valores se presentan con la misma frecuencia y esta es la más alta, ambos
valores son modas, por lo que el conjunto de datos es bimodal.
•Cuando más de dos valores se presentan con la misma frecuencia y esta es la más alta, todos
los valores son modas, por lo que el conjunto de datos es multimodal.
Moda=7.2
Los cuartiles son medidas de ubicación, que se denotan por Q1, Q2 y Q3, y dividen un
conjunto de datos ordenado en cuatro partes iguales, con aproximadamente el 25% de los
valores en cada grupo.
He aquí descripciones de los tres cuartiles, que son más exactas que las implicadas en la
definición anterior:
Ejemplo.
Cuartil 1.
𝟑𝟓 𝟑𝟓
𝑸𝟏 = 𝒌 ∗ =𝟏∗ = 𝟖. 𝟕𝟓
𝟒 𝟒
Por tanto, la posición 8 corresponde a 30 y la nueva a 35, el primer cuartil es.
(calcule el cuartil 2 y 3)
Los valores de los tres cuartiles se utilizan para el resumen de los 5 números y la construcción
de gráficas de caja
Definición.
1. Elabore el resumen de los 5 números consistente en el valor mínimo, Q1, la mediana, Q3,
y el valor máximo.
2. Construya una escala con valores que incluyan el valor mínimo y el valor máximo.
3. Construya una caja (un rectángulo) que se extienda desde Q1 hasta Q3, y dibuje una línea
en la caja, en el valor de la mediana. 4. Dibuje líneas que se extiendan hacia fuera de la caja
hasta los valores mínimo y máximo.
Medidas de dispersión
∑(𝑥 − 𝑥̅ )2
𝑠=√
𝑛−1
• La desviación estándar es una medida de variación de todos los valores con respecto a la
media.
•El valor de la desviación estándar s generalmente es positivo. Solo es igual a cero cuando
todos los valores de los datos son el mismo número. (Nunca es negativa). Además, valores
grandes de s implican mayores cantidades de variación.
•El valor de la desviación estándar s puede aumentar de manera drástica con la inclusión de
uno o más valores atípicos (valores de datos que se encuentran muy lejos de los demás).
• Las unidades de la desviación estándar s (como minutos, pies, libras, etcétera) son las
mismas de los datos originales.
Para calcular a desviación estándar de una población se divide entre el total de datos y no
entre n-1, es decir.
𝑵
(𝒙𝒊 − 𝝁)𝟐
𝝈 = √∑
𝑵
𝒊=𝟏
Definición.
Coeficientes de variación
Un problema que plantean las medidas de dispersión vistas es que vienen expresadas en las
unidades en que se ha medido la variable. Es decir, son medidas absolutas y con el único dato
de su valor no es posible decir si tenemos una dispersión importante o no. Para solucionar
esto, se definen unas medidas de dispersión relativas, independientes de las unidades
usadas. Estas dispersiones relativas van a permitir además comparar la dispersión entre
diferentes muestras (con unidades diferentes). Entre estas medidas hay que destacar el
coeficiente de variación de Pearson, definido como el cociente entre la desviación típica y la
media aritmética, es decir.
𝒔
𝑪𝑽 = ∗ 𝟏𝟎𝟎%
̅
𝒙
Cuanto mayor sea el CV, mayor dispersión tendrán los datos.
Asimetría y Curtosis
a descripción estadística de una muestra de datos no concluye con el cálculo de su tendencia
central y su dispersión. Para dar una descripción completa es necesario estudiar también el
grado de simetría de los datos respecto a su medida central y la concentración de los datos
alrededor de dicho valor.
Coeficiente de asimetría
Se define como.
̅ − 𝑴𝒐
𝒙
𝑨𝒑 =
𝒔
Ejercicios en clase.
fumadores No fumadores
69.3, 28.6,25.1,26.4,34.9,29.8,28.4,38.5,30.2,30.6,31.8
56.0,22.1,53.2,48.1,52.7,34.4,60 ,41.6,21.1,36.0,37.9,13.9
.2,43.8,23.2,13.8
2.1. Encuentre la media de la muestra para cada grupo
2.2. Encuentre la desviación estándar
2.3. Realiza un gráfico de caja para cada grupo
2.4. Calcula el CV
2.5. Comente que clase de impacto parece tener el fumar sobre el tiempo que se
requiere para quedar dormido.
3. En el artículo “Evaluación of Low-Temperatura Propretores of HMA Mixtures” (P.
Sibal, A. Lake y J. UPS, en Jornal of Transportación Engineering, 2002:578-583) se
midieron los siguientes valores de la tensión de fractura (en megapascales) para una
muestra de 24 mezclas de asfalto mezclado caliente (HMA)
Con el fin de construir diagramas de caja, se define un dato atípico como un punto cuya
distancia al cuartil más cercano es mayor a 1.5 IQR. Una definición más general y menos
precisa es que un dato atípico es cualquier punto que está separado de la mayor parte de los
datos. ¿Hay puntos en el conjunto de datos del asfalto que son datos atípicos bajo esta
definición más general, pero no bajo la definición del diagrama de caja? ¿Si es así, cuáles son?
Temas:
Probabilidad clásica
Axiomas de probabilidad
Probabilidad clásica
La teoría de probabilidad proporciona la base para la inferencia estadística, es por ello que
para una mejor compresión de los conceptos de inferencia es necesario una introducción a
esta rama de la matemática.
Experimentos aleatorios
Conjunto de uno o más resultados de un experimento, se puede hablar de evento simple, que
es un resultado del espacio muestral con una sola característica, un vento conjunto es, por su
parte, un resultado del espacio muestral con dos o más característica.
Especio muestral
Conjunto de todos los posibles evento o resultado que pueden ocurrir en un experimento
aleatorio
Punto muestral
Ejemplo
Hay dos tipos de enfoque de probabilidad, tenemos el enfoque subjetivo que como su nombre
sugiere viene basado en la experiencia del investigador, por ejemplo, decir que existe una
probabilidad alta que hoy llueve en función de ciertos patrones que se observan, está el
enfoque objetivo, este tiene un fundamento matemático (teórico).
Enfoque de
probabilidad
Objetivo Subjetivo
Clasico Empirico
Enfoque clásico
Enfoque empírico
Este enfoque se basa principalmente en frecuencias relativas, esto es, en el número de veces
que ocurrió cierto evento en el pasado, y se calcula de esta manera:
# 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑜𝑐𝑢𝑟𝑟𝑖𝑜 𝑒𝑛 𝑒𝑙 𝑝𝑎𝑠𝑎𝑑𝑜
𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜 =
# 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
Axiomas de probabilidad
Ejemplo
Se lanza un dado, calcule la probabilidad de obtener un numero par o un número mayor que
3.
Ejemplo
Un experimento consiste en lanzar una moneda y después lanzarla una segunda vez si sale
cara, si sale cruz en el primer lanzamiento, entonces se lanza un dado una vez.
Probabilidad conjunta
Ya aprendimos como calcular las probabilidades simples ( de una sola característica), ahora
estudiaremos como calcular la probabilidad de eventos conjuntos (dos o más característica)
Probabilidad conjunta
Regla de la
Regla de la suma A priori
multiplicacion
A posteriori
Independencia de eventos
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵)
Probabilidad condicional
A menudo sucede que un evento influye en que se presente u ocurra otro. Esto recibe el
nombre de probabilidad condicional, que se define como la probabilidad de que el evento A
ocurra, puesto que ya se presentó el evento B. La probabilidad condicional se calcula como
sigue:
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴⁄𝐵 ) = ; 𝑃(𝐵) ≠ 0
𝑃(𝐵)
A este tipo de probabilidad condicional se le conoce como a priori, ya que sucede un evento
y se quiere conocer la probabilidad de su efecto.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵)𝑃(𝐴⁄𝐵 )
Esta es la regla de multiplicación para eventos dependientes.
Ejemplo
Teorema de Bayes
Thomas Bayes (Inglaterra 1702-1761) fue un teólogo protestante que dedicó gran parte de
su vida a demostrar la existencia de Dios para quienes no creían. En su afán por probar
mediante métodos matemáticos que dios es la única causa de todo lo que existe dio con una
fórmula que hoy en día resulta muy útil y que se conoce como teorema de Bayes.
Reescribiendo la formula
Ejemplo
1. Una empresa dedicada a la fabricación de bolsas de plástico tiene tres máquinas (A, B
y C) para ello. La máquina A realiza 25% de la producción de bolsas; la máquina B,
35%, y la máquina C, 40%. Se ha determinado que cuando las bolsas son hechas por
la máquina A, 5% tiene defectos; de la máquina B, 10% los tiene, y de la máquina C,
3%. De acuerdo con estos datos:
a. Realiza el diagrama de árbol correspondiente.
b. ¿Cuál es la probabilidad de que una bolsa, elegida al azar, esté defectuosa?
c. Si una bolsa está defectuosa, ¿cuál es la probabilidad de que haya sido producida por
la máquina A? ¿Por la máquina B? ¿Y por la máquina C?
Uno variable aleatoria es un medio para describir los resultados del espacio muestral
mediante la asignación de valores. En el caso de una variable aleatoria continua, los valores
numéricos provienen de un intervalo continuo, es decir, no son valores específicos, sino que
puede ser cualquier valor entre dos números, a y b. En otras palabras, con variables
aleatorias continuas la probabilidad de que la variable aleatoria X sea igual a un valor es cero,
P(X = x) = 0, ya que es imposible que X tenga exactamente ese valor.
Caracteres fisiológicos, por ejemplo, efecto de una misma dosis de un fármaco o de una
misma cantidad de abono.
Caracteres sociológicos, por citar algunos casos, consumo de cierto producto por un mismo
grupo de individuos o las puntuaciones obtenidas en un examen.
Esta distribución tiene media igual a cero y desviación estándar igual a uno. Es importante
señalar que a la variable aleatoria distribuida como una normal estándar se le llama Z para
diferenciarla de la X.
Por lo tanto:
𝑥−𝜇
𝑧=
𝜎
De manera grafica se tiene
Ejemplo
Si se elige una personal al azar, cual es la probabilidad que el índice de masa corporal sea.
a. Mayor a 30
b. Menor a 23
c. Entre 24 y 28
d. Entre 25 y 30
e. Entre 20 y 24
f. Menor a 40
g. Mayor a 24.32
h. Menor a 28.16
i. Mayor a 29.99
j. Cuál es el valor máximo del índice de masa corporal del 20%, 65% y 95% de los
participantes.
Suponga que las edades en las que se adquiere cierta enfermedad están distribuidas de forma
aproximadamente normal, con una media de edad de 12.5 años y una desviación estándar de
3 años. Un niño acaba de contraer dicha enfermedad. Cual es la probabilidad de que el niño
tenga:
Distribuciones muestrales
La distribucion de todos los valores posibles que puede tomar algun estadistico, calculado de
muestras del mismo tamano extraidas al azar de la misma poblacion, se conoce como
distribucion muestral de esa estadistico.
Ejercicio en clase.
Obtenga la edad de 5 estudiantes para formar nuestra poblacion (N=5), de esta poblacion
extraer todas las muestras posibles de tamano 2 y construir la distribucion muestral para la
media.
Suponga que una muestra de n observaciones se toma de una poblacion con media 𝜇 y
varianza 𝜎 2 , cada observacion 𝑋𝑖 ; 𝑖 = 1,2,3, … , 𝑛 de la muestra aleatoria tendra entonces la
misma distribucion normal de la poblacion que se muestrea, de aquí se deduce que:
1
𝑋̅ = (𝑋 + 𝑋2 + ⋯ + 𝑋𝑛 )
𝑛 1
Tiene un distribucion normal con media
1
𝜇𝑋̅ = (𝜇 + + ⋯ + 𝜇) = 𝜇
𝑛
Y varianza
1 2 𝜎2
𝜎𝑋2̅ 2 2
= 2 (𝜎 + 𝜎 + ⋯ + 𝜎 ) =
𝑛 𝑛
Teorema central de limite
Si 𝑋̅ es la media de una muestra aleatoria de tamaño n tomada de una población con media
𝜇 y varianza finita 𝜎 2 , entonces la forma límite de la distribución de:
(𝑋̅ − 𝜇)
𝑍=
𝜎/√𝑛
Conforme la muestra se hace muy grande, es la distribución normal estándar 𝑛(𝑧, 0,1)
Inferencia estadística
La inferencia estadística se puede tomar en dos partes, las cuales son: estimación y prueba
de hipótesis, analicemos el siguiente enunciado.
Es improbable que incluso el estimador insesgado más eficaz estime con exactitud el
parámetro poblacional. Es cierto que nuestra precisión aumenta con muestras grandes; pero
no hay razón por la cual deberíamos esperar que una estimación puntual de una muestra
dada sea exactamente igual al parámetro poblacional que se supone estima. Hay muchas
situaciones en que es preferible determinar un intervalo dentro del cual esperaríamos
encontrar el valor del parámetro. Tal intervalo se llama estimación por intervalo.
𝐿<𝜇<𝑈
Donde nuestro parámetro de interés (en este caso la media poblaciones), este dentro del
valor L, el cual es el limite inferior del intervalo y U el cual es el límite superior del intervalo.
Como los valores de L y U cambian con cada muestra que sacamos, de la distribución
muestral de 𝜇, queremos encontrar 𝑃(𝐿 < 𝜇 < 𝑈) sea igual algún valor fraccional positivo
que queramos especificar, esto es:
Dado que la distribución muestral del parámetro se comporta de manera normal, donde:
(𝑋̅ − 𝜇)
𝑧=
𝜎/√𝑛
Entonces:
𝑥̅ − 𝜇
𝑃 (−𝑧𝛼 < 𝜎 < 𝑧𝛼2 ) = 1 − 𝛼
2
√𝑛
𝑥̅ −𝜇
De la expresión −𝑧𝛼 < 𝜎 < 𝑧𝛼 despejamos la media, tenemos que:
2 √𝑛 2
𝜎 𝜎
𝑥̅ − 𝑧𝛼 ∗ < 𝜇 < 𝑥̅ + 𝑧𝛼 ∗
2 √𝑛 2 √𝑛
De esta forma podemos calcular un intervalo de confianza para la media poblacional.
Ejemplos
Una muestra de 100 hombres adultos aparentemente normales, de 25 años de edad, mostró
una presión sistólica sanguínea media de 125. Si se tiene la sensación de que la desviación
estándar de la población es de 15, encuentre:
Recordemos que si tenemos una muestra aleatoria a partir de una distribución normal,
entonces la variable aleatoria.
𝑥̅ − 𝜇
𝑇=
𝑠/√𝑛
Tiene una distribución t de student con n-1 grados de libertad, donde s es la desviación
estándar muestral, entonces nuestro intervalo queda de la siguiente manera.
𝑠 𝑠
𝑥̅ − 𝑡𝛼,𝑛−1 ∗ < 𝜇 < 𝑥̅ + 𝑡𝛼,𝑛−1 ∗
2 √𝑛 2 √𝑛
Ejemplo
El contenido de 7 contenedores similares de ácido sulfúrico es de 9.8, 10.2, 10.4, 9.8, 10.0,
10.2, y 9.6 litros. Encuentre un intervalo de confianza de 95% para la media de todos los
contenedores, si se supone una distribución aproximadamente normal.
Muchas cuestiones de interés para quien trabaja en el campo de la salud se relacionan con la
proporción de las poblaciones. ;Qué proporción de los pacientes que reciben un tipo
particular de tratamiento se recupera? ;Qué proporción de alguna población tiene cierta
enfermedad? ¿Qué proporción de una población es inmune a cierta enfermedad?
𝑝̂(1−𝑝̂)
Donde el error estándar viene dado por: √ , la fórmula es:
𝑛
𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝑝̂ − 𝑧𝛼 √ < 𝑃 < 𝑝̂ + 𝑧𝛼/2 √
2 𝑛 𝑛
Ejemplo
En un estudio diseñado para conocer la relación entre cierto medicamento y cierta anomalía
en los embriones de pollo, se inyectaron con el medicamento 50 huevos fecundados al cuarto
día de incubación, en el vigésimo día de incubación se examinaron los embriones y se
observo la presencia de la anomalía en 12 de ellos, encuentra un intervalo de confianza del
85%, 90% y 95% para P
𝑝̂1 (1 − 𝑝̂1 ) 𝑝̂ 2 (1 − 𝑝̂ 2 )
(𝑝̂1 − 𝑝̂2 ) − 𝑧𝛼 √ + < 𝑃1 − 𝑃2
2 𝑛1 𝑛2
Ejemplo
Doscientos pacientes que sufrían de cierta enfermedad fueron divididos al azar en dos
grupos iguales. Del primer grupo, quienes recibieron el tratamiento estándar, 78 se
recuperaron en un plazo de tres días. De los otros 100, quienes fueron tratados mediante un
nuevo tratamiento , 90 se recuperaron al cabo de tres días también. Los médicos desearon
estimar la diferencia verdadera en las proporciones de quienes se recuperaron en tres días.
Ejemplo
1 1 1 1
(𝑥̅1 − 𝑥̅2 ) − 𝑡𝛼 ∗ 𝑆𝑝 √ + < 𝜇1 − 𝜇2 < (𝑥̅1 − 𝑥̅2 ) + 𝑡𝛼 ∗ 𝑆𝑝 √ +
2 𝑛1 𝑛2 2 𝑛1 𝑛2
Ejemplo
Sin 0.32 0.53 0.28 0.37 0.47 0.43 0.36 0.42 0.38 0.43
nitrógeno
Con 0.26 0.43 0.47 0.49 0.52 0.75 0.79 0.86 0.62 0.46
nitrógeno
Construya un intervalo de confianza de 95% para la diferencia en los pesos medios de los
tallos entre los que no recibieron nitrógeno y los que recibieron 368 ppm de nitrógeno.
Suponga que las poblaciones están distribuidas normalmente con varianzas iguales.
Muestras pareadas.
Anteriormente se estudio el caso cuando se tenían dos muestras independientes, se
consideraba el tamaño de las muestras y si las varianzas eran o no iguales.
Considere el caso en que desea estudiar la efectividad de una dieta, para ello toma en cuenta
a 15 individuos para formar su población de prueba, en esta caso se está interesado en medir
los pesos antes y después de seguir la dieta , estos dos momentos forman mis dos muestras,
una muestra de peso antes de empezar la dieta y otro muestra de peso después de iniciar la
dieta, para determinar si la dieta es efectiva consideremos las diferencias de pesos
𝑑1 , 𝑑2 , … , 𝑑𝑛 en las observaciones pareadas, estas diferencias son los valores de una muestra
aleatoria 𝐷1 , 𝐷2 , … , 𝐷𝑛 de una población de diferencias que asumiremos se distribuye normal
media 𝜇𝐷 = 𝜇1 − 𝜇2 y varianza 𝜎𝐷2 , donde los estimadores puntuales son 𝐷 ̅ 𝑦 𝑆𝑑2
respectivamente.
Intervalos de confianza
Ejemplo
Una enfermera del trabajo desea saber si la exposición a ruido provoca manifestaciones extra
auditivas como alteración de la presión arterial sistólica. Para ello, realiza un estudio sobre
un grupo de trabajadores expuestos a ruido que trabaja en una fábrica textil. El diseño
epidemiológico planteado recoge la tensión arterial antes de comenzar a trabajar y después
de 8 horas ininterrumpidas de actividad laboral. Los resultados se muestran en la siguiente
tabla.
N 1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2
0 1 2 3 4 5 6 7 8 9 0
TAS 1 1 1 1 1 1 1 1 1 1 1 1 1 1 9 1 1 1 1 1
Pre 2 1 3 0 2 1 4 3 2 3 2 3 0 1 6 2 4 3 2 3
m 0 8 6 8 6 6 2 0 2 0 6 8 8 6 8 6 8 0 0
mH
g
TAS 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Pos 2 2 4 0 2 3 4 3 3 3 4 3 2 1 1 3 5 4 2 3
t 4 0 4 6 4 0 6 6 4 6 0 6 6 2 0 8 6 0 0 8
m
mH
G
Construya un intervalo de confianza para las diferencias de las muestras e interprete los
resultados
Pruebas de hipótesis
• Por lo general, las hipótesis establecen que un cierto parámetro poblacional tiene un
valor o pertenece a una determinada región
• Se toma una muestra aleatoria representativa de la población para decidir su se
rechaza o no la hipótesis planteada
• Si la información muestral es consistente con la hipótesis estadística entonces no se
rechaza dicha hipótesis, en caso contrario, se rechaza.
Contraste de hipótesis
La hipótesis nula suele representar como una igualdad del tipo 𝐻0 : 𝜃 = 𝜃0 , donde 𝜃0 denota
un hipotético valor para un parámetro de 𝜃 de la población.
Procedimiento y decisión
Tipo de errores
Como el contaste de una hipótesis solo puede tener dos resultados, entonces, al tomar la
decisión solo puede haber dos tipos de error:
Las probabilidades de cometer cada uno de estos dos tipos de error miden el riesgo de tomar
una decisión incorrecta al realizar un contraste de hipótesis:
Varianza conocida
Ejemplos
1. Una encuesta de 64 laboratorios médicos revelo que el precio medio cargado para
cierta prueba fue de $12 con una desviación estándar de $6. ¿proporcionan estos
datos evidencia suficiente que indique que la media poblacional es mayor a $10?, usa
un nivel de significación de 0.05
2. Se llevo a cabo un estudio sobre nutrición en un país en desarrollo, una muestra de
500 adultos reporto un consumo medio diario de 1985 calorías con una desviación
estándar de 210 calorías. ¿puede concluirse a partir de estos datos que la media de la
población es menor a 2000 calorías?
3. Una encuesta de 100 hospitales de tamaño similar revelo un censo promedio diario
en el servicio de pediatría de 27 con una desviación estándar de 6.5, ¿proporcionan
estos datos evidencia suficiente como para indicar que la media de la población es
mayor a 25?
Varianza desconocida
Si se desconoce a varianza poblacional, al igual que se trabajo con los intervalos de confianza,
podemos auxiliarnos de la distribución t student, cuyo estadístico toma la forma de:
𝑥̅ − 𝜇
𝑡=
𝑠/√𝑛
Ejemplo
Pruebe la hipótesis de que el contenido promedio de los envases de cierto envase para
refresco es de 10 litros, si los contenidos de una muestra aleatoria de 10 envases son 10.2,
9.7, 10.1, 10.3, 9.8, 9.9, 10.4, 10.3, 9.8 litros, utilice un nivel de significancia de 0.01.
Suponga que tiene dos muestras pareadas, tal como se trabajo en los intervalos de confianza,
la pregunta a responder es:
¿existe evidencia suficiente que muestra una diferencia significativa en las medias de ambas
muestras?
Tenga en cuenta que al ser muestras pareadas, dichas muestras no son independiente, quizás
a la pregunta anterior se limite a saber si en el caso de nutrición es si la dieta funciono o no
funciono, o si el medicamente ha sido efecto o no, para responder estas interrogantes
debemos tomar en cuenta , como que las poblaciones deben se homogéneas y que el
paramiento se asigna de manera aleatoria.
𝐻0 : 𝜇𝐷 = 𝑑0
𝑑̅ − 𝑑0
𝑡=
𝑠𝑑 /√𝑛
Las regiones críticas se construyen usando a la distribución t con n-1 grados de libertad.
Ejemplo
Una enfermera del trabajo desea saber si la exposición a ruido provoca manifestaciones extra
auditivas como alteración de la presión arterial sistólica. Para ello, realiza un estudio sobre
un grupo de trabajadores expuestos a ruido que trabaja en una fábrica textil. El diseño
epidemiológico planteado recoge la tensión arterial antes de comenzar a trabajar y después
de 8 horas ininterrumpidas de actividad laboral. Los resultados se muestran en la siguiente
tabla.
N 1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2
0 1 2 3 4 5 6 7 8 9 0
TAS 1 1 1 1 1 1 1 1 1 1 1 1 1 1 9 1 1 1 1 1
Pre 2 1 3 0 2 1 4 3 2 3 2 3 0 1 6 2 4 3 2 3
m 0 8 6 8 6 6 2 0 2 0 6 8 8 6 8 6 8 0 0
mH
g
TAS 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Pos 2 2 4 0 2 3 4 3 3 3 4 3 2 1 1 3 5 4 2 3
t 4 0 4 6 4 0 6 6 4 6 0 6 6 2 0 8 6 0 0 8
m
mH
G