Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Curso de Estadistica Basica 1
Curso de Estadistica Basica 1
Ingeniería Industrial
11/07/2011
Instituto Tecnológico Superior de Tierra Blanca
I.I VIRIDIANA SÁNCHEZ VÁZQUEZ
Curso de Estadística
Básica
Día 1 Día 2
• ANOVA
• Diseño de
Experimentos
Día 3
Los datos muestran les deben reunirse de una forma adecuada, como a través de
un proceso de selección aleatoria.
Si los datos muestran les no se reúnan de la forma apropiada, resultaron tan
inútiles que ninguna cantidad de estadística podrá salvarnos.
Muestra Aleatoria. Es una muestra obtenida de la población de tal manera que todas las
posibles Muestras de igual número de observaciones tienen la misma probabilidad de
ser seleccionada. En otras palabras, en una muestra aleatoria solo el azar es “quien
decide” que elementos están en la muestra, se debe evitar cualquier procedimiento que
involucre la participación del investigador ya que inconscientemente se podría sesgar el
muestreo y se no representativo de la población.
Se dice que una muestra aleatoria es representativa de la población cuando tiene las
mismas características de la población, y el muestreo aleatorio es la manera con
mayores posibilidades de obtener una muestra representativa.
TIPOS DE DATOS
Definiciones
Los datos cuantitativos consisten en números que representan conteos con mediciones.
Los datos discretos resultan cuando el número de valores posibles en un número finito
un número que “puede contarse” (es decir, el número de valores posibles es 0,1, 2,
etcétera).
Uno los datos continuos (numéricos) resultan de un infinito de posibles valores que
corresponden a alguna escala continua que cubre un rango de valores sin huecos,
interrupciones o asaltos.
Niveles de medición
El nivel de medición nominal se caracteriza por datos que consiste en exclusiva mente
en nombres, etiquetas o categorías. Los datos no se pueden acomodar en un esquema de
orden (como demás bajo al más alto).
Los datos están en el nivel de medición ordinal cuando pueden acomodarse en algún
orden, aunque no es posible determinar diferencias entre los valores de los datos con
tales diferencias carecen de significado.
Los datos ordinales proporcionen información sobre comparaciones relativas pero no las
magnitudes de las diferencias. Por lo General, los datos son ordinales no deben
utilizarse para hacer cálculos como promedios, aunque en ocasiones esta norma se
infringe (como sucede cuando utilizamos calificaciones con letras para calcular una
calificación promedio).
1. Esos: los presos (en quilates) de anillos de compromiso de diamante (el cero
realmente representa la ausencia de 4 quilates que es dos veces el peso de 2
quilates).
2. Precios: los precios de libros de texto universitarios ($0 realmente representa
ningún costo y un libro de $90 es tres veces más caro que un libro de $30).
Este nivel de medición se denomina de razón porque el punto de partida cero hace que
las razones poco sientes tengan significado. Entre los cuatro niveles de medición, la
principal dificultad surge del distinguir entre los niveles de intervalo y de razón.
Sugerencia: para simplificar esta diferencia, utilice una sencilla “prueba razón”:
considere dos cantidades en las cuales un número es dos veces en otro y pregunté seis y
“dos veces” sirve para describir correctamente las cantidades. Puesto que un preso de
200 libras estos meses más pesado que un peso de sien libras pero 50°F no es dos veces
más caliente que 25°F, los presos están en el nivel de razón, mientras que las
temperaturas faringe y están en el nivel de intervalo. Para una comparación y un repaso
concisos, estudie la siguiente tabla que señala las diferencias entre los cuatro niveles de
medición.
EJERCICIOS:
Variable Tipo
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
Si un experimento produce datos que son de naturaleza continua, ¿los datos también
pueden ser cuantitativos o pueden ser cualitativos?
1.- Se selecciona una muestra de hogares y la media de personas por familia es de 2.58
(según los datos de la oficina censal mexicana) R= .
3.- En un estudio de los 2223 pasajeros del Titanic, se encontró que 706 sobrevivieron
cuando se hundió. R= .
Determine si los valores dados provienen de un conjunto de datos discretos o continuos
2.- Las calificaciones que da la revista del consumidor de “la mejor compra,
recomendado, no recomendado”. R= .
Pensamiento Crítico
Esta sección está diseñada para ilustrar la forma en que se utiliza el sentido común
cuando pensamos críticamente acerca de datos y estadísticos. En esta sección, en vez de
memorizar métodos o procedimientos específicos, hay que enfocarse en el pensamiento
y el uso del sentido común al analizar datos. Es importante saber que cuando los datos
muéstrales se reúnen de manera inapropiada, como cuando se utiliza una muestra de
respuestas voluntarias (que se define más adelante en esta sección), ningún método
estadístico es capaz de producir resultados válidos.
Por ejemplo, la revista Newsweek hizo una encuesta sobre el controvertido sitio web
Napster, que estuvo permitiendo el libre acceso a la copia de CD musicales, a los
lectores se les planteó la siguiente pregunta: “¿continuará utilizando Napster si tuviera
que pagar una cuota?” los lectores podían registrar sus respuestas en el sitio web
Newsweek. MSNDC. COM. De las 1873 respuestas recibidas, el 19% dijo que sí,
porque continúa siendo más barato que comprar los CD. Otro 5% dijo que sí, que se
sentirían más cómodos utilizándolo por una cuota. Cuando Newsweek o alguien más
hace una encuesta por internet, los propios individuos deciden participar, por lo que
constituye una muestra de respuesta voluntaria. Sin embargo, las personas con
opiniones extremas son más proclives a participar, por lo que su respuesta no son
representativas de toda la población. A continuación se presentan algunos ejemplos de
muestras de respuesta voluntaria que, por su naturaleza, tienen graves errores y no
deberíamos obtener conclusiones sobre una población, se muestra se décadas como
éstas:
Con este tipo de muestras de respuesta voluntaria sólo se logran conclusiones válidas
sobre el grupo de gente específico que decidió participar; aunque una práctica común
consiste en afirmar o sacar conclusiones incorrectas sobre una población más grande.
Desde un punto de vista estadístico, una muestra de este tipo es defectuosa y no debe
usarse para hacer afirmaciones generales sobre una población más grande.
Gráficas Las gráficas, un como las de barras y las de pastel (circulares), se pueden
utilizar para exagerar O subestimar a la verdadera naturaleza de los datos. (En el
capítulo dos analizaremos diferentes tipos de gráficas). Las dos gráficas de la figura que
se muestra abajo, describe los mismos datos obtenidos de u. S. BUREAU OF
ECONOMIC ANALYSIS, aunque en el inciso B) está diseñado para exagerar la
diferencia entre el ingreso personal per cápita en California y nevada, su estado vecino.
Como el eje vertical no inicia en cero, la gráfica del inciso B) tiende a producir una
impresión subjetiva engañosa, provocando que los lectores crean de manera incorrecta
que la diferencia es mucho mayor de lo que realmente es. La figura enseña una lección
importante: para interpretar de manera correcta una gráfica, tenemos que analizar la
información numérica que va presentar, para no engañarnos por su forma General.
Pictogramas los dibujos de objetos, llamados pictogramas, también suelen ser
confusos. Algunos objetos que se utilizan comúnmente para describir datos son los
objetos tridimensionales, como las bolsas de dinero, sacó de monedas y tanques del
ejército (para gastos militares), barriles (para la producción de petróleo) y casas (para la
construcción de viviendas). Al dibujar este tipo de objetos artistas podrían crear falsas
impresiones que distorsionan las diferencias. Si usted duplica cada lado de un cuadrado,
el área no tan sólo se duplica, sino comenta en un factor de cuatro. Si usted duplica cada
lado de un cubo, el volumen no solamente se duplica, sino que aumenta en un factor de
ocho. Vea la figura donde el inciso a) está dibujado para describir correctamente la
relación entre el consumo diario de petróleo en estados unidos y Japón. En la figura a)
parece que estados unidos consume aproximadamente cuatro veces un más petróleo que
Japón. Sin embargo, el inciso b) de la figura se dibujó con barriles, en los que cada
dimensión está dibujado en proporción a las cantidades reales vea como la figura B)
exagera mucho la diferencia al crear la falsa impresión de que el consumo de petróleo
en estados unidos es aproximadamente 50 veces mayor que en el de Japón.
Preguntas predispuestas hay muchos aspectos que afectan las preguntas de encuestas.
Estas pueden estar “cargadas” o redactadas intencionalmente para obtenerlas respuesta
deseada. Observe las tasas reales de la respuesta “sea” para las diferentes formas de
redacción de una pregunta:
97% sí: “¿debería el Presidente utilizar su poder de veto para eliminar los
desperdicios?”
¿Cree usted que el tránsito vehicular contribuye a la contaminación del aire más
o menos que la industria?
¿Cree usted que leyendo se contribuye la contaminación del aire más o menos
que el tránsito vehicular?
Falta de respuesta Existe una falta de respuesta cuando alguien se rehúsa a responder
una pregunta de encuesta o cuando la persona no está disponible. Cuando se plantean
preguntas de crecido en los últimos años, en parte debido a que muchos tele-
vendedores persistentes tratan de vender bienes o servicios, iniciando con un argumento
de venta similar a un encuesta de opinión.
Datos faltantes En ocasiones los resultados se ven muy afectados por datos faltantes. A
veces faltan datos muéstrales por el azar, lo cual implica que la posibilidad de que falte
un dato no tiene ninguna relación con sus valores u otros valores. Sin embargo, algunos
datos faltan debido a factores especiales, como los individuos con bajos ingresos que
son menos proclives a reportar cuánto dinero gana.
Números precisos “en la actualidad hay 103,215, 027 hogares en estados unidos”.
Puesto que estas cifras muy precisa, mucha gente considera erróneamente que también
es exacta. En este caso, el número de subestimado y sería mejor decir que el número de
hogares es aproximadamente de 103 millones.
En los siguientes ejercicios utilice el pensamiento crítico para elaborar una alternativa
Con base en un estudio que revela que las personas que se gradúan de la universidad
viven más tiempo que quienes no lo hacen, un investigador concluye que el estudio
provoca que la gente viva más tiempo.
Un estudio reveló que en la ciudad de Tierra Blanca se expiden mas multas por exceso
de velocidad a los individuos de nivel económico más bajo que a las personas que
cuentan con alguna empresa o microempresa. Por lo tanto se cree que los individuos de
recursos bajos exceden la velocidad límite más que las personas con un nivel económico
de alto.
El New York Times publico un articulo que incluía la siguiente afirmación: “porfin, el
chocolate ocupa el lugar que merece en la pirámide alimenticia, junto a sus vecinos de
clase alta: el vino tinto, las frutas, los vegetales y el té verde. Varios estudios, reportados
en el Journal Nutrition revelaron que, después de comer chocolates, los sujetos a prueba
incrementaron los niveles de antioxidantes en su sangre. El chocolate contiene
flavonoides, antioxidantes asociados con la disminución del riesgo de enfermedades
cardiacas y embolias. Mars, Inc., la empresa de dulces, y la chocolate manufactures
Association financiaron gran parte de la investigación”. ¿Qué es incorrecto en este
estudio?
Cuando la autora Shere Hite escribió la Mujer y el amor: Una revolución cultural en
progreso, basó sus conclusiones en las 4500 respuestas que recibió después de enviar
por correo 100 000 cuestionarios a diversos grupos de mujeres. ¿Es probable que sus
conclusiones sean validas, en el sentido de que puedan aplicarse a la población general
de todas las mujeres? ¿Por qué?
El senado de la republica entró en audiencia para considerar una ley que obligaba a los
motociclistas a usar cascos. Algunos motociclistas testificaron que habían participado
en choques donde los cascos resultaron inútiles. ¿Qué grupo importante no fue capaz de
testificar?
ESTADÍSTICA DESCRIPTIVA
Cuando ya se tienen los datos de la muestra, ahora de deben organizar de una manera
conveniente para que el investigador pueda percibir rápidamente el comportamiento de
la distribución de los datos.
Para esto se debe hacer una tabla de frecuencias, que básicamente es un agrupamiento
de datos en grupos pequeños llamados intervalos de clase o clases. La tabla de
frecuencias se hace con datos que son números reales correspondientes a una variable
continua.
Longitud de los intervalos de clase. Sea MAX la mayor observación de la muestra y sea
MIN la menor observación de la muestra. Luego, la longitud de clases es:
−
ú
Lo anterior es considerando que todas las clases tienen la misma longitud.
Ejercicio 1.2 Lo siguiente son horas por semana dedicadas a ver TV de una muestra de
50 estudiantes.
16, 24, 22, 21, 23, 25, 15, 18, 20, 20, 22, 18, 15, 23, 21, 21, 21, 15, 21, 22, 21, 18, 21,
18, 22, 21, 23, 19, 19, 20, 19, 22, 22, 20, 22, 21, 19, 20, 20, 15, 22, 21, 17, 23, 20, 20,
18, 19, 20, 18.
EJERCICIOS
1.5 A continuación se presenta la cantidad de minutos que toma viajar desde el hogar al
trabajo, para un grupo de maestros con automóvil.
28 25 48 37 41 19 32 26 16 23 23 29 36
31 26 21 32 25 31 43 35 42 38 33 28
La probabilidad conforma los cimientos sobre los cuales se construyen los métodos
importantes de la estadística inferencial. Como un sencillo ejemplo, supongan que
usted ha creado un procedimiento de selección del genero y afirma que este
incrementa en gran medida la probabilidad de que un bebe sea niña. Suponga que los
resultados de pruebas independientes con 100 parejas demuestran que su procedimiento
dio por resultado 98 niñas y solos 2 niños. Aun que existe la probabilidad de que nazcan
98 niñas en 100 nacimientos sin ningún tratamiento especial, tal probabilidad es tan
bajo que se rechazaría como una explicación razonable. En cambio, se reconocería de
manera general que los resultados indican fuertes evidencias para afirmar que la técnica
de selección del género es efectiva. Esta es precisamente la forma de pensar de los
especialistas en estadística: rechazan las explicaciones basadas en probabilidades muy
bajas y utilizan la regla del suceso infrecuente para la estadística inferencial.
Ejemplo: Genotipo como parte de un estudio sobre los genotipos AA, Aa, aA y aa,
anote cada genotipo individual en una ficha, luego mezcle las cuatro fichas y elija uno al
azar. ¿Qué probabilidad tiene de elegir el genotipo Aa?
Solución puesto que el espacio muestral (AA,Aa,Aa,aa) en este caso incluye resultados
igualmente posibles, empleamos el método clásico (regla 2) para obtener.
P (Aa)=1/4
Ejemplo: choques de meteoritos ¿Cuál es la probabilidad de que su automóvil sea
impactado por un meteorito este año?
Solución: en ausencia de datos históricos de meteoritos que chocan con automóviles, no
podemos usar el método de frecuencias relativas de la regla 1. Hay dos posibles
resultados (chocar o no chocar), pero no son igualmente probables, por lo que no
podemos usar el método clásico de la regla 2. Esto nos deja con la regla 3, por medio de
la cual hacemos un estimado subjetivo. En este caso todos sabemos que la probabilidad
en cuestión es muy, muy pequeña. Estimemos que sea, digamos, 0.000000000001
(equivalente a una en un billón). Este estimado subjetivo, basado en nuestro
conocimiento general, puede encontrarse en el campo general de la probabilidad real.
Actividad:
Estimar la probabilidad de que cuando se dejen caer, una tachuela quede con la
punta hacia arriba. ¿Cuántos intentos son necesarios para obtener un resultado que
parezca ser razonablemente preciso?
Definición
Los sucesos A y B son disjuntos (o mutuamente excluyentes) cuando ambos no pueden
ocurrir al mismo tiempo. (Es decir, los sucesos disjuntos no se traslapan).
Sucesos complementarios
Dijimos que A consiste en todos los resultados en lo que el suceso A no ocurre. Los
sucesos A y A debe ser disjuntos, porque es imposible que un suceso y un complemento
ocurren al mismo tiempo
P(A) + P(A) = 1
P(A) = 1 – P(A)
P(A) = 1 – P(A)
EJERCICIOS
En los ejercicios del 1 al 4, utilice los datos de la siguiente tabla que resume los
resultados de 985 muertes de peatones causadas por accidentes.
¿El peatón estaba intoxicado?
¿El conductor Si No
estaba intoxicado? Si 59 79
No 266 581
2.- si se elige al azar una de las muertes de peatones, calcule la probabilidad de que el el
peatón no estuviera intoxicado o que el conductor no estuviera intoxicado.
3.- si se elige al azar una de las muertes de peatones, calcule la probabilidad de que el
peatón estuviera intoxicado o que el conductor no estuviera intoxicado.
4.- si se elige al azar una de las muertes de peatones, calcule la probabilidad de que el
conductor estuviera intoxicado o que el peatón no estuviera intoxicado.
Simulación
Ejercicio:
Suponga que un lote consiste en 500 teléfonos celulares y que la tasa general de
aparatos defectuosos es del 2%. Realice una simulación generando 500 números, cada
uno de ellos entre 1 y 100. Cualquier resultado de 1 y 2 representa un teléfono celular
defectuoso en tanto que los resultados de 3,4,5,….100, representan teléfonos celulares
sin defectos. El número medio de defectos en los lotes debe ser 10. Sin embargo
algunos lotes tendrán menos o más de 10 defectos.
a) Utilice Minitab o Excel para simular la fabricación de teléfonos celulares y
registre el número de defectos en este lote simulado.
b) Repita el inciso a para tener un total de 20 lotes simulados
c) Utilice los resultados del inciso b) para estimar la probabilidad de que el numero
de defectos en un lote sea exactamente 10. ¿cree usted que esta estimación es
hasta cierto punto exacta?, ¿Por qué?
Calcule la probabilidad de cada suceso cuando una pareja tiene tres hijos
1.- De entre tres hijos hay exactamente una niña
2.- De entre tres hijos hay exactamente hay exactamente dos niñas
3.- De entre tres hijos todos son niñas.
a.- De los 100 dulces M&M listados estime la probabilidad de obtener un dulce azul al
elegir al azar un dulce M&M sencillo.
b.- The Mars Company afirma que el 24ª % de sus dulces M&M sencillos son azules.
¿La estimación del inciso a) coincide aproximadamente con esta afirmación o al parecer
existe una gran diferencia?
OLDM&M: Data Set 14 in this book includes recent weights from a sample of M&M plain
candies, but this data set includes weights from a sample collected in 1993.
Una variable aleatoria es aquella (casi siempre representada por x) que tiene un solo
valor numérico determinado por el azar, para cada resultado de un procedimiento.
Definición
Solución.
Una vez más, es muy importante asegurarse de que tanto x como p se refieran al
mismo concepto de “éxito”. En este ejemplo usamos x para contar el número de
México- estadounidense, de manera que p debe ser la probabilidad de un México –
estadounidense. Por siguiente por siguiente, x y p si usan aquí el mismo concepto de
éxito (México – estadounidense)
Así como existen muchas distribuciones uniformes diferentes (con distintos rangos
de valores), también existen muchas distribuciones normales diferentes, las cuales
dependen de dos parámetros: la medida poblacional µ y la desviación estándar
poblacional σ.
1.- la tabla A-2 está diseñada únicamente para la distribución normal estándar, que
tiene una medida de 0 y una desviación estándar de 1.
2.- la tabla A-2 abarca dos páginas, una para las puntuaciones Z negativas y la otra
para las puntuaciones z positivas.
3.- cada valor en la tabla es una área acumulativa desde la izquierda hasta un límite
vertical por arriba de la puntuación z especifica.
4.- cuando construya una grafica, evite la confusión entre puntuaciones z y las áreas.
El área de forma directa, pero podemos emplearla para encontrar que z= -2.00
corresponde al área de 0.0228, y que z= 1.50 corresponde al área de 0.9332, como
se observa en la figura.
Para trabajar con una distribución normal que no es estándar, simplemente estandarice
los valores para poder continuar utilizando los mismos procedimientos de la
sección anterior
1.- dibuje una curva normal, indique la media y los valores específicos de x, después
sombree la región que representa la probabilidad deseada.
3.- Remítase a la tabla A-2 para encontrar el área de la región sombreada que
constituye la probabilidad deseada.
Solución:
Paso 1: Observe la figura , que incluye la siguiente información: los hombres tienen
pesos que se distribuyen normalmente, con una media de 172 lb y una desviación
estándar de 29 lb, y la región sombreada representa a los hombres con pesos menores
de 174 libras.
Paso 2: para usar al tabla A-2 primero debemos de aplicar al formula 1.1 para
transformar la distribución normal no estándar a una distribución normal estándar. El
peso de 174 libras se convierte a una puntuación z de la siguiente manera:
Pasó 3: si nos remitimos a la tabla A-2 y utilicemos z = 0.07, encontramos que el área
acumulativa a la izquierda de z= 0.07 es un área de 0.5279.
EJERCICIOS:
En los siguientes ejercicios suponga que las lecturas de los termómetros se distribuyen
normalmente, con una media de 0 y una desviación estándar de 1ºC. Se selecciona
aleatoriamente un termómetro y se prueba. En cada caso, dibuje un bosquejo y calcule
la probabilidad de cada lectura.
a) Menor que -1
b) Menor que 1
c) Mayor que 1.25
d) Mayor que -1.75
e) Entre 1 y 2
f) Entre -2.45 y -2.00
g) Mayor que 3.52
h) Mayor que 0
1.- En una organización para personas altas, se requiere que las mujeres midan al menos
70 pulgadas ¿qué porcentaje de la mujeres cumple con este requisito?
R=
3.- En estados unidos los pesos al nacer se distribuyen normalmente, con una media de
3420g y una desviación estándar de 495 g. si un hospital desea establecer condiciones
especiales de observación para el 2% de los bebes menos pesados, ¿Qué peso se
utilizaría para establecer un punto de corte que separe al 2% de los bebes menos
pesados de los demás?
Determinación de la normalidad
1.- Histograma: construya un histograma. Rechace la normalidad si el histograma
difiere mucho de la forma de campana.
2.- valores extremos: rechace la normalidad si existe más de un valor extremo.
3.- Grafica cuantilar normal: si el histograma es básicamente simétrico y existe a lo
sumo un valor extremo, construya una Grafica cuantilar normal.
Requisitos:
Definición
Definición
Un intervalo de confianza se asocia con un nivel de confianza, como 0.9 (95%).el nivel
de confianza nos da la tasa de éxitos del procedimiento que se utiliza para construir el
intervalo de confianza. El nivel de confianza suele expresarse como la probabilidad o
área (alfaungriega
1−∝ Para
confianza. minúscula).
nivel de confianza El
de valor de ∝ ∝=0.5.
0.95 (95%) es el complemento
Para un nivel del nivel de
de confianza
de 0.99 (99%). ∝=0.01.
Definición
Las opciones más comunes para el nivel de confianza son 90% (con ∝= 0.10) , y
95%,(con ∝= 0.50), y 99%(con ∝= 0.01). La opción del 95% es la más común
puesto que provee un equilibrio entre presión (reflejada en el ancho del intervalo de
confianza) y confiabilidad (expresada por el nivel de confianza).
Errónea: “Existe un 95% de probabilidad de que el valor real de p este entre 0.381 y
0.497.”
Para cualquier punto especifico en el tiempo, una población tiene un valor fijo y
constante de p, un intervalo de confianza construido a partir de una muestra que incluye
o no a p. De manera similar, si un bebe acaba de nacer y el médico esta por anunciar su
género, es incorrecto decir que existe una probabilidad de 0.5 de que sea niña; el bebe es
o no una niña, y no hay una probabilidad implicada. Una proporción poblacional p es
como el bebe que acaba de nacer: el valor de p es fijo, de manera que los limites del
intervalo de confianza contienen o no a p. por eso es incorrecto decir que existe un 95%
de probabilidad de que p se localice entre el los valores tales como 0.381 y 0.497.
Un nivel de confianza el 95% nos dice que el proceso que estamos usando, a la larga,
dará por resultado límites del intervalo de confianza que contienen la proporción real
de la población el 95% del tiempo. Suponga que la proporción real de todas las
identificaciones correctas de la mano por partes de los terapeutas de contacto es p=0.5.
Entonces, el intervalo de confianza obtenido de los datos muéstrales no incluiría la
proporción poblacional, ya que la proporción poblacional real de 0.5 no se encuentran
entre 0.381 y 0.497. Con un 95% de confianza, esperamos que 19 de las 20 muestras
den por resultado intervalos de confianza que contienen el valor real de p.
Valores críticos.
Definición
Un valor crítico es el número en línea limítrofe que separa estadísticos muestrales que
tienen mayor probabilidad de ocurrir de aquellos que no tienen probabilidad de ocurrir.
El número 2 ∝∝ es un valor crítico, una puntuación z con la propiedad de que separa
una área de 22 en la cola derecha de la distribución normal estándar. (Véase la figura
7-2)
Cuando reunimos un conjunto de datos muéstrales, como los datos sobre la terapia de
contacto de Emily Rosa en el problema del capítulo (donde el 44% de los 280 ensayos
correspondieron a identificaciones correctas), podemos calcular la proporción muestral
y esta proporción muestral suele ser diferente de la población poblacional p. La
diferencia entre la proporción muestral y la proporción de la población se considera un
error. Ahora definiremos el margen de error E como sigue.
Definición
Cuando se utilizan los datos de muestra aleatoria simple para estimar una proporción p,
el margen de error, denotado por E, es la diferencia máxima probable (con
probabilidad 1- ∝) entre la proporción muestral de observada y el valor real de la
proporción poblacional p. El margen de error E también se conoce llama error máximo
del estimado y se calcula multiplicando el valor critico por la desviación estándar de las
proporciones muestrales, como se indica en la fórmula 1.2
Dada la formula en que se define el margen de error E, existe una probabilidad de que
una proporción muestral sea errónea por más de E.
– , +
Regla de redondeo para estimados de intervalos de confianza de p.
Redondee los límites del intervalo de confianza para p a tres dígitos significativos.
Con base en los resultados anteriores, podemos resumir el procedimiento para construir
un estimado del intervalo de confianza de una proporción poblacional como sigue.
Procedimiento para construir un intervalo de confianza para p.
Ejercicios:
Requisitos:
Por lo general la media de la muestra brinda el mejor estimado, por las siguientes dos
razones:
SOLUCIÓN. Para los datos muestrales, =76.3. Como la media muestral es el mejor
estimado puntual de la media poblacional , concluimos que el mejor estimado puntual
de los pulsos cardiacos de todas las mujeres es 76.3.
Intervalo de confianza.
O ±E o ( - E, +E)
Definición
-E< <
+E O
±E
( - E, +E)
Correcta: “tenemos una confianza del 95% de que el intervalo de 72.4 a 85.2 realmente
tiene el valor verdadero de ”.
Esto significa que si seleccionamos muchas muestras diferentes del mismo tamaño y
construimos los intervalos de confianza correspondiente a la larga, el 95% de estos
contendrían realmente el valor de . (Esta interpretación correcta se refiere a la tasa de
éxito del proceso que se usa para estimar la media poblacional).
Con base en datos muestrales se obtiene el siguiente intervalo de confianza del 95%:
2.5<µ<6.0. Escriba un enunciado que interprete el intervalo de confianza de
manera correcta.
1.- salarios de ex docentes del ITSTB que tomaron un curso de estadística: confianza
del 95%; n=41, = $67,200, y se sabe que σ es $18,277.
Requisitos:
He aquí aspecto clave de esta sección: si no se conoce, pero los requisitos anteriores
se satisfacen, utilizamos la distribución t de student (en vez de la distribución normal),
que desarrollo William Gosset (1876-1937).
Definición.
Por ejemplo, si 10 estudiantes tienen puntuaciones de examen con una media de 80,
podemos asignar con libertad valores a las primeras 9 puntuaciones, pero la decima
puntuación se calcula la suma de las 10 puntuaciones debe ser 800 entonces la decima
puntuación debe ser a 800 menos la suma de la primeras 9 puntuaciones. Puesto que
esas 9 primeras puntuaciones pueden seleccionarse con libertad para adoptar cualquier
valor, decimos que existen 9 grados de libertad disponibles. Para las aplicaciones de
esta sección el número de grados libertad es simplemente el tamaño muestral menos 1.
Grados de libertad = n – 1.
Una muestra de tamaño n=23 es una muestra aleatoria simple seleccionada de una
población distribuida normalmente. Calcule el valor crítico ∝ 2 correspondiente a un
nivel de confianza del 95%.
Puesto que n=23, el numero de grados de libertad está dado por n-1 =22. Utilizando la
tabla A-3, localizamos el renglón 22 con respecto a la columna de la extrema izquierda.
Al igual que en la sección anterior, un nivel de confianza de 95% corresponde a ∝ =
0.05, de manera que encontramos los valores listados en la columna para un área de
0.05 en dos colas. El valor correspondiente el renglón para 22 grados de libertad y la
columna para un área de 0.05 en dos colas es 2.074; entonces∝ ∝ 2 = 2.074 ahora que
sabemos cómo encontrar valores críticos denotados por 2 podemos describir el
margen de error E de ese intervalo de confianza.
-E< <
+E Donde
= ∝/
√
( - E, +E)
Ejercicios:
Ejemplo: en un estudio de los efectos sobre los bebes del consumo de cocaína durante el
embarazo, se obtuvieron los siguientes datos de pesos al nacer: n= 190, =2700g,
s=645g. el diseño del estudio justifica el supuesto de que la muestra puede tratarse como
una muestra aleatoria simple. Utilice los datos muestrales para construir un estimado del
intervalo de confianza del 95% de µ, el peso medio al nacer de todos los bebes hijos de
madres que consumieron cocaína durante el embarazo.
-E< < +E
Con base en los datos muestrales, tenemos una confianza del 95% de que los limites de
de 2608 g y 2792 g realmente contienen el valor del peso medio al nacer.
EJERCICIOS:
El peso perdido por una dieta de slim fast: 95% de confianza; n=40, =3.0 kg,
s=4.9 kg. (Suponga que la población tiene una distribución normal)
Requisitos:
( )
Formulación 1.5 =
= Varianza muestral
= varianza poblacional
Denotamos chi cuadrada por , que se pronuncia “ji cuadrada”. Para calcular
valores críticos de la distribución chi cuadrada, remitida a la tabla A-4. La
distribución chi cuadrada se determina por el número de grados de libertad y en este
capítulo usamos n-
1 grados de libertad.
En la tabla A-4 cada valor critico de corresponde a una área que se encuentra en el
renglón superior de la tabla, y esa área representa la re un intervalo de región
acumulativa localizada a la derecha del valor critico.
( ) < <( )
Ejemplo:
( ). ).
.
< <( .
= .0086< <.0228
Con base en este resultado, tenemos una confianza del 95% de que los limites de .0086g
y .0228 g contienen el valor real de σ.
Pruebas de Hipótesis para una muestra
1.- introducción
Dentro del estudio de la inferencia estadística, se describe como se puede tomar una
muestra aleatoria y a partir de esta muestra estimar el valor de un parámetro poblacional
en la cual se puede emplear el método de muestreo y el teorema del valor central lo que
permite explicar cómo a partir de una muestra se puede inferir algo acerca de una
población, lo cual nos lleva a definir y elaborar una distribución de muestreo de medias
muestrales que nos permite explicar el teorema del límite central y utilizar este teorema
para encontrar las probabilidades de obtener las distintas medias maestrales de una
población.
En este caso es necesario hacer una estimación puntual que es un valor que se usa para
estimar un valor poblacional. Pero una estimación puntual es un solo valor y se requiere
un intervalo de valores a esto se denomina intervalo de confianza y se espera que dentro
de este intervalo se encuentre el parámetro poblacional buscado. También se utiliza una
estimación mediante un intervalo, el cual es un rango de valores en el que se espera se
encuentre el parámetro poblacional
Tenemos que empezar por definir que es una hipótesis y que es prueba de hipótesis.
La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis
nula siempre contiene un signo de igualdad con respecto al valor especificado del
parámetro.
Tipos de errores
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es
aceptada cuando de hecho es falsa y debía ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.
El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán
apoyado exclusivamente en el análisis de una parte de ésta. De la probabilidad con la
que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la
muestra requerida. Las contrastaciones se apoyan en que los datos de partida siguen una
distribución normal
Existe una relación inversa entre la magnitud de los errores α y β: conforme a aumenta,
β disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas
estadísticas. Lo ideal sería establecer α y β. En la práctica se establece el nivel α y para
disminuir el Error β se incrementa el número de observaciones en la muestra, pues así
se acortan los limites de confianza respecto a la hipótesis planteada .La meta de las
pruebas estadísticas es rechazar la hipótesis planteada. En otras palabras, es deseable
aumentar cuando ésta es verdadera, o sea, incrementar lo que se llama poder de la
prueba (1- β) La aceptación de la hipótesis planteada debe interpretarse como que la
información aleatoria de la muestra disponible no permite detectar la falsedad de esta
hipótesis.
Tipos de prueba
Ejemplo
H0 : µ = 200
H1 : µ ≠ 200
H0 : µ ≥ 200 H0 : µ ≤ 200
En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar
(σ) poblacional, o cuando el valor de la muestra es grande (30 o más), el valor
estadístico de prueba es z y se determina a partir de:
En la prueba para una media poblacional con muestra pequeña y desviación estándar
poblacional desconocida se utiliza el valor estadístico t.
Distribución muestral del valor estadístico z, con prueba de una cola a la derecha
Ejemplo
Datos:
Ho: μ═350
Ha: μ≠ 350
α═0.05
Columna1
Media 372.8
Mediana 381
Moda 405
Curtosis 0.36687081
Coeficiente de
asimetría 0.04706877
Rango 234
Mínimo 276
Máximo 510
Cuenta 30
Nivel de confianza
(95.0%) 19.571868
La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos
colas, la mitad de 0.05, es decir 0.025, está en cada cola. el área en la que no se rechaza
Ho está entre las dos colas, es por consiguiente 0.95. El valor critico para 0.05 da un
valor de Zc = 1.96.
One-Sample Z
Las aseveraciones sobre una proporción poblacional suelen probarse utilizando una
distribución normal como aproximación de la distribución binomial.
Requisitos:
El estadístico de prueba para probar una aseveración sobre una proporción es:
−
=
Ejemplo: De los resultados de una encuesta a 703 empleados elegidos al azar, el 61%
obtuvo trabajo por medio de redes de contacto. Utilice los datos muestrales, con un
nivel de significancia de 0.05, para probar la aseveración de que la mayoría de los
empleados (más del 50%) consiguen su trabajo por medio de redes de contacto.
Paso 0
Paso 1
Paso 2
Paso 3
Paso 4
Paso 5
Paso 6
Paso 7
Paso 8
Paso 0
Paso 1
Paso 2
Paso 3
Paso 4
Paso 5
Paso 6
Paso 7
Paso 8
Minitab : Seleccione stat, Basic statics, 1 proportion, luego haga clic en el botón de
summarized data. Introduzca el tamaño de muestra y el numero de éxitos y después
haga clic en Options y proceda a introducir los datos en el cuadro sde dialogo. Para el
nivel de confianza introduzca el complemento del nivel de significancia. Para el valor
de test proportion, ingrese la proporción empleada en la hipótesis nula. Para alternative
seleccione el formarto usado para la hipótesis alternativa. En vez de usar una
aproximación normal, el procedimiento determinado por Minitab consiste en determinar
el valor P empleando un método exacto. Para utilizar el método de aproximación normal
presentado en este tema, haga clic en el botón de options y luego en el recuadro que dice
“use tests and interval based on normal distribution”.
1.- Más del 25% de los usuarios de internet pagan sus facturas en línea.
2.- El peso medio de mujeres que han ganado el título de nuestra belleza México es
igual 54.8846 kg.
3.- Las puntuaciones del CI de los profesores universitarios tienen una desviación
estándar menor que 15, que es la desviación estándar de la población general.
La aseveración es que más de 75% de los empleados están satisfechos con su trabajo, y
los estadísticos de muestra incluyen a 580 adultos empleados, de los cuales 516 afirman
sentirse satisfechos con su trabajo.
En 1997 una encuesta de 880 hogares estadunidenses revelo que 149 de ellos emplean el
correo electrónico. Utilice los resultados de esta muestra para probar la aseveración de
que más del 15% de los hogares estadunidenses emplean el correo electrónico. Use el
nivel de significancia de 0.05. ¿Sería válida la conclusión aun hoy? ¿Por qué?
√
Ejemplo: un fabricante de equipo deportivo desarrolla un nuevo sedal sintetico que
afirma tiene una resistencia media a la tensión de ocho kilogramos con una desviación
estándar de 0.5 kilogramos. Pruebe la hipótesis µ= 8 kilogramos contra la alternativa
µ≠8 kilogramos si se prueba una muestra aleatoria de 50 sedales y se encuentra que
tienen una resistencia media a la tensión de 7.8 kg. Utilice un nivel de significancia de
0.01.
Paso 1
Paso 2
Paso 3
Paso 4
Paso 5
Paso 6
Paso 7
Paso 8
Requisitos.
√
Propiedades importantes de la distribución t de Student
2.- Tiene la misma forma de campana que la distribución normal estándar; su forma más
ancha refleja una mayor variabilidad, lo que se espera cuando se utiliza s para estimar σ.
5.- Conforme aumenta el tamaño muestral n, esta distribución (t) se acerca más a la
distribución normal estándar.
Ejemplo:
Paso 0
Paso 1
Paso 2
Paso 3
Paso 4
Paso 5
Paso 6
Paso 7
Paso 8
Ordendelosdatosenlahojadetrabajo
Investigar valoresatípicos(marcadosenrojo).
1,0
0,9
0,8
0,7
Poten
cia ¿Quédiferenciapuededetectarconun
¿Cuáleslaprobabilidaddedetectar
unadiferencia?
tamañodemuestra
<40% 60% 90% 100
de13?
%
Diferencia
Potencia
0,032162 60,0
0,032162 0,04965 0,036769 70,0
5
Paraniveldesignif.=0,05ytamañodela 0,042165 80,0
muestra=13: 0,049655 90,0
Silamediaverdaderafueramayorquee
lobjetivopor
0,032162,ustedtendríaunaprobabilidadde6
0%dedetectar
ladiferencia.Sifuera0,049655may
or,tendríauna probabilidadde90,
Lapotenciaesunafuncióndeltamañodelamuestraydeladesviaciónestándar.Paradetectarunadif
erenciamenorque0,042165,considere aumentareltamañodelamuestra.
Ejercicios.
1.- Suponga que se seleccionó una muestra aleatoria simple de una población distribuida
en forma normal, obtenga la hipótesis nula, la alternativa, el estadístico de prueba, el
valor P, el valor o valores críticos y establezca la conclusión final.
2.- el conjunto de datos 2 del apéndice B incluye 106 temperaturas corporales con una
media de 98.20 ºF y una desviación estándar de 0.62ºF. Utilice un nivel de significancia
de 0.05 para probar la aseveración de que la temperatura media corporal es menor que
98.6ºF. con base en esos resultados, ¿Parece que la media de 98.6 ºF que suele utilizarse
es errónea?
Curso de Estadística
Básica
Prueba de hipótesis respecto a una desviación estándar
Requisitos:
= ( − 1)
Valores P y valores críticos: Utilice la tabla A-4, con gl= n-1 para el numero de grados
de libertad.
Propiedades de la distribución
Ejemplo:
Paso 0
Paso 1
Paso 2
Paso 4
Paso 5
Paso 6
Paso 7
Paso 8
En los siguientes ejercicios pruebe la aseveración dada. Suponga que se selecciona una
muestra aleatoria simple de una población distribuida normalmente. Utilice el método
tradicional de prueba de hipótesis.
2.- utilice un nivel de significancia de 0.01 para probar la aseveración de que los dulces
M&M de cacahuate tienen pesos que varían mas que los pesos de los dulces M&M
sencillos. La desviación estándar de los pesos de los dulces M&M sencillos es de 0.056
g. una muestra de 41 dulces M&M de cacahuate tienen pesos con una desviación
estándar de 0.31g. ¿Por qué los dulces de cacahuate tendrán pesos que varían mas que
los pesos de los dulces sencillos?
Observe que cuando se prueba la hipótesis nula de p1=p2, no hay necesidad de estimar
los parámetros individuales p1 y p2, si no que estimamos su valor común con la
proporción muestral agrupada que se describe a continuación.
Requisitos:
1.- tenemos proporciones de dos muestras aleatorias simples que son independientes.
( − )−( − )
=
+
= y =
+
=
+
=1−
Ejemplo:
La siguiente tabla incluye los resultados de una prueba clínica en la que se dio
tratamiento a pacientes con síndrome del túnel carpiano. Utilice los datos muestrales de
la tabla, con un nivel de significancia de 0.05 para probar la aseveración de que la tasa
de éxito de la cirugía es mejor que la tasa de éxito del entablillado.
Tratamiento
Cirugía Entablillado
Éxito un año después del 67 60
tratamiento
Número total de sujetos 73 83
tratados
Porcentaje de éxito 92% 72%
Paso 0
Paso 1
Paso 2
Paso 3
Paso 4
Paso 5
Paso 6
Paso 7
Paso 8
Minitab: seleccione stat de la barra del menú principal, luego seleccione basic statics,
luego 2 proportions. Haga clic en el botón summarize Data e ingrese los valores
muestrales. Haga clic en options e introduzca el nivel de confianza deseado. Si realiza
una prueba de hipótesis, ingrese el valor aseverado de p1-p2, seleccione el formato para
la hipótesis alternativa y haga clic en el cuadro para utilizar el estimado agrupado de p
para la prueba. Haga clic en OK dos veces.
1.- De 976 sujetos encuestados, el 7% consumió una bebida alcohólica cada día.
Suponga que usted planea utilizar un nivel de significancia de α=0.05 para probar la
aseveración de que p1=p2. Utilice los tamaños muestrales y los números de éxitos
dados para calcular a) el estimado agrupado , b) El estadístico de prueba z. c)los
valores críticos de z y d) el valor P
1.-
Requisitos
(∑ ) (∑ )(∑ )
Formula 1.6 =
(∑ ) (∑ ) (∑ ) (∑ )
Interpretación de r por medio de la tabla A-6: si el valor absoluto del valor calculado
de r excede el valor de la tabla de A-6, concluya que existe una correlación lineal
significativa. De lo contrario, no existe evidencia suficiente para sustentar la conclusión
de una correlación lineal.
Cuando en realidad no existe una correlación lineal entre x y y, la tabla A-6 lista valores
que son “críticos” en este sentido: separan valores comunes de r de aquellos que son
poco comunes.