Está en la página 1de 89

Curso de Estadística Bá sica

Ingeniería Industrial

11/07/2011
Instituto Tecnológico Superior de Tierra Blanca
I.I VIRIDIANA SÁNCHEZ VÁZQUEZ
Curso de Estadística
Básica

ESTRUCTURA DEL CURSO

• Conceptos basicos • Pruebas de


• Distribución de hipótesis
frecuencias e • Regresión Lineal
histogramas
• Probabilidad

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 2


Curso de Estadística
Básica

Día 1 Día 2
• ANOVA
• Diseño de
Experimentos

Día 3

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 3


Tema 1: Introducción a la Estadística

Una meta común e importante de la materia de estadística es la siguiente: aprender


acerca de un grupo grande examinando los datos de algunos de sus miembros. En dicho
contexto los términos muestra y población adquieren importancia. Las definiciones
formales de estos y otros términos básicos se muestran a continuación

Datos: son las observaciones recolectadas (como mediciones, géneros, respuestas de


encuestas).

Estadística: es un conjunto de todo el plan de estudios experimentos, obtener datos y


luego organizado, resumió, presentar, analizar, interpretar y llegar a conclusiones
basadas en datos.

Población: es el conjunto completo de todos los elementos (puntuaciones, personas,


medidas, etc.) Que se va a estudiar. El conjunto es completo porque incluye a todos los
objetos que se estuvieran.

Censo: es el conjunto de datos de cada uno de los miembros de la población.

Muestra: es un conjunto de miembros seleccionados de una población.

 Los datos muestran les deben reunirse de una forma adecuada, como a través de
un proceso de selección aleatoria.
 Si los datos muestran les no se reúnan de la forma apropiada, resultaron tan
inútiles que ninguna cantidad de estadística podrá salvarnos.

Estadística Descriptiva. Es la parte de la Estadística dedicada a colectar, organizar,


resumir, presentar y analizar datos.

Estadística Inferencial. Es la parte de la Estadística dedicada a generar conclusiones


válidas acerca de las características de “la fuente” de donde fueron obtenidos los datos.

Muestra Aleatoria. Es una muestra obtenida de la población de tal manera que todas las
posibles Muestras de igual número de observaciones tienen la misma probabilidad de
ser seleccionada. En otras palabras, en una muestra aleatoria solo el azar es “quien
decide” que elementos están en la muestra, se debe evitar cualquier procedimiento que
involucre la participación del investigador ya que inconscientemente se podría sesgar el
muestreo y se no representativo de la población.
Se dice que una muestra aleatoria es representativa de la población cuando tiene las
mismas características de la población, y el muestreo aleatorio es la manera con
mayores posibilidades de obtener una muestra representativa.
TIPOS DE DATOS

Concepto clave en la materia de estadística se trata totalmente de utilizar datos


muestrales para ser inferencias se (o generalizaciones) sobre una población completa.
Debemos saber y entender las definiciones de población, muestra, parámetro y
estadístico, ya que son básicas y fundamentales. También necesitamos reconocer la
diferencia entre datos cuantitativos y datos cualitativos. Tenemos que entender que
algunos números, como los códigos postales, no son cantidades en el sentido de que
realmente mide no cuenten algo. Los códigos postales son. En realidad, ubicaciones
geográficas, por lo que no tiene sentido hacer cálculos con ellos, como calcular su
promedio. En esta sección se describen distintos aspectos de la naturaleza de los datos
muestran les, los cuales pueden afectar de manera importante los métodos estadísticos
que se utilicen con ellos.

Definiciones

Parámetro es una medición numérica que escribe algunas características de una


población.

Estadístico es una medición numérica que describe algunas características de una


muestra.

Los datos cuantitativos consisten en números que representan conteos con mediciones.

Los datos cualitativos (o categóricos poder atributo) se dividen en diferentes categorías


que se distinguen por algunas características no numéricas.

Los datos discretos resultan cuando el número de valores posibles en un número finito
un número que “puede contarse” (es decir, el número de valores posibles es 0,1, 2,
etcétera).

Uno los datos continuos (numéricos) resultan de un infinito de posibles valores que
corresponden a alguna escala continua que cubre un rango de valores sin huecos,
interrupciones o asaltos.

Niveles de medición

El nivel de medición nominal se caracteriza por datos que consiste en exclusiva mente
en nombres, etiquetas o categorías. Los datos no se pueden acomodar en un esquema de
orden (como demás bajo al más alto).

Ejemplos veamos algunos ejemplos de datos muestrales a nivel de medición nominal.

1. Sí/no/indeciso: respuesta es decir, no e indeciso en una encuesta.


2. Colores: los colores de los automóviles conducidos por estudiantes
universitarios (rojo, negro, azul, blanco, magenta, púrpura, etcétera)
Puesto que los datos nominales carecen de orden y no tienen un significado numérico,
no se deben utilizar para hacer cálculos. En ocasiones se asigna números a las distintas
categorías (especialmente cuando los datos e codifican para utilizarse en computadoras),
pero estos números no tienen un significado computacional real y cualquier promedio
que se calcule carece de sentido.

Los datos están en el nivel de medición ordinal cuando pueden acomodarse en algún
orden, aunque no es posible determinar diferencias entre los valores de los datos con
tales diferencias carecen de significado.

Ejemplos veamos algunos ejemplos de datos muéstrales a nivel de medición ordinal.

1. Las calificaciones de un curso: un Profesor universitario asigna calificaciones de


A, B, C, D, D o F. Tales calificaciones se pueden ordenar, aunque no es posible
determinar diferencias entre tales calificaciones. Por ejemplo, sabemos que A es
mayor que B (por lo que hay un orden); no podemos restar B de A (por lo que
no se puede calcular las diferencias)
2. Rangos: con base en varios criterios, una revista ordena las ciudades de acuerdo
a su “ habitabilidad”. Dicho rangos (primero, segundo, tercero, etcétera)
determinan un orden. Sin embargo, las diferencias entre los rangos no tiene
ningún significado. Por ejemplo, la diferencia “del segundo menos el primero”
sugeriría 2-1 = 1, pero esta diferencia de 1 no tiene significado porque no es una
cantidad exacta que sea comparable con otras diferencias de este tipo. La
diferencia entre la primera y la segunda ciudades no es la misma que la
diferencia entre la segunda y la tercera ciudades. Utilizando los rangos de la
revista, la diferencia entre la ciudad de nueva York y Boston no se puede
comparar de forma cuantitativa con la diferencia entre San Luis y Filadelfia.

Los datos ordinales proporcionen información sobre comparaciones relativas pero no las
magnitudes de las diferencias. Por lo General, los datos son ordinales no deben
utilizarse para hacer cálculos como promedios, aunque en ocasiones esta norma se
infringe (como sucede cuando utilizamos calificaciones con letras para calcular una
calificación promedio).

El nivel de medición de intervalo se parece al nivel ordinal, pero con la propiedad


adicional de que la diferencia entre los valores de datos cualesquiera tiene un
significado. Sin embargo, los datos en este nivel no tienen punto de partida cero natural
inherente (donde nada de la cantidad está presente).

Ejemplos los siguientes ejemplos ilustran el nivel de medición de intervalo.

1. Temperaturas: las temperaturas corporales de 98.2 °F y 98.6° F son ejemplos de


datos a nivel de medición intervalo. Dichos valores están ordenados, y podemos
determinar su diferencia de 0.4°F. Sin embargo, no existe un punto de inicio
natural. Pareciera que el Valor de 0 °F no es un punto de partida cero natural,
sería incorrecto decir que 50°F es dos veces más caliente que 25°F.
2. Daños: los años 1000, 2008,1776 y 1492. (El tiempo no inician en el año cero,
por lo que el año cero es arbitrario y no constituye un punto de partida cero
natural que represente “la ausencia de tiempo”).

En nivel de medición de razón es similar a nivel de intervalo, pero con la propiedad


adicional de que sí tiene un punto de partida cero natural (donde el cero indica que nada
de la cantidad está presente). Para valores a este nivel, tanto las diferencias como las
proporciones tienen significado.

Ejemplos los siguientes ejemplos de datos al nivel de medición de razón. Observé la


presencia de un Valor ser natural, así como el uso de proporciones que significan “dos
veces” y “tres veces”.

1. Esos: los presos (en quilates) de anillos de compromiso de diamante (el cero
realmente representa la ausencia de 4 quilates que es dos veces el peso de 2
quilates).
2. Precios: los precios de libros de texto universitarios ($0 realmente representa
ningún costo y un libro de $90 es tres veces más caro que un libro de $30).

Este nivel de medición se denomina de razón porque el punto de partida cero hace que
las razones poco sientes tengan significado. Entre los cuatro niveles de medición, la
principal dificultad surge del distinguir entre los niveles de intervalo y de razón.
Sugerencia: para simplificar esta diferencia, utilice una sencilla “prueba razón”:
considere dos cantidades en las cuales un número es dos veces en otro y pregunté seis y
“dos veces” sirve para describir correctamente las cantidades. Puesto que un preso de
200 libras estos meses más pesado que un peso de sien libras pero 50°F no es dos veces
más caliente que 25°F, los presos están en el nivel de razón, mientras que las
temperaturas faringe y están en el nivel de intervalo. Para una comparación y un repaso
concisos, estudie la siguiente tabla que señala las diferencias entre los cuatro niveles de
medición.

Nivel Resumen Ejemplo

Nominal Solo categorías, los datos no pueden acomodarse Origen de


en un esquema de orden. participantes:
1 Córdoba
1 Orizaba
1 Puebla
Ordinal Las categorías están ordenadas pero no hay Automóviles de los
diferencias o carecen de significado. participantes:
3 medianos
2 compactos
De Las diferencias tienen un significado pero no hay Temperaturas de Tierra
intervalo punto de partida cero natural y los cocientes no Blanca:
tienen significado 20 ºC
40 ºC
50 ºC
De razón Hay un punto de partida cero natural y los Distancia de traslado
cocientes tienen significado. de los participantes.
5 Km
10 Km
220 Km

EJERCICIOS:

Consulte el conjunto de datos de la OECD que da información sobre censos, datos


económicos y comerciales de 29 países, de acuerdo a las variables presentadas en la
tabla, determine cuales son variables cualitativas y cuales son cuantitativas.

Variable Tipo
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11

Escriba la respuesta que considere correcta

Si un experimento produce datos que son de naturaleza continua, ¿los datos también
pueden ser cuantitativos o pueden ser cualitativos?

Determine si el valor dado es un estadístico o un parámetro

1.- Se selecciona una muestra de hogares y la media de personas por familia es de 2.58
(según los datos de la oficina censal mexicana) R= .

2.- En la actualidad el 42% de los gobernadores de las 50 entidades de Estados Unidos


son demócratas. R= .

3.- En un estudio de los 2223 pasajeros del Titanic, se encontró que 706 sobrevivieron
cuando se hundió. R= .
Determine si los valores dados provienen de un conjunto de datos discretos o continuos

1.- Velocidad de un coche (km/h) R= .

2.- Número de billetes de $20 en circulación en México, en cada momento.


R= .

3. Número de estudiantes matriculados en el ITSTB. R= .

Determine cuál de los cuatro niveles de medición es el más apropiado.

1.- Los números en las camisetas de los corredores de maratones R= .

2.- Las calificaciones que da la revista del consumidor de “la mejor compra,
recomendado, no recomendado”. R= .

3.- Los números de seguridad social R= .

4.- La distancia que recorren los estudiantes para llegar a la escuela R= .

5. Calificaciones de los participantes al curso de estadística. R= .

6. Cantidad de horas de estudio por semana de los estudiantes. R= .

Pensamiento Crítico
Esta sección está diseñada para ilustrar la forma en que se utiliza el sentido común
cuando pensamos críticamente acerca de datos y estadísticos. En esta sección, en vez de
memorizar métodos o procedimientos específicos, hay que enfocarse en el pensamiento
y el uso del sentido común al analizar datos. Es importante saber que cuando los datos
muéstrales se reúnen de manera inapropiada, como cuando se utiliza una muestra de
respuestas voluntarias (que se define más adelante en esta sección), ningún método
estadístico es capaz de producir resultados válidos.

La siguiente definición se refiere a uno de los usos incorrectos de la estadística más


comunes y graves.

Una muestra de respuesta voluntaria (o muestra auto seleccionada) es aquella en que


los propios sujetos deciden ser incluidos.

Por ejemplo, la revista Newsweek hizo una encuesta sobre el controvertido sitio web
Napster, que estuvo permitiendo el libre acceso a la copia de CD musicales, a los
lectores se les planteó la siguiente pregunta: “¿continuará utilizando Napster si tuviera
que pagar una cuota?” los lectores podían registrar sus respuestas en el sitio web
Newsweek. MSNDC. COM. De las 1873 respuestas recibidas, el 19% dijo que sí,
porque continúa siendo más barato que comprar los CD. Otro 5% dijo que sí, que se
sentirían más cómodos utilizándolo por una cuota. Cuando Newsweek o alguien más
hace una encuesta por internet, los propios individuos deciden participar, por lo que
constituye una muestra de respuesta voluntaria. Sin embargo, las personas con
opiniones extremas son más proclives a participar, por lo que su respuesta no son
representativas de toda la población. A continuación se presentan algunos ejemplos de
muestras de respuesta voluntaria que, por su naturaleza, tienen graves errores y no
deberíamos obtener conclusiones sobre una población, se muestra se décadas como
éstas:

 Encuestas por internet, donde los sujetos deciden si responden o no.


 Encuestas por correo, donde los sujetos decía si responden o no.
 Encuestas telefónicas, donde anuncios televisivos, de radio o de periódicos le
piden que llame voluntariamente a un número especial para registrar su opinión.

Con este tipo de muestras de respuesta voluntaria sólo se logran conclusiones válidas
sobre el grupo de gente específico que decidió participar; aunque una práctica común
consiste en afirmar o sacar conclusiones incorrectas sobre una población más grande.
Desde un punto de vista estadístico, una muestra de este tipo es defectuosa y no debe
usarse para hacer afirmaciones generales sobre una población más grande.

Muestras pequeñas Las conclusiones no se deben basar en muestras demasiado


pequeñas. Como ejemplo, el Children´s Defence Fund público Children Out of School
in America, donde se reporto que, de los estudiantes de secundaria suspendidos en una
region, el 67% fueron suspendidos al menos 3 veces. ¡Pero esta cifra está basada en una
muestra de tan sólo tres estudiantes! Los informes en los medios de comunicación no
mencionaron que el tamaño de la muestra era muy pequeño.

Gráficas Las gráficas, un como las de barras y las de pastel (circulares), se pueden
utilizar para exagerar O subestimar a la verdadera naturaleza de los datos. (En el
capítulo dos analizaremos diferentes tipos de gráficas). Las dos gráficas de la figura que
se muestra abajo, describe los mismos datos obtenidos de u. S. BUREAU OF
ECONOMIC ANALYSIS, aunque en el inciso B) está diseñado para exagerar la
diferencia entre el ingreso personal per cápita en California y nevada, su estado vecino.
Como el eje vertical no inicia en cero, la gráfica del inciso B) tiende a producir una
impresión subjetiva engañosa, provocando que los lectores crean de manera incorrecta
que la diferencia es mucho mayor de lo que realmente es. La figura enseña una lección
importante: para interpretar de manera correcta una gráfica, tenemos que analizar la
información numérica que va presentar, para no engañarnos por su forma General.
Pictogramas los dibujos de objetos, llamados pictogramas, también suelen ser
confusos. Algunos objetos que se utilizan comúnmente para describir datos son los
objetos tridimensionales, como las bolsas de dinero, sacó de monedas y tanques del
ejército (para gastos militares), barriles (para la producción de petróleo) y casas (para la
construcción de viviendas). Al dibujar este tipo de objetos artistas podrían crear falsas
impresiones que distorsionan las diferencias. Si usted duplica cada lado de un cuadrado,
el área no tan sólo se duplica, sino comenta en un factor de cuatro. Si usted duplica cada
lado de un cubo, el volumen no solamente se duplica, sino que aumenta en un factor de
ocho. Vea la figura donde el inciso a) está dibujado para describir correctamente la
relación entre el consumo diario de petróleo en estados unidos y Japón. En la figura a)
parece que estados unidos consume aproximadamente cuatro veces un más petróleo que
Japón. Sin embargo, el inciso b) de la figura se dibujó con barriles, en los que cada
dimensión está dibujado en proporción a las cantidades reales vea como la figura B)
exagera mucho la diferencia al crear la falsa impresión de que el consumo de petróleo
en estados unidos es aproximadamente 50 veces mayor que en el de Japón.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 10


Porcentajes En ocasiones utilizan porcentajes confusos o poco claros. Si usted toma el
100% de alguna cantidad, la está tomando toda. (No se requiere del 110 % de esfuerzo
para entender esta afirmación). Al referirse la pérdida de equipaje, continental Airlines
publicó anuncios que afirmaban que se trataba de una haría que “mejoraron un 100%
durante los últimos seis meses”. En un editorial el que criticaba de estadística, el new
York times interpretado correctamente que la cifra de mejora de un 100% significa que
ya no se pierde el equipaje: un logro que todavía no disfruta continental Airlines.

Preguntas predispuestas hay muchos aspectos que afectan las preguntas de encuestas.
Estas pueden estar “cargadas” o redactadas intencionalmente para obtenerlas respuesta
deseada. Observe las tasas reales de la respuesta “sea” para las diferentes formas de
redacción de una pregunta:

97% sí: “¿debería el Presidente utilizar su poder de veto para eliminar los
desperdicios?”

57 % sí: “ ¿debería el Presidente utilizar su poder de veto uno?”

Orden de las preguntas En ocasiones las preguntas de una encuesta se sesgan de


manera no intencional debido a factores como el orden de los reactivos que se someten
a consideración. Observé estas preguntas de una encuesta aplicada en Alemania:

 ¿Cree usted que el tránsito vehicular contribuye a la contaminación del aire más
o menos que la industria?
 ¿Cree usted que leyendo se contribuye la contaminación del aire más o menos
que el tránsito vehicular?

Cuando se presentó primero el tránsito, el 45% culpo a este factor, y el 27% a la


industria; cuando la industria se presentó primero, el 24 % culpo al tránsito y el 57%
culpó a la industria.

Falta de respuesta Existe una falta de respuesta cuando alguien se rehúsa a responder
una pregunta de encuesta o cuando la persona no está disponible. Cuando se plantean
preguntas de crecido en los últimos años, en parte debido a que muchos tele-
vendedores persistentes tratan de vender bienes o servicios, iniciando con un argumento
de venta similar a un encuesta de opinión.

Datos faltantes En ocasiones los resultados se ven muy afectados por datos faltantes. A
veces faltan datos muéstrales por el azar, lo cual implica que la posibilidad de que falte
un dato no tiene ninguna relación con sus valores u otros valores. Sin embargo, algunos
datos faltan debido a factores especiales, como los individuos con bajos ingresos que
son menos proclives a reportar cuánto dinero gana.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 11


Correlación y casualidad correlación no implica causalidad. Esto significa que cuando
encontramos una asociación estadística entre dos variables, no podemos de concluir que
una de las variables ser causa de (o lo que afecta directamente a) la otra variable. Si
encontramos una correlación entre la riqueza y el CI, no podemos concluir que el
coeficiente intelectual de una persona afecta directamente su riqueza, ni que la riqueza
de una persona afecta directamente su puntuación de CI. En los medios de
comunicación masiva son muy comunes los reportes de una correlación recién
encontrada con una redacción que indicado implica directamente que una de las
variables de causa de la otra.

Estudios para el propio beneficio En ocasiones los estudios reciben el patrocinio de


grupos con intereses específicos que buscan promover. Por ejemplo, kiwi brands, un
fabricante de los lustrador para calzado, encargó un estudio que dio como resultado la
siguiente aseveración impresa en algunos periódicos: “ de acuerdo con la encuesta
nacional de 250 empleadores profesionales, la razón más común por la que un
solicitante de empleo no logró dar una buena impresión fue por llevar los zapatos
desaseados”. Debemos ser muy cautos con encuestas como éstas, donde el patrocinador
puede obtener ganancias monetarias con base en los resultados. En los últimos años ha
aumentado la preocupación por la práctica de las empresas farmacéuticas financiera
médicos que realizan experimentos clínicos y reportan sus resultados en revistas de
prestigio, como no Journal of the American Medical Association.

Números precisos “en la actualidad hay 103,215, 027 hogares en estados unidos”.
Puesto que estas cifras muy precisa, mucha gente considera erróneamente que también
es exacta. En este caso, el número de subestimado y sería mejor decir que el número de
hogares es aproximadamente de 103 millones.

Imágenes parciales (el 90 % de todos nuestros automóviles, vendidos en este país en


los últimos diez años, continúa circulando”. Millones de consumidores escucharon ese
mensaje comercial y no se dieron cuenta de que el 90 % de los automóviles que el
anunciante vendió en este país se vendieron durante los últimos tres años por lo que la
mayoría de esos automóviles que circulaban estaban casi nuevos. La afirmación era
técnicamente correcta, aunque muy engañosa pues no presentaba los resultados
completos.

Distorsiones deliberadas en el libro Tainted Truth, un Cynthia Crossen cita un ejemplo


de la revista corporate travel que publicó resultados que mostraban que, entre las
compañías de renta de automóviles, Harris fue la ganadora en una encuesta realizada a
las personas que utilizan dicho servicio. Cuando Hertz solicitó información detallada
sobre la encuesta, la respuesta originales desaparecieron y el coordinador de encuesta de
la revista anuncio.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 12


EJERCICIOS

En los siguientes ejercicios utilice el pensamiento crítico para elaborar una alternativa

Considere un informe de los medios de comunicación masiva de que los automóviles


BMW causan que las personas estén saludables, ya que se ha descubierto que los
individuos que conducen automóviles BMW están más saludables que quienes no lo
hacen.

Con base en un estudio que revela que las personas que se gradúan de la universidad
viven más tiempo que quienes no lo hacen, un investigador concluye que el estudio
provoca que la gente viva más tiempo.

Un estudio reveló que en la ciudad de Tierra Blanca se expiden mas multas por exceso
de velocidad a los individuos de nivel económico más bajo que a las personas que
cuentan con alguna empresa o microempresa. Por lo tanto se cree que los individuos de
recursos bajos exceden la velocidad límite más que las personas con un nivel económico
de alto.

Utilice el pensamiento crítico para indicar lo que se pide

El New York Times publico un articulo que incluía la siguiente afirmación: “porfin, el
chocolate ocupa el lugar que merece en la pirámide alimenticia, junto a sus vecinos de
clase alta: el vino tinto, las frutas, los vegetales y el té verde. Varios estudios, reportados
en el Journal Nutrition revelaron que, después de comer chocolates, los sujetos a prueba
incrementaron los niveles de antioxidantes en su sangre. El chocolate contiene
flavonoides, antioxidantes asociados con la disminución del riesgo de enfermedades
cardiacas y embolias. Mars, Inc., la empresa de dulces, y la chocolate manufactures
Association financiaron gran parte de la investigación”. ¿Qué es incorrecto en este
estudio?

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 13


.

Cuando la autora Shere Hite escribió la Mujer y el amor: Una revolución cultural en
progreso, basó sus conclusiones en las 4500 respuestas que recibió después de enviar
por correo 100 000 cuestionarios a diversos grupos de mujeres. ¿Es probable que sus
conclusiones sean validas, en el sentido de que puedan aplicarse a la población general
de todas las mujeres? ¿Por qué?

El senado de la republica entró en audiencia para considerar una ley que obligaba a los
motociclistas a usar cascos. Algunos motociclistas testificaron que habían participado
en choques donde los cascos resultaron inútiles. ¿Qué grupo importante no fue capaz de
testificar?

ESTADÍSTICA DESCRIPTIVA

Cuando se describen, exploran y comparan conjunto de datos, cuando se describen,


exploran y comparan conjuntos de datos, las siguientes características suelen ser
sumamente importantes.

Característica importante de los datos

1. Centro: Valor promedio o representativos que indica la localización de la mitad


el conjunto de los datos.
2. Variación: medida de la cantidad en que los valores de los datos varían entre sí.
3. Distribución: la naturaleza o forma de la distribución de los datos (como en
forma de campana, uniforme o sesgada).
4. Valores extremos: valores muéstrales que están muy alejados de la vasta
mayoría de los demás valores de la muestra.
5. Tiempo: características cambiantes de los datos a través del tiempo.

“Cuidado con los Virus que Destruyen el Valioso Trabajo”

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 14


Distribución de frecuencias

Cuando ya se tienen los datos de la muestra, ahora de deben organizar de una manera
conveniente para que el investigador pueda percibir rápidamente el comportamiento de
la distribución de los datos.
Para esto se debe hacer una tabla de frecuencias, que básicamente es un agrupamiento
de datos en grupos pequeños llamados intervalos de clase o clases. La tabla de
frecuencias se hace con datos que son números reales correspondientes a una variable
continua.

Tablas de Frecuencias. Los datos se agrupan en clases o intervalos de clase, luego se


cuenta el número de observaciones que “caen” en cada clase.

Número de clases. Sea n el tamaño o número de observaciones en la muestra. Luego el


número de clases se puede determinar como √ , se recomiendan de 5 a 20 clases. Hay
otros criterios pero usaremos este que es muy sencillo. También se recomiendan un
mínimo de 5 clases y un máximo de 20 clases y evitar si son posibles las clases vacías.

Longitud de los intervalos de clase. Sea MAX la mayor observación de la muestra y sea
MIN la menor observación de la muestra. Luego, la longitud de clases es:

ú
Lo anterior es considerando que todas las clases tienen la misma longitud.

Frecuencia absoluta de una clase. Es el número de observaciones contenidas en dicha


clase.

Frecuencia relativa absoluta de una clase. Es su frecuencia absoluta dividida entre n.

Frecuencia acumulada absoluta de una clase. El número de observaciones menores al


límite superior de la clase.

Frecuencia acumulada relativa de una clase. Es su frecuencia acumulada absoluta


dividida entre n.

Ejercicio 1.2 Lo siguiente son horas por semana dedicadas a ver TV de una muestra de
50 estudiantes.
16, 24, 22, 21, 23, 25, 15, 18, 20, 20, 22, 18, 15, 23, 21, 21, 21, 15, 21, 22, 21, 18, 21,
18, 22, 21, 23, 19, 19, 20, 19, 22, 22, 20, 22, 21, 19, 20, 20, 15, 22, 21, 17, 23, 20, 20,
18, 19, 20, 18.

Se hará una tabla de frecuencias, primero debemos definir el número de clases.


Tenemos que √50= 7.071 que redondeando a entero nos da 7, luego usaremos 7 clases.
Ahora para obtener la longitud de clase, tenemos que MAX = 25 y MIN = 15 de donde

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 15


longitud de clase = (25 – 15)/7 = 1.43, es recomendable redondear la longitud de clase
hacia arriba para asegurar que el valor máximo de la muestra se incluya en la última
clase.
Entonces, la primera clase es el intervalo que inicia en el valor mínimo de la muestra
que es 15 hasta el valor 15 + 1.43 = 16.43, es decir el límite inferior de la primera clase
es 15 y el límite superior es 16.43. Luego, el límite superior de la primera clase es el
límite inferior de la segunda, tal que los límites de la segunda clase son: 16.43 y 16.43 +
1.43 = 17.86, y así sucesivamente. Otro valor importante es el valor central de cada
clase que se llama marca de clase, éste se obtiene promediando los límites del intervalo
de clase. Para la primera clase se tiene que la marca de clase es (15 + 16.43)/2 = 15.715,
para la segunda clase se tiene que la marca de clase es (16.43 + 17.86)/2= 17.145, etc.
La tabla 1.2 muestra los intervalos de clase y sus marcas de clase en las primeras tres
columnas.

Ahora obtenemos la frecuencia absoluta de cada clase, es decir la cantidad de valores de


la muestra ubicados en cada clase. Para la primera clase se tienen los valores: 15, 15, 15,
15,16, luego la primera clase tiene una frecuencia absoluta de 5. Para la segunda clase
solo se tiene al 17 lo cual da una frecuencia absoluta de 1, etc. El resto de las
frecuencias absolutas se muestran en la tabla 1.3.
Es recomendable que en la tabla de frecuencias se agregue la columna “conteo” en
donde se coloca la frecuencia absoluta de clase con la correspondiente cantidad de
líneas verticales como se muestra en la tabla 1.3, la razón de esto es que no da una
visión anticipada del aspecto del histograma. Observe que la suma de las frecuencias
absolutas debe ser igual a n.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 16


Ejercicio 1.3 Determinar las frecuencias faltantes en la tabla.

Ejercicio 1.4 La tabla siguiente muestra la cantidad de anuncios en 30 segundos que se


transmitieron por radio y fueron adquiridos por cada uno de los 45 miembros de una
asociación de agentes de ventas de automóviles. Organice los datos en una
representación de tallo y hoja. ¿Alrededor de que valores tienden a agruparse el número
de anuncios de publicidad? ¿Cuál es el menor número de anuncios adquiridos por un
agente de ventas? ¿Cuál es el mayor número de anuncios? (realizarlo mediante el
software Minitab)

96 93 88 117 127 95 113 96 108 94 148 156 139


142 94 107 125 155 155 103 112 127 117 120 112 135
132 111 125 104 106 139 134 119 97 89 118 136 125
143 120 103 113 124 138

Representación gráfica de una distribución de frecuencias

Histograma. Es una gráfica de la tabla de frecuencias, colocando una barra rectangular


sobre cada intervalo de clase. La longitud de la base es la longitud del intervalo de clase
y la altura es la frecuencia de clase.

EJERCICIOS

1.5 A continuación se presenta la cantidad de minutos que toma viajar desde el hogar al
trabajo, para un grupo de maestros con automóvil.

28 25 48 37 41 19 32 26 16 23 23 29 36
31 26 21 32 25 31 43 35 42 38 33 28

a) ¿Cuántas clases serian recomendables?

b) ¿Qué intervalo de clase sugiere?

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 17


c) ¿Qué valor sugiere como límite inferior de la primera clase?

d) Organice los datos en una distribución de frecuencias


LI MC LS CONTEO F FR FAA FAR

e) Realice el histograma y de una conclusión acerca de la distribución de los datos.

Conceptos básicos de las medidas de tendencia central

Una medida de tendencia central es un valor que se encuentra en el centro o a la mitad


de un conjunto de datos.

La media aritmética. Es la suma de los datos dividida entre n.


~
La mediana X . Es el valor cuya frecuencia acumulada relativa es el 50% (el 2º.
cuartil). Para calcular la mediana, primero se ordenan los datos en forma creciente
(de menor a mayor). Luego, si n es un número impar la mediana es el valor ubicado
en el “centro” de los datos. Si n es par, la mediana se obtiene promediando los dos
valores centrales.

La Moda. La moda es el valor con mayor frecuencia

Conceptos básicos de las medidas de dispersión


Medidas de dispersión. Tratan de medir el alejamiento o distanciamiento de los
datos. Mientras este valor sea más grande significa que los datos están muy
alejados, y mientras esta medida sea menor, significa que los datos están muy juntos o
compactos.

El Rango. Es la diferencia; dato mayor – dato menor.

La otra medida importante de dispersión es la varianza, pero hay dos tipos de


varianza, la varianza poblacional y la varianza muestral. La primera se aplica cuando
lo que se tiene es la población (cosa en es poco usual). La varianza muestral se
aplica cuando se tiene una muestra aleatoria de la población y con ella se desea
estimar la varianza poblacional

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 18


Probabilidad

La probabilidad conforma los cimientos sobre los cuales se construyen los métodos
importantes de la estadística inferencial. Como un sencillo ejemplo, supongan que
usted ha creado un procedimiento de selección del genero y afirma que este
incrementa en gran medida la probabilidad de que un bebe sea niña. Suponga que los
resultados de pruebas independientes con 100 parejas demuestran que su procedimiento
dio por resultado 98 niñas y solos 2 niños. Aun que existe la probabilidad de que nazcan
98 niñas en 100 nacimientos sin ningún tratamiento especial, tal probabilidad es tan
bajo que se rechazaría como una explicación razonable. En cambio, se reconocería de
manera general que los resultados indican fuertes evidencias para afirmar que la técnica
de selección del género es efectiva. Esta es precisamente la forma de pensar de los
especialistas en estadística: rechazan las explicaciones basadas en probabilidades muy
bajas y utilizan la regla del suceso infrecuente para la estadística inferencial.

Regla el suceso infrecuente para estadística inferencial


Si, bajo un supuesto dado, la probabilidad de un suceso particular observado es
extremadamente pequeña, concluimos que el supuesto probablemente es incorrecto.
Fundamentos
Concepto clave: en esta sección se presenta el concepto básico de la probabilidad de un
suceso. Se presentarán tres métodos diferentes para calcular valores de probabilidad.
Veremos que los valores de probabilidad se expresan en números entre 0 y 1, inclusive.
Sin embargo, el objetivo más importante de esta sección consiste en aprender a
interpretar valores de probabilidad. Por ejemplo, debemos comprender que una pequeña
probabilidad, como 0.001, corresponde a un suceso que es infrecuente, en el sentido de
que ocurra en pocas ocasiones. En capítulos posteriores hablaremos de valores
específicos llamados “valores P” y veremos que estos tienen un papel suma mente
importante en diversos métodos de estadística inferencial. Sin embargo, tales valores P
solo son valores de probabilidad, como se describe en esta sección. Concéntrese en
desarrollar una intuición para interpretar valores de probabilidad, en especial los que
son relativamente pequeños.
Al considerar la probabilidad, tratamos con procedimiento (como tirar un dado,
contestar una pregunta de opción múltiple en un examen, o ser sometió a una prueba de
consumo de drogas) que producen resultados.
Un suceso es cualquier conjunto de resultados o consecuencias de un procedimiento.
Un suceso simple es un resultado o un suceso que ya no puede desglosarse en
componentes más simples.
El espacio muestral de un procedimiento se compone de todos los sucesos simples
posibles. Es decir, el espacio muestral está formado por todos los resultados que ya no
pueden desglosarse más.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 19


Ejemplo: anotación de un tiro libre. Calcule la probabilidad que tiene el jugador de
basquetbol de la NBA, Reggie Miller, de anotar un tiro libre después de recibir una
falta. En cierto momento de su carrera, anoto 5915 tiros libres entre 6679 tiros (de
acuerdo con datos de la NBA).
Solución. El espacio muestral consiste en dos sucesos simples: Miller anota el tiro libre
o no lo hace. Pues que el espacio muestral consiste en suceso que no tienen la misma
probabilidad, no podemos utilizar el método clásico (regla 2), si no el método de las
frecuencias relativas (regla 1) con sus resultados anteriores, y obtenemos lo siguiente.

P(Miller anota un tiro libre) = 5915 = 0.886


6679

Ejemplo: Genotipo como parte de un estudio sobre los genotipos AA, Aa, aA y aa,
anote cada genotipo individual en una ficha, luego mezcle las cuatro fichas y elija uno al
azar. ¿Qué probabilidad tiene de elegir el genotipo Aa?
Solución puesto que el espacio muestral (AA,Aa,Aa,aa) en este caso incluye resultados
igualmente posibles, empleamos el método clásico (regla 2) para obtener.
P (Aa)=1/4
Ejemplo: choques de meteoritos ¿Cuál es la probabilidad de que su automóvil sea
impactado por un meteorito este año?
Solución: en ausencia de datos históricos de meteoritos que chocan con automóviles, no
podemos usar el método de frecuencias relativas de la regla 1. Hay dos posibles
resultados (chocar o no chocar), pero no son igualmente probables, por lo que no
podemos usar el método clásico de la regla 2. Esto nos deja con la regla 3, por medio de
la cual hacemos un estimado subjetivo. En este caso todos sabemos que la probabilidad
en cuestión es muy, muy pequeña. Estimemos que sea, digamos, 0.000000000001
(equivalente a una en un billón). Este estimado subjetivo, basado en nuestro
conocimiento general, puede encontrarse en el campo general de la probabilidad real.
Actividad:
Estimar la probabilidad de que cuando se dejen caer, una tachuela quede con la
punta hacia arriba. ¿Cuántos intentos son necesarios para obtener un resultado que
parezca ser razonablemente preciso?

Regla formal de la suma

P(A o B)= P(A) + P(B) -P(A y B)


Donde P(A y B) denota la probabilidad de que A y B ocurran al mismo tiempo, como
resultado en su ensayo de un procedimiento.
La regla formal de la suma se presenta como una formula, pero no se recomienda el uso
irreflexivo de las formulas. En general, es mejor comprender el espíritu de la regla y
utilizar esa compresión de la siguiente forma.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 20


Regla intuitiva de la suma
Para obtener P(A o B), calcule la suma del numero de formas en que puede ocurrir el
suceso A y el numero de formas en que puede ocurrir el suceso B, sumando de tal
manera que cada resultado se cuente solo una vez. P(A o B) es igual a esa suma,
dividida entre número total de resultados en el espacio muestral.
Puesto que el traslape de sucesos es un aspecto esencial en la regla de las sumas, existe
un término especial para describirlo:

Definición
Los sucesos A y B son disjuntos (o mutuamente excluyentes) cuando ambos no pueden
ocurrir al mismo tiempo. (Es decir, los sucesos disjuntos no se traslapan).

Sucesos complementarios
Dijimos que A consiste en todos los resultados en lo que el suceso A no ocurre. Los
sucesos A y A debe ser disjuntos, porque es imposible que un suceso y un complemento
ocurren al mismo tiempo

Regla de los sucesos complementarios

P(A) + P(A) = 1

P(A) = 1 – P(A)

P(A) = 1 – P(A)

Ejemplo: En realidad, cuando nace un bebe, P(niño) = 0.512. Calcule P(niña).


Solución: usando la regla de los sucesos complementarios, tenemos

P (niña) = 1 – P (niño) = 1 – 0.512 = 0.488


Es decir, la probabilidad de no tener un niño, que es la misma que la de tener una niña,
es de 0.488.
La principal ventaja de la regla de los sucesos complementarios es que puede
simplificar mucho ciertos problemas.

EJERCICIOS
En los ejercicios del 1 al 4, utilice los datos de la siguiente tabla que resume los
resultados de 985 muertes de peatones causadas por accidentes.
¿El peatón estaba intoxicado?
¿El conductor Si No
estaba intoxicado? Si 59 79
No 266 581

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 21


1.- si se elige al azar una de las muertes de peatones, calcule la probabilidad de que el
peatón estuviera intoxicado o que el conductor estuviera intoxicado.

2.- si se elige al azar una de las muertes de peatones, calcule la probabilidad de que el el
peatón no estuviera intoxicado o que el conductor no estuviera intoxicado.
3.- si se elige al azar una de las muertes de peatones, calcule la probabilidad de que el
peatón estuviera intoxicado o que el conductor no estuviera intoxicado.

4.- si se elige al azar una de las muertes de peatones, calcule la probabilidad de que el
conductor estuviera intoxicado o que el peatón no estuviera intoxicado.

Simulación

La simulación es un proceso que se comporta de la misma forma que el procedimiento


sometido a consideración, de manera que produce resultados semejantes.
Consideremos el siguiente ejemplo para comprender mejor el uso de la simulación.
Ejemplo selección del genero cuando los investigadores médicos prueban técnicas de
selección del genero, necesitan conocer valores de probabilidad de diferentes resultados,
por ejemplo, la probabilidad al menos 60 niñas entre 100 niños. Suponiendo que el
nacimiento de un varón o de una niña es igualmente probable, describa una simulación
que de cómo resultado los géneros de 100 bebes recién nacidos.
Solución una opción es simplemente lanzar una moneda al aire 100 veces; la cara
representa al as niñas y la cruz a los varones. Otra opción es usar una calculadora o
computadora para generar aleatoriamente 0 y 1(el 0 representa 1 niño y el 1 representa
1 niña). Los números deben generarse de forma que sean igualmente probables.
 Minitab: seleccione calc en la barra del menú principal, después seleccione
Random Data y después seleccione integer. En el cuadro de dialogo. Introduzca
25 para el numero de renglones guarde los resultados en la columna C1 e ingrese
un mínimo de 1 y un máximo de 365.

Ejercicio:
Suponga que un lote consiste en 500 teléfonos celulares y que la tasa general de
aparatos defectuosos es del 2%. Realice una simulación generando 500 números, cada
uno de ellos entre 1 y 100. Cualquier resultado de 1 y 2 representa un teléfono celular
defectuoso en tanto que los resultados de 3,4,5,….100, representan teléfonos celulares
sin defectos. El número medio de defectos en los lotes debe ser 10. Sin embargo
algunos lotes tendrán menos o más de 10 defectos.
a) Utilice Minitab o Excel para simular la fabricación de teléfonos celulares y
registre el número de defectos en este lote simulado.
b) Repita el inciso a para tener un total de 20 lotes simulados
c) Utilice los resultados del inciso b) para estimar la probabilidad de que el numero
de defectos en un lote sea exactamente 10. ¿cree usted que esta estimación es
hasta cierto punto exacta?, ¿Por qué?

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 22


EJERCICIOS:

¿Qué significan cuando decimos que la probabilidad de ganar el premio mayor de la


lotería nacional es 1/20, 358,520? ¿Un triunfo como este es infrecuente?

Al hablar acerca de la probabilidad de que llueva en Tierra Blanca el 28 de julio del


próximo año, el reportero de la crónica afirma que la probabilidad es de ½ , ya que
lloverá o no lloverá. ¿Este razonamiento es correcto? ¿Por qué?

Exprese el grado indicado de probabilidad como un valor de probabilidad entre 0 y 1

1.- “como estudio a conciencia y comprendió los conceptos, seguramente aprobara el


examen de estadística”
2.- “El pronóstico de mañana indica un 10% de probabilidad de lluvia”
3.- “Usted tiene la probabilidad de una bola de nieve en el infierno de casarse con mi
hija”

¿Cuál de los siguientes valores no puede ser una probabilidad?


0, 1, -1, 2, 0.0123, 3/5, 5/3, √2

Calcule la probabilidad de cada suceso cuando una pareja tiene tres hijos
1.- De entre tres hijos hay exactamente una niña
2.- De entre tres hijos hay exactamente hay exactamente dos niñas
3.- De entre tres hijos todos son niñas.

a.- De los 100 dulces M&M listados estime la probabilidad de obtener un dulce azul al
elegir al azar un dulce M&M sencillo.
b.- The Mars Company afirma que el 24ª % de sus dulces M&M sencillos son azules.
¿La estimación del inciso a) coincide aproximadamente con esta afirmación o al parecer
existe una gran diferencia?

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 23


LISTA DE LOS PESOS DE 100 M&M

OLDM&M: Data Set 14 in this book includes recent weights from a sample of M&M plain
candies, but this data set includes weights from a sample collected in 1993.

RED ORANGE YELLOW BROWN BLUE GREEN


0.87 0.903 0.906 0.932 0.838 0.911
0.933 0.92 0.978 0.86 0.875 1.002
0.952 0.861 0.926 0.919 0.87 0.902
0.908 1.009 0.868 0.914 0.956 0.93
0.911 0.971 0.876 0.914 0.968 0.949
0.908 0.898 0.968 0.904 0.89
0.913 0.942 0.921 0.93 0.902
0.983 0.897 0.893 0.871
0.92 0.939 1.033
0.936 0.886 0.955
0.891 0.924 0.876
0.924 0.91 0.856
0.874 0.877 0.866
0.908 0.879 0.858
0.924 0.941 0.988
0.897 0.879 0.936
0.912 0.94 0.93
0.888 0.96 0.923
0.872 0.989 0.867
0.898 0.9 0.965
0.882 0.917 0.902
0.911 0.928
0.892 0.9
0.886 0.889
0.949 0.875
0.934 0.909
0.976
0.921
0.898
0.897
0.902
0.92
0.909

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 24


Distribuciones de Probabilidad Discretas

Una variable aleatoria es aquella (casi siempre representada por x) que tiene un solo
valor numérico determinado por el azar, para cada resultado de un procedimiento.

Una distribución de probabilidad es una distribución que indica la probabilidad de cada


valor de la variable aleatoria. A menudo se expresa como grafica, tabla o formula.

Las distribuciones de probabilidad binomial nos permite enfrentar circunstancias en


las que los resultados pertenecen a dos categorías relevantes, tales como
aceptable/defectuoso o sobrevivió/murió. En la siguiente definición se plantean otros
requisitos.

Definición

Una distribución de probabilidad binomial resulta de un procedimiento que cumple


con todos los siguientes requisitos:

1. El procedimiento tiene un número fijo de ensayos.


2. Los ensayos deben ser independientes. (el resultado de cualquier ensayo
individual no afecta las probabilidades de los demás ensayos).
3. Todos los resultados de cada ensayo deben ser clasificados en dos categorías
(generalmente llamadas éxito y fracasos).
4. La probabilidad de un éxito permanece igual en todos los ensayos.

Ejemplo selección de jueces. En el caso de Castañeda contra partida se señalo que,


aunque el 80% de población de un condado en Texas es México – estadounidenses, solo
el 39% de quienes fueron llamados para integrar el jurado pertenecían a este grupo,
supongamos que necesitamos seleccionar a 12 jueces de una población integrada en un
80% de por México- estadounidenses, y que deseamos calcular la probabilidad de que,
de 12 jueces elegidos al azar, exactamente 7 sean México – estadounidenses.

a. ¿este proceso dará por resultado una distribución binomial?


b. Si este proceso da como resultado una distribución nominal, identifique los
valores de n, x, p y q.

Solución.

a. Este procedimiento satisface los requisitos de una distribución binomial, como


se indica a continuación.
1. El número de ensayos (12) es fijo.
2. Los 12 ensayos son independientes. (técnicamente los, 12 ensayos implican una
selección sin reemplazo y no son independientes, pero podemos suponer
independencia porque estamos seleccionando al azar solo a 12 miembros de una
población muy grande.
3. Cada uno de los 12 ensayos tienen dos categorías de resultado posible: el
miembro de jurado elegido es México – estadounidenses o no lo es.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 25


4. Para cada miembro del jurado elegido, la probabilidad de que sea México-
estadounidenses es de 0.8 (porque el 80% de la población es México-
estadounidense). Esa probabilidad es de 0.8 es la misma para cada uno de los
miembros del jurado.
b. Una vez concluimos que el procedimiento dado así da por resultado una
distribución binomial, ahora procedemos a identificar los valores de n, x. p y q.
1. Con 12 jueces elegidos, tenemos que n=12
2. Buscamos la probabilidad de exactamente 7 México- estadounidenses, entonces
x=7.
3. La probabilidad de éxito (elegir a un México- estadounidense) es una selección
es 0.8 por lo tanto, p= 0.8.
4. La probabilidad de fracaso (no elegir a un México – estadounidense) se 0.2 por
lo tanto, q=0.2.

Una vez más, es muy importante asegurarse de que tanto x como p se refieran al
mismo concepto de “éxito”. En este ejemplo usamos x para contar el número de
México- estadounidense, de manera que p debe ser la probabilidad de un México –
estadounidense. Por siguiente por siguiente, x y p si usan aquí el mismo concepto de
éxito (México – estadounidense)

Distribución de probabilidad de poisson

Es una distribución de probabilidad discreta importante, ya que a menudo se utiliza para


describir comportamientos que ocurren en raras ocasiones (con probabilidad pequeñas).
Debemos conocer los requisitos para el uso de la distribución de poisson y también
debemos saber cómo calcular las probabilidades.
Definición

La distribución de poisson es una distribución de probabilidad discreta que se aplica a


las ocurrencias de algún suceso durante un intervalo específico. La variable aleatoria x
es el número de veces que ocurre un suceso en un intervalo el intervalo puede ser
tiempo, distancia, área, volumen o alguna unidad similar.

Requisitos de la distribución de Poisson

 La variable aleatoria x es el número de veces que ocurre un suceso durante un


intervalo.
 Las ocurrencias deben ser aleatorias
 Las ocurrencias deben ser independientes entre si
 Las ocurrencias deben estar unifórmenle distribuidas dentro del intervalo
empleado.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 26


Distribución normal estándar

1.- presenta forma de campana


2.- posee una media igual a 0
3.- tiene una deviación estándar a 1

Así como existen muchas distribuciones uniformes diferentes (con distintos rangos
de valores), también existen muchas distribuciones normales diferentes, las cuales
dependen de dos parámetros: la medida poblacional µ y la desviación estándar
poblacional σ.

Cálculo de probabilidades con puntuaciones z dadas.

Si utilizará la tabla A-2, es esencial que comprenda los siguientes puntos:

1.- la tabla A-2 está diseñada únicamente para la distribución normal estándar, que
tiene una medida de 0 y una desviación estándar de 1.

2.- la tabla A-2 abarca dos páginas, una para las puntuaciones Z negativas y la otra
para las puntuaciones z positivas.

3.- cada valor en la tabla es una área acumulativa desde la izquierda hasta un límite
vertical por arriba de la puntuación z especifica.

4.- cuando construya una grafica, evite la confusión entre puntuaciones z y las áreas.

Puntuación z: distancia a lo largo de la escala horizontal de la


distribución normal estándar, remítase a la
columna de la extrema izquierda y el renglón superior de la
tabla A-2.

Áreas: región bajo la curva, remítase a los valores de la tabla


A-2.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 27


Ejemplo termómetros científicos. La precisión Scientific Instrument Company fabrica
termómetros que se suponen deben de dar lecturas 0°C al punto de congelación del
agua. Las pruebas de una muestra grande de estos instrumentos revelaron que el punto
de congelación del agua, algunos termómetros daban lecturas por debajo de 0°
(denotadas con números negativos ), y otras daban lecturas por encima de 0° (
denotados con números positivos). Supóngase que la lectura media es 0°C y que la
desviación estándar de las lecturas es 1.00°C. También supóngase que las lecturas se
distribuyen de manera normal. Si se elige al azar un termómetro, calcule la
probabilidad de que, al punto de congelación del agua, la lectura sea menor que
1.58°.

Solución: La distribución de probabilidad de las


lecturas es una distribución normal estándar, ya que
las lecturas se distribuyen de forma normal, con
µ=0 y σ= 1. Necesitamos encontrar el área que
está debajo de z= 1.58, continua:

Ejemplo termómetros científicos: utilice los termómetros del ejemplo anterior y


calcule la probabilidad de seleccionar al azar un termómetro con una lectura ( en el
punto de congelación del agua) por arriba de -123°.

Solución: nuevamente, calculemos la probabilidad deseada encontrando el área


correspondiente. Buscamos el área de la región sombreada en la figura pero la tabla
A-2 está diseñada para aplicarse únicamente en áreas acumulativas desde la
izquierda. Si nos remitimos a la tabla A-2, en la pagina con puntuaciones negativas,
encontramos que área acumulativa de la izquierda ha de ser z = -123es 0.1093, tal
como se observa. Sabiendo que el área total bajo la curva es 1, podemos calcular el
área sombreada si restamos 0.1093 de 1. El resultado es 0.8907. Aun cuando la
tabla A-2 está diseñada únicamente para áreas acumulativas a partir de la izquierda,
podemos utilizarla para calcular áreas acumulativas desde la derecha, tal como se
muestra en la figura.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 28


Ejemplo termómetros científicos: Una vez más, haga una selección aleatoria de al
mismas muestra de termómetros y calcule la probabilidad de el termómetro elegido
tenga lecturas ( en el punto de congelación del agua entre -2.00° y 1.50°).

El área de forma directa, pero podemos emplearla para encontrar que z= -2.00
corresponde al área de 0.0228, y que z= 1.50 corresponde al área de 0.9332, como
se observa en la figura.

El ejemplo anterior puede generalizarse


como una regla que establece que el
área correspondiente a la región
localizada entre dos puntuaciones z
especificas puede obtenerse al calcular
la diferencia entre las dos áreas
localizadas en la tabla A-2.

Aplicaciones de las distribuciones normales

Para trabajar con una distribución normal que no es estándar, simplemente estandarice
los valores para poder continuar utilizando los mismos procedimientos de la
sección anterior

Si convertimos valores en puntuaciones estándares, empleando la fórmula 1.1,


entonces los procedimientos para trabajar con todas las distribuciones normales
son los mismos que los de la distribución normal estándar.

Formula 1.1 z= x -µ/σ (redondear las puntuaciones z hasta dos decimales).

Cuando calcule áreas en una distribución normal no estándar, utilice este


procedimiento:

1.- dibuje una curva normal, indique la media y los valores específicos de x, después
sombree la región que representa la probabilidad deseada.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 29


2.- para cada valor relevante de x que sea un límite de la región sombreada, utilice
la formula 1.1 para convertir el valor a la puntuación z equivalente.

3.- Remítase a la tabla A-2 para encontrar el área de la región sombreada que
constituye la probabilidad deseada.

Ejemplo pesos de pasajeros de taxis acuáticos. La carga segura para un taxi


acuático se calculó en 3500 libras. El peso medio de un pasajero es de 140 libras.
Supongamos “el peor de los casos”, en el que todos los pasajeros son hombres
adultos. (Esto podría ocurrir fácilmente en una ciudad donde se realizan convecciones
en las personas del mismo género suelen viajar en grupos). En concordancia con los
datos de la National Health and Nutrition Examination Survey, suponga que los pesos
de hombres se distribuyen normalmente, con una media de 172 libras y una desviación
estándar de 29 libras. Si seleccionamos al azar a un hombre, calcule la probabilidad de
que pese menos de 174 lb ( el valor sugerido por National Transportation and
Safety Board).

Solución:

Paso 1: Observe la figura , que incluye la siguiente información: los hombres tienen
pesos que se distribuyen normalmente, con una media de 172 lb y una desviación
estándar de 29 lb, y la región sombreada representa a los hombres con pesos menores
de 174 libras.

Paso 2: para usar al tabla A-2 primero debemos de aplicar al formula 1.1 para
transformar la distribución normal no estándar a una distribución normal estándar. El
peso de 174 libras se convierte a una puntuación z de la siguiente manera:

Z= x-µ/σ = 174-172/29 = 0.07

Pasó 3: si nos remitimos a la tabla A-2 y utilicemos z = 0.07, encontramos que el área
acumulativa a la izquierda de z= 0.07 es un área de 0.5279.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 30


Para encontrar el área acumulativa que está a la
izquierda de una puntuación Z (como en la tabla A-2),
seleccione calc, distribuciones de probabilidad, normal,
probabilidad acumulada, registre la media y la
desviación estándar, después haga clic en el botón de
constante de entrada e ingrese el valor

Para encontrar un valor correspondiente a un área


conocida, seleccione calc, distribuciones de
probabilidad, normal, después seleccione
probabilidad acumulada inversa e indique la media y
la desviación estándar. Después haga clic en el botón
de constante de entrada y registre el área total que se
encuentra a la izquierda del valor dado.

EJERCICIOS:

En los siguientes ejercicios suponga que las lecturas de los termómetros se distribuyen
normalmente, con una media de 0 y una desviación estándar de 1ºC. Se selecciona
aleatoriamente un termómetro y se prueba. En cada caso, dibuje un bosquejo y calcule
la probabilidad de cada lectura.
a) Menor que -1
b) Menor que 1
c) Mayor que 1.25
d) Mayor que -1.75
e) Entre 1 y 2
f) Entre -2.45 y -2.00
g) Mayor que 3.52
h) Mayor que 0

En los ejercicios 1 y 2 use la información que se le proporciona.


 La estatura de los hombres se distribuyen normalmente, con una media de 69
pulgadas y una desviación estándar de 2.8 pulgadas.
 La estatura de las mujeres se distribuye normalmente con una media de 63.6
pulgadas y una desviación estándar de 2.5 pulgadas.

1.- En una organización para personas altas, se requiere que las mujeres midan al menos
70 pulgadas ¿qué porcentaje de la mujeres cumple con este requisito?
R=

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 31


2.- la altura estándar de la entrada de una puerta es de 80n pulgadas. Si un especialista
en estadística diseña una casa de tal manera que la entrada de la puerta tenga una altura
suficiente para todos los hombres, con excepción del 5% de los más altos, ¿Cuál sería la
altura de la entrada?

3.- En estados unidos los pesos al nacer se distribuyen normalmente, con una media de
3420g y una desviación estándar de 495 g. si un hospital desea establecer condiciones
especiales de observación para el 2% de los bebes menos pesados, ¿Qué peso se
utilizaría para establecer un punto de corte que separe al 2% de los bebes menos
pesados de los demás?

El teorema del límite central


• La variable aleatoria x tiene una distribución (que puede o no ser normal) con
media µ y desviación estándar σ.
 Todas las muestras aleatorias del mismo tamaño n se seleccionan de la
población (todas deben de tener la misma probabilidad de ser seleccionadas).

Determinación de la normalidad
1.- Histograma: construya un histograma. Rechace la normalidad si el histograma
difiere mucho de la forma de campana.
2.- valores extremos: rechace la normalidad si existe más de un valor extremo.
3.- Grafica cuantilar normal: si el histograma es básicamente simétrico y existe a lo
sumo un valor extremo, construya una Grafica cuantilar normal.

Para la construcción de una grafica


cuantilar normal en MINITAB utilice los
siguientes pasos:
1. Anote los valores en una columna
2. Seleccione stat
3. Seleccione basic statistics
4. Seleccione normality test.
5. Introduzca la columna en la que
introdujo los datos
6. Haga click en ok

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 32


Estimaciones y tamaños de muestra

Las dos aplicaciones principales de la estadística inferencial implican el uso de datos de


muestra para 1. Estimar el valor de un parámetro de población 2. Probar alguna
aseveración (o hipótesis) acerca de una población.

Estimación de la proporción de una población.

Requisitos:

1. La muestra es aleatoria simple.


2. Las condiciones para la distribución binomial se satisfacen. Esto es, hay un
número fijo de ensayo los ensayos son independientes, hay dos categorías de
resultados y las probabilidades permaneces constantes para cada ensayo.
3. Existen al menos 5 éxitos y al menos 5 fracasos (cuando y se desconocen
estimamos sus valores utilizando la proporción muestral, de manera que este
requisito es una forma de verificar ≥5 y ≥ 5 se cumplan para que la
distribución normal sea una aproximación adecuada para la distribución
binomial. Además existen procedimientos para tratar situaciones para que la
distribución normal no es una aproximación adecuada).

NOTACIÓN PARA PROPORCIONES.

= proporción muestral de x éxitos en una muestra de tamaño .

= = proporción muestral de en una muestra e tamaño

= 1- = proporción muestrl de en una muestra de tamaño

Definición

Un estimado puntual es un valor individual (o punto) que se usa para aproximar un


parámetro de población.

La proporción muestral es mejor estimado puntual es el mejor estimado puntual


en la proporción poblaciones .

Usamos como el estimado puntual ya que no está sesgado y es el más consistente


de los estimadores que podrían usarse. No está sesgado en el sentido de que la
distribución de las proporciones muéstrales tiende a concentrarte al valor ;
esto es, las
proporciones muéstrales no tienden sistemáticamente a subestimar ni a sobreestimar
p. La proporción muestral es el timador más consistente en el sentido de que la
desviación estándar de las proporciones muéstrales tienden a ser menor a la desviación
estándar de cualquier otro estimador estándar sin sesgo.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 33


¿Por qué necesitamos intervalos de confianza?

En el ejemplo anterior vimos que 0.4 es el mejor estimado puntual de la proporción


poblacional , pero no tenemos indicación precisa de que tan bueno es nuestro
mejor estimado. Como el estimado puntual tiene el gran defecto de no revelar nada de
qué tan bueno es, los especialistas en estadística han diseñado ingeniosamente otro
tipo de estimado: el intervalo de confianza o estimado del intervalo, que consiste en un
rango (o un intervalo) de valores en vez de un solo valor.

Definición

Un intervalo de confianza(o estimado del intervalos) es un rango (o un intervalo) de


valores que se usan para estimar el valor real de un parámetro de población. El
intervalo de confianza suele abreviarse como IC.

Un intervalo de confianza se asocia con un nivel de confianza, como 0.9 (95%).el nivel
de confianza nos da la tasa de éxitos del procedimiento que se utiliza para construir el
intervalo de confianza. El nivel de confianza suele expresarse como la probabilidad o
área (alfaungriega
1−∝ Para
confianza. minúscula).
nivel de confianza El
de valor de ∝ ∝=0.5.
0.95 (95%) es el complemento
Para un nivel del nivel de
de confianza
de 0.99 (99%). ∝=0.01.
Definición

El nivel de confianza es la probabilidad 1−∝ (a menudo expresado por el valor


equivalente), que es la proporción de veces que el intervalo de confianza realmente
contiene el parámetro de población, suponiendo que el proceso de estimación se repite
un grado numérico de veces. El nivel de confianza también se llama grado de
confianza o coeficiente de confianza.

Las opciones más comunes para el nivel de confianza son 90% (con ∝= 0.10) , y
95%,(con ∝= 0.50), y 99%(con ∝= 0.01). La opción del 95% es la más común
puesto que provee un equilibrio entre presión (reflejada en el ancho del intervalo de
confianza) y confiabilidad (expresada por el nivel de confianza).

A continuación se presenta un ejemplo de un intervalo de confianza basando en los


datos muestrales de 280 ensayos de terapeutas de contacto, donde en el 44% de los
ensayos se identifica correctamente la mano elegida:

El intervalo de confianza estimado de 0.95(o 95%) de la proporción poblacional p


es 0.381< p<0.497.

Interpretación de un intervalo de confianza.

Debemos ser cuidadosos para interpretar los intervalos de confianza correctamente.


Existe una interpretación correcta y muchas diferentes y creativas interpretaciones
erróneas del intervalo de confianza 0.381<p<0.497.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 34


Correcta: “Tenemos una confianza del 95% de que el intervalo de 0.381 a 0.497
realmente contiene el valor verdadero de p”. Esto significa que si seleccionamos
muchas muestras diferentes de tamaño 280 y construimos los intervalos de confianza
correspondientes, el 95% de ellos incluirían realmente el valor de la proporción
poblacional p. (note que en esta interpretación correcta, el nivel del 95% se refiere a la
tasa de éxitos del proceso, utilizada para estimar la proporción, y no a la proporción de
la población en sí).

Errónea: “Existe un 95% de probabilidad de que el valor real de p este entre 0.381 y
0.497.”

Para cualquier punto especifico en el tiempo, una población tiene un valor fijo y
constante de p, un intervalo de confianza construido a partir de una muestra que incluye
o no a p. De manera similar, si un bebe acaba de nacer y el médico esta por anunciar su
género, es incorrecto decir que existe una probabilidad de 0.5 de que sea niña; el bebe es
o no una niña, y no hay una probabilidad implicada. Una proporción poblacional p es
como el bebe que acaba de nacer: el valor de p es fijo, de manera que los limites del
intervalo de confianza contienen o no a p. por eso es incorrecto decir que existe un 95%
de probabilidad de que p se localice entre el los valores tales como 0.381 y 0.497.

Un nivel de confianza el 95% nos dice que el proceso que estamos usando, a la larga,
dará por resultado límites del intervalo de confianza que contienen la proporción real
de la población el 95% del tiempo. Suponga que la proporción real de todas las
identificaciones correctas de la mano por partes de los terapeutas de contacto es p=0.5.
Entonces, el intervalo de confianza obtenido de los datos muéstrales no incluiría la
proporción poblacional, ya que la proporción poblacional real de 0.5 no se encuentran
entre 0.381 y 0.497. Con un 95% de confianza, esperamos que 19 de las 20 muestras
den por resultado intervalos de confianza que contienen el valor real de p.

Valores críticos.

Notación para el valor critico.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 35


El valor critico z∝⁄2 es el valor z positivo que está en la frontera vertical que separa
una área de ∝ 2 en la cola derecha de la distribución normal estándar. (El valor de –
z∝⁄2 está en la frontera vertical para el área de ∝ 2 en la cola izquierda). El subíndice
∝ ∝ 2 en la
2 es simplemente un recordatorio de que la puntuación z separa un área de
cola derecha de la distribución normal estándar.

Definición

Un valor crítico es el número en línea limítrofe que separa estadísticos muestrales que
tienen mayor probabilidad de ocurrir de aquellos que no tienen probabilidad de ocurrir.
El número 2 ∝∝ es un valor crítico, una puntuación z con la propiedad de que separa
una área de 22 en la cola derecha de la distribución normal estándar. (Véase la figura
7-2)

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 36


Margen de error.

Cuando reunimos un conjunto de datos muéstrales, como los datos sobre la terapia de
contacto de Emily Rosa en el problema del capítulo (donde el 44% de los 280 ensayos
correspondieron a identificaciones correctas), podemos calcular la proporción muestral
y esta proporción muestral suele ser diferente de la población poblacional p. La
diferencia entre la proporción muestral y la proporción de la población se considera un
error. Ahora definiremos el margen de error E como sigue.

Definición

Cuando se utilizan los datos de muestra aleatoria simple para estimar una proporción p,
el margen de error, denotado por E, es la diferencia máxima probable (con
probabilidad 1- ∝) entre la proporción muestral de observada y el valor real de la
proporción poblacional p. El margen de error E también se conoce llama error máximo
del estimado y se calcula multiplicando el valor critico por la desviación estándar de las
proporciones muestrales, como se indica en la fórmula 1.2

Formula 1.2 E = z∝ 2 margen de error para proporciones

Dada la formula en que se define el margen de error E, existe una probabilidad de que
una proporción muestral sea errónea por más de E.

Intervalo de confianza (o estimado de intervalo) para la proporción poblacional


p.

− < < + Donde E = z∝ 2

El intervalo de confianza suele expresar en los siguientes formatos equivalentes

– , +
Regla de redondeo para estimados de intervalos de confianza de p.

Redondee los límites del intervalo de confianza para p a tres dígitos significativos.

Con base en los resultados anteriores, podemos resumir el procedimiento para construir
un estimado del intervalo de confianza de una proporción poblacional como sigue.
Procedimiento para construir un intervalo de confianza para p.

1. Verifique que los supuestos requeridos se cumplan (la muestra es aleatoria


simple, las condiciones para la distribución binomial se satisfacen y existen al
menos 5 éxitos y al menos 5 fracasos).
2. Remítase a la tabla A-2 y encuentre el valor crítico z∝ 2 que corresponde al
nivel de confianza deseado. (Por ejemplo, si el nivel de confianza es del 95%, el
valor critico es z∝ 2 =1.96).

3. Evalué el margen de error E = z∝ 2


4. Utilizando el valor del margen de error E calculado y el valor de la proporción
muestral , calcule los valores – , + Sustituya esos valores en el formato
general para el intervalo de confianza:
− < < +
±
− , +

5. Redondee los límites del intervalo de confianza resultantes a tres dígitos


significativos.

Uso del Minitab para determinar intervalos de confianza

Seleccione estadísticas, estadística básica, luego 1 proporción. En el cuadro de dialogo


haga clic en el botón datos resumidos. También haga clic en el botón de opciones,
ingrese el nivel de confianza deseado. En vez de utilizar una aproximación normal, el
procedimiento determinado de Minitab consiste en determinar los límites de intervalo
de confianza por medio de un método exacto. Para usar el método de aproximación
normal analizado, haga clic en opciones y luego en el cuadro de la frase “use la prueba y
el intervalo basado en una distribución normal”.

Ejercicios:

Un estudiante encuesta a 100 compañeros de clase y les pregunta si tienen deudas


pendientes. Después de calcular la proporción muestral de esta muestra de n=100
sujetos, ¿su puede utilizar el método analizado anteriormente para estimar la proporción
de todos los adultos que tienen deudas pendientes? ¿Por qué?

Construya el intervalo de confianza

1. n=500, x=200, 95% de confianza


2. n=1200, x=800, 99% de confianza
3. n=1068, x=267, 98% de confianza
Estimación de una media de población:
conocida.

Requisitos:

1. La muestra es aleatoria simple. (todas las muestras del mismo tamaño


tienen la misma probabilidad de ser seleccionadas).
2. El valor de la desviación estándar poblacional es conocido.
3. Cualquier o ambas de estas condiciones se satisfacen: la población esta
normalmente distribuida o n>30.

Requisitos de normalidad. Los requisitos incluyen la propiedad de que la población se


distribuya normalmente o que n>30. Si ≥ 30, la población no necesita tener una
distribución exactamente normal, sino aproximadamente normal. Podemos considerar
que el requisito de normalidad se satisface si no hay valor extremo y si un histograma
de los datos muestrales no se aleja mucho de la forma de campana. (Se dice que los
métodos de esta sección son robustos, es decir, se ven muy afectados si los datos se
alejan de la normalidad, siempre y cuando no se alejen demasiado).

En la sección anterior vimos que la proporción muestral es el mejor estimado


puntual de la proporción poblacional p. Por razones similares, la media muestral es el
mejor estimado puntual de la media poblacional .

La medida muestral es el mejor estimado puntual de la media de la población.

Por lo general la media de la muestra brinda el mejor estimado, por las siguientes dos
razones:

1. Para todas las poblaciones, la media muestral es un estimador sin sesgo de la


media poblacional , lo que significa que la distribución de medias muestrales
tiende a concentrarse alrededor del valor de la media poblacional . [es decir, las
medidas muestrales no tienden sistemáticamente a sobreestimar el valor de , ni
tienden sistemáticamente a subestimar el valor de ,] sino que tienden a
coincidir con este valor. Para muchas poblaciones, la distribución de las medias
muestrales tiende hacer más consistente (con menos variación) que la
distribución de otros estadísticos muestrales.

EJEMPLO. Pulso cardiaco de mujeres. El pulso cardiaco de las personas es


sumamente importante. Sin él, ¿Dónde estaríamos? El conjunto de datos del archivo
FHEALTH incluye pulsos cardiacos (en latidos por minutos) de mujeres seleccionadas
al azar; los estadísticos son los siguientes: n=40, =76.3 y s= 12.5. Utilice esta muestra
para calcular el mejor estimado puntual de la media poblacional de los pulsos
cardiacos de todas las mujeres.

SOLUCIÓN. Para los datos muestrales, =76.3. Como la media muestral es el mejor
estimado puntual de la media poblacional , concluimos que el mejor estimado puntual
de los pulsos cardiacos de todas las mujeres es 76.3.
Intervalo de confianza.

Aunque él un estimado puntual es el mejor valor individual para estimar un parámetro


poblacional, no nos da ninguna indicación precisa de que tan bueno es este mejor
estimado. Sin embargo, un intervalo de confianza nos ofrece información que nos
permite comprender mejor la exactitud del estimado. El intervalo de confianza se
asocia con un nivel de confianza, como 0.95 (o 95%).el nivel de confianza nos da la tasa
de éxito de procedimiento que se utiliza para construir el intervalo de confianza. Como
se describió
nivel en la sección
de confianza anterior,∝
de 0.95 (o 95%),es ∝
el =
complemento
0.05. Para undel nivel
nivel de
de confianza. Para0.99
confianza de un
(o99%),∝ =0.01.
Margen de error. Cuando reunimos un conjunto de datos muestrales, como los datos
de los 40 pulsos de mujeres que se incluyen en el conjunto de datos 1 del apéndice B,
podemos calcular la medida muestral y esa medida muestral por lo regular es
diferente de la medida poblacional . La diferencia entre la medida muestral y la
medida
estándarpoblacional es un error.
de las medidas En la sección
muestrales. anterior/ vimos
Utilizando que /√ es ∝la desviación
√ y la notación 2 que se
presento en la sección anterior ahora podemos usar el margen de error E que expresa
como sigue:
Formula 1.3 E = ∝ 2 ∙ margen de error para la medida (con base en σ).

La fórmula 1.3 refleja el hecho de que la distribución del muestreo de la medida


muestral es exactamente una distribución normal con medida y desviación estándar
/√ , siempre y cuando la población tenga una distribución normal con medida y
desviación estándar . Si la población no está distribuida normalmente las muestras
grandes producen medidas muestrales con una distribución que se aproxima a la
normal. Utilizando el margen de error E ahora podemos identificar el intervalo de
confianza para la medida poblacional (si se satisfacen los requisitos de esta sección).
Los tres formatos que suelen usarse para expresar el intervalo de confianza se presentan
en el siguiente cuadro.

Estimación del intervalo de la medida poblacional (con conocida).

-E< < +E donde E= ∝ 2∙


O ±E o ( - E, +E)

Definición

Los dos valores -E y +E se llaman limites del intervalo de confianza.


Procedimiento para construir un intervalo de confianza para (con
conocida)

1. Verifique que los supuestos requeridos se satisfagan. (Tenemos una muestra


aleatoria simple, es conocida, y la población parece estar distribuida
normalmente o n>30).
2. Remítase en la tabla A-2 y calcule el valor crítico z∝⁄2 correspondiente al nivel
de confianza deseado. (por ejemplo, si el nivel de confianza es de 95%, el valor
critico es de z∝⁄2 =1.96).
3. Evalué el margen de error E= z∝⁄2 ∙ /√ .
4. Utilizando el valor calculado del margen de error E y el valor de la medida
muestral , calcule los valores - E and +E. sustituya esos valores en el
formato general para el intervalo de confianza:

-E< <

+E O

±E

( - E, +E)

5. Redondee los valores resultantes usando la siguiente regla de redondeo.

Regla de redondeo para intervalos de confianza utilizados para estimar


.

1. Cuando utilice el conjunto de datos original para construir un intervalo de


confianza a un decimal más del que se usa para el conjunto de datos original.
2. Cuando el conjunto de datos original se desconoce y solo se utiliza el
resumen de estadísticos (n, , ) redondee los limites del intervalo de
confianza al mismo número de espacios decimales utilizados para la media
muestral

Interpretación de un intervalo de confianza.

Correcta: “tenemos una confianza del 95% de que el intervalo de 72.4 a 85.2 realmente
tiene el valor verdadero de ”.

Esto significa que si seleccionamos muchas muestras diferentes del mismo tamaño y
construimos los intervalos de confianza correspondiente a la larga, el 95% de estos
contendrían realmente el valor de . (Esta interpretación correcta se refiere a la tasa de
éxito del proceso que se usa para estimar la media poblacional).

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 40


Ejercicios:

Con base en datos muestrales se obtiene el siguiente intervalo de confianza del 95%:
2.5<µ<6.0. Escriba un enunciado que interprete el intervalo de confianza de
manera correcta.

Calcule el intervalo de confianza

1.- salarios de ex docentes del ITSTB que tomaron un curso de estadística: confianza
del 95%; n=41, = $67,200, y se sabe que σ es $18,277.

2.- calificaciones de crédito de solicitantes de tarjetas de crédito: confianza del 99%;


n=70, = $688, y se sabe que σ es $68.

Estimación de la media poblacional:


desconocida.

Requisitos:

1. La muestra es aleatoria simple.


2. La muestra proviene de una población distribuida normalmente o n<30.

La media muestral es el mejor estimado puntual de la medida poblacional


.

He aquí aspecto clave de esta sección: si no se conoce, pero los requisitos anteriores
se satisfacen, utilizamos la distribución t de student (en vez de la distribución normal),
que desarrollo William Gosset (1876-1937).

Gosset fue un empresario de la cervecería Guinness Brewery que necesitaba una


distribución que pudiera utilizarse con muestreas pequeñas. La cervecería irlandesa
donde trabajaba no permitía la publicación de resultados de investigaciones, entonces
Gosset publico bajo el seudónimo de student.

(Puesto que no conocemos el valor de , estimamos con el valor de la desviación


estándar muestral s, pero esto introduce otra fuente de confiabilidad en especial o las
muestras pequeñas para mantener un intervalo de confianza a un nivel deseado el 95%
compensamos esta falta de confiabilidad adicional haciendo más ancho el intervalo de
confianza: utilizamos valores críticos ∝ 2(de una distribución t de Student), los cuales
son más grandes que los valores críticos de ∝ 2 de la distribución normal.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 41


La distribución de t Student.

Si una población tiene una distribución normal, entonces la distribución de:



=

Es una distribución t de Student para todas las muestras de tamaño n. la distribución t
student, conocida a menudo como distribución t, se utiliza para calcular valores críticos
denotados por t ∝ 2.

Pronto analizaremos algunas de las propiedades importantes de la distribución t, pero


antes presentamos los componentes necesarios para la construcción de intervalos de
confianza. Comencemos con el valor critico denotado por ∝ 2. Un valor de ∝ 2 se
puede encontrar en la tabla A-3 localizando el numero apropiado de grados de libertad
en la columna izquierda y avanzando por el renglón correspondiente hasta encontrar el
numero que aparece directamente a bajo del área adecuada en el parte superior.

Definición.

El numero de grados de libertad para un conjunto de datos muestrales recolectados es


el numero de valores muestrales que pueden variar después de haber impuesto cierta
restricciones a todos los valor de los datos.

Por ejemplo, si 10 estudiantes tienen puntuaciones de examen con una media de 80,
podemos asignar con libertad valores a las primeras 9 puntuaciones, pero la decima
puntuación se calcula la suma de las 10 puntuaciones debe ser 800 entonces la decima
puntuación debe ser a 800 menos la suma de la primeras 9 puntuaciones. Puesto que
esas 9 primeras puntuaciones pueden seleccionarse con libertad para adoptar cualquier
valor, decimos que existen 9 grados de libertad disponibles. Para las aplicaciones de
esta sección el número de grados libertad es simplemente el tamaño muestral menos 1.

Grados de libertad = n – 1.

Una muestra de tamaño n=23 es una muestra aleatoria simple seleccionada de una
población distribuida normalmente. Calcule el valor crítico ∝ 2 correspondiente a un
nivel de confianza del 95%.

Puesto que n=23, el numero de grados de libertad está dado por n-1 =22. Utilizando la
tabla A-3, localizamos el renglón 22 con respecto a la columna de la extrema izquierda.
Al igual que en la sección anterior, un nivel de confianza de 95% corresponde a ∝ =
0.05, de manera que encontramos los valores listados en la columna para un área de
0.05 en dos colas. El valor correspondiente el renglón para 22 grados de libertad y la
columna para un área de 0.05 en dos colas es 2.074; entonces∝ ∝ 2 = 2.074 ahora que
sabemos cómo encontrar valores críticos denotados por 2 podemos describir el
margen de error E de ese intervalo de confianza.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 42


El margen1.4de error E para=la estimación
Formula ∝/ de (con desconocidas).

Donde ∝/ tiene n -1 grados de libertad. La tabla A-3 lista valores de ∝/ .


Intervalos de confianza para la estimación de (con desconocidas).

-E< <

+E Donde

= ∝/

Procedimiento para construir un intervalo de confianza para (con


desconocidas).

1. Verifique que los requisitos se satisfacen.(tenemos una muestra aleatoria simple


y la población parece estar distribuida normalmente o n>30).
2. Utiliza n -1 grados de libertad, remítase a la tabla A-3 y encuentre el valor
crítico ∝/ que corresponde al nivel de confianza deseado. (para el nivel de
confianza, remítase al “área en dos colas”).
3. Evalué el margen de error = ∝/2 ∙ /√
4. Utilizando el valor del margen de error E calculando y el valor de la media
muestral , calcula los valores de -E y +E. sustituya estos valores en el
formato general para el intervalo de confianza:
- E < < +E
O
±E

( - E, +E)

5. Redondee los límites del intervalo de confianza resultantes. Si utiliza el conjunto


original de datos, redondee a un decimal mas que se usa para el conjunto
original de datos. Si utiliza un resumen de estadísticos ( , , ), redondee los
límites del intervalo de confianza al mismo número de lugares decimales
utilizados para la medida muestral.

Ahora listamos las propiedades importantes de la distribución t que utilizamos en esta


sección.

Propiedades importantes de la distribución t de Student.

1. La distribución t de Student es diferente para distintos tamaños de muestra.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 43


2. La distribución t de student tiene la misma forma de campana simétrica que la
distribución normal estándar, pero refleja una mayor variabilidad (con
distribuciones más amplias) de lo que se espera con muestras pequeñas.
3. La distribución t student tiene una media de t=0 (así como la distribución normal
estándar tiene una medida de z=0).
4. La desviación estándar de la distribución t de student varia con el tamaño
muestral, pero es mayor que 1(a diferencia de la distribución normal estándar
tiene =1)
5. Conforme el tamaño muestral n se hace más grande, la distribución t de Student
se acerca más a la distribución normal estándar.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 44


Dis6tr. ibución Distribución t de
normal est7á.ndar. Student con n =12

Ejercicios:

Suponiendo que usted planea construir un intervalo de confianza para la media


poblacional µ, utilice los datos para determinar si el margen de error debe calcularse
utilizando un valor critico de la distribución normal (z) o un valor critico de (t) o de
ninguno de estos.

a) n=150, =100, s=15, y la población tiene una distribución sesgada


b) n=8, =100, s=15, y la población tiene una distribución normal
c) n=8, =100, s=15, y la población tiene una distribución muy sesgada

Ejemplo: en un estudio de los efectos sobre los bebes del consumo de cocaína durante el
embarazo, se obtuvieron los siguientes datos de pesos al nacer: n= 190, =2700g,
s=645g. el diseño del estudio justifica el supuesto de que la muestra puede tratarse como
una muestra aleatoria simple. Utilice los datos muestrales para construir un estimado del
intervalo de confianza del 95% de µ, el peso medio al nacer de todos los bebes hijos de
madres que consumieron cocaína durante el embarazo.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 45


El valor crítico es ∝/2= 1.972. En la tabla A-3 encontramos que el valor crítico
corresponde a n-1= 189 grados de libertad y un área en dos colas de 0.05. Como la tabla
A-3 no incluye gl=189, utilizamos el valor critico más cercano de 1.972.

Calcule el margen de error E: el margen de error E= 2.97355 se calcula utilizando la


formula 1.4: = ∝/ = 1.972* 645/√ = 92.276226

Ahora calcularemos el intervalo de confianza: = 2700g y E= 92.276226, como se


indica a continuación:

-E< < +E

2700- 92.276226 <µ< 2700 + 92.276226


2607.7238 < µ < 2792.2762

Con base en los datos muestrales, tenemos una confianza del 95% de que los limites de
de 2608 g y 2792 g realmente contienen el valor del peso medio al nacer.

EJERCICIOS:

El peso perdido por una dieta de slim fast: 95% de confianza; n=40, =3.0 kg,
s=4.9 kg. (Suponga que la población tiene una distribución normal)

a) calcule el margen de error


b) calcule el intervalo de confianza para la media poblacional

Estimación de la varianza poblacional.

Requisitos:

1. La muestra es aleatoria simple.


2. La población debe tener valores distribuidos normalmente (aun si la muestra es
grande)

El supuesto de una población distribuida normalmente se menciono en secciones


anteriores, pero este requisito es mucho más importante aquí. Para los métodos de esta
sección, los alejamientos de una distribución normal pueden generar errores muy
graves. En consecuencia, el requisito de tener una distribución normal es mucho más
estricto, y debemos revisar la distribución de los datos construyendo histogramas y
graficas cuantilares normales.

Cuando consideramos estimados de proporciones y medias, utilizamos las


distribuciones normales y t de Student. Cuando desarrollamos estimados de varianza o
desviaciones estándar utilizamos otra distribución, conocida como la distribución chi
cuadrada. Examinaremos características importantes de esta distribución antes de
proceder con el desarrollo de intervalos de confianza.
Distribución chi cuadrada.

En una población distribuida normalmente, con varianza , suponga que


seleccionamos al azar muestras independientes de tamaño n y, para cada muestra
calculamos la varianza muestral (que es el cuadrado de la desviación estandar
muestral s). El estadístico muestral =(n-1) / tiene una distribución llamada
distribución chi cuadrada.

Distribución chi cuadrada.

( )
Formulación 1.5 =

Donde n= tamaño muestral

= Varianza muestral

= varianza poblacional

Denotamos chi cuadrada por , que se pronuncia “ji cuadrada”. Para calcular
valores críticos de la distribución chi cuadrada, remitida a la tabla A-4. La
distribución chi cuadrada se determina por el número de grados de libertad y en este
capítulo usamos n-
1 grados de libertad.

Grados de libertad = n-1.

En capítulos posteriores encontramos situaciones en las que grados de libertad no son


n-1, por lo que no debemos hacer la generalización incorrecta de que el número de
grados de libertad es siempre n- 1.

Propiedades de la distribución del estadístico chi cuadrada

1. La distribución chi cuadrada no es simétrica, a diferencia de las distribuciones


normales y t de student.
2. Los valores de chi cuadrada pueden ser cero o positivos, pero no puede ser
negativos.

Puesto que la distribución chi cuadrada es sesgada y no simétrica, el intervalo de


confianza no se ajusta al formato de ± y debemos hacer cálculos se parados para
los limites de confianza superior e inferior. Si se utiliza la tabla A-4 para calcular
valores críticos, observe su siguiente característica:

En la tabla A-4 cada valor critico de corresponde a una área que se encuentra en el
renglón superior de la tabla, y esa área representa la re un intervalo de región
acumulativa localizada a la derecha del valor critico.

La tabla A-2 para la distribución normal estándar proporciona área acumulativa de la


izquierda pero la tabla A-4 para la distribución chi cuadrada provee áreas acumulativas
de la derecha.
Procedimientos para construir un intervalo de confianza para

1. Verifique que los requisitos se satisfagan. (la muestra es aleatoria simple y un


histograma o grafico cuantiar normal sugiere que la población tiene una
distribución que es muy cercana a la distribución normal).
2. Utilizando n-1 grados de libertad, remítase a la tabla A-4 y encuentre los
valores críticos correspondiente al nivel de confianza deseado.
3. Evalúa los límites del intervalo de confianza e inferior utilizando el siguiente
formato para el intervalo de confianza.

( ) < <( )

4. Si se desea un estimado del intervalo de confianza de , calcule la raíz cuadrada


de los límites del intervalo de confianza superior e inferior y cambie por .
5. Redondee los límites del intervalo de confianza resultantes. Si se utiliza el
conjunto original de datos, redondee a un decimal más del que se usa para el
conjunto original del dato. Si se utiliza la desviación estándar o varianza
muestrales redondee los límites del intervalo de confianza al mismo número de
espacios decimales.

Ejemplo:

En la actualidad las monedas de 1 centavo de dólar se acuñan con una desviación


estándar de .0165g. se prueba un nuevo equipo con la intención de mejorar la calidad al
reducir la variación. Se tiene una muestra aleatoria simple de 10 monedas de 1 centavo
acuñadas con el equipo nuevo. Una grafica cuantilar normal y un histograma indican
que los pesos provienen de una población distribuida normalmente, y la muestra tiene
una desviación entandar de 0.0125 g. utilice los resultados muestrales para construir un
estimado de un intervalo de confianza del 95% de σ, la desviación estándar de los pesos
de monedas de 1 centavo fabricadas con el equipo nuevo. Con base en los resultados,
¿parce que el equipo nuevo sirve para reducir la variación de los pesos?

Solución: el tamaño muestral es n=10 de manera que hay 9 grados de libertad ,


buscamos en la tabla A-4 el valor de los nueve grados de libertad y revisamos las
columnas con áreas de .975 y .025 los valores críticos de son = 2.700 y
=19.023

Usando los valores críticos de 2.700 y 19.023, la desviación estándar muestral de


s=.0125 y el tamaño muestral de 10, construimos el intervalo de confianza al evaluar lo
siguiente:

( ). ).
.
< <( .
= .0086< <.0228

Con base en este resultado, tenemos una confianza del 95% de que los limites de .0086g
y .0228 g contienen el valor real de σ.
Pruebas de Hipótesis para una muestra

1.- introducción

Dentro del estudio de la inferencia estadística, se describe como se puede tomar una
muestra aleatoria y a partir de esta muestra estimar el valor de un parámetro poblacional
en la cual se puede emplear el método de muestreo y el teorema del valor central lo que
permite explicar cómo a partir de una muestra se puede inferir algo acerca de una
población, lo cual nos lleva a definir y elaborar una distribución de muestreo de medias
muestrales que nos permite explicar el teorema del límite central y utilizar este teorema
para encontrar las probabilidades de obtener las distintas medias maestrales de una
población.

Pero es necesario tener conocimiento de ciertos datos de la población como la media, la


desviación estándar o la forma de la población, pero a veces no se dispone de esta
información.

En este caso es necesario hacer una estimación puntual que es un valor que se usa para
estimar un valor poblacional. Pero una estimación puntual es un solo valor y se requiere
un intervalo de valores a esto se denomina intervalo de confianza y se espera que dentro
de este intervalo se encuentre el parámetro poblacional buscado. También se utiliza una
estimación mediante un intervalo, el cual es un rango de valores en el que se espera se
encuentre el parámetro poblacional

En nuestro caso se desarrolla un procedimiento para probar la validez de una


aseveración acerca de un parámetro poblacional este método es denominado Prueba de
hipótesis para una muestra.

2.- Hipótesis Y Prueba De Hipótesis

Tenemos que empezar por definir que es una hipótesis y que es prueba de hipótesis.

Hipótesis es una aseveración de una población elaborado con el propósito de poner a


prueba, para verificar si la afirmación es razonable se usan datos.

En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis,


después se hacen las pruebas para verificar la aseveración o para determinar que no es
verdadera.

Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y


la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación
razonable.

Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de cinco


pasos:
Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar
la hipótesis, pero debemos de tener cuidado con esta determinación ya que en la
consideración de estadística no proporciona evidencia de que algo sea verdadero. Esta
prueba aporta una clase de prueba más allá de una duda razonable. Analizaremos cada
paso en detalle

Objetivo de la prueba de hipótesis.

El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico


(muestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra
y un valor planteado del parámetro.

3.- Procedimiento sistemático para una prueba de hipótesis de una muestra

Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.

Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones


acerca de las poblaciones que se estudian.

La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de


población, no a una estadística de muestra. La letra H significa hipótesis y el subíndice
cero no hay diferencia. Por lo general hay un "no" en la hipótesis nula que indica que
"no hay cambio" Podemos rechazar o aceptar Ho.

La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis
nula siempre contiene un signo de igualdad con respecto al valor especificado del
parámetro.

La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es


una afirmación que se acepta si los datos muestrales proporcionan evidencia suficiente
de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de
investigación. El planteamiento de la hipótesis alternativa nunca contiene un signo de
igualdad con respecto al valor especificado del parámetro.

Paso 2: Seleccionar el nivel de significancia.

Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando es verdadera.


Se le denota mediante la letra griega α, también es denominada como nivel de riesgo,
este término es más adecuado ya que se corre el riesgo de rechazar la hipótesis nula,
cuando en realidad es verdadera. Este nivel esta bajo el control de la persona que
realiza la prueba.

Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de


significación indicará la probabilidad de no aceptarla, es decir, estén fuera de área de
aceptación. El nivel de confianza (1-α), indica la probabilidad de aceptar la hipótesis
planteada, cuando es verdadera en la población.

La distribución de muestreo de la estadística de prueba se divide en dos regiones, una


región de rechazo (conocida como región crítica) y una región de no rechazo
(aceptación). Si la estadística de prueba cae dentro de la región de aceptación, no se
puede rechazar la hipótesis nula.

La región de rechazo puede considerarse como el conjunto de valores de la estadística


de prueba que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por
otro lado, estos valores no son tan improbables de presentarse si la hipótesis nula es
falsa. El valor crítico separa la región de no rechazo de la de rechazo.

Tipos de errores

Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de


aceptación de la Ho o de la Ha, puede incurrirse en error:

Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y


debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra
alfa α

Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es
aceptada cuando de hecho es falsa y debía ser rechazada.

En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.

En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 50


Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que
minimice los errores de decisión. En la práctica un tipo de error puede tener más
importancia que el otro, y así se tiene a conseguir poner una limitación al error de
mayor importancia. La única forma de reducir ambos tipos de errores es incrementar el
tamaño de la muestra, lo cual puede ser o no ser posible.

La probabilidad de cometer un error de tipo II denotada con la letra griega beta β,


depende de la diferencia entre los valores supuesto y real del parámetro de la población.
Como es más fácil encontrar diferencias grandes, si la diferencia entre la estadística de
muestra y el correspondiente parámetro de población es grande, la probabilidad de
cometer un error de tipo II, probablemente sea pequeña.

El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán
apoyado exclusivamente en el análisis de una parte de ésta. De la probabilidad con la
que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la
muestra requerida. Las contrastaciones se apoyan en que los datos de partida siguen una
distribución normal

Existe una relación inversa entre la magnitud de los errores α y β: conforme a aumenta,
β disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas
estadísticas. Lo ideal sería establecer α y β. En la práctica se establece el nivel α y para
disminuir el Error β se incrementa el número de observaciones en la muestra, pues así
se acortan los limites de confianza respecto a la hipótesis planteada .La meta de las
pruebas estadísticas es rechazar la hipótesis planteada. En otras palabras, es deseable
aumentar cuando ésta es verdadera, o sea, incrementar lo que se llama poder de la
prueba (1- β) La aceptación de la hipótesis planteada debe interpretarse como que la
información aleatoria de la muestra disponible no permite detectar la falsedad de esta
hipótesis.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 51


Paso 3: Cálculo del valor estadístico de prueba

Valor determinado a partir de la información muestral, que se utiliza para determinar si


se rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso
utilizaremos los estadísticos z y t. La elección de uno de estos depende de la cantidad de
muestras que se toman, si las muestras son de la prueba son iguales a 30 o mas se utiliza
el estadístico z, en caso contrario se utiliza el estadístico t.

Tipos de prueba

a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la


igualdad

Ejemplo

H0 : µ = 200

H1 : µ ≠ 200

b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤

H0 : µ ≥ 200 H0 : µ ≤ 200

H1 : µ < 200 H1 : µ > 200

En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar
(σ) poblacional, o cuando el valor de la muestra es grande (30 o más), el valor
estadístico de prueba es z y se determina a partir de:

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 52


El valor estadístico z, para muestra grande y desviación estándar poblacional
desconocida se determina por la ecuación:

En la prueba para una media poblacional con muestra pequeña y desviación estándar
poblacional desconocida se utiliza el valor estadístico t.

Paso :4 Formular la regla de decisión

SE establece las condiciones específicas en la que se rechaza la hipótesis nula y las


condiciones en que no se rechaza la hipótesis nula. La región de rechazo define la
ubicación de todos los valores que son tan grandes o tan pequeños, que la probabilidad
de que se presenten bajo la suposición de que la hipótesis nula es verdadera, es muy
remota

Distribución muestral del valor estadístico z, con prueba de una cola a la derecha

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 53


Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis
nula y la región en la que no se rechaza la hipótesis nula.

Paso 5: Tomar una decisión.

En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se


compara con el valor crítico y se toma la decisión de rechazar o no la hipótesis nula.
Tenga presente que en una prueba de hipótesis solo se puede tomar una de dos
decisiones: aceptar o rechazar la hipótesis nula. Debe subrayarse que siempre existe la
posibilidad de rechazar la hipótesis nula cuando no debería haberse rechazado (error
tipo I). También existe la posibilidad de que la hipótesis nula se acepte cuando debería
haberse rechazado (error de tipo II).

4.- Ejemplo en la cual se indica el procedimiento para la prueba de hipótesis

Ejemplo

El jefe de la Biblioteca Especializada de la Facultad de Ingeniería Eléctrica y


Electrónica de la UNAC manifiesta que el número promedio de lectores por día es de
350. Para confirmar o no este supuesto se controla la cantidad de lectores que utilizaron
la biblioteca durante 30 días. Se considera el nivel de significancia de 0.05

Datos:

Día Usuarios Día Usuarios Día Usuario

1 356 11 305 21 429

2 427 12 413 22 376

3 387 13 391 23 328

4 510 14 380 24 411

5 288 15 382 25 397

6 290 16 389 26 365

7 320 17 405 27 405

8 350 18 293 28 369

9 403 19 276 29 429

10 329 20 417 30 364

Solución: Se trata de un problema con una media poblacional: muestra grande y


desviación estándar poblacional desconocida.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 54


Paso 01: Seleccionamos la hipótesis nula y la hipótesis alternativa

Ho: μ═350

Ha: μ≠ 350

Paso 02: Nivel de confianza o significancia 95%

α═0.05

Paso 03: Calculamos o determinamos el valor estadístico de prueba

De los datos determinamos: que el estadístico de prueba es t, debido a que el numero de


muestras es igual a 30, conocemos la media de la población, pero la desviación estándar
de la población es desconocida, en este caso determinamos la desviación estándar de la
muestra y la utilizamos en la formula reemplazando a la desviación estándar de la
población.

Calculamos la desviación estándar muestral y la media de la muestra empleando Excel,


lo cual se muestra en el cuadro que sigue.

Columna1

Media 372.8

Error típico 9.56951578

Mediana 381

Moda 405

Desviación estándar 52.4143965

Varianza de la muestra 2747.26897

Curtosis 0.36687081

Coeficiente de
asimetría 0.04706877

Rango 234

Mínimo 276

Máximo 510

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 55


Suma 11184

Cuenta 30

Nivel de confianza
(95.0%) 19.571868

Paso 04: Formulación de la regla de decisión.

La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos
colas, la mitad de 0.05, es decir 0.025, está en cada cola. el área en la que no se rechaza
Ho está entre las dos colas, es por consiguiente 0.95. El valor critico para 0.05 da un
valor de Zc = 1.96.

Por consiguiente la regla de decisión: es rechazar la hipótesis nula y aceptar la hipótesis


alternativa, si el valor Z calculado no queda en la región comprendida entre -1.96 y
+1.96. En caso contrario no se rechaza la hipótesis nula si Z queda entre -1.96 y +1.96.

Paso 05: Toma de decisión.

En este último paso comparamos el estadístico de prueba calculado mediante el


Software Minitab que es igual a Z = 2.38 y lo comparamos con el valor critico de Zc =
1.96. Como el estadístico de prueba calculado cae a la derecha del valor critico de Z, se
rechaza Ho. Por tanto no se confirma el supuesto del Jefe de la Biblioteca.

One-Sample Z

Test of mu = 350 vs not = 350

The assumed standard deviation = 52.414

N Mean SE Mean 95% CI Z P

30 372.800 9.569 (354.044, 391.556) 2.38 0.017

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 56


Conclusiones:

 Se rechaza la hipótesis nula (Ho), se acepta la hipótesis alterna (H1) a un nivel de


significancia de α = 0.05. La prueba resultó ser significativa.
 La evidencia estadística no permite aceptar la aceptar la hipótesis nula.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 57


Prueba de una aseveración respecto de una proporción.

Las aseveraciones sobre una proporción poblacional suelen probarse utilizando una
distribución normal como aproximación de la distribución binomial.

Requisitos:

1. Las observaciones muestrales son una muestra aleatoria simple


2. Se satisfacen las condiciones para una distribución binomial
3. Se satisfacen las condiciones np≥5 y nq≥ 5.

El estadístico de prueba para probar una aseveración sobre una proporción es:


=

Ejemplo: De los resultados de una encuesta a 703 empleados elegidos al azar, el 61%
obtuvo trabajo por medio de redes de contacto. Utilice los datos muestrales, con un
nivel de significancia de 0.05, para probar la aseveración de que la mayoría de los
empleados (más del 50%) consiguen su trabajo por medio de redes de contacto.

Paso 0 : Analizar si se cumplen los requisitos:

Paso 0

Paso 1

Paso 2

Paso 3

Paso 4
Paso 5
Paso 6

Paso 7

Paso 8

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 58


Cuando Gregor Mendel realizó sus famosos
experimentos de hibridación con chicharos, uno de
ellos dio por resultados descendencia que consistía
en 428 plantas de chicharos con vainas verdes y
152 plantas de chicharos con vainas amarillas.
Según la teoría de Mendel ¼ de los vástagos de
chicharos de chicharos debían tener vainas
amarillas. Utilice un nivel de significancia de 0.05
con el método del valor P, para probar la
aseveración de que la proporción de vástagos de
chicharos con vainas amarillas es igual a ¼.

Paso 0

Paso 1

Paso 2

Paso 3

Paso 4
Paso 5
Paso 6

Paso 7

Paso 8

Minitab : Seleccione stat, Basic statics, 1 proportion, luego haga clic en el botón de
summarized data. Introduzca el tamaño de muestra y el numero de éxitos y después
haga clic en Options y proceda a introducir los datos en el cuadro sde dialogo. Para el
nivel de confianza introduzca el complemento del nivel de significancia. Para el valor
de test proportion, ingrese la proporción empleada en la hipótesis nula. Para alternative
seleccione el formarto usado para la hipótesis alternativa. En vez de usar una
aproximación normal, el procedimiento determinado por Minitab consiste en determinar
el valor P empleando un método exacto. Para utilizar el método de aproximación normal
presentado en este tema, haga clic en el botón de options y luego en el recuadro que dice
“use tests and interval based on normal distribution”.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 59


EJERCICIOS:

En los siguientes ejercicios examine la afirmación dada, después exprese la hipótesis


nula y la hipótesis alternativa de manera simbólica. (Asegúrese de emplear el símbolo
correcto.

1.- Más del 25% de los usuarios de internet pagan sus facturas en línea.

2.- El peso medio de mujeres que han ganado el título de nuestra belleza México es
igual 54.8846 kg.

3.- Las puntuaciones del CI de los profesores universitarios tienen una desviación
estándar menor que 15, que es la desviación estándar de la población general.

Calcule los valores críticos siguientes:

1.- prueba de dos colas; α=0.05

2.- prueba de cola derecha; α=0.01

3.- α=0.10; es p ≠ 0.17

4.- α=0.02; es p < 0.19

Calcule el valor del estadístico de prueba z

La aseveración es que la proporción de adultos que fumaron un cigarrillo la semana


pasada es menor que 0.25, y los estadísticos de muestra incluyen n=1018 sujetos, de los
cuales 224 dicen que fumaron un cigarrillo la semana pasada.

La aseveración es que más de 75% de los empleados están satisfechos con su trabajo, y
los estadísticos de muestra incluyen a 580 adultos empleados, de los cuales 516 afirman
sentirse satisfechos con su trabajo.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 60


En uno de los famosos experimentos de Mendel sobre la hibridación, se obtuvieron
8023 vástagos de chicharos y el 24.94% de ellos presentaba flores verdes. El resto tenia
flores blancas. Considere una prueba de hipótesis que utiliza un nivel de significancia de
0.05 para probar la aseveración de que la plantas de chicharos con flores verdes se
presenta en una proporción del 25%

a) ¿Cuál es el estadístico de prueba?


b) ¿Cuál es el valor crítico?
c) ¿Cuál es el valor P?
d) ¿Cuál es la conclusión?
e) Se podría utilizar una hipótesis para “probar” que el porcentaje de plantas de
chicharos con flores verdes es del 25% como se aseveró?

En 1997 una encuesta de 880 hogares estadunidenses revelo que 149 de ellos emplean el
correo electrónico. Utilice los resultados de esta muestra para probar la aseveración de
que más del 15% de los hogares estadunidenses emplean el correo electrónico. Use el
nivel de significancia de 0.05. ¿Sería válida la conclusión aun hoy? ¿Por qué?

Prueba de hipótesis respecto a una media con desviación estándar poblacional


conocida

Los requisitos, el estadístico de prueba, los valores críticos y el valor P se resumen de la


siguiente manera:

1. La muestra es aleatoria simple


2. Se conoce el valor de la desviación estándar poblacional
3. Se satisface una o ambas de las siguientes condiciones: la población se
distribuye normalmente y n>30

El estadístico de prueba que se utiliza es el siguiente:



=


Ejemplo: un fabricante de equipo deportivo desarrolla un nuevo sedal sintetico que
afirma tiene una resistencia media a la tensión de ocho kilogramos con una desviación
estándar de 0.5 kilogramos. Pruebe la hipótesis µ= 8 kilogramos contra la alternativa
µ≠8 kilogramos si se prueba una muestra aleatoria de 50 sedales y se encuentra que
tienen una resistencia media a la tensión de 7.8 kg. Utilice un nivel de significancia de
0.01.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 61


Paso 0

Paso 1

Paso 2

Paso 3

Paso 4
Paso 5
Paso 6

Paso 7

Paso 8

Prueba de hipótesis respecto a una media con desviación estándar poblacional


desconocida

Requisitos.

1.- La muestra es aleatoria simple

2.- Se desconoce el valor de la desviación estándar poblacional σ

El estadístico de prueba usado para este caso es:



=


Propiedades importantes de la distribución t de Student

1.- Difiere para tamaños de muestra distintos

2.- Tiene la misma forma de campana que la distribución normal estándar; su forma más
ancha refleja una mayor variabilidad, lo que se espera cuando se utiliza s para estimar σ.

3.- Tiene una media de t=0

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 62


4.- La desviación estándar de la distribución varía de acuerdo con el tamaño muestral y
es mayor que 1.

5.- Conforme aumenta el tamaño muestral n, esta distribución (t) se acerca más a la
distribución normal estándar.

Ejemplo:

Control de calidad de los dulces m&m. el conjunto de


datos sobre los dulces m&m que se mostro en secciones
anteriores incluye los pesos de 13 dulces m&m rojos,
elegidos al azar de una bolsa que contiene 465 m&m. A
continuación se presentan los pesos en gramos, los cuales
tienen una media de = 0.8635 y una desviación estándar
de s= 0.0576 g. en el empaque se afirma que el peso neto
del contenido es de 396.9 g, de manera que los m&m
deben tener un peso medio de al menos 396.9/465 =
0.8535g para dar la cantidad anunciada. Utilice los datos muestrales con un nivel de
significancia de 0.05, para probar la aseveración que hizo un gerente de producción de
que los m&m tienen en realidad una media mayor que 0.8535 g, de manera que los
consumidores están recibiendo mas que la cantidad indicada en la etiqueta. Utilice el
método tradicional siguiendo el procedimiento descrito en el diagrama de flujo.

Paso 0

Paso 1

Paso 2

Paso 3

Paso 4
Paso 5
Paso 6

Paso 7

Paso 8

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 63


Potencia de una prueba:

La potencia de una prueba de hipótesis es la probabilidad (1- ) de rechazar una


hipótesis nula falsa; se calcula utilizando un nivel de significancia α particular y un
valor específico del parámetro de la población que representa una alternativa al valor
considerado como verdadero en la hipótesis nula. Es decir, la potencia de una prueba de
hipótesis es la probabilidad de sustentar una hipótesis alternativa que es verdadera.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 64


Pruebatde1muestraparalam
ediadeRed
Informedediag
nóstico

Ordendelosdatosenlahojadetrabajo
Investigar valoresatípicos(marcadosenrojo).
1,0

0,9

0,8

0,7

Poten
cia ¿Quédiferenciapuededetectarconun
¿Cuáleslaprobabilidaddedetectar
unadiferencia?
tamañodemuestra
<40% 60% 90% 100
de13?
%
Diferencia

Potencia

0,032162 60,0
0,032162 0,04965 0,036769 70,0
5
Paraniveldesignif.=0,05ytamañodela 0,042165 80,0
muestra=13: 0,049655 90,0
Silamediaverdaderafueramayorquee
lobjetivopor
0,032162,ustedtendríaunaprobabilidadde6
0%dedetectar
ladiferencia.Sifuera0,049655may
or,tendríauna probabilidadde90,

Lapotenciaesunafuncióndeltamañodelamuestraydeladesviaciónestándar.Paradetectarunadif
erenciamenorque0,042165,considere aumentareltamañodelamuestra.

Ejercicios.

1.- Suponga que se seleccionó una muestra aleatoria simple de una población distribuida
en forma normal, obtenga la hipótesis nula, la alternativa, el estadístico de prueba, el
valor P, el valor o valores críticos y establezca la conclusión final.

Aseveración: La puntuación media del coeficiente intelectual de profesores de industrial


es mayor que 120. Datos muestrales: n=21, =132, s=12. El nivel de significancia es α=
0.05.

2.- el conjunto de datos 2 del apéndice B incluye 106 temperaturas corporales con una
media de 98.20 ºF y una desviación estándar de 0.62ºF. Utilice un nivel de significancia
de 0.05 para probar la aseveración de que la temperatura media corporal es menor que
98.6ºF. con base en esos resultados, ¿Parece que la media de 98.6 ºF que suele utilizarse
es errónea?
Curso de Estadística
Básica
Prueba de hipótesis respecto a una desviación estándar

Requisitos:

1.- La muestra es aleatoria simple

2.- La población tiene una distribución normal

El estadístico que se utiliza para este tipo de pruebas es:

= ( − 1)

Valores P y valores críticos: Utilice la tabla A-4, con gl= n-1 para el numero de grados
de libertad.

Propiedades de la distribución

1. La distribución chi cuadrada no es simétrica, a diferencia de las distribuciones


normales y t de student.
2. Los valores de chi cuadrada pueden ser cero o positivos, pero no puede ser
negativos.

Ejemplo:

El mundo de la industria comparte esta meta en común: mejorar la calidad reduciendo la


variación. Los ingenieros de control de calidad desean asegurarse que un producto tenga
una media aceptable, pero también quieren producir artículos con una calidad
consistente, eliminando los defectos. Crown ha fabricado latas de bebidas de cola con
cantidades que tienen una desviación estándar de 0.051 onzas. Se prueba una nueva
máquina embotelladora, y una muestra aleatoria simple de 24 latas produce las
cantidades en onzas que se listan a continuación. (Las 24 cantidades tienen una
desviación estándar de s=0.039 oz). Utilice un nivel de significancia de 0.05 para probar
la aseveración de que las latas de bebidas de cola de la nueva máquina tienen cantidades
con una desviación estándar menor que 0.051 oz.

11.98 11.98 11.99 11.98 11.90 12.02 11.99 11.93


12.02 12.02 12.02 11.98 12.01 12.00 11.99 11.95
11.95 11.96 11.96 12.02 11.99 12.07 11.93 12.05

Paso 0

Paso 1

Paso 2

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 66


Curso de Estadística
Básica
Paso 3

Paso 4
Paso 5
Paso 6

Paso 7

Paso 8

En los siguientes ejercicios pruebe la aseveración dada. Suponga que se selecciona una
muestra aleatoria simple de una población distribuida normalmente. Utilice el método
tradicional de prueba de hipótesis.

1.- Se realizó un estudio de hijos de madres que consumieron cocaína durante el


embarazo y se obtuvieron los siguientes datos muestrales de pesos al nacer: n= 190, =
2700 g, y s=645. Utilice un nivel de significancia de 0.05 para probar la aseveración de
que la desviación estándar de los pesos al nacer de hijos de consumidoras de cocaína
difiere de la desviación estándar de 696 g de los pesos al nacer de los hijos de las
mujeres que no consumieron cocaína durante el embarazo. (como la tabla A-4 tiene un
máximo de 100 grados de libertad, mientras que aquí se requieren 189 grados, utilice
los siguientes valores críticos obtenidos por medio de software XL = 152.8222 y XR=
228.9638) Con base en el resultado, ¿parece que la cocaína consumida por las madres
afecta la variación de los pesos de sus bebés?

2.- utilice un nivel de significancia de 0.01 para probar la aseveración de que los dulces
M&M de cacahuate tienen pesos que varían mas que los pesos de los dulces M&M
sencillos. La desviación estándar de los pesos de los dulces M&M sencillos es de 0.056
g. una muestra de 41 dulces M&M de cacahuate tienen pesos con una desviación
estándar de 0.31g. ¿Por qué los dulces de cacahuate tendrán pesos que varían mas que
los pesos de los dulces sencillos?

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 67


Curso de Estadística
Básica
Inferencias a partir de dos muestras

Inferencias acerca de dos proporciones

Cuando se prueba una hipótesis acerca de dos proporciones poblacionales o cuando se


construye un intervalo de confianza de la diferencia entre dos proporciones
poblacionales, los requisitos y la notación son los siguientes.

Observe que cuando se prueba la hipótesis nula de p1=p2, no hay necesidad de estimar
los parámetros individuales p1 y p2, si no que estimamos su valor común con la
proporción muestral agrupada que se describe a continuación.

Requisitos:

1.- tenemos proporciones de dos muestras aleatorias simples que son independientes.

2.- Para ambas muestras, el número de éxitos es de al menos 5 y el número de fracasos


es de al menos 5.

Proporción muestral agrupada.


+
=
+

Estadístico de prueba para dos proporciones (con Ho: p1=p2)

( − )−( − )
=
+

Donde p1-p2=0 (supuesto en la hipótesis nula)

= y =

+
=
+

=1−

Utilice la tabla A-2.

Ejemplo:

La siguiente tabla incluye los resultados de una prueba clínica en la que se dio
tratamiento a pacientes con síndrome del túnel carpiano. Utilice los datos muestrales de
la tabla, con un nivel de significancia de 0.05 para probar la aseveración de que la tasa
de éxito de la cirugía es mejor que la tasa de éxito del entablillado.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 68


Curso de Estadística
Básica
Tabla de datos: tratamiento del síndrome del túnel carpiano

Tratamiento
Cirugía Entablillado
Éxito un año después del 67 60
tratamiento
Número total de sujetos 73 83
tratados
Porcentaje de éxito 92% 72%

Paso 0

Paso 1

Paso 2

Paso 3

Paso 4
Paso 5
Paso 6

Paso 7

Paso 8

Minitab: seleccione stat de la barra del menú principal, luego seleccione basic statics,
luego 2 proportions. Haga clic en el botón summarize Data e ingrese los valores
muestrales. Haga clic en options e introduzca el nivel de confianza deseado. Si realiza
una prueba de hipótesis, ingrese el valor aseverado de p1-p2, seleccione el formato para
la hipótesis alternativa y haga clic en el cuadro para utilizar el estimado agrupado de p
para la prueba. Haga clic en OK dos veces.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 69


Curso de Estadística
Básica
EJERCICIOS:

Calcule el número de éxitos x sugeridos por la afirmación dada:

1.- De 976 sujetos encuestados, el 7% consumió una bebida alcohólica cada día.

Suponga que usted planea utilizar un nivel de significancia de α=0.05 para probar la
aseveración de que p1=p2. Utilice los tamaños muestrales y los números de éxitos
dados para calcular a) el estimado agrupado , b) El estadístico de prueba z. c)los
valores críticos de z y d) el valor P

1.-

Grupo de Grupo Placebo


tratamiento
n1= 500 n2=400
=100 =50

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 70


Curso de Estadística
Básica
Correlación

Concepto clave: en esta sección se explica el coeficiente de correlación lineal r que es


una medida numérica de la fuerza de la relación entre dos variables que representan
datos cuantitativos. Utilizando datos muéstrales apareados (que en ocasiones se llaman
datos bivariados), calculamos el valor de r (generalmente con recursos tecnológicos) y
luego utilizamos este valor para concluir que existe (o no) una relación entre las dos
variables. En esta sección solo consideramos las relaciones lineales, lo que quiere decir
que cuando se grafican, los puntos se aproximan al patrón de una línea recta. Puesto que
los programas de cómputo o las calculadoras suelen emplearse para calcular el valor de
r, es importante enfocase en los conceptos de esta sección, sin entretenerse demasiado
con cálculos aritméticos tediosos.

Conceptos básicos de correlación


Iniciamos con la definición básica de correlación, un término que se utiliza
comúnmente en el contexto de una relación entre dos variables.
Defini ció
n
Una correlación existe entre dos variables cuando una de ellas está relacionada con la
otra de alguna manera.
C oefi cien te de co rrel ación lin
eal
Puesto que el examen visual de los diagramas de dispersión es muy subjetivo,
necesitamos medidas más precisas y objetivas. Empleamos el coeficiente de correlación
lineal r, que sirve para detectar patrones lineales.

Requisitos

Dado cualquier conjunto de datos muestrales apareados siempre se puede calcular el


coeficiente de correlación lineal r, pero se deben satisfacer los siguientes requisitos
cuando se prueban hipótesis o cuando se hacen inferencias acerca de r.

1. la muestra de datos apareados es una muestra aleatoria de datos cuantitativos. (es


importante que los datos muestrales no se hayan reunido por medio de algún método
inapropiado, como una muestra de respuesta voluntaria).
2. El examen visual del diagrama de dispersión debe con firmar que los puntos se
acercan al patrón de una línea recta.
3. Es necesario eliminar cualquier valor extremo, si se sabe que se trata de un error.
Los efectos de cualquier valor extremo, si se sabe que se trata de un error. Los efectos
de cualquier otro valor extremo deben tomarse en cuenta calculando r con y sin el valor
extremo incluido.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 71


Curso de Estadística
Básica

Notación para el coeficiente de correlación lineal

n representa el numero de pares de datos presentes.


Σ² denota la suma de los elementos indicados.
Σx denota la suma de todos los valores de x.
Σx² indica que cada valor de x debe elevarse al cuadrado y después deben
sumarse esos cuadrados.
(Σx)² indica que los valores de x deben sumarse y el total elevarse al cuadrado.
Es sumamente importante evitar confundirse entre Σx² y (Σx)²
Σxy indica que cada valor de x debe multiplicarse primero por su valor y
correspondiente. Después de obtener, todos estos productos, se calcula su
suma.
r representa el coeficiente de correlación lineal de una muestra.
ρ la letra griega rho se usa para representar el coeficiente de correlación
lineal de una población.

(∑ ) (∑ )(∑ )
Formula 1.6 =
(∑ ) (∑ ) (∑ ) (∑ )

Interpretación de r por medio de la tabla A-6: si el valor absoluto del valor calculado
de r excede el valor de la tabla de A-6, concluya que existe una correlación lineal
significativa. De lo contrario, no existe evidencia suficiente para sustentar la conclusión
de una correlación lineal.

Interpretación de r por medio de un programa de cómputo: si el valor P calculado


es menor o igual que el nivel de significancia, concluya que existe una correlación
lineal. De lo contrario, no existe evidencia para sustentar la conclusión de una
correlación lineal.

Interpretación del coeficiente de correlación lineal

Necesitamos interpretar un valor calculado de r, tal como el valor de -0.956 obtenido en


el ejemplo anterior. Dada la manera en que la formula 1.6 está construida, el valor de r
siempre debe estar entre -1 y +1, inclusive. Si r se acerca a 0, concluimos que no existe
una correlación lineal entre x y y, pero si r se acerca -1 o +1, concluimos que hay una
correlación lineal entre x y y. Interpretaciones tales como “cercano a” 0, a 1 o a -1 son
vagas, por lo que utilizamos el siguiente criterio especifico de decisión:

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 72


Curso de Estadística
Básica

Uso de la tabla A-6: Si el valor absoluto del valor calculado de r excede el


valor de la tabla A-6, se concluye que existe una correlación lineal. De lo
contrario, no existe evidencia suficiente para sustentar la con conclusión de
una correlación lineal.

Uso de un programa de cómputo: si el valor P calculado es menor o igual que


el nivel de significancia, se concluye que existe una correlación lineal. De lo
contrario, no existe evidencia suficiente para sustentar la conclusion de una
correlación lineal.

Cuando en realidad no existe una correlación lineal entre x y y, la tabla A-6 lista valores
que son “críticos” en este sentido: separan valores comunes de r de aquellos que son
poco comunes.

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 73


Curso de Estadística
Básica

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 74


Curso de Estadística
Básica

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 75


Curso de Estadística
Básica

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 76


Curso de Estadística
Básica

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 77


Curso de Estadística
Básica

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 78


Curso de Estadística
Básica

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 79


Curso de Estadística
Básica

Instituto Tecnoló gico Superior de Tierra Blanca Pá gina 80

También podría gustarte