Está en la página 1de 88

Muestreo y Estadística

descriptiva
UG

ING. TONY COLOMA


Muestreo
(Sección 1.1)

ING. TONY COLOMA


MUESTREO
SLIDE 3
Como se ha mencionado, los métodos estadísticos
están basados en la idea de analizar una muestra
tomada de una población. Para trabajar con esta
idea, la muestra se debe elegir de manera
adecuada.
Por ejemplo, digamos que se quiere conocer la
estatura de los estudiantes de la Escuela de Minas,
de Colorado, al considerar una muestra de 100
estudiantes. ¿Cómo se deben elegir los 100
estudiantes que se medirían?

The Power of PowerPoint | http://thepopp.com


MUESTREO
SLIDE 4
Una población representa la colección completa de elementos o resultados de la
información buscada.

Una muestra constituye un subconjunto de una población, que contiene elementos


o resultados que realmente se observan

Los mejores métodos del muestreo implican el muestreo aleatorio. Hay muchos
métodos diferentes del muestreo aleatorio, el básico es el muestreo aleatorio simple.
MUESTREO
SLIDE 5
Muestreo Aleatorio Simple
Debido a que una muestra aleatoria simple es similar a una lotería, con frecuencia se
puede tomar la muestra con el mismo método que el que se usa en muchas loterías:
Con un generador de números aleatorios de una computadora.
Suponga que hay N elementos en la población y que se le asigna a cada elemento de la población un
entero entre 1 y N. Después se genera una lista de enteros aleatorios entre 1 y N y se eligen los
elementos correspondientes de la población para que formen la muestra aleatoria simple, precisamente
como en la lotería.

Una muestra aleatoria simple puede consistir de valores obtenidos en un proceso en condiciones
experimentales idénticas. En este caso, la muestra proviene de una población que consta de todos
los valores posibles que se han observado. A este tipo de población se le denomina
población conceptual.
Tipos de muestreo aleatorio simple
Muestreo reemplazo: y Muestreo sin reemplazo SLIDE 6

El muestreo aleatorio simple es un método de muestreo al


azar que puede tener 2 subtipos: el muestreo con reemplazo y sin
reemplazo.
•Muestreo reemplazo: En este, después de que un elemento ha
sido seleccionado de entre el marco de la muestra, se devuelve y
es elegible para ser seleccionado de nuevo.
•Muestreo sin reemplazo: En este, después de que un elemento
se selecciona del marco de la muestra, se retira de la población y
no regresa a la base del muestreo. Este tipo de muestreo suele ser
más eficiente pues no permite que el mismo elemento de la
población entre a la muestra más de una vez.

The Power of PowerPoint | http://thepopp.com


Ejemplo de muestreo aleatorio simple
SLIDE 7
Expondremos una manera de seleccionar una muestra
aleatoria simple utilizando un ejemplo concreto.
Se pretende realizar un estudio sobre los h´abitos de lectura en
los estudiantes de Polit´ecnica. Las alumnos que actualmente
estudian en Polit´ecnica son un total de 544 alumnos y se quiere
extraer una muestra aleatoria simple de 65 alumnos. Una manera
de extraer una muestra aleatoria simple consiste en asignar a
cada alumnos un n´umero del 1 al 544 asociando cada n´umero a
un ´unico individuo. Una vez realizado esa asignaci´on, se
introducen 544 bolas numeradas en una urna (cada una con un
n´umero del 1 al 544), se mezclan cuidadosamente y de manera
adecuada y entonces se seleccionan 65 bolas al azar. Si todo el
proceso se realiza de manera adecuada, las bolas seleccionadas
constituir´ıan una muestra aleatoria simple de 65 estudiantes.
Aunque es conceptualmente simple, este m´etodo es un poco
trabajoso de ejecutar y depende de que las bolas se hayan
mezclado de manera adecuada y que todas las bolas tengan el
mismo peso y rozamiento.

The Power of PowerPoint | http://thepopp.com


Ejemplo de muestreo aleatorio simple
SLIDE 8
Expondremos una manera de seleccionar una muestra
aleatoria simple utilizando un ejemplo concreto.
Otra manera de seleccionar esta muestra aleatoria simple consistir´ıa en
utilizar una tabla de n´umeros aleatorios. Una tabla de n´umeros aleatorios
es un conjunto de d´ıgitos generado de modo que, normalmente, la tabla
contendr´a a cada uno de los diez d´ıgitos (0, 1, . . . , 9), en proporciones
aproximadamente iguales, sin mostrar tendencias en el patr´on que se
generan los d´ıgitos. Por lo tanto, si se selecciona un n´umero en un lugar
aleatorio de la tabla, es igualmente probable que sea cualquiera de los
d´ıgitos entre el 0 y el 9. Estas tablas se construyen para asegurar que cada
d´ıgito, cada par de dıgitos, cada tres dıgitos, ... aparecen con la misma
frecuencia. En el caso de extraer una muestra aleatoria simple, se elige un
lugar para empezar a leer dichos n´umeros aleatorios. Despu´es se
selecciona una direcci´on (arriba, abajo, derecha e izquierda) y se van
recogiendo d´ıgitos de dos en dos hasta que se consiga el tama˜no muestral
adecuado. Utilizando este m´etodo, un elemento puede aparecer m´as de
una vez. Si queremos extraer una muestra aleatoria simple sin reposic´´ion,
la solucíon es ignorar los elementos repetidos.

The Power of PowerPoint | http://thepopp.com


Las ventajas SLIDE 9
que tiene este procedimiento de muestreo son las
siguientes
Calculo rapido de medias y varianzas. Existen paquetes inform´aticos
para analizar los datos

•Tiende a producir muestras representativas y permite el uso de la


estadística inferencial en el análisis de datos recogidos.

•Cada selección es independiente de otras selecciones; Todas las


combinaciones posibles de unidades de muestreo tienen la misma
oportunidad de ser seleccionadas. En el muestreo sistemático, las
posibilidades de ser seleccionado no son independientes entre sí.

•En general, es más fácil que otros procedimientos de muestreo


probabilístico (tales como el muestreo por conglomerados) de
comprender y comunicar a otros.

•Los procedimientos estadísticos requeridos para analizar los datos y


calcular los errores son más fáciles que los requeridos en otros
procedimientos de muestreo probabilístico.
The Power of PowerPoint | http://thepopp.com
las desventajas
SLIDE 10
de este procedimiento de muestreo son:

•Se requiere un marco de muestreo de elementos de la población


objetivo. Un marco de muestreo apropiado puede que no exista para
la población que se dirige, y puede que no sea factible o práctico
construir uno. En este caso el muestreo por conglomerados no
requiere de una toma de muestra de los elementos de la población
objetivo.
•El muestreo aleatorio simple tiende a tener errores de
muestreo más grandes y menos precisión de muestreo estratificado
del mismo tamaño de la muestra.
•Los encuestados pueden estar muy dispersos, por tanto, los costos
de la recolección de datos pueden ser superiores a los de otros
diseños de la muestra de probabilidad, como el muestreo por
conglomerados.
•El muestreo aleatorio simple puede no producir un número
suficiente de elementos de pequeños subgrupos. Esto no haría de un
muestreo
The Power of PowerPoint aleatorio simple una buena opción para los estudios que
| http://thepopp.com
Fortalezas y debilidades del muestreo aleatorio simple
Estas son algunas de las fortalezas y debilidades de este tipo de muestreo: SLIDE 11
Fortalezas Debilidades
En comparación con otros procedimientos de En comparación con otros procedimientos de
muestreo probabilístico muestreo probabilístico

Cada combinación posible de muestreo tiene igual No se aprovecha del conocimiento que el investigador
probabilidad de ser seleccionado. podría tener de la población.

Puede tener errores de muestreo más grandes y menos


Más fácil de entender y comunicar a otros. precisión que otros diseños de muestreo probabilístico
con el mismo tamaño de la muestra.

Si subgrupos de la población tienen intereses


Tiende a producir muestras representativas. particulares no pueden ser incluidos con un número
suficiente en la muestra.

Los procedimientos estadísticos necesarios para analizar Si la población está muy dispersa, los costos por
errores de datos y de software de estadísticas son más recolección de datos pueden ser más altos que los de
fáciles. otros diseños de la muestra de probabilidad.

The Power of PowerPoint | http://thepopp.com


MUESTREO
SLIDE 12
Muestreo por conveniencia
En algunos casos, es difícil o imposible extraer una muestra de una manera realmente
aleatoria. En esta situación, lo mejor que se puede hacer es seleccionar los elementos
de la muestra por algún método conveniente.

Por ejemplo, imagine que un ingeniero civil acaba de recibir una remesa de mil bloques de hormigón,
que pesan aproximadamente 50 libras cada uno. Los bloques se han entregado en una gran pila.
El ingeniero quiere investigar la fuerza de compresión de los bloques midiendo las fuerzas en una muestra
de diez bloques. Para tomar una muestra aleatoria simple se requeriría sacar bloques del centro y de la
parte inferior de la pila, lo que puede ser muy difícil. Por esta razón, el ingeniero puede tomar una muestra
simplemente tomando diez bloques de la parte superior de la pila. Una muestra así se llama muestra de
conveniencia.

The Power of PowerPoint | http://thepopp.com


MUESTREO
SLIDE 13
Independencia en la muestra
Se dice que los elementos en una muestra son independientes si al conocer los
valores de algunos de ellos no ayuda a predecir los valores de los otros.

Con una población finita y tangible, los elementos en una muestra aleatoria simple no son
Población pequeña estrictamente independientes, ya que cuando se extrae cada elemento, la población cambia.
Este cambio puede ser importante cuando la población es pequeña.

Sin embargo, cuando la población es muy grande, este cambio resulta insignificante y
Población grande los elementos se pueden tratar como si fueran independientes. (
OTROS TIPOS DE MUESTREO
SLIDE 14
1 2 3 4

MUESTREO CON MUESTREO ALEATORIO


REEMPLAZO MUESTREO PONDERADO ESTRATIFICADO MUESTREO AGRUPADO

La población es Los elementos se extraen de la


Algunos elementos se les da La población se subdivide en
exactamente la misma en poblacion, en grupos o
una mayor oportunidad que subpoblaciones, llamadas
cada extraccion y los conglomerados. Es util cuando la
a los otros para ser estratos y se extrae una
elementos muestreados poblacion es demasiado grande
seleccionados. muestra de aleatoria simple
son realmente y se encuentra extendida de tal
de cada estrato.
independientes. forma que es posible tomar una
muestra aleatoria simple.
METODOLOGIA DE LA INVESTIGACION 1
TONY COLOMA
MUESTREO
SLIDE 15
Tipos de experimentos
Hay muchas clases de experimentos que se pueden usar para generar datos.
Describiremos brevemente algunos de ellos.
En un experimento de una-muestra, hay sólo una población de interés y se extrae únicamente una
muestra de ésta. Por ejemplo, imagine que se ha diseñado un proceso para producir polietileno que
se usará para hacer tubos. En este contexto, un experimento mediante el cual se producen algunas
muestras de polietileno y se mide la fuerza de tensión de cada una constituye un experimento de
una-muestra.

En un experimento de muestras-múltiples, hay dos o más poblaciones de interés y se toma una muestra
de cada población. Por ejemplo, si están compitiendo algunos procesos para ser considerados en la
fabricación de polietileno y se miden las fuerzas de tensión en una muestra de los elementos de cada
proceso, se entiende que éste es un experimento de muestras-múltiples.
MUESTREO
SLIDE 16
Tipos de datos

Numérico o cuantitativo
Cuando se asigna una cantidad numérica a cada elemento de una muestra,
al conjunto de valores resultante se le llama numérico o cuantitativo.

Categórico o cualitativo
En algunos casos, los elementos de la muestra son puestos en categorías.
Entonces, los datos son categóricos o cualitativos.
TIPOS DE MUESTRAS
SLIDE 17
Muestra aleatoria simple: Muestra aleatoria estratificada: Muestra aleatoria por Muestra aleatoria sistemática:
Cada miembro y conjunto de Primero se divide la población en conglomerados: se pone en cierto orden a los miembros
miembros tienen una grupos. La muestra general se primero se divide la población en de la población. Se selecciona al azar
probabilidad igual de ser compone de algunos miembros de grupos. La muestra global consta de un punto de partida y se elige a
incluidos en la muestra. Se cada grupo. Los miembros de cada todos los miembros de algunos de cada miembro como parte de la
necesita usar la tecnología, grupo se eligen al azar. los grupos. Los grupos se muestra.
generadores de números seleccionan aleatoriamente.
aleatorios, o algún otro tipo de Ejemplo: un consejo estudiantil Ejemplo: un director toma una lista
proceso de azar para obtener encuesta a 100 estudiantes para Ejemplo: un día, una compañía alfabética de nombres de estudiantes y
una muestra aleatoria simple. obtener muestras aleatorias aérea quiere encuestar a sus escoge un punto de partida al azar.
de 25 estudiantes de primer clientes, así que ese día Cada 20 estudiante es seleccionado
Ejemplo: un profesor pone los año, 25 de segundo, 25 de tercero seleccionan 5 vuelos aleatoriamente para participar en una encuesta.
y 25 de cuarto. y encuestan a cada pasajero en esos
nombres de los estudiantes en
Por qué es bueno: una muestra vuelos.
un sombrero y elige sin mirar
estratificada garantiza que todos los Por qué es bueno: un ejemplo de
para obtener una muestra de
miembros de cada grupo estarán muestra por conglomerados toma
estudiantes. representados en la muestra, por lo cada miembro de algunos grupos,
Por qué es bueno: las muestras que este método es útil cuando así que es bueno cuando cada grupo
aleatorias suelen ser bastante queremos algunos miembros de refleja a la población en su
representativas ya que no cada grupo. conjunto.
favorecen a ciertos miembros.

The Power of PowerPoint | http://thepopp.com


Ejemplo población y muestra
Realizar 3 ejemplos de ingeniería o técnicos de población y muestra SLIDE 18
Una ingeniera de control de calidad tiene curiosidad sobre el espesor de la pintura de
un automóvil en su fábrica. Ella selecciona aleatoriamente 50 puntos en el coche y mide
el espesor de la pintura en cada uno de ellos.
Identifica la población y la muestra en este escenario
Escoge 1 respuesta
La población es todos los puntos posibles en el automóvil; la muestra es los 30 puntos seleccionados
La población es cada automóvil en la fábrica; la muestra es 1 coche por el que ella sintió curiosidad
La población es cada automóvil en la fábrica; la muestra es los 30 puntos seleccionados

The Power of PowerPoint | http://thepopp.com


Ejercicios
Resolver y Realizar 2 ejemplos de ingeniería o técnicos SLIDE 19
https://www.youtube.com/watch?v=UcFaIk-O4HM
El Sr. Thompson dirige una empresa de impresión y encuadernación. Sospecha que la máquina no está poniendo
suficiente pegamento en el lomo del libro y decide inspeccionar su orden más reciente de 70 libros de texto para
probar su teoría. Los numera del 01 al 70 y, usando la tabla de dígitos al azar impresa a continuación, selecciona
una muestra aleatoria simple de 5 libros para revisarlos.
Cuáles de los libros están en la muestra?
81232 43939 84583 23840 05995

23,24,39,39,58
81,23,24,39,84
81, 23, 24, 39, 39
23,24,39,58,32
Willy dirige una pequeña empresa con 10 empleados. Decide seleccionar una muestra aleatoria simple de 3 empleados para ir
en viaje de negocios. Los numera del 0 al 9 y utiliza la tabla de dígitos aleatorios impresa abajo para seleccionar la muestra.
¿Cuáles empleados están en la muestra?
69290 , 03600 ,05376
The Power of PowerPoint | http://thepopp.com
Ejercicios
Responder a que tipo de muestra corresponde y Realizar 2 ejemplos de ingeniería o técnicos SLIDE 20
Cada sucursal de una empresa en un estado Los empleados de un sitio web quieren
registra su número de teléfono en el sistema seleccionar una muestra de sus usuarios para
de cortes estatal. Un empleado de dicho solicitar una donación. Seleccionan
sistema usa una computadora para aleatoriamente a uno de los
seleccionar aleatoriamente 500 números de primeros 25 usuarios cada día y le muestran
teléfono registrados, y las sucursales con un mensaje pidiendo una donación. También
números en esa lista serán seleccionados muestran el mensaje a cada 25, usuarios de
para una auditoría. ahí en adelante.
Muestra aleatoria simple Muestra aleatoria simple
Muestra aleatoria estratificada Muestra aleatoria estratificada
Muestra por conglomerados Muestra por conglomerados
Muestra aleatoria sistemática Muestra aleatoria sistemática
Ninguna de las opciones anteriores Ninguna de las opciones anteriores

The Power of PowerPoint | http://thepopp.com


SLIDE 21
La revista favorita de un técnico publicó 50 números el año pasado, y cada número
contenía aproximadamente 250 páginas. Quiere tomar una muestra aleatoria por
conglomerados de aproximadamente 1000 páginas en total para estimar qué proporción
de todas las páginas contenía un anuncio.

Poner los números en un orden aleatorio y examinar cada 10 página hasta que se hayan
examinado 1000 páginas

Seleccionar aleatoriamente 4 números y examinar cada página en esos números

Examinar 20 páginas seleccionadas al azar de cada uno de los 50 números Examinar las
primeras 50 páginas en los últimos 20 números

The Power of PowerPoint | http://thepopp.com


Resumen Estadístico
(UG)

ING. TONY COLOMA


RESUMEN ESTADISTICO
SLIDE 23
Con frecuencia una muestra constituye una larga lista de números. Para ayudar a que las características de una muestra sean
evidentes, se calcula el resumen estadístico.
ESTADÍSTICA DESCRIPTIVA
Usa Técnicas para recopilar, organizar, procesar y presentar datos obtenidos en muestras.
Se debe usar un plan para la obtención de los datos.
ESTADÍSTICA INFERENCIAL
Técnicas para obtención de resultados basados en la información contenida en muestras
Es decir son las técnicas estadísticas utilizadas para realizar inferencias estadísticas que permiten validar las hipótesis propuestas.
INFERENCIA ESTADÍSTICA
Es la extensión a la población de los resultados obtenidos en una muestra

Las dos cantidades más usadas en el resumen estadístico son la media de la muestra y la
desviación estándar de la muestra.
La primera indica el centro de los datos y la segunda señala cómo están distribuidos los datos.
DESARROLLO DE UN PROYECTO ESTADÍSTICO

En forma resumida, se describen los pasos para resolver un problema usando las técnicas estadísticas

The Power of PowerPoint | http://thepopp.com


SLIDE 25
DEFINICIÓN
Para el problema propuesto deben establecerse los objetivos y el alcance del estudio
a ser realizado considerando los recursos disponibles y definiendo actividades, metas
y plazos. Se debe especificar la población a la cual está dirigido el estudio e identificar
los parámetros de interés así como las variables que intervienen.
Se deben formular hipótesis y decidir el nivel de precisión que se pretende obtener
en los resultados. Deben elegirse el tamaño de la muestra y las técnicas estadísticas y
computacionales que serán utilizadas

RESULTADOS
Los resultados obtenidos deben usarse para producir información útil en la toma de
decisiones.
La metodología de diseño en otros ámbitos de la ciencia e ingeniería usa la
retroalimentación para corregir las especificaciones con las que se ejecutan las actividades,
hasta que los resultados obtenidos concuerden con las especificaciones y requerimientos
iniciales.
Sin embargo, el uso de retroalimentación en la resolución de un problema estadístico podría
interpretarse como un artificio para modificar los datos o la aplicación de las técnicas
estadísticas para que los resultados obtenidos concuerden con los requerimientos e
hipótesis formuladas inicialmente. En este sentido, usar retroalimentación no sería un
procedimiento aceptable.
The Power of PowerPoint | http://thepopp.com
MEDIDAS DE TENDENCIA CENTRAL
SLIDE 26

Las medidas de tendencia central son medidas


estadísticas que pretenden resumir en un solo
valor a un conjunto de valores.
Son números que definen cual es el valor alrededor del que se
concentran los datos. Se indican a continuación los más utilizados.
Las medidas de tendencia central más utilizadas son: media,
mediana y moda.

The Power of PowerPoint | http://thepopp.com


RESUMEN ESTADISTICO
SLIDE 27
Media muestral
La media muestral también se
llama “media aritmética”, o,
simplemente, “promedio”.
Representa la suma de los
números en la muestra, dividido
entre la cantidad total de
números que hay.
RESUMEN ESTADISTICO
SLIDE 28
Ejemplo:

Una muestra aleatoria simple de cinco hombres se elige de entre una gran
población de hombres y se mide su estatura. Las cinco cifras de estatura
(en pulgadas) son 65.51, 72.30, 68.31,67.05 y 70.68. Encuentre la media muestral.

Solución:
Usamos la ecuación (1.1). La media muestral es
MEDIA MUESTRAL
SLIDE 29
Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5
Entonces X= (2+6+11+8+11+4+7+5)/8 = 6.75

La media muestral es una medida de uso común. En el cálculo


intervienen todos los datos, sin embargo, algunos datos pueden hacer
cambiar significativamente el valor de la media muestral.

Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5, 90


Entonces X= (2+6+11+8+11+4+7+5 + 90)/9 = 16
Un sólo dato cambió significativamente el valor de la media con
respecto al ejemplo anterior
Para evitar esta distorsión, una estrategia consiste en descartar algún
porcentaje de los datos más grandes y más pequeños antes de calcular
la media muestral. Este porcentaje puede ser por ejemplo 5% o 10%.
Cuando se usa este criterio la media se denomina media cortada.

The Power of PowerPoint | http://thepopp.com


RESUMEN ESTADISTICO
SLIDE 30
MEDIANA MUESTRAL

• La mediana, al igual que la media, representa una medida de tendencia central de


los datos.
• Para calcular la mediana de una muestra, ordene los valores del más pequeño al
más grande.
La mediana es el número de en medio. Si el tamaño de la muestra es un número
Es el valor ubicado en el centro de los datos ordenados par, se acostumbra tomar a la mediana
Sean X: X1, X2, ... , Xn una muestra de tamaño n
X(1), X(2), ... , X(n) los elementos de la muestra muestral como el promedio de los dos
ordenados en forma creciente números de en medio.
RESUMEN ESTADISTICO
SLIDE 31
MEDIANA MUESTRAL

Ejemplo: Si los datos son 2, 6, 11, 8, 11, 4, 7, 5


Los datos ordenados: 2, 4, 5, 6, 7, 8, 11, 11, entonces x~= 1/2(6+7)=6.5
Las medidas de tendencia central no son suficientes para describir de manera completa el
comportamiento de los datos de una muestra. Se necesitan otras medidas.
RESUMEN ESTADISTICO
SLIDE 32
MEDIANA MUESTRAL
Ejemplo:
RESUMEN ESTADISTICO
SLIDE 33
DATOS ATÍPICOS
• A veces una muestra puede contener algunos puntos que son mucho más grandes o pequeños que
el resto. Estos puntos se llaman datos atípicos.
• A veces los datos atípicos son resultado de errores al ingresar datos; por ejemplo, un punto
decimal perdido puede dar como resultado un valor que es de un orden de magnitud diferente del
resto.
• Aunque no todos los datos atípicos son errores. A veces una población podría contener algunos
valores que son muy diferentes del resto y los datos atípicos en la muestra reflejan este hecho.
• Son un verdadero problema para los analistas de datos.
RESUMEN ESTADISTICO
SLIDE 34
LA MODA Y EL RANGO

MODA RANGO

La moda muestral es el valor que tiene más El rango es la diferencia entre los valores
frecuencia en una muestra o que mas veces se más grandes y más pequeños en una
repite. Si algunos valores tienen una frecuencia muestra. Es una medida de la dispersión,
igual, cada uno representa una moda.
pero rara vez se usa, porque depende
solamente de los dos valores extremos y
Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5 no proporciona ninguna información
Entonces Mo = 11 acerca del resto de la muestra.
MEDIDAS DE DISPERSIÓN
SLIDE 35

Son números que proveen información adicional acerca del comportamiento de los datos, describiendo
numéricamente su dispersión.

The Power of PowerPoint | http://thepopp.com


RANGO
Es la diferencia entre el mayor valor y el menor valor de los datos de la muestra Rango =(max )-(min)
Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5
Entonces el rango es: R = 11 – 2 = 9

The Power of PowerPoint | http://thepopp.com


MEDIDAS DE DISPERSIÓN
SLIDE 37
DESVIACIÓN ESTÁNDAR MUESTRAL
• La desviación estándar es una cantidad que mide el grado de dispersión en una muestra. Es la raíz
cuadrada positiva de la variancia. La desviación estándar muestral o desviación típica está
expresada en las mismas unidades de medida que los datos de la muestra

• La idea básica detrás de la desviación estándar es que cuando la dispersión es grande, los valores
de la muestra tenderán a alejarse de su media, pero cuando la dispersión es pequeña, los valores
tenderán a acercarse a su media. En este contexto, el primer paso en el cálculo de la desviación
estándar es calcular las distancias (también llamadas desviaciones) de cada valor de la muestra a
la media de la muestra.
MEDIDAS DE DISPERSIÓN
SLIDE 38
DESVIACIÓN ESTÁNDAR MUESTRAL

La desviación estándar es una cantidad que mide el grado de


dispersión en una muestra. Es la raíz cuadrada positiva de la
variancia. La desviación estándar muestral o desviación típica está
expresada en las mismas unidades de medida que los datos de la
muestra
La idea básica detrás de la desviación estándar es que cuando la
dispersión es grande, los valores de la muestra tenderán a alejarse de su
media, pero cuando la dispersión es pequeña, los valores tenderán a
acercarse a su media. En este contexto, el primer paso en el cálculo de
la desviación estándar es calcular las distancias (también llamadas
desviaciones) de cada valor de la muestra a la media de la muestra

The Power of PowerPoint | http://thepopp.com


MEDIDAS DE DISPERSIÓN
SLIDE 39
DESVIACIÓN ESTÁNDAR MUESTRAL
MEDIDAS DE DISPERSIÓN
SLIDE 40
VARIANZA MUESTRAL

A partir de las desviaciones al cuadrado se puede calcular una


medida de la dispersión llamada la varianza muestral. Esta medida
cuantifica las distancias de los datos con respecto al valor de la
media muestral

Ésta constituye el promedio de las desviaciones al cuadrado,


excepto que lo dividimos entre n - 1 en lugar de n. Se acostumbra
denotar a la varianza muestral con 𝑠^2.

The Power of PowerPoint | http://thepopp.com


RESUMEN ESTADISTICO
SLIDE 41
VARIANZA MUESTRAL
Ejemplo
SLIDE 42
Si los datos son 2, 6, 11, 8, 11, 4, 7, 5 y se
ha calculado que X= 6.75

Entonces la varianza es

The Power of PowerPoint | http://thepopp.com


MEDIDAS DE POSICIÓN
SLIDE 43
Son números que distribuyen los datos ordenados de la muestra en grupos de
aproximadamente tamaño con el propósito de resaltar su ubicación relativa. Estos
números se denominan cuantiles en forma genérica

CUARTILES DECILES

Los DECILES dividen la muestra la dividen tanto como sea


Los cuartiles dividen la muestra tanto como sea posible en
posible en decimos. Una muestra tiene 9 de aquéllos. Existen
cuartos. Una muestra tiene tres de aquéllos. Existen
diferentes formas de calcular deciles, pero todas dan
diferentes formas de calcular cuartiles, pero todas dan
aproximadamente el mismo resultado. Son números que
aproximadamente el mismo resultado. Son números que
dividen a los datos de la muestra en grupos de tamaño
dividen a los datos de la muestra en grupos de tamaño
aproximado de 10%.
aproximado de 25%.

La mediana divide a la muestra en dos partes; la


mediana es igual al cuartil 2 y al percentil 50
CUARTILES
SLIDE 44

Primer Cuartil (Q1) Segundo Cuartil (Q2) Tercer Cuartil (Q3) cuartil

A la izquierda de Q1 están Igual que la mediana divide al A la izquierda de Q3 están Son números que dividen a los
incluidos 25% de los datos grupo de datos en dos partes, incluidos 75% de los datos datos de la muestra en grupos
(aproximadamente) (aproximadamente)
cada una con el 50% de los de tamaño aproximado de 25%.
A la derecha de Q1 están el 75% datos (aproximadamente) A la derecha de Q3 están el 25%
de los datos (aproximadamente) de los datos (aproximadamente)

The Power of PowerPoint | http://thepopp.com


Ejemplo.
SLIDE 45
Suponer que una muestra contiene 40 datos ordenados:
X(1), X(2), ... , X(40). Calcular Q1, Q2, Q3
Q1: 25% de 40 = 10
Por lo tanto: Q1 = (X(10) + X(11))/2

Q2: 50% de 40 = 20 es igual a la mediana


Q2 = (X(20) + X(21))/2

Q3: 75% de 40 = 30
Q3 = (X(30) + X(31))/2

The Power of PowerPoint | http://thepopp.com


DECILES
Son números que dividen a los datos de la muestra en grupos de tamaño aproximado de 10%.

The Power of PowerPoint | http://thepopp.com


Percentiles
Son números que dividen a los datos de la muestra en grupos de tamaño aproximado de 1%.

The Power of PowerPoint | http://thepopp.com


EJERCICIOS
SLIDE 48
Calcule X, x~, S2 , S, Q1, Q3, R,
Se tiene una muestra aleatoria con datos del costo por consumo
de electricidad en una zona residencial de cierta ciudad.

EJERCICIO
Vamos a suponer que el gerente de una empresa de alimentos
desea saber que tanto varían los pesos de los empaques (en
gramos), de uno de sus productos; por lo que opta por seleccionar
al azar cinco unidades de ellos para pesarlos. Los productos tienen
los siguientes pesos (490, 500, 510, 515 y 520) gramos
respectivamente

The Power of PowerPoint | http://thepopp.com


Resúmenes Gráficos
UG

ING. TONY COLOMA


RESÚMENES GRÁFICOS
SLIDE 50
La media, mediana y la desviación
estándar son resúmenes
numéricos de una muestra o de
una
población.
Los resúmenes gráficos también se
usan para ayudar a visualizar una
lista de números.

The Power of PowerPoint | http://thepopp.com


RESÚMENES GRÁFICOS
SLIDE 51
DIAGRAMA DE TALLOS Y HOJAS

• Una gráfica que constituye una manera simple de resumir un conjunto de datos.

• Cada elemento de la muestra se divide en dos partes: un tallo, que consta de uno o dos
dígitos que están en el extremo izquierdo, y la hoja, que consta del siguiente dígito
significativo.

METODOLOGIA DE LA INVESTIGACION 1
TONY COLOMA
Características: SLIDE 52
PASOS DE
ELABORACIÓN

1 2 UTILIDAD

Definición del tallo Ubicación de los El diagrama de Cuando hay un gran


y la hoja dígitos tallos y hojas es una número de elementos en
Cada renglón del forma compacta de la muestra con el mismo
un tallo, que consta de uno o
diagrama representar los datos. tallo, con frecuencia
dos dígitos que están en
de tallos y hojas se necesita asignar más
el extremo izquierdo, y la
contiene todos los de un renglón a ese tallo
hoja, que consta del
elementos de la muestra
siguiente dígito significativo.
con un tallo dado.

METODOLOGIA DE LA INVESTIGACION 1
TONY COLOMA
EJEMPLO:
SLIDE 53
los datos de la tabla 1.3 tratan del géiser Old Faithful en el parque nacional Yellowstone. Este
géiser alterna periodos de erupción, que duran normalmente de 1.5 a cuatro minutos, con
espacios de tiempo de inactividad, que son considerablemente más grandes. La tabla 1.3
presenta la duración, en minutos, de 60 periodos de inactividad. La lista se presenta en orden
numérico.

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
SLIDE 54
Diagrama de tallos y hojas en base a la tabla 1.3

The Power of PowerPoint | http://thepopp.com


SUGERENCIA:
SLIDE 55
Excepción en diagrama de tallos y hojas
Tomando en cuenta la sugerencia del caso anterior se propone la siguiente solución para el diagrama:

Cuando hay un gran número de elementos en la muestra con el mismo tallo, con frecuencia
se necesita asignar más de un renglón a ese tallo

Por ejemplo, la figura 1.6 presenta una gráfica de tallos y hojas generada por computadora, con el
software MINITAB de un conjunto de datos.

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
SLIDE 56
Gráfico 1.6
La columna de en medio, que tiene los 0, 1 y 2, contiene los
tallos, que son los dígitos de las decenas. A la derecha de los
tallos están las hojas, que son los dígitos para cada uno de los
elementos de la muestra. Como consecuencia de que muchos
números son menores de 10, al tallo 0 se le deben asignar varios
renglones (5 en este caso).
• Específicamente, el primer renglón tiene los elementos de la
muestra cuyos dígitos son 0 o 1, el renglón siguiente tiene los
elementos cuyos dígitos son 2 o 3, y así sucesivamente.
• Por consistencia, a todos los tallos se les asignan varios
renglones del mismo modo, aunque sean pocos valores para
los tallos 1 y 2, tallos que se podían haber hecho en pocos
renglones.

The Power of PowerPoint | http://thepopp.com


RESÚMENES GRÁFICOS
SLIDE 57

DIAGRAMA DE PUNTOS

• Un diagrama de puntos es un gráfico que se puede usar para tener una impresión
aproximada de la forma de una muestra.

METODOLOGIA DE LA INVESTIGACION 1
TONY COLOMA
Características: SLIDE 58
PASOS DE
ELABORACIÓN

1 2 UTILIDAD

La columna Ubicación de los Es útil cuando el El diagrama de puntos da


vertical dígitos tamaño de la muestra una buena indicación de
El número de puntos de no es demasiado dónde se concentran
Para cada valor de la muestra
la columna igual al grande los valores de la muestra
se dibuja una
número que aparece y cuando la muestra y dónde hay
columna vertical de puntos.
el valor en la muestra.. contiene algunos separaciones.
valores repetidos.

METODOLOGIA DE LA INVESTIGACION 1
TONY COLOMA
EJEMPLOS:
SLIDE 59
Gráfico 1.7
• La figura 1.7 presenta un diagrama de puntos para los datos del géiser de la tabla 1.3 (tabla usada
en el ejercicio anterior).

METODOLOGIA DE LA INVESTIGACION 1
TONY COLOMA
RESÚMENES GRÁFICOS
SLIDE 60
HISTOGRAMAS
• Un histograma es una gráfica que da una idea de la “forma” de una muestra, indicando las
regiones donde los puntos de la muestra están concentrados y las regiones donde son
escasos.

METODOLOGIA DE LA INVESTIGACION 1
TONY COLOMA
EJEMPLO:
SLIDE 61
Pasos y ejercicio
Construiremos un histograma
para las emisiones EP de 62
vehículos conducidos en una gran
altitud. El rango de la muestra va
desde un mínimo 1.11 a un
máximo de 23.38, en unidades de
gramos de emisiones por galón
de combustible.
• El primer paso es construir la
tabla de frecuencias, que se
muestra en la tabla 1.4.

METODOLOGIA DE LA INVESTIGACION 1
TONY COLOMA
EJEMPLO:
SLIDE 62
Pasos y ejercicio
• Los intervalos en la columna de la izquierda se llaman intervalos de clase. Dividen la muestra
en grupos. La notación 1-< 3, 3-< 5 y así sucesivamente, indica que un punto que está en el
límite entrará en la clase de su derecha.
Por ejemplo, un valor de la muestra igual a 3 entrará en la clase 3-< 5, y no en la 1-< 3.
• En la columna “Frecuencia”, en la tabla 1.4, se presentan los números de puntos de datos que
están en cada uno de los intervalos de clase.
• En la columna “Frecuencia relativa” se presentan las frecuencias divididas entre el número
total de puntos de datos, que para estos datos es de 62.
• Las frecuencias relativas deben sumar 1.
• En la columna “Densidad” se presenta la frecuencia relativa dividida entre el ancho de clase
ajustando la frecuencia relativa con el ancho de la clase.

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
SLIDE 63
Pasos y ejercicio
La figura 1.8 presenta el histograma para la tabla 1.4.
• Las unidades en el eje horizontal son las unidades de los datos, en este caso g/galón.

• Cada intervalo de clase se representa por un rectángulo.

• La altura de cada rectángulo es la densidad de la muestra en ese intervalo de clase.

• El área de cada rectángulo es, por tanto, la frecuencia relativa del intervalo de clase.

• Debido a que las frecuencias relativas suman 1, el área bajo todo el histograma debe ser igual a 1.

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
SLIDE 64
Pasos y ejercicio
La figura 1.8 presenta el histograma para la tabla 1.4.

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
SLIDE 65
Pasos y ejercicio
ANCHOS DE CLASE IGUALES
• Cuando se pide elegir intervalos de
clase, la mayoría de softwares los
hacen todos con el mismo ancho.

• Para muchos conjuntos de datos,


las anchuras de clases son iguales.

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
SLIDE 66
Pasos y ejercicio
EL HISTOGRAMA, LA MEDIA MUESTRAL Y LA VARIANZA

• Tanto la media como la varianza de la muestra tienen interpretaciones físicas con respecto al
histograma.
• El hecho de que la media y la varianza de la muestra correspondan a propiedades físicas del
histograma es muy útil.

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
SLIDE 67
Pasos y ejercicio
SIMETRÍA Y SESGO

• Un histograma es perfectamente simétrico si su


mitad derecha es una imagen de espejo de su
mitad izquierda.
• Los histogramas no simétricos se llaman
sesgados.

En la práctica, ninguna muestra de datos tiene un histograma perfectamente simétrico;


todos presentan algún grado de sesgadura.

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
Pasos y ejercicio SLIDE 68
SIMETRÍA Y SESGO (HISTOGRMAS NO SIMETRICOS)

En un histograma sesgado, un lado, o una cola, es más largo que el otro

• Un histograma con una cola larga a la derecha se • Un histograma largo con una cola larga a la
dice que está sesgado a la derecha o izquierda se dice que está sesgado a la izquierda
positivamente sesgado. o negativamente sesgado.

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
SLIDE 69
Pasos y ejercicio
HISTOGRAMAS UNIMODALES Y BIMODALES
MODA: valor que ocurre con más frecuencia en una muestra.

MODA: valor que ocurre con más frecuencia en una muestra.

• En histogramas y otras curvas para referirse a un pico o máximo local.


• Un histograma es unimodal si tiene solamente un pico, o moda.
• Un histograma es bimodal si tiene evidentemente dos modas distintas.

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
SLIDE 70
Pasos y ejercicio
HISTOGRAMAS UNIMODALES Y BIMODALES

Bimodal Bimodal Unimodal Unimodal

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
SLIDE 71
HACIENDO LAS ALTURAS IGUALES A LAS FRECUENCIAS
• Se usa el término “histograma” para referirse a una gráfica en la que las alturas de los
rectángulos representan las densidades (así las áreas representan las frecuencias relativas).
• Sin embargo, algunas personas dibujan histogramas con las alturas de los rectángulos iguales a
las frecuencias. En efecto, éste es el método usual en muchos software.

Usando frecuencias Usando densidad

The Power of PowerPoint | http://thepopp.com


RESÚMENES GRÁFICOS
SLIDE 72
DIAGRAMAS DE CAJA
• Un diagrama de caja constituye una gráfica que incluye la mediana, el primero y el tercer
cuartil y cualquier dato atípico que se presente en una muestra.
• Los diagramas de caja son fáciles de comprender, pero hay una pequeña terminología
asociada con ellos.

METODOLOGIA DE LA INVESTIGACION 1
TONY COLOMA
RESÚMENES GRÁFICOS
SLIDE 73
DIAGRAMAS DE CAJA
TERMINOLOGÍA

• El rango intercuartil es la diferencia entre el tercer y el primer cuartil.


• Si denota IQR el rango intercuartil.
• El diagrama consta de una caja cuyo lado inferior es el primer cuartil y el lado superior
es el tercer cuartil.
• La mediana se dibuja como una línea horizontal.
• Los datos “atípicos” se grafican por separado y se indican con cruces en la figura.
• Los que se extienden desde la parte superior a la inferior de la caja son líneas verticales
llamadas “bigotes”. Éstos terminan en los puntos más extremos que no son atípicos.

The Power of PowerPoint | http://thepopp.com


RESÚMENES GRÁFICOS
SLIDE 74
DIAGRAMAS DE CAJA (Anatomía)
Punto de datos más
grandes

3er cuartil

Mediana Datos “atípicos”

1er cuartil

Punto de datos más


pequeños

The Power of PowerPoint | http://thepopp.com


RESÚMENES GRÁFICOS: SLIDE 75
DIAGRAMAS DE CAJA (PASOS DE ELABORACIÓN)

1 2 3

Encuentre el valor de la muestra más Puntos a más de 1.5 IQR arriba


Calcule la mediana, el
grande que no esté a más de 1.5 IQR del tercer cuartil, o a más de 1.5
primero y tercer cuartil de la
arriba del tercer cuartil y el valor de la IQR por debajo
muestra. Indique éstos con
muestra más pequeño que no esté a más del primer cuartil, se denominan
líneas horizontales.
de 1.5 IQR debajo del primer cuartil. datos atípicos.
Dibuje líneas verticales para
Extienda líneas verticales (“bigotes”) Dibuje cada dato atípico por
completar la caja.
desde las líneas de los cuartiles a estos separado.
puntos

METODOLOGIA DE LA INVESTIGACION 1
TONY COLOMA
EJEMPLO:
SLIDE 76
Pasos y ejercicio
La figura presenta un diagrama de caja para los datos del
géiser que se presentó en la tabla 1.5.
Primero observe que no hay ningún dato atípico en estos
datos.
El “bigote” más bajo es un poco más largo que el superior, lo
que indica que los datos tienen la cola inferior ligeramente
más larga que la cola superior.
Como consecuencia de que la distancia entre la mediana y el
primer cuartil es más grande que la que existe entre la
mediana y el tercer cuartil y debido a que la cuarta parte
inferior de los datos produce un “bigote” más largo que la
cuarta parte superior, este diagrama de caja indica que los
datos están sesgados a la izquierda.
La tabla 1.5 se presenta en la siguiente diapositiva

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
SLIDE 77

The Power of PowerPoint | http://thepopp.com


RESÚMENES GRÁFICOS
SLIDE 78
DIAGRAMAS DE CAJA
DIAGRAMAS DE CAJA “COMPARATIVOS”

• Una ventaja muy importante de los diagramas de caja es que se pueden


presentar varios juntos, ello permite la fácil comparación visual de las
características de varias muestras.
• A continuación se presenta una comparación de dos pares de diagramas de
caja de dos muestras.

The Power of PowerPoint | http://thepopp.com


RESÚMENES GRÁFICOS
SLIDE 79
DIAGRAMAS DE CAJA
DIAGRAMAS DE CAJA “COMPARATIVOS”

The Power of PowerPoint | http://thepopp.com


RESÚMENES GRÁFICOS
SLIDE 80
DIAGRAMAS DE DISPERSION
• Usados cuando los elementos de una población pueden tener algunos valores asociados
entre sí (multivariado).
• Los datos para cada elemento que constan de más de un valor se llaman datos
multivariados.
• Cuando cada elemento es un par de valores, se dice que los datos son bivariados.

METODOLOGIA DE LA INVESTIGACION 1
TONY COLOMA
EJEMPLO:
SLIDE 81
Pasos y ejercicio
• Si los datos constan de pares arreglados (x1, y1), . . . , (xn, yn), entonces un diagrama de
dispersión se construye sólo al trazar cada punto en un sistema coordenado bidimensional.

• Los diagramas de dispersión también se pueden usar para resumir los datos multivariados
cuando cada elemento consta de más de dos valores. Simplemente se construirían
diagramas de dispersión distintos para cada par de valores.

• El siguiente ejemplo muestra la utilidad de los diagramas de dispersión.


“El artículo “Advances in Oxygen Equivalence Equations for Predicting the Properties of
Titanium Welds” (D. Harwig, W. Ittiwattana y H. Castner, The Welding Journal, 200l:l26s-136s)
presenta los datos con respecto a la composición química y las características de la intensidad
de diferentes soldaduras de titanio”

The Power of PowerPoint | http://thepopp.com


EJEMPLO:
SLIDE 82
El gráfico a) muestra que no existe mucha relación entre el contenido de carbono y la intensidad
producida para determinado grupo de soldaduras.; por el contrario el gráfico b) muestra una correlación
fuerte entre las variables.

The Power of PowerPoint | http://thepopp.com


SLIDE 83

EJERCICIOS PROPUESTOS
EJERCICIOS PROPUESTOS
EJERCICIOS PROPUESTOS
EJERCICIOS PROPUESTOS
EJERCICIOS PROPUESTOS
SLIDE 88

GRACIAS

También podría gustarte