Está en la página 1de 275

z UNIDAD DE POSGRADO DE LA FACULTAD DE INGENIERIA

GESTIÓN AMBIENTAL Y DESARROLLO SOSTENIBLE

DISEÑOS EXPERIMENTALES
EN MEDIO AMBIENTE
TOLOMEO RAÚL SOTO PÉREZ
5.1.1. SEMANAS:
z
I Unidad: 1ra Semema

▪ Principios básicos de la investigación.

▪ Fundamentos estadísticos.

▪ Representación de datos.

▪ Medidas de centralización y dispersión.

▪ Estadística descriptiva e inferencial.

▪ Pruebas de hipótesis.

▪ Muestreo.
z
Principios básicos de la investigación.

Todo intento de investigar tiene la finalidad de añadirle una porción


de la verdad o cognición al cuerpo universal del
conocimiento que existe en el presente. Se define conocimiento
como la comprensión y entendimiento de hechos, verdades o
principios.

Para el fisiólogo del ejercicio el proceso de investigación y


experimentación científica es vital para poder comprender los
procesos morfofuncionales que ocurren antes, durante y después
de un ejercicio agudo y luego de un ejercicio crónico. Por ejemplo,
la investigación ayuda a resolver problemas relacionados con
la salud humana, aptitud física y con el rendimiento deportivo
z
Principios básicos de la investigación.

La investigación es un proceso sistemático y controlado de constante exploración y descubrimiento,


fundamentado en el método científico y, comúnmente, dirigido hacia la solución de un problema o
contestar una incógnita. Este proceso de inquirir intenta descubrir nueva información o ampliar, refinar y
verificar el conocimiento actual. La investigación involucra la recolección y examinación de información
nueva con el fin de proveer conocimiento novel, entender el conocimiento existente, desarrollar teorías
o descubrir principios generales que puedan ayudar a predecir eventos prospectivos.

El proceso de investigación siempre involucra la observación y descripción precisa de datos cuantificables


a través de equipos o dispositivos específico de medición. Además,
tal rigurosa actividad investigativa contempla el análisis lógico de la relación entre causas y efectos. Un
aspecto importante de la investigación es que es sumamente objetiva, con miras de validar todo diseño
de inquirir, de tal forma que se elimine cualquie influencia o prejuicio personal. La buena investigación utiliza el
razonamiento inductivo y deductivo para llegar al conocimiento. Se trata de seguir las reglas de la
lógica, de manera que se puedan llegar a conclusiones válidas y solucionar problemas eficientemente. El
proceso inductivo parte de hechos particulares para crear un concepto más amplio, mientras que el deductivo
descompone en partes más pequeñas una información general. El razonamiento inductivo accede al
desarrollo nuevos conceptos y teorías. En cambio, el razonamiento deductivo
permite comprobar experimentalmente tales conceptos y teorías. Otra característica una investigación
de alta calidad es que puede ser reproducible, es decir, es posible verificar la confiabilidad de sus resultados
z
Principios básicos de la investigación.

Método Científico

▪ Método

▪ Camino para alcanzar una meta. Sistema de principios (identidad, contradicción, exclusión)
y normas (inducción, deducción) de razonamiento para establecer conclusiones en forma
objetiva.

▪ Método Científico

▪ Procedimiento tentativo, verificable, de razonamiento riguroso y observación empírica,


utilizado para descubrir nuevos conocimientos a partir de nuestras impresiones, opiniones o
conjeturas, examinando las mejores evidencias disponibles en favor y en contra de ellas.

▪ No hay reglas infalibles que garanticen por anticipado el descubrimiento de nuevos hechos
y teorías. Las reglas sólo facilitan la investigación y, en especial, la formulación de hipótesis.
z
Principios básicos de la investigación.

Etapas del Método Científico

▪ Percepción de un problema

▪ Identificación y definición del problema

▪ Soluciones propuestas para el problema (hipótesis)

▪ Deducción de las soluciones y sus consecuencias

▪ Verificación de las hipótesis mediante la acción


z
Principios básicos de la investigación.

Investigación

Proceso cuyo objetivo es el conocimiento de la realidad.


Pensamientos sobre Investigación ‚Se está motivado para hacer algo
cuando se sabe exactamente lo que hay que hacer y porque hay que
hacerlo, y, además, cuál será su utilidad práctica en el futuro.

‚ ‚La sabiduría es la meta del inteligente; el necio no tiene meta


ja‚(Proverbio)

‚ a alegría de ver y entender es el más perfecto don de la


L
naturaleza‚(A. Einstein)
z
Principios básicos de la investigación.

Investigación científica

Investigación Cientíca Proceso sistemáticamente ordenado, cuyo objetivo es la


demostración de hipótesis o la confirmación y desarrollo de teorías.

Investigación + Desarrollo (I+D) Trabajo creativo emprendido de modo


sistemático para incrementar el acervo de conocimiento científico y tecnológico
y utilizar dicho acervo para invertir en nuevas aplicaciones.

La I + D es considerada un ‚invento para inventar‚ como una ‚fábrica de


tecnología‚

. Actividades: investigación básica, aplicada y de desarrollo experimental


z
Principios básicos de la investigación.
z
Principios básicos de la investigación.
Pensamiento
La filosofía de Aristóteles se
caracteriza por su realismo, en
contraposición del pensamiento de su
maestro basado más en el idealismo
del mundo. Según la metafísica, el
filósofo determina las diez categorías
que forman al ser humano:
•Sustancia
•Cantidad
•Relación
•Tiempo
•Lugar
•Cantidad
•Situación
•Posesión
•Acción
•Pasión
z
z
z
z
z
Convenio inv ciet ,
publica en revista
cient
z
Clasificación de las ciencias

▪ La ciencia es un conjunto de disciplinas dedicadas a la


búsqueda de información sobre un cierto tema, es decir, al
conocimiento. Su función es explicar, descubrir e inventar algo
que sea verdadero y válido para toda la humanidad, a través de
la investigación y del método científico.

▪ Según Mario Bunge, físico matemático estudioso de la ciencia,


la ciencia se clasifica, en una primera instancia, entre las que
estudian las ideas o ciencias formales y las que estudian los
hechos o ciencias fácticas.
z
Clasificación de las ciencias
z
Ciencia formal

▪ La ciencia formal se fundamenta en conceptos abstractos y en ideas que la misma ciencia


crea. Por ejemplo, la base de las matemáticas son los números, una representación para
facilitar el conteo de objetos, pero nadie ha visto números negativos o una raíz cuadrada.

▪ Las ciencias formales son racionales, sistemáticas y verificables, pero no objetivas porque
su búsqueda no es el objeto real. Por ejemplo, para determinar la probabilidad de sacar dos
6 al tirar dos dados no requiere de tener los dados en la mano.

▪ Son ciencias deductivas que demuestran o prueban enunciados. Veamos el enunciado: A y


B son dos conjuntos, tal que B está incluido dentro de A, entonces A no puede estar incluido
en B. No importa de que se tratan los conjuntos, si de letras o pájaros, esto será verdad en
cualquier caso.

▪ Son ejemplos de ciencias formales la matemática, la estadística, la lógica y la ciencia de la


computación. Estas disciplinas crean sus propios sistemas de trabajo, ya sean números,
algoritmos, o teoremas.
z
Ciencia fáctica

▪ Las ciencias fácticas se fundamentan en lo material, en los


hechos, en lo que puede observarse. Podemos observar un
relámpago en el cielo y buscar por qué o cómo se produce.

▪ Las ciencias fácticas buscan el conocimiento a través de la


observación y la experimentación por medio del método
científico. Gregor Mendel descubrió los principios de la herencia
por observar y experimentar con guisantes de diversas formas y
colores.
z
Ciencia fáctica
▪ Las ciencias fácticas se fundamentan en lo material, en los hechos, en lo que
puede observarse. Podemos observar un relámpago en el cielo y buscar por
qué o cómo se produce.

▪ Las ciencias fácticas buscan el conocimiento a través de la observación y la


experimentación por medio del método científico. Gregor Mendel descubrió los
principios de la herencia por observar y experimentar con guisantes de diversas
formas y colores.

▪ Como son ciencias verificables por la experimentación, también se conocen


como ciencias empíricas. Buscan confirmar o desechar hipótesis o
explicaciones tentativas a un dado fenómeno. Hasta que Albert Einstein
presentó la Teoría de la relatividad, por muchos años las leyes de Newton se
consideraban infalibles.

▪ Dentro de las ciencias fácticas existe una siguiente clasificación, según se


enfoque en la naturaleza y sus componentes, como ciencias naturales, o si
estudia al ser humano y sus interrelaciones o ciencias sociales.
z
Ciencias naturales
▪ Las ciencias naturales son todas aquellas disciplinas que se encargan del
estudio de una parte de la naturaleza y el Universo. Por ejemplo, la ciencia que
estudia cómo funcionan las cosas es la física, la ciencia que estudia la materia
que compone la naturaleza es la química, la ciencia que estudia los seres vivos
es la biología.

▪ Las ciencias naturales se caracterizan por ser objetivas, el investigador no es


parte del objeto de estudio. Las ciencias naturales también abarcan una gran
extensión del conocimiento por lo que se puede subdividir en:

▪ Ciencias físicas: estudia el contexto inorgánico, como la química, la física y la


astronomía.

▪ Ciencias biológicas: estudia la vida y sus organismos, como la botánica, la


zoología, la ecología y la genética.

▪ Ciencias de la Tierra: estudia los fenómenos de la Tierra y sus capas, como la


geología, la oceanografía, meteorología y paleontología.
z
Ciencias sociales
▪ Las ciencias sociales o ciencias humanas son aquellas disciplinas relacionadas con el
estudio del ser humano en la sociedad que aplican el método científico para obtener
conocimiento. Dentro de los aspectos que abordan las ciencias sociales están: la cultura,
los orígenes del ser humano, la relación cuerpo-mente y los intercambios entre sociedades.

▪ Estas buscan comprender de la forma más objetiva posible el ser humano y su


comportamiento en los grupos que forma y participa.

▪ Dentro de las ciencias sociales se incluyen:

▪ La sociología: trata de entender y explicar las interacciones del individuo en una sociedad y
de los procesos sociales globales.

▪ La antropología: analiza, estudia y describe el pasado y el presente de la humanidad.

▪ La psicología: estudia lo relacionado con los comportamientos y la mente del ser humano.

▪ La economía: estudia cómo cubrir las necesidades materiales con criterio de escasez.

▪ Las ciencias políticas: se encarga de estudiar los órganos del poder, su desarrollo y
evolución.
z
Ciencias puras o básicas y ciencias
aplicadas
▪ Adicionalmente existe una división de las ciencias según su objetivo final entre
ciencias puras o básicas y ciencias aplicadas. Las ciencias básicas tienen por
objetivo la búsqueda del conocimiento por sí mismo, por ejemplo:

▪ La astrofísica: que trata de entender la génesis de los agujeros negros en el


Universo.

▪ La paleontología: estudia los fósiles y su relación con la evolución de la vida.

▪ Por otro lado, las ciencias aplicadas se enfocan en tener una utilidad a largo
plazo, como por ejemplo:

▪ La farmacología: que estudia los efectos y las interacciones de las drogas en el


cuerpo humano.

▪ La climatología: que estudia las condiciones de la atmósfera y los efectos en el


clima.
z
Ciencia y tecnología
Ciencia Tecnología

Producto Nuevo conocimiento. Nuevos inventos, mejores productos.

Estrategia Método científico. Diseño.

Fenómenos naturales Los estudia, descubre y explica. Los utiliza y aprovecha.

Conocimiento Lo crea. Lo aplica.

Verbos claves Conocer, descubrir Hacer, inventar.

Efectos Positivos. Positivos o negativos.

Ejemplos Física, química, biología, matemática Sistema GPS, levitación magnética,


páneles solares, imprenta.
25

ESTADÍSTICA
z DESCRIPTIVA

E INFERENCIAL
z Análisis de datos
z Tipos de datos
z

▪ Comúnmente, los experimentos científicos producen observaciones o hallazgos


que se expresan como datos numéricos. Las mediciones que se obtienen de los
sujetos bajo estudio constituyen los datos. Generalmente, los datos son medidas
de la variable dependiente. Los datos crudos u originales consisten de aquellos
datos obtenidos directamente del experimento, es decir, no han sido sometidos
a tratamiento estadístico.

▪ El propósito de las investigaciones es poder formular generalizaciones basado en


un conjunto de observaciones que se extraen del estudio (el laboratorio).
Esto significa que el científico generaliza hacia la población bajo estudio. Una
población representa una colección completa de elementos (sujetos, objetos,
fenómenos o datos) que poseen algunas características comunes. Es el
conjunto de elementos más grande del cual se puede
tomar una muestra representativa para el experimento científico. Tal muestra
constituye una selección al azar de una porción de la población, es decir, un
subconjunto de la población. Cuando hablamos de selección al azar nos referimos
a que todos los sujetos de la población que serán estudiados y sometidos
al tratamiento estadístico poseen las mismas posibilidades de ser elegidos
para la investigación
29

Definiciones básicas
Población: Conjunto de elementos que se quiere estudiar.
• Habitantes de una ciudad.
• Televisores fabricados en una factoría.
• Alumnos de primero de bachillerato.

Muestra: Cualquier subconjunto de una población. El número de


elementos de una muestra se llama tamaño.

Variable estadística : Cada uno de los rasgos o características que


se quiere estudiar de los elementos de la población, susceptible o
no de medida.
• Color del pelo: negro, castaño, rubio o pelirrojo
• Sexo: hombre o mujer
• Miembros asalariados de una familia: 0, 1 , 2 , 3 ,4 ,
• Alturas de alumnos:178, 169, 172, 183, …
30

Definiciones básicas
Individuo: Cada uno de los elementos que componen una
población y/o muestra .
• Es sinónimo de unidad básica o última del muestreo

Carácter : Propiedad o cualidad que presentan los


elementos de una población que se desea estudiar .
• Cualitativo cuando no puede medirse numéricamente
• Cuantitativo cuando puede medirse numéricamente (Variable)

Estadístico : Es una medida descriptiva de una muestra


• Ingreso promedio de los trabajadores
• Frecuencia de venta de productos
31

Tipos de Estadística
• La Estadística descriptiva o deductiva:
Trata del recuento, ordenación y clasificación de
los datos obtenidos de las observaciones:
• Construcción de tablas, gráficos y cálculo de parámetros.

• La Estadística inferencial o inductiva:

Utiliza los resultados de la estadística descriptiva y


se apoya en el cálculo de probabilidades para la
obtención de conclusiones sobre una población a
partir de los resultados obtenidos de una muestra.
33
Variables cualitativas y cuantitativas
Ordinales • Escalas
• Etapas

Cualitativ as
 (Cualidades ,
• Colores
 categorías o • Lugares
 atributos) Nominales
• Profesiones


Variables   Discretas • Número de hijos
  (Unidades • Páginas de un libro
Cuantitati vas  completas )
 
 (Aquellas 
 medibles  • Edad
numéricamente) Continuas • Peso
(Cualquier • Talla
valor en un • Tiempo
rango)
34
Tipos de Variables Cualitativas
▪ Dicotómicas: Sólo hay dos categoría, que son excluyentes una
de la otra
Ejemplo: enfermo-sano, muerto-vivo, mujer-hombre

▪ Nominal: tiene mas de dos categorías y no hay orden entre


ellas.
Ejemplo: color de los ojos, grupo sanguíneo

▪ Ordinal: tiene varias categorías y hay orden entre ellas.

Ejemplo: grado tumoral, calificación del riesgo en anestesia.


35
Tipos de Variables Cuantitativas

▪ Continuas: números infinito no numerables de


elementos. Tiene asociado el concepto de medida, en
unidades a veces fraccionarias.

Ejemplo: Presión arterial, Edad, peso.

▪ Discretas: números finitos o infinitos numerables de


elementos. Se asocia con el concepto de conteo.

Ejemplo: N° de hijos, N° de casos de

contaminados con mercurio por zonas.


36
Presentaciones estadísticas y
representaciones gráficas
Son los métodos empleados para organizar y presentar las
observaciones , con el objeto de mostrar la máxima
información con una rápida visualización , manejo de
estética y sencilléz operativa . Pueden ser de dos tipos:
• Tablas:
• Forma sencilla y clara de agrupar la información
• Pueden ser sencillas o complejas según la cantidad de datos
• Es importante el manejo lógico de la disposición
• Gráficos:
• Permiten visualizar la información y sus relaciones
• Es una forma ilustrativa y clara de los datos
• Es una forma creativa y artística de presentación
37

Diferentes tipos de medidas

▪ Las descripciones numéricas de datos son


importantes. Dado un conjunto de n
observaciones :
x1 , x2 ,....., xn
▪ La estadística descriptiva nos ayuda mediante
el manejo de medidas de tendencia central
relativas a la posición de los datos y medidas
de dispersión relativas a la variabilidad de los
datos.
38

Medidas de Tendencia Central

▪ Las medidas descriptivas más comunes de


tendencia central o posición son: la media
aritmética y la mediana

▪ Existen otras medidas de tendencia central que en


ocasiones pueden resultar de interés tales como : la
moda, los cuartiles, los deciles, los percentiles, la
media armónica, la media geométrica y la media
ponderada.
39

Media Aritmética

▪ La media aritmética es simplemente el


promedio (también llamada media muestral
ya que generalmente se calcula en relación a
una muestra).

▪ Se calcula de la siguiente forma: si las


observaciones de una muestra de tamaño n
son x1, x2,…,xn entonces:
n

x
x 1 + x 2 + ... + x n i = 1
i

X= =
n n
40

Mediana

▪ La mediana se suele definir como el valor “más


intermedio o central ” una vez que los datos han
sido ordenados en forma creciente. Se suele
denotar por Me. La forma más general de
calcular la mediana es la siguiente:

 x (( n + 1) 2) si n es impar

Me =  x
( n 2 ) + x ( ( n 2) +1)
 si n es par
 2
41

Moda
▪ La moda de un conjunto de observaciones es el
valor que más se repite, aquel cuya frecuencia
absoluta es máxima.
▪ Puede ser única, que haya más de una, o que no
exista.
▪ Cuando hay más de una , la distribución de los
datos se denomina acorde : bimodal , trimodal,
polimodal, etc.
42

Uso de : Media , Mediana y Moda


Nos brindan una idea muy clara de la “posición” de los
parámetros dentro de una distribución de datos.

• La media tiene el uso más frecuente y sencillo ,


tales como : talla media del mexicano,
temperatura histórica promedio , etc.
• La mediana es representativa en poblaciones
heterogéneas , tales como : distribución de
salarios , peso medio, etc.
• La moda literalmente tiene que ver con “estar de
moda” o lo que más se lleva , tal como: número de
individuos por casa en México, cantidad de
usuarios de ciertos equipos celulares , etc.
43
Relación entre : Media,Mediana y Moda
La forma de distribución de las observaciones puede variar ,
causando desviaciones de estas mediciones centrales , por eso
es conveniente el empleo conjunto de la media y la mediana en
una población o muestra.

La media se usa para distribuciones simétricas que


no tienen sesgo , mientras que la mediana es más
representativa cuando se tienen datos de
distribución sesgada.
44

Medidas de Dispersión

▪ Las medidas descriptivas más comunes de


dispersión son: el rango, la varianza y la
desviación estándar .

▪ Existen otras medidas de dispersión que en


ocasiones pueden resultar de interés tales
como : rango semi-intercuartilar , rango
percentilar y coeficiente de variación.
45
Rango
▪ El rango de la muestra es la medida de
variabilidad más sencilla entre todas las
mencionadas
▪ Como valor se define como la diferencia
entre la observación más grande y la más
pequeña :
r = xmax − xmin
▪ Indica el ancho, recorrido o amplitud de valores .
Tiene como sus límites el valor mayor y el menor en
la distribución de datos.
Tabla 1: Distribución de frecuencias relativas de la vida de las baterías

Figura 1: Histograma de frecuencias relativas


Distribución de probabilidad
Se dice que una distribución es
simétrica si se puede doblar a lo
largo de un eje vertical de manera
que ambos lados coincidan.

Si una distribución carece de


simetría respecto de un eje vertical,
se dice que está sesgada. La
distribución que se ilustra en la
figura 3.a se dice que está sesgada
a la derecha porque tiene una cola
Figura 2: Estimación de la distribución de frecuencias
derecha larga y una cola izquierda
mucho más corta. En la figura 3.b
observamos que la distribución es
simétrica; mientras que en la figura
3.c está sesgada a la izquierda

Figura 3: Sesgo de los datos


DISTRIBUCIÓN DE FRECUENCIAS PARA DATOS AGRUPADOS

https://www.youtube.com/watch?v=Xf79KM86qoQ&t=297
s
Una maquina ha fabricado 60 cilindros cuya longitud en centrimetros registra a continuación:
259 257 249 247 251 246 245 243 250 249
239 254 255 248 246 249 242 250 249 244
253 248 258 252 251 250 253 247 243 245
251 247 250 250 259 249 249 250 251 253
250 248 250 241 251 249 252 247 251 259
250 246 252 238 251 238 236 249 242 238
50
Varianza

▪ Es una medida significativa de la dispersión


de las observaciones alrededor de la media.

▪ Se define como el promedio de las


desviaciones respecto a su media , elevadas al
cuadrado :

 (x − x)
i
2

s =
2 i =1
n
z
. Varianza
▪ Es una medida de variabilidad que toma en cuenta la dispersión que los
valores de los datos tienen respecto a su media. Es decir, aquellos conjuntos
de datos que tengan valores más alejados de la media, sea muestral o
poblacional, tendrán una mayor varianza. Su resultado se expresa en
unidades al cuadrado.

▪ Existen dos símbolos para representar la varianza (σ2 y S2 ). La S2 se


refiere a un estadístico, es decir, a la varianza de una muestra; mientras
que σ 2 se refiere a un parámetro, es decir, a la varianza de una
población.

▪ La manera de obtener la varianza de un conjunto de datos depende de la


forma como se encuentren organizados los datos, ya sea que estén
agrupados o no agrupados, así como del tipo de información con la que se
trabaje, ya sea que provenga de una muestra o de una población.
z
. Varianza
▪ a) LA VARIANZA PARA DATOS NO AGRUPADOS

▪ Cuando tenemos una variable cuya serie de datos no se encuentra


agrupada, X1 , X2 , X3 ,…, Xn , la varianza poblacional se calcula mediante
la siguiente fórmula:

σ𝑛𝑖=1(𝑥𝑖 − µ)2
𝑉 𝑋 = σ2 =
𝑁

σ𝑛𝑖=1(𝑥𝑖 − µ)2 =Suma de los cuadrados de las desviaciones del valor de cada dato
de la serie respecto a la media poblacional.
Xi = El valor de cada dato de la serie.
µ = La media poblacional.
N = Tamaño de la población
z
. Varianza
▪ a) LA VARIANZA PARA DATOS NO AGRUPADOS

▪ Cuando tenemos una variable cuya serie de datos no se


encuentra agrupada, X1 , X2 , X3 ,…, Xn , la varianza muestral
se calcula mediante la siguiente fórmula:

σ𝑛𝑖=1(𝑥𝑖 − 𝑋)
ത 2
𝑆2 =
𝑛 −1

σ𝑛𝑖=1(𝑥𝑖 − 𝑋)
ത 2 = Suma de los cuadrados de las desviaciones del valor de cada
dato de la serie respecto a la media muestral.
Xi = El valor de cada dato de la serie.
X = La media muestral.
n = Tamaño de la muestra
▪ z Los pasos para obtener la varianza muestral o poblacional para datos no
agrupados son los siguientes:

1. Encuentra la media muestral o poblacional, según sea el caso.

2. Obtén cada una de las desviaciones respecto a la media, es decir, a cada


uno de los datos X1 , X2 ,..., Xn se le resta la media obtenida en el paso
anterior para quedar los siguientes valores: (X1 – µ), (X2 – µ),..., (Xn – µ)
en caso de una población. (X1 – 𝑋),ത (X2 – 𝑋),...,
ത ത en caso de una
(Xn – 𝑋)
muestra.

3. Eleva al cuadrado cada una de las desviaciones obtenidas en el paso


anterior y súma las entre sí, para obtener la suma del cuadrado de las
desviaciones: Σ (X – µ) 2 = (X1 – µ) 2 + (X2 – µ) 2 +…+ (Xn – µ) 2 en caso
de una población. Σ (X – X) 2 = (X1 – X) 2 + (X2 – X) 2 +...+ (Xn – X) 2 en
caso de una muestra.

4. La suma del cuadrado de las desviaciones respecto a su media se divide


entre N, en caso de una población; o entre n – 1, en caso de una muestra
▪ Emplea los datos adjuntos de las ventas de seguros y calcula la varianza, suponiendo
zdatos constituyen la población total de los agentes de seguro de la compañía.
que los

▪ Se tiene que la media es:

▪ Para calcular la varianza se requiere obtener cada una de las diferencias o


desviaciones de los datos respecto a la media (X – µ), elevarlas al cuadrado (X – µ) 2 y
sumar estos resultados:
Tabla 1. Desviaciones de la venta de seguros.
8 11 5 14 11 8 11 16

Ahora aplicamos la fórmula de varianza poblacional para datos no agrupados y obtenemos:


σ𝑛
𝑖=1(𝑥𝑖 −µ)
2
𝑉 𝑋 = σ2 = = 10.75
𝑁
z
Interpretar los resultados

▪ Puede apreciarse que la varianza es de 10.75. Sin embargo, esta


medida de variación no tiene un significado práctico debido a que el
resultado obtenido está expresado en términos cuadrados, es decir,
la variabilidad de seguros vendidos es de 10.75 seguros cuadrados.
Por esa razón, la varianza sólo tiene sentido lógico cuando
comparamos diferentes conjuntos de datos con la misma unidad de
medida, es decir, su interpretación es una medida relativa en el
sentido de que aquel conjunto que tenga la mayor varianza será el
de mayor grado de dispersión
▪ En las tablas 2 y 3 se exponen las cotizaciones mensuales del tipo de cambio entre el
Ejemplo:
peso mexicano
z
y el dólar estadounidense para los años de 1995 y 2000. Observa
cuidadosamente la información contenida en cada tabla.

▪ a) Realizando una inspección visual, ¿en cuál de los dos años se observa una mayor
estabilidad en el tipo de cambio?

▪ b) Encuentra la varianza para el tipo de cambio entre el peso y el dólar


estadounidense en cada uno de los dos años.

Tabla 2. Tipo de cambio mensual peso-dólar Tabla 3. Tipo de cambio mensual. peso-dólar
en el año 1995 en el año 2000
z

▪ Como los datos no se encuentran organizados mediante tablas de


frecuencias, procedemos a encontrar la varianza muestral para datos
no agrupados, obteniendo en primer lugar sus medias respectivas:

▪ La media de 1995 es:

▪ La media de 2000 es:


▪ Procedemos
z a encontrar la suma del cuadrado de las desviaciones del tipo de
cambio respecto a la media, de acuerdo con las siguientes tablas:

De los resultados obtenidos en las tablas 2 y 3 se divide la suma del cuadrado de las
desviaciones entre n – 1 y así se obtiene la varianza muestral del tipo de cambio para los
años de 1995 y 2000
Para el año de 1995 Para el año 2000
z

▪ el tipo de cambio en el año de 1995 tiene una mayor dispersión que


el observado en el año 2000, tal como lo señalan ambas varianzas y
tal como lo apreciamos de manera visual en el inciso anterior. Este
contraste se debe a la diferencia en los escenarios
macroeconómicos que se vivieron durante esos años. Al ser mayor
la varianza del año 1995, se refleja una gran volatilidad y
nerviosismo en el mercado cambiario producido por una fuerte crisis
económica que se vivía en ese año. En el año 2000 podemos
observar que el peso mexicano gozó de una gran fortaleza, pues su
cotización se mantuvo muy estable en el transcurso de los 12
meses, incluso en el mes de junio, cuando se presentaba la recta
final de un proceso electoral en el país
b) LA VARIANZA PARA DATOS AGRUPADOS
z
▪ En el caso de datos agrupados, para encontrar la varianza es necesario conocer el
punto medio de cada clase. El método se basa en la suposición de que el punto
medio de cada clase es aproximadamente igual a la media aritmética de las medidas
contenidas en un intervalo. El punto medio de la clase j se denota por mj .

▪ i) La varianza poblacional para datos agrupados se define como:

σ 𝑛 2
𝑖=1(𝑚𝑖 − µ) 𝑓𝑖
σ2 =
𝑁

Donde:

▪ σ2 = Varianza de la población.

▪ 𝑚𝑖 = Punto medio de clase.

▪ µ = Media de la población.

▪ N = Tamaño de la población.

▪ 𝑓𝑖 = Frecuencia de la clase
z

ii) La fórmula para calcular la varianza muestral es:

σ 𝑛 ത 2
2 𝑖=1(𝑚𝑗 − 𝑋) 𝑓𝑖
𝑆 =
𝑛 −1

▪ S2 = Varianza de la muestra.

▪ mj = Punto medio de clase.

▪ 𝑋ത = Media de la muestra.

▪ n = Tamaño de la muestra.

▪ f = Frecuencia de la clase
Para obtener la varianza para datos agrupados, sea muestral o poblacional, se tienen que
realizar los siguientes pasos:
z
1. Se obtiene la media muestral o poblacional para datos agrupados, según corresponda.
Por ejemplo, si se pretende obtener la varianza muestral, entonces procedemos a
encontrar la media a través de la siguiente fórmula:

2. Se encuentran los puntos medios para cada una de las clases m1 ,m2 ,...,mn y a cada
uno se resta la media muestral o poblacional según corresponda. Por ejemplo, para el
caso de la varianza muestral se encontrarían las siguientes desviaciones:

3. Se eleva al cuadrado cada una de las desviaciones de los puntos medios de clases
respecto a la media. Por ejemplo, en caso de una población:

4. Cada uno de los cuadrados se multiplica por su respectiva frecuencia de clase. Por
ejemplo, en el caso de una población:

5. Se suma cada uno de estos resultados y se divide, en el caso de la varianza


poblacional, entre el número total de datos de la población (N), y en el caso de una
muestra entre el n –1.
▪ Una gran empresa de ventas por teléfono quiere conocer la variación existente en
z
las ventas realizadas (en miles de soles) por sus operadores. Para esto realiza una
muestra de 25 operadores telefónicos, obteniendo los resultados de la siguiente
tabla. Calcula la varianza muestral.
Tabla 4 Distribución de las ventas por teléfono

Las clases denotan las ventas realizadas en miles de


pesos y la frecuencia del número de operadores
telefónicos

Tabla 5 Distribución de las ventas por teléfono


▪ Para obtener la varianza, en primer lugar se debe calcular la media muestral
z
para datos agrupados, encontrando el punto medio de clase, multiplicarlo por
su frecuencia de la clase correspondiente, y sus resultados se suman para
obtener la media, tal y como se muestra a continuación:

▪ Se obtiene la varianza restándole a cada punto medio de clase la media


muestral, elevando cada una de estas diferencias al cuadrado y multiplicando
cada diferencia cuadrática por la frecuencia respectiva de clase de la manera
siguiente:
σ𝑛 ത 2
𝑖=1(𝑚𝑗 −𝑋) 𝑓𝑖 693.76
𝑆2 = = 25−1 = 28.9066
𝑛 −1

▪ La varianza obtenida señala que la dispersión existente entre las ventas entre

▪ (n – 1) es de 28.90666667 miles de pesos al cuadrado


z
Ventajas y desventajas de la varianza
▪ La varianza mide la variabilidad tomando en cuenta la dispersión que los valores
de los datos tienen respecto a su media. Es decir, aquellos conjuntos que
tengan valores más alejados de la media, sea muestral o poblacional, tendrán
una mayor varianza, mientras que aquellos conjuntos con valores más cercanos
a la media mostrarán una mayor uniformidad al contar con una varianza menor.

▪ La varianza únicamente adquiere valores mayores o iguales a cero, nunca


valores negativos, y se utiliza para comparar la dispersión de dos o más
conjuntos de datos que se encuentren expresados en la misma unidad de
medida; por ejemplo, para observar la variación existente entre dos líneas de
producción, la tasa de interés de dos instrumentos financieros, las ventas de
productos expresados en la misma moneda, etcétera.

▪ La principal desventaja de la varianza es que su resultado se expresa en


unidades al cuadrado, resultando darle una interpretación lógica. Además, la
varianza no puede comparar la dispersión de dos conjuntos de datos
expresados en diferentes unidades de medida; por ejemplo, chamarras con
coches, diferentes divisas.
Longitud ID muestra
99.001531 1
100.241982 2
100.04225
99.5960505
3
4
z
100.03106
99.9094725
99.6475688
5
6
7
Ejemplo de 1 varianza
100.682768 8
100.294376 9
98.3421231 10
100.591865 11
99.1660761 12
100.51319 13
99.426994 14
99.9717924 15
99.8435308 16
102.377442
99.800269
17
18
▪ El gerente de un depósito de madera desea evaluar el
101.390095 19
101.041391
99.8567237
20
21
desempeño de un aserradero que corta vigas que se supone
100.623086 22
99.8485189
100.113965
23
24
que miden 100 cm de largo. El gerente toma una muestra de 50
100.266172 25
101.976348
99.2246241
26
27
vigas del aserradero y mide las longitudes.
100.219945 28
101.423615 29
102.319223
100.227242
30
31 ▪ El administrador realiza una prueba de 1 varianza para
100.210324 32
99.8818614
101.337805
33
34 determinar si la desviación estándar del aserradero es diferente
99.8192022 35
101.081562
98.3638037
36
37 de 1.
99.1690046 38
100.005327 39
100.445116 40
99.3807568 41
100.148057 42
101.321595 43
99.8433755 44
100.359409 45
99.9758626 46
99.1468352 47
101.100433 48
99.37629 49
100.273886 50
z

1. Abra los datos de muestra,


LongitudVigas.MTW.

2. Elija Estadísticas > Estadísticas


básicas > 1 varianza.

3. En la lista desplegable, seleccione


Una o más muestras, cada una en
una columna e ingrese Longitud.

4. Seleccione Realizar prueba de


hipótesis e ingrese 1 en Valor.

5. Haga clic en Aceptar.


z
Interpretar los resultados

▪ Debido a que un análisis previo reveló que los


datos no parecen provenir de una distribución
normal, el gerente utiliza el intervalo de
confianza para el método de Bonett. El
intervalo de confianza de 95% muestra que un
rango probable para la desviación estándar de
la población con respecto a la longitud de
todas las vigas es 0.704 cm y 1.121 cm. Un
rango probable para la varianza de la
población es 0.496 cm y 1.257 cm. Puesto que
el valor p es mayor que 0.05, el gerente no
puede concluir que la desviación estándar de
la población es diferente de 1.
z
z
z
Califica
ción Hospital
81 A
77 A
75 A z
74
86
90
A
A
A
Ejemplo de 2 varianzas
62 A
73 A
91 A
98 A
81 A
85 A
77 A Un consultor de salud desea comparar las calificaciones de satisfacción de los pacientes de dos
78 A hospitales. El consultor recolecta calificaciones de 20 pacientes de cada uno de los hospitales.
83 A
90 A
78 A El consultor realiza una prueba de 2 varianzas para determinar si las desviaciones estándar en
76 A las calificaciones de los pacientes de los dos hospitales son diferentes.
71 A
80 A
89 B 1. Abra los datos de muestra, CompHospitales.MTW.
64 B
35 B
68 B 2. Elija Estadísticas > Estadísticas básicas > 2 varianzas.
69 B
55 B 3. En la lista desplegable, seleccione Ambas muestras están en una columna.
37 B
57 B
42 B 4. En Muestras, ingrese Calificación.
49 B
59 B
58 B
5. En ID de muestras, ingrese Hospital.
65 B
71 B 6. Haga clic en Aceptar.
67 B
58 B
63 B
68 B
55 B
57 B
z
z
Interpretar los resultados

▪ La hipótesis nula indica que la relación entre las desviaciones


estándar es 1. Puesto que ambos valores p son mayores que el
nivel de significancia (denotado como α o alfa) de 0,05, el
consultor no puede rechazar la hipótesis nula. El consultor no
tiene suficiente evidencia para concluir que las desviaciones
estándar entre los hospitales son diferentes
76
Desviación estándar

▪ Es una medida significativa de la dispersión de


las observaciones alrededor de la media.
▪ Se define como la raíz cuadrada del promedio
de las desviaciones respecto a su media ,
elevadas al cuadrado ; es decir la raíz cuadrada
de la varianza :
n

 (x − x)
i
2

= i =1
n
Al igual que la varianza, la desviación estándar es una medida de
variabilidad que también toma en cuenta la dispersión de los valores de los
datos respecto a su media.
Sin embargo, su significado es más valioso que el de la varianza, pues su
resultado se encuentra expresado en las mismas unidades de la variable
que se examina y no en valores elevados al cuadrado como lo hace la
varianza.

La desviación estándar se representa mediante la letra griega σ para el


caso de una población, o por S en el caso de una muestra.

Se obtiene sacando la raíz cuadrada al resultado de la varianza, no


importa si ésta se trata de una varianza para datos no agrupados o para
datos agrupados, o provenientes de una muestra o de una población. Al
proporcionar sus resultados en unidades no cuadradas, la desviación
estándar es muy fácil de interpretar y su resultado tiene mayor significado
en el análisis de un fenómeno
Las fórmulas para la desviación estándar para datos no agrupados son:

Cuando se trabaja con datos agrupados, la desviación estándar también se


calcula sacando la raíz cuadrada, pero empleando las fórmulas respectivas de la
varianza para datos agrupados:

Tanto en datos no agrupados como en datos agrupados, σ indica la desviación


estándar para una población, mientras que la S representa la desviación estándar
para una muestra
▪ Una casa de bolsa desea realizar un comparativo entre los
z
rendimientos anuales y los riesgos de dos instrumentos financieros que
han estado operando durante los últimos siete años. Sus rendimientos
anuales, expresados en porcentajes, son los siguientes:

▪ Instrumento A: 4.0% 14.3% 19.5% 14.7% 26.5% 37.2% 23.8%


Instrumento B: 6.5% 4.4% 4.8% 6.9% 8.5% 5.8% 5.1%

▪ Obtener la media y la desviación estándar de los rendimientos


observados por los dos instrumentos financieros.

▪ En primer lugar se obtiene el rendimiento promedio por instrumento:

Como puede observarse, el instrumento que presenta el mayor rendimiento promedio


es A con 20%, mientras que el instrumento B tiene un rendimiento promedio de 6%.
En ese sentido, resultaría más atractivo invertir en el fondo A que en el fondo B
▪ Para medir el riesgo de cada uno de los fondos encontramos sus
z
desviaciones estándar; para esto, primero se deben obtener las varianzas
poblacionales y posteriormente se les saca la raíz cuadrada:

Acción A Acción B

Puede observarse que el instrumento A tiene una variabilidad de 9.778694041%, mientras


que el instrumento B tuvo una variabilidad de 1.318007154%. Esto indica que los
rendimientos del instrumento A tienen una mayor dispersión que los rendimientos del
instrumento B.

En el contexto de este ejemplo puede pensarse en la desviación estándar como una medida
de la incertidumbre o riesgo de la rentabilidad de una inversión. Es decir, la rentabilidad
promedio fue mayor para el instrumento A, pero su riesgo en términos de la desviación
estándar de la rentabilidad también fue mayor.
z Ventajas y desventajas de la desviación
estándar
▪ Por otra parte, para obtener la desviación estándar cuando se trabaja con datos
agrupados se utiliza la misma metodología que en el caso de los datos no
agrupados. En primer lugar se encuentra la varianza a través de su respectiva
fórmula y posteriormente se le saca la raíz cuadrada

▪ Ventajas y desventajas de la desviación estándar

▪ La principal ventaja de la desviación estándar es que indica la manera en que


se dispersan los datos respecto a la media en las mismas unidades de la
variable que se examina y no en valores elevados al cuadrado. Al igual que la
varianza, la desviación estándar únicamente adquiere valores mayores o
iguales a cero, nunca valores negativos.

▪ Es utilizada para comparar la dispersión entre distintos conjuntos de datos.


Aquellos conjuntos que tengan valores más alejados de la media tendrán una
mayor desviación estándar, mientras que aquellos conjuntos con valores más
cercanos a la media mostrarán una menor desviación estándar.

▪ Al igual que la varianza, una desventaja de la desviación estándar es que


tampoco puede comparar la dispersión de dos conjuntos de datos que se
expresan en diferentes unidades de medida
Longitud ID muestra
99.002 1
100.242 2
100.042 3
99.596 4
100.031
99.909
5
6
z
99.648 7
100.683 8
100.294 9
98.342 10
100.592 11
99.166 12
100.513 13
99.427 14
99.972 15
99.844 16
102.377 17
99.8 18
101.39 19
101.041 20
99.857
100.623
21
22 ▪ El gerente de un depósito de madera desea evaluar el
99.849 23
100.114
100.266
24
25
desempeño de un aserradero que corta vigas que se supone
101.976 26
99.225
100.22
27
28
que miden 100 cm de largo. El gerente toma una muestra de 50
101.424 29
102.319
100.227
30
31
vigas del aserradero y mide las longitudes.
100.21 32
99.882 33
101.338
99.819
34
35 ▪ El administrador realiza una prueba de 1 varianza para
101.082 36
98.364
99.169
37
38 determinar si la desviación estándar del aserradero es diferente
100.005 39
100.445
99.381
40
41
de 1
100.148 42
101.322 43
99.843 44
100.359 45
99.976 46
99.147 47
101.1 48
99.376 49
100.274 50
z
z
Interpretar los resultados

▪ Debido a que un análisis previo reveló que los datos no parecen


provenir de una distribución normal, el gerente utiliza el intervalo
de confianza para el método de Bonett. El intervalo de confianza
de 95% muestra que un rango probable para la desviación
estándar de la población con respecto a la longitud de todas las
vigas es 0.704 cm y 1.121 cm. Un rango probable para la
varianza de la población es 0.496 cm y 1.257 cm. Puesto que el
valor p es mayor que 0.05, el gerente no puede concluir que la
desviación estándar de la población es diferente de 1.
z
Calcular la desviación estándar agrupada

¿Qué es la desviación estándar agrupada?

La desviación estándar agrupada es un método para estimar una sola


desviación estándar que represente a todas las muestras o los grupos
independientes incluidos en el estudio cuando se parte del supuesto de que
provienen de poblaciones con una desviación estándar común. La desviación
estándar agrupada es la dispersión promedio de todos los puntos de los
datos alrededor de su media grupal (no de la media general). Es un promedio
ponderado de la desviación estándar de cada grupo. La ponderación da a los
grupos más grandes un efecto proporcionalmente mayor sobre la estimación
general. Las desviaciones estándar agrupadas se utilizan en las pruebas t de 2
muestras, los ANOVA, las gráficas de control y el análisis de capacidad.

▪ Supongamos que C1 contiene la respuesta y C3 contiene la media de cada


nivel de los factores. Por ejemplo:
z
Calcular la desviación estándar agrupada

Ejemplo de una desviación estándar agrupada


Supongamos que un estudio tiene los cuatro grupos siguientes:
Desviación
Grupo Media estándar N
1 9.7 2.5 50
2 12.1 2.9 50
3 14.5 3.2 50
4 17.3 6.8 200

Los primeros tres grupos tienen el mismo tamaño (n=50) con desviaciones
estándar de aproximadamente 3. El cuarto grupo es mucho más grande (n=200) y
tiene una desviación estándar mayor (6.8). Puesto que la desviación estándar
agrupada utiliza un promedio ponderado, su valor (5.486) está más cerca de la
desviación estándar del grupo más grande. Si usted utilizara un promedio simple,
entonces todos los grupos tendrían el mismo efecto

▪ Supongamos que C1 contiene la respuesta y C3 contiene la media de cada


nivel de los factores. Por ejemplo:
z

El 89.03% de los autos tiene 6 cilindros o menos.


z
TIPOS DE MEDIDAS ESTADÍSTICAS
▪ Medidas de centralización MEDIDAS DE POSICIÓN
▪ Medidas de dispersión
▪ Medidas de posición
Nos informa del lugar que ocupa un dato
dentro de un conjunto ordenado de
valores.
MEDIDAS DE CENTRALIZACIÓN
1.Quartiles
Indican los valores más representativos de un conjunto de
2.Percentiles
datos.
1.Media aritmética
2.Mediana
3.Moda
MEDIDAS DE DISPERSIÓN
Se utilizan para medir el grado de dispersión que existe en la
distribución.
1.Recorrido o amplitud
2.Recorrido intercuartílico
3.Desviación media
4.Varianza
5.Desviación típica
6.Coeficiente de variación
89
Utilidad de las medidas de dispersión

▪ Las medidas centrales solo nos indican el valor medio


alrededor del cual se agrupan nuestros datos , pero las
de dispersión nos detallan la variación de las
observaciones en cuanto a forma y extensión.

▪ Nos muestran claramente la distancia entre los datos y


la media aritmética, además de que dependen de todas
las observaciones.

▪ Son únicas de una serie de datos y por eso se


denominan absolutas , pero pierden sentido de
comparación , para lo cual hay que usar el coeficiente
de variación (desviación estándar sobre
la media en porcentaje) .
Medidas de centralización

Las medidas de centralización nos sirven para representar el valor medio de


los datos, es decir, el valor que refleja el tamaño del dato más esperado. Ello
nos indica la posición en la que se encuentra en el centro de los datos

Las medidas de centralización más utilizadas son:

Media : Es la suma de un conjunto de observaciones dividido por el


número total de observaciones realizadas. Si calculamos la media
poblacional, la expresión será la siguiente:

En cambio, si lo que estamos calculando es la media muestral, la


notación será la que sigue:

siendo xi cada uno de los valores de la distribución, y n el número de


observaciones
¿Qué es la media?
La media es el valor promedio de todos mis datos. Se calcula sumando
todo los datos y dividiéndolo entre el número total de datos que tengo.
Lo veremos bien en los ejemplos propuestos.

¿Qué es la moda?
La moda es el valor que más se repite dentro del conjunto de datos que
tengo. Es decir, es aquel que tiene mayor frecuencia absoluta. Se denota
por Mo.
Puede haber más de un valor de la moda. No obstante, si ningún valor se
repite no hay moda.

¿Y la mediana?
Es el valor que ocupa el lugar central de todos mis valores. Tengo que
ordenar el conjunto de datos de forma creciente o decreciente. Se
denomina por Me
La media vs. la mediana
Relación entre el valor de la media y la mediana de una distribución
Tanto la media aritmética como la mediana miden el centro de la distribución, pero lo hacen de
formas diferentes. En el caso en que la distribución sea simétrica ambas medidas son iguales. Si la
distribución es asimétrica, la media aritmética se desplaza hacia la cola de la distribución. Observar
que para calcular la media aritmética, utilizamos todos los datos, sin embargo, no ocurre así con la
mediana. Así, si hay valores extremos, la media se verá mucho más afectada que la mediana.
Medidas de dispersión
Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia
central, necesitamos conocer también la dispersión que presentan los datos en su distribución, con
objeto de tener una visión de los mismos más acorde con la realidad a la hora de describirlos e
interpretarlos.

Recorrido o amplitud:
Es la diferencia entre el valor máximo de la distribución y el valor mínimo.

Cuartiles:
Así como la mediana divide a la distribución en mitades, los
cuartiles de una distribución son los valores que dividen la
distribución en cuartos.
El primer cuartil (Q1) deja un cuarto de las observaciones
por debajo del mismo, y tres cuartos por encima.
El segundo cuartil (Q2) tiene dos cuartos por debajo y dos
por encima (el segundo cuartil coincide con la mediana).
El tercer cuartil (Q3) tiene tres cuartos de las observaciones
por debajo y un cuarto por encima.
Primer cuartil
El primer cuartil, también llamado cuartil 1, es aquel valor superior al 25% de los
datos estadísticos de una muestra. Es decir, el primer cuartil es más grande que el
25% de los datos observados

Segundo cuartil
El segundo cuartil, también llamado cuartil 2, es aquel valor superior al 50% de los
datos estadísticos de una muestra. Por lo tanto, el segundo cuartil separa el
conjunto de datos en dos mitades y coincide con la mediana y el quinto decil.
El símbolo del segundo cuartil es Q2.

Tercer cuartil
El tercer cuartil, también llamado cuartil 3, es el valor que supera al 75% de los datos
estadísticos de una muestra. O dicho de otra forma, el tercer cuartil es más grande
que el 75% de los datos recopilados.
El tercer cuartil se expresa mediante el símbolo Q3 y representa los valores más
grandes de la muestra.
Por lo tanto, la fórmula de los cuartiles es:

Atención: esta fórmula nos indica la posición del cuartil, no el valor del cuartil. El cuartil será el
dato situado en la posición obtenida por la fórmula.

Sin embargo, a veces el resultado de esta fórmula nos En este caso n, el número total de observaciones, es
dará un número decimal. De manera que debemos 15, de manera que debemos sustituir n por 15 y la k
distinguir dos casos dependiendo de si el resultado es un por 1 para hallar el primer cuartil:
número decimal o no:

Si el resultado de la fórmula es un número sin parte Por lo tanto, el primer cuartil es el número en la
decimal, el cuartil es el dato que está en la posición que posición cuatro de la lista ordenada de valores, que
nos proporciona la fórmula de arriba. en este caso es el 39.
Si el resultado de la fórmula es un número con parte
Del mismo modo, hacemos el cálculo del segundo cuarti
decimal, el valor del cuartil se calcula mediante la
sustituyendo el coeficiente k por un 2
siguiente fórmula:

Así que el cuartil 2 es el octavo número de la lista ordenada,


que corresponde al valor 48.
Donde xi y xi+1 son los números de las posiciones entre las Finalmente, aplicamos una última vez la fórmula con
cuales está el número obtenido por la primera fórmula, y d es k=3 para calcular el tercer cuartil:
la parte decimal del número obtenido por la primera fórmula.
El cuartil 3 es el dato que está en la
duodécima posición, esto es, el 60.
Encuentra los tres cuartiles de la siguiente serie de dato En este caso xi es 22, x i+1 25 y d es la parte decimal del
número obtenido, esto es, 0,25. Por tanto:

Ahora hacemos el mismo procedimiento para hallar el


segundo cuartil:

En este ejemplo tenemos 24 observaciones, por lo


que los números obtenidos de la fórmula de los Otra vez volvemos a obtener un número decimal de la
cuartiles serán decimales. fórmula, en este caso es 12,5. Por lo que tenemos que
usar la misma fórmula con el duodécimo y el
Primero calculamos la posición del primer cuartil decimotercer número de la tabla de datos, que
sustituyendo k por 1 en la fórmula general: corresponden a 49 y 50:

Por último, repetimos el mismo proceso para sacar el tercer


cuartil:
Pero hemos obtenido el número decimal 6,25, de
modo que el primer cuartil está entre el sexto y el
séptimo dato, que son respectivamente 22 y 25. Pero el número 18,75 está entre el número 18 y el 19, así
Por lo tanto, para calcular el cuartil exacto debemos que el tercer cuartil estará entre los valores de dichas
aplicar la siguiente fórmula: posiciones (71 y 73). Concretamente, será el valor que
obtengamos de la siguiente expresión:
Cuartiles en datos agrupados

Para calcular los cuartiles cuando los datos están


agrupados en intervalos primero debemos encontrar el
intervalo o clase en el que se encuentra el cuartil
utilizando la siguiente fórmula:

De manera que el cuartil estará en el Donde:


intervalo cuya frecuencia absoluta
acumulada sea inmediatamente superior al Li es el límite inferior del intervalo en el que se halla el
número obtenido con la expresión anterior. cuartil.
n es el número total de observaciones.
Y una vez sabemos el intervalo al que Fi-1 es la frecuencia absoluta acumulada del intervalo
pertenece el cuartil, tenemos que aplicar la anterior.
siguiente fórmula para hallar el valor fi es la frecuencia absoluta del intervalo en el que se
exacto del cuartil: encuentra el cuartil.
Ii es la amplitud del intervalo del cuartil.
A continuación se tiene un ejercicio se pide calcular los
cuartiles en una serie de datos agrupados
Volvemos a aplicar el mismo procedimiento para sacar el
segundo cuartil. Primero determinamos el intervalo donde
está el cuartil:

El intervalo cuya frecuencia absoluta acumulada es


inmediatamente más grande a 15,5 es [60,70), con una
frecuencia absoluta acumulada de 26. Por lo tanto, el
segundo cuartil es:
Para hacer el cálculo del primer cuartil primero debemos
determinar el intervalo en el que se encuentra. Para ello,
aplicamos la siguiente fórmula:
Y, finalmente, repetimos el proceso para hallar el tercer
cuartil. Primero calculamos el intervalo que contiene el
cuartil:
De manera que el primer cuartil estará en el intervalo cuya
frecuencia absoluta acumulada sea inmediatamente
superior a 7,75, en este caso es el intervalo [50,60) cuya La frecuencia absoluta acumulada inmediatamente superior a
frecuencia absoluta acumulada es 15. Y una vez 23,25 es 26, por lo que el intervalo del tercer cuartil es [60,70
conocemos el intervalo del cuartil, empleamos la segunda Así que aplicamos la fórmula para calcular el cuartil con este
fórmula del proceso: intervalo:
Para qué sirven los cuartiles

Los cuartiles son una medida de posición, por lo tanto, los cuartiles sirven para saber
cómo están posicionados los datos. Es decir, los valores de los tres cuartiles permiten
saber si un dato aleatorio de la muestra es muy grande, muy pequeño, o es un valor
medio.

Si cogemos aleatoriamente un dato de la muestra, podemos saber si su valor es alto o


pequeño comparándolo con los cuartiles. Si el valor del dato aleatorio es menor que el
primer cuartil será un valor pequeño, pero si su valor es más grande que el tercer cuartil
será un valor grande. Asimismo, si el valor de dicho dato está entre el primer y el tercer
cuartil se trata de un valor intermedio.
Por otro lado, los cuartiles también se usan para calcular otras medidas estadísticas, como
el rango intercuartil (o rango intercuartílico), y para hacer diagramas, como el diagrama de
caja y bigotes (o boxplot)
Diagrama de caja
Los diagramas de caja le permiten visualizar y comparar
la distribución y la tendencia central de valores numéricos
mediante sus cuartiles. Los cuartiles representan un
método para dividir valores numéricos en cuatro grupos
iguales basados en cinco valores clave: mínimo, primer
cuartil, mediana, tercer cuartil y máximo

La parte de la caja del diagrama siguiente ilustra el 50 por


ciento medio de los valores de los datos, también
conocido como rango intercuartílico o IQR.
La media de los valores se representa como la línea que
divide la caja por la mitad. El IQR ilustra la variabilidad
en un conjunto de valores. Un IQR grande indica una
amplia dispersión de los valores, mientras que un IQR
más pequeño indica que la mayoría de los valores
quedan hacia el centro. Los diagramas de caja también
ilustran los valores mínimos y máximos de los datos
mediante bigotes, o líneas, que se extienden desde la
caja y, opcionalmente, valores atípicos como puntos que
se extienden más allá de los bigotes.
Se ha preguntado a una serie de empresas cuántos objetivos desarrollo sostenible llevan a
cabo de los 17 que el Programa de las Naciones Unidas para el Desarrollo (PNUD) ha incluido
en su agenda 2030. Los resultados han sido:
Elabora un diagrama de caja y bigotes para este conjunto de datos.
Tenemos que poner qué tipo de variable estamos estudiando, en este caso llamamos a la variable

X=” cuántos objetivos desarrollo sostenible llevan a cabo de los 17 que el PNUD”, variable
estadística cuantitativa discreta
Coeficiente de variación
z
▪ Es una medida de dispersión que señala qué tan grande es la magnitud de la desviación estándar
respecto a la media del conjunto de datos que se examina. A diferencia de otras medidas de
variabilidad, el coeficiente de variación mide la dispersión en términos de porcentaje y no en
unidades de medida. De esta manera, este coeficiente se utiliza para comparar la dispersión entre
dos conjuntos de datos expresados en diferentes unidades de medidas.

▪ El coeficiente de variación se representa mediante la expresión CV y se obtiene dividiendo la


desviación estándar entre la media, multiplicando este resultado por 100, no importando si se trata de
datos no agrupados o de datos agrupados, o que provengan de una muestra o de una población.

▪ El coeficiente de variación se puede calcular mediante la


fórmula siguiente:
Donde:
CV = Coeficiente de variación.
𝑆
𝐶𝑉 = 100% En caso de una muestra S = Desviación estándar de la
𝑋ത
muestra.
𝑋ത = Media de los datos.
𝜎
𝐶𝑉 = 100% σ = Desviación estándar de la
𝜇 En caso de una población
población.
µ = Media poblacional
Coeficiente de variación
z

Donde:
CV = Coeficiente de variación.
𝑆
𝐶𝑉 = 100% En caso de una muestra S = Desviación estándar de la
𝑋ത
muestra.
𝑋ത = Media de los datos.
𝜎
𝐶𝑉 =
𝜇
100% En caso de una población σ = Desviación estándar de la
población.
µ = Media poblacional
z

En una población de alumnos, la estatura tiene una media de 180 cm y una desviación estádar de 18 cm.
El peso de esta población tiene una media de 60 kg y una desviación estandar de 12 kg ¿Cuál de
Las 2 variables tiene mayor dispersión relativa?
Estatura Peso
µ = Media poblacional = 60 kg
µ = Media poblacional =180 cm σ = Desviación estándar de la =12 kg
σ = Desviación estándar de la =18 cm población
población
𝜎 18 𝜎 12
𝐶𝑉 = = = 0.1 x100% = 10% 𝐶𝑉 = = = 0.2 x100% = 20%
𝜇 180 𝜇 60
z

▪ Calcular el coeficiente de variación del siguiente conjunto de


datos: 2, 4, 6 y 8; sabiendo que forman una población.

Xi 𝑋𝑖 − 𝜇 𝑋𝑖 − 𝜇 2
σ𝑁
𝑖=1 𝑋𝑖 20
2 -3 9 𝜇= = =5
𝑁 4
4 -1 1
6 1 1
෍ 8 3 9 σ𝑛
𝑖=1(𝑚𝑖 −µ)
2
20
σ2 = = =5
20 20 𝑁 4

5 𝜎
𝐶𝑉 = 𝜇
= 5/5 = 0.4472
INTERVALOS
BASADOS EN UNA
z
DISTRIBUCION DE
POBLACION
NORMAL
z
z
z
z
z
INTERVALOS DE CONFIANZA
z
z Ejercicios de intervalos de confianza de media
poblacional µ; conociendo a la desviación estándar σ
z
z
z
z
z
z
z
Intervalo de confianza media con
desviación estándar conocida
Intervalos de confianza con Minitab
z Ejercicios de intervalos de confianza de media
poblacional µ; conociendo a la desviación estándar σ
z
Intervalos de confianza con Minitab
z
Si desconocemos la desviación
estándar
C
z ual es el intervalo de confianza para la

varianza o desviación típica.


Estimación para el intérnalo de confianza de la
z
diferencia entre dos medias poblacionales: conocidas
sus desviaciones estándar (σ1 y σ2 )
Estimación para el intérnalo de confianza de la
diferencia
z entre dos medias poblacionales: conocidas
sus desviaciones estándar (σ1 y σ2 )
Estimación para el intérnalo de confianza de la
diferencia
z entre dos medias poblacionales: conocidas
sus desviaciones estándar (σ1 y σ2 )
Estimación para el intérnalo de confianza de la
diferencia
z entre dos medias poblacionales: conocidas
sus desviaciones estándar (σ1 y σ2 )
z DISTRIBUCIÓN DE t STUDENT

▪ Teoría de pequeñas muestras

▪ El probabilidad y estadística, la distribución t o distribución r de student es una


distribución de probabilidad que surge del problema de estimar la media de
una población normalmente distribuida cuando el tamaño de la muestra es
pequeño.

▪ Veremos un nuevo concepto necesario para poder entender la distribución t


Student. Este concepto es “grado de libertad”.

▪ Para definir grados de libertad se hará referencia a la varianza muestral:


𝑛

𝑠 2 = ෍ 𝑥𝑖 − 𝑥ҧ 2

𝑖=1
z DISTRIBUCIÓN DE t STUDENT

▪ Esta fórmula esta basada en n – 1 grados de libertad. Esta terminología


resulta del hecho de que si bien S2 esta basada en n cantidades: 𝑥1 − 𝑥,ҧ 𝑥2 −
𝑥,…
ҧ 𝑥𝑛 − 𝑥ҧ , estas suman cero, así que especificar los valores de cualquier n
– 1 de las cantidades determina el valor restante.

𝑠 2 = ෍ 𝑥𝑖 − 𝑥ҧ 2

𝑖=1
z

SUPOSICION

La población de interés es normal, de modo que X1,…, Xn constituyen una muestra


aleatoria tomada de una distribución normal con µ y δ desconocidas.
z

TEOREMA

Cuando es la media de una muestra aleatoria de tamaño n


tomada de una distribución normal con media µ, la variable
aleatoria
𝑋ത − µ
𝑇=
𝑆/ 𝑛
tiene una distribución de probabilidad llamada distribución t
con n – 1 grados de libertad (gl)
z
Distribución t

… recalca que no tiene una distribución normal estándar


cuando n es pequeña…

Una distribución t esta regida por solo un parámetro,


llamado numero de grados de libertad (gl) de la
distribución, denotado por la v.
z

Ejemplo Curvas z
y tv
▪ El numero de grados de libertad con T es n – 1… debido a que se considera al numero
z
de desviaciones libremente determinadas en las cuales esta basada la desviación
estándar estimada en el denominador de T.
z
Intervalo de confianza t para una
muestra
z
z
EJEMPLO

▪ Se desea saber la calibración de una balanza Z, para lo cual se


utiliza una pesa patrón que se mide 10 veces, con unos
resultados: media de 52,9 y desviación de 3, usando un patrón
de 50.

▪ Ho= µ=50 el instrumento esta calibrado

▪ Ha= µ≠50 no esta calibrado, error


z
z

•Antes:
•1774 Laplace muestra el patrón de distribución esperado alrededor de la norma.
1809 Gauss desarrolla el método de mínimos cuadrados para encontrar la mejor función
continua para un conjunto de datos.
•1835 Adolphe Quetelet defiende el uso de la curva de Gauss para modelos de datos sociales.
•Después: 1900 Karl Pearson propone la prueba F2 para determinar las diferencias entre
frecuencia esperada y observada.

Karl Pearson nació en Londres en 1857.


Ateo, librepensador y socialista, fue uno de
los grandes estadísticos del siglo XX
ANTECEDENTES
z HISTÓRICOS DE LA DISTRIBUCIÓN CHI
CUADRADO:

• El matemático Karl Pearson (1857−1936)

• Karl Pearson en 1900 propuso uno de los primeros Test


Estadísticos que desde la óptica de las distribuciones de la
probabilidad sirve para calcular si los resultados estadísticos de
un experimento se alejan significativamente o no de los
resultados esperados del modelo teórico, test que actualmente
es conocido como el «Test Chi Cuadrado».
• se denota mediante la letra griega minúscula ji elevada al
cuadrado (χ2)
• Es una prueba estadística para evaluar hipótesis acerca de la relación
entre dos variables categóricas
• Se simboliza por χ2
• Hipótesis a probar : Correlaciónales
( H0 : no hay asociación y H1 hay asociación)
• Variables involucradas: Dos, esta prueba no considera relaciones
causales
• Nivel de medición de las variables: Nominal u ordinal
• Es una distribución asimétrica

• Sólo toma valores positivos y es asintótica con respecto al eje de las x


positivas ( 0 < χ2 < +∞)

• El área comprendida entre la curva y el eje de las x es 1 ó 100%


z
Se utiliza
• Prueba de bondad de ajustes

• Prueba de homogeneidad

• Prueba de independencia

• Las pruebas se utilizan para determinar si las


frecuencias observadas (O) en las categorías difieren
significativamente de las frecuencias esperadas (E).
• No se utiliza en números solo se categoriza. (la prueba
Chi-cuadrada no considera relaciones causales).
z PROCEDIMIENTO

• Se calcula a través de una tabla de contingencia o tabulación cruzada.

• Es una tabla de dos dimensiones y cada dimensión contienen una variable

• Cada variable se subdivide en dos o más categorías.

• Ejemplo: tabla 2x2 => cada dígito indica una variable y el valor de este
indica el número de categorías de la variable
EJEMPLO DE UNA TABLA DE CONTINGENCIA

Dos variables : voto y sexo


Cada variable con dos categorías VOTO
candidato a candidato b
masculino
sexo
femenino
Ejemplo . Estudio de Tabla de contingencia 3x2:
Se estudia a 1040 estudiantes de los niveles de educación primaria y
secundaria y a los cuales se aplica un instrumento que mide el aprendizaje de
la matemática, en las dimensiones de aprendizaje conceptual, procedimental
y actitudinal.
Variables:
APRENDIZAJE Categorías: Conceptual, Procedimental, Actitudinal.
NIVEL DE EDUCACIÓN Categorías: Primaria, Secundaria.

z TABLA DE CONTINGENCIA
NIVEL DE EDUCACIÓN

Primaria Secundaria

Conceptual 180 100


APRENDIZAJE
Procedimental 190 280
Actitudinal 170 120
Tabla de frecuencias observadas (O):

NIVEL DE EDUCACIÓN TOTAL


Primaria Secundaria
Conceptual 180 100 280
APRENDIZAJE
Procedimental 190 280 470
Actitudinal 170 120 290

z TOTAL 540 500 1040

La Chi-cuadrada es una comparación entre las


tablas de frecuencias observadas y la
denominada tabla de frecuencias esperadas (la
tabla que esperaríamos encontrar si las variables
fueran estadísticamente independientes o no
estuvieran relacionadas).
Tabla de frecuencias esperadas (E): Fe= Tf x Tc/ Tg

La frecuencia esperada de cada celda, casilla o recuadro, se calcula


mediante la siguiente fórmula aplicada a la tabla de frecuencias observadas:
N = es el número total de frecuencias observadas.
E = (marginal del reglón)(marginal de columna) / N.

z NIVEL DE EDUCACIÓN

Primaria Secundaria Marginal de


filas

Conceptual (280)(540)/1040 (280)(500)/1040 280 Tf


APRENDIZAJE Procedimental (470)(540)/1040 (470)( 500)/1040 470

Actitudinal (290)(540)/1040 (290)(500)/1040 290

marginal de columnas
540 Tc 500 1040 Tg
Frecuencia observada:

NIVEL DE EDUCACIÓN TOTAL


Primaria secundaria

Conceptual 180 100 280


APRENDIZAJE
Procedimental 190 280 470

Actitudinal 170 120 290


TOTAL 540 500 1040

Frecuenciaz
esperada:

NIVEL DE EDUCACIÓN TOTAL


Primaria Secundaria Donde:
O: frecuencia observada
Conceptual 145,4 134,6 280 en cada celda
APRENDIZAJE E: frecuencia esperada
Procedimental 244,0 226,0 470 en cada celda
Actitudinal 150,6 139,4 290
TOTAL 540 500 1040
 (O − E )2

X 2
=
E
Celda O E O-E (O-E)2 (O-E)2 / E
Conceptual/Primaria 180 145,4 34,6 1197,16 8,23
Procedimental/ Primaria 190 244,4 -54,4 2959,36 12,11
Actitudinal / Primaria 170 150,6 19,4 376,36 2,50
Conceptual / Secundaria 100 134,6 -34,6 1197,16 8,69
Procedimental /Secundaria 280 226,0 54,0 2916,00 12,80
Actitudinal / Secundaria 120 139,4 -19,4 376,36 2,70
z
X2 = 47,33

Para saber si el valor de X2 es o no significativo,


debemos calcular los grados de libertad.

G.L. = (Nº de filas - 1)(Nº de columnas - 1).


Para el ejemplo: Nº de filas = 3 y Nº de columnas = 2;
entonces G.L. = (3-1)(2-1) = 2.

Luego, acudimos a la “tabla de distribución de Chi-


cuadrado”, eligiendo nuestro nivel de confianza
( = 0,05 ó  = 0,01).

Si el valor obtenido de X2 es igual o superior al valor de


zdecimos que las variables están relacionadas
la “tabla”,
o no son independientes.

Aplicación:
Para el nivel de confianza de =0,05 y g.l. = 2, el X2 de
tabla es 5,9915 (ver tabla).
X2caculado = 47,33
X2tabla = 5,9915
z
Prueba de hipótesis:

H0: No existe relación entre el aprendizaje y los


niveles de educación.

H1: Existe relación entre el aprendizaje y niveles


de educación.

z
X2calculada > X2tabla entonces se rechaza la
hipótesis nula (H0), y por lo tanto se acepta la hipótesis
alterna (H1).
OBSERVACIONES
z

• Mientras mayor sea la diferencia entre los valores observados y los


esperados, mayor será el valor de χ2 y aumentará por tanto la
probabilidad de rechazar la hipótesis de nulidad

• No se puede usar la prueba de χ2 cuando el valor esperado en


alguna celda es menor que 5

• La suma de las frecuencias observadas debe coincidir con la suma de


las frecuencias esperadas
Ejemplo de Prueba chi-cuadrada para asociación
z

▪ En una fábrica de fundición, las piezas se miden y luego se retiran de la


línea de ensamble si no cumplen con las especificaciones. Un informe diario
indica cuántas piezas rechazadas fueron producidos por cada una de las
tres prensas de la fábrica durante cada uno de los tres turnos. Un ingeniero
especializado en calidad quiere determinar si la prensa y el turno están
asociados.

▪ El ingeniero realiza una prueba de chi-cuadrada de asociación para


determinar si la prensa y el turno que produjeron las piezas rechazados
están asociados.
Máquina 1er turno 2do turno 3er turno

1 48 47 48

2 76 47 32

3 36 40 34
z
Ejemplo de Prueba chi-cuadrada para
asociación

1. Abra los datos de muestra, MangosParaguas.MTW.

2. Elija Estadísticas > Tablas > Prueba chi-cuadrada para asociación.

3. En la lista desplegable de datos, seleccione Datos resumidos en una tabla de dos factores.

4. En Columnas que contienen la tabla, ingrese '1er turno' '2do turno' '3er turno'.

5. En Etiquetas para la tabla (opcional), en Filas, ingrese Máquina.

6. Haga clic en Estadísticas.

7. Seleccione Contribución de cada celda a chi-cuadrada. Mantenga seleccionadas las


opciones predeterminadas de Prueba Chi-cuadrada, Mostrar conteos en cada celda,
Mostrar conteos marginales y Conteos de celdas esperados.

8. Haga clic en Aceptar en cada cuadro de diálogo.


Ejemplo de Prueba chi-cuadrada para asociación
z
Interpretar los resultados
z

▪ Para estos datos, el estadístico de chi-cuadrada de


Pearson es 11.788 (valor p = 0.019) y el estadístico
de chi-cuadrada de relación de verosimilitud es
11.816 (valor p = 0.019). Ambos valores p son
mayores que el nivel de significancia de 0.05. Por
lo tanto, el ingeniero concluye que las variables
están asociadas y que el rendimiento de las
prensas varía según el turno.

▪ El primer turno produce las piezas más rechazados


(160) y una gran proporción de las piezas
defectuosos proviene de la prensa 2 (76). El
número de piezas defectuosos producidos en la
prensa 2 durante el turno 1 es mucho más grande
de lo que se esperaría si las variables fueran
independientes. El ingeniero utiliza esta
información para investigar las piezas rechazadas
de la prensa 2, hechos durante el primer turno.
z

La desviación estándar de la muestra es 2.23,


Concluimos que la desviación muestral no igual que
la población.
z
CUADRO XI. SUELOS CON DIFERENTES CARACTERÍSTICAS
z EVALUADOS CON LA METODOLOGÍA DE EXTRACCIÓN PROPUESTA

En la figura 5 se muestra el promedio de los


porcentajes de recuperación obtenidos para cada
plaguicida en cada nivel de fortificación evaluado
(nivel 1:
40 μg/kg, nivel 2: 80 μg/kg). En el caso de S1 y S3,
que corresponden a muestras de suelo franco
arcilloso y franco arenoso respectivamente, los
porcentajes de recuperación estuvieron en rangos
similares (70-110 %). Sin embargo, para el suelo S2
con textura arcillosa y mayor cantidad de MO, los
porcentajes de recuperación fueron más bajos,
aunque en un rango aceptable (60-90 %). Las
recuperaciones obtenidas para el suelo S2, menores
en comparación con S1 y S3, se pueden asociar con
su mayor contenido de arcilla. Estas partículas son
capaces de adsorber y formar agregados con los ▪ Fig. 5. Distribución en diagramas de caja de los porcentajes
plaguicidas, lo que disminuye su difusión a través de medios obtenidos en los experimentos de recuperación de
los plaguicidas evaluados en tres tipos de suelo (S1, S2, S3)
los poros del suelo y a su vez dificulta la penetración
bajo dos niveles de fortificación: nivel 1 = 40 μg/kg y nivel 2 =
del solvente extractor en la matriz (Li et al. 2003). De 80 μg/kg. S1 = suelo franco-arcilloso, S2 = suelo arcilloso, S3
manera general se obtuvieron resultados aceptables = suelo franco-arenoso
en las evaluaciones del método propuesto
z
análisis de varianza (ANOVA)

▪ Un análisis de varianza (ANOVA) prueba la hipótesis de que las medias de


dos o más poblaciones son iguales. Los ANOVA evalúan la importancia de
uno o más factores al comparar las medias de la variable de respuesta en
los diferentes niveles de los factores. La hipótesis nula establece que todas
las medias de la población (medias de los niveles de los factores) son
iguales mientras que la hipótesis alternativa establece que al menos una es
diferente.

▪ Para ejecutar un ANOVA, debe tener una variable de respuesta continua y


al menos un factor categórico con dos o más niveles. Los análisis ANOVA
requieren datos de poblaciones que sigan una distribución
aproximadamente normal con varianzas iguales entre los niveles de
factores. Sin embargo, los procedimientos de ANOVA funcionan bastante
bien incluso cuando se viola el supuesto de normalidad, a menos que una
o más de las distribuciones sean muy asimétricas o si las varianzas son
bastante diferentes. Las transformaciones del conjunto de datos original
pueden corregir estas violaciones.
z
análisis de varianza (ANOVA)

▪ Por ejemplo, usted diseña un experimento para evaluar la durabilidad de cuatro


productos de alfombra experimentales. Usted coloca una muestra de cada tipo
de alfombra en diez hogares y mide la durabilidad después de 60 días. Debido a
que está examinando un factor (tipo de alfombra), usted utiliza un ANOVA de un
solo factor.

▪ Si el valor p es menor que el nivel de significancia, entonces usted concluye que


al menos una media de durabilidad es diferente. Para información más detallada
sobre las diferencias entre medias específicas, utilice un método de
comparaciones múltiples como el de Tukey.

▪ El nombre "análisis de varianza" se basa en el enfoque en el cual el


procedimiento utiliza las varianzas para determinar si las medias son diferentes.
El procedimiento funciona comparando la varianza entre las medias de los
grupos y la varianza dentro de los grupos como una manera de determinar si los
grupos son todos parte de una población más grande o poblaciones separadas
con características diferentes.
z
z
z
z
z
z
z
z
Realizar un ANOVA de dos factores

▪ ara realizar un ANOVA de dos factores en Minitab, utilice Estadísticas > ANOVA > Modelo
lineal general > Ajustar modelo lineal general. Supongamos que la respuesta se denomina A
y sus factores son B y C.

▪ Elija Estadísticas > ANOVA > Modelo lineal general > Ajustar modelo lineal general.

▪ En Respuestas, ingrese A.

▪ En Factores, ingrese B C.

▪ Haga clic en Modelo.

▪ En Factores y covariables, seleccione tanto B como C.. A la derecha de Interacciones hasta


el orden, elija 2 y haga clic en Agregar.

▪ Haga clic en Aceptar en cada cuadro de diálogo.


15/09/2023

z
TÉCNICAS DE
MUESTREO
176
177

z
Introducción

▪ La utilización del muestreo para aproximarse


al conocimiento de la realidad es práctica
habitual en el campo de la investigación
científica. Sin embargo, para que sea posible,
que a través de una muestra se pueda inferir
hacia una población con la precisión y
confiabilidad deseada, es necesario que el
diseño muestral y su desarrollo se ajusten a los
requerimientos que exige la teoría del
muestreo.
15/09/2023
178

z
Cuando se va a seleccionar una muestra
básicamente debemos de preocuparnos
por dos cosas:

¿Cuántos elementos muestrear?

▪ La solución a este problema nos indica cuál es el


mínimo de elementos que se requieren para lograr
un propósito específico de inferencia con una
precisión y confiabilidad establecida.
15/09/2023
179

¿Cómo seleccionar los elementos


que componen la muestra?

▪ Este problema se resuelve con un esquema de


muestreo apropiado; es decir, con un método que
nos lleve a obtener una muestra de los elementos de
la población bajo estudio.
15/09/2023
180
Los esquemas de muestreo se dividen
z en:

▪ Aleatorios

▪ No aleatorios

Ambos pueden producir buenos


resultados, aunque la aleatoriedad es un
elemento que se valora más como
científico. Razón por la que es preferible
el uso de esquemas aleatorios.
15/09/2023
181
Censos y muestras
z

En la siguiente tabla se comparan algunos aspectos


relacionados a los censos y las muestras:

Censo Muestra
- Costoso - Un bajo costo
- Muchos recursos
- Pocos recursos humanos
humanos
- Organización poco
- Organización compleja
compleja
- Gran duración en la - Obtención y análisis de
obtención y análisis de la la información en un
información corto periodo de tiempo
- Resultados precisos - Resultados muy precisos
15/09/2023
182

z Planeación de una encuesta


La realización de una encuesta
requiere de la implementación de una
metodología cuidadosamente diseñada.

Se recomienda siempre tomar en


cuenta los siguientes aspectos para el
desarrollo de una encuesta por muestreo:
15/09/2023
183

z
1. Establecimiento de objetivos
2. Definición de la población objetivo
3. Obtención del marco muestral
4. Seleccionar el diseño o esquema de muestreo
5. Determinar los métodos de medición
6. Escoger el instrumento de medición
7. Selección y adiestramiento de los
investigadores de campo
8. Prueba piloto
9. Organización del trabajo de campo

10. Organización del manejo de datos

11. Análisis de datos


12. Elaborar un reporte
15/09/2023
184

z Muestreo aleatorio simple

En este esquema se supone que se tiene una


población homogénea de tamaño N, lo cual es poco
frecuente en problemas reales. La idea es darle a
cada elemento la misma probabilidad de salir
seleccionada en la muestra, lo que se garantiza a
través de una rifa simple o seleccionando n
números aleatorios de entre 1 a n , a partir de una
tabla o con la ayuda de una calculadora. Estos
números nos indicarán cuáles elementos debo
elegir y observar. Para hacer esta rifa debo tener
un listado de los elementos de la población de
muestro que se denomina marco.
15/09/2023
185 Esquema de un muestreo aleatorio simple

z
Población finita de tamaño N

8
N-6 N
5
2
6
... N-2
1
4 N-3 N-5
3
7 N-1
N-4

Selección aleatoria simple

2 5
1 ...
Muestra aleatoria simple de
15/09/2023

3
4 6
n
tamaño n
z
187

z
Muestreo aleatorio estratificado

En los problemas reales es más frecuente


tener una población estratificada; es decir, una
población de muestreo compuesta por varios
grupos bien identificados, a los que se les llama
estratos. Los individuos pertenecen a uno y
solamente uno de los estratos. Para seleccionar
una muestra estratificada de tamaño ,
procedemos de la siguiente manera.
15/09/2023
188

Sea N=N1+N2+...+NL. Donde Nh= número de


elementos o unidades en el estrato h-ésimo.
Determinamos n y lo distribuimos en los L estratos,
por ejemplo usando asignación proporcional; es
decir:

Nh
nh = n
N
Una vez determinado nh se procede a realizar un
muestreo aleatorio simple en cada estrato.
15/09/2023
189
Esquema de un muestreo aleatorio estratificado
z

Población finita de tamaño


N1+N2 +...+ NL= N
Estrato 1 Estrato 2 Estrato l
. . .
N1 N2 NL

2 2 1
1 1 2 3
4 5
4 3 4 5 6 6
...
3 7
6 7 8
5 N 8
... N2 NL
7 9 ... ...
Muestra aleatoria Muestra aleatoria
Muestra aleatoria
simple simple
simple

1 1 2 1 2
2 3 ...
... ...
3 n1 3 nL
4 n2
15/09/2023

Muestra aleatoria estratificada de tamaño

n = n1 + n2 + ...+ nL
z
z
Muestras probabilísticas estratificada
192

z
Muestreo por
conglomerados

A veces es muy costos obtener un marco de


unidades elementales, pero éstas aparecen
naturalmente agrupadas en pequeños grupos
llamados conglomerados. Si podemos obtener un
listado de conglomerados. Sea 1, 2, ...M el marco de
conglomerados. Nosotros podemos seleccionar una
muestra de unidades básicas en dos etapas:
15/09/2023
193
1. Primero seleccionamos una muestra
z
de m conglomerados usando muestreo
aleatorio simple.
2. De cada conglomerado seleccionado
obtenemos un marco de las Ni
unidades i=1,2,...,m
3. Seleccionamos una muestra aleatoria
de tamaño ni, i=1,2,...,m de cada uno de
los conglomerados.

Así la muestra total será de tamaño


n=n1+n2+...nm. La forma de determinar ni para cada
conglomerado puede ser hecha por separado o
bien determinar n y después distribuirla sobre los
15/09/2023

m conglomerados.
194
Esquema de un muestreo por
z conglomerados en dos etapas

Población finita de M conglomerados

3
1 5

4
2
6
... M

Muestra aleatoria simple


de m conglomerados
...
3
1 Muestra aleatoria
m
2 simple de elementos en
cada conglomerado
seleccionado en la
primera etapa
15/09/2023

... n1 ... ...


n2
n3 ... nm
195

z
Muestreo sistemático

Algunas poblaciones aparecen ordenadas


físicamente, en filas, gavetas, etc., o bien en el tiempo.
Una manera de aprovechar el orden para elegir una
muestra es haciendo una selección sistemática.

Para esto el total N de la población debe dividirse en


n grupos cada uno de tamaño k ; así N = nk.
15/09/2023
196

Entonces de los primero k elementos


seleccionamos uno aleatoriamente. El
resto de los elementos de la muestra se
obtiene sistemáticamente tomado
siempre el elemento j+ik donde j es el
lugar elegido entre los primeros k e
i=1,2,...(n-1). Esto es j, J+k, J+2k, J+3k,...

Si la población tiene un
comportamiento cíclico la muestra puede
ser poco representativa.
15/09/2023
197 Esquema de un muestreo sistemático

Población ordenada de tamaño N=nk

GRUPO 1 GRUPO 2 GRUPO k

. . .

. . . . . . . . . . . .

j J+k ... J+(n-1)k

Muestra sistemática de tamaño n


15/09/2023
z
199

z Otros esquemas aleatorios

En la práctica resulta, con mucha frecuencia, necesario


combinar varios esquemas. Así podríamos tener un
muestreo estratificado y por conglomerados, que en la
segunda etapa utilice el procedimiento sistemático. En
general las características de la población y el problema
bajo estudio nos darán los elementos que nos permitan
confeccionar nuestro plan de la forma más adecuada.
15/09/2023
200

z Muestras no aleatorias

Las muestras aleatorias no necesariamente son


más representativas.

Incluso una muestra aleatoria puede ser muy


mala.

Las muestras aleatorias únicamente garantizan, que


en promedio, obtendremos muestras con pocos sesgos de
elección propiciados por las preferencias del que esta
eligiendo.
15/09/2023
201

En la medida en la que tengamos conocimiento de la


población podemos, con métodos no aleatorios,
seleccionar muestras adecuadas y bastante
representativas.
15/09/2023
202

Si hay un experto de la población bajo estudio, podría


proponer una muestra “a juicio” que garantice
representatividad. Esta muestra no necesita ser muy
grande para proporcionar información de buena calidad.
Dado que esta muestra proviene del buen juicio de un
experto podría ser cuestionada, pero la experiencia es
garantía en muchas situaciones.
15/09/2023
203

Otra forma de construir una muestra es a través de


cuotas, estas establecidas en términos de algunas
variables que definen representatividad. Estas cuotas se
les establecen a los trabajadores de campo y
encuestadores y ellos arbitrariamente eligen a las
unidades específicas que pertenecerán a la muestra.

Otro es a conveniencia, esto por la consideración de


complejidad.
15/09/2023
204

z
Tamaño de muestra

Los factores más importantes que deben tomarse en


cuenta para la determinación del tamaño de muestra
son:

1. La variabilidad de la característica de
interés en los elementos de la población.
2. El tamaño de la población bajo estudio.
3. El nivel de precisión que se desea para
estimar el parámetro de interés.
4. El nivel de confiabilidad deseado.
15/09/2023
205

Una manera simple de determinar el tamaño de


muestra es cuando se puede fijar el interés en una
sola variable y el objetivo de inferencia es estimar por
intervalo una media, un total o una proporción. Así el
tamaño de muestra se obtendría usando alguna de las
siguientes fórmulas:
15/09/2023
206
Media poblacional:  –
Estimador: x
z

Z 2  2
n= /2
B2

N 2
n=
B2
( N − 1) + 2
Z 2
 /2

Z / 2 : Es Un valor de tablas que determina un


nivel de confianza (90%, Z= 1.65, 95%, Z= 1.96,
99%, Z= 2.34).
 2
: Varianza poblacional.
B : Es la precisión con la que se desea
obtener la estimación (Error).
15/09/2023

N : Tamaño de la población bajo estudio.


207

z Total poblacional:  Estimador: ˆ=NX

Z2 / 2 N 2 2
n= 2
B

N 2
n=
B2
( N − 1) 2 +  2

Z / 2 N 2
15/09/2023
208

z Proporción poblacional: p Estimador: p̂

Z2 / 2 pq
n=
B2

Npq
n=
B2
( N − 1) 2 2
+ pq
Z / 2 N

p : Proporción de elementos que presentan la


característica de interés en la población.

q : Proporción de elementos que no presentan la


característica de interés en la población.
15/09/2023
https://www.youtube.com/watch
?v=iXJfDZAt2qs&t=3s
211
METODOLOGIA DE MUESTREO La etapa de recolección de
muestras es de trascendental importancia. Los resultados de los
mejores procedimientos analíticos serán inútiles si no se recolecta y
manipula adecuadamente las muestras
Aguas superficiales
Las muestras de agua deberán recogerse lo más cerca al centro del cuerpo de agua (río, quebrada) y
en contra de la corriente al flujo de agua, evitando alterar las condiciones reales. Cuando no se
presente las condiciones apropiadas para el recojo de muestras del cuerpo de agua, se podrá hacer uso
de un brazo telescópico debidamente diseñado para el recojo de muestras lo más alejado de la orilla,
donde la turbulencia sea mínima y el cuerpo presente condiciones homogéneas. En los casos en que
no es posible recoger las muestras del centro del río, por los riesgos que representan las corrientes
fuertes, la profundidad, falta de implementos de seguridad o el apoyo logístico necesario, se deberá
ubicar el punto en zona de orilla o en una zona apropiada para la toma de muestra, buscando que la
muestra sea representativa del cuerpo de agua.
Aguas residuales
Para recolectar una muestra aleatoria manual de una descarga, debe insertarse un recipiente corriente
abajo de la descarga con la abertura del recipiente en dirección aguas arriba. En la mayoría de casos,
el mismo recipiente para la muestra puede ser usado para recolectarla. Si el lugar de muestreo es
menos accesible, puede ser necesario utilizar una cubeta debidamente acondicionada para recolectar
la muestra. Se debe tener cuidado si es necesario transferir la muestra de un cubo a un recipiente (este
método no debe usarse para muestras de aceites y grasas ni fenoles). La muestra debe tomarse del
15/09/2023

centro horizontal y vertical del canal. Al tomar la muestra, debe evitarse agitar los sedimentos que se
encuentran en el fondo del canal o recolectar residuos que no sean característicos de la descarga. En
todo momento deben tomarse precauciones de seguridad.
212
METODOLOGIA DE MUESTREO La etapa de recolección de
muestras es de trascendental importancia. Los resultados de los
mejores procedimientos analíticos serán inútiles si no se recolecta y
manipula adecuadamente las muestras
Aguas de mar
Las muestras estratificadas de agua de mar deben tomarse desde la superficie del
mar por medio de un bote haciendo uso de botellas Niskin para la colecta
estratificada dentro de un plan de muestreo que contempla la toma de muestra a
lo largo de transectos previamente establecidos. Para ello el operador debe
situarse en un bote a lo largo del transecto elegido y desde la superficie accionar
el mecanismo que permite la recolección de una muestra representativa
procedente de la profundidad requerida.
Aguas subterráneas
Los pozos de aguas subterráneas normalmente son perforados hasta alcanzar el
nivel freático. Antes de iniciar el muestreo se debe determinar la profundidad del
nivel estático del pozo. Se utiliza una sonda con línea con graduación métrica. La
profundidad del nivel de agua se determina en el momento en que la sonda toca
15/09/2023

la superficie del agua y envía una señal luminosa y sonora que indica que se ha
alcanzado el nivel estático del pozo.
213
METODOLOGIA DE MUESTREO La etapa de recolección de
muestras es de trascendental importancia. Los resultados de los
mejores procedimientos analíticos serán inútiles si no se recolecta y
manipula adecuadamente las muestras
Los pozos de aguas subterráneas
El procedimiento para realizar el muestreo de aguas subterráneas es el siguiente:
Introducir el medidor de nivel de agua previamente descontaminado al pozo con la
finalidad de conocer el nivel del agua subterránea.
Las muestras se tomaran utilizando un bailer o una bomba de profundidad. El método
recomendable por la mínima alteración sobre el régimen de agua es de bombas
peristálticas de bajo flujo. Este método en cuanto sea posible utilizarlo garantiza la
obtención de muestras representativas de agua subterránea.
Todos los pozos deberán ser purgados antes de tomar las muestras, de esta manera se
podrá asegurar que el agua que se extraiga para análisis de calidad del agua represente las
condiciones del acuífero y no del agua almacenada en el pozo. Antes de cualquier
evacuación o muestreo, todas las bombas y otros equipos que no sean descartables, deben
ser previamente descontaminados.
Para el procedimiento de purga se deben conocer la profundidad del pozo, el nivel del
agua del pozo y el radio del tubo PVC del pozo; con esta información se deberá calcular el
15/09/2023

volumen de agua a extraer para purgar el pozo. La formula a usar será la siguiente:
214 15/09/2023
215 15/09/2023
216

Es el método de elegir una muestra de n elementos de una


población de N elementos tal que cada una estas muestras tenga
igual probabilidad de ser elegida.
Se elige al azar el primer elemento, después, también al azar un
segundo elemento y así sucesivamente hasta obtener los n
elementos.
Como que un elemento no puede aparecer más de una vez en la
muestra, esta es una forma de muestreo sin remplazar las
unidades extraídas.
La razón muestral o fracción muestral es n / N .
217
Frecuentemente, la finalidad de elegir una muestra es estimar el valor medio
de una característica en la población. Si yi es el valor de la característica en
la í-sima unidad, su valor medio y varianza son:

1 N 1 1 N
 =  yi = ( y1 + y 2 + ... + y N )  =  ( yi −  ) 2
2

N i =1 N N i =1

Si xi es el valor de la i-ésima unidad muestreada, su valor medio y varianza


de la n unidades exploradas son:
z
1 n 1 n
 i
1
x =  xi = ( x1 + x2 + ... + xn ) s =
2
(x − x ) 2

n i =1 n n − 1 i =1
Las cantidades x y s valor medio muestral y varianza muestral se llaman
2

estadísticos muestrales, son el primero y segundo momentos muestrales y


son, también, los estimadores de los parámetros de la población
Las más de las veces, desconocidos en la población y aproximados mediante los
estimadores.
218

Los estimadores son variables aleatorias. Si se obtienen repetidas muestras de


magnitud n de la población, y se calcula el promedio de cada una, se
obtendrá una población de promedios con su distribución propia que diferirá
de la distribución de las observaciones X. La población de promedios tendrá
el mismo promedio  que el de la población y una varianza de promedios
igual a:
σ2 N − n
σ =
2

n N −1
x

La segunda fracción se aproxima a 1 cuando N es grande. O sea, que la


varianza de promedios es aproximadamente la fracción 1 / n de la varianza de
la población original. A medida que n, la magnitud de la muestra aumenta, la
distribución de los promedios se concentran alrededor del valor de la media
poblacional , aumentando la precisión de la estimación del valor como
estimación del valor medio de la población.
219

El Teorema central del límite: Una población definida por sus


parámetros, media  y varianza finita 2. Y siendo la media de una
muestra aleatoria de tamaño n, de esa población, la distribución de
frecuencias de la variable estandarizada:
xi −μ n(xi −μ)
δi = =
σ σ
n
Se aproxima a la Distribución de Frecuencias de la Normal Estándar (
media 0 y varianza 1) a medida que n crece.
Al menos la distribución de los promedios se puede aproximar
mediante una Distribución de Probabilidad perfectamente conocida
que es la Normal Estándar en donde, cualquier intervalo bajo la curva
determina una probabilidad. Esta distribución, también aproxima
convenientemente a la distribución de proporciones.

Regresa
220

La exploración se efectuará mediante la Técnica


Estadística de Muestreo Simple al Azar.
Se obtendrá una muestra preliminar de 30 unidades para
determinar el tamaño de muestra que cumpla con un
99% de confianza y una precisión del 2,5% sobre el
promedio de la variable de peso al nacimiento.
Se utilizará la prueba de 2 para la determinación de
diferencias entre clases con niveles de confianza de
95%.
221

Para obtener la muestra piloto se programa la hoja electrónica para que


proporcione una secuencia de números aleatorios entre 1 y 4.591, inclusive.
El cuadro muestra los registros seleccionados, la referencia del número en el
listado y el peso del niño. Las unidades seleccionadas se marcan mediante
color verde claro en el listado de la población, esto con el fin de no
seleccionarlas de nueva cuenta cuando se complete la muestra definitiva.

Peso Peso Peso


N° Muestra Item Kilologramos N° Muestra Item Kilologramos N° Muestra Item Kilologramos
1 3231 3,199 11 1390 3,999 21 4584 4,313
2 855 4,056 12 3951 3,35 22 1428 2,399
3 2318 3,346 13 3710 3,586 23 996 4,243
4 1608 3,15 14 930 3,321 24 212 3,301
5 4572 3,098 15 3539 4,519 25 2375 2,105
6 253 3,347 16 1828 2,348 26 1485 3,464
7 336 3,838 17 544 3,36 27 853 3,341
8 237 3,156 18 3626 3,394 28 2612 3,242
9 2422 3,245 19 3381 3,779 29 3959 3,216
10 2043 3,152 20 1207 3,751 30 1808 3,127
222

En este caso, la finalidad del Muestreo Piloto fue determinar el


tamaño de la muestra con una precisión de 2,5% sobre el peso
promedio y confiabilidad de 99% utilizando la ecuación:

z2  s2 2,5758 2  0,2886
n= n= = 266
d 2
(3,3915  0,025 )2

Muestras az recolectar tanto en las variables directas cono en las


variables familiares.
Para poblaciones pequeñas se considera el efecto de corregir por
finitud, o sea, asume que la población es pequeña y se utiliza:
z2  s2 n 266
n' = = = = 251
z s
2 2
 n   266 
d2 + 1 +   1 + 
N  N   4.591 
Nuevamente se generan unos 300 números aleatorios para completar la
muestra a 266. En este caso, las unidades seleccionadas se marcan en azul
celeste.
223

El proceso de completar la muestra es idéntico al de obtener la Muestra Piloto. El


estudiante deberá imaginar que cada registro que selección correspondería a un
cuestionario. No podrá de ninguna manera alterar el orden en que aparecen los
números aleatorios, sí por ejemplo ordenara ascendentemente, lo números
aleatorios mayores no se elegirían. Es conveniente listarlos. Es conveniente listarlos
para facilitarse la toma de la muestra.

Al localizar la unidad que indica el número aleatorio y siempre que no haya sido
seleccionada se marca con algún color de fondo, copiando toda la información de la
hilera a la Hoja Muestra inmediatamente debajo de la muestra anterior.

El proceso se detiene cuando se han conseguido las 266muestras incluyendo las 30


de la Muestra Piloto.

En cuanto tenga la muestra abre el archivo E08_Muestreo_Irresticto_X01.xls. Copie


y peque la muestra en la HE con el mismo nombre.
z

https://www.youtube.com/watch
?v=0dWOVbIGGs8&t=493s
z
225 15/09/2023
z
226 15/09/2023
z
15/09/2023
z
228 15/09/2023
z
229 15/09/2023
z
230 15/09/2023
z
231 15/09/2023
z
232 15/09/2023
z
233 15/09/2023
z
234 15/09/2023
z
235 15/09/2023
z
236 15/09/2023
z
237 15/09/2023
238 un estimador puntual de 𝜇, (media
z poblacional) , será 𝑥̅(media muestral),
dónde:
15/09/2023

distribución normal 𝑁( 𝜇, 𝜎) , en la que 𝜇 es la media y 𝜎 la


desviación típica.
z
239 15/09/2023
z
240 15/09/2023
z
241 15/09/2023
z
242 15/09/2023
z
243 15/09/2023
z
244 15/09/2023
245 15/09/2023
246 15/09/2023
247

La inferencia estadística pretende tomar información de


una muestra para generalizarla a la población de donde
esta proviene, con un nivel de certeza predeterminado y
haciendo uso de procedimientos probabilísticos. Cuando la información que se
extrae de la muestra hace referencia a comparaciones entre grupos o consiste en la
evaluación de hipótesis, se defne, además, un nivel de
probabilidad con el que se desea encontrar diferencias
respecto a una variable de desenlace entre tales grupos de comparación. Los
estadísticos estudian muestras que se suponen son representativas y adecuadas
en tamaño de la población de la que se extrajeron. Sin
embargo, existe una gran cantidad de recursos estadísticos y pruebas alternativas
disponibles, lo que hace difícil
el poder determinar cuál es el procedimiento estadístico
que se aplicará a un problema en particular. El objetivo
de este artículo es exponer los criterios para seleccionar
un análisis estadístico inferencial univariante entre las alternativas paramétricas y
no paramétricas
15/09/2023
248 15/09/2023
249 15/09/2023
250 15/09/2023
251 15/09/2023
252 15/09/2023
253 15/09/2023
https://www.facebook.com/watch/?v=481559766153326
Entender la Potencia y el Tamaño de la muestra

Las herramientas de Potencia y Tamaño de la muestra de Minitab ayudan a equilibrar la


necesidad de potencia estadística con el gasto de recolectar datos respondiendo a la siguiente
pregunta: ¿Cuántos datos se necesitan? Esta sencilla pero engañosa cuestión puede tomar
muchas formas.

¿Cuántas muestras son necesarias para determinar si el grosor medio del papel de un
proveedor es el mismo que el de otro proveedor?
¿Cuánta gente se debería de muestrear para tener una confianza del 95% de que la
proporción de gente que da soporte a un candidato está dentro del 3% de su valor real?
¿Podemos confiar en la conclusión del test-t que indica que las notas de examen medias de
dos distritos escolares no son diferentes?
¿Cuántas replicas de un experimento se necesitan si se desea tener al menos un 85% de
oportunidad de detectar los factores que afectan significativamente a un proceso de
fabricación?
Idealmente, se desea recoger datos suficientes para estar seguro de que se dispone de
suficiente potencia para trazar conclusiones razonables.
Utilizar Minitab para determiner la Potencia y el Tamaño de la muestra
Minitab proporciona herramientas para estimar el tamaño de la muestra y la potencia para los
siguientes test estadísticos:

Tamaño de la muestra para estimación


Z de 1 muestra
t de 1- y 2-Muestras
t pareada
1 y 2 Proporciones
Tasa de Poisson de 1- y 2-Muestras
1 y 2 varianzas
ANOVA de un solo factor
Diseño factorial de 2 niveles
Diseño de Plackett - Burman
Diseño factorial completo general
Las funcionalidades de potencia y tamaño de la muestra de Minitab le permiten examinar cómo
las diferentes propiedades de los test se afectan entre sí. Por ejemplo, con un test t de dos
muestras se puede calcular:

Tamaños de la muestra—el número de observaciones en cada muestra.


Diferencias (efectos)—la diferencia mínima que se puede detectar entre la media para una
población y la media para la otra.
Potencia—la probabilidad de detectar una diferencia significativa cuando realmente existe.
Potencia y Tamaño de la muestra prospectivos o
retrospectivos

Calcular la potencia estadística antes de recoger los datos para asegurarse de que el test de
hipótesis detectará efectos significativos, recibe el nombre de un estudio “prospectivo”. Por
ejemplo, suponga que su empresa fabrica cereales, y necesita determinar si el proceso de
llenado de las cajas se ajusta a los requerimientos. Quiere estar seguro que el peso de llenado
medio del proceso no difiere del peso objetivo de 365 gramos en más de 2.5 gramos. Utilizando
una desviación estándar de 4.58 gramos y una potencia del 85%, ¿cuántas cajas de cereales se
necesitan para la muestra? Cuanto más muestras se comprueben, mayor será la oportunidad de
detectar esa diferencia si ésta existe—pero si comprueba demasiadas muestras, el test tardará
mucho en realizarse y costará más de lo necesario.

Utilizando la Potencia y Tamaño de la muestra de Minitab para t de 1 muestra se observa que


únicamente se necesita muestrear 33 cajas de cereales para detectar una diferencia de más de
2.5 gramos con una potencia del 85%.
https://www.youtube.com/watch?v=bnnSnzL7mbg
z
Ejemplo de Tamaño de la muestra para
estimación

▪ Un analista que trabaja en una compañía de dispositivos


electrónicos utiliza un cálculo de tamaño de la muestra para
estimación antes de realizar un estudio para estimar el voltaje
medio de una nueva línea de resistencias utilizadas en las
tarjetas de circuitos. El analista desea saber qué tamaño de
muestra se necesita para obtener un margen de error de 5. Con
base en estudios previos, la desviación estándar es 22.5.
z

1. Elija Estadísticas > Potencia y tamaño de la muestra > Tamaño


de la muestra para estimación.

2. En Parámetro, seleccione Media (Normal).

3. En Valor de planificación, ingrese 22.5 en Desviación estándar.

4. En Márgenes de error para los intervalos de confianza, ingrese


5.

5. Haga clic en Aceptar.


z
z
Ejemplo de Tamaño de muestra para
intervalos de tolerancia
▪ Un ingeniero especializado en calidad que trabaja en una planta de partes
automotrices desea evaluar la variabilidad en el grosor de arandelas
metálicas redondas. El ingeniero planea medir una muestra de arandelas y
calcular un intervalo de tolerancia que incluya 95% de la población. Si el
tamaño de la muestra es pequeño, entonces el porcentaje máximo
aceptable de la población en el intervalo podría ser demasiado grande y el
intervalo de tolerancia podría sobrestimar notablemente la variabilidad en el
grosor de las arandelas. Con base en datos históricos, el ingeniero
presupone que los datos están distribuidos normalmente.

▪ El ingeniero desea determinar el tamaño de la muestra de arandelas que


es necesario medir para alcanzar porcentajes máximos aceptables de la
población en el intervalo de 96% y 97% para el intervalo de tolerancia.
También desea saber los porcentajes máximos aceptables para tamaños
de muestra de 50 o 100 arandelas. El ingeniero puede presuponer que los
datos siguen una distribución normal.
Ejemplo de Tamaño de muestra para
z
intervalos de tolerancia
Para calcular los tamaños de muestra

▪ Elija Estadísticas > Potencia y tamaño de la muestra > Tamaño de muestra para intervalos de
tolerancia.

▪ Seleccione Calcular tamaños de las muestras.

▪ En Porcentaje mínimo de población en el intervalo, ingrese 95.

▪ En Porcentajes máximos aceptables de población en el intervalo (p*), ingrese 96 97.

▪ Haga clic en Aceptar.

Para calcular los márgenes de error

▪ Elija Estadísticas > Potencia y tamaño de la muestra > Tamaño de muestra para intervalos de
tolerancia.

▪ Seleccione Calcular porcentajes máximos aceptables de población en el interval (p*).

▪ En Porcentaje mínimo de población en el intervalo, ingrese 95.

▪ En Tamaños de la muestra, ingrese 50 100.

▪ Haga clic en Aceptar.


Ejemplo de Tamaño de muestra para
z
intervalos de tolerancia
▪ Interpretar los resultados al calcular tamaños de muestra

▪ Con el método normal, para lograr un porcentaje máximo


aceptable de la población en el intervalo de 96%, el ingeniero
necesita recopilar 2480 observaciones. Con observaciones de
2480, la probabilidad de que una cobertura del intervalo de
tolerancia supere el 96% de la población es de solamente 0.05.

▪ Si el ingeniero está dispuesto a aceptar un porcentaje máximo


aceptable de la población en el intervalo de 97%, el tamaño de
la muestra puede reducirse a 525 observaciones.NOTA

▪ Si el ingeniero no puede presuponer normalidad, los tamaños


de las muestras serán mucho más grandes con el método no
paramétrico.
z
z
▪ Interpretar los resultados al calcular tamaños de muestra
z
▪ Con el método normal, para lograr un porcentaje máximo aceptable de la
población en el intervalo de 96%, el ingeniero necesita recopilar 2480
observaciones. Con observaciones de 2480, la probabilidad de que una cobertura
del intervalo de tolerancia supere el 96% de la población es de solamente 0.05.

▪ Si el ingeniero está dispuesto a aceptar un porcentaje máximo aceptable de la


población en el intervalo de 97%, el tamaño de la muestra puede reducirse a 525
observaciones.NOTA

▪ Si el ingeniero no puede presuponer normalidad, los tamaños de las muestras


serán mucho más grandes con el método no paramétrico.

El ingeniero podría decidir que el porcentaje máximo aceptable es demasiado alto y volver a
ejecutar el análisis utilizando tamaños de muestra más grandes para reducir el porcentaje
máximo aceptable. Por ejemplo, podría probar con 250 o 400 arandelas. Sin embargo, tras
el primer análisis, el ingeniero sabe que se requieren al menos 525 arandelas para que haya
un 5% de probabilidad de que el intervalo de tolerancia no contenga más del 97% de la
población, presuponiendo una distribución normal.
z

▪ Dottie Kleman es la “Cookie Lady”, quien hornea y vende galletas en varios


sitiosde Filadelfia. La señora Kleman está interesada en el
ausentismo de sus trabajadoras; la siguiente información se refiere al número
de días de ausencias de una muestra de 10 trabajadoras durante el último
periodo de pago de dos semanas.

▪ a) Determine la media y la desviación estándar de la muestra.

▪ b) ¿Cuál es la media de la población? ¿Cuál es la mejor estimación de dicho


valor? R= la media es de 1.80

▪ c) Construya el intervalo de confianza de 95% para la media de la población.


Suponga que la población sigue una distribución normal.

▪ d) Explique la razón por la cual se utiliza la distribución t como


parte del intervalo de confianza.

▪ e) ¿Es razonable concluir que la trabajadora común no falta ningún


día durante un periodo de pago?

https://www.studocu.com/es-mx/document/instituto-tecnologico-de-ciudad-guzman/estadistica-
inferencial-2/ejercicios-minitab-espero-les-ayude/55143698
z
z

Gracias por su atención…

También podría gustarte