Está en la página 1de 13

DOCUMENTO ADAPTADO Y RECOPILADO POR: ING.

CARLOS AUGUSTO RODAS CASTELLANOS

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA.


CENTRO UNIVERSITARIO DE PETÉN “CUDEP”.
EXTENSIÓN POPTÚN, PETÉN
CARRERA: Profesorado en Enseñanza Media con Orientación
Ambiental.
SEMESTRE: Tercero.
CURSO: Estadística aplicada a la Educación.
CÓDIGO: ACP-011.
CRÉDITOS: 2 semanales.

POR: Ing. Carlos Augusto Rodas Castellanos.


E mail: carlosrodasc@yahoo.es

1. MEDIDAS DE TENDENCIA CENTRAL

A. EL PROMEDIO O LA MEDIA ARITMÉTICA


Es la medida de posición más frecuentemente usada. Para calcular la media aritmética o
promedio de un conjunto de observaciones se suman todos los valores y se divide por el
número total de observaciones.

Ejemplo:
En una caja de estampas del mundial Rusia 2018 vienen 500 de ellas.
20 amigos decidieron comprar el álbum “Panini” que en total se llena con 669 estampas,
que incluyen estampas especiales, los estadios de futbol, las insignias de los 32 equipos, los
equipos completos con sus jugadores y al final estampas legendarias.
Los resultados de los 20 amigos que compraron el álbum y que fueron útiles y repetidas son
las siguientes:
Coleccionista Útiles Repetidas Coleccionista Útiles Repetidas
1 322 178 11 377 123
2 341 159 12 305 195
3 298 202 13 401 99
4 357 143 14 388 112
5 401 99 15 357 143
6 317 183 16 359 141
7 392 108 17 319 181
8 366 134 18 399 101
9 290 210 19 353 147
10 407 93 20 278 222

¿Cuál es la media de estampas útiles y la media de estampas repetidas?


1
DOCUMENTO ADAPTADO Y RECOPILADO POR: ING. CARLOS AUGUSTO RODAS CASTELLANOS

¿A su consideración, cuál sería la probabilidad de comprar una caja de estampas y cuántas


considera que serían útiles y cuántas repetidas? Analice.

B. LA MEDIANA
La mediana es el dato que ocupa la posición central en la muestra ordenada de menor a
mayor.
¿Cómo calculamos la mediana de una muestra de n observaciones?
1. Ordenamos los datos de menor a mayor.
2. La mediana es el dato que ocupa la posición n+1 en la lista ordenada
2
Si el número de datos es impar, la mediana es el dato que ocupa la posición central.
Si el número de datos es par, la mediana es el promedio de los dos datos centrales.

Ejemplo:

n impar
X1 = 10 X2= 14 X3= 12 X4= 18 X5= 11

1. Ordenamos los datos de menor a mayor:

10 11 12 14 18

2. La posición de la mediana es (tercer dato) = 12

Ejercicio:

1. Con los datos de la compra de estampas de Panini, realice la mediana, tanto para
las estampas útiles, como para las repetidas.
2. Haga la comparación entre media y mediana y saque al menos dos conclusiones de
ello.

Comparación de la media y la mediana

Media Mediana
Ventajas Usa toda la información que Representa el centro de la distribución
proveen los datos. (en sentido claramente definido).
Es de manejo algebraico Robusta la presencia de outliers
simple Útil para datos ordinales
Desventajas Muy sensible a la presencia Usa muy poca información de los datos.
de datos outliers.

2
DOCUMENTO ADAPTADO Y RECOPILADO POR: ING. CARLOS AUGUSTO RODAS CASTELLANOS

C. LA MODA

La moda es el dato que ocurre con mayor frecuencia en el conjunto.


Es una medida de poca utilidad salvo para datos categóricos en los que suele interesar
identificar la categoría con mayor cantidad de datos.
En una muestra de datos numéricos, puede ocurrir que la moda sea un valor que se repite
un cierto número de veces, pero que no es típico.
Cuando se considera la distribución poblacional de una variable continua, decimos que esta
es UNIMODAL si presenta un pico y BIMODAL si aparecen dos picos claros.

La moda es una medida de tendencia central que indica el valor que más se repite en un
grupo de números. En un mismo estudio puede haber más de una moda, esto ocurre
cuando dos (bimodal) o más números (multimodal) se repiten la misma cantidad de veces
siendo este es el máximo número de veces del conjunto. También puede darse el caso a la
inversa y que en una muestra no haya moda por la ausencia de repetición de los datos, a
esto se le llama muestra amodal.

Basándonos en la premisa de que la moda equivale al valor más repetido en una muestra,
y observando esta correlación de números: 4,3,2,7,7,7,9,5,9,9,1,9, podemos afirmar que la
moda es 9.

En el siguiente ejemplo encontramos una muestra bimodal, ya que los número 6 y 9 tienen
las frecuencias más altas y se repiten las mismas veces: 9,3,4,6,7,8,6,9,0,7,6,9,1,6,9.

Por último en el siguiente estudio tenemos una muestra amodal, puesto que las cifras no
se repiten con una frecuencia mayor que los otros datos: 2,3,7,9,8,5,0.

Ejercicio:
¿Cuál es la moda en el ejercicio de hipotético del álbum Panini, para estampas útiles y
repetidas?

2. MEDIDAS DE DIPERSIÓN
A. DESVIACIÓN ESTÁNDAR

Es una medida de dispersión. Se define como la raíz cuadrada de la varianza de la variable.

Para conocer con detalle un conjunto de datos, no solo basta con conocer las medidas de
tendencia central, sino que necesitamos conocer también la desviación que presentan los
datos en su distribución respecto de la media aritmética de dicha distribución, con objeto
de tener una visión de los mismos más acorde con la realidad al momento de describirlos e
interpretarlos para la toma de decisiones.

3
DOCUMENTO ADAPTADO Y RECOPILADO POR: ING. CARLOS AUGUSTO RODAS CASTELLANOS

La desviación estándar (DS/DE), también llamada desviación típica, es una medida


de dispersión usada en estadística que nos dice cuánto tienden a alejarse los valores
concretos del promedio en una distribución de datos.
De hecho, específicamente, el cuadrado de la desviación estándar es "el promedio del
cuadrado de la distancia de cada punto respecto del promedio". Se suele representar por
una S.

Su fórmula de aplicación es:

Para comprenderla, haremos un ejemplo partiendo de la media:

El abuelo de una familia quiso saber cuál es el promedio de las edades de sus 14 nietos (xi).
Los datos son los siguientes:
X1 2 X8 16
X2 14 X9 7
X3 8 X10 9
X4 3 X11 4
X5 1 X12 5
X6 9 X13 13
X7 11

Media ( )= 2 + 14 + 8 + 3 + 1 + 9 + 11 + 16 + 7 + 9 + 4 + 5 + 13
14
= 102 / 14 = 7.3 años.

Luego determinamos la Desviación Estándar (S)

S=
S= 1 [(7.3-2)²+(7.3-14)²+(7.3-8)²+(7.3-3)²+(7.3-1)²+(7.3-9)²+(7.3-11)²+(7.3-16)²+(7.3-7)²+(7.3-9)²+(7.3-4)²+(7.3-5)²+(7.3-13)²]
14 - 1

S= 1 [(28.09)+(44.89)+(0.49)+(18.49)+(39.69)+(2.89)+(13.69)+(75.69)+(0.09)+(2.89)+(10.89)+(5.29)+(32.49)
13

S= 1 [275.57] = 275.57 = 4.6


13 13

Ahora, con el ejercicio del álbum del mundial Rusia 2018, determine la desviación estándar.

4
DOCUMENTO ADAPTADO Y RECOPILADO POR: ING. CARLOS AUGUSTO RODAS CASTELLANOS

B. VARIANZA (S²) o (V)

Es una medida de dispersión definida


como la esperanza del
cuadrado de la desviación de dicha
variable respecto a su media. O en pocas
palabras, es la media de los residuos al
cuadrado.
Se representa como S² o V.

Su fórmula es:

Desarrollaremos un ejemplo:
6 niños desean saber el promedio de dinero que tienen en sus bolsas, pero le solicitan a
usted que realice el
análisis y que
determine la varianza
y la desviación
estándar. Ellos
seguramente no
comprenderán qué
significa cada dato de
dispersión, pero usted
se los podrá explicar después de sacar sus propias conclusiones.

En el recuadro de la izquierda se muestran los datos (en quetzales) que cada uno de los
niños posee. En el recuadro de la derecha, la fórmula de varianza.

Para principiar determinamos la media:

En la tabla a la izquierda se determinó la media y


puedes pensar en la media como el "punto
central" de los datos. Si los datos se agrupan
cerca de la media, entonces la varianza será baja.
Si se encuentran esparcidos lejos de la media, la
varianza será alta.
Posteriormente calculamos los valores de Xi
menos la media.

5
DOCUMENTO ADAPTADO Y RECOPILADO POR: ING. CARLOS AUGUSTO RODAS CASTELLANOS

Es fácil revisar tu trabajo, ya que la suma de las


respuestas debe ser igual a cero. Esto se debe
justamente a la definición de la media, ya que
las respuestas negativas (distancia de los
números pequeños respecto de la media)
cancelan exactamente las respuestas positivas
(distancia de los números más grandes
respecto de la media).
Luego, los resultados debes elevarlos al
cuadrado:

Ahora, suma los valores de la suma de los cuadrados:

Ahora, resta n – 1. Recuerda que n siempre será el total de datos, para nuestro ejemplo
son 6.

Y si de estos datos, queremos determinar la desviación estándar, su fórmula se simplifica a:


La desviación estándar es la raíz cuadrada de la varianza.

S= S²

6
DOCUMENTO ADAPTADO Y RECOPILADO POR: ING. CARLOS AUGUSTO RODAS CASTELLANOS

Aprende a distinguir varianza de


desviación estándar. Ten en cuenta
que, al haber un exponente en la
fórmula, la varianza se mide en
unidades al cuadrado de los datos
originales. Esto puede hacer que no sea
tan sencillo entenderlo en forma
intuitiva. En su lugar, a menudo se usa
la desviación estándar. De todas
formas, tu esfuerzo no fue en vano, ya
que la desviación estándar no es otra
cosa que la raíz cuadrada de la
varianza. Es por eso que la varianza de
una muestra se expresa como S² y la desviación estándar de una muestra con una S.

Ahora, intenta realizar la práctica del ejercicio del Panini del mundial 2018, determinando
su desviación estándar y su varianza.

D. COEFICIENTE DE VARIACIÓN (CV)


Cuando se desea hacer referencia a la relación entre el tamaño de la media y la variabilidad
de la variable, se utiliza el coeficiente de variación.
Su fórmula expresa la desviación estándar como porcentaje de la media aritmética,
mostrando una mejor interpretación porcentual del grado de variabilidad que la desviación
típica o estándar.
Su fórmula es:
Donde:
CV = Coeficiente de variación muestral.
S = Desviación estándar.

= Media aritmética muestral

Para el ejemplo anterior desarrollaremos el ejemplo:

CV = 5.76 * 100
14

CV = 41.14%

7
DOCUMENTO ADAPTADO Y RECOPILADO POR: ING. CARLOS AUGUSTO RODAS CASTELLANOS

E. ERROR ESTÁNDAR DE LA MEDIA


El error estándar de la media (llamado en inglés "standard error of the mean" (SEM))
cuantifica las oscilaciones de la media muestral (media obtenida en los datos) alrededor de
la media poblacional (verdadero valor de la media). El EEM o SEM se estima generalmente
dividiendo la desviación estándar de la población entre la raíz cuadrada del tamaño de la
muestra (asumiendo independencia estadística de los valores en la muestra):

Para el caso que estamos ejemplificando, se desarrollaría de la siguiente manera:


SEx = 5.76 = 1.53

14

F. CÁLCULO DEL NÚMERO DE MUESTRAS (n)


Antes de calcular el tamaño de la muestra necesitamos determinar varias cosas:

1. Tamaño de la población. Una población es una colección bien definida de objetos o


individuos que tienen características similares. Hablamos de dos tipos: población objetivo,
que suele tiene diversas características y también es conocida como la población teórica. La
población accesible es la población sobre la que los investigadores aplicaran sus
conclusiones.
2. Margen de error (intervalo de confianza). El margen de error es una estadística que
expresa la cantidad de error de muestreo aleatorio en los resultados de una encuesta, es
decir, es la medida estadística del número de veces de cada 100 que se espera que los
resultados se encuentren dentro de un rango específico.
3. Nivel de confianza. Son intervalos aleatorios que se usan para acotar un valor con
una determinada probabilidad alta. Por ejemplo, un intervalo de confianza de 95% significa
que los resultados de una acción probablemente cubrirán las expectativas el 95% de las
veces.
4. La desviación estándar. Es un índice numérico de la dispersión de un conjunto de
datos (o población). Mientras mayor es la desviación estándar, mayor es la dispersión de la
población.

Muy pocas veces la población objetivo se desconoce y para ello se utiliza la siguiente
fórmula:
Donde:
Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada
Q = probabilidad de fracaso
D = precisión (error máximo admisible en términos de
proporción)
8
DOCUMENTO ADAPTADO Y RECOPILADO POR: ING. CARLOS AUGUSTO RODAS CASTELLANOS

En la mayoría de oportunidades la población se conoce, y por lo tanto se utiliza la siguiente


fórmula:

Donde:
N = Tamaño de la población.
Z = Nivel de confianza.
p = Probabilidad de éxito o proporción esperada.
q = Probabilidad de fracaso.
d = Precisión (error máximo admisible en términos de proporción)

Para un caso hipotético, se desea determinar el número de muestras que se debe levantar,
respecto a la intención de voto para alcalde de Poptún, sabiendo que la población apta para
votar es de 35,000 votantes. El nivel de confianza lo deseamos al 95%. Se espera una
probabilidad de éxito del 95% y una probabilidad de fracaso del 5%. El error máximo
permisible estimado es del 20%

Calculamos el número de muestras utilizando la fórmula anterior:

n = 35000 * 95 * 95 * 5
(20)² (35000-1) + (95)² * 95 * 5

n = 1579375000 / 18286475 = 86.4 muestras ± 87 muestras.

3. TIPOS DE MUESTREO PROBABILÍSTICO

Los muestreos se aplican cuando la población (N) es demasiado extensa (grande) y se infiere
en esa población extrayendo muestras (n), dependiendo el tipo de población, la forma de
cómo se desea y el tipo de investigación, así se utiliza un tipo de muestreo.

La regla de cualquier muestreo es que todos los miembros de una población sean sujetos y
tengas las mismas probabilidades para ser electos dentro del muestreo.

A. Muestreo aleatorio simple


Este tipo de muestreo es el más simple que se puede utilizar.
El procedimiento para poder desarrollarlo es el siguiente:
1. Se asigna un número a cada miembro de la población
2. A través de algún método mecánico (calculadora, ordenador, papelitos, etc.), se
eligen tantos individuos como sea necesario, para completar el tamaño de la
muestra requerido.
9
DOCUMENTO ADAPTADO Y RECOPILADO POR: ING. CARLOS AUGUSTO RODAS CASTELLANOS

Este método tiene poca o nula utilidad cuando la población a la que deseamos inferir es
demasiado grande.

B. Muestreo aleatorio sistemático

En el muestreo aleatorio sistemático, el investigador primero escoge aleatoriamente la


primera pieza o sujeto de la población. A continuación, el investigador seleccionará a cada
enésimo sujeto de la lista.
El procedimiento del muestreo aleatorio sistemático es muy fácil y se puede hacer
manualmente. Los resultados son representativos de la población a menos que se repitan
ciertas características de la población por cada enésimo individuo, lo que es muy poco
probable.

El proceso de obtención de la muestra sistemática es muy similar a una progresión


aritmética.

Número de inicio:
El investigador selecciona un número entero que debe ser menor al número total de
individuos en la población. Este número entero corresponderá al primer sujeto.
Intervalo:
El investigador elige otro número entero que servirá como la diferencia constante entre dos
números consecutivos en la progresión.
El número entero se selecciona típicamente de modo que el investigador obtenga el tamaño
de la muestra correcto.

10
DOCUMENTO ADAPTADO Y RECOPILADO POR: ING. CARLOS AUGUSTO RODAS CASTELLANOS

Por ejemplo, el investigador tiene una población total de 100 individuos y necesita 12
sujetos. Primero elige su número de partida, 5.

Luego, el investigador elige su intervalo, 8. Los miembros de su muestra serán los individuos
5, 13, 21, 29, 37, 45, 53, 61, 69, 77, 85, 93.

Otros investigadores utilizan una técnica de muestreo aleatorio sistemático modificada en


donde primero identifican el tamaño de la muestra necesario. A continuación, dividen el
número total de la población por el tamaño de la muestra para obtener la fracción de
muestreo. La fracción de muestreo luego se utiliza como la diferencia constante entre los
sujetos.

C. Muestreo aleatorio estratificado


El muestreo estratificado es un procedimiento de muestreo en el que el objetivo de la
población se separa en segmentos exclusivos, homogéneos (estratos), y luego una muestra
aleatoria simple se selecciona de cada segmento (estrato). Las muestras seleccionadas de
los diversos estratos se combinan en una sola muestra. Este procedimiento de muestreo se
refiere a veces como “muestreo de cuota aleatorio”.

Hay ocho pasos principales en la selección de una muestra aleatoria estratificada:

1. Define la población objetivo.


2. Identifica la variable o variables de estratificación y determinar el número de
estratos a usarse. Las variables de estratificación deben estar relacionados con el
propósito de estudio. Si el propósito del estudio es hacer estimaciones de los
subgrupos, las variables de estratificación deben estar relacionados con esos
subgrupos. La disponibilidad de información auxiliar a menudo determina las
variables de estratificación que se utilizan. Puede ser utilizada más de una variable
de estratificación. Considera que a medida que el número de variables de

11
DOCUMENTO ADAPTADO Y RECOPILADO POR: ING. CARLOS AUGUSTO RODAS CASTELLANOS

estratificación aumenta, incrementa la probabilidad de que algunas de las variables


cancelen los efectos de otras variables, no más de cuatro a seis variables de
estratificación y no se deben utilizar más de seis estratos de una variable en
particular.
3. Identifica un marco de muestreo existente o desarrolla uno que incluya información
sobre la o las variables de estratificación para cada elemento de la población
objetivo. Si el marco de la muestra no incluye la información en las variables de
estratificación, la estratificación no sería posible.
4. Evalúa el marco de muestreo para la falta de cobertura, cobertura excesiva,
múltiple, y la agrupación, y haz los ajustes cuando sea necesario.
5. Divide el marco de muestreo en estratos, categorías de la estratificación de la o las
variables, creando un marco de muestreo para cada estrato. Dentro del estrato las
diferencias deben reducirse al mínimo, y las diferencias entre los estratos deben
maximizarse. Los estratos no deben estar superpuestos, en conjunto, debe
constituir toda la población. Los estratos deben ser independientes y mutuamente
exclusivos del subconjunto de la población. Cada elemento de la la población debe
estar en un sólo estrato.
6. Asigna un número único a cada elemento.
7. Determina el tamaño de la muestra para cada estrato. La distribución numérica de
los elementos incluidos en la muestra a través de los diversos estratos determina el
tipo de muestreo a implementar. Puede ser un muestreo proporcional estratificado
o uno de los diversos tipos de muestreo estratificado desproporcionado.
8. Selecciona al azar el número específico de elementos de cada estrato. Al menos un
elemento se debe seleccionar de cada estrato para la representación de la muestra;
y por lo menos dos elementos deben ser elegidos de cada estrato para el cálculo del
margen de error de las estimaciones calculadas a partir de los datos recogidos.

12
DOCUMENTO ADAPTADO Y RECOPILADO POR: ING. CARLOS AUGUSTO RODAS CASTELLANOS

D. Muestreo aleatorio por conglomerados

Es una técnica utilizada cuando hay agrupamientos "naturales" relativamente homogéneos


en una población estadística. A menudo se utiliza en la investigación de mercados.
En esta técnica, la población total se divide en estos grupos (o clusters) y una muestra
aleatoria simple se selecciona de los grupos.
A continuación, la información requerida se obtiene de una muestra aleatoria simple de los
elementos dentro de cada grupo seleccionado.
La submuestra de elementos se puede seleccionar dentro de cada uno de estos grupos. Una
motivación común para el muestreo por conglomerados es reducir el número total de
entrevistas, y sus costes, dada la precisión deseada.
Suponiendo un tamaño de muestra fijo, la técnica ofrece resultados más precisos cuando la
mayoría de la variación en la población es dentro de los grupos, no entre ellas.

13

También podría gustarte