Está en la página 1de 11

Apunte 4 (28-09-2020)

Tipos de
muestreo
Muestreo aleatorio simple: Cierta muestra resultado será cada cuantos satos tendrás
dada de un tamaño muestral (número de que escoger uno ; ejemplo: si quieres sacar
elementos en la muestra) específico tiene la 20 tarimas de 10 000 que tienes, entonces
misma probabilidad de ser seleccionado divides 10 000 entre 20 = 500, lo que
que cualquier otra muestra del mismo significa que de cada 500 tarimas vas a
tamaño. Se sortea x número de datos y se sacar una.
seleccionan solo algunos, dichos datos Muestreo aleatorio estratificado: Es una
serian nuestra muestra; la ventaja del selección al azar de una muestra dentro de
muestreo aleatorio simple radica en que cada estrato, el propósito es asegurarse de
ayuda a eliminar el problema de tener una que ninguno de los estratos este
muestra que refleje una población diferente sobrerrepresentando ni subrepresentando.
de aquella sobre la cual se necesitan realizar Es una técnica utilizada cuando hay
inferencias. agrupamientos “naturales” relativamente
Muestreo aleatorio sistemático: Es un homogéneos en una población estadística,
tipo de muestreo probabilístico donde se se emplea principalmente en la
hace una selección aleatoria del primer investigación de mercados; ejemplo: las
elemento para la muestra, y luego se colonias de la CDMX contarían como los
seleccionan los elementos posteriores estratos, de cada estrato se escogería una
utilizando intervalos fijos o sistemáticos muestra con cierto tamaño muestral, los
hasta alcanzar el tamaño de la muestra estratos no necesariamente tienen el mismo
deseado. Consiste en dividir el total de tus número de datos pero la muestra de cada
datos en el número de datos aleatorios que estrato si debe tener el mismo número de
quieres obtener y el número que te dé de datos (tamaño muestral).
Muestreo aleatorio por conglomerados: sorteo y escojo un solo conglomerado pero
participan todos los individuos del conglomerado; ejemplo: Cada colonia de la CDMX
es un conglomerado, sorteo los conglomerados y si sale la colonia portales entonces
todos los habitantes de esa colonia participan en la encuesta. También se pueden hacer
muestreos híbridos, es decir. Que se emplee otro tipo de muestreo dentro del muestreo
por conglomerados.
“La aleatoriedad es lo más importante en la estadística”

Media armónica (poblacional): Medida de tendencia central #5; se usa cuando tengo
medidas que son inversas, es decir, cuando tengo datos que fueron obtenidos mediante
la división de otros datos; ejemplo: la velocidad y el tiempo.

n
X¯H =
∑ 1 x1
i

Ejemplo:
1.53 0.6536 media armónica
1.58 0.6329 1.6242 con func.
1.59 0.6289
1.63 0.6135 1.6242 con ec.
1.64 0.6098
1.65 0.6061
1.77 0.5650
7

Esta media tiene sus limitaciones, no puedes tener un dato con valor cero porque se
tiene una indefinición. Su valor siempre es menor que el de la media aritmética y el de la
media geométrica.
Cuando se quiere ajustar los datos se quita el dato diferente y también se quita otro
dato ya sea arriba o abajo de la media, esto depende del lugar del primer dato que se
quitó, hacer esto implica que se deberá calcular la media acotada.
Media acotada (muestral): Es la suma de los datos dividido entre el número de datos
que sobraron después de los excluidos; el subíndice de la x̄ indica el porcentaje de
datos que se están utilizando del total.
x¯71 =1.618
1.53 0.6536 media armónica media acotada
1.58 0.6329 1.6242 con func. 1.6180
1.59 0.6289
1.63 0.6135 1.6242 con ec.
1.64 0.6098
1.65 0.6061
1.77 0.5650 se elimina el dato anaranjado porque es muy diferente, asi que tambien se debe eñlim
7 Asi que tambien se elimina el ddato azul

Estos datos son conocidos como outliers o datos aberrantes, se consideran datos que
no pertenecen en realidad a la población en la que se encuentra. En la vida real los datos
cuestan, por lo cual, es raro que se eliminen datos para el análisis.

Gráfica de caja y
bigote (Boxplot)

Fue desarrollada en el año de 1976 por Tukey, su función es detectar datos aberrantes;
encierra el 50% central de los datos. Esta gráfica encierra el rango intercuartil de los
datos en una caja que contiene la mediana representada, los bigotes representan las
observaciones alejadas de la muestra. Este diagrama se divide en cuartiles.
Los datos se dividen en 4: 25%-25%-25%-25%
La linea naranja (cuartil 1) es la mediana de los datos, el verde (cuartil 2) es la mediana
de los datos chicos y la azul (cuartil 3) es la mediana de los datos grandes.
Limite del brazo inferior (LBI):
LBI =Q 1−(1.5∗RIQ)
Limite del brazo superior (LBS):
LBS=Q 3+(1.5∗RIQ)
Rango Intercuartílico (RIQ): Los boxplot requieres entre 5 y 6 rangos intercuartílicos.
RIQ=Q 3−Q 1
1.53 mediana
1.58 datos chicos 1.5850
1.59
1.63 mediana orig.
1.64 mediana
1.65 datos grandes 1.645
1.77

1.5850 Cuartil 1 25% de los datos

1.63 mediana. 50% de los datos es los mismo


que el cuartil 2
1.645 Cuartil 3 75% de los datos

1.5

1.52
limite de brazo inferior LBI)
1.54
LBI =Q1 – 1.5* RIQ
1.56 RIQ=Q3-Q1

1.5850 Q1 RIQ – Rango intercuartílico


1.645 – 1.585
1.60 0.06
LBI
1.620 1.585 – 1.5 * 0.06
------------------- m 1.495
1.645
Q3 LBS = Q3 + 1.5*RIQ
1.66 1.645 + 1.5* 0.06
1.735
1.68

1.7

1.72

1.74

1.76
DATO OUTLIER

Cuantiles ( C ) : Familias de divisiones de los datos, su función es dividir los datos en


grupos mas fáciles de utilizar, el numero de grupos es igual n – 1 ( n= numero de
divisiones), es decir hay una mediana, dos terciles, tres cuartiles, etc.
➔ Mediana (M) : Divide los datos en 2; 50% / 50%
➔ Terciles (T): Divide los datos en 3; 33.3%(T1) / 33.3%(T2) / 33.3%(es el máximo,
por eso no es relevante).
➔ Cuartiles (Q): Divide los datos en 4; 25%(Q1) / 25%(Q2) / 25%(Q3) / 25%.
➔ Quintiles o Pentiles ( P ): Divide los datos en 5; 20% / 20% / 20% / 20% / 20%
➔ Sextiles o Hexiles (S) : Divide los datos en 6.

Tarea 1. Tipos de muestreo de datos


El sorteo de los datos se realizó con random.org
datos
49.1 1 51.1 41 Muestreo aleatorio simple
49.4 2 51.2 42
49.5 3 51.2 43 Tamaño de la Muestra: 8
49.6 4 51.2 44 Muestra
49.6 5 51.2 45 Dato 33 51.0
49.7 6 51.2 46 Dato 76 52.0
49.7 7 51.3 47 Dato 72 51.9
49.9 8 51.3 48 Dato 27 50.8
49.9 9 51.3 49 Dato 74 52.0
50.1 10 51.3 50 Dato 62 51.7
50.1 11 51.4 51 Dato 65 51.8
50.2 12 51.4 52 Dato 38 51.1
50.2 13 51.5 53
50.3 14 51.5 54
50.3 15 51.5 55 Muestreo aleatorio estratificado
50.3 16 51.5 56 Estratos datos aleatorios
50.3 17 51.6 57 datos del 1 al 20 10 5
50.3 18 51.6 58 datos del 21 al 41 29 27
50.4 19 51.7 59 datos del 42 al 62 50 45
50.4 20 51.7 60 datos del 63 al 80 69 64
50.5 21 51.7 61 Muestra
50.6 22 51.7 62 50.1
50.6 23 51.7 63 49.6
50.7 24 51.7 64 50.9
50.8 25 51.8 65 50.8
50.8 26 51.8 66 51.3
50.8 27 51.8 67 51.2
50.8 28 51.8 68 51.8
50.9 29 51.8 69 51.7
51.0 30 51.8 70
51.0 31 51.9 71 Muestreo aleatorio por conglomerados
51.0 32 51.9 72 conglomerados conglomerado aleatorio
51.0 33 51.9 73 Cong 1 datos del 1 al 8 Cong 7 datos del 49 al 56
51.0 34 52.0 74 Cong 2 datos del 9 al 16 muestra
51.1 35 52.0 75 Cong 3 datos del 17 al 24 51.3
51.1 36 52.0 76 Cong 4 datos del 25 al 32 51.3
51.1 37 52.1 77 Cong 5 datos del 33 al 40 51.4
51.1 38 52.2 78 Cong 6 datos del 41 al 48 51.4
51.1 39 52.8 79 Cong 7 datos del 49 al 56 51.5
51.1 40 53.1 80 Cong 8 datos del 57 al 64 51.5
Cong 9 datos del 65 al 72 51.5
Cong 10 datos del 73 al 80 51.5

Muestreo aleatorio sistemático


tamaño de muestra: 8
80/8= 10
dato aleatorio entre el dato 1 y el dato 10
Dato 5 49.6 se le suma K para escoger la siguiente
Muestra unidad y asi sucesivamente hasta
Dato 5 49.6 completar n
Dato 15 50.3
Dato 25 50.8
Dato 35 51.1

➔ Heptiles (H) : Los datos se dividen en 7; son muy famosos porque es la forma en
que se divide la sociedad ( clase A- G ).
➔ Octiles (O) : Los datos se dividen en 8.
➔ Noniles (N) : Los datos se dividen en 9.
➔ Deciles (D) : los datos se dividen en 10.
➔ Undeciles (U) : Los datos se dividen en 11.
➔ Dodeciles (D) : Los datos se dividen en 12.
➔ Percentiles ( P ) : Los datos se dividen en 100.

Fórmula General
n = Número de datos
n+1 d = Número de divisiones
C j =( )j
d
Esta fórmula indica la posición del cuantil en mis datos.

15 1 96 26 Terciles pentiles
16 2 101 27 posición tercil 1 posición pentil 1
23 3 103 28 (42 + 1 / 3) 1 (42 + 1 / 5) 1
26 4 103 29 14.333 8.6
27 5 112 30 T1 = 59 P1= 36
30 6 118 31
32 7 118 32 posición tercil 2 posición pentil 2
36 8 119 33 (42 + 1 / 3) 2 (42 + 1 / 5) 2
36 9 123 34 28.6667 17.2 17 1/5
49 10 123 35 T2 = 103 regla de la palanca
50 11 129 36 P2= ((dato17(x) + dato18(y))/5
57 12 130 37 63.6
58 13 131 38
59 14 134 39 posición pentil 3
59 15 136 40 (42 + 1 /5 )3
60 16 141 41 25.8 25 4/5
63 17 148 42 regla de la palanca
66 18 P3=((dato25(1)+dato26(4))/5
68 19 94.2
72 20
80 21 posición pentil 4
86 22 (42 + 1 / 5) 4
86 23 34.4
87 24 P3=123
87 25
posición heptil 1 posición heptil 2 posición heptil 3 posición heptil 4
((42 + 1)/7)1 ((42 + 1)/7)2 ((42 + 1)/7)3 ((42 + 1)/7)4
6.1429 12.2857 18.4286 24.5714
regla de la palanca regla de la palanca regla de la palanca H4
30.2857 57.2857 66.8571 87

posición heptil 5 posición heptil 6


((42 + 1)/7)5 ((42 + 1)/7)6
30.7143 36.8571
regla de la palanca regla de la palanca
116.2857 129.8571

Regla de la palanca: Es el método que utilizamos para conocer el valor de los cuantiles
cuando se tienen dos valores diferentes, ejemplo: la posición del heptil 1 es 6.1429, es
decir, que le valor del heptil 1 se encuentra entre el dato 6 y el dato 7 pero el valor se
encuentra más cerca del dato 6 porque el valor es 6.1429, el cual, en fracción mixta es 6
1/7, así que para calcular el valor del heptil 1 se utiliza la siguiente expresión.
H1= ((dato 6 (6)) + (dato 7 (1)))/7

Medidas de dispersión
Son parámetros estadísticos que indican como se alejan los datos respecto a la media
aritmética, sirven como indicadores de la variabilidad de los datos.

➢ Residuales: Se puede considerar como el error aleatorio observado, hay tantos


residuales como datos. Nosotros ocuparemos el residual especial de la media
aritmética pero hay más tipos de residuales.
ri =x i − x̄

contador dato residual Residual ² Residual ³ Residual ⁴


X1 1.53 -0.0971 0.0094 -9.1671E-04 8.9052E-05
X2 1.58 -0.0471 0.0022 -1.0477E-04 4.9393E-06
X3 1.59 -0.0371 0.0014 -5.1065E-05 1.8945E-06
X4 1.63 0.0029 0.0000 2.3324E-08 6.6639E-11
X5 1.64 0.0129 0.0002 2.1254E-06 2.7326E-08
X7 1.65 0.0229 0.0005 1.1942E-05 2.7295E-07
X7 1.77 0.1429 0.0204 2.9155E-03 4.1649E-04
SUMA 8.8818E-16 0.0341 0.0019 5.1268E-04

media aritmética 1.6271


las líneas azules representarían los residuales, las distancias positivas y negativas de los
residuales al sumarse dan cero.
➢ Varianza poblacional ( σ 2 ): Es el promedio de los residuales cuadrados. Esta
casi nunca se utiliza porque nunca se tiene el total de la población.
N

∑ r2i
σ 2 = i=1
N

➢ Varianza muestral ( S2 ): También es el promedio de los residuales cuadrados


(distancias que tengo con respecto a la media) y es la que siempre ocupamos.
Cuando tiene n-1 en el denominador se considera varianza muestral insesgada,
cuando solo tiene n se conoce como varianza muestral sesgada y regularmente se
2
cambia la S por una m.
n

∑ ri2
2
S = i=1
n−1

dato residual cuadrada


1.53 0.0094 suma de las residuales cuadradas
1.58 0.0022 0.0341
1.59 0.0014 Suma/6
1.63 0.0000 0.0057
1.64 0.0002 función varianza
1.65 0.0005 0.0057
1.77 0.0204
➢ Desviación estándar: Es la raíz cuadrada de la varianza.

muestral : s= √ s poblacional : σ = √ σ
2 2


n

∑ ( X i− x̄)2
i=1
S=
n−1
➢ Rango: Es el máximo menos el mínimo.
Rango= X n− X 1
El propósito de las gráficas es vender los datos, por lo cual, deben tener estética.
REGLA BÁSICA PARA HACER GRÁFICAS
Regla del 7 (1954): Tu gráfica debe tener máximo 7 elementos (no esta
abigarrada) .

Histograma
Presentación gráfica en grupos, en el caso del histograma los grupos son llamados
clases, si aplicamos la regla del 7 máximo podríamos tener 7 clases, sin embargo, las
clases se calculan de la siguiente forma (máximo para 50-60 datos, si son más se
consideran 7 clases): clases definidas∗√ n

rango
Rango de clase:
número de clases
Marca de clase: Es básicamente el punto central de la clase
(LIC + LSC)
Marca de clase=
2
Se tienen dos opciones; que la marca de clase sea un intervalo ( y ] o que sea [ y ), la
diferencia radica en que dato no se va a considerar en los intervalos para poder
determinar f.
CLASE (] LIC LSC marca de clase f
A 49.1 49.7 49.4 7
B 49.7 50.3 50 11
C 50.3 50.9 50.6 11
D 50.9 51.5 51.2 27
E 51.5 52.1 51.8 21
F 52.1 52.7 52.4 1
G 52.7 53.3 53.0 2

DIAGRAMA DE BURBUJAS (80 DATOS)

mediana
O
O O O
O O O O O O
O O O O O O O O O
O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
49.1

49.3

49.5

49.7
49.8

50.0

50.2

50.4
50.5

50.7

50.9

moda 51.1
51.2

51.4

51.6

51.9

52.1

52.3
52.4

52.6

52.8

53.0
53.1
49.2

49.4

49.6

49.9

50.1

50.3

50.6

50.8

51.0

51.3

51.5

51.7
51.8

52.2

52.5

52.7

52.9
52 media

datos
49.1 50.1 50.5 51.0 51.1 51.4 51.7 51.9
49.4 50.2 50.6 51.0 51.2 51.4 51.7 51.9
49.5 50.2 50.6 51.0 51.2 51.5 51.7 51.9
49.6 50.3 50.7 51.0 51.2 51.5 51.7 52.0
49.6 50.3 50.8 51.1 51.2 51.5 51.8 52.0
49.7 50.3 50.8 51.1 51.2 51.5 51.8 52.0
49.7 50.3 50.8 51.1 51.3 51.6 51.8 52.1
49.9 50.3 50.8 51.1 51.3 51.6 51.8 52.2
49.9 50.4 50.9 51.1 51.3 51.7 51.8 52.8
50.1 50.4 51.0 51.1 51.3 51.7 51.8 53.1

También podría gustarte