Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La palabra Estadística procede del vocablo “Estado”, pues era función principal de los
Gobiernos de los Estados establecer registros de población, nacimientos, defunciones,
impuestos, cosechas... La necesidad de poseer datos cifrados sobre la población y sus
condiciones materiales de existencia han debido hacerse sentir desde que se
establecieron sociedades humanas organizadas.
La estadística comienza en 1801, cuando un astrólogo reporta a principios del año que
vio un planeta nuevo, (para ese entonces ya se conocían los planetas mercurio, venus,
marte, Júpiter, Saturno y Urano éste último descubierto en el año de 1783 por Sir
William Herschel); pero nadie logro ver el nuevo planeta y así se ofreció un premio para
encontrar el planeta, personajes como Napoleón ofrecían recompensa, y se ofreció un
premio especial a los matemáticos para encontrarlo.
Johann Carl Friedrich Gauss hizo un análisis de datos ya que Zach, un astrónomo que
Gauss había conocido dos años antes, publicaba las posiciones orbitales del cuerpo
celeste Ceres, un nuevo “pequeño planeta” descubierto por
el astrónomo italiano G. Piazzi en ese mismo año.
Desafortunadamente, Piazzi sólo había podido observar 9
grados de su órbita antes de que este cuerpo desapareciese
tras del sol. Zach publicó varias predicciones de su posición
incluyendo una de Gauss que difería notablemente de las
demás. Cuando Ceres fue redescubierto por Zach en
diciembre de 1801 estaba casi exactamente en donde Gauss
había predicho.
Aunque todavía no había revelado su método, Gauss había descubierto el método de
mínimos cuadrados. En un trabajo brillante logró calcular la órbita de Ceres (asteroide)
a partir de un número reducido de observaciones, de hecho, el método de Gauss
requiere sólo un mínimo de 3 observaciones y todavía es, en esencia, el utilizado en la
actualidad para calcular las órbitas.
Pasaron otros 90 años para que un cuñado de Charles Darwin inventara la media
aritmética y la desviación estándar, la descubrió un día que estaba esperando en una
estación a sus familiares que llegaban de Irlanda y se percató de que todos los papás de
pequeña estatura tenían hijos altos y los papás altos tenían hijos bajos, recopiló datos y
comenzó a hacer cálculos y descubrió que todos teníamos una media.
A mediados del siglo XIX se dio el brote más bestial de cólera en el centro de Londres.
John Snow médico inglés vivía muy cerca de este brote tuvo
una intuición. Él sospechaba que el cólera se transmitía por el
agua y quería corroborar esa hipótesis.
cerrasen el agua de la fuente de la calle Broad. Erradicando el brote tan severo del
cólera. Salvando miles de personas. Poco más tarde se averiguó que las aguas de un
pozo negro muy cercano a se filtraba en el agua potable de la calle Broad.
Contaminando el pozo. Cerca de esas aguas fecales se depositó un cuerpo de un
infectado del cólera. Eso fue el origen de ese brote.
DIVISIÓN:
Cuando primero se nos presenta un conjunto de datos, ya sea una muestra o una
población, necesita encontrar una forma de organizarlo y resumirlo. La rama de la
estadística que presenta técnicas para describir conjuntos de mediciones se denomina
estadística descriptiva.
Censo Para sacar datos de la población.
N: tamaño de la población (Símbolos griegos)
Los datos son inasibles (no garantizados)
Lo que se hará en esta clase es trabajar con la muestra y usar la muestra como estimador
(valor real) para sacar el valor “verdadero”, éste valor es hipotético.
EJERCICIO:
1.58
MEDIANA: 1.63
1.53 M EDIDAS DE
MODA: Amodal TENDENCIA
1.65
CENTRAL:
1.64
MEDIA ARTMÉTICA O PROMEDIO ( x ):
1.77
De un conjunto de n mediciones es igual a la
1.59 suma de las mediciones dividida entre n.
(suma de todos los datos entre el total de
1.63
datos). Cuando se habla de población se usa
la letra griega μ.
MEDIANA (m): Es un valor que divide a las observaciones en dos grupos con el
mismo número de individuos.
(∏ )
n 1
n
x G= x1
i=1
(17 )
¿ producto
La raíz enésima siempre es menor a la media aritmética
la función directa en Excel se llama
¿ MEDIA . GEOM (celdas de datos)
Se usa para sacar medias o promedios de datos que no son directas o lineales.
Tiene 2 limitaciones:
1.- No se puede usar media aritmética cuando se tienen datos que valen 0.
2.- No se puede calcular si se tienen datos negativos y si a su vez se tiene numero
par de datos.
3.- Limitación de flujo de calculadora, cuando se tienen datos muy grandes.
Medida de tendencia No. 4
Ajuste de datos: Consiste en una redefinición de variables y transformación de
escalas, para facilitar el tratamiento de datos. Para esta transformación se escoge
un dato arbitrario realizando cálculos para transformar los datos, estos cálculos
se deben seguir exactamente de manera inversa para volver a ajustar los datos.
Ejemplo:
Estaturas
mujeres
Datos
ajustados
-7
1.53 -2
1.58
-1
1.59
3
1.63
4
1.64
1.65 5
1.77 17
Cálculos realizados para ajustar los datos:
1.53−1.60=−0.07∗100=−7
Cálculos realizados para transformar los datos:
−7 /100=−0.07+1.60=1.53
Viernes 25 de setiembre de 2020
DIAGRAMA DE BURBUJAS: Es un gráfico que te permite organizar y visibilizar
mejor tus datos, en este caso poder encontrar de manera rápida y visual la moda de los
datos.
Debe contener:
Base, una “m” minúscula para representar la mediana, la “M” mayúscula para
indicar la moda, la media aritmétimetica, y la media geométrica.
Algoritmo para realizar un gráfico de burbujas: (TAREA)
1. Abrir una hoja de cálculo.
2. Insertar y ordenar tu lista de datos.
3. Para darle estructura al diagrama de burbujas se selecciona el número de celdas
igual a n (número de datos). Para reducir el tamaño de las celdas para simular
una cuadricula se selecciona la función formato y ancho de columna. Colocar
3.00
4. Se coloca la escala de datos y en la parte de arriba de las columnas
horizontalmente, se pone una línea que fungirá como base del diagrama de
burbujas.
5. Se hace un conteo de los datos y cada que aparezca en la lista un dato de la escala
se le coloca una “o” en forma vertical.
6. Una vez ubicados todos los datos en formas de “o” se ubica rápidamente la
moda (M), pues será la que tenga una mayor cantidad de burbujas.
7. Se colocan en la línea numérica a escala, las demás medidas de tendencia central
con la simbología antes descrita.
Ajuste de datos:
Ajuste de -22 -16
datos -22 -16
-21 -16
-26 -21 -15
-21 -15
-25 -20 -14
-25 -19 -14
-24 -19 -14
-19 -13
-24
-19 -12
-19 -12
-23
-19 -11
-19 -11
-18 -11
-23
-17 -11
-22
-17 -2
-22
-17 -1
-22
-16
-22
Tipos de datos:
Tipos de muestreo:
Para n=80
-El muestreo aleatorio simple se llevó a cabo al azar en la página random.org. con los
números del conteo de datos (1-80). Dentro de ese intervalo se escogieron los datos.
1. 51.3
2. 51.6
3. 51.9
4. 51.2
5. 49.1
6. 51.5
7. 49.6
8. 49.7
La muestra n=8 del muestreo aleatorio sistematizado: Este se llevó a cabo tomando el
primer dato de la muestra aleatoriamente en la página random.org y luego se tomó
como intervalo de 8 datos para elegir el siguiente dato hasta concluir el tamaño de la
muestra.
1. 49.4
2. 50.1
3. 50.3
4. 50.8
5. 51
6. 51.2
7. 51.3
8. 51.6
9.
La muestra n=8 del muestreo por conglomerados: Este se llevó a cabo dividiendo los datos
en 10 conglomerados, primero se dividieron de 10 en 10 los datos ordenados; tomando
así todos los numero 1 para el primer conglomerado, todos los 2 para el segundo y así
sucesivamente. Hasta lograr los conglomerados que igualen el límite de datos de la
muestra y posteriormente eligiendo un conglomerado al azar para que el conglomerado
elegido sea la muestra.
Para facilitar, el manejo de datos se dividieron los datos como se describió arriba, pero
en colores y cada color es un conglomerado. El número escogido aleatoriamente para
ser el conglomerado=muestra es el 4, que corresponde al color gris.
1. 49.6
2. 50.3
3. 50.7
4. 51
5. 51.2
6. 51.5
7. 51.7
8. 52
La muestra n=8 del muestreo estratificado: Este se llevó a cabo dividiendo los datos
guiándonos por su número decimal, los datos que estén por debajo de 0.5 estarán en un
estrato y los datos que estén por arriba de 0.5 estarán en el segundo estrato. Y se
tomaron 4 datos aleatoriamente de cada estrato para formar la muestra.
1. 49.4
2. 50.1
3. 51.2
4. 53.1
5. 52.8
6. 51.9
7. 50.9
8. 49.9
MEDIA ARMONICA( x H ) : Se usa cuando se tienen medidas inversas, o datos que están
relacionados de manera inversa (velocidad y tiempo con la distancia constante son
inversas). Para la media armónica poblacional se usa el símbolo con el subíndice μ H .
n
xH =
1
∑x
1
Función en excel:
¿ MEDIA . ARMONICA ( datos celdas )
Para hacerlo sin función:
Se hace una columna con los inversos, luego se suman y se aplica la formula, en
el numerador el número de datos y en el denominador la sumatoria de los
inversos realizada.
Limitación: No se puede realizar teniendo datos que valen 0. Ya que llevan
a una indeterminación.
Medida de tendencia central No. 5
Es la más chica de las 3 medias.
Se tiene que eliminar un dato de hasta arriba (más pequeño) y un dato de hasta
abajo (más grande)
Limitaciones de la media acotada, los datos son dinero, para poder eliminar
datos se deben tener muy buenos argumentos para no utilizarlos.
Medida de tendencia central No. 6
Q1 Q3
CUARTIL 1 (Q1)
Datos MEDIANA DE DATOS CHICOS 1.585 llevó el 25%
chicos
CUARTIL 2 (m)
MEDIANA
1.63 llevó el 50%
Datos
grandes
MEDIANA DE DATOS GRANDES CUARTIL 3 (Q3)
Rango intercuartílico:
RIQ=Q 3−Q1
LBI =Q1−1.5(RIQ )
LBS=Q3+1.5 (RIQ)
1.52
___
1.54
1.56
1.58
Q1
1.6
1.62
m
1.64
Q3
1.66
1.68
1.7
1.72
1.74 -----
1.76
Los outliers son los datos que tengo reportados y no entran en los datos, 1.77 no entro
en el límite del brazo de los datos grandes, por lo tanto, es outlier y como los datos se
eliminan en pares, el dato 1.53 también se elimina.
Miércoles 30 de septiembre del 2020
CUANTILES: Son una familia de divisiones de los datos, persiguen dividir los datos
en grupos más “trabajables”. Sabemos que la mediana divide a los datos en dos partes
iguales, también tiene interés estudiar otros parámetros, llamados cuantiles, que
dividen los datos de la distribución en función de otras cantidades.
8.33%-8.33%-8.33%-8.33%-8.33%-8.33%-8.33%-8.33%-8.33%-8.33%-8.33%-8.33%
C j= ( n+1d ) ( j )
DONDE:
Ejercicio con n= 42
No. Datos
1 15
2 16
3 23
4 25
5 27
6 30
7 32
8 36
9 36
10 49
11 50
12 57
13 58
14 59
15 59
16 60
17 63
18 66
19 68
20 72
21 80
22 85
23 86 33 119
24 87 34 12
25 87 35 123
26 96 36 129
27 101 37 130
28 103 38 131
29 103 39 134
30 112 40 136
31 118 41 141
32 118 42 148
Posición H1 = ( 42+1
7 )
( 1 ) = 6.14. La posición del H1 se encuentra entre los datos 6 y 7.
En este caso, se convierten los decimales a fracción mixta = 6 1/7, una vez hecho esto, se
ve de que dato se está más cerca según los decimales, en este caso se está más cerca del
dato 6. Se sustituye en la fórmula de la regla de la palanca [ H 1=¿ ¿ Donde, X G es el dato
más lejano y X C es el dato más cercano ; El número entero nos va a decir el número que
voy a agarrar; la fracción del número fraccionario mixto nos va a dar la información que
va entre paréntesis, el numerador dice entre cuanto se va a dividir, el numerador (1) se
va a restar al denominador (1-7=6) el número más grande de estos ira en el primer
paréntesis que es el del dato que está más cercano y el número más pequeño ira en el
segundo paréntesis.
H 3= ( 42+1
7 ) 3
( 3 )=18.4286=18 =¿ ¿ 66.8571
7
H 4= ( 42+1
7 )
( 4 )=24.5714=87
H 5= ( 42+1
7 ) 5
( 5 )=30.7143=30 =¿ [ [118 ( 5 ) ) + ( 112 ( 2 ) ) ¿¿¿ 7 ] =116.2857
7
H 6= ( 42+1
7 )
6
( 6 ) =36.8571=36 =¿ [ [ 130 ( 6 ) ) + ( 127 ( 1 ) ) ¿¿¿ 7 ]=¿ 129.8571
7
Q 1= ( 7+4 1 )( 1) =2=1.58
Q 2= ( 7+4 1 )( 2) =4=1.63
Q 3= ( 7 +14 ) ( 3)=6=¿ 1.65
MEDIDAS DE DISPERSIÓN
r i=x i− x
Todos los residuales que son menores que la media aritmética son negativos
Todos los residuales que son mayores a la media aritmética son positivos
Son ponderaciones, es la distancia que hay de x dato hasta la media aritmética.
La suma de todos los residuales debe ser igual a 0.
Los residuales cuadrados sirven para la segunda medida de dispersión porque
son positivos
Medida de dispersión No.1
∑ r 2i
σ 2= i=1
N
n
∑ r 2i
s2= i=1 INSESGADA
n−1
n
∑ r 2i
m= i=1 SESGADA
n
Se va a entender como el promedio de los residuales al cuadrado, que a su
vez son las distancias que se tienen con respecto a la media.
Medida de dispersión No.2
2 0.0341 −3
s= =5.683 x 10
6
s= √ s
2
√
n
s= ∑ ¿¿ ¿ ¿
i=1
σ =√ σ
2
GRÁFICAS: El propósito de las gráficas es vender los datos. Tienen que tener
estética= impactante.
Regla del 7: (Psicológica) Tiene que haber máximo 7 elementos en las gráficas.
(No abigarrada)
Rango de clase = Rango total/no# clases
Tipos de gráficas:
Una vez que un dato se mete al histograma, ese dato pasa a formar parte de una
columna o grupo, y este dato como tal pierde su individualidad.
Histograma n=80 (TAREA)
OJIVA: Gráfico que muestra la curva de una función de frecuencia acumulada. Los
puntos trazados son el límite de la clase superior y la frecuencia acumulada
correspondiente.
La curva comienza desde 0, por lo que se debe tener una marca de clase -1.
Se grafica en el eje vertical (Y) la fac y en el eje horizontal (X) la marca de clase.
Una vez trazados todos los puntos, se traza la curva a mano alzada.
La curva termina en el último punto de f ac vs marca de clase, no necesita bajar a
0.g
El valor de la mediana (m) grafico se calcula =n (80) + 1 / 2 =40.5, este valor no
siempre coincide con la mediana obtenida de los datos
Se puede también obtener graficando el %ac, en lugar de la frecuencia acumulada
También en esta grafica se calcular gráficamente los cuartiles (Q)
Gráfica No. 6
Ojiva=80 (TAREA)
Como se comentó anteriormente, los datos pierden su individualidad; por lo que como
consecuencia se pueden hacer cálculos de datos agrupados.
=Marca de clase(Frecuencia) => =PRODUCTO (∑marca de clase( Frecuencia ) ¿ => =(producto)( 1 / 80)
MEDIA ARMONICA AGRUPADA ( x Hg ¿: Se calcula dividiendo la frecuencia entre la
marca de clase, una vez hecho esto para todas las clases, se suman todos estos datos
resultantes y finalmente para calcular la media armónica se divide el número total de
datos (n) entre la suma de los datos que se obtuvo.
MEDIA ACOTADA AGRUPADA: Se calcula quitando datos pares del inicio y el final.
Se vuelve a calcular la tabla de frecuencia, pero ahora con n=datos acotados.
Una vez hecho esto, para cada clase, se multiplica la frecuencia por la marca de clase, se
suman todos estos datos obtenidos, y finalmente se dividen entre el total de datos
acotados (n acotada). Prácticamente es sacar la media aritmética, pero con los datos
acotados agrupados.
∑ fi∗rik K =1,2,3,4
i=1
∑ f i∗r 2i
2 i =1
Varianza grupal=s g = INSESGADA
n−1
s g=√ s 2g
MEDIDAS DE FORMA:
m2, varianza muestral sesgada: ∑ r2i m2, varianza muestral sesgada: ∑ fi∗r2i
n n
m3 ,=
∑ r 3i
m3 ,=
∑ fi∗r 3i
n n
m =
∑ 4
ri
m =
∑ 4
fi∗r i
4 4
n n
m3 m3
Sesgo poblacional: g1= 3 Sesgo poblacional: g1= 3
( m2 ) 2
( m2 ) 2
CURTOSIS (a2): Es una medida de forma que mide cuán escarpada o achatada está
una curva o distribución. Miden la mayor o menor concentración de datos alrededor de
la media.
m4
a 2= 2
POBLACIONAL
m2
Máximo -3
PLATICURTOSIS: Muy poca concentración de datos en la media, presentando
una forma muy achatada.
n−1
G 2= ( n+ 1 ) g2 +6 MUESTRAL(fisher)
( n−2 )( n−3 )