Estadistica Descriptiva Puntes Completos

Lunes 21 septiembre de 2020.
Introducción: HISTORIA DE LA ESTADÍSTICA.
La palabra Estadística procede del vocablo “Estado”, pues era función principal de los
Gobiernos de los Estados establecer registros de población, nacimientos, defunciones,
impuestos, cosechas... La necesidad de poseer datos cifrados sobre la población y sus
condiciones materiales de existencia han debido hacerse sentir desde que se
establecieron sociedades humanas organizadas.
Es difícil conocer los orígenes de la Estadística. Desde los comienzos de la civilización

han existido formas sencillas de estadística, si hablamos de las grandes listas de datos
recopilados, entonces la estadística nació en el siglo 35 a. C con los sumerios que
reportaban en tabletas sus datos.
La estadística comienza en 1801, cuando un astrólogo reporta a principios del año que
vio un planeta nuevo, (para ese entonces ya se conocían los planetas mercurio, venus,
marte, Júpiter, Saturno y Urano éste último descubierto en el año de 1783 por Sir
William Herschel); pero nadie logro ver el nuevo planeta y así se ofreció un premio para
encontrar el planeta, personajes como Napoleón ofrecían recompensa, y se ofreció un
premio especial a los matemáticos para encontrarlo.
Johann Carl Friedrich Gauss hizo un análisis de datos ya que Zach, un astrónomo que
Gauss había conocido dos años antes, publicaba las posiciones orbitales del cuerpo
celeste Ceres, un nuevo “pequeño planeta” descubierto por
el astrónomo italiano G. Piazzi en ese mismo año.
Desafortunadamente, Piazzi sólo había podido observar 9
grados de su órbita antes de que este cuerpo desapareciese
tras del sol. Zach publicó varias predicciones de su posición
incluyendo una de Gauss que difería notablemente de las
demás. Cuando Ceres fue redescubierto por Zach en
diciembre de 1801 estaba casi exactamente en donde Gauss
había predicho.
Aunque todavía no había revelado su método, Gauss había descubierto el método de
mínimos cuadrados. En un trabajo brillante logró calcular la órbita de Ceres (asteroide)
a partir de un número reducido de observaciones, de hecho, el método de Gauss
requiere sólo un mínimo de 3 observaciones y todavía es, en esencia, el utilizado en la
actualidad para calcular las órbitas.
Pasaron otros 90 años para que un cuñado de Charles Darwin inventara la media
aritmética y la desviación estándar, la descubrió un día que estaba esperando en una
estación a sus familiares que llegaban de Irlanda y se percató de que todos los papás de
pequeña estatura tenían hijos altos y los papás altos tenían hijos bajos, recopiló datos y
comenzó a hacer cálculos y descubrió que todos teníamos una media.
A mediados del siglo XIX se dio el brote más bestial de cólera en el centro de Londres.
John Snow médico inglés vivía muy cerca de este brote tuvo
una intuición. Él sospechaba que el cólera se transmitía por el
agua y quería corroborar esa hipótesis.
Empezó un estudio de campo y anotó las víctimas del

cólera en el barrio del Soho. Con la ayuda de los datos de
hospitales y las encuestas por el barrio, pudo conseguir una
base de datos para averiguar qué estaba pasando.
Realizó el primer Diagrama X vs Y (Gráficos estadísticos)

utilizado para encontrar donde estaba el origen del problema.
De manera gráfica se dio cuenta de que las muertes se situaban en torno a una bomba
de agua de la calle Broad. John Snow consiguió convencer a las autoridades para que
cerrasen el agua de la fuente de la calle Broad. Erradicando el brote tan severo del
cólera. Salvando miles de personas. Poco más tarde se averiguó que las aguas de un
pozo negro muy cercano a se filtraba en el agua potable de la calle Broad.
Contaminando el pozo. Cerca de esas aguas fecales se depositó un cuerpo de un
infectado del cólera. Eso fue el origen de ese brote.
En 1917, además de la primera guerra mundial, hubo un problema de hambruna en

Suecia, Noruega y Dinamarca (países con los mejores estadísticos) porque las cosechas
no se dieron en esos años ya que el clima tan frio y las heladas arrasaron con todo.
Entonces la gente (entre ellos estadísticos) comenzó a emigrar a otros países
principalmente EUA o Inglaterra comenzando así a desarrollarse la estadística en estos
países.
En 1940-1945 con el problema de la Segunda Guerra Mundial los hombres

estadounidenses van a pelear a Europa y ya no quieren regresar. En 1950 EUA no tiene
gente para producir suficiente alimento para la población. Ronald Fisher un
descendiente de los estadísticos suecos que emigro a EUA, en conjunto con Jhon Bennet
Lawes y Henry J. Gilbert inventan el Diseño de Experimentos para producir más
cereales en los campos con menor demanda de personal.
Miércoles 23 de septiembre de 2020.
ESTADÍSTICA: Rama de las matemáticas que se encarga de la recolección,

ordenamiento, representación, análisis e interpretación de datos generados en una
investigación sobre hechos, individuos o grupos de los mismos, para deducir de ello
conclusiones precisas o estimaciones futuras.
DIVISIÓN:
 ESTADÍSTICA DESCRIPTIVA: (Estadística Histórica) Está formada por

procedimientos empleados para resumir y describir las características
importantes de un conjunto de mediciones.
 ESTADÍSTICA INFERENCIAL: La estadística inferencial está formada por

procedimientos empleados para hacer inferencias acerca de características
poblacionales, a partir de información contenida en una muestra sacada de esta
población.
El objetivo de la estadística inferencial es hacer inferencias (es decir, sacar
conclusiones, hacer predicciones, tomar decisiones) acerca de las características
de una población a partir de información contenida en una muestra.
 ESTADÍSTICA BAYESIANA: (no contenido en este curso)
Cuando primero se nos presenta un conjunto de datos, ya sea una muestra o una
población, necesita encontrar una forma de organizarlo y resumirlo. La rama de la
estadística que presenta técnicas para describir conjuntos de mediciones se denomina
estadística descriptiva.
 Censo  Para sacar datos de la población.
 N: tamaño de la población (Símbolos griegos)
 Los datos son inasibles (no garantizados)
 Encuesta  Para sacar datos de la muestra.

 n: tamaño de la población (Símbolos latinos)
POBLACIÓN: Es el colectivo que abarca a todos los elementos cuya característica o

características queremos estudiar; dicho de otra manera, es el conjunto entero al que se
desea describir o del que se necesita establecer conclusiones.
CENSO: Recuento de individuos que conforman una población estadística, conjunto

de elementos de referencia sobre el que se realizan las observaciones. El censo de una
población estadística consiste básicamente en obtener mediciones del número total de
individuos mediante diversas técnicas de recuento y se realiza cada determinado
período. No se pueden hacer censos en una compañía, solo los hacen los estados.
Hacer un censo de toda la población es muy difícil, lo que se hace es tomar un

subconjunto llamado muestra.
MUESTRA: Es un conjunto de elementos seleccionados de una población de acuerdo a
un plan de acción previamente establecido (muestreo), para obtener conclusiones que
pueden ser extensivas hacia toda la población. (una muestra bien condicionada).
ENCUESTA: La encuesta es una técnica que se lleva a cabo mediante la aplicación de

un cuestionario a una muestra de personas. Las encuestas proporcionan información y
un listado de datos o características de todos los elementos de una muestra.
Lo que se hará en esta clase es trabajar con la muestra y usar la muestra como estimador
(valor real) para sacar el valor “verdadero”, éste valor es hipotético.
EJERCICIO:
Muestra: Estatura MEDIA: 1.6271
1.58
MEDIANA: 1.63
1.53 M EDIDAS DE
MODA: Amodal TENDENCIA
1.65
CENTRAL:
1.64
MEDIA ARTMÉTICA O PROMEDIO ( x ):
1.77
De un conjunto de n mediciones es igual a la
1.59 suma de las mediciones dividida entre n.
(suma de todos los datos entre el total de
1.63
datos). Cuando se habla de población se usa
la letra griega μ.
 Es el lugar donde tenemos la misma ponderación entre datos chicos y datos

grandes.
 (Recta numérica vertical a escala) (Sube y baja equilibrado)
 Medida de tendencia central No. 1
En Excel se puede calcular de la siguiente manera:

¿(celdade lasuma de datos/celdade n ó número de datos)
¿ PROMEDIO (celdas de datos)
MEDIANA (m): Es un valor que divide a las observaciones en dos grupos con el
mismo número de individuos.
 Separa a los datos grandes de los chicos en número y no en peso.

 Los datos tienen que estar acomodados
 Si el número de datos es impar se escoge la mediana como el elemento que ocupa
la posición (n + 1) / 2.
 Si el número de datos es par se escoge la mediana como el promedio de los dos
datos centrales (n/ 2) y (n/ 2 + 1) y se les saca el promedio. O se puede sacar
también con (n + 1/ 2) y se saca el promedio de los datos vecinos (por arriba y
por debajo de este valor).
En Excel se puede calcular de la siguiente manera:
¿( celdadel numero de datos+1/2)
¿ MEDIANA (celdas de datosordenados)
MODA (M): Es el valor de la observación o elemento que tiene la mayor frecuencia.

(Dato que más se repite)
 Los datos pueden ser:
AMODALES: Ningún dato se repite
UNIMODALES: Sólo un dato (número) es moda.
BIMODALES: Existen dos datos (números) que son moda.
MULTIMODALES: De 3-5 datos en competencia por la moda, si existen más se

dice que son amodales.
 Se calcula con la función de Excel.
¿ MODA (celdas de datos)
MEDIA GEOMÉTRICA ( x G ¿: es la raíz enésima del producto de todos los elementos

de un estudio. Para poblaciones se utiliza la letra griega con subíndice, μG .
(∏ )
n 1
n
x G= x1
i=1
 Se calcula multiplicando los datos.

¿ PRODUCTO(celdas de datos)
(17 )
¿ producto
 La raíz enésima siempre es menor a la media aritmética
 la función directa en Excel se llama
¿ MEDIA . GEOM (celdas de datos)
 Se usa para sacar medias o promedios de datos que no son directas o lineales.
 Tiene 2 limitaciones:
1.- No se puede usar media aritmética cuando se tienen datos que valen 0.
2.- No se puede calcular si se tienen datos negativos y si a su vez se tiene numero
par de datos.
3.- Limitación de flujo de calculadora, cuando se tienen datos muy grandes.
 Medida de tendencia No. 4
 Ajuste de datos: Consiste en una redefinición de variables y transformación de
escalas, para facilitar el tratamiento de datos. Para esta transformación se escoge
un dato arbitrario realizando cálculos para transformar los datos, estos cálculos
se deben seguir exactamente de manera inversa para volver a ajustar los datos.
Ejemplo:
Estaturas
mujeres
Datos
ajustados
-7
1.53 -2
1.58
-1
1.59
3
1.63
4
1.64
1.65 5
1.77 17
Cálculos realizados para ajustar los datos:
1.53−1.60=−0.07∗100=−7
Cálculos realizados para transformar los datos:
−7 /100=−0.07+1.60=1.53
Viernes 25 de setiembre de 2020
DIAGRAMA DE BURBUJAS: Es un gráfico que te permite organizar y visibilizar
mejor tus datos, en este caso poder encontrar de manera rápida y visual la moda de los
datos.
Debe contener:
 Base, una “m” minúscula para representar la mediana, la “M” mayúscula para
indicar la moda, la media aritmétimetica, y la media geométrica.
Algoritmo para realizar un gráfico de burbujas: (TAREA)
1. Abrir una hoja de cálculo.
2. Insertar y ordenar tu lista de datos.
3. Para darle estructura al diagrama de burbujas se selecciona el número de celdas
igual a n (número de datos). Para reducir el tamaño de las celdas para simular
una cuadricula se selecciona la función formato y ancho de columna. Colocar
3.00
4. Se coloca la escala de datos y en la parte de arriba de las columnas
horizontalmente, se pone una línea que fungirá como base del diagrama de
burbujas.
5. Se hace un conteo de los datos y cada que aparezca en la lista un dato de la escala
se le coloca una “o” en forma vertical.
6. Una vez ubicados todos los datos en formas de “o” se ubica rápidamente la
moda (M), pues será la que tenga una mayor cantidad de burbujas.
7. Se colocan en la línea numérica a escala, las demás medidas de tendencia central
con la simbología antes descrita.
Ejercicio completo Muestra 7 personas

Estaturas Estaturas Datos
mujeres mujeres ajustados
1.58 1.53 -7
1.53 1.58 -2
1.65 1.59 -1
1.64 1.63 3
1.77 1.64 4
1.59 1.65 5
1.63 1.77 17
FUNCIÓN FUNCIÓN Transformac

EXCEL EXCEL ión
11.39 Mediana Media 2.7143

1.63 1.6271
7 n= 7 Moda Amodal
m Unidad m Unidad cm
1.6271 1.6271 Moda Amodal Mediana 3

1.63
Hay
Multiplicaci Media
30.0078 numeros
on Geometrica
30.0078 negativos.
Diagrama de burbujas para n=7

Ejercicio completo muestra n=46
Estaturas 1.58 1.63

mujeres 1.58 1.63
1.53 1.59 1.64
1.54 1.6 1.64
1.54 1.6 1.65
1.55 1.6 1.65
1.55 1.6 1.65
1.56 1.6 1.66
1.56 1.6 1.67
1.57 1.6 1.67
1.57 1.61 1.68
1.57 1.62 1.68
1.57 1.62 1.68
1.57 1.62 1.68
1.57 1.63 1.77
1.58 1.63 1.78
Ajuste de datos:
Ajuste de -22 -16
datos -22 -16
-21 -16
-26 -21 -15
-21 -15
-25 -20 -14
-25 -19 -14
-24 -19 -14
-19 -13
-24
-19 -12
-19 -12
-23
-19 -11
-19 -11
-18 -11
-23
-17 -11
-22
-17 -2
-22
-17 -1
-22
-16
-22
Diagrama de Burbujas para n=46

DATOS: Un dato es una representación simbólica de un atributo o variable
cuantitativa o cualitativa.
Tipos de datos:
 Numéricos: que representan unidades discretas y se usan para etiquetar

variables que no tienen un valor cuantitativo.
 No numéricos o categóricos: Los datos categóricos también conocidos como
datos cualitativos, representan características intangibles.
Tipos de muestreo:
 Muestreo aleatorio simple: Se usa cuando a cada elemento de la población se le

quiere dar la misma oportunidad de ser elegido en la muestra. En este tipo de
muestreo las variables relevantes de la muestra tienen la misma función de
probabilidad y son independientes entre ellas.
 Muestreo aleatorio sistemático: (Se usa en producción) Se hace una

selección aleatoria del primer elemento para la muestra, y luego se seleccionan los
elementos posteriores utilizando intervalos fijos o sistemáticos hasta alcanzar el tamaño
de la muestra deseado.
 Muestreo estratificado: El muestreo aleatorio estratificado consiste en dividir

naturalmente a la población en estratos; puede ser que un estrato sea un
conglomerado, pero en el caso de los estratos se toman el mismo número de
muestras de todos los estratos.
 Muestreo de conglomerados: Se usa cuando se conoce de antemano que la
población está naturalmente divida en conglomerados, que son equivalentes a
categorías, y las cuales por lo general no son de igual tamaño. El muestreo por
conglomerados consiste en seleccionar aleatoriamente un cierto número de
conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en
investigar después todos los elementos pertenecientes a los conglomerados
elegidos.
Lunes 28 de septiembre del 2020.
TAREA, aplicación tipos de muestreo.
Para n=80
-El muestreo aleatorio simple se llevó a cabo al azar en la página random.org. con los
números del conteo de datos (1-80). Dentro de ese intervalo se escogieron los datos.
La muestra de n=8 del muestreo aleatorio simple es:
1. 51.3
2. 51.6
3. 51.9
4. 51.2
5. 49.1
6. 51.5
7. 49.6
8. 49.7
La muestra n=8 del muestreo aleatorio sistematizado: Este se llevó a cabo tomando el
primer dato de la muestra aleatoriamente en la página random.org y luego se tomó
como intervalo de 8 datos para elegir el siguiente dato hasta concluir el tamaño de la
muestra.
1. 49.4
2. 50.1
3. 50.3
4. 50.8
5. 51
6. 51.2
7. 51.3
8. 51.6
9.
La muestra n=8 del muestreo por conglomerados: Este se llevó a cabo dividiendo los datos
en 10 conglomerados, primero se dividieron de 10 en 10 los datos ordenados; tomando
así todos los numero 1 para el primer conglomerado, todos los 2 para el segundo y así
sucesivamente. Hasta lograr los conglomerados que igualen el límite de datos de la
muestra y posteriormente eligiendo un conglomerado al azar para que el conglomerado
elegido sea la muestra.
Para facilitar, el manejo de datos se dividieron los datos como se describió arriba, pero
en colores y cada color es un conglomerado. El número escogido aleatoriamente para
ser el conglomerado=muestra es el 4, que corresponde al color gris.
Conteo Datos 25 50.8 50 51.3

1 49.1 26 50.8 51 51.4
2 49.4 27 50.8 52 51.4
3 49.5 28 50.8 53 51.5
4 49.6 29 50.9 54 51.5
5 49.6 30 51 55 51.5
6 49.7 31 51 56 51.5
7 49.7 32 51 57 51.6
8 49.9 33 51 58 51.6
9 49.9 34 51 59 51.7
10 50.1 35 51.1 60 51.7
11 50.1 36 51.1 61 51.7
12 50.2 37 51.1 62 51.7
13 50.2 38 51.1 63 51.7
14 50.3 39 51.1 64 51.7
15 50.3 40 51.1 65 51.8
16 50.3 41 51.1 66 51.8
17 50.3 42 51.2 67 51.8
18 50.3 43 51.2 68 51.8
19 50.4 44 51.2 69 51.8
20 50.4 45 51.2 70 51.8
21 50.5 46 51.2 71 51.9
22 50.6 47 51.3 72 51.9
23 50.6 48 51.3 73 51.9
24 50.7 49 51.3 74 52
75 52 77 52.1 79 52.8
76 52 78 52.2 80 53.1
1. 49.6
2. 50.3
3. 50.7
4. 51
5. 51.2
6. 51.5
7. 51.7
8. 52
La muestra n=8 del muestreo estratificado: Este se llevó a cabo dividiendo los datos
guiándonos por su número decimal, los datos que estén por debajo de 0.5 estarán en un
estrato y los datos que estén por arriba de 0.5 estarán en el segundo estrato. Y se
tomaron 4 datos aleatoriamente de cada estrato para formar la muestra.
1. 49.4
2. 50.1
3. 51.2
4. 53.1
5. 52.8
6. 51.9
7. 50.9
8. 49.9
ALEATORIEDAD: Proceso cuyo resultado no es previsible más que en razón de la

intervención del azar (Es lo más importante en la estadística).
MEDIA ARMONICA( x H ) : Se usa cuando se tienen medidas inversas, o datos que están
relacionados de manera inversa (velocidad y tiempo con la distancia constante son
inversas). Para la media armónica poblacional se usa el símbolo con el subíndice μ H .
n
xH =
1
∑x
1
 Función en excel:
¿ MEDIA . ARMONICA ( datos celdas )
 Para hacerlo sin función:
Se hace una columna con los inversos, luego se suman y se aplica la formula, en
el numerador el número de datos y en el denominador la sumatoria de los
inversos realizada.
 Limitación: No se puede realizar teniendo datos que valen 0. Ya que llevan
a una indeterminación.
 Es la más chica de las 3 medias.
MEDIA ACOTADA ( X 71 ¿: Se calcula recortando un determinado porcentaje de la

distribución, por sus extremos (la distribución tiene que estar ordenada de menor a
mayor). El subíndice para la notación muestral es el porcentaje de datos que se ha
utilizado para calcular la media acotada.
 Se tiene que eliminar un dato de hasta arriba (más pequeño) y un dato de hasta
abajo (más grande)
 Limitaciones de la media acotada, los datos son dinero, para poder eliminar
datos se deben tener muy buenos argumentos para no utilizarlos.
“OUTLIERS” O DATOS ABERRANTES: Es un valor atípico, una observación

numéricamente distante del resto de los datos.
GRAFICA DE CAJA Y BIGOTE (Box-plot)

Desarrollada en 1976 por Tukey. Es un método para detectar datos aberrantes y para
representar gráficamente los grupos de datos numéricos a través de sus cuartiles. Para
tener un buen gráfico boxplot se requieren entre 5 y 6 RIQ.
Lo que hace es encerrar el 50% central de los datos.
Q1 Q3
25% -- 25% -- 25% -- 25%
Ejemplo de boxplot para los 7 datos iniciales de estaturas:
CUARTIL 1 (Q1)
Datos MEDIANA DE DATOS CHICOS 1.585 llevó el 25%
chicos
CUARTIL 2 (m)
MEDIANA
1.63 llevó el 50%
Datos
grandes
MEDIANA DE DATOS GRANDES CUARTIL 3 (Q3)
1.645 llevó el 75%

Formulas:
Rango intercuartílico:
RIQ=Q 3−Q1
Límite del brazo inferior (LBI):
LBI =Q1−1.5(RIQ )
Límite del brazo superior (LBS):
LBS=Q3+1.5 (RIQ)
Continuando con el ejercicio de n=7
RIQ= 1.645 – 1.585 = 0.06
LBI= 1.585 – 1.5 (0.06) = 1.495
LBS=1.645 + 1.5 (0.06) = 1.735
La recta numérica siempre tiene que estar a escala

1.5
1.52
___
1.54
1.56
1.58
Q1
1.6
1.62
m
1.64
Q3
1.66
1.68
1.7
1.72
1.74 -----
1.76
Los outliers son los datos que tengo reportados y no entran en los datos, 1.77 no entro
en el límite del brazo de los datos grandes, por lo tanto, es outlier y como los datos se
eliminan en pares, el dato 1.53 también se elimina.
Miércoles 30 de septiembre del 2020
CUANTILES: Son una familia de divisiones de los datos, persiguen dividir los datos
en grupos más “trabajables”. Sabemos que la mediana divide a los datos en dos partes
iguales, también tiene interés estudiar otros parámetros, llamados cuantiles, que
dividen los datos de la distribución en función de otras cantidades.
 Cuantil (n) [C] – Hay n-1 cuantiles

 Mediana [m]- Divide los datos en 2.
50% - 50%
 Terciles [T] – Divide los datos en 3.
33.3% - 33.3% - 33.3%
 Cuartiles [Q] – Divide los datos en 4.
25%- 25% - 25% - 25%
 Quintiles o Pentiles [P] – Divide los datos en 5.
20% - 20% - 20% - 20% - 20%
 Sextiles o Hexiles [S] – Divide los datos en 6.
16.6% - 16.6% - 16.6% - 16.6% - 16.6% - 16.6%
 Septiles o Heptiles [H] – Divide los datos en 7.
14.29% - 14.29% - 14.29% - 14.29% - 14.29% - 14.29% - 14.29%
 Octiles [O] – Dividen los datos en 8.
12.5% - 12.5% - 12.5% - 12.5% - 12.5% - 12.5% - 12.5%- 12.5%
 Noniles [N] – Dividen los datos en 9.
11.11% - 11.11% - 11.11% - 11.11% - 11.11% - 11.11% - 11.11% - 11.11% - 11.11%
 Deciles [D] – Dividen los datos en 10.
10% - 10% - 10% - 10% - 10% - 10% - 10% - 10% - 10% - 10%
 Dodeciles [d] – Dividen los datos en 12.
8.33%-8.33%-8.33%-8.33%-8.33%-8.33%-8.33%-8.33%-8.33%-8.33%-8.33%-8.33%
 Percentiles [p] – Dividen los datos en 100. 1% (100)
Fórmula para calcular la posición del cuantil.
C j= ( n+1d ) ( j )
DONDE:
C j= Cualquier cuantil, n= datos, d= número de divisiones, j=número de cuantil.
Ejercicio con n= 42
No. Datos
1 15
2 16
3 23
4 25
5 27
6 30
7 32
8 36
9 36
10 49
11 50
12 57
13 58
14 59
15 59
16 60
17 63
18 66
19 68
20 72
21 80
22 85
23 86 33 119
24 87 34 12
25 87 35 123
26 96 36 129
27 101 37 130
28 103 38 131
29 103 39 134
30 112 40 136
31 118 41 141
32 118 42 148
Calculando la posición de los Heptiles, y método de la REGLA DE LA PALANCA:
Posición H1 = ( 42+1
7 )
( 1 ) = 6.14. La posición del H1 se encuentra entre los datos 6 y 7.
La regla de la palanca se utiliza para saber el valor exacto de los cuantiles.
En este caso, se convierten los decimales a fracción mixta = 6 1/7, una vez hecho esto, se
ve de que dato se está más cerca según los decimales, en este caso se está más cerca del
dato 6. Se sustituye en la fórmula de la regla de la palanca [ H 1=¿ ¿ Donde, X G es el dato
más lejano y X C es el dato más cercano ; El número entero nos va a decir el número que
voy a agarrar; la fracción del número fraccionario mixto nos va a dar la información que
va entre paréntesis, el numerador dice entre cuanto se va a dividir, el numerador (1) se
va a restar al denominador (1-7=6) el número más grande de estos ira en el primer
paréntesis que es el del dato que está más cercano y el número más pequeño ira en el
segundo paréntesis.
[ H 1=[ 30 ( 6 ) ) + ( 32 ( 1 ) ) ¿¿¿ 7 ] =30.2857

H 2= ( 42+1
7 ) 2
(2 )=12.2857=12 =¿ ¿57.2857
7
H 3= ( 42+1
7 ) 3
( 3 )=18.4286=18 =¿ ¿ 66.8571
7
H 4= ( 42+1
7 )
( 4 )=24.5714=87
H 5= ( 42+1
7 ) 5
( 5 )=30.7143=30 =¿ [ [118 ( 5 ) ) + ( 112 ( 2 ) ) ¿¿¿ 7 ] =116.2857
7
H 6= ( 42+1
7 )
6
( 6 ) =36.8571=36 =¿ [ [ 130 ( 6 ) ) + ( 127 ( 1 ) ) ¿¿¿ 7 ]=¿ 129.8571
7
Ejercicio con n=7, determinar los cuartiles. (TAREA)
Q 1= ( 7+4 1 )( 1) =2=1.58
Q 2= ( 7+4 1 )( 2) =4=1.63
Q 3= ( 7 +14 ) ( 3)=6=¿ 1.65
MEDIDAS DE DISPERSIÓN
Miden el grado de dispersión (variabilidad) de los datos.
1. RESIDUALES: Hay tantos como datos.
r i=x i− x
 Todos los residuales que son menores que la media aritmética son negativos
 Todos los residuales que son mayores a la media aritmética son positivos
 Son ponderaciones, es la distancia que hay de x dato hasta la media aritmética.
 La suma de todos los residuales debe ser igual a 0.
 Los residuales cuadrados sirven para la segunda medida de dispersión porque
son positivos
 Medida de dispersión No.1
2. VARIANZA: Es el promedio de los residuales cuadrados. Tiene como símbolo la

letra griega (2) para la poblacional, no es al cuadrado, así es el símbolo. Y para la
varianza muestral (s2).
N
∑ r 2i
σ 2= i=1
N
n
∑ r 2i
s2= i=1 INSESGADA
n−1
n
∑ r 2i
m= i=1 SESGADA
n
 Se va a entender como el promedio de los residuales al cuadrado, que a su
vez son las distancias que se tienen con respecto a la media.
Ejercicio con n=7, varianza insesgada
2 0.0341 −3
s= =5.683 x 10
6
Para calcular en Excel con la función
¿ VAR (datos celdas)
Viernes 2 de octubre de 2020
3. DESVIACIÓN ESTANDAR: Es la raíz cuadrada de la varianza. La fórmula para

la desviación estándar muestral es:
s= √ s
2
√
n
s= ∑ ¿¿ ¿ ¿
i=1
Y para la desviación estándar poblacional, la fórmula es:
σ =√ σ
2
 Es para tener unidades consistentes con la media.

4. RANGO: Es el máximo menos el mínimo.
rango=x n−x 1
donde x n es elultimo de los datos ordenados y x 1 es el primer dato ordenado
 Es necesario para poder hacer un grafico
 Para hacer un gráfico se le aumenta un 20% de rango para dejar un
espacio
GRÁFICAS: El propósito de las gráficas es vender los datos. Tienen que tener
estética= impactante.
Reglas básicas para hacer graficas:
 Regla del 7: (Psicológica) Tiene que haber máximo 7 elementos en las gráficas.
(No abigarrada)
 Rango de clase = Rango total/no# clases
El rango de los 80 datos es rango= 53.1 – 49.1= 4.0
El rango de clase = 4.0 / 7 =0.5714  0.6
Clase A: 49.1 (LIC) – 49.7(LSC) (Se le suma el rango de la clase) =49.4
LIC: Límite inferior de la clase LSC: Límite superior de clase
 Marca de clase: Se calcula como = (LSC+LIC) /2, debe ser el centro de la

columna en el histograma. Y se debe tener una marca de clase +-1.
 Opciones 2: (] o [)
 f, conteo de datos dentro de la clase
 fac (F): (frecuencia acumulada), =f2+f1 y así sucesivamente; indica el total de
datos que se tiene hasta esa clase, la última celda de esta columna debe ser igual
a n (total de datos)
 %: = f/total de datos *(100), en excel se selecciona la celda de f, se divide entre n y se
aprieta el botón de %.
 %ac: se calcula dividiendo = fac/total de datos * (100).
 Grados: =celda de %*(360)
Diagrama de burbujas para n=80 (TAREA)
Lunes 05 de octubre del 2020.
Tipos de gráficas:
HISTOGRAMA: Es una presentación gráfica en grupos. Cada grupo en el

histograma se llama clase, el máximo son 7 clases. El número de clases se define por √ n
(funciona hasta 50-60 datos). Diagrama a escala. Gráfica No.3
 Se grafica ubicando el LIC y el LSC en la recta del eje horizontal (X) y

ubicando la frecuencia en el eje vertical (Y) una vez hecho esto se unen los
puntos con un rectángulo, y justo al medio de la barra debe encontrarse la
marca de clase.
Una vez que un dato se mete al histograma, ese dato pasa a formar parte de una
columna o grupo, y este dato como tal pierde su individualidad.
Histograma n=80 (TAREA)
GRAFICA DE POLIGONO DE FRECUENCIA: Se conoce como polígono de

frecuencias a un gráfico que se desarrolla mediante la marca de clase que tiene
coincidencia con el punto medio de las distintas columnas del histograma. En el
momento de la representación de todas las frecuencias que forman parte de una tabla
de datos agrupados, se genera el histograma de frecuencias acumuladas que posibilita
la diagramación del polígono correspondiente.
 Para la realización de grafico se necesita una marca de clase -1 y una marca de

clase +1, ya que el polígono de frecuencia debe comenzar y terminar en 0. Para
esto a la primera marca de clase se le resta el rango de clase, que en este caso es
0.6, y a la última marca de clase se le suma el rango de clase.
 También se puede obtener con el % en lugar de la f.
 Gráfica No.4
Polígono de frecuencia n=80 (TAREA)
GRAFICA DE PASTEL: Un diagrama de pastel es un círculo dividido en partes,

donde el área de cada parte es proporcional al número de datos de cada categoría.
 El cuadrante más importante, normalmente es el que va de 90° a 180°

 La clase con más grados se pone en el cuadrante superior izquierdo ya que es el
punto focal más importante en la gráfica.
 Se grafica de izquierda a derecha
 Se divide el circulo en grados, y con la columna de grados de la tabla de
frecuencia, se van acomodando los grados en el círculo con todas las instrucciones
anteriores.
 Gráfica No.5
Gráfica de pastel n=80 (TAREA)

Miércoles 7 de octubre de 2020
OJIVA: Gráfico que muestra la curva de una función de frecuencia acumulada. Los
puntos trazados son el límite de la clase superior y la frecuencia acumulada
correspondiente.
 La curva comienza desde 0, por lo que se debe tener una marca de clase -1.
 Se grafica en el eje vertical (Y) la fac y en el eje horizontal (X) la marca de clase.
 Una vez trazados todos los puntos, se traza la curva a mano alzada.
 La curva termina en el último punto de f ac vs marca de clase, no necesita bajar a
0.g
 El valor de la mediana (m) grafico se calcula =n (80) + 1 / 2 =40.5, este valor no
siempre coincide con la mediana obtenida de los datos
 Se puede también obtener graficando el %ac, en lugar de la frecuencia acumulada
 También en esta grafica se calcular gráficamente los cuartiles (Q)
 Gráfica No. 6
Ojiva=80 (TAREA)
Como se comentó anteriormente, los datos pierden su individualidad; por lo que como
consecuencia se pueden hacer cálculos de datos agrupados.
MEDIA ARITMETICA AGRUPADA ( x g ¿ :La g minúscula indica que ésta en grupo. Se

calcula a partir de la tabla de frecuencias, multiplicando cada una de las marcas de clase
por la frecuencia, así hasta terminar con todas las clases, se suman todos estos datos y al
final se dividen entre el total de datos (n) en este caso 80.
MEDIA GEOMETRICA AGRUPADA ( x ¿): Este se calcula elevando cada marca de

clase a su frecuencia, después sacamos el producto de todos los datos obtenidos y al
final para obtener la media geométrica agrupada se le saco raíz de n (80) al producto de
todos los datos.
=Marca de clase(Frecuencia) => =PRODUCTO (∑marca de clase( Frecuencia ) ¿ => =(producto)( 1 / 80)
MEDIA ARMONICA AGRUPADA ( x Hg ¿: Se calcula dividiendo la frecuencia entre la
marca de clase, una vez hecho esto para todas las clases, se suman todos estos datos
resultantes y finalmente para calcular la media armónica se divide el número total de
datos (n) entre la suma de los datos que se obtuvo.
 Sigue el mismo orden que las individuales, la más grande es la media

aritmética, luego la media geométrica y después la media armónica
MEDIA ACOTADA AGRUPADA: Se calcula quitando datos pares del inicio y el final.
Se vuelve a calcular la tabla de frecuencia, pero ahora con n=datos acotados.
Una vez hecho esto, para cada clase, se multiplica la frecuencia por la marca de clase, se
suman todos estos datos obtenidos, y finalmente se dividen entre el total de datos
acotados (n acotada). Prácticamente es sacar la media aritmética, pero con los datos
acotados agrupados.
RESIDUALES AGRUPADOS: Hay tantos como clases.

r agrupados=marca de clase−media aritmetica agrupada
Se calculan los residuales agrupados al cuadrado, al cubo y a la cuarta.
También se calculan los residuales al cuadrado, al cubo y a la cuarta.
∑ fi∗rik K =1,2,3,4
i=1
Viernes 09 octubre 2020
Se calcula la varianza insesgada y la desviación estándar para fi*ri 2 de los datos

agrupados.
Varianza= la sumatoria de todos los datos de fi*ri 2, obtenidos

para cada clase y divididos entre el total de datos -1.
∑ f i∗r 2i
2 i =1
Varianza grupal=s g = INSESGADA
n−1
Desviación estándar = se le saca la raíz cuadrada al resultado

obtenido de la varianza insesgada.
s g=√ s 2g
MEDIDAS DE FORMA:
1. SESGO (Skewness): es una medida o indicación de la forma en la que yo tengo

mis datos. Son indicadores que permiten establecer el grado de simetría que
presenta una distribución de probabilidad de una variable aleatoria sin tener que
hacer su representación gráfica.
Para calcular el sesgo primero necesito calcular m2, m3, m4.
DATOS INDIVIDUALES DATOS GRUPALES
m2, varianza muestral sesgada: ∑ r2i m2, varianza muestral sesgada: ∑ fi∗r2i
n n
m3 ,=
∑ r 3i
m3 ,=
∑ fi∗r 3i
n n
m =
∑ 4
ri
m =
∑ 4
fi∗r i
4 4
n n
m3 m3
Sesgo poblacional: g1= 3 Sesgo poblacional: g1= 3
( m2 ) 2
( m2 ) 2
Sesgo muestral: G1= √ Sesgo muestral: G1= √

n(n−1) n(n−1)
g1 g1
n−2 n−2
 La gráfica de la normal perfecta, por definición tiene un sesgo de 0

 Cualquier sesgo hacia la izquierda se vuelve negativo.
 Los valores donde el sesgo se vuelve importante es a partir de ±0.2, si los valores
están por debajo de este valor, se piensa que la gráfica es normal.
 El sesgo poblacional se debe parecer mucho al sesgo muestral, deben tener el
mismo signo.
 El que se reporta es el sesgo muestral.
Avance formulario (TAREA)
Lunes 12 de octubre 2020
CURTOSIS (a2): Es una medida de forma que mide cuán escarpada o achatada está
una curva o distribución. Miden la mayor o menor concentración de datos alrededor de
la media.
m4
a 2= 2
POBLACIONAL
m2
 Máximo -3
 PLATICURTOSIS: Muy poca concentración de datos en la media, presentando
una forma muy achatada.
 MESOCÚRTOSIS: Curtosis=0. Distribución normal. a 2=3
 LEPTOCURTOSIS: Los datos están muy concentrados en la media, siendo una

curva muy apuntada.
 CURTOSIS EN EXESO O CURTOSIS DE FISHER:
g2=a2−3 . La curtosis de Fisher de la normal es igual a 0
-Si es negativa es una curva platicurtica g2 <0 ,
-Si es positiva en exceso estoy en presencia de una curva leptocúrtica g2 >0
n−1
G 2= ( n+ 1 ) g2 +6 MUESTRAL(fisher)
( n−2 )( n−3 )

Estadistica Descriptiva Puntes Completos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Descriptiva Puntes Completos

Cargado por

Copyright:

Formatos disponibles

Lunes 21 septiembre de 2020.

Introducción: HISTORIA DE LA ESTADÍSTICA.

Es difícil conocer los orígenes de la Estadística. Desde los comienzos de la civilización

Empezó un estudio de campo y anotó las víctimas del

Realizó el primer Diagrama X vs Y (Gráficos estadísticos)

En 1917, además de la primera guerra mundial, hubo un problema de hambruna en

En 1940-1945 con el problema de la Segunda Guerra Mundial los hombres

ESTADÍSTICA: Rama de las matemáticas que se encarga de la recolección,

 ESTADÍSTICA DESCRIPTIVA: (Estadística Histórica) Está formada por

 ESTADÍSTICA INFERENCIAL: La estadística inferencial está formada por

 ESTADÍSTICA BAYESIANA: (no contenido en este curso)

 Encuesta  Para sacar datos de la muestra.

POBLACIÓN: Es el colectivo que abarca a todos los elementos cuya característica o

CENSO: Recuento de individuos que conforman una población estadística, conjunto

Hacer un censo de toda la población es muy difícil, lo que se hace es tomar un

ENCUESTA: La encuesta es una técnica que se lleva a cabo mediante la aplicación de

Muestra: Estatura MEDIA: 1.6271

 Es el lugar donde tenemos la misma ponderación entre datos chicos y datos

En Excel se puede calcular de la siguiente manera:

¿ PROMEDIO (celdas de datos)

 Separa a los datos grandes de los chicos en número y no en peso.

En Excel se puede calcular de la siguiente manera:

¿( celdadel numero de datos+1/2)

¿ MEDIANA (celdas de datosordenados)

MODA (M): Es el valor de la observación o elemento que tiene la mayor frecuencia.

 Los datos pueden ser:

AMODALES: Ningún dato se repite

UNIMODALES: Sólo un dato (número) es moda.

BIMODALES: Existen dos datos (números) que son moda.

MULTIMODALES: De 3-5 datos en competencia por la moda, si existen más se

MEDIA GEOMÉTRICA ( x G ¿: es la raíz enésima del producto de todos los elementos

 Se calcula multiplicando los datos.

Ejercicio completo Muestra 7 personas

FUNCIÓN FUNCIÓN Transformac

11.39 Mediana Media 2.7143

1.6271 1.6271 Moda Amodal Mediana 3

Diagrama de burbujas para n=7

Estaturas 1.58 1.63

Diagrama de Burbujas para n=46

 Numéricos: que representan unidades discretas y se usan para etiquetar

 Muestreo aleatorio simple: Se usa cuando a cada elemento de la población se le

 Muestreo aleatorio sistemático: (Se usa en producción) Se hace una

 Muestreo estratificado: El muestreo aleatorio estratificado consiste en dividir

TAREA, aplicación tipos de muestreo.

La muestra de n=8 del muestreo aleatorio simple es:

Conteo Datos 25 50.8 50 51.3

ALEATORIEDAD: Proceso cuyo resultado no es previsible más que en razón de la

MEDIA ACOTADA ( X 71 ¿: Se calcula recortando un determinado porcentaje de la

“OUTLIERS” O DATOS ABERRANTES: Es un valor atípico, una observación

GRAFICA DE CAJA Y BIGOTE (Box-plot)

Lo que hace es encerrar el 50% central de los datos.

25% -- 25% -- 25% -- 25%

Ejemplo de boxplot para los 7 datos iniciales de estaturas:

1.645 llevó el 75%

Límite del brazo inferior (LBI):

Límite del brazo superior (LBS):

Continuando con el ejercicio de n=7

RIQ= 1.645 – 1.585 = 0.06

LBI= 1.585 – 1.5 (0.06) = 1.495

LBS=1.645 + 1.5 (0.06) = 1.735

La recta numérica siempre tiene que estar a escala

 Cuantil (n) [C] – Hay n-1 cuantiles

 Percentiles [p] – Dividen los datos en 100. 1% (100)