Sesión 1 Estadística Descriptiva

PONDERACIONES
1 / 10
INFORMACIÓN PREVIA
JESÚS NARANJO TREJO

LIC. INGENIERÍA MECÁNICA
CORREO:
jesus_naranjo@my.unitec.edu.mx
COMUNICACIÓN SOLO POR LA

PLATAFORMA
LAS SESIONES NO SON OBLIGATORIAS

Esta foto de Autor desconocido está bajo licencia CC BY-SA-NC
Revisar las fechas limites de entrega y respetarlas, ya que no hay prorrogas.
Revisar el material en plataforma, la descripción de la actividad y la rúbrica.
1 / 10
SESIÓN 1
ESTADÍSTICA DESCRIPTIVA
Orden del día:
1.1. Población y muestra
1.2. Variables estadísticas
1.3. Parámetros y estadísticas
1.4. Distribución de frecuencias
1.5. Construcción de frecuencias (regla de Sturges)
1.6. Frecuencias relativas
1.7. Frecuencias relativas acumuladas
1.8. Medidas de tendencia central (media, mediana y moda)
1.9. Medidas de dispersión (rango, varianza y desviación estándar)
1.10. Gráficas (Diagrama de barras, diagrama de dispersión, diagrama circular e
histograma)
1.11. Solución de casos aplicando hojas de cálculo
3
1. Población y muestra
Población
Lepkowski (2008) define a la población como un conjunto de todos los casos que concuerdan
con determinadas especificaciones.
Muestra
Muñoz (2015) define la muestra como el segmento de la población que se considera
representativa de un universo y se selecciona para obtener información acerca de las
variables del objeto de estudio, es decir, la muestra es un subgrupo de la población.
Figura 1 Representación de una muestra, población y tipos de muestras. Adaptado de Devore, J.

(2008).
4
2. Variables estadísticas
Una variable es una propiedad que tiene una variación que puede medirse u observarse,
ejemplo el género, la presión arterial, la inteligencia, el tiempo que tarda en manifestarse una
enfermedad (Hernández-Sampieri et al. 2016). Existen diferentes tipos de variables:
Variable independiente: el investigador manipula esta variable en el experimento o

investigación
Variable dependiente: es el resultado que se espera medir cuando se manipula a la variable

independiente, es decir, es lo que se va a medir de forma experimental
Variables cuantitativas: Admiten una escala numérica de medición, pueden ser de dos tipos:
continuas y discretas. Se le llama variables continuas cuando entre los valores pueden darse
infinidad de posibilidades. Ejemplos, pesos de objetos, dimensiones, calificaciones de
estudiantes, entre otros.
5
2. Variables estadísticas
Las variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o
diferencias en clase; por lo tanto, con frecuencia se denominan datos categóricos, por
ejemplo; género, año y especialidad.
En las variables discretas no puede haber posiciones intermedias, pues su variabilidad se da

en términos de unidades enteras, por ejemplo, número de países que integran la OEA,
número de hijos, etcétera.
Una variable continua puede tomar infinitamente muchos valores correspondientes a los
puntos en un intervalo de recta. Variables como la estatura, peso, tiempo, distancia y
volumen son continuas porque pueden tomar valores en cualquier punto a lo largo de un
intervalo de recta.
6
3. Parámetros y estadísticas
El parámetro estadístico es una medida descriptiva o representativa de la población,

generalmente se expresan con letras griegas como símbolo, ejemplos: desviación estándar
(σ) media (μ) (Salazar, 2018). Bragado (s.f), menciona que los parámetros estadísticos sirven
para sintetizar información y suelen clasificarse de la siguiente manera:
Figura 2. Tipos de parámetros estadísticos. Adaptado de Devore, J. (2008).
7
3. Parámetros y estadísticas
Parámetros de centralización: tienden a estar localizados en el centro de la distribución de

datos por ello el nombre de tendencia central. Son la media, mediana y moda
Parámetros de dispersión: informan cuánto se alejan del centro los valores de la distribución.
Las medidas de dispersión varianza, desviación estándar y rango.
Parámetros de posición: indican la situación de algunos valores importantes en a distribución.

Son los cuartiles, percentiles, cuantiles, deciles.
Parámetros de forma: indican cómo se distribuyen los datos, respecto al valor central. Este
puede ser asimétricamente o simétrica.
8
4. Distribución de frecuencias
La distribución de datos más usada en estadística es la distribución normal, porque la

frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen
esta distribución, como caracteres morfológicos (peso o talla) o psicológicos (coeficiente
intelectual).
Figura 3. Distribución normal, nivel de confianza e intervalo de confianza. Adaptado de

Devore, J. (2008).
9
4. Distribución de frecuencias
Nivel de confianza
El nivel de confianza determina qué tan seguro se está de la representatividad de la muestra.
Se expresa como un porcentaje y representa con qué frecuencia se encuentra dentro del
intervalo de confianza el porcentaje de la población que elegiría una respuesta.
Intervalo de confianza
El intervalo de confianza es un número positivo y negativo que expresa el grado de dispersión
de los resultados y es la probabilidad de cometer un error, o de equivocarse en la prueba de
hipótesis o la estimación de parámetros; los niveles más comunes son 0.05 y 0.01.
10
5. Construcción de frecuencias (Regla de Sturges)
La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos

que son necesarios para representar gráficamente un conjunto de datos estadísticos.
Es un método empírico utilizado para determinar el número de clases que deben existir en
un histograma de frecuencias, para así poder clasificar un conjunto de datos que representan
una muestra o población.
Ejemplo: Se necesita realizar un histograma de frecuencia de acuerdo a los datos dados, que
corresponden a edades obtenidas en una encuesta realizada a hombres que hacen ejercicios
en un gimnasio de la localidad.
11
Para determinar los intervalos se debe saber cuál es el tamaño de la muestra o el número de
observaciones; en este caso, se tienen 30.
Luego se aplica la regla de Sturges:
A partir del número de intervalos, se puede calcular la amplitud que estos van a tener; es
decir, la anchura de cada barra representada en el histograma de frecuencias:
El límite inferior es considerado como el valor menor de los datos, y el superior es el valor
mayor. La diferencia entre el límite superior e inferior es denominada rango o recorrido de la
variable (R).
12
De la tabla que se dio desde un inicio, se tiene que el límite superior es 46 y el inferior 13; de
esa manera, la amplitud de cada clase será:
De tal manera que ahora se construye una tabla donde se refleje el numero de clases (x) y la
amplitud que estos van a tener.
13
6. Frecuencias relativas
La frecuencia relativa de un valor es la fracción o proporción de veces que ocurre el valor:

Supóngase, por ejemplo, que el conjunto de datos se compone de 200 observaciones de x =
el número de cursos que un estudiante está tomando en este semestre. Si 70 de estos
valores x es 3, entonces:
Para calcular la frecuencia relativa antes es necesario calcular la frecuencia absoluta. Sin ella
no podríamos obtener la frecuencia relativa.
• Frecuencia absoluta del valor x=3 es 70
Frecuencia relativa (hi) = Frecuencia absoluta (fi) / El total de observaciones

• Frecuencia relativa del valor x=3 es → 70/200 = 0.35
Si se multiplica una frecuencia relativa por 100 se obtiene un porcentaje en el ejemplo de
cursos universitarios, 35% de los estudiantes de la muestra están tomando tres cursos.
14
7. Frecuencias relativas acumuladas
La frecuencia relativa acumulada (Hi) es el resultado de ir sumando las frecuencias relativas

de las observaciones o valores de una población o muestra.
Para calcular la frecuencia relativa acumulada, hay que calcular primero la frecuencia
absoluta (fi) y la frecuencia relativa (hi) de los valores de la población o muestra. Para ello, los
datos se ordenan de menor a mayor y se colocan en una tabla.
Una vez hecho esto, la frecuencia relativa acumulada se obtiene de ir sumando las
frecuencias relativas de una clase o grupo de la muestra con la anterior (primer grupo +
segundo grupo, primer grupo + segundo grupo + tercer grupo y así sucesivamente hasta
llegar a acumular del primer grupo al último).
15
Por ejemplo: supongamos que las notas de 20 alumnos del

primer curso de economía son las siguientes:
1,2,8,5,8,3,8,5,6,10,5,7,9,4,10,2,7,6,5,10.
fi = Frecuencia absoluta (número de veces que se repite el
suceso, en este caso la nota del examen).
hi = Frecuencia relativa (proporción que representa el
valor i-ésimo en la muestra).
Hi = Frecuencia relativa acumulada (Sumatorio de la
proporción que representa el valor i-ésimo en la muestra).
16
TABLA DE FRECUENCIAS super fácil - Para principiantes. (febrero 2021) [Vídeo]. YouTube: https://youtu.be/JtB2w0QLRZ4
17
8. Medidas de tendencia central (media, mediana y moda)
Media (promedio). Es la suma de los datos(observaciones) dividido entre el número de datos.
Moda. Es elemento que se repite más veces en el conjunto de datos. Pueda haber 2 modas,
entonces el grupo de observaciones dice que es bimodal.
Mediana. Se ordenan los datos comenzando por el menor hasta el mayor, a continuación se
ubica la posición con la siguiente ecuación: Mediana = (N +1) / 2
Cuando N es impar, la ecuación señala un dato puntualmente. • En el caso de N par, el
resultado de la ecuación ubica la mediana entre dos números del conjunto, por lo cual se
hace el promedio de ambos.
18
8. Medidas de tendencia central (media, mediana y moda)
Ejercicio:
Las alturas (en centímetros) de los 10 alumnos de una clase son 178, 163, 155, 159, 171, 155,
172, 170, 159 y 163.
Ordenamos los datos: 155, 155, 159, 159, 163, 163, 170, 171, 172 y 178.
Como hay un número par de datos, la mediana es la media de los datos de la posición 5 y 6:
(163 +163) / 2 = 163
Observa que hay el mismo número de datos a uno y otro lado de la mediana (4 datos en cada
lado).
La media o promedio es (155+155+159+159+163+163+170+171+172+178)/10 = 164.5cm y
hay tres modas: 155, 159 y 163 (que son los valores que mas veces se repiten).
19
9. Medidas de dispersión (rango, varianza y desviación estándar)
Son aquellos parámetros que miden la desviación de la media (μ); Varianza, Desviación
estándar y Rango.
Varianza: Es la desviación ponderada de la media que tiene el i‐ésimo dato.
• Aquí hay diferencia entre la varianza estimada para una población y para una muestra.
Varianza poblacional: Si x1, x2, . . . xN representan la totalidad de las N observaciones de una
población, entonces la varianza poblacional es:
Del siguiente conjunto de datos calculemos la varianza 2, 3, 3, 5, 7 y 10 según la fórmula y

considerando que el promedio es 5 ya calculado:
(2-5+3-5+3-5+5-5+7-5+10-5) 2 / (6-1) = sumatoria de
((-3)2+(-2)2+(-2)2+(-0)2+(2)2+(5)2) /5 = (9+4+4+0+4+25) / 5=46/5= 9.2
Monitorear la varianza es esencial en las industrias de manufactura y control de calidad,
porque con la reducción de la varianza del proceso aumenta la precisión y disminuye el
número de defectos.
20
Desviación estándar Es la medición de la distancia promedio de los datos con respecto a la

media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.
Ejemplo:
De los datos usados en la varianza ahora obtengamos la desviación estándar de acuerdo con
la fórmula anterior, de tal manera que sólo hay que extraer la raíz cuadrada de la varianza si
la varianza fue de 9.2 y da igual a 3.03.
El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de una

población, mientras que (s) se utiliza para representar la desviación estándar de una muestra.
21
Rango: Es la diferencia entre el dato mayor y el menor

* Mínimo. Es el valor más pequeño del conjunto de datos.
• Máximo. Se refiere al valor más grande del conjunto de datos.
Ejemplo.
Calculemos el rango del conjunto de datos 2, 3, 3, 5, 7 y 10
R (rango)= máximo – mínimo
R= 10-2 lo que nos da 8
22
10. Gráficas
Gráficas de líneas
Cuando una variable cuantitativa se registra en el tiempo a intervalos igualmente espaciados
(por ejemplo diario, semanal, mensual, trimestral o anual), el conjunto de datos forma una
serie de tiempo.
Los datos de una serie de tiempo se presentan con más efectividad en una gráfica de líneas
con el tiempo como eje horizontal. La idea es tratar de distinguir un patrón o tendencia que
sea probable de continuar en el futuro y luego usar ese patrón para hacer predicciones
precisas para el futuro inmediato.
Figura 5. Ejemplos de graficas lineales. Mendenhall (2010).
23
10. Gráficas
Gráficas de puntos
Muchos conjuntos de datos cuantitativos están formados de números que no se pueden
separar fácilmente en categorías o intervalos. Entonces se hace necesaria una forma
diferente de graficar este tipo de datos.
La gráfica más sencilla para datos cuantitativos es la gráfica de puntos. Para un conjunto
pequeño de mediciones, por ejemplo el conjunto 2, 6, 9, 3, 7, 6, se puede simplemente
graficar las mediciones como puntos en un eje horizontal.
Figura 5. Ejemplos de graficas lineales. Mendenhall (2010).
24
10. Gráficas
Gráficas de tallo y hoja
Otra forma sencilla de exhibir la distribución de un conjunto de datos cuantitativos es la gráfica de
tallo y hoja. Esta gráfica presenta una exhibición gráfica de los datos usando los valores numéricos
reales de cada punto de datos.
Figura 7. Ejemplos de gráfica de tallo Mendenhall (2010).
25
10. Gráficas
Un histograma de frecuencia relativa, para un conjunto de datos cuantitativo es una gráfica

de barras en la que la altura de la barra muestra “con qué frecuencia” (medida como
proporción o frecuencia relativa) las mediciones caen en una clase o subintervalo particular.
Las clases o subintervalos se grafican a lo largo del eje horizontal.
Figura 8 Ejemplo de Histograma

Mendenhall (2010).
26
10. Gráficas
Interpretación de gráficas con ojo crítico

Una vez creada una gráfica o gráficas, para un conjunto de datos, ¿qué se debe
buscar al tratar de describir los datos?
• Primero, verificar las escalas horizontales y verticales, de manera que haya
claridad respecto a lo que se mide.
• Examinar el lugar de la distribución de datos. ¿Dónde está el centro de
distribución del eje horizontal? Si se comparan dos distribuciones, ¿están
centradas en el mismo lugar?
• Examinar la forma de la distribución. ¿La distribución tiene un “pico”, un punto
que es más alto que cualquier otro? Si es así, ésta es la medición o categoría que
se presenta con más frecuencia. ¿Hay más de un pico? ¿Hay un número
aproximadamente igual de mediciones a la izquierda y derecha del pico?
• Buscar cualesquiera mediciones poco comunes o resultados atípicos. Esto es,
¿hay mediciones mucho mayores o menores que todas las otras? Estos resultados
atípicos pueden no ser representativos de los otros valores del conjunto.
27
11. Solución de casos aplicando hojas de cálculo
Cálculo de parâmetros estadísticos usando Excel 365.
28
11. Solución de casos aplicando hojas de cálculo
29
Referencias
• Devore, J. (2008). Probabilidad y estadística para ingeniería y ciencias. 7ma edición,

Cengage Learning
• Carreón, D. (febrero 2021). TABLA DE FRECUENCIAS super fácil - Para principiantes.
[Video] YouTube. https://youtu.be/JtB2w0QLRZ4
• Mendenhall, W. (2010). Introducción a la probabilidad y estadística. 13va edición,
Cengage Learning.
• Excel (2019). Ayuda Excel 365 (2019), Formulas para calcular parámetros estadísticos.
30

Sesión 1 Estadística Descriptiva

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sesión 1 Estadística Descriptiva

Cargado por

Copyright:

Formatos disponibles

PONDERACIONES

JESÚS NARANJO TREJO

COMUNICACIÓN SOLO POR LA

LAS SESIONES NO SON OBLIGATORIAS

Revisar las fechas limites de entrega y respetarlas, ya que no hay prorrogas.

Revisar el material en plataforma, la descripción de la actividad y la rúbrica.

Figura 1 Representación de una muestra, población y tipos de muestras. Adaptado de Devore, J.

Variable independiente: el investigador manipula esta variable en el experimento o

Variable dependiente: es el resultado que se espera medir cuando se manipula a la variable

En las variables discretas no puede haber posiciones intermedias, pues su variabilidad se da

El parámetro estadístico es una medida descriptiva o representativa de la población,

Figura 2. Tipos de parámetros estadísticos. Adaptado de Devore, J. (2008).

Parámetros de centralización: tienden a estar localizados en el centro de la distribución de

Parámetros de posición: indican la situación de algunos valores importantes en a distribución.

La distribución de datos más usada en estadística es la distribución normal, porque la

Figura 3. Distribución normal, nivel de confianza e intervalo de confianza. Adaptado de

La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos

La frecuencia relativa de un valor es la fracción o proporción de veces que ocurre el valor:

Frecuencia relativa (hi) = Frecuencia absoluta (fi) / El total de observaciones

La frecuencia relativa acumulada (Hi) es el resultado de ir sumando las frecuencias relativas

Por ejemplo: supongamos que las notas de 20 alumnos del

Media (promedio). Es la suma de los datos(observaciones) dividido entre el número de datos.

Del siguiente conjunto de datos calculemos la varianza 2, 3, 3, 5, 7 y 10 según la fórmula y

Desviación estándar Es la medición de la distancia promedio de los datos con respecto a la

El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de una

Rango: Es la diferencia entre el dato mayor y el menor

Figura 5. Ejemplos de graficas lineales. Mendenhall (2010).

Figura 5. Ejemplos de graficas lineales. Mendenhall (2010).

Figura 7. Ejemplos de gráfica de tallo Mendenhall (2010).

Un histograma de frecuencia relativa, para un conjunto de datos cuantitativo es una gráfica

Figura 8 Ejemplo de Histograma

Interpretación de gráficas con ojo crítico

Cálculo de parâmetros estadísticos usando Excel 365.

• Devore, J. (2008). Probabilidad y estadística para ingeniería y ciencias. 7ma edición,

También podría gustarte