Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Guía Unidad 1 - Datos y Descriptiva
Guía Unidad 1 - Datos y Descriptiva
TEMA: DATOS
A manera de introducción se presentarán una serie de definiciones que serán de mucha utilidad para
el desarrollo del módulo.
Estadística:
Es una ciencia formal que se encarga del estudio de una determinada característica a través del uso
y los análisis provenientes de una población de datos, busca explicar las relaciones en los fenómenos.
Es posible hablar de dos tipos o ramas de la estadística:
Descriptiva: realiza estudios sobre poblaciones completas, a través del cálculo de parámetros
que den información completa.
Inferencial: realiza estudios sobre un subconjunto llamado muestra y proyecta los resultados
a toda la población.
Población
Es la colección completa de todos los elementos a estudiar, cuando se realiza una medición numérica
de una población esta se denomina parámetro.
Muestra
Es un subconjunto de miembros seleccionados de la población, cuando se realiza una medición
numérica de una población esta se denomina estadístico.
Datos discretos: corresponde a aquellos que tienen un número finito o bien son posibles de
contar. Ejm: el número de prendas en una producción.
Datos continuos: resultan de un número infinito de posibles valores que pueden asociarse a
puntos de una escala continua, sin interrupciones. Ejm: la cantidad de leche que produce una
vaca.
Distribución de frecuencias: lista de valores de datos (ya sea de manera individual o por grupos de
intervalos) junto con sus frecuencias (o conteos) correspondientes,
Ejemplo:
Se toman los datos obtenidos en una encuesta de satisfacción:
xi fi Fi hi Hi
xi : Dato
fi : Frecuencia absoluta
Fi: Frecuencia absoluta acumulada
hi : Frecuencia relativa
Hi: Frecuencia relativa acumulada
Datos agrupados; realizamos grupos o clases de datos para analizar su comportamiento.
Procedimiento:
1. Decida el número de clases que desea tener, se sugiere entre 5 y 20. Puede utilizarse la regla
de Sturges
𝑐 = 1 + 3,322 ∗ 𝐿𝑜𝑔 𝑁
2. Calcular la anchura de la clase como: valor más alto menos valor más bajo, dividido en el
número de clases,
3. Determine el valor más bajo y luego proceda los límites de cada clase
4. Construya una tabla de frecuencias donde se incluya: Clases, marca de clase, frecuencia
absoluta, frecuencia relativa, frecuencia acumulada, frecuencia acumulada relativa.
5. Con base en los datos construya un histograma
xi Xi fi Fi hi Hi
Xi : Marca de clase
∑𝑛𝑖=1 𝑥𝑖
𝑥=
𝑁
∑𝑛𝑖=1 𝑥𝑖 ∗ 𝑓𝑖
𝑥=
𝑁
Mediana: medida de tendencia central que implica el valor que está en medio. Para datos no
agrupados, simplemente se ordenan y se determina directamente, para datos agrupados se
determina en que clase se encuentra realizando (N/2) y luego se aplica la ecuación:
𝑁
− 𝐹𝑖−1
𝑀𝑒 = 𝐿𝑖 + 𝐴 ( 2 )
𝑓𝑖
Moda: valor que ocurre con mayor frecuencia, un conjunto de datos puede ser bimodal o
multimodal. En el caso de datos no agrupados se revisa la mayor frecuencia absoluta. En
caso de datos agrupados se aplica la siguiente ecuación:
∆1
𝑀𝑜 = 𝐿𝑖 + 𝐴 ( )
∆1 + ∆2
Donde:
∆1 = 𝑓𝑖 − 𝑓𝑖−1
∆2 = 𝑓𝑖 − 𝑓𝑖+1
Mitad de rango: Se constituye en el valor que está a medio camino, entre el puntaje más alto
y más bajo.
𝑣𝑀 + 𝑣𝑚
𝑀𝑟 =
2
Medidas de variación: aquellas que determinan como varían los datos al interior de una población o
muestra.
Rango: es la diferencia entre el valor máximo y el valor mínimo 𝒗𝑴 − 𝒗𝒎
Desviación estándar: medida de variación de los valores con respecto a la media
∑(𝑥𝑖 − 𝑥)2
𝑠=√
𝑁−1
∑(𝑥𝑖 − 𝑥)2 ∗ 𝑓𝑖
𝑠=√
𝑁−1
2
∑(𝑥𝑖 − 𝑥)2
𝑠 =
𝑁−1
2
∑(𝑥𝑖 − 𝑥)2 ∗ 𝑓𝑖
𝑠 =
𝑁−1
Coeficiente de correlación: medida que indica la situación relativa de los mismos sucesos
respecto a las variables, es decir, el grado de relación entre las 2 variables, su valor siempre
está entre -1(correlación negativa, grande y perfecta) y 1(correlación positiva, grande y
perfecta), el cero corresponde a correlación nula.
Donde:
𝑥 = 𝑥𝑖 − 𝑥 ; 𝑦 = 𝑦𝑖 − 𝑦
Cuando se trata de comparar dos a más proyectos en los cuales sus valores son
diferentes, se utiliza el coeficiente de variación para realizar el análisis de
proyectos financieros. Para escoger el mejor proyecto se toma el que tiene
menor coeficiente de variación, ya que este es el que tiene un menor riesgo.
Medidas de posición relativa: aquellas que pueden utilizarse para comparar valores de diferentes
conjuntos de datos o para comparar valores dentro del mismo conjunto de datos.
𝑥𝑖 − 𝑥
𝑧=
𝑠
Cuantiles: son medidas que dividen un grupo de datos en m partes iguales, los más conocidos
son los cuartiles, deciles y percentiles.
o Cuartiles: los cuartiles dividen los valores ordenados en cuatro partes iguales Q 1
corresponde al 25%, Q2 al 50%, Q3 al 75%.
Donde Q1 es el 25%, el valor que se obtiene es el número del dato que nos representa el primer 25%
del total de los datos, por ejemplo, para un conjunto de 30 datos tendríamos que
25%
40 ∗
100
Lo que corresponde a 10 es decir, el dato en la posición 10 del conjunto de datos divide el primer 25%
del total de los mismos.
Por ejemplo, si se analiza un conjunto de datos donde se presenta el salario de 40 empleados en una
empresa y el dato 10 corresponde a $1.200.000, esto quiere decir que el 25% de los empleados ganan
menos o igual a $1.200.000 mensualmente y por correspondencia también puedo decir que el 75%
ganan $1.200.000 o más.
o Deciles y percentiles: los deciles dividen en 10 partes iguales y los percentiles en 100.
Rectas de regresión
En la administración, las decisiones suelen basarse en la relación entre dos o más variables. Por
ejemplo, observar la relación entre el gasto en publicidad y las ventas puede permitir a un gerente de
mercadotecnia tratar de predecir las ventas correspondientes a un determinado gasto en publicidad.
O, una empresa de servicios públicos puede emplear la relación entre la temperatura diaria y la
demanda de electricidad para predecir la demanda de electricidad considerando las temperaturas
diarias que se esperan el mes siguiente. Algunas veces los directivos se apoyan en la intuición para
juzgar la relación entre dos variables. Sin embargo, cuando es posible tener datos, puede emplearse
un procedimiento estadístico llamado análisis de regresión para obtener una ecuación que indique
cuál es la relación entre las variables.
𝑦 = 𝛽0 + 𝛽1 𝑋 + 𝐸
Donde 𝛽0 + 𝛽1 son los parámetros del modelo y E es el error, aquí nos representa la variabilidad
que no puede ser explicada por la relación lineal entre X y Y.
Cuando la relación entre las variables es simple, la ecuación se denomina “ecuación de regresión
lineal simple” y se presenta como:
𝑦 = 𝛽0 + 𝛽1 𝑋
Esta ecuación representa una línea recta; β0 es la intersección de la recta de regresión con el eje Y,
β1 es la pendiente y Y es la media o valor esperado de Y para un valor dado de X.
El dueño de una cadena de restaurantes ubica sus sedes cerca de universidades, decide recoger
datos respecto de ventas trimestrales, respecto del número de estudiantes en la universidad cercana
Estos datos se pueden representar mediante una gráfica en los ejes X y Y, en la cual se coloque la
variable independiente en el eje X y la dependiente en el eje Y; en este caso las ventas dependen del
número de estudiantes, por lo tanto se obtiene:
Donde:
Y: Valor estimado de las ventas trimestrales
𝛽0: intersección de la recta de regresión con el eje Y
𝛽1: pendiente de la recta de regresión
X: tamaño de la población de estudiantes
Para calcular cada valor tenemos que:
∑(𝑥𝑖 − 𝑥) (𝑦𝑖 − 𝑦)
𝛽1 = 𝑦
∑(𝑥𝑖 − 𝑥)2
𝛽0 = 𝑦 − 𝛽1 𝑥
140
𝑥= = 14
10
1300
𝑦= = 130
10
Se utiliza la tabla presentada y con estos valores es posible determinar por tanto que:
𝛽1 = 5 𝑦
𝛽0 = 60
Y = 60 + 5X
Y = 60 + 5(16)
Y = 140