Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Abril 2023
1 Introducción
La estadística es una rama de las matemáticas que se encarga de recolectar, organizar, analizar e interpretar datos numéricos
con el objetivo de extraer información útil y tomar decisiones basadas en dicha información. La estadística se divide en dos áreas
principales: la estadística descriptiva y la estadística inferencial.
La estadística descriptiva se ocupa de resumir y describir los datos obtenidos de una muestra o población. Utiliza grácos,
tablas y medidas numéricas para representar y analizar las características de los datos. Algunas de las medidas utilizadas en la
estadística descriptiva incluyen las medidas de tendencia central, como la media, mediana y moda, y las medidas de dispersión,
como el rango, la varianza y la desviación estándar.
Por otro lado, la estadística inferencial busca hacer generalizaciones y conclusiones acerca de una población basándose en la
información de una muestra extraída de dicha población. Esto se logra a través de la estimación de parámetros y la realización
de pruebas de hipótesis. La estadística inferencial es fundamental en la investigación cientíca y en la toma de decisiones en
diversos campos, ya que permite tomar decisiones informadas a partir de datos limitados.
La estadística, tanto descriptiva como inferencial, es de vital importancia en la administración pública en Colombia. La
toma de decisiones en políticas públicas, la asignación de recursos y la evaluación de programas gubernamentales dependen en
gran medida de la capacidad de analizar y comprender los datos. La utilización adecuada de la estadística en la administración
pública permite mejorar la eciencia y efectividad de las acciones gubernamentales, así como garantizar una mayor transparencia
y rendición de cuentas ante la ciudadanía.
En esta guía, se abordarán conceptos básicos de estadística que servirán como fundamento para el estudio de temas más
avanzados en así como para su aplicación en la administración y política pública colombiana.
2 Clase 1:
Introducción a Conceptos de la Estadística Básica
Muestra: Subconjunto de la población que se selecciona para realizar el estudio. Por ejemplo, 100 estudiantes elegidos al
azar de una universidad.
2.2 Variables
Variable: Característica que varía entre los individuos de una población o muestra. Pueden ser cuantitativas o cualitativas.
1. Cuantitativas: Se expresan mediante números y pueden ser discretas (valores contables) o continuas (valores medibles).
2. Cualitativas: Se expresan mediante atributos o categorías y pueden ser nominales (sin orden) u ordinales (con orden).
Población, muestra y tipos de variables
Video sobre Interpretación de población, muestra y tipos de variable en YouTube
2.3 Medidas de tendencia central (media, mediana, moda) y dispersión (varianza, desviación
estándar)
1. Media arítmetica Las medidas de tendencia central son una técnica utilizada para representar el valor típico de un conjunto
de datos. La media aritmética es la medida de tendencia central más común, y se calcula sumando todos los valores y
dividiéndolos por el número total de datos. La ecuación para calcular la media aritmética es:
Pn
i=1 xi
x̄ =
n
Donde x es el conjunto de datos y n es el número de datos en la muestra.
Ejemplo:
Considere un conjunto de datos con los siguientes valores: 1, 3, 5, 7, 9. La media aritmética se puede calcular utilizando
la siguiente fórmula:
P5
i=1 xi 1+3+5+7+9 25
x̄ = = = =5
5 5 5
En este caso, la media aritmética es de 5. Esto signica que el valor central de los datos es 5.
2. Mediana La mediana, por su parte, es el valor que divide al conjunto de datos en dos partes iguales. La moda es el valor
que aparece con mayor frecuencia en el conjunto de datos.
Considere una muestra de 7 números enteros: 1, 2, 3, 4, 5, 6, y 7. Para calcular la mediana de esta muestra, se deben
ordenar los datos en forma ascendente o descendente. En este caso, se ordenarán en forma ascendente:
1, 2, 3, 4, 5, 6, 7
La mediana es el valor que se encuentra en el centro de la distribución, es decir, el cuarto valor de la muestra. En este
caso, la mediana es 4.
En conclusión, para calcular la mediana de una muestra se deben ordenar los datos y encontrar el valor que se encuentra
en el centro de la distribución. En este ejemplo, la mediana de la muestra fue 4.
1. Rango: Diferencia entre el valor máximo (xmax ) y mínimo (xmin ) de un conjunto de datos.
2. Varianza (σ 2 ): Promedio de las diferencias al cuadrado entre cada valor del conjunto de datos (xi ) y la media (x̄).
Σ(xi − x̄)2
σ2 =
n
Ejemplo:
Considere una muestra de 5 personas con las siguientes edades: 20, 22, 24, 18, 26. Para calcular la varianza de las edades,
primero se calcula la media aritmética:
20 + 22 + 24 + 18 + 26
µ= = 22
5
Luego, se calculará la suma de los cuadrados de las desviaciones de cada dato respecto a la media:
40
σ2 = =8
5
La varianza de las edades es de 8 años cuadrados. Esto signica que la dispersión de las edades en la muestra es de 8 años
cuadrados.
3. Desviación estándar (σ ): Raíz cuadrada de la varianza.
√
σ= σ2
Ejemplo:
Considere una muestra de 5 estudiantes, en la cual se ha recolectado información sobre la cantidad de horas que dedican
a estudiar por semana. Los resultados muestran los siguientes valores: 10 horas, 12 horas, 8 horas, 9 horas y 11 horas.
10 + 12 + 8 + 9 + 11
x̄ = = 10
5
Luego, se puede calcular la desviación estándar utilizando la siguiente fórmula:
r
(10 − 10)2 + (12 − 10)2 + (8 − 10)2 + (9 − 10)2 + (11 − 10)2
σ= = 1.5811
5−1
En este caso, la desviación estándar es de 1.5811 horas. Esto signica que la mayoría de los estudiantes dedican alrededor
de 10 ± 1.58 horas a estudiar por semana.
La desviación estándar es una medida importante de la variabilidad de una distribución de datos, ya que permite conocer
la dispersión de los datos en torno a la media.
Ejemplo:
Considere una muestra de 100 personas, en la cual se ha recolectado información sobre el género. Los resultados muestran
que 50 personas son hombres y 50 son mujeres. En este caso, la frecuencia de la categoría "masculino" es de 50 personas.
2. Frecuencia Absoluta
La frecuencia absoluta es el número de veces que un valor determinado ocupa una categoría especíca. Por ejemplo, en
una muestra de 100 personas, la frecuencia absoluta de la categoría "masculino" sería el número de hombres en la muestra.
Ejemplo:
f
fr = × 100%
n
Donde f r es la frecuencia relativa, f es la frecuencia absoluta y n es el número de datos en la muestra.
Ejemplo:
Considere el mismo ejemplo anterior. La frecuencia relativa de la categoría "masculino" se puede calcular utilizando la
siguiente fórmula:
50
fr = × 100% = 50%
100
En este caso, la frecuencia relativa de la categoría "masculino" es de 50%.
4. Frecuencia Acumulada
La frecuencia acumulada es la suma acumulada de las frecuencias relativas o absolutas. Por ejemplo, en una muestra de
100 personas,la frecuencia acumulada de la categoría "masculino" sería el número acumulado de hombres en la muestra.
Ejemplo:
Considere el mismo ejemplo anterior. La frecuencia acumulada de la categoría "masculino" se puede calcular como la
suma acumulada de las frecuencias absolutas. Por ejemplo, si se quiere calcular la frecuencia acumulada hasta la categoría
"masculino", se sumarían las frecuencias absolutas de todas las categorías anteriores.
Además, las medidas de frecuencias son esenciales para construir histogramas y otras representaciones grácas de la distribu-
ción de una variable. Estos grácos permiten visualizar la forma y la tendencia de la distribución, lo que facilita la interpretación
de los resultados de un análisis estadístico.
En conclusión, las medidas de frecuencias son una parte fundamental de la estadística y son esenciales para describir y analizar
la distribución de una variable. Es importante conocerlas y saber cómo interpretarlas como parámetros estadísticos para poder
utilizarlas adecuadamente en un análisis estadístico.
Bibliografía:
3.2 Histograma
Un histograma es un gráco que representa la distribución de una variable. Se divide el rango de valores de la variable en
intervalos o "bins", y se representa la frecuencia con la que cada valor cae dentro de cada bin en forma de barras. Este gráco
es útil para visualizar la forma de la distribución y determinar si es normal o no.
En conclusión, los grácos estadísticos son una herramienta valiosa para la representación y el análisis de datos. Al elegir
el tipo correcto de gráco para representar sus datos, puede obtener una comprensión más profunda y clara de los patrones y
tendencias presentes en los datos.
Existen dos tipos principales de medidas de correlación: la correlación lineal y la correlación no lineal. La correlación lineal
se reere a la relación lineal entre dos variables, mientras que la correlación no lineal se reere a cualquier otra relación que no
sea lineal.
La correlación lineal se puede medir con dos medidas estadísticas principales: la correlación de Pearson y la correlación de
Spearman.
1. La correlación de Pearson (r) se utiliza para medir la relación lineal entre dos variables continuas. La fórmula para
calcular la correlación de Pearson es la siguiente:
n
P
(xi − x̄)(yi − ȳ)
i=1
r= (1)
(n − 1)sx sy
donde x e y son las dos variables, x̄ e ȳ son las medias de x e y , n es el número de observaciones, y sx e sy son las
desviaciones estándar de x e y .
La correlación de Pearson varía entre -1 y 1, donde -1 indica una correlación negativa perfecta, 1 indica una correlación
positiva perfecta y 0 indica que no existe correlación entre las variables.
2. La correlación de Spearman (rs) se utiliza para medir la relación lineal entre dos variables ordinales o continuas. La
fórmula para calcular la correlación de Spearman es la siguiente:
n
d2i
P
6
i=1
rs = 1 − (2)
n(n2 − 1)
donde d es la diferencia entre las posiciones de las variables en la escala ordinal, y n es el número de observaciones.
Además de estas medidas, también existen otras medidas de correlación, como la correlación de Kendall y la correlación de
Point-Biserial, que se utilizan en situaciones especícas.
La correlación es una medida estadística que se utiliza para medir la relación entre dos variables. Una forma común de medir
la correlación es mediante el coeciente de correlación r , que puede tomar valores entre -1 y 1. Un coeciente de correlación r
de 1 indica una correlación positiva perfecta, un coeciente de correlación de 0 indica que no hay correlación, y un coeciente
de correlación de -1 indica una correlación negativa perfecta. Sin embargo, hay otras medidas de correlación, como el coeciente
de contingencia o el coeciente de correlación de rangos de Spearman.
Otra medida de correlación es la prueba de chi cuadrado, que se utiliza para determinar si hay una relación signicativa entre
dos variables categóricas. La prueba de chi cuadrado se basa en la comparación de las frecuencias observadas con las frecuencias
esperadas bajo la hipótesis nula de independencia. La fórmula para la prueba de chi cuadrado es:
r X c
X (Oij − Eij )2
χ2 = , (3)
i=1 j=1
Eij
donde Oij es la frecuencia observada en la la i y columna j , Eij es la frecuencia esperada bajo la hipótesis nula, r es el
número de las y c es el número de columnas.
Por ejemplo, supongamos que queremos saber si hay una relación signicativa entre el género y el tipo de deporte que preeren
las personas. Recolectamos datos de una muestra de 100 personas y obtenemos los siguientes resultados:
(20 − 12)2 (15 − 13)2 (5 − 5)2 (25 − 33)2 (20 − 22)2 (10 − 10)2
χ2 = + + + + + = 4.52 (5)
12 13 5 33 22 10
Podemos utilizar la distribución chi cuadrado para determinar la signicancia estadística de la prueba. Si utilizamos un
nivel de signicancia del 5%,podemos comparar el valor de la prueba de chi cuadrado con el valor crítico de la distribución chi
cuadrado con (r − 1) · (c − 1) grados de libertad. En este caso, hay (2 − 1) · (3 − 1) = 2 grados de libertad. El valor crítico de la
distribución chi cuadrado con 2 grados de libertad y un nivel de signicancia del 5% es aproximadamente 5.99. Como el valor
de la prueba de chi cuadrado (4.52) es menor que el valor crítico (5.99), no podemos rechazar la hipótesis nula de independencia
entre el género y el tipo de deporte. Esto signica que no hay evidencia suciente para concluir que hay una relación signicativa
entre el género y el tipo de deporte que preeren las personas en nuestra muestra.
En resumen, la prueba de chi cuadrado es una medida de correlación que se utiliza para determinar si hay una relación
lineal signicativa entre dos variables categóricas. Se basa en la comparación de las frecuencias observadas con las frecuencias
esperadas bajo la hipótesis nula de independencia. La prueba de chi cuadrado se utiliza en situaciones en las que las variables
son categóricas y se desea determinar si hay una relación entre ellas, como en el ejemplo anterior de género y deporte preferido.
En resumen, las medidas de correlación son una herramienta importante para determinar la relación entre dos variables y
pueden ser útiles en una variedad de contextos, desde la investigación social hasta la toma de decisiones empresariales.