Está en la página 1de 8

Notas de Clase

Métodos Cuantitativos y de datos


Escuela de Política y Relaciones Internacionales
Universidad Sergio Arboleda
Andrés Felipe Méndez-Arenas, MSc.

Abril 2023

1 Introducción
La estadística es una rama de las matemáticas que se encarga de recolectar, organizar, analizar e interpretar datos numéricos
con el objetivo de extraer información útil y tomar decisiones basadas en dicha información. La estadística se divide en dos áreas
principales: la estadística descriptiva y la estadística inferencial.

La estadística descriptiva se ocupa de resumir y describir los datos obtenidos de una muestra o población. Utiliza grácos,
tablas y medidas numéricas para representar y analizar las características de los datos. Algunas de las medidas utilizadas en la
estadística descriptiva incluyen las medidas de tendencia central, como la media, mediana y moda, y las medidas de dispersión,
como el rango, la varianza y la desviación estándar.

Por otro lado, la estadística inferencial busca hacer generalizaciones y conclusiones acerca de una población basándose en la
información de una muestra extraída de dicha población. Esto se logra a través de la estimación de parámetros y la realización
de pruebas de hipótesis. La estadística inferencial es fundamental en la investigación cientíca y en la toma de decisiones en
diversos campos, ya que permite tomar decisiones informadas a partir de datos limitados.

La estadística, tanto descriptiva como inferencial, es de vital importancia en la administración pública en Colombia. La
toma de decisiones en políticas públicas, la asignación de recursos y la evaluación de programas gubernamentales dependen en
gran medida de la capacidad de analizar y comprender los datos. La utilización adecuada de la estadística en la administración
pública permite mejorar la eciencia y efectividad de las acciones gubernamentales, así como garantizar una mayor transparencia
y rendición de cuentas ante la ciudadanía.

En esta guía, se abordarán conceptos básicos de estadística que servirán como fundamento para el estudio de temas más
avanzados en así como para su aplicación en la administración y política pública colombiana.

2 Clase 1:
Introducción a Conceptos de la Estadística Básica

2.1 Población y muestra


ˆ Población: Conjunto total de individuos, objetos o eventos que se estudian en una investigación. Por ejemplo, todos los
estudiantes de una universidad.

ˆ Muestra: Subconjunto de la población que se selecciona para realizar el estudio. Por ejemplo, 100 estudiantes elegidos al
azar de una universidad.

2.2 Variables
ˆ Variable: Característica que varía entre los individuos de una población o muestra. Pueden ser cuantitativas o cualitativas.

1. Cuantitativas: Se expresan mediante números y pueden ser discretas (valores contables) o continuas (valores medibles).
2. Cualitativas: Se expresan mediante atributos o categorías y pueden ser nominales (sin orden) u ordinales (con orden).
Población, muestra y tipos de variables
Video sobre Interpretación de población, muestra y tipos de variable en YouTube

2.3 Medidas de tendencia central (media, mediana, moda) y dispersión (varianza, desviación
estándar)
1. Media arítmetica Las medidas de tendencia central son una técnica utilizada para representar el valor típico de un conjunto
de datos. La media aritmética es la medida de tendencia central más común, y se calcula sumando todos los valores y
dividiéndolos por el número total de datos. La ecuación para calcular la media aritmética es:
Pn
i=1 xi
x̄ =
n
Donde x es el conjunto de datos y n es el número de datos en la muestra.

Ejemplo:
Considere un conjunto de datos con los siguientes valores: 1, 3, 5, 7, 9. La media aritmética se puede calcular utilizando
la siguiente fórmula:
P5
i=1 xi 1+3+5+7+9 25
x̄ = = = =5
5 5 5
En este caso, la media aritmética es de 5. Esto signica que el valor central de los datos es 5.
2. Mediana La mediana, por su parte, es el valor que divide al conjunto de datos en dos partes iguales. La moda es el valor
que aparece con mayor frecuencia en el conjunto de datos.

Considere una muestra de 7 números enteros: 1, 2, 3, 4, 5, 6, y 7. Para calcular la mediana de esta muestra, se deben
ordenar los datos en forma ascendente o descendente. En este caso, se ordenarán en forma ascendente:

1, 2, 3, 4, 5, 6, 7

La mediana es el valor que se encuentra en el centro de la distribución, es decir, el cuarto valor de la muestra. En este
caso, la mediana es 4.

En conclusión, para calcular la mediana de una muestra se deben ordenar los datos y encontrar el valor que se encuentra
en el centro de la distribución. En este ejemplo, la mediana de la muestra fue 4.

2.4 Medidas de Dispersión


Medidas que indican cuán dispersos están los valores de un conjunto de datos en relación con la medida de tendencia central.

1. Rango: Diferencia entre el valor máximo (xmax ) y mínimo (xmin ) de un conjunto de datos.

Rango = xmax − xmin

2. Varianza (σ 2 ): Promedio de las diferencias al cuadrado entre cada valor del conjunto de datos (xi ) y la media (x̄).

Σ(xi − x̄)2
σ2 =
n
Ejemplo:
Considere una muestra de 5 personas con las siguientes edades: 20, 22, 24, 18, 26. Para calcular la varianza de las edades,
primero se calcula la media aritmética:

20 + 22 + 24 + 18 + 26
µ= = 22
5
Luego, se calculará la suma de los cuadrados de las desviaciones de cada dato respecto a la media:

(x1 − µ)2 = (20 − 22)2 = 4


(x2 − µ)2 = (22 − 22)2 = 0
(x3 − µ)2 = (24 − 22)2 = 4
(x4 − µ)2 = (18 − 22)2 = 16
(x5 − µ)2 = (26 − 22)2 = 16
La suma de los cuadrados de las desviaciones es de 40. Finalmente, se divide la suma por el número de datos (n = 5) para
obtener la varianza:

40
σ2 = =8
5
La varianza de las edades es de 8 años cuadrados. Esto signica que la dispersión de las edades en la muestra es de 8 años
cuadrados.
3. Desviación estándar (σ ): Raíz cuadrada de la varianza.

σ= σ2

Ejemplo:

Considere una muestra de 5 estudiantes, en la cual se ha recolectado información sobre la cantidad de horas que dedican
a estudiar por semana. Los resultados muestran los siguientes valores: 10 horas, 12 horas, 8 horas, 9 horas y 11 horas.

Para calcular la desviación estándar, primero se debe calcular la media aritmética:

10 + 12 + 8 + 9 + 11
x̄ = = 10
5
Luego, se puede calcular la desviación estándar utilizando la siguiente fórmula:
r
(10 − 10)2 + (12 − 10)2 + (8 − 10)2 + (9 − 10)2 + (11 − 10)2
σ= = 1.5811
5−1
En este caso, la desviación estándar es de 1.5811 horas. Esto signica que la mayoría de los estudiantes dedican alrededor
de 10 ± 1.58 horas a estudiar por semana.

La desviación estándar es una medida importante de la variabilidad de una distribución de datos, ya que permite conocer
la dispersión de los datos en torno a la media.

2.5 Medidas de Frecuencias como Parámetros Estadísticos


Las medidas de frecuencias son una parte fundamental de la estadística, ya que permiten describir y analizar la distribución
de una variable. En esta sección, se explicarán las medidas de frecuencias más comunes y su interpretación como parámetros
estadísticos, con ejemplos prácticos para ilustrar su uso.
1. Frecuencia
La frecuencia es el número de veces que un valor determinado ocupa una categoría especíca. Por ejemplo, en una muestra
de 100 personas, la frecuencia de la categoría "masculino" sería el número de hombres en la muestra.

Ejemplo:

Considere una muestra de 100 personas, en la cual se ha recolectado información sobre el género. Los resultados muestran
que 50 personas son hombres y 50 son mujeres. En este caso, la frecuencia de la categoría "masculino" es de 50 personas.
2. Frecuencia Absoluta
La frecuencia absoluta es el número de veces que un valor determinado ocupa una categoría especíca. Por ejemplo, en
una muestra de 100 personas, la frecuencia absoluta de la categoría "masculino" sería el número de hombres en la muestra.

Ejemplo:

Considere el mismo ejemplo anterior. La frecuencia absoluta de la categoría "masculino" es de 50 personas.


3. Frecuencia Relativa
La frecuencia relativa es el porcentaje de veces que un valor determinado ocupa una categoría especíca. Se puede calcular
utilizando la siguiente fórmula:

f
fr = × 100%
n
Donde f r es la frecuencia relativa, f es la frecuencia absoluta y n es el número de datos en la muestra.

Ejemplo:

Considere el mismo ejemplo anterior. La frecuencia relativa de la categoría "masculino" se puede calcular utilizando la
siguiente fórmula:

50
fr = × 100% = 50%
100
En este caso, la frecuencia relativa de la categoría "masculino" es de 50%.

4. Frecuencia Acumulada
La frecuencia acumulada es la suma acumulada de las frecuencias relativas o absolutas. Por ejemplo, en una muestra de
100 personas,la frecuencia acumulada de la categoría "masculino" sería el número acumulado de hombres en la muestra.

Ejemplo:

Considere el mismo ejemplo anterior. La frecuencia acumulada de la categoría "masculino" se puede calcular como la
suma acumulada de las frecuencias absolutas. Por ejemplo, si se quiere calcular la frecuencia acumulada hasta la categoría
"masculino", se sumarían las frecuencias absolutas de todas las categorías anteriores.

Importancia de las Medidas de Frecuencias como Parámetros Estadísticos


Las medidas de frecuencias son importantes como parámetros estadísticos porque permiten describir y analizar la distribución
de una variable. Por ejemplo, las frecuencias absolutas y relativas permiten conocer la proporción de datos en cada categoría,
mientras que las frecuencias acumuladas permiten conocer la tendencia de la distribución.

Además, las medidas de frecuencias son esenciales para construir histogramas y otras representaciones grácas de la distribu-
ción de una variable. Estos grácos permiten visualizar la forma y la tendencia de la distribución, lo que facilita la interpretación
de los resultados de un análisis estadístico.

En conclusión, las medidas de frecuencias son una parte fundamental de la estadística y son esenciales para describir y analizar
la distribución de una variable. Es importante conocerlas y saber cómo interpretarlas como parámetros estadísticos para poder
utilizarlas adecuadamente en un análisis estadístico.

Bibliografía:

- Field, A. (2009). Discovering statistics using SPSS (3rd ed.). Sage.


- Johnson, R. A., Wichern, D. W. (2007). Applied multivariate statistical analysis (6th ed.). Pearson Prentice Hall.

Construcción de una tabla de datos de fecuencias


Video sobre Interpretación de Parámetros Estadísticos en YouTube

3 Clase 2 - Grácos Estadísticos y Medidas de Correlación


Los grácos estadísticos son una herramienta visual valiosa para representar y analizar datos. A través de ellos, podemos
comprender de manera más clara y fácil patrones, tendencias y distribuciones en los datos. En esta sección, discutiremos los
tipos más comunes de grácos estadísticos y su uso en la interpretación de datos.
3.1 Diagrama de Dispersión
El diagrama de dispersión es un gráco que muestra la relación entre dos variables. Se representan dos variables en los ejes X e
Y, y se dibuja un punto para cada observación en el conjunto de datos. Este gráco es útil para identicar patrones y relaciones
lineales o no lineales entre las variables.

Figure 1: Ejemplo de un diagrama de dispersión

3.2 Histograma
Un histograma es un gráco que representa la distribución de una variable. Se divide el rango de valores de la variable en
intervalos o "bins", y se representa la frecuencia con la que cada valor cae dentro de cada bin en forma de barras. Este gráco
es útil para visualizar la forma de la distribución y determinar si es normal o no.

Figure 2: Ejemplo de un histograma

3.3 Diagrama de Barras


El diagrama de barras es un gráco que representa la comparación de valores de una variable. Cada barra representa un valor
diferente de la variable, y su altura representa el valor correspondiente. Este gráco es útil para comparar valores de una variable
entre diferentes grupos o categorías.

Figure 3: Ejemplo de un diagrama de barras

3.4 Gráco de Pastel


El gráco de pastel es un gráco circular que representa la proporción de diferentes categorías en un conjunto de datos. Cada
sector del gráco representa una categoría diferente, y su tamaño representa la proporción de datos que caen dentro de esa
categoría. Este gráco es útil para comparar las proporciones de diferentes categorías en un conjunto de datos.

Figure 4: Ejemplo de un gráco de pastel

En conclusión, los grácos estadísticos son una herramienta valiosa para la representación y el análisis de datos. Al elegir
el tipo correcto de gráco para representar sus datos, puede obtener una comprensión más profunda y clara de los patrones y
tendencias presentes en los datos.

Construcción de grácos estadísticos paso a paso


Video sobre Grácos Estadísticos en YouTube

3.5 Medidas de Correlación


Las medidas de correlación son una herramienta fundamental en la estadística para determinar la relación entre dos variables.
Estas medidas permiten identicar si existe una relación lineal o no lineal entre dos variables y, si existe, su dirección y intensidad.

Existen dos tipos principales de medidas de correlación: la correlación lineal y la correlación no lineal. La correlación lineal
se reere a la relación lineal entre dos variables, mientras que la correlación no lineal se reere a cualquier otra relación que no
sea lineal.

La correlación lineal se puede medir con dos medidas estadísticas principales: la correlación de Pearson y la correlación de
Spearman.

1. La correlación de Pearson (r) se utiliza para medir la relación lineal entre dos variables continuas. La fórmula para
calcular la correlación de Pearson es la siguiente:

n
P
(xi − x̄)(yi − ȳ)
i=1
r= (1)
(n − 1)sx sy

donde x e y son las dos variables, x̄ e ȳ son las medias de x e y , n es el número de observaciones, y sx e sy son las
desviaciones estándar de x e y .
La correlación de Pearson varía entre -1 y 1, donde -1 indica una correlación negativa perfecta, 1 indica una correlación
positiva perfecta y 0 indica que no existe correlación entre las variables.

2. La correlación de Spearman (rs) se utiliza para medir la relación lineal entre dos variables ordinales o continuas. La
fórmula para calcular la correlación de Spearman es la siguiente:

n
d2i
P
6
i=1
rs = 1 − (2)
n(n2 − 1)

donde d es la diferencia entre las posiciones de las variables en la escala ordinal, y n es el número de observaciones.

La correlación de Spearman varía entre -1 y 1, con interpretaciones similares a la correlación de Pearson.

Además de estas medidas, también existen otras medidas de correlación, como la correlación de Kendall y la correlación de
Point-Biserial, que se utilizan en situaciones especícas.

La correlación es una medida estadística que se utiliza para medir la relación entre dos variables. Una forma común de medir
la correlación es mediante el coeciente de correlación r , que puede tomar valores entre -1 y 1. Un coeciente de correlación r
de 1 indica una correlación positiva perfecta, un coeciente de correlación de 0 indica que no hay correlación, y un coeciente
de correlación de -1 indica una correlación negativa perfecta. Sin embargo, hay otras medidas de correlación, como el coeciente
de contingencia o el coeciente de correlación de rangos de Spearman.

Otra medida de correlación es la prueba de chi cuadrado, que se utiliza para determinar si hay una relación signicativa entre
dos variables categóricas. La prueba de chi cuadrado se basa en la comparación de las frecuencias observadas con las frecuencias
esperadas bajo la hipótesis nula de independencia. La fórmula para la prueba de chi cuadrado es:
r X c
X (Oij − Eij )2
χ2 = , (3)
i=1 j=1
Eij

donde Oij es la frecuencia observada en la la i y columna j , Eij es la frecuencia esperada bajo la hipótesis nula, r es el
número de las y c es el número de columnas.

Por ejemplo, supongamos que queremos saber si hay una relación signicativa entre el género y el tipo de deporte que preeren
las personas. Recolectamos datos de una muestra de 100 personas y obtenemos los siguientes resultados:

| |Fútbol|Baloncesto|Béisbol| ||||-| |Mujeres | 20 | 15 | 5 | |Hombres | 25 | 20 | 10 |


Podemos utilizar la prueba de chi cuadrado para determinar si hay una relación signicativa entre el género y el tipo de
deporte que preeren las personas. Primero, denimos la hipótesis nula como la independencia entre el género y el tipo de
deporte. Luego, calculamos las frecuencias esperadas bajo la hipótesis nula. Por ejemplo, la frecuencia esperada para mujeres
que preeren fútbol es:

(20 + 15 + 5) · (20 + 25)


E11 = = 12 (4)
100
Podemos calcular las frecuencias esperadas para todas las celdas de la tabla. Luego, podemos calcular la prueba de chi
cuadrado utilizando la fórmula anterior. El resultado es:

(20 − 12)2 (15 − 13)2 (5 − 5)2 (25 − 33)2 (20 − 22)2 (10 − 10)2
χ2 = + + + + + = 4.52 (5)
12 13 5 33 22 10
Podemos utilizar la distribución chi cuadrado para determinar la signicancia estadística de la prueba. Si utilizamos un
nivel de signicancia del 5%,podemos comparar el valor de la prueba de chi cuadrado con el valor crítico de la distribución chi
cuadrado con (r − 1) · (c − 1) grados de libertad. En este caso, hay (2 − 1) · (3 − 1) = 2 grados de libertad. El valor crítico de la
distribución chi cuadrado con 2 grados de libertad y un nivel de signicancia del 5% es aproximadamente 5.99. Como el valor
de la prueba de chi cuadrado (4.52) es menor que el valor crítico (5.99), no podemos rechazar la hipótesis nula de independencia
entre el género y el tipo de deporte. Esto signica que no hay evidencia suciente para concluir que hay una relación signicativa
entre el género y el tipo de deporte que preeren las personas en nuestra muestra.

En resumen, la prueba de chi cuadrado es una medida de correlación que se utiliza para determinar si hay una relación
lineal signicativa entre dos variables categóricas. Se basa en la comparación de las frecuencias observadas con las frecuencias
esperadas bajo la hipótesis nula de independencia. La prueba de chi cuadrado se utiliza en situaciones en las que las variables
son categóricas y se desea determinar si hay una relación entre ellas, como en el ejemplo anterior de género y deporte preferido.

En resumen, las medidas de correlación son una herramienta importante para determinar la relación entre dos variables y
pueden ser útiles en una variedad de contextos, desde la investigación social hasta la toma de decisiones empresariales.

También podría gustarte