Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
Al terminar el capítulo de análisis de datos, el estudiante lograra comprender como en la investigación científica se analizan los datos recolectados desde una perspectiva
cuantitativa; reforzará los conocimientos sobre estadística, pilar fundamental de las investigaciones cuantitativas; conocerá las principales pruebas y métodos
estadísticos de los que se puede apoyar el investigador para analizar y explicar su fenómeno de estudio; aprenderá a diferenciar entre la estadística descriptiva y la
estadística inferencial y, finalmente, a interpretar los resultados. Cabe aclarar que este material no profundiza en la manera de cómo se calculan las estadísticas sino
más bien, se fundamenta en el análisis e interpretación de resultados haciendo uso de los métodos estadísticos. En este sentido se establecen algunos ejemplos sin
profundizar en la temática puesto que el estudiante ya cuenta con los conocimientos básicos de estadística.
Por lo que el análisis del problema de estudio dependerá de tres (3) factores:
A. El nivel de medición de las variables: nominal, ordinal, de intervalo y de razón.
B. La manera en como se hayan formulado las hipótesis: descriptivas, correlacionales, comparan grupos, causales, etc.
C. El interés del investigador.
Cuando el objetivo del investigador es medir características y magnitudes de un fenómeno, su estadística ideal es la descriptiva. Pero si su objetivo fue establecer
relaciones entre variables, establecer causalidad (causas-efecto) entre variables y probar hipótesis, su estadística ideal será sumativa, es decir: descriptiva y también
inferencial.
Para ejemplificar:
Imagínese que la intención de un estudio es medir cuales son principales destinos de exportación de Honduras de aceite de palma africana, se estableció el objetivo:
“Identificar los principales destinos de las exportaciones hondureñas de aceite de palma africana durante el periodo comprendido entre 2014 y 2019”
Para lograr este objetivo se debe realizar un análisis de los principales resultados de la investigación tomando en cuenta el tipo de variables a medir. La estadística que el investigador
habrá de desarrollar es DESCRIPTIVA para sus variables.
“La creciente adquisición de deuda pública externa de la Administración Central de Honduras ha sido efecto mayor aumento del gasto público durante la década
2009-2018”.
Este es un tipo de hipótesis causal, para poder comprobarla de debe hacer un análisis de datos con el uso de estadística descriptiva pero más que eso INFERENCIAL.
1- LA ESTADÍSTICA DESCRIPTIVA:
La primera tarea de un análisis es describir los datos, los valores o las puntuaciones obtenidas para cada variable. La estadística descriptiva es la rama de las
Matemáticas que recolecta, presenta y caracteriza un conjunto de datos (por ejemplo, edad de una población, altura de los estudiantes de una carrera, preferencias por
el consumo de un bien durante el verano, nivel de gasto en promoción de una firma, etc.) con el fin de describir apropiadamente las diversas características de ese
conjunto. Esta estadística descriptiva comprende los siguientes métodos:
Son un conjunto de puntuaciones ordenadas en sus respectivas categorías y que resumen la información acerca de la cantidad de veces que una variable toma un valor
determinado permitiendo organizar e interpretar más rápido los datos. Generalmente los datos se presentan en una tabla. Cuando se hace uso de este tipo de frecuencias
siempre se utilizan las: Frecuencias Absolutas, Frecuencias Relativas, Frecuencias Acumuladas y Frecuencias Relativas-Acumuladas.
Vea el siguiente ejemplo:
Facultades Frecuencia
Ingenierías 4
Ciencias Médicas 15
Ciencias Económicas 30
Ciencias Sociales 23
Otras 12
Total: 84
Solución:
Con los datos que nos proporciona el ejercicio, debemos calcular las demás frecuencias para así establecer un análisis descriptivo:
𝟏𝟓
§ 𝟖𝟒
* 100 = 17.86%
..y así hasta obtener la frecuencia relativa de todas las categorías (facultades).
El análisis o interpretación de este tipo de distribuciones de frecuencas será meramente descriptivo (no se puede inferir). Asi, se podría decir como un análisis que:
o Según los datos anteriores, la facultad con mayor número de encuestados es Ciencias Economicas, la cual representa el 35.7% de la muestra (49
estudiantes) seguido de la Facultad de Sociales (27.4%). En esta misma linea, la facultad con menor número de matriculados corresponde a las
Las distribuciones de frecuencias se representan con Histogramas, gráficos circulares y/o polígonos de frecuencia:
25 23
20
15 Ciencias
15
12 Sociales 27%
10
Ciencias
5 4 Económicas
36%
0
Ingenierias Ciencias Medicas Ciencias Económicas
Ingenierias Ciencias Ciencias Ciencias otras
Medicas Económicas Sociales Ciencias Sociales otras
Ítem del cuentionario: ¿Cuál es el nivel educativo más alto obtenido por el jefe del hogar?
Categorías Frecuencia
Sin Nivel 12
Primaria 29
Media 14
Superior 5
Ʃ 60
Solución
Categorías Frec. Absoluta Frec. Acumulada Frec. Relativa Frec. Relativa Acumulada
Sin Nivel 12 12 20% 20%
Primaria 29 41 48.3% 68.3%
Media 14 55 23.3% 91.6%
Superior 5 60 8.3% 100%
Ʃ 60 --- 100% ---
El análisis de este tipo de distribuciones de frecuencas será meramente descriptivo (no se puede inferir). Así que se podria decir:
o En su mayoría, los jefes de hogar encuestados apenas llegaron a un nivel educativo primario, esto representa un 48.3% del total de jefes de hogar.
Apenas 5 jefes de hogar (8.3%) afirmaron haber cursado en un nivel educativo superior. El 68.3% (es decir 41 jefes de hogar) de los encuestados se
encuentra entre las categorías de nivel educativo “sin nivel” y “primario”. Esto indica a primeros rasgos que la el nivel eduactivo predominante en
esta comunidad es primaria.
Son aquellas que describen los valores centrales de un fenómeno. Para Webster (2000) “una medida de tendencia central ubica e identifica el punto alrededor del cual
se centran los datos” (p.40). Las medidas de tendencia central más utilizadas son:
La Media Aritmética:
Es el promedio aritmético de una distribución que se calcula sumando todos los valores de la variable dividido entre el número de casos. La media aritmética es un
estadístico cuando los casos son muéstrales y no poblacionales. Por ello se connota como una equis barra: 𝑿 &
…La media se calcula para variables con niveles de medición de intervalo y razón.
𝑿𝟏 + 𝑿𝟐 + 𝑿𝟑 + 𝑿𝟒 + … + 𝑿𝒏
& =
𝑿
𝒏
La Mediana:
Es el valor que divide una distribución por la mitad; la mitad de los casos (el 50%) caen debajo de la mediana y la otra mitad de los casos (el restante 50%) esta por
encima de la mediana. Se connota por Me
…La mediana se calcula para variables ordinales, de intervalo y de razón.
𝒏+𝟏
𝑴𝒆 =
𝟐
...Para calcular la mediana los datos de la distribución deben estar ordenados de mayor a menor o viceversa.
La Moda:
Es el valor que tiene mayor frecuencia absoluta, el valor que más se repite en una distribución de observaciones. Se connota como Mo
EJEMPLO 3. Un equipo de mercadólogos está interesado en medir el ingreso de los hogares ubicados en una región de Tegucigalpa para establecer si con determinado
salario aceptarían consumir un nuevo producto que está por lanzar al mercado la compañía para la cual trabajan. Para ello, consideró medir la variable “salario” en Lempiras. Con
los siguientes datos calcule las medidas de tendencia central y explique los resultados:
L16,000 L17,700 L12,600 L13,150 L14,300 L12,550 L13,350 L11,800 L14,300 L13,700 L11,725 L12,422 L15,210
Es necesario ordenar los datos de la distribución de observaciones; para este ejemplo los ordenaremos de menor a mayor:
L11,725 L11,800 L12,422 L12,550 L12,600 L13,150 L13,350 L13,700 L14,300 L14,300 L15,210 L16,000 L17,700 DATOS YA ORDENADOS
𝐗𝟏 + 𝐗𝟐 + 𝐗𝟑 + 𝐗𝟒 + … + 𝐗𝐧
& =
𝐗
𝐧
𝟏𝟏, 𝟕𝟐𝟓 + 𝟏𝟏, 𝟖𝟎𝟎 + 𝟏𝟐, 𝟒𝟐𝟐 + 𝟏𝟐, 𝟓𝟓𝟎 + 𝟏𝟐, 𝟔𝟎𝟎 + 𝟏𝟑, 𝟏𝟓𝟎 + 𝟏𝟑, 𝟑𝟓𝟎 + 𝟏𝟑, 𝟕𝟎𝟎 + 𝟏𝟒, 𝟑𝟎𝟎 + 𝟏𝟒, 𝟑𝟎𝟎 + 𝟏𝟓, 𝟐𝟏𝟎 + 𝟏𝟔, 𝟎𝟎𝟎 + 𝟏𝟕, 𝟎𝟎𝟎
& =
𝐗
𝟏𝟑
B) CALCULANDO LA MEDIANA:
𝒏+𝟏
𝑴𝒆 =
𝟐
𝟏𝟑 + 𝟏
𝑴𝒆 =
𝟐
𝑴𝒆 = 𝟕
C) CALCULANDO LA MODA:
L11,725 L11,800 L12,422 L12,550 L12,600 L13,150 L13,350 L13,700 L14,300 L14,300 L15,210 L16,000 L17,700
La moda de esta distribución de observaciones es L14,300. àLa distribución es unimodal (hay una sola moda).
D) INTERPRETACIÓN:
En promedio, el salario que perciben los hogares encuestados es de L.13,754.39 con una mediana de L.13,350.0 y una moda de L.14,300.0. Estos resultados reflejan
en primera instancia que la distribución de observaciones mantiene cierto nivel de dispersión.
---------------------------------------
EJEMPLO 4. Los años de antigüedad son una variable de interés para un estudio que pretende caracterizar a las MIPYMES ubicadas en una región de San Pedro Sula,
Honduras. Se obtuvieron los siguientes datos de la muestra que expresan la antigüedad de las empresas medidas en años:
7.0 6.0 5.5 9.8 3.6 5.7 4.5 3.0 6.0 8.0 11.0 9.4 8.2
4.9 4.5 4.8 6.3 6.4 7.1 8.9 4.7 3.3 5.0 9.0 4.5 8.9
Es necesario ordenar los datos de la distribución de observaciones, para este ejemplo los ordenaremos de menor a mayor:
3.0 3.3 3.6 4.4 4.5 4.5 4.7 4.8 4.9 5.0 5.5 5.7 6.0
DATOS YA ORDENADOS
6.0 6.3 6.4 7 7.1 8.0 8.2 8.9 8.9 9.0 9.4 9.8 11.0
𝑿𝟏 + 𝑿𝟐 + 𝑿𝟑 + 𝑿𝟒 + … + 𝑿𝒏
& =
𝑿
𝒏
𝟑. 𝟎 + 𝟑. 𝟑 + 𝟑. 𝟔 + 𝟒. 𝟒 + 𝟒. 𝟒 + 𝟒. 𝟓 + 𝟒. 𝟕 + 𝟒. 𝟖 + 𝟒. 𝟗 + 𝟓. 𝟎 + 𝟓. 𝟓 + 𝟓. 𝟕 + 𝟔. 𝟎 + ⋯ + 𝟏𝟏. 𝟎
& =
𝑿
𝟐𝟔
B) CALCULANDON LA MEDIANA:
𝒏+𝟏
𝑴𝒆 =
𝟐
𝟐𝟔 + 𝟏
𝑴𝒆 =
𝟐
𝑴𝒆 = 𝟏𝟑. 𝟓 Años de antigüedad
La posición 13.5 cae entre dos valores, dichos valores son 6.0 y 6.0; en este caso se calcula un promedio entre 6.0 y 6.0 para obtener el valor la mediana:
6.0+6.0 / 2 = 6.0
La mediana (Me) es 6.0 años.
C) CALCULANDO LA MODA:
3.0 3.3 3.6 4.4 4.5 4.5 4.7 4.8 4.9 5.0 5.5 5.7 6.0
6.0 6.3 6.4 7 7.1 8.0 8.2 8.9 8.9 9.0 9.4 9.8 11.0
El conjunto de observaciones tiene dos modas (bimodal) los cuales son: 4.5 años y 6.0 años (ambos se repiten la misma cantidad de veces)
D) INTERPRETACIÓN:
Los datos centrales de los años de antigüedad de un conjunto de MIPYMES en San Pedro Sula son: en promedio las empresas tienen 4.61 años de creación con una
mediana que parte el 50% de lo datos en 6.0 años y una moda de 4.5 y 6.0 años de antigüedad.
Son intervalos que indican la dispersión de los datos en las escalas de medición de las variables e indican como se distribuyen los datos. Así, miden que tanto se
dispersan las observaciones alrededor de un promedio (de la media).
Es la diferencia entre la puntuación mayor y la puntuación menor que indica el número de unidades en la escala de medición que se necesita para incluir los valores
máximos y mínimos. Cuanto más grande sea el rango, mayor será la dispersión de los datos.
…Representa la distancia entre los dos valores mas extremos de una medición!
Formula Rango:
𝑹 = 𝑽𝒎𝒂𝒙 − 𝑽𝒎𝒊𝒏
Es el promedio de desviaciones de las puntuaciones con respecto a la media. Cuanto mayor sea la dispersión de los datos alrededor de la media mayor será la
desviación estándar.
...es la raíz cuadrada de la varianza!
La Varianza (𝒔𝟐 ):
D
(𝑋G − 𝑋H)D + (𝑋D − 𝑋H)D + (𝑋J − 𝑋H)D + ⋯ + (𝑋K − 𝑋H)D
𝑠 =
𝑛−1
Donde,
EJEMPLO 5. Con los datos del Ejemplo 3, calcule las medidas de dispersión:
“Un equipo de mercadólogos está interesado en medir el ingreso de los hogares ubicados en una región de Tegucigalpa para establecer si con determinado salario aceptarían
consumir un nuevo producto que está por lanzar al mercado la compañía para la cual trabajan. Para ello, consideró medir la variable “salario” en Lempiras. Calcule las medidas de
tendencia dispersión y explique los resultados.”
L11,725 L11,800 L12,422 L12,550 L12,600 L13,150 L13,350 L13,700 L14,300 L14,300 L15,210 L16,000 L17,700
A) Calculando el rango:
𝑹 = 𝑽𝒎𝒂𝒙 − 𝑽𝒎𝒊𝒏
𝑹 = 𝟏𝟕, 𝟕𝟎𝟎 − 𝟏𝟏, 𝟕𝟐𝟓
𝑹 = 𝐋5,975
R/ el rango del conjunto de datos es L.5,975.0
B) Calculando la varianza:
𝟐
(𝑋G − 𝑋H)D + (𝑋D − 𝑋H )D + (𝑋J − 𝑋H )D + ⋯ + (𝑋K − 𝑋H)D
𝒔 =
𝑛−1
𝒔 = 𝐋𝟏, 𝟕𝟒𝟎. 𝟓𝟐
R/ La desviación estándar muestral del conjunto de datos es L.1,740.52
En conclusión:
Se estimó que el ingreso de los hogares de una región de Tegucigalpa en promedio es de L13,754.3 con una tendencia a variar en los ingresos de dichos
hogares por encima y por debajo de L1,740.52
Es la asimetría estadística necesaria para conocer cuanto se parece nuestra distribución de observaciones a una distribución teórica normal llamada “curva normal” y
hace referencia la grado en el que los datos se reparten por encima y por debajo de la tendencia central. Las medidas de apuntalamiento son: Asimetría y Curtosis.
Asimetría (As):
El coeficiente de asimetría muestra si los valores de la variable se concentran en determinada zona de la distribución. La asimetría puede ser con sesgo hacia la derecha
(asimetría positiva), con sesgo hacia la izquierda (asimetría negativa) y/o sin sesgo (simétrica).
2- LA ESTADÍSTICA INFERENCIAL
Como es sabido, una muestra es un subconjunto de la población; y aunque la información que majena el investigador se reduce a una o varias muestras, sus objetivos
suelen consistir en extraer conclusiones y conocer el modelo que mejor explique la realidad en la población objetivo. Para ello empleará la inferencia estadística; proceso
que a partir de una muestra permite inferir valores sobre características poblacionales en términos de probabilidad.
Se utiliza para probar hipótesis y estimar parámetros. Va de la muestra hacia la población. Es un método empleado para determinar una propiedad o atributo de una
población en base a la información de la muestra representativa. Va más alla de sólo describir las variables, pretendiendo probar hipótesis, estimar parámetros para así
generalizar los resultados obtenidos en la muestra.
La estadística inferencial se basa en la distribución normal. Usa la teoría de las probabilidades para generalizar las características de una población (N) a partir de las
características de una muestra (n).
• Los datos o casos muestrales son mayores a 100. • La Simétrica (coeficiente de asimetría es cero)
• Es unimodal • Es mesocurtica (coeficiente de curtosis es cero)
• La desviación estándar es igual a uno (1) • Las medidas de tendencia central coinciden en el mismo punto.
Análisis Paramétrico, que puede ser: Análisis No Paramétrico, que puede ser:
§ Coeficiente de Correlación de Pearson (r). § Chi cuadraro.
§ Regresión Lineal. § Coeficiente de correlacion cruzado.
§ Prueba t. § Coeficiente de correlacion Spearman y Kendall.
§ Prueba de diferencia de proporciones.
§ Analisis de varianza unidireccional ANOVA.
§ Analisis de varianza factorial.
§ Analisis de Covarianza.
SUPUESTOS DEL ANÁLISIS PARAMÉTRICO SUPUESTOS DEL ANÁLISIS NO PARAMÉTRICO
¨ La distribución de la variable dependiente es normal. ¨ Las distribuciones muestrales no siempre son normales.
¨ El nivel de medición de las variables es de intervalo o de razón. ¨ Las variables no siempre son de intervalo y razón, se aceptan
¨ Cuando dos poblaciones o más son estudiadas, tienen una varianza homogénea. nominales y ordinales.
Es una prueba estadística que verifica la relación lineal entre dos variables (de intervalo o de razón). Se usa en investigaciones bajo alcances correlacionales. El
Coeficiente de Correlación de Pearson permite probar hipotesis CORRELACIONALES para dos variables del que se obtiene como resultado un valor numérico entre
-1 y +1.
Coeficiente r Interpretación
Correlación negativa o inversa perfecta entre X y Y
(cuando aumenta X entonces disminuye Y; cuando disminuye X aumenta Y).
r = -1 Se analiza:
- Las variables están correlacionadas inversamente en un 100% lo que indica que un aumento de X esta relacionado con una disminución en Y.
- Las variables están correlacionadas inversamente en un 100% lo que indica que una disminución de X se relaciona con un aumento de Y.
-1 < r < 0 Correlación inversa (no perfecta) entre X y Y.
- Las variables están correlacionadas inversamente en un %.
Es un modelo estadístico para estimar y predecir el efecto de una -o más- variables sobre otra. Se utiliza en investigaciones bajo alcance explicativo que formularon
hipótesis causales. Con el coeficiente de correlación Pearson se debe calcular el “Coeficiente de Determinación2 (𝒓𝟐 )” que en términos sencillos es elevar al cuadrado
el valor del coeficiente Pearson. El coeficiente de determinación indica la bondad de ajuste de un modelo de regresión o el porcentaje de la variación de Y debido a X y
viceversa.
...El Coeficiente de Determinación siempre será un resultado positivo que esta entre 0 y 1.
Donde:
Y = es la variable dependiente. X = es la variable independiente.
a = es el intercepto (ordenada la origen) o la constante. Signo de la función: indica la direccion de la correlación es este caso es
b = es la pendiente de la recta. positivo.
2
Este coeficiente no es común en estudios correlacionales pero si en estudios bajo profundidad explicativa y con hipótesis causales que desarrollan un análisis de datos con modelos
de regresión.
y = a - bx
Ejemplifiquemos,
Solución
Aquí, el ejemplo ya muestra el valor del coeficiente de correlación pearson, lo que se pide es interpretarlo y a su vez calcular el coeficiente de determinación.
INTERPRETACIÓN:
Las variables estan asociadas o relacionadas o vinculadas positivamente en un 93%. Es decir, que altos valores de ingresos por remesas estan asociados
con altos valores en el consumo de aparatos electrodomésticos. Así, el ingreso por remesas explica la variación del consumo de electrodomésticos en un
86.5%.
Solución
𝑟 = -0.78 à -78%
INTERPRETACIÓN:
Las variables estan relacionadas inversamente en un 78%, lo que indica que a mayor tasa de impuestos menor inversion privada. La tasa de impuestos
explica la variación de la inversión privada en un 61%
EJEMPLO 8. Se tiene la siguiente función lineal de la variable “número de créditos de vivienda” y “tasa de interés”: Y = 5 + 2X.
a) Identifique cual es la variable dependiente, independiente e interprete los valores de la función y el signo.
b) ¿A cuanto asciende el número de créditos de vivienda si la tasa de interés es de 16 puntos?
Solución
a) La variable dependiete (Y) es “número de créditos de vivienda” y la variable independiente (X) es la “tasa de interés”. Se dice que a medida que aumenta X en
una (1) unidad, también aumentará Y en dos (2) unidades.
El valor positivo en la función indica la dirección de la correlación que en este caso es una correlación POSITIVA (aumenta X aumenta Y).
Manteniendo constante la tasa de interés (es decir sin que varíe), el número de créditos de vivienda ascenderá a 5 (este es el valor constante de la regresión)
Con una tasa de interés de 16 puntos, el número de créditos de vienda será de 37.
EJEMPLO 9. Se llevo a cabo un estudio para determinar la causalidad entre los “años de experiencia” y el “salario mensual” medido en miles de Lempiras de profesionales
egresados de una UNAH. La función de regresión lineal obtenida fue la siguiente:
Y = 17.91 + 0.645X
a) Identifique cual es la variable dependiente, independiente e Interprete los valores de la función y el signo.
b) ¿A cuando asciende Y si X es 25 años?
Solución
b) Sustituimos en la función:
Y = 17.91 + 0.645X.
Y = 17.91 + 0.645(25)
Y = 34.035 miles de Lempiras R/ Un egresado de la UNAH con una experiencia laboral de 25 años, el salario percibido será de L.34,035
Ya hemos repasado algunos aspectos estaísticos que son muy necesarios en la investigación. Se ejemplificó estadística descriptiva y algunas pruebas paramétricas.
Pero para un completo análisis de datos cuantitativos es necesario lograr interpretar lo que un gráfico expresa. En este último espacio, ejemplificaremos algunas formas
de analizar gráficos y tablas como análisis de resultados.
Cuando se llega a la fase del análisis de resultados en la investigación, es necesario hacer uso de un programa computacional que permita obtener todos los datos de
todas las variables y que a partir de una matríz de datos se puedan generar multiplies tablas y gráficos que permitan un mejor análisis. Vease a continuación algunos
ejemplos de cómo se analizan:
0
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
p
17
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
Fuente: Elaboración propia, en base a cifras oficiales de la SEFIN.
60,000
Pública Interna que pasó de los L.6,991.4 millones en 2007 a L.97,761.7
millones en el año 2017.
40,000