2 - Material Analisis de Datos

UNIVERSIDAD NACIONAL AUTÓNOMA DE HONDURAS
FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS Y CONTABLES

DEPARTAMENTO DE ECONOMÍA
CE094 - MÉTODOS Y TÉCNICAS DE INVESTIGACIÓN1

DMC030 - MÉTODOS Y TÉCNICAS DE INVESTIGACIÓN
Preparado por
Msc. Enrique Hernández
Material complemento del Cap. 10: Análisis de Datos Cuantitativos

📖📚 (Hernández Sampieri, 6ta Ed.) 📚📖
Introducción
Al terminar el capítulo de análisis de datos, el estudiante lograra comprender como en la investigación científica se analizan los datos recolectados desde una perspectiva
cuantitativa; reforzará los conocimientos sobre estadística, pilar fundamental de las investigaciones cuantitativas; conocerá las principales pruebas y métodos
estadísticos de los que se puede apoyar el investigador para analizar y explicar su fenómeno de estudio; aprenderá a diferenciar entre la estadística descriptiva y la
estadística inferencial y, finalmente, a interpretar los resultados. Cabe aclarar que este material no profundiza en la manera de cómo se calculan las estadísticas sino
más bien, se fundamenta en el análisis e interpretación de resultados haciendo uso de los métodos estadísticos. En este sentido se establecen algunos ejemplos sin
profundizar en la temática puesto que el estudiante ya cuenta con los conocimientos básicos de estadística.
1 Ciudad Universitaria José Trinidad Reyes. 2do Periodo Académico 2021.
Material exclusivo para estudiantes de la UNAH.

Para el ya citado Sampieri (2010) una vez recolectados los datos a través de cualquier instrumento cuantitativo, es necesario procesarlos para poder interpretarlos como
resultados de una investigación. Esto se da según el autor en la “fase 9 del proceso cuantitativo” (p.5). Es así que, al enfrentarse el investigador a esta penúltima etapa,
se ve en la necesidad de acudir a programas computacionales de análisis estadístico. El investigador una vez vuelve del campo de recolección, transfiere sus datos y
los codifica en una “matriz de datos” que luego será objeto de un análisis utilizando un programa estadístico. Esto sucede de esta manera, porque en la actualidad el
análisis de los datos se genera con el apoyo de estos programas computacionales; ya nadie los procesa y analiza de forma manual –mucho menos si los datos provienen
de una gran muestra- (imagínese lo engorroso que sería calcular manualmente las medidas de tendencia central de 300 datos).
El análisis cuantitativo comprende dos (2) etapas:
I. La representación de los datos (a través de las estadísticas).

II. El método para representarlos lógicamente a través de:
• Estadística descriptiva: organizar y resumir los datos.
• Estadística Inferencial: hacer inferencias acerca de la población.
Por lo que el análisis del problema de estudio dependerá de tres (3) factores:
A. El nivel de medición de las variables: nominal, ordinal, de intervalo y de razón.
B. La manera en como se hayan formulado las hipótesis: descriptivas, correlacionales, comparan grupos, causales, etc.
C. El interés del investigador.
¿A qué programas estadísticos nos referimos?
Algunos ejemplos de ellos:

¨ Excel ¨ Eviews
¨ SPSS ¨ Rstudio
¨ Minitab ¨ Matlab

¿Qué tipos de estadística existen y de cuales se debe apoyar el investigador para analizar sus datos?
1- Estadística Descriptiva 2- Estadística Inferencial

§ 1.1 Distribuciones de frecuencias
§ 1.2 Medidas de tendencia central § 2.1 Análisis Paramétrico
§ 1.3 Medidas de dispersión o variabilidad § 2.1 Análisis No Paramétrico
§ 1.4 Medidas de Apuntalamiento
Cuando el objetivo del investigador es medir características y magnitudes de un fenómeno, su estadística ideal es la descriptiva. Pero si su objetivo fue establecer
relaciones entre variables, establecer causalidad (causas-efecto) entre variables y probar hipótesis, su estadística ideal será sumativa, es decir: descriptiva y también
inferencial.
Para ejemplificar:
Imagínese que la intención de un estudio es medir cuales son principales destinos de exportación de Honduras de aceite de palma africana, se estableció el objetivo:
“Identificar los principales destinos de las exportaciones hondureñas de aceite de palma africana durante el periodo comprendido entre 2014 y 2019”
Para lograr este objetivo se debe realizar un análisis de los principales resultados de la investigación tomando en cuenta el tipo de variables a medir. La estadística que el investigador
habrá de desarrollar es DESCRIPTIVA para sus variables.

Supóngase ahora, que la hipótesis que se estableció un estudiante para su tesis fue:
“La creciente adquisición de deuda pública externa de la Administración Central de Honduras ha sido efecto mayor aumento del gasto público durante la década
2009-2018”.
Este es un tipo de hipótesis causal, para poder comprobarla de debe hacer un análisis de datos con el uso de estadística descriptiva pero más que eso INFERENCIAL.
Vayamos por partes...
1- LA ESTADÍSTICA DESCRIPTIVA:
La primera tarea de un análisis es describir los datos, los valores o las puntuaciones obtenidas para cada variable. La estadística descriptiva es la rama de las
Matemáticas que recolecta, presenta y caracteriza un conjunto de datos (por ejemplo, edad de una población, altura de los estudiantes de una carrera, preferencias por
el consumo de un bien durante el verano, nivel de gasto en promoción de una firma, etc.) con el fin de describir apropiadamente las diversas características de ese
conjunto. Esta estadística descriptiva comprende los siguientes métodos:
§ 1.1 DISTRIBUCIONES DE FRECUENCIAS § 1.3 MEDIDAS DE DISPERSIÓN (O VARIABILIDAD)
§ 1.2 MEDIDAS DE TENDENCIA CENTRAL § 1.4 MEDIDAS DE APUNTALAMIENTO
§ 1.1 DISTRIBUCIONES DE FRECUENCIAS:
Son un conjunto de puntuaciones ordenadas en sus respectivas categorías y que resumen la información acerca de la cantidad de veces que una variable toma un valor
determinado permitiendo organizar e interpretar más rápido los datos. Generalmente los datos se presentan en una tabla. Cuando se hace uso de este tipo de frecuencias
siempre se utilizan las: Frecuencias Absolutas, Frecuencias Relativas, Frecuencias Acumuladas y Frecuencias Relativas-Acumuladas.
Vea el siguiente ejemplo:

EJEMPLO 1. “un estudio descriptivo orientado a medir el rendimiento académico de universitarios donde se encuestó a 84 de ellos. Una variable de interés del estudio fue
“Facultad a la que pertenece el encuestado” y se obtuvo que 4 encuestados pertenecen a Ingeniería; 15 a ciencias Médicas; 30 a ciencias Económicas; 23 a ciencias Sociales y
12 a otras facultades. Construya una tabla de frecuencias y calcule.
Facultades Frecuencia
Ingenierías 4
Ciencias Médicas 15
Ciencias Económicas 30
Ciencias Sociales 23
Otras 12
Total: 84
Solución:
Con los datos que nos proporciona el ejercicio, debemos calcular las demás frecuencias para así establecer un análisis descriptivo:
Ítem en el instrumento: ¿A qué facultad pertenece el encuestado?
COLUMNA 1 COLUMNA 2 COLUMNA 3 COLUMNA 4 COLUMNA 5

Facultades Frec. Absoluta Frec. Acumulada Frec. Relativa (%) Frec. Relativa-Acumulada
Ingenierías 4 4 4.76% 4.76%
Ciencias Medicas 15 19 17.86% 22.62%
Ciencias Económicas 30 49 35.7% 58.32%
Ciencias Sociales 23 72 27.4% 85.72%
otras 12 84 14.28% 100%
Total: 84 -------- 100% -------

CALCULANDO LA FRECUENCIA ABSOLUTA:
estos valores en la columna 2 son los casos u observaciones de cada categoría (para el caso, el ejercicio ya lo proporciona).
CALCULANDO LA FRECUENCIA ACUMULADA:

Como su nombre lo indica es un valor acumulado de cada valor en la frecuencia absoluta (columna 3); el primer valor será 4; el segundo valor será 4+15=19; el tercer
valor será 19+30=49; el siguiente valor será 49+23=72 y finalmente el último valor será 72+12=84
CALCULANDO LA FRECUENCIA RELATIVA:

Para obtener este valor en la columna 4, tomamos el primer dato de la primera categoría (ingenierías) que aparece en la columna 2 de frecuencia absoluta, en este
caso es 4, lo dividimos entre el total de la frecuencia absoluta 84:
𝟒
§ 𝟖𝟒
* 100 = 4.76%
𝟏𝟓
§ 𝟖𝟒
* 100 = 17.86%
..y así hasta obtener la frecuencia relativa de todas las categorías (facultades).
CALCULANDO LA FRECUENCIA RELATIVA ACUMULADA:

Es la suma acumulada de la frecuencia relativa (columna 5). El primer valor será 4.76%;
el segundo valor será 4.76% + 17.86% = 22.62%;
El tercer valor será 22.62% + 35.7% = 58.3%
El cuarto valor será 58.3% + 27.4% = 85.72% y,
El útlimo valor será 85.22% + 14.28% = 100%
El análisis o interpretación de este tipo de distribuciones de frecuencas será meramente descriptivo (no se puede inferir). Asi, se podría decir como un análisis que:
o Según los datos anteriores, la facultad con mayor número de encuestados es Ciencias Economicas, la cual representa el 35.7% de la muestra (49
estudiantes) seguido de la Facultad de Sociales (27.4%). En esta misma linea, la facultad con menor número de matriculados corresponde a las

Ingenierías (4.76%). El 58.32% de los encuestados se encuentra matriculado en las facultades de Ingenierias, Ciencias Médicas y Ciencias
Economicas. Mientras que el restante 41.68% afirmó estar matriculado en las facultades de Ciencias Sociales y otras.
Las distribuciones de frecuencias se representan con Histogramas, gráficos circulares y/o polígonos de frecuencia:
HISTOGRAMA ¿A qué facultad pertenece el estudiante?

35
Ingenierias 5%
30 otras 14%
30 Ciencias
Medicas 18%
25 23
20
15 Ciencias
15
12 Sociales 27%
10
Ciencias
5 4 Económicas
36%
0
Ingenierias Ciencias Medicas Ciencias Económicas
Ingenierias Ciencias Ciencias Ciencias otras
Medicas Económicas Sociales Ciencias Sociales otras

EJEMPLO 2. Se aplicó una encuesta en la ciudad de la Ceiba obteniendo datos sobre el nivel educativo de 60 jefes de hogar, se obtuvo la siguiente información:
Ítem del cuentionario: ¿Cuál es el nivel educativo más alto obtenido por el jefe del hogar?
Categorías Frecuencia
Sin Nivel 12
Primaria 29
Media 14
Superior 5
Ʃ 60
Solución
Categorías Frec. Absoluta Frec. Acumulada Frec. Relativa Frec. Relativa Acumulada
Sin Nivel 12 12 20% 20%
Primaria 29 41 48.3% 68.3%
Media 14 55 23.3% 91.6%
Superior 5 60 8.3% 100%
Ʃ 60 --- 100% ---
El análisis de este tipo de distribuciones de frecuencas será meramente descriptivo (no se puede inferir). Así que se podria decir:
o En su mayoría, los jefes de hogar encuestados apenas llegaron a un nivel educativo primario, esto representa un 48.3% del total de jefes de hogar.
Apenas 5 jefes de hogar (8.3%) afirmaron haber cursado en un nivel educativo superior. El 68.3% (es decir 41 jefes de hogar) de los encuestados se
encuentra entre las categorías de nivel educativo “sin nivel” y “primario”. Esto indica a primeros rasgos que la el nivel eduactivo predominante en
esta comunidad es primaria.

De la misma forma que en el Ejemplo 1, se debe construir histogramas, gráficos circulares y/o políginos de frecuencia para expresar gráficamente las distribuciones de
frecuencias de los jefes de hogar y su nivel educativo.
§ 1.2 LAS MEDIDAS DE TENDENCIA CENTRAL:
Son aquellas que describen los valores centrales de un fenómeno. Para Webster (2000) “una medida de tendencia central ubica e identifica el punto alrededor del cual
se centran los datos” (p.40). Las medidas de tendencia central más utilizadas son:
La Media Aritmética:
Es el promedio aritmético de una distribución que se calcula sumando todos los valores de la variable dividido entre el número de casos. La media aritmética es un
estadístico cuando los casos son muéstrales y no poblacionales. Por ello se connota como una equis barra: 𝑿 &
…La media se calcula para variables con niveles de medición de intervalo y razón.
Formula Media Aritmética muestral:
𝑿𝟏 + 𝑿𝟐 + 𝑿𝟑 + 𝑿𝟒 + … + 𝑿𝒏
& =
𝑿
𝒏

…La media es afectada por las observaciones extremas.
La Mediana:
Es el valor que divide una distribución por la mitad; la mitad de los casos (el 50%) caen debajo de la mediana y la otra mitad de los casos (el restante 50%) esta por
encima de la mediana. Se connota por Me
…La mediana se calcula para variables ordinales, de intervalo y de razón.
Formula ubicación de la Mediana Muestral:
𝒏+𝟏
𝑴𝒆 =
𝟐
...Para calcular la mediana los datos de la distribución deben estar ordenados de mayor a menor o viceversa.
La Moda:
Es el valor que tiene mayor frecuencia absoluta, el valor que más se repite en una distribución de observaciones. Se connota como Mo
…La moda se calcula para todos los niveles de medición.
EJEMPLO 3. Un equipo de mercadólogos está interesado en medir el ingreso de los hogares ubicados en una región de Tegucigalpa para establecer si con determinado
salario aceptarían consumir un nuevo producto que está por lanzar al mercado la compañía para la cual trabajan. Para ello, consideró medir la variable “salario” en Lempiras. Con
los siguientes datos calcule las medidas de tendencia central y explique los resultados:
L16,000 L17,700 L12,600 L13,150 L14,300 L12,550 L13,350 L11,800 L14,300 L13,700 L11,725 L12,422 L15,210

Solución
Es necesario ordenar los datos de la distribución de observaciones; para este ejemplo los ordenaremos de menor a mayor:
L11,725 L11,800 L12,422 L12,550 L12,600 L13,150 L13,350 L13,700 L14,300 L14,300 L15,210 L16,000 L17,700 DATOS YA ORDENADOS
A) CALCULANDO LA MEDIA ARITMETICA:
𝐗𝟏 + 𝐗𝟐 + 𝐗𝟑 + 𝐗𝟒 + … + 𝐗𝐧
& =
𝐗
𝐧
𝟏𝟏, 𝟕𝟐𝟓 + 𝟏𝟏, 𝟖𝟎𝟎 + 𝟏𝟐, 𝟒𝟐𝟐 + 𝟏𝟐, 𝟓𝟓𝟎 + 𝟏𝟐, 𝟔𝟎𝟎 + 𝟏𝟑, 𝟏𝟓𝟎 + 𝟏𝟑, 𝟑𝟓𝟎 + 𝟏𝟑, 𝟕𝟎𝟎 + 𝟏𝟒, 𝟑𝟎𝟎 + 𝟏𝟒, 𝟑𝟎𝟎 + 𝟏𝟓, 𝟐𝟏𝟎 + 𝟏𝟔, 𝟎𝟎𝟎 + 𝟏𝟕, 𝟎𝟎𝟎
& =
𝐗
𝟏𝟑
& = 𝐋𝟏𝟑, 𝟕𝟓𝟒. 𝟑𝟗

𝐗
B) CALCULANDO LA MEDIANA:
𝒏+𝟏
𝑴𝒆 =
𝟐
𝟏𝟑 + 𝟏
𝑴𝒆 =
𝟐
𝑴𝒆 = 𝟕
7 es la posición de la mediana en la distribución de observaciones, busquemos esa posición:

Posición 1 2 3 4 5 6 7 8 9 10 11 12 13
Observaciones L11,725 L11,800 L12,422 L12,550 L12,600 L13,150 L13,350 L13,700 L14,300 L14,300 L15,210 L16,000 L17,700
Entonces la mediana (Me) es L13,350
C) CALCULANDO LA MODA:
En nuestra distribución de datos identificamos el valor que más se repita:
L11,725 L11,800 L12,422 L12,550 L12,600 L13,150 L13,350 L13,700 L14,300 L14,300 L15,210 L16,000 L17,700
La moda de esta distribución de observaciones es L14,300. àLa distribución es unimodal (hay una sola moda).
D) INTERPRETACIÓN:
En promedio, el salario que perciben los hogares encuestados es de L.13,754.39 con una mediana de L.13,350.0 y una moda de L.14,300.0. Estos resultados reflejan
en primera instancia que la distribución de observaciones mantiene cierto nivel de dispersión.
---------------------------------------
EJEMPLO 4. Los años de antigüedad son una variable de interés para un estudio que pretende caracterizar a las MIPYMES ubicadas en una región de San Pedro Sula,
Honduras. Se obtuvieron los siguientes datos de la muestra que expresan la antigüedad de las empresas medidas en años:
7.0 6.0 5.5 9.8 3.6 5.7 4.5 3.0 6.0 8.0 11.0 9.4 8.2
4.9 4.5 4.8 6.3 6.4 7.1 8.9 4.7 3.3 5.0 9.0 4.5 8.9

Solución:
Es necesario ordenar los datos de la distribución de observaciones, para este ejemplo los ordenaremos de menor a mayor:
3.0 3.3 3.6 4.4 4.5 4.5 4.7 4.8 4.9 5.0 5.5 5.7 6.0
DATOS YA ORDENADOS
6.0 6.3 6.4 7 7.1 8.0 8.2 8.9 8.9 9.0 9.4 9.8 11.0
A) CALCULANDO LA MEDIA ARITMÉTICA:
𝑿𝟏 + 𝑿𝟐 + 𝑿𝟑 + 𝑿𝟒 + … + 𝑿𝒏
& =
𝑿
𝒏
𝟑. 𝟎 + 𝟑. 𝟑 + 𝟑. 𝟔 + 𝟒. 𝟒 + 𝟒. 𝟒 + 𝟒. 𝟓 + 𝟒. 𝟕 + 𝟒. 𝟖 + 𝟒. 𝟗 + 𝟓. 𝟎 + 𝟓. 𝟓 + 𝟓. 𝟕 + 𝟔. 𝟎 + ⋯ + 𝟏𝟏. 𝟎
& =
𝑿
𝟐𝟔
& = 𝟒. 𝟔𝟏 Años de antigüedad

𝑿
B) CALCULANDON LA MEDIANA:
𝒏+𝟏
𝑴𝒆 =
𝟐
𝟐𝟔 + 𝟏
𝑴𝒆 =
𝟐
𝑴𝒆 = 𝟏𝟑. 𝟓 Años de antigüedad
La posición de la mediana en la distribución de observaciones es 13.5, lo buscamos en la distribución:

3.0 3.3 3.6 4.4 4.5 4.5 4.7 4.8 4.9 5.0 5.5 5.7 6.0
6.0 6.3 6.4 7 7.1 8.0 8.2 8.9 8.9 9.0 9.4 9.8 11.0
La posición 13.5 cae entre dos valores, dichos valores son 6.0 y 6.0; en este caso se calcula un promedio entre 6.0 y 6.0 para obtener el valor la mediana:
6.0+6.0 / 2 = 6.0
La mediana (Me) es 6.0 años.
C) CALCULANDO LA MODA:
3.0 3.3 3.6 4.4 4.5 4.5 4.7 4.8 4.9 5.0 5.5 5.7 6.0
6.0 6.3 6.4 7 7.1 8.0 8.2 8.9 8.9 9.0 9.4 9.8 11.0
El conjunto de observaciones tiene dos modas (bimodal) los cuales son: 4.5 años y 6.0 años (ambos se repiten la misma cantidad de veces)
D) INTERPRETACIÓN:
Los datos centrales de los años de antigüedad de un conjunto de MIPYMES en San Pedro Sula son: en promedio las empresas tienen 4.61 años de creación con una
mediana que parte el 50% de lo datos en 6.0 años y una moda de 4.5 y 6.0 años de antigüedad.
§ 1.3 LAS MEDIDAS DE DISPERSIÓN:
Son intervalos que indican la dispersión de los datos en las escalas de medición de las variables e indican como se distribuyen los datos. Así, miden que tanto se
dispersan las observaciones alrededor de un promedio (de la media).

El Rango (𝑹):
Es la diferencia entre la puntuación mayor y la puntuación menor que indica el número de unidades en la escala de medición que se necesita para incluir los valores
máximos y mínimos. Cuanto más grande sea el rango, mayor será la dispersión de los datos.
…Representa la distancia entre los dos valores mas extremos de una medición!
Formula Rango:
𝑹 = 𝑽𝒎𝒂𝒙 − 𝑽𝒎𝒊𝒏
La Desviación Estándar (𝒔):
Es el promedio de desviaciones de las puntuaciones con respecto a la media. Cuanto mayor sea la dispersión de los datos alrededor de la media mayor será la
desviación estándar.
...es la raíz cuadrada de la varianza!

La desviación estándar se utiliza en variables con niveles de medición de intervalos y de razón.
Formula Desviación Estándar Muestral:

𝒔 = B𝒔𝟐
La Varianza (𝒔𝟐 ):
Es el promedio de las desviaciones respecto a su media elevadas al cuadrado.
Formula Varianza Muestral:
D
(𝑋G − 𝑋H)D + (𝑋D − 𝑋H)D + (𝑋J − 𝑋H)D + ⋯ + (𝑋K − 𝑋H)D
𝑠 =
𝑛−1
Donde,
𝑿𝟏 , 𝑿𝟐 … 𝑿𝒏 son observaciones individuales.

& es la media aritmética muestral.
𝑿
n es el numero de observaciones.
EJEMPLO 5. Con los datos del Ejemplo 3, calcule las medidas de dispersión:
“Un equipo de mercadólogos está interesado en medir el ingreso de los hogares ubicados en una región de Tegucigalpa para establecer si con determinado salario aceptarían
consumir un nuevo producto que está por lanzar al mercado la compañía para la cual trabajan. Para ello, consideró medir la variable “salario” en Lempiras. Calcule las medidas de
tendencia dispersión y explique los resultados.”
L11,725 L11,800 L12,422 L12,550 L12,600 L13,150 L13,350 L13,700 L14,300 L14,300 L15,210 L16,000 L17,700

Solución
Tenemos los datos ya calculados de las medidas de tendencia central:

& =L.13,754.39
𝑿
Me =L.13,350
Mo =14,300
A) Calculando el rango:
𝑹 = 𝑽𝒎𝒂𝒙 − 𝑽𝒎𝒊𝒏
𝑹 = 𝟏𝟕, 𝟕𝟎𝟎 − 𝟏𝟏, 𝟕𝟐𝟓
𝑹 = 𝐋5,975
R/ el rango del conjunto de datos es L.5,975.0
B) Calculando la varianza:
𝟐
(𝑋G − 𝑋H)D + (𝑋D − 𝑋H )D + (𝑋J − 𝑋H )D + ⋯ + (𝑋K − 𝑋H)D
𝒔 =
𝑛−1
(11,725 − 13,754.39)D + (11,800 − 13,754.39)D + (12,422 − 13,754.39)D + ⋯ + (17,700 − 13,754.39)D

𝒔𝟐 =
13 − 1
𝒔𝟐 = 𝐋𝟑, 𝟎𝟐𝟗, 𝟒𝟐𝟏. 𝟓𝟖
R/ La varianza muestral del conjunto de datos es L.3,029,421.58 cuadrados
C) Calculando la Desviación Estándar:

𝒔 = B𝒔𝟐

𝒔 = B𝟑, 𝟎𝟐𝟗, 𝟒𝟐𝟏. 𝟓𝟖
𝒔 = 𝐋𝟏, 𝟕𝟒𝟎. 𝟓𝟐
R/ La desviación estándar muestral del conjunto de datos es L.1,740.52
En conclusión:
Se estimó que el ingreso de los hogares de una región de Tegucigalpa en promedio es de L13,754.3 con una tendencia a variar en los ingresos de dichos
hogares por encima y por debajo de L1,740.52
§ 1.4 LAS MEDIDAS DE APUNTALAMIENTO (SESGO)
Es la asimetría estadística necesaria para conocer cuanto se parece nuestra distribución de observaciones a una distribución teórica normal llamada “curva normal” y
hace referencia la grado en el que los datos se reparten por encima y por debajo de la tendencia central. Las medidas de apuntalamiento son: Asimetría y Curtosis.
Asimetría (As):
El coeficiente de asimetría muestra si los valores de la variable se concentran en determinada zona de la distribución. La asimetría puede ser con sesgo hacia la derecha
(asimetría positiva), con sesgo hacia la izquierda (asimetría negativa) y/o sin sesgo (simétrica).

ASIMETRÍA > 0 ASIMETRIA < 0 ASIMETRIA = 0
La media es mayor a la mediana y moda La media es menor a la mediana y moda La media es igual a la mediana
𝑿& > 𝑴𝒆 > 𝑴𝒐 & < 𝑴𝒆 < 𝑴𝒐
𝑿 & = 𝑴𝒆 = 𝑴𝒐
𝑿
...La distribución de una variable normal está completamente determinada

por dos parámetros, su media y su desviación estándar

Curtosis (g2):
El coeficiente de curtosis indica si la distribución es muy apuntalada o poco apuntalada, muestra que tan puntiaguda es la distribución de observacioes.
LEPTOCÚRTICA: CURTOSIS >0 MESOCÚRTICA: CURTOSIS = 0 PLATICÚRTICA: CURTOSIS < 0
2- LA ESTADÍSTICA INFERENCIAL
Como es sabido, una muestra es un subconjunto de la población; y aunque la información que majena el investigador se reduce a una o varias muestras, sus objetivos
suelen consistir en extraer conclusiones y conocer el modelo que mejor explique la realidad en la población objetivo. Para ello empleará la inferencia estadística; proceso
que a partir de una muestra permite inferir valores sobre características poblacionales en términos de probabilidad.
Se utiliza para probar hipótesis y estimar parámetros. Va de la muestra hacia la población. Es un método empleado para determinar una propiedad o atributo de una
población en base a la información de la muestra representativa. Va más alla de sólo describir las variables, pretendiendo probar hipótesis, estimar parámetros para así
generalizar los resultados obtenidos en la muestra.

Se hace inferencia de
Se recolectan datos de
Se calculan los los parámetros
una muestra
estadígrafos mediante técnicas
probabilística
estadísticas
La estadística inferencial se basa en la distribución normal. Usa la teoría de las probabilidades para generalizar las características de una población (N) a partir de las
características de una muestra (n).
La estadística inferencial se utiliza para: probar hipotesis y estimar parámetros.
Una distribución observaciones de una variable tiende a ser normal cuando:
• Los datos o casos muestrales son mayores a 100. • La Simétrica (coeficiente de asimetría es cero)
• Es unimodal • Es mesocurtica (coeficiente de curtosis es cero)
• La desviación estándar es igual a uno (1) • Las medidas de tendencia central coinciden en el mismo punto.

El análisis inferencial comprende:
Análisis Paramétrico, que puede ser: Análisis No Paramétrico, que puede ser:
§ Coeficiente de Correlación de Pearson (r). § Chi cuadraro.
§ Regresión Lineal. § Coeficiente de correlacion cruzado.
§ Prueba t. § Coeficiente de correlacion Spearman y Kendall.
§ Prueba de diferencia de proporciones.
§ Analisis de varianza unidireccional ANOVA.
§ Analisis de varianza factorial.
§ Analisis de Covarianza.
SUPUESTOS DEL ANÁLISIS PARAMÉTRICO SUPUESTOS DEL ANÁLISIS NO PARAMÉTRICO
¨ La distribución de la variable dependiente es normal. ¨ Las distribuciones muestrales no siempre son normales.
¨ El nivel de medición de las variables es de intervalo o de razón. ¨ Las variables no siempre son de intervalo y razón, se aceptan
¨ Cuando dos poblaciones o más son estudiadas, tienen una varianza homogénea. nominales y ordinales.
§ COEFICIENTE DE CORRELACION PEARSON (r):
Es una prueba estadística que verifica la relación lineal entre dos variables (de intervalo o de razón). Se usa en investigaciones bajo alcances correlacionales. El
Coeficiente de Correlación de Pearson permite probar hipotesis CORRELACIONALES para dos variables del que se obtiene como resultado un valor numérico entre
-1 y +1.

¿Como interpretar el coeficiente de correlación Pearson?
Coeficiente r Interpretación
Correlación negativa o inversa perfecta entre X y Y
(cuando aumenta X entonces disminuye Y; cuando disminuye X aumenta Y).
r = -1 Se analiza:
- Las variables están correlacionadas inversamente en un 100% lo que indica que un aumento de X esta relacionado con una disminución en Y.
- Las variables están correlacionadas inversamente en un 100% lo que indica que una disminución de X se relaciona con un aumento de Y.
-1 < r < 0 Correlación inversa (no perfecta) entre X y Y.
- Las variables están correlacionadas inversamente en un %.
r=0 No existe correlación alguna entre las variables X y Y.
0<r<1 Correlación directa (no perfecta) entre X y Y.

- Las variables están correlacionadas directamente en un %.
Correlación positiva o directa perfecta entre X y Y
(cuando aumenta X entonces también aumenta Y; cuando disminuye X también lo hace Y).
r=1
Se analiza:
- Las variables están correlacionadas directamente en un 100% lo que indica que un aumento de X esta relacionado con un aumento de Y.
- Las variables están correlacionadas directamente en un 100% lo que indica que una disminución de X esta relacionado con una disminución de Y.
El coeficiente pearson medira la intensidad de la relación entre dos variables

§ REGRESIÓN LINEAL
Es un modelo estadístico para estimar y predecir el efecto de una -o más- variables sobre otra. Se utiliza en investigaciones bajo alcance explicativo que formularon
hipótesis causales. Con el coeficiente de correlación Pearson se debe calcular el “Coeficiente de Determinación2 (𝒓𝟐 )” que en términos sencillos es elevar al cuadrado
el valor del coeficiente Pearson. El coeficiente de determinación indica la bondad de ajuste de un modelo de regresión o el porcentaje de la variación de Y debido a X y
viceversa.
...El Coeficiente de Determinación siempre será un resultado positivo que esta entre 0 y 1.
La especificación o forma funcional de la regresión es la siguiente:

Y = ∫(𝑋[ )
La ecuación lineal es:

Y = a + bX
Donde:
Y = es la variable dependiente. X = es la variable independiente.
a = es el intercepto (ordenada la origen) o la constante. Signo de la función: indica la direccion de la correlación es este caso es
b = es la pendiente de la recta. positivo.
2
Este coeficiente no es común en estudios correlacionales pero si en estudios bajo profundidad explicativa y con hipótesis causales que desarrollan un análisis de datos con modelos
de regresión.

Una gráfica muy usada en correlación y regresión es el “diagrama de dispersión” que examina la relación entre dos o más variables. Es un gráfico de puntos de datos
basados en dos variables, una en el eje horizontal y otra en el vertical. El posicionamiento de los puntos a lo largo de una línea recta se debe a la existencia de correlación
lineal, si los puntos siguen distintas formas la relación no podría calificarse lineal. La inexistencia de relación se podría constatar si la nube de puntos es dispersa. (Lévy
y Varela, 2008).
y = a - bx
Ejemplifiquemos,

EJEMPLO 6. Si la correlación en un modelo de regresión entre las variables “ingreso por remesas” y el “consumo de aparatos electrodomésticos” es de 0.93. Calcule el
coeficiente de determinación y explique ambos coeficientes.
Solución
Aquí, el ejemplo ya muestra el valor del coeficiente de correlación pearson, lo que se pide es interpretarlo y a su vez calcular el coeficiente de determinación.
𝒓 = 0.93 (o lo que es lo mismo 93%)
Con este valor de r se puede calcular 𝑟 D así:
𝒓𝟐 = (𝟎. 𝟗𝟑)𝟐 =0.865 (o lo que es lo mismo 86.5%)
INTERPRETACIÓN:
Las variables estan asociadas o relacionadas o vinculadas positivamente en un 93%. Es decir, que altos valores de ingresos por remesas estan asociados
con altos valores en el consumo de aparatos electrodomésticos. Así, el ingreso por remesas explica la variación del consumo de electrodomésticos en un
86.5%.

EJEMPLO 7. Si la correlación en un modelo de regresión entre “tasa de impuestos” e “inversión privada” da como resultado un coeficiente Pearson de -0.78; calcule el coeficiente
de determinación y analice que representan los valores.
Solución
𝑟 = -0.78 à -78%
𝑟 D = (−0.78)D =0.61 à 61%
INTERPRETACIÓN:
Las variables estan relacionadas inversamente en un 78%, lo que indica que a mayor tasa de impuestos menor inversion privada. La tasa de impuestos
explica la variación de la inversión privada en un 61%
EJEMPLO 8. Se tiene la siguiente función lineal de la variable “número de créditos de vivienda” y “tasa de interés”: Y = 5 + 2X.
a) Identifique cual es la variable dependiente, independiente e interprete los valores de la función y el signo.
b) ¿A cuanto asciende el número de créditos de vivienda si la tasa de interés es de 16 puntos?
Solución
a) La variable dependiete (Y) es “número de créditos de vivienda” y la variable independiente (X) es la “tasa de interés”. Se dice que a medida que aumenta X en
una (1) unidad, también aumentará Y en dos (2) unidades.
El valor positivo en la función indica la dirección de la correlación que en este caso es una correlación POSITIVA (aumenta X aumenta Y).
Manteniendo constante la tasa de interés (es decir sin que varíe), el número de créditos de vivienda ascenderá a 5 (este es el valor constante de la regresión)

b) Solo sustituimos en la función:
Y = 5 + 2X.
Y = 5 + 2(16)
Y = 37
Con una tasa de interés de 16 puntos, el número de créditos de vienda será de 37.
EJEMPLO 9. Se llevo a cabo un estudio para determinar la causalidad entre los “años de experiencia” y el “salario mensual” medido en miles de Lempiras de profesionales
egresados de una UNAH. La función de regresión lineal obtenida fue la siguiente:
Y = 17.91 + 0.645X
a) Identifique cual es la variable dependiente, independiente e Interprete los valores de la función y el signo.
b) ¿A cuando asciende Y si X es 25 años?
Solución
a) La variable dependiete (Y): salario .

La variable independiente (X): años de experiencia.
Se dice que a medida que aumenta X en una unidad, también aumentará Y en 0.645 unidades. El valor positivo en la función indica la dirección de la correlación
que en este caso es una correlación POSITIVA (aumenta X aumenta Y).
Cuando los años de experiencia son cero (0) es decir un recien egresado, su salario será 17.91 mil Lempiras (este es el valor constante de la regresión)
b) Sustituimos en la función:
Y = 17.91 + 0.645X.
Y = 17.91 + 0.645(25)
Y = 34.035 miles de Lempiras R/ Un egresado de la UNAH con una experiencia laboral de 25 años, el salario percibido será de L.34,035

EL ANÁLISIS DE GRÁFICOS, TABLAS Y CUADROS EN UNA INVESTIGACIÓN
Ya hemos repasado algunos aspectos estaísticos que son muy necesarios en la investigación. Se ejemplificó estadística descriptiva y algunas pruebas paramétricas.
Pero para un completo análisis de datos cuantitativos es necesario lograr interpretar lo que un gráfico expresa. En este último espacio, ejemplificaremos algunas formas
de analizar gráficos y tablas como análisis de resultados.
Cuando se llega a la fase del análisis de resultados en la investigación, es necesario hacer uso de un programa computacional que permita obtener todos los datos de
todas las variables y que a partir de una matríz de datos se puedan generar multiplies tablas y gráficos que permitan un mejor análisis. Vease a continuación algunos
ejemplos de cómo se analizan:
Tabla 1: Ingresos y Gastos totales del Gobierno

(Millones de Lempiras)
Al analizar el comportamiento histórico de los ingresos y gastos de la
AÑO FISCAL INDICADORES Administración Central en la tabla 1, se aprecia cómo el Gobierno ha logrado
INGRESOS TOTALES GASTO TOTAL BRECHA FISCAL
2002 21,141.1 26,289.0 5,147.9 mantener un incremento constante de los ingresos influenciado por una mayor
2003 23,562.1 30,088.8 6,526.7
recaudación impositiva, y a su vez, un elevado crecimiento del gasto público.
2004 27,821.1 32,020.4 4,199.3
2005 32,343.6 36,397.4 4,053.8 Según estiman los organismos y entidades encargadas de la valoración de
2006 37,291.9 39,579.7 2,287.8
2007 44,696.1 51,444.2 6,748.1 dichos datos, el gasto público ha sido destinado a financiar a los distintos
2008 52,297.3 58,682.6 6,385.3
sectores sociales, así como para hacer frente a la amortización de la Deuda
2009 47,006.7 63,669.0 16,662.3
2010 50,494.4 64,460.8 13,966.4 Pública. En referencia a lo anterior, la Cuenta Financiera de la Administración
2011 56,924.7 72,222.4 15,297.7
2012 60,356.6 81,873.2 21,516.6 Central (AC) ha reflejado que históricamente dicho gasto público se ha
2013 64,119.4 93,861.2 29,741.9 concentrado en gasto corriente.
2014 76,768.2 94,768.5 18,000.3
2015 88,225.8 101,967.5 13,741.7
2016 99,388.6 112,981.9 13,593.3
2017 110174.6 124946.6 14,772.0
Fuente: Elaboración propia, en base a datos oficiales de la SEFIN

Gráfica 1: Comportamiento de los Ingresos y Gastos del Gobierno 17.8% del PIB durante el periodo de estudio que representó casi una quinta
(En millones de Lempiras) parte de la producción nacional.
120,000 Lo anterior, obedece a una serie de acontecimientos que propiciaron a
Ingresos Totales
100,000 un incremento sustancial de la recaudación en los primeros y últimos años; por
Gasto Total
80,000 una parte en el año 2003 en la Ley de Equidad Tributaria se amplió la base del
60,000
impuesto sobre la renta y se eliminaron varias exoneraciones al impuesto sobre
40,000
ventas (CEPAL, 2004).
20,000
0
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
p
17
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
Fuente: Elaboración propia, en base a cifras oficiales de la SEFIN.
En relación a la gráfica 1, se puede evidenciar que este comportamiento

(al alza) evaluado, ha sido resultado de la implementación de una política fiscal
expansiva y de reformas estructurales en las finanzas públicas, ya que por un
lado, la estructura tributaria en concordancia con la legislación hondureña, ha
permitido una mayor recaudación de ingresos provenientes en su mayoría de
los impuestos indirectos (impuesto sobre el valor agregado) lo que se contrastó
con la evolución del indicador “presión fiscal” el cual ascendió en promedio a

Gráfica 2: Evolución del saldo de la Deuda Pública Interna de la AC sostenibilidad de la deuda interna por medio de la trasferencia de utilidades que
(En millones de Lempiras)
generaban las principales empresas públicas como HONDUTEL y ENEE, esto
100,000
97,761.7 llevó a mantener el saldo de la Deuda Pública Interna relativamente estable. Por
Saldo de la Deuda Publica…
80,000 su parte, los años 2008 a 2017 mostraron una diferencia creciente de la Deuda
60,000
Pública Interna que pasó de los L.6,991.4 millones en 2007 a L.97,761.7
millones en el año 2017.
40,000
20,000 5,009.4 Este comportamiento ha sido explicado especialmente por la

desaceleración de la producción mundial durante 2008, el lento dinamismo
0
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 macroeconómico interno y la crisis política del 2009. Además, el Gobierno
Fuente: Elaboración propia en base a datos obtenidos de memoria institucional de SEFIN. Central implementó una política fiscal expansionista que repercutió en un mayor
nivel de gasto público e inició a utilizar los recursos internos disponibles en la
En lo referente a los años 2002 a 2007, como se evidencia en la gráfica
Banca Comercial y en los Institutos de Previsión Social por medio de la emisión
2; la Deuda Pública Interna no vino a ser un instrumento de política fiscal
incrementada de bonos gubernamentales. Es evidente, que la acentuada
prioritario del Gobierno para financiar el déficit de la AC, más bien la Deuda
insuficiencia de los ingresos del Gobierno Central puso de manifiesto a partir del
Pública Externa ha sido históricamente el instrumento principal para el
año 2008 el uso intensivo del crédito interno, razón por la cual, se ha mantenido
financiamiento del déficit. Según SEFIN (2003) el Gobierno logró mantener la
creciente hasta 2017.


2 - Material Analisis de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2 - Material Analisis de Datos

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL AUTÓNOMA DE HONDURAS

FACULTAD DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS Y CONTABLES

CE094 - MÉTODOS Y TÉCNICAS DE INVESTIGACIÓN1

Material complemento del Cap. 10: Análisis de Datos Cuantitativos

1 Ciudad Universitaria José Trinidad Reyes. 2do Periodo Académico 2021.

Material exclusivo para estudiantes de la UNAH.

El análisis cuantitativo comprende dos (2) etapas:

I. La representación de los datos (a través de las estadísticas).

¿A qué programas estadísticos nos referimos?

Algunos ejemplos de ellos:

Material exclusivo para estudiantes de la UNAH.

1- Estadística Descriptiva 2- Estadística Inferencial

Material exclusivo para estudiantes de la UNAH.

Vayamos por partes...

§ 1.1 DISTRIBUCIONES DE FRECUENCIAS § 1.3 MEDIDAS DE DISPERSIÓN (O VARIABILIDAD)

§ 1.2 MEDIDAS DE TENDENCIA CENTRAL § 1.4 MEDIDAS DE APUNTALAMIENTO

§ 1.1 DISTRIBUCIONES DE FRECUENCIAS:

Material exclusivo para estudiantes de la UNAH.

Ítem en el instrumento: ¿A qué facultad pertenece el encuestado?

COLUMNA 1 COLUMNA 2 COLUMNA 3 COLUMNA 4 COLUMNA 5

Material exclusivo para estudiantes de la UNAH.

CALCULANDO LA FRECUENCIA ACUMULADA:

CALCULANDO LA FRECUENCIA RELATIVA:

CALCULANDO LA FRECUENCIA RELATIVA ACUMULADA:

Material exclusivo para estudiantes de la UNAH.

HISTOGRAMA ¿A qué facultad pertenece el estudiante?

Material exclusivo para estudiantes de la UNAH.

Material exclusivo para estudiantes de la UNAH.

§ 1.2 LAS MEDIDAS DE TENDENCIA CENTRAL:

Formula Media Aritmética muestral:

Material exclusivo para estudiantes de la UNAH.

Formula ubicación de la Mediana Muestral:

…La moda se calcula para todos los niveles de medición.

Material exclusivo para estudiantes de la UNAH.

A) CALCULANDO LA MEDIA ARITMETICA:

& = 𝐋𝟏𝟑, 𝟕𝟓𝟒. 𝟑𝟗

7 es la posición de la mediana en la distribución de observaciones, busquemos esa posición:

Material exclusivo para estudiantes de la UNAH.

Entonces la mediana (Me) es L13,350

En nuestra distribución de datos identificamos el valor que más se repita:

Material exclusivo para estudiantes de la UNAH.

A) CALCULANDO LA MEDIA ARITMÉTICA:

& = 𝟒. 𝟔𝟏 Años de antigüedad

La posición de la mediana en la distribución de observaciones es 13.5, lo buscamos en la distribución:

Material exclusivo para estudiantes de la UNAH.

§ 1.3 LAS MEDIDAS DE DISPERSIÓN:

Material exclusivo para estudiantes de la UNAH.

La Desviación Estándar (𝒔):

Material exclusivo para estudiantes de la UNAH.

Formula Desviación Estándar Muestral:

Es el promedio de las desviaciones respecto a su media elevadas al cuadrado.

Formula Varianza Muestral:

𝑿𝟏 , 𝑿𝟐 … 𝑿𝒏 son observaciones individuales.

Material exclusivo para estudiantes de la UNAH.

Tenemos los datos ya calculados de las medidas de tendencia central:

(11,725 − 13,754.39)D + (11,800 − 13,754.39)D + (12,422 − 13,754.39)D + ⋯ + (17,700 − 13,754.39)D

𝒔𝟐 = 𝐋𝟑, 𝟎𝟐𝟗, 𝟒𝟐𝟏. 𝟓𝟖

R/ La varianza muestral del conjunto de datos es L.3,029,421.58 cuadrados

C) Calculando la Desviación Estándar:

Material exclusivo para estudiantes de la UNAH.

§ 1.4 LAS MEDIDAS DE APUNTALAMIENTO (SESGO)

Material exclusivo para estudiantes de la UNAH.

...La distribución de una variable normal está completamente determinada