Está en la página 1de 76

Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Análisis Estadístico de Datos en Investigación


Curso: ¿Cómo hacer una tesis?

Mg. Enver G. Tarazona

Departamento Académico de Ciencias - Pontificia Universidad Católica del Perú

2021-10-15
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Objetivos de la sesión

• Revisar el proceso para analizar los datos cuantitativos.


• Reforzar los conocimientos estadísticos fundamentales.
• Diferenciar la estadística descriptiva y la inferencial, la
paramétrica y la no paramétrica.
• Comprender los elementos que integran un reporte de
investigación cuantitativa.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Introducción
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Estadística

Es un conjunto de métodos científicos para la recolección,


organización, análisis e interpretación de datos con la finalidad de
realizar conclusiones y tomar decisiones válidas.
• Estadística Descriptiva: El objetivo de la estadística
descriptiva es resumir las principales características de un
conjunto de datos a través de tablas, gráficos y medidas
numéricas.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Estadística

Es un conjunto de métodos científicos para la recolección,


organización, análisis e interpretación de datos con la finalidad de
realizar conclusiones y tomar decisiones válidas.
• Estadística Descriptiva: El objetivo de la estadística
descriptiva es resumir las principales características de un
conjunto de datos a través de tablas, gráficos y medidas
numéricas.
• Estadística Inferencial: Se encarga del análisis de los datos
con el propósito de realizar conclusiones válidas acerca de la
población de donde originalmente se recolectaron estos datos. La
Estadística inferencial está basada en la teoría de probabilidades.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Población

Es un conjunto de elementos sobre los cuales se desea investigar una o


más características de estos. El número de elementos que conforman
una población será denotado por la letra 𝑁 .
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Población

Es un conjunto de elementos sobre los cuales se desea investigar una o


más características de estos. El número de elementos que conforman
una población será denotado por la letra 𝑁 .
Son ejemplos de población:
• Las bolsas de cemento producidas en un día por una fábrica.
• Los hogares de una región.
• Los alumnos que estudian Administración en la UP.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Población

Es un conjunto de elementos sobre los cuales se desea investigar una o


más características de estos. El número de elementos que conforman
una población será denotado por la letra 𝑁 .
Son ejemplos de población:
• Las bolsas de cemento producidas en un día por una fábrica.
• Los hogares de una región.
• Los alumnos que estudian Administración en la UP.

Una muestra es, por otro lado, un subconjunto de la población. El


número de elementos que conforman una muestra será denotado por
la letra 𝑛. Se dirá que una muestra es aleatoria si sus elementos han
sido seleccionados mediante un procedimiento probabilístico.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Qué es aprendizaje estadístico?

Aprendizaje estadístico es el proceso de aprendizaje a partir de los


datos.
Aplicando métodos estadísticos a un conjunto de datos (llamado el
conjunto de entrenamiento), nosotros podemos:
• extraer conclusiones acerca de las relaciones entre las variables
(inferencia) o
• encontrar una función predictiva para nuevas observaciones.
(predicción).

Además, nos gustaría encontrar estructuras en los datos que nos


ayuden a aprender algo sobre el mundo real.
El aprendizaje estadístico juega un rol muy importante en muchas
áreas del conocimiento como en ciencias, finanzas y la industria.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Aprendizaje Estadístico vs. Aprendizaje Automático

• El aprendizaje automático surgió como un subcampo de la


inteligencia artificial.
• El aprendizaje estadístico surgió como un subcampo de la
estadística.
• Hay mucha superposición: ambos campos se centran en
problemas supervisados y no supervisados:
• El aprendizaje automático tiene un mayor énfasis en las
aplicaciones a gran escala y precisión de la predicción.
• El aprendizaje estadístico enfatiza los modelos y su
interpretabilidad, precisión e incertidumbre.
• La distinción se ha vuelto cada vez más borrosa y hay una gran
cantidad de superposición de términos y modelos.
• ¡El aprendizaje automático tiene la ventaja en marketing!
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Análisis e Interpretación de Datos


Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Consideraciones Generales

“Al analizar los datos cuantitativos debemos recordar dos cuestiones:


primero, que los modelos estadísticos son representaciones de la
realidad, no la realidad misma; y segundo, los resultados numéricos
siempre se interpretan en contexto, por ejemplo, un mismo valor de
presión arterial no es igual en un bebé que en una persona de la
tercera edad.”
Roberto Hernández-Sampieri
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Proceso para Efectuar el Análisis Estadístico


Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Paso 1 y 2: seleccionar y ejecutar un programa de


análisis

• Programas Open Source


• R/RStudio
• Jamovi
• JASP
• Python
• Programas con Licencia
• SPSS
• SAS
• Minitab
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Qué es R?

• R es un lenguaje computacional de alto nivel y un programa para


realizar análisis estadístico y gráficos.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Qué es R?

• R es un lenguaje computacional de alto nivel y un programa para


realizar análisis estadístico y gráficos.
• Permite aplicar una variedad de métodos estadísticos básicos y
avanzados.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Qué es R?

• R es un lenguaje computacional de alto nivel y un programa para


realizar análisis estadístico y gráficos.
• Permite aplicar una variedad de métodos estadísticos básicos y
avanzados.
• Produce gráficos de alta calidad.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Qué es R?

• R es un lenguaje computacional de alto nivel y un programa para


realizar análisis estadístico y gráficos.
• Permite aplicar una variedad de métodos estadísticos básicos y
avanzados.
• Produce gráficos de alta calidad.
• R es un lenguaje de programación; es decir, podemos escribir
nuevas funciones y extender el uso de R.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Qué es R?

• R es un lenguaje computacional de alto nivel y un programa para


realizar análisis estadístico y gráficos.
• Permite aplicar una variedad de métodos estadísticos básicos y
avanzados.
• Produce gráficos de alta calidad.
• R es un lenguaje de programación; es decir, podemos escribir
nuevas funciones y extender el uso de R.
• R es un software open source que es mantenido por muchos
contribuyentes. El R Core Team está conformado por unos 17
programadores que son responsables de modificar el código fuente
de R.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Qué es R?

• R es un lenguaje computacional de alto nivel y un programa para


realizar análisis estadístico y gráficos.
• Permite aplicar una variedad de métodos estadísticos básicos y
avanzados.
• Produce gráficos de alta calidad.
• R es un lenguaje de programación; es decir, podemos escribir
nuevas funciones y extender el uso de R.
• R es un software open source que es mantenido por muchos
contribuyentes. El R Core Team está conformado por unos 17
programadores que son responsables de modificar el código fuente
de R.
• El sitio web oficial de R es: http://www.R-project.org
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Qué es R?

• R es un lenguaje computacional de alto nivel y un programa para


realizar análisis estadístico y gráficos.
• Permite aplicar una variedad de métodos estadísticos básicos y
avanzados.
• Produce gráficos de alta calidad.
• R es un lenguaje de programación; es decir, podemos escribir
nuevas funciones y extender el uso de R.
• R es un software open source que es mantenido por muchos
contribuyentes. El R Core Team está conformado por unos 17
programadores que son responsables de modificar el código fuente
de R.
• El sitio web oficial de R es: http://www.R-project.org
• R puede ser instalado libremente (no requiere pago ni registro
alguno) en Windows, Mac o Linux.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Por qué R?

• R y Python son los programas más completos en cuanto a rutinas


estadísticas que existen en el mercado
• En el futuro quizás deban migrar a otro software. Esta transición
será más sencilla a partir de un programa como R.
• La configuración por defecto de SPSS (entre otros) permite que
pueda ser utilizado sin conocer los fundamentos estadísticos, por
tanto es más propenso al ‘garbage-in, garbage-out’. R demanda
un conocimiento mínimo de los fundamentos. Esto lo hace ideal
para el aprendizaje de la estad?stica.
• SPSS over R? R for psycology undergrads
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Conjunto o Matriz de Datos


Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Variable

Es el resultado de una medición o una característica en los elementos


de la población. Una variable suele ser denotada por una letra, por
ejemplo: 𝑋, 𝑌 o 𝑍.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Variable

Es el resultado de una medición o una característica en los elementos


de la población. Una variable suele ser denotada por una letra, por
ejemplo: 𝑋, 𝑌 o 𝑍.
Son ejemplos de variable:
• 𝑋 = Peso de una bolsa de cemento de la producción de un día de
una fábrica.
• 𝑌 = Ingreso mensual de un hogar de una región.
• 𝑍 = Nivel socioeconómico de un hogar de una región.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Variable

Es el resultado de una medición o una característica en los elementos


de la población. Una variable suele ser denotada por una letra, por
ejemplo: 𝑋, 𝑌 o 𝑍.
Son ejemplos de variable:
• 𝑋 = Peso de una bolsa de cemento de la producción de un día de
una fábrica.
• 𝑌 = Ingreso mensual de un hogar de una región.
• 𝑍 = Nivel socioeconómico de un hogar de una región.

Se denominará como dato al valor que toma una variable en un


elemento de la población. Un conjunto de 𝑛 datos de una variable 𝑥
se suele denotar como 𝑥1 , 𝑥2 , ..., 𝑥𝑛 .
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Tipos de Variables

Las variables se pueden clasificar en:


• Variables cuantitativas: Si toma valores numéricos con los que
se pueden realizar operaciones aritméticas. Se dividen en
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Tipos de Variables

Las variables se pueden clasificar en:


• Variables cuantitativas: Si toma valores numéricos con los que
se pueden realizar operaciones aritméticas. Se dividen en
• Discretas: son aquellas variables que toman un número
enumerable finito o infinito de valores. Usualmente se consideran
números enteros.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Tipos de Variables

Las variables se pueden clasificar en:


• Variables cuantitativas: Si toma valores numéricos con los que
se pueden realizar operaciones aritméticas. Se dividen en
• Discretas: son aquellas variables que toman un número
enumerable finito o infinito de valores. Usualmente se consideran
números enteros.
• Continuas: son aquellas variables que pueden asumir cualquier
valor dentro de un intervalo de valores, por lo que toman un
número no enumerable de valores.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Tipos de Variables

Las variables se pueden clasificar en:


• Variables cuantitativas: Si toma valores numéricos con los que
se pueden realizar operaciones aritméticas. Se dividen en
• Discretas: son aquellas variables que toman un número
enumerable finito o infinito de valores. Usualmente se consideran
números enteros.
• Continuas: son aquellas variables que pueden asumir cualquier
valor dentro de un intervalo de valores, por lo que toman un
número no enumerable de valores.
• Variables cualitativas: Si toma como valores categorías que
representan alguna clasificación en la población. Si bien estas
puedan representarse por números, estos no admiten operaciones
aritméticas. Las variables cualitativas se denominan:
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Tipos de Variables

Las variables se pueden clasificar en:


• Variables cuantitativas: Si toma valores numéricos con los que
se pueden realizar operaciones aritméticas. Se dividen en
• Discretas: son aquellas variables que toman un número
enumerable finito o infinito de valores. Usualmente se consideran
números enteros.
• Continuas: son aquellas variables que pueden asumir cualquier
valor dentro de un intervalo de valores, por lo que toman un
número no enumerable de valores.
• Variables cualitativas: Si toma como valores categorías que
representan alguna clasificación en la población. Si bien estas
puedan representarse por números, estos no admiten operaciones
aritméticas. Las variables cualitativas se denominan:
• Nominales: si no existe orden entre las categorías.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Tipos de Variables

Las variables se pueden clasificar en:


• Variables cuantitativas: Si toma valores numéricos con los que
se pueden realizar operaciones aritméticas. Se dividen en
• Discretas: son aquellas variables que toman un número
enumerable finito o infinito de valores. Usualmente se consideran
números enteros.
• Continuas: son aquellas variables que pueden asumir cualquier
valor dentro de un intervalo de valores, por lo que toman un
número no enumerable de valores.
• Variables cualitativas: Si toma como valores categorías que
representan alguna clasificación en la población. Si bien estas
puedan representarse por números, estos no admiten operaciones
aritméticas. Las variables cualitativas se denominan:
• Nominales: si no existe orden entre las categorías.
• Ordinales: si existe orden entre las categorías.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Variables en Análisis de Datos

• Desde un enfoque de análisis de datos, una variable es cualquier


función que asigna números a los elementos de una población.
• Tales números miden alguna característica de los elementos de la
población (incluso si la variable fuese cualitativa).
• Es por ello que cobra importancia el concepto de escala de
medición, como una regla (función) que asigna números a las
mediciones realizadas en las unidades estadísticas.
• Los números asignados por las escalas deben informar lo más
precisamente posible acerca de las características de cada unidad
observada.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Principales Escalas de Medición


Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Paso 3: exploración de datos

• Preparación o preprocesamiento de datos


• Estadísticos descriptivos
• Tablas de frecuencias
• Cálculo de medidas estadísticas
• Explorar relaciones (correlaciones, tablas de contingencia, etc.)
• Visualización
• Distribuciones de frecuencia
• Gráficos de barras agrupadas o componentes (a partir de las
tablas de contingencia)
• Otros tipos de visualización (Pareto, series temporales, etc.)
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Por que preparar los datos?

• Algún tipo de preparación de datos siempre es necesario para la


mayoría de herramientas de minería de datos.
• El propósito de la preparación es transformar los conjuntos de
datos de tal forma que la información que contienen esté mejor
expuesta para la herramienta de minería de datos que se utilizará.
• Los errores de predicción deberían ser menores (o en el peor caso
similares) luego de la preparación de datos, en comparación con
la data inicial.
• La preparación de datos también prepara al analista para
producir mejores modelos y de manera más rápida.
• Tener buenos datos es un requisito para producir modelos
efectivos de cualquier tipo.
• Los datos necesitan ser formateados para cada software en
particular.
• Los datos necesitan ser adecuados para un método en particular
• Los datos en la vida real están “sucios’ ’
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Principales Tareas en la Preparación de Datos

• Limpieza de datos
• Completa valores faltantes, suavizar datos ruidosos, identificar o
remover outliers y resolver inconsistencias.
• Integración de datos
• Integración de múltiples bases de datos, cubos de datos, archivos.
• Transformación de datos
• Normalización y agregación (totalización)
• Reducción de datos
• Se obtiene una representación más reducida en volumen pero que
produce los mismos o similares resultados analíticos.
• Discretización de datos
• Parte de la reducción de datos pero con particular importancia,
especialmente para datos numéricos
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Datos perdidos

• Los datos no siempre están disponibles.


• La falta de valores se puede deber a:
• Mal funcionamiento de equipos.
• Inconsistencia con otros datos registrados y por lo tanto
eliminados.
• Datos no ingresados debido a equivocaciones.
• Algunos datos pudieron no considerarse importantes al momento
de ingresar datos.
• No se registró historial o cambios en los datos.
• Puede ser necesario estimar estos valores faltantes.
• Los valores faltantes son un problema común en análisis
estadístico.
• Se ha propuesto muchos métodos para el tratamiento de valores
faltantes. Muchos de estos métodos fueron desarrollados para el
tratamiento de valores faltantes en encuestas por muestreo.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Outliers

Un “outlier’ ’ es una observación que se desvía tanto de las otras


observaciones como para crear la sospecha de que fue generado por un
mecanismo diferente.
• Detección de outliers univariados
• Diagrama de cajas (boxplots)
• Puntuación Z
• Detección de outliers multivariados
• Distancia de Mahalannobis al cuadrado
• Densidades locales
• Clusters
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Tablas de Frecuencias

• Es una herramienta que permite ordenar los datos de manera que


se presentan numéricamente las características de la distribución
de un conjunto de datos o muestra.
• La estructura básica tiene las siguientes columnas:
• 𝑛𝑗 : frecuencia ó número de veces que ocurre la categoría 𝑗.
• 𝑓𝑗 : frecuencia relativa o proporción para la categoría 𝑗, calculada
𝑛
como 𝑓𝑗 = 𝑛𝑗 , siendo 𝑛 el número total de datos.
• 𝑝𝑗 : porcentaje de la categoría 𝑗, dada por: 𝑝𝑗 = 100 × 𝑓𝑗 .
• Las distribuciones de frecuencias pueden completarse indicando
los valores perdidos, y los porcentajes acumulados (porcentaje de
lo que se va acumulando en cada categoría, desde la más baja
hasta la más alta).
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Visualización de Distribuciones

• Las herramientas gráficas brindan la posibilidad de investigar de


manera visual las características de los datos para ayudar a
entenderlos.
• Las exploración de los datos pueden claramente identificar errores
en los datos y particularidades sobre la forma en que fueron
recolectados.
• Es muy importante que, se examine visualmente la distribución
de los valores de cada una de las variables de nuestra base de
datos.
• El R es uno de los programas estadísticos con mayor capacidad
para realizar gráficas.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Medidas estadísticas descriptivas


• Tendencia Central
• Media (aritmética simple, ponderada, geométrica, armónica,
recortada, …)
• Mediana
• Moda
• Posición (cuantiles)
• Percentiles
• Deciles
• Cuartiles
• Variabilidad
• Absoluta
• Rango
• Rango intercuartílico
• Varianza y desviación estándar
• Relativa
• Coeficiente de variabilidad
• Forma o asimetría
• Concentración o curtosis
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Asociación entre variables cualitativas

Cada individuo de la población en estudio se puede clasificar según


dos variables categóricas 𝐴 y 𝐵. Suponga que la primera variable
permite clasificar a cada observación en una de 𝑎 categorías y que la
segunda variable permite clasificar a cada observación en una de 𝑏
categorías.
Tomadas 𝑛 mediciones simultáneas de estas variables en un conjunto
de individuos, resultará conveniente construir una tabla de
distribución de frecuencias bidimensional (tabla de doble entrada) que
permita organizar los datos.
A esta tabla que muestra ambas variables y las frecuencias observadas
en cada una de las a×b categorías resultantes se le conoce como tabla
de contingencia 𝑎 × 𝑏 y esquemáticamente la podremos representar
como sigue.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Tabla de Contingencia

B
1 2 ... j ... b Total
1 𝑓11 𝑓12 ... 𝑓1𝑗 ... 𝑓1𝑏 𝑓1.
2 𝑓21 𝑓22 ... 𝑓2𝑗 ... 𝑓2𝑏 𝑓2.
⋮ ⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮
A i 𝑓𝑖1 𝑓𝑖2 ... 𝑓𝑖𝑗 ... 𝑓𝑖𝑏 𝑓𝑖.
⋮ ⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮
a 𝑓𝑎1 𝑓𝑎2 ... 𝑓𝑎𝑗 ... 𝑓𝑎𝑏 𝑓𝑎.
Total 𝑓.1 𝑓.2 ... 𝑓.𝑗 ... 𝑓.𝑏 𝑛
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Tabla de Contingencia

B
1 2 ... j ... b Total
1 𝑓11 𝑓12 ... 𝑓1𝑗 ... 𝑓1𝑏 𝑓1.
2 𝑓21 𝑓22 ... 𝑓2𝑗 ... 𝑓2𝑏 𝑓2.
⋮ ⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮
A i 𝑓𝑖1 𝑓𝑖2 ... 𝑓𝑖𝑗 ... 𝑓𝑖𝑏 𝑓𝑖.
⋮ ⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮
a 𝑓𝑎1 𝑓𝑎2 ... 𝑓𝑎𝑗 ... 𝑓𝑎𝑏 𝑓𝑎.
Total 𝑓.1 𝑓.2 ... 𝑓.𝑗 ... 𝑓.𝑏 𝑛

siendo 𝑓𝑖𝑗 = número (frecuencia absoluta) de mediciones con


valores A = i y B = j
𝑏
𝑓𝑖. = ∑𝑗=1 𝑓𝑖𝑗 = número de mediciones con valor de A = i
𝑎
𝑓.𝑗 = ∑𝑖=1 𝑓𝑖𝑗 = número de mediciones con valor de B = j
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Asociación entre variables cuantitativas

• La asociación bivariada puede ser representada en un diagrama de


dispersión (‘scatterplot’). En ellos, cada individuo se representa
por un punto cuyas coordenadas son los valores de las variables.
• Principales medidas de asociación lineal
• Covarianza
• Correlación (Pearson, Spearman, …)
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Paso 4: evaluar la confiabilidad o fiabilidad y validez


lograda por el instrumento de medición

• Validez
• Es la cualidad del instrumento para medir los rasgos o
características que se pretenden medir.
• Por medio de la validación se trata de determinar si realmente el
cuestionario mide aquello para lo que fue creado.
• Fiabilidad
• Se refiere a la consistencia de los resultados.
• En el análisis de la fiabilidad se busca que los resultados de un
cuestionario concuerden con los resultados del mismo cuestionario
en otra ocasión
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Fiabilidad y Validez
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Análisis de la Fiabilidad y Validez

• Teoría Clásica de los Test


• Teoría de Respuesta al Ítem
• Modelos de Diagnóstico Cognitivo
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Paso 5: analizar mediante pruebas estadísticas las


hipótesis planteadas (análisis estadístico inferencial)

• Con frecuencia, el propósito de la investigación va más allá de


describir las distribuciones de las variables: se pretende probar
hipótesis y generalizar los resultados obtenidos en la muestra a la
población o universo.
• Los datos casi siempre se recolectan de una muestra y sus
resultados estadísticos se denominan estadísticos.
• A las medidas estadísticas de la población se les conoce como
parámetros. Éstos no son calculados, porque no se recolectan
datos de toda la población, pero pueden ser inferidos de los
estadísticos, de ahí el nombre de estadística inferencial.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Inferencia Estadística: Procedimientos

• El primer paso es determinar que estadísticos son los más


apropiados para estimar un parámetro y cuál es su distribución
(estimador puntual).
• Generalmente surgen dos preguntas fundamentales:

1. “¿Son los parámetros compatibles con algún valor


específico?”

→ Esto conduce a un contraste de hipótesis.

2. “¿Qué valores de los parámetros son compatibles con los datos?”

→ Esto nos lleva a determinar intervalos de confianza.


Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Contrastes de Hipótesis
• En la vida cotidiana es común escuchar el término hipótesis, el
cual es un sinónimo de conjetura. Una hipótesis es por ejemplo
aseverar que hay vida en Marte.

• Esta puede ser cierta o no, pero no lo sabemos ya que hasta el


momento no se ha encontrado evidencia empírica suficiente como
para confirmarla o refutarla.
• En Estadística las hipótesis son más específicas y pueden, sobre
la base de evidencia empírica (datos), corroborarse o no.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Contrastes de Hipótesis

• En adelante trabajaremos con una v.a. 𝑋 con función de


distribución 𝐹𝑋 (𝑥) = 𝑃 (𝑋 ≤ 𝑥) que depende de un parámetro o
vector de parámetros desconocido 𝜃. A esto lo denotaremos por
𝑋 ∼ 𝜃.
• Una hipótesis (estadística) es cualquier enunciado que hagamos
con respecto a la distribución de una ó más variables aleatorias.
• En general estos enunciados pueden ir dirigidos a:
• Los parámetros de las distribución (contrastes paramétricos)
• La forma de la distribución (contrastes de bondad de ajuste)
• Otras relaciones basadas en la interrrelación de un conjunto de
v.a’s (contrastes de asociación)
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Metodología General de un Contraste de Hipótesis


Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Errores en la Toma de Decisión


Cuando un experimentador toma la decisión de rechazar o de aceptar
𝐻0 , podría cometer dos tipos de error: el error de tipo I y el error de
tipo II.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Errores en la Toma de Decisión


• Estos errores se cuantifican mediante:
𝛼 = 𝑃 (𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼) = 𝑃 (Rechazar 𝐻0 ∣ 𝐻0 es verdadera)
𝛽 = 𝑃 (𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼𝐼) = 𝑃 (Aceptar 𝐻0 ∣ 𝐻0 es falsa).
• Obviamente un buen contraste es aquel en el que 𝛼 y 𝛽 son los
más pequeños posibles. Desafortunadamente se prueba que 𝛼 y 𝛽
están en relación inversamente proporcional.
• Por este motivo, se conviene en fijar 𝛼 a fin de buscar la mejor
prueba; aquella que con este 𝛼 dado tenga el 𝛽 más pequeño o la
potencia máxima.

Φ = 𝑃 (Rechazar 𝐻0 ∣ 𝐻0 es falsa) = 1 − 𝛽

• Esta convención hace de que a 𝛼 se le denomine también el nivel


de significación de la prueba y a 𝐻1 la hipótesis de trabajo
(uno coloca aquí lo que desea probar), ya que de probarse 𝐻0 que
es falsa, uno tendría controlado mediante 𝛼 el error en su
decisión.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Observaciones
• Internacionalmente se considera que un 𝛼 apropiado debe ser
menor o igual a 0.05, siendo el nivel de significación 𝛼 = 0.05 el
más utilizado en la mayoría de estudios.
• Lo que hace el investigador es usar las leyes de probabilidad para
encontrar la distribución teórica del estadístico de prueba 𝑌0
asumiendo que la hipótesis nula H0 es cierta; luego se determina
un rango C de valores del estadístico de prueba, que tenga una
probabilidad conocida 𝛼 de ocurrir.
• Este rango C es la región crítica o sea, si al tomar la muestra
ocurre C, se rechazará H0 y su probabilidad 𝛼 es el nivel de
significación asociado.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Valor P (P-valor)

• Las decisiones se toman tradicionalmente, como en el ejemplo


visto, usando las regiones críticas; sin embargo, resulta más
conveniente computacionalmente tomar decisiones con el llamado
valor p. Este es simplemente la probabilidad de que el estadístico
de prueba supere (en valor absoluto, si es a dos colas) a su valor
observado.
• La regla de oro es que se rechazará 𝐻0 si este valor p es menor al
nivel de significación 𝛼 prefijado.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Comentarios de advertencia sobre los 𝑝-valores:

• ¡El (mal) uso de los 𝑝-valores es fuertemente criticado en el


mundo científico!
• Las decisiones simples de sí/no a menudo se basan en un terreno
científico muy inquietante.
El tema está relacionado con buenas/malas prácticas de investigación,
problemas con la “reproducibilidad’ ’ y el progreso científico en general. Se
sugiere revisar:
• Declaración de la ASA sobre los 𝑝-valores: https://amstat.tandfonline.
com/doi/full/10.1080/00031305.2016.1154108#.Xh16iuExnhM
• Ideas para redefinir lo que significa “significancia estadística’ ’:
https://www.nature.com/articles/s41562-017-0189-z
• El blog de Scientific American:
https://blogs.scientificamerican.com/observations/to-fix-the-
reproducibility-crisis-rethink-how-we-do-experiments/
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Inferencia Estadística: Enfoques


• Inferencia Paramétrica o Clásica:
• Se debe conocer la distribución de la población o de las
distribuciones muestrales.
• Los parámetros son constantes.
• Pruebas más comunes: Prueba t, Prueba de contraste de la
diferencia de proporciones y medias, etc.
• Inferencia no paramétrica:
• No se conoce la distribución poblacional ni de las distribuciones
muestrales.
• Métodos basados en rangos (antiguos): Mann-Whithney,
Kruskall-Wallis, etc.
• Métodos basados en remuestreo (bootstrap)
• Inferencia Bayesiana:
• Los parámetros son variables aleatorias y tienen una distribución
a priori.
• Suele ser más adecuada que la paramétrica cuando se tiene
información previa y muestras más pequeña.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Paso 6: realizar análisis adicionales

• Modelos de regresión y clasificación.


• Análisis de varianza (ANOVA).
• Análisis de covarianza (ANCOVA).
• Modelos de Ecuaciones Estructurales (SEM)
• Análisis Multivariado: Cluster, análisis de correspondencias,
escalamiento multidimensional, etc.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Paso 7: preparar los resultados para presentarlos

1. Revisar cada resultado


2. Organizar los resultados (primero los descriptivos, por variable
del estudio; luego los resultados relativos a la confiabilidad y la
validez; posteriormente los inferenciales, que se pueden ordenar
por hipótesis o de acuerdo con su desarrollo).
3. Cotejar diferentes resultados: su congruencia y en caso de
inconsistencia lógica volverlos a revisar.
4. Priorizar la información más valiosa
5. Copiar o “formatear” las tablas en el programa con el cual se
elaborará el reporte de la investigación
6. Comentar o describir brevemente la esencia de los análisis,
valores, tablas, diagramas, gráficas.
7. Volver a revisar los resultados.
8. Y, finalmente, elaborar el reporte de investigación.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Elaboración de Resultados y Discusión


Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Consideraciones generales

• Definición del usuario.


• Selección del tipo de reporte a presentar: formato y contexto
académico o no académico, dependiendo del usuario.
• Elaboración del reporte siguiendo un estilo de publicaciones y del
material adicional correspondiente.
• Presentación del reporte.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Reporte de análisis de datos

El informe debe permitir que un investigador del mismo equipo, o un


revisor, asimile toda la información sobre:
• los objetivos del análisis y cómo el análisis particular que se
informa encaja en el contexto más amplio del proyecto;
• la metodología de investigación y el proceso de recopilación de
datos, junto con los métodos utilizados para el análisis;
• procedimientos utilizados para gestionar los datos de forma eficaz
y al mismo tiempo garantizar la calidad de los datos;
• los resultados del análisis y lo que revelan;
• cualquier limitación con el análisis e incertidumbres asociadas
con los hallazgos.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Reporte de análisis de datos

La razón de esto es que un lector (que tiene un conocimiento de los


principios estadísticos) puede juzgar si las conclusiones extraídas son
válidas y si la investigación fue de tamaño suficiente para extraer
conclusiones fiables en relación con los objetivos establecidos.
Esto significa que la redacción debe contener suficientes detalles para
que el lector pueda evaluar si:
• el análisis, tal como se completó, fue apropiado para los datos;
• los resultados del análisis se han resumido y presentado
adecuadamente;
• la interpretación del análisis es correcta.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Lista de verificación de los componentes que se deben


informar

Relacionar los objetivos con el análisis previsto


Ya sea que el informe de análisis corresponda al proyecto en su
conjunto o a actividades individuales específicas dentro del proyecto,
el procedimiento de informe debe relacionarse con análisis que estén
dentro del contexto de los objetivos de la investigación. Estos
objetivos deben indicarse, junto con un esquema de las actividades de
investigación correspondientes, de modo que la relación entre el
análisis, las actividades de investigación y los objetivos sea clara.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Lista de verificación de los componentes que se deben


informar

Resumiendo “Materiales y métodos”


Se deben proporcionar suficientes detalles de los materiales y
procedimientos necesarios para comprender el análisis realizado. De
particular relevancia desde un punto de vista estadístico es una clara
especificación de:

a) la población de estudio subyacente a la que se dirigen los


resultados del análisis;
b) la elección y especificación de las unidades de estudio utilizadas
en el análisis y el número de unidades;
c) la estructura de los datos y
d) los procedimientos utilizados para recopilar los datos.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Lista de verificación de los componentes que se deben


informar

Cómo se manejaron los datos


Con demasiada frecuencia en los informes se dice poco sobre la forma
en que se han gestionado los datos de investigación, sin embargo, la
buena calidad de los datos es un elemento esencial de la investigación
de alta calidad. La confianza en los resultados de la investigación
derivados de las actividades de recopilación de datos se mejorará al
demostrar que se ha prestado suficiente atención a los problemas de
calidad y gestión de los datos, y alentamos más informes de esta área,
aunque sean breves.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Lista de verificación de los componentes que se deben


informar

Relacionar el análisis con los objetivos


Un protocolo bien escrito habrá proporcionado un esquema de los
enfoques de análisis y cómo se relacionan con los objetivos. En la
etapa de análisis de datos del proyecto, estos enfoques sugeridos
deberán revisarse a la luz de las actividades del proyecto hasta la
fecha para asegurar que aún sean apropiados y que los datos
recolectados aborden los objetivos. De lo contrario, será necesario
realizar las modificaciones adecuadas en al menos uno de los objetivos
y enfoques de análisis. El informe de análisis debe contener los
enfoques de análisis que se utilizaron realmente y cómo se relacionan
con los objetivos, con alguna discusión sobre por qué eran diferentes
del protocolo original.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Lista de verificación de los componentes que se deben


informar

Presentar e interpretar los resultados


Muchos investigadores parecen tener dificultades con esta parte de la
redacción de su análisis. Se debe considerar cuidadosamente cuánto
presentar y cuál es la mejor manera de presentarlo para que los
lectores de los resultados de la investigación estén convencidos del
valor de los hallazgos.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

Lista de verificación de los componentes que se deben


informar

Informar y presentar conclusiones


Al informar y presentar las conclusiones, estas deben estar vinculadas
no solo a los resultados ya presentados, sino también a los objetivos
de la investigación y al grado en que los resultados son generalizables.
Al presentar las conclusiones, también es importante responder a la
pregunta “¿y qué?” para cada hallazgo de la investigación.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Qué estadísticas presento?

• Las tablas y gráficos contienen resúmenes de los datos, por lo que


su contenido cuenta como “estadísticas” que deben presentarse.
• La mayoría de los investigadores ya se sienten cómodos
presentando tablas de medias o proporciones, incluso si no las
consideran como “estadísticas”. Parecen menos cómodos
presentando estimaciones de precisión, es decir, errores estándar,
junto con sus medias o proporciones.
• Sin embargo, estos son esenciales para la interpretación adecuada
de los hallazgos de un estudio y deben informarse.
• Cuando la variable clave para el análisis es una respuesta
cuantitativa, es importante considerar si se presenta un error
estándar (se) de una media o una proporción, o un error estándar
de una diferencia (sed).
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Qué estadísticas presento?

• Los errores estándar de las diferencias generalmente deben


presentarse cuando el estudio es comparativo, es decir, cuando los
datos se resumen y comparan para diferentes subconjuntos, tal
vez diferentes especies de árboles, diferentes niveles de abono,
diferentes zonas agroecológicas o diferentes grupos de riqueza. La
investigación se centra en una diferencia y el alcance de la
diferencia, por lo que la medida de precisión presentada debe
relacionarse con esa diferencia.
• Si el objetivo del estudio se centra en una estimación particular
de una población, p. Ej. la cantidad de madera forestal
recolectada anualmente por las mujeres en un área donde estaba
en funcionamiento un esquema de cogestión forestal, luego se
debe informar el error estándar de la estimación o un intervalo de
confianza.
Introducción Análisis e Interpretación de Datos Elaboración de Resultados y Discusión

¿Qué estadísticas presento?

• Cuando se hayan llevado a cabo pruebas formales de significancia


o ajuste de modelos estadísticos, los grados de libertad asociados
con la prueba estadística y, siempre que sea posible, el valor p
exacto se debe dar, ya sea en el texto del informe o en una tabla,
o incluso como una anotación en un gráfico.
• Los paquetes de software de estadístico ahora dan valores p
exactos y, por lo tanto, debería haber muy pocos casos en los que
el escritor solo pueda usar notación como 𝑝 < 0.05 o 𝑝 < 0.001 o
∗, ∗∗ o ∗ ∗ ∗ para indicar diferentes niveles de significancia.

También podría gustarte