Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes de Estadistica
Apuntes de Estadistica
Investigación:Es un proceso riguroso, cuidadoso y sistematizado en el que se busca resolver problemas, bien sea de vacío de
conocimiento (investigación científica) o de gerencia, pero en ambos casos es organizado y garantiza la producción de conocimiento o
de alternativas de solución viables.
Definición de variable: Es un atributo o característica que puede adoptar distintos valores, en caso contrario sería una “constante”-
Clasificación de la variable:
Según su naturaleza:
Variable Cualitativas:
Se subdividen en :
Nominal:
Ordinal:
pueden ser:
Dicotómicas:
Género: hombre-mujer (Nominal)
Politómicas
Nivel socioeconómico: alto- medio-bajo (Ordinal)
Variable Cuantitativas:
Intervalo
Razón
Según su función:
Independiente.
Dependiente.
Según su nivel de medición:
Intervalo
Razón
¿Qué es la Estadística? La estadística es una rama de la ciencia matemática que se ocupa de organizar, resumir y analizar datos y,
partiendo de ese análisis, realiza inferencias (deducciones) de una población a partir de la información contenida en una muestra
(Monroy, 2010).
Busca formular estimaciones y probar hipótesis acerca de la población a partir de esos datos resumidos y obtenidos de la muestra.
Ejemplo correlacional: La satisfacción con la vida se asocia de forma directa con el apoyo social percibido en jóvenes
universitarios.
Ejemplo explicativo: El rendimiento académico en matemática varía según la estrategia de enseñanza utilizada. Esto suele hacerse
en diseños experimentales.
Prueba de Hipótesis: No se puede "aceptar" ni rechazar una hipótesis referente a un parámetro de la población por la intuición. Por
el contrario, se necesita decidir con objetividad, con base en la información de la muestra.
Regla de oro: p ≤ 0.05 (rechaza Ho) y p > 0.05 (no rechaza la Ho)
Elementos de una prueba de hipótesis estadística:
1. Hipótesis nula H0.- Es la hipótesis que vamos a probar. Generalmente es una aseveración en el sentido de que un parámetro
poblacional tiene un valor específico.
2. Hipótesis alternativa H1.- Es la hipótesis sobre la cual se enfoca la atención, es una aseveración sobre el mismo parámetro
poblacional que se utiliza en la hipótesis nula.
Ejemplo: El estrés se asociará de forma directa con la ansiedad.
Medidas de tendencia central: Informan cuáles son los puntajes más comunes de una variable cuantitativa La tendencia central de un
grupo de puntajes (distribución) se refiere al centro de ese grupo de puntajes:
Promedio: Imagina un estudio donde se preguntó a 8 personas su frecuencia de actividad física en la última semana (0 =
Ningún día, 7 = Todos los días). Como se observa, algunos individuos hicieron más actividad física en la semana que otros.
• Generalmente, la mejor medida de tendencia central para resumir la información de una variable cuantitativa es el promedio.
El promedio (M en formato APA) es la suma de todos los puntajes divida por el número de puntajes, y se expresa con la
fiera.Para obtener el promedio de la frecuencia de actividad física semanal se calcula primero la sumatoria de los puntajes de
la variable:
1 + 5 + 1 + 1 + 7 + 0 + 2 + 3 = 20
• Luego el total se divide por el número de puntajes (8):
20 / 8 = 2.5
mula: X son los puntajes de una variable cuantitativa N es el número de puntajes
Medina: Si se ordenan todos los puntajes desde el más bajo al más alto, la mediana es el puntaje que está al medio. (Mdn) es
el valor que deja por debajo de sí al 50% de los puntajes (cuando estos están ordenados).Si se ordenan todos los puntajes
desde el más bajo al más alto, la mediana es el puntaje que está al medio.La mediana (Mdn) es el valor que deja por
debajo de sí al 50% de los puntajes (cuando estos están ordenados).
Cuando el número de puntajes es impar, la mediana es la suma del número de puntajes más 1 (7 + 1 = 8) dividida por 2.
La mediana es 4 (8 / 2 = 4) El número en la cuarta posición, contando desde izquierda a derecha, es la mediana (17).
Moda:Para comprender el concepto de moda es útil entender antes lo que significa una distribución de frecuencias. La
distribución de una variable se refiere a cómo están organizados sus puntajes, mientras que las frecuencias de refieren al
conteo de observaciones que hay para cada valor de una variable. La distribución de frecuen Para comprender el concepto
de moda es útil entender antes lo que significa una distribución de frecuencias.
La distribución de una variable se refiere a cómo están organizados sus puntajes, mientras que las frecuencias de refieren
al conteo de observaciones que hay para cada valor de una variable.
La distribución de frecuencias de la actividad física semanal podría verse así:
frecuencias de la actividad física semanal podría verse así: personas no realizaron actividad física ningún día de la semana. 5
personas realizaron actividad física los 7 días de la semana.
La moda es el valor que más se repite en una distribución de frecuencias
Medidas de dispersión: Las medidas de dispersión permiten determinar cuán alejados están entre sí los puntajes de una
distribución. Son relevantes porque informan el grado de variabilidad (cambio) que existe en una variable
En los estudiantes de una clase, el promedio de edad es de 21 años y todos los estudiantes tienen 21 años No hay variabilidad en
la edad. Si el promedio de edad fuese 21 años, y las edades de los estudiantes fluctuaran entre 18 y 35 años Sí habría variabilidad
en la edad.
Rango: es simplemente la diferencia entre el valor máximo (observado) de una variable y el valor mínimo (observado) de una
variable Si el puntaje máximo es 15 y el mínimo es 7, el rango es 8 (15 – 7)
Varianza: Es una medida que indica el grado de dispersión con respecto al promedio. Mientras más grande sea la varianza, más
alejados están los puntajes con respecto al promedio. Si la varianza es 0, esto indica que los puntajes no presentan ningún grado de
dispersión (son completamente iguales al promedio). Obtener puntajes de desviación: Los puntajes de desviación son los puntajes
que se obtienen al tomar el promedio de una variable y restarlo a cada puntaje particular. Se representan con Xi – M, donde X
corresponde a la variable analizada (actividad física), i denota in puntaje particular de la variable X, y M representa el promedio de X.
Desviación estándar: La varianza tiene una desventaja. Debido a que proviene de puntajes de desviación que fueron elevados al
cuadrado, el valor de la varianza no tiene un significado claro. Para obtener una medida interpretable en la métrica original de la
variable se calcula la desviación estándar (S), que es la raíz cuadrada de la varianza:La desviación estándar de los puntajes de
actividad física es 2.39. Los puntajes de actividad física de los participantes del estudio se alejan cerca de 2.39 puntos del promedio de
2.5. Si bien en promedio las personas realizan actividad física 2.5 días a la semana, típicamente algunas personas realizan actividad
física 2.39 días por sobre o debajo del promedio.
Puntaje z: No, un puntaje que está ligeramente por debajo del promedio aun puede estar dentro de lo que se observa típicamente
dentro del grupo. Los puntajes z transforman los puntajes brutos (medidos en la escala original) de una variable a una escala
diferente. Podemos pensar que cada puntaje bruto tiene un puntaje z como contraparte. Los puntajes z indican a cuántas
desviaciones estándar se encuentra un puntaje particular con respecto al promedio. El puntaje 1.93 corresponde al puntaje que está
una desviación estándar por debajo del promedio El puntaje 4.87 corresponde al puntaje que está una desviación estándar por
sobre el promedio
Puntaje z: Interpretación: Un puntaje z negativo denota que el puntaje particular está por debajo del promedio.Un puntaje z de 0
indica que el puntaje particular es igual al valor promedio (no hay diferencia entre el promedio y el puntaje). Un puntaje z positivo
indica que el puntaje particular está por sobre el promedio
• Puntaje z: Cálculo La fórmula para calcular los puntajes z es,
Donde Xi es el puntaje de un individuo en la variable X (ej. Actividad física), y S es la desviación estándar de X.
Cálculo de puntajes z en SPSS se mueve la variable al campo Variables, y se marca Guardar valores estandarizados como
variables Aceptar.
Medidas de forma: Histograma: Para comprender las medidas de forma es útil conocer primero el histograma.Un histograma es un
gráfico que muestra los valores de una variable cuantitativa en el eje x (horizontal) y el conteo (n) de cada valor de la variable en el
eje y (vertical).Las barras más altas representan valores de la variable observados con mayor frecuencia (mayor número de casos
concentración de datos).El histograma se caracteriza porque las barras están juntas. Los histogramas permiten inspeccionar
visualmente dónde se podrían encontrar los valores centrales de una distribución de datos, y la dispersión de una variable. Los
valores centrales se tienden a ubicar en zonas donde hay mayor concentración de datos valores con mayor n (barras más altas)
Las barras de un histograma generalmente representan las frecuencias observadas (conteo de individuos) de intervalos para los
valores de una variable cuantitativa (0-15, 16-30, 31-45, etc.).
Histograma y distribución normal: Los histogramas permiten evaluar de manera visual si una variable tiene distribución normal. La
distribución normal tiene forma de campana y es simétrica con respecto al promedio. En una distribución normal, el promedio corta el
centro de la distribución y su valor coincide con la mediana y la moda.
Diversas pruebas estadísticas asumen que las variables cuantitativas analizadas tienen distribución normal Se debe chequear el
cumplimiento de esta condición. Las medidas de forma ayudan a evaluar si los datos de una variable se ajustan o se alejan de la
distribución normal.
Medidas de forma: Asimetría: Una distribución es simétrica cuando el promedio coincide con la mediana.La asimetría se refiere al
desplazamiento de una distribución con respecto a la distribución normal. Esto es, la dirección en la que están concentrados los valores
extremos.Existen dos tipos de asimetría, que se distinguen por la dirección de la “cola” de la distribución.
Asimetría negativa
• M < Mdn.- -M y Mdn < Moda. Más puntajes a la izquierda de la moda que a la derecha.
• En SPSS, la asimetría se calcula de manera que el 0 representa una distribución simétrica (simetría acorde a la distribución
normal).
• Puntajes negativos de asimetría indican que los puntajes se apilan a la derecha de la distribución.
• Puntajes positivos de asimetría indican que los puntajes se apilan a la izquierda de la distribución.
• Puntajes de asimetría ± 2 cumplen el criterio de una distribución normal
• Medidas de forma: Curtosis La curtosis corresponde al grado en que una distribución es plana o puntiaguda con respecto a
la distribución normal.
• Es una medida de cuán concentrados están los datos en torno al centro de la distribución.
• En una distribución normal, la curtosis es 0.
curtosis corresponde al grado en que una distribución es plana o puntiaguda con respecto a la distribución normal.Es una medida de
cuán concentrados están los datos en torno al centro de la distribución.En una distribución normal, la curtosis es 0.En el eje x
(horizontal) se encuentran los valores de una variable cuantitativa.La línea recta representa los valores esperados de la variable de
acuerdo a la distribución normal. Cada punto representa los valores observados.Esto permite evaluar el grado en que los datos se
desvían de la distribución normal.
La prueba t para muestras independientes se usa para determinar si existen diferencias entre los niveles de una variable
cuantitativa entre dos grupos independientes.
En esta prueba, los niveles de la variable a comparar se resumen a través de sus promedios en cada grupo.
Prueba t de Student de muestras independientes: Preguntas de investigación que se podrían responder usando esta prueba: ¿Difieren
los hombres de las mujeres en sus niveles de extraversión?¿Cuál es el efecto de recibir un medicamento versus no recibirlo sobre la
memoria de trabajo?
Concepto de grupos independientes: Dos grupos son independientes cuando los puntajes de un grupo no tienen relación con los
puntajes del otro grupo
supuestos
Aplicación:
Un investigador quiere evaluar si existen diferencias en las habilidades de memoria entre estudiantes hombres y mujeres.
10 estudiantes por grupo (10 hombres y 10 mujeres) fueron seleccionados al azar.
Los sujetos leyeron 30 palabras no relacionadas, y luego se les pidió que recordaran tantas palabras como fuera posible. Se
registró el número de palabras recordada por cada sujeto.
Hipótesis nula
- μ hombres = μ mujeres
- Hipótesis de investigación
- μ hombres ≠ μ mujeres
¿Es suficiente que un resultado sea significativo?
- Un resultado significativo puede ser irrelevante a nivel práctico.
- Un resultado significativo (p < .05) no informa nada acerca de la magnitud de la diferencia entre los dos grupos. Para
cuantificar esto se utilizan estadísticos de tamaño del efecto.
- Para una prueba t de muestras independiente, el estadístico de tamaño del efecto más común es la d de Cohen.
Reporte APA:
- Evaluación de supuestos
- Los resultados de la prueba de Shapiro-Wilk sugieren que los datos del número de palabras recordadas correctamente no se
desvían de la distribución normal en hombres [W (10) = .902, p = .231] y mujeres [W (10) = .920, p = .355].
- La prueba de Levene indica que el supuesto de homogeneidad de las varianzas no se incumple (F = .087, p = .772).
- Prueba t de muestras independientes
- La prueba t de Student de muestras independientes indica que hay diferencias significativas entre hombres y mujeres en el número
de palabras recordadas correctamente [t (18) = –3.020, p = .007]. Las mujeres recuerdan más palabras (M = 22.10, DE = 3.178)
que los hombres (M = 17.70, DE = 3.335). El tamaño del efecto para esta diferencia fue grande (d de Cohen = 1.351).
Lógica del ANOVA: ¿Qué produce la variación entre los promedios grupales:
M grupo 1: Diferencias individuales dentro del grupo con respecto al promedio grupal
M grupo 2: Diferencias individuales dentro del grupo con respecto al promedio grupal - Varianza intra-grupos (S2 intra)
M grupo 3: Diferencias individuales dentro del grupo con respecto al promedio grupal
Hipótesis
Hipótesis nula (H0): No existen diferencias en los promedios la variable cuantitativa entre los grupos. µ1 = µ2 = µ…
Hipótesis de investigación (H1): Existen diferencias en los promedios de la variable cuantitativa entre el grupo 1, 2, ….µ1 ≠ µ2 ≠
µ…
Si la hipótesis nula (H0) es verdadera, los promedios grupales pueden ser ligeramente diferentes. Sin embargo, en este caso estas
diferencias se pueden atribuir exclusivamente a factores aleatorios (desconocidos) que producen las diferencias al interior de cada
grupo.
- Cuando H0 es verdadera, las varianzas intra-grupos y entre-grupos deben ser iguales, ya que se basan en lo mismo (factores
aleatorios desconocidos).
- La razón de la varianza entre-grupos contra la varianza intra-grupos debe ser aproximadamente 1.
- Cuando H0 es falsa, la varianza entre-grupos responde a dos fuentes de variación (factores aleatorios y diferencias de promedios
poblacionales).
- Por lo tanto, la varianza entre-grupos debe ser más grande que la varianza intra-grupos. Esto es, la razón de la varianza entre
grupos contra la varianza intra-grupos debe ser > 1.
En ANOVA, cuando la variación entre grupos es suficientemente grande en comparación a la variación intra-grupos, se concluye que
hay un efecto significativo.
La razón F
La razón de la varianza entre grupos contra la varianza intra-grupos se denomina razón F.
Supuestos
- La variable cuantitativa tiene una distribución normal en cada grupo.
- Homogeneidad de las varianzas (homocedasticidad): La dispersión en torno al promedio debe ser igual en cada grupo.
- Las observaciones son independientes muestra aleatoria.
Qué pasa si el resultado del ANOVA es significativo?
El ANOVA es una prueba ómnibus Un resultado significativo (p < .05) en ANOVA solo indica que, en general, existen diferencias
entre los promedios grupales, pero esto no informa entre qué pares de grupos están las diferencias.
Comparaciones post-hoc: Se comparan los niveles de la variable entre todos los pares de grupos para identificar las diferencias
significativas
Comparaciones múltiples con la corrección de Bonferroni: Un problema de hacer múltiples comparaciones entre grupos es la
inflación del error tipo 1 Mientras más comparaciones se realicen es más probable que alguna(s) sea significativa por error.Si se
comparan 3 grupos, entonces la probabilidad de rechazar H0 con un alfa de 0.05 no es 5%, sino 15% (0.05 * 3 comparaciones).El
método clásico (no recomendable) para realizar comparaciones post-hoc es la corrección de Bonferroni.
Corrección de Bonferroni: Dividir el alfa (α) por el número de comparaciones a realizar. Si se realizan 3 comparaciones 0.05 / 3 =
0.017.
Comparaciones múltiples con la corrección de Bonferroni: La corrección de Bonferroni es un procedimiento altamente
conservador puede llevar a un alfa demasiado estricto (ej. 0.000001) cuando el número de comparaciones es grande. Si se realizan
12 comparaciones 0.05 / 12 = 0.004.
Alternativa a la corrección de Bonferroni: Diferencias Honestamente Significativas (DHS) de Tukey
Tamaño del efecto en ANOVA
• El tamaño del efecto en ANOVA se evalúa con el coeficiente eta cuadrado (η2). Este va de 0 a 1.
• Denota la proporción de varianza total de los puntajes respecto al gran promedio que es explicada por la variación entre los
promedios grupales. Esto es, la cantidad de varianza explicada por la agrupación.
A pesar de todo lo anterior, las pruebas no paramétricas se consideran robustas: a pesar del incumplimiento de supuestos
distribucionales, arrojan resultados precisos. “En general, los resultados son tales que, en la mayoría de los casos prácticos, el
enfoque paramétrico para inferencias sobre medias es tan robusto que puede recomendarse en casi todas las aplicaciones”. Sin
embargo, las pruebas no paramétricas se siguen recomendando cuando la muestra es pequeña (n < 30).
Prueba de Kruskal-Wallis:
• Es la alternativa no paramétrica de la prueba ANOVA de un factor inter-sujetos.
• Compara los niveles de una variable ordinal/cuantitativa entre tres o más grupos independientes.
• En esta prueba, los niveles de la variable a comparar se resumen a través de sus medianas en cada grupo.
• El tamaño del efecto en esta prueba se calcula con el épsilon cuadrada:
• Pequeño < .08
• Moderado > .08 a .26
• Grande > .26
Hipótesis nula (H0): No existen diferencias en las medianas de la variable cuantitativa/ordinal entre los grupos. Mdn1 = Mdn2 =
Mdn…
Hipótesis de investigación (H1): Existen diferencias en las medianas de la variable cuantitativa/ordinal entre el grupo 1, 2, ….Mdn1
≠ Mdn2 ≠ Mdn…
¿Qué pasa si el resultado del ANOVA es significativo?
• Al igual que el ANOVA de un factor inter-sujetos, la prueba de Kruskal-Wallis es una prueba ómnibus Un resultado
significativo (p < .05) solo indica que, en general, existen diferencias entre las medianas grupales, pero esto no informa entre
qué pares de grupos están las diferencias.Pueden existir diferencias significativas entre todos los grupos, o solo en algunos.
• Comparaciones post-hoc: Se comparan los niveles de la variable entre todos los pares de grupos para identificar las diferencias
significativas
Implementación de ANOVA de 1 vía inter-sujetos en SPSS: Un investigador quiere evaluar cuál de tres métodos de enseñanza (A, B
y C) produce mejores resultados de aprendizaje.Se asignó aleatoriamente una muestra de 9 estudiantes a cada método de enseñanza, y
al final de su implementación se midió el número de respuestas correctas en un examen.
Hipótesis nula (H0): No existen diferencias en el número de respuestas correctas según el método de enseñanza.
Hipótesis alternativa (H1): Existen diferencias en el número de respuestas correctas según el método de enseñanza.
Coeficiente de correlación (r) de Spearman: Es la alternativa no paramétrica de la prueba de Correlación de Pearson. Establece la
dirección y magnitud de la relación entre dos variables cuantitativas/ordinales. A diferencia de la correlación de Pearson, el coeficiente
de correlación de Spearman se basa en los rangos de las variables. Se interpreta de la misma forma que el coeficiente de correlación de
Pearson. La dirección de la relación (positiva o negativa) entre las dos variables está dada por el signo del coeficiente. La magnitud de
la relación establece a partir del valor del coeficiente.
• Pequeña: | r > 0.1 |
• Mediana: | r > 0.3 |
• Grande: | r > 0.5 |
¿Cómo se evalúa de manera gráfica la relación de una variable cuantitativa con otra ordinal?
• La variable ordinal tiene pocas categorías (5 o menos) - Gráfico de cajas ordenado
• La variable ordinal tiene varias categorías (6 o más)
• Gráfico de dispersión : Este gráfico asume que la variable ordinal en realidad es cuantitativa
¿Sirve la correlación de Spearman cuando no hay linealidad?: El coeficiente de correlación de Spearman no es apropiado si la relación
es no lineal y curvilínea.
Sin embargo, el coeficiente de correlación de Spearman acepta que la relación entre las dos variables sea monotónica: no es
estrictamente lineal, pero el aumento de una variable se relaciona con mayores (o menores) niveles de la otra variable.
Los casos de una celda particular (Sí) de una variable se concentran en una celda particular de la otra variable (Fuma La prueba de
Chi-cuadrado distingue entre las frecuencias observadas (fo), y las frecuencias esperadas (fe). Frecuencias observadas Cantidad
de casos que realmente aparecieron en cada celda,
Si n = 100- Las frecuencias esperadas según el azar son las que ocurrirían si no existiese relación entre las dos variables (H0).
Mientras más se alejen las frecuencias observadas de las frecuencias esperadas según el azar, más probable es que exista relación
entre las dos variables (H1).