Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2. ETAPAS DE LA INVESTIGACIÓN
Para asegurar que el conocimiento que obtengo es un conocimiento científico tengo que seguir
unas fases/etapas: OBSERVACIÓN INICIAL, BÚSQUEDA DE TEORÍAS, HIPÓTESIS, DISEÑO
DE LA INVESTIGACIÓN, RECOGIDA DE DATOS, ANÁLISIS DE DATOS.
2.1.OBSERVACIÓN INICIAL:
Por otro lado, las HIPÓTESIS CIENTÍFICAS son la base de las HIPÓTESIS ESTADÍSTICAS. En
los análisis de datos hay dos tipos de hipótesis que se evalúan con los resultados de los análisis:
o Hipótesis alternativa (H1): es la hipótesis científica, la que formulamos y que indica que se
ha producido un efecto.
o Hipótesis nula (H0): es la contraria a la alternativa porque indica que un efecto NO se ha
producido. Ésta se acepta provisionalmente como verdadera hasta que se analicen los
datos. Si con mis datos soy capaz de rechazarla, significa que la H1 es cierta.
1
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
Una vez tenemos formuladas nuestras hipótesis, el siguiente paso es decidir QUÉ MEDIR. Para
ello utilizamos las VARIABLES:
- Las variables son cualquier propiedad o característica que puede tomar diferentes
valores y se pueda medir. Éstas pueden variar entre personas, lugares o en el tiempo.
TIPO EJEMPLOS
Cualitativa/Categórica: Binarias: tienen dos opciones de Sexo (hombre/mujer),
Aquellas que definen las características respuesta Ser fumador (sí/no)
de las personas, pero no se pueden
medir, ya que, aunque se les designe Nominales: tiene más de dos Estado civil (soltero/
un nº, éste no tiene valor métrico, sino opciones de respuesta casado/divorciado/viudo),
categórico. Color de pelo
Grupo sanguíneo
Clase social
Ordinales:
(baja/media/alta),
Tienen sentido de orden. Son cualitativas que se pueden ordenar, pero no se
Curso (1º, 2º, 3º, 4º, …)
puede calcular nada con los datos.
Talla de ropa (S/M/L/XL)
Cuantitativas/Continuas: Discretas: solo toman valores Nº de hijos
Aquellas que tienen un valor numérico. enteros, no permiten decimales.
Es decir, se puede calcular con os datos. De intervalo: permiten decimales, Horas día: 00:00h
pero en este tipo de variable el 0 no Temperatura (0,5ºC)
implica ausencia.
De razón: permiten decimales, Peso (0kg), Velocidad,
pero en este tipo de variable el 0 Distancia (3’5m), Notas
implica ausencia. num. (7,3)
2
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
2.4. Una vez hemos medido las variables, tenemos que saber CÓMO MEDIR, eligiendo el
DISEÑO DE INVESTIGACIÓN
- Hay DOS MÉTODOS básicos de investigación a partir de los que se pueden obtener
conclusiones diferentes:
o Diseño Correlacional: no hay manipulación de las variables. Los ambientes son
naturales con cierto grado de control. El investigador se limita a recoger los datos y
los resultados, y a compararlos.
o Diseño Experimental: hay una manipulación de las variables porque hay un grupo
control y otro experimental donde aplico las estrategias que yo quiero comprobar.
En este tipo de diseño se puede inferir CAUSALIDAD porque (siguiendo el ejemplo
del rendimiento) puedo decir que la utilización de determinada estrategia, mejora o
empeora el rendimiento de los alumnos.
- Una vez tenemos clara la diferencia entre un diseño experimental y un diseño
correlacional, y cuándo podemos establecer causalidad y cuándo no…
- Para ello, hay DOS FORMAS. Saber distinguir entre estas dos formas de recogida de
datos es esencial, porque tienen un impacto muy importante en el tipo de test estadísticos
que se podrán utilizar después para analizar los datos. Así pues, las dos formas son:
o Diseño Independiente: en este tipo de diseño tenemos 2 grupos: uno
experimental, donde manipulo las variables; y otro de control. Así pues, la variable
dependiente solo se mide una vez en cada grupo (al final del estudio), y luego se
comparan los resultados de ambos.
o Diseño Dependiente: en este tipo de diseño, solo hay 1 grupo de sujetos, el cual
pasa por diferentes condiciones experimentales (V. Indep.) y al que mido varias
veces (V. Dep.) en diferentes momentos temporales, después de haber aplicado
las diferentes estrategias.
3
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
2.6. Por último, se ANALIZAN LOS DATOS, y una buena forma de empezar es describiéndolos
(¿qué ha sucedido?) para después tratar de explicarlos (¿cómo ha sucedido?) y hacer
inferencias acerca de la población.
- Es importante hacer gráficos de los datos que hemos recogido, para visualizar la
distribución de los mismos, las relaciones entre variables y las diferencias entre
grupos.
- En EL 1ER ESTADIO DEL ANÁLISIS, es importante conocer cuál es la distribución
de los datos que tenemos entre manos. Para ello, utilizamos los histogramas, ya que
son muy útiles para determinar si la distribución de los datos es normal o no.
4
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
TEMA 2: CONCEPTOS BÁSICOS DE ESTADÍSTICA: LOS MODELOS ESTADÍSTICOS
Los MODELOS ESTADÍSTICOS son ecuaciones matemáticas que reproducen los fenómenos
que observamos de la forma más exacta posible. Es decir, tratan de traducir los datos que yo
he obtenido en una ecuación matemática. Y que, por tanto, permiten hacer una estimación de
lo que pasará.
En ciencias sociales, uno de los modelos más utilizados es EL MODELO LINEAL. Este es el
modelo en el que se basan test estadísticos como la regresión, la correlación o el análisis de
varianza (ANOVA). El modelo lineal trata de explicar los datos obtenidos en un estudio en base
a una línea recta.
Ejemplo: El siguiente gráfico pone en relación la motivación a principio de curso y la nota media
al final de curso y la resume en una línea recta. (a medida que aumenta la motivación, las notas
son mejores)
ESTUDIANTE NOTA
Pedro 5
María 6
Luis 8
Estafanía 4
Julio 4
Cristina 6
MEDIA 5,5
Esta media es un valor hipotético que resume todas las puntuaciones de la variable y que podemos
utilizar para explicar los datos observados. Si sólo supiésemos la media de la variable, y alguien nos
preguntase, ¿qué nota ha sacado Pedro? No podríamos decir la nota exacta que han sacado, pero
podríamos aventurar que posiblemente sea una nota cercana a la media (5,5). Por este motivo, podemos
considerar la media como un modelo estadístico muy simple; ya que es un valor que resume y que
podemos utilizar para explicar los datos que contiene una variable.
5
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
Pero, ¿CÓMO DE BIEN ESTA MEDIA REPRESENTA LOS DATOS OBTENIDOS?
- Para saberlo, debemos contar con un valor que nos aporte información de cómo se ajusta
el modelo (la media) a los datos.
- Con la mayoría de modelos estadísticos podemos estimar si el modelo tiene un BUEN
AJUSTE evaluando cómo de diferentes son los datos reales que hemos recogido con
respecto al modelo que hemos calculado. La forma más sencilla de hacerlo es
calculando la diferencia entre el modelo y los datos reales. Es decir, saber la
distancia que hay de cada nota individual a la media. Y, cuanta menos distancia
haya, más real es y menos error habrá.
*ERROR o DESVIACIÓN = distancia de los datos reales con respecto a la media
5=5,5+(-0,5)
6
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
4. TESTS ESTADÍSTICOS
Como el test estadístico es el resultado de la división entre el efecto y el error, a medida que
el valor del test estadístico aumenta (por lo que hay más efecto y menos error), se reduce la
probabilidad de que el valor del test estadístico ocurra si la hipótesis nula (no hay ningún efecto)
es cierta.
Hay dos tipos de errores que podemos cometer cuando aplicamos un test estadístico:
o Error tipo I: ocurre cuando obtenemos una probabilidad asociada al test estadístico que
nos hace rechazar la hipótesis nula (generalmente una ρ < 0,05), cuando realmente no
hay ningún efecto en la población.
Es decir, afirmamos que existe un efecto determinado cuando realmente NO es cierto.
Rechazamos la H0, cuando realmente es verdadera.
o Error tipo II: es el opuesto al error Tipo I, y ocurre cuando en la población realmente sí
que existe un efecto, pero los resultados de nuestra investigación nos llevan a afirmar
que este efecto no existe.
Es decir, afirmamos que NO existe un efecto determinado cuando realmente SÍ existe.
7
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
TEMA 3: EXPLORANDO SUPUESTOS
Los SUPUESTOS de los test estadísticos son una serie de características que tienen que tener
los datos para poder utilizar en su análisis test estadísticos de tipo paramétrico.
Es decir, para poder aplicar un test paramétrico, los datos deben cumplir una serie de
características/supuestos básicos. (Ej. Tests Paramétricos: Pearson, Regresión, Análisis de
Varianza)
Sin embargo, hay tests NO paramétricos que son más flexibles y que no requieren de ningún
supuesto para poder ser aplicados. (Ej. Tests NO Paramétricos: Spearman, Wilcoxon,
Friedman, McNemar, Chi-Cuadrado, Mann-Whitney)
La mayoría de test paramétricos tienen 4 supuestos básicos, los cuales son: distribución
normal, la homogeneidad de varianzas, la escala de medida y la independencia. Veamos uno
por uno.
Para evaluar si una variable tiene una distribución normal podemos utilizar tres métodos
complementarios:
1. Evaluación visual.
2. Evaluación de la simetría y curtosis.
3. Test estadísticos.
8
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
3.1.EVALUACIÓN VISUAL
DIST. NORMAL
9
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
El problema que tienen los gráficos es que su evaluación es subjetiva, por lo que es
importante también tener datos cuantitativos que nos den información sobre la forma de la
distribución. Los estadísticos que nos informan de la forma de la distribución en una variable
son los estadísticos de asimetría y curtosis.
10
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
3.3.EVALUACIÓN CON TESTS ESTADÍSTICOS
La tercera forma complementaria para evaluar si la distribución de una variable es normal
es analizar si la distribución de la variable se desvía de la distribución normal de forma
significativa. Para ello podemos utilizar el test de Kolmogorov-Smirnov o el test de
Shapiro-Wilk:
- INTERPRETACIÓN DE LOS DOS: estos dos test ponen a prueba la misma hipótesis
nula:
H0: la distribución de la variable es una distribución normal
11
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
- Si ρ < 0,05 (menor que), entonces rechazamos la hipótesis nula, y asumimos que
las varianzas entre los grupos son diferentes. Estamos en un escenario de
heterogeneidad de varianzas.
- Si ρ > 0,05 (mayor que), aceptamos la hipótesis nula y asumimos que las varianzas
son similares entre grupos, por lo tanto, hay homogeneidad de varianzas.
- En muestras muy grandes el test de Levene puede ser significativo incluso cuando
la diferencia entre las varianzas de los grupos sea muy pequeña. Por este motivo, en
muestras grandes se puede comprobar el resultado utilizando otros estadísticos
como la FMax de Hartley.
12
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
- POSITIVA: se da cada vez que a medida que aumentan los valores en una variable,
también aumentan en la otra. Ejemplos:
“Los que sacaron mejores notas a los 11 años, también sacaron mejores notas a los 14 años.”
“A medida que aumentan las notas a los 11 años, las notas a los 14 años aumentan también.”
“Los que sacaron peores notas a los 11 años, también sacaron peores notas a los 14 años.”
- NEGATIVA: se da cada vez que a medida que aumentan los valores en una variable,
también disminuyen en la otra. Ejemplos:
“A medida que aumentan las notas a los 11 años, las notas a los 14 años descienden.”
“A medida que aumentan las horas de estudio para un examen, la nota que se obtiene
empeora.”
VISUALMENTE:
CORRELACIÓN POSITIVA O DIRECTA
13
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
2. ¿CÓMO SE MIDEN LAS RELACIONES?
La mejor forma de medir la relación entre dos variables es mediante la COVARIANZA. Ésta es
el grado en el que dos variables cambian a la vez, y nos indica si la posible relación entre las
variables es positiva (directa), negativa (inversa) o incorrelacionada. Pero no nos dice nada
sobre el grado de relación entre las variables.
Alumnos que
estudian por
encima de la
media, sacan
notas por encima
de la media
Alumnos que
estudian por
debajo de la
media, sacan
notas por debajo
de la media
ES POSITIVA
Pero, para poder comparar entre estudios y saber el grado de relación, necesitamos
estandarizar la varianza.
14
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
3. ESTANDARIZANDO LA COVARIANZA:
3.1.COEFICIENTE DE CORRELACIÓN DE PEARSON
• Si el coeficiente de correlación es igual a +1: indica que las dos variables tienen
una correlación positiva perfecta.
• Si el coeficiente de correlación es igual a -1: indica que las dos variables tienen
una correlación negativa perfecta.
• Si el coeficiente de correlación es igual a 0: indica que las dos variables no tienen
ninguna relación.
Además, el valor del coeficiente de correlación nos da una idea del tamaño de la
relación entre las dos variables:
- Si ρ > 0,05 (mayor que), aceptamos la hipótesis nula y asumimos que NO HAY
CORRELACIÓN.
- Si ρ < 0,05 (menor que), entonces rechazamos la hipótesis nula, y asumimos que
HAY CORRELACIÓN ENTRE LAS VARIABLES.
Por tanto, la idea del análisis de regresión es: elaborar un modelo para poder predecir los
valores de la VARIABLE DEPENDIENTE (VARIABLE DE RESULTADO) a partir de una o
más VARIABLES INDEPENDIENTES (VARIABLES PREDICTORAS).
Yi=(b0+b1 Xi ) + errori
Donde:
§ Yi es la variable dependiente
§ b0 es un coeficiente constante o intersección (el lugar en el que la línea recta cruzaría
el eje de la Y (vertical) si la alargáramos.
§ b1 es el gradiente o pendiente de la recta, que es su inclinación. Nos indica cómo de
inclinada y en qué sentido está la recta. De forma que:
o Un gradiente positivo nos informa de que las dos variables cambian en la misma
dirección, a medida que la variable predictora aumenta, la variable de resultado
aumenta también.
o Si el gradiente es negativo, la relación entre ambas variables será opuesta. A
medida que la predictora aumente, la variable de resultado disminuirá.
§ X es la variable independiente
§ Error: es la distancia entre el punto y la recta, pero no tiene valor numérico.
Una vez tengo, el valor de b0 y b1, puedo ir dándole diferentes valores a la x.
b1
Error Se obtiene a partir del
ángulo que se crea entre el
CAMBIO DE UNA UNIDAD
DE MEDIDA en la variable
Independiente y la RECTA
16
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
- Si ρ > 0,05 (mayor que), aceptamos la hipótesis nula y asumimos que NO HAY
RRELACIÓN. Por tanto, no tendría que interpretar la recta.
- Si ρ < 0,05 (menor que), entonces rechazamos la hipótesis nula, y asumimos que HAY
RELACIÓN ENTRE LAS 2 VARIABLES (predictora y de resultado). Y tendría que interpretar
la recta.
4. REGRESIÓN MÚLTIPLE
Hasta este momento, toda la información se refería a la relación entre una variable predictora y una
variable de resultado. Sin embargo, es posible predecir una variable de resultado a partir de dos o
más variables predictoras. Y en este caso la regresión recibe el nombre de regresión múltiple.
5. SUPUESTOS DE LA REGRESIÓN:
Si queremos generalizar la regresión en una población más amplia, es necesario que los
supuestos de la regresión se cumplan en nuestros datos.
Los SUPUESTOS DE LA REGRESIÓN son:
1. Las variables independientes/predictoras deben ser continuas o binarias.
2. Las variables dependientes/resultado deben ser continuas
3. Ningún predictor puede ser una variable constante (con varianza igual a 0).
4. Los predictores no deben estar muy correlacionados.
5. Los predictores deben de tener bajas correlaciones con variables externas. Es decir, no
tiene que haber tercera variable.
6. Homocedasticidad
7. Independencia: todos los valores de la variable de resultado provienen de diferentes
personas
17
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
1. INTRODUCCIÓN
18
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
H0: Las medias entre los dos grupos son iguales (no diferentes)
(H0: Media 1=Media 2)
H1: Las medias entre los dos grupos son diferentes
(H1: Media 1 ≠ Media 2)
- Si ρ > 0,05 (mayor que), aceptamos la hipótesis nula y asumimos que LAS MEDIAS SON
IGUALES O NO DIFERENTES ESTADÍSTICAMENTE
- Si ρ < 0,05 (menor que), entonces rechazamos la hipótesis nula, y asumimos que LAS
MEDIAS SON DIFERENTES ESTADÍSTICAMENTE.
Debemos evaluar los siguientes supuestos antes de poder realizar un t-test para que podamos
confiar en su resultado:
19
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
TEMA 7: COMPARANDO DOS MEDIAS I: ANOVAS
1. INTRODUCCIÓN
Cuando queremos comparar más de dos medias, no se puede utilizar la prueba T-Test.
En el caso de que pudiéramos utilizarla, deberíamos aplicarla varias veces entre los diferentes
grupos para poder comparar las medias de cada uno de ellos y saber si son diferentes entre sí.
Sin embargo, este análisis NO ES CORRECTO por la probabilidad de cometer error de tipo I.
Ya que ésta aumenta considerablemente cuantos más test estadísticos utilicemos para analizar
los datos. De forma que podríamos llegar a afirmar que existe un efecto determinado cuando
realmente no es cierto.
Por ello, para comparar medias entre 2 ó más grupos utilizamos los tests estadísticos de los
Análisis de Varianza (ANOVA). Y, según las características del diseño del estudio, podemos
utilizar:
1. ANOVA de un Factor: sólo hay una variable independiente.
2. ANOVA Factorial: hay 2 (o más) variables independientes.
3. ANCOVA (A.Covarianza): la variable independiente no es categórica, sino que es
continua. Puede haber una o más variables independientes.
4. ANOVA de Med. Repetidas: la variable dependiente se ha medido de forma repetida en
los mismos participantes en el estudio. Puede haber una o más variables independientes.
5. MANOVA: hay más de una variable dependiente y una o más variables independientes.
- Si ρ > 0,05 (mayor que), aceptamos la hipótesis nula y asumimos que LAS MEDIAS SON
IGUALES O NO DIFERENTES ESTADÍSTICAMENTE
- Si ρ < 0,05 (menor que), entonces rechazamos la hipótesis nula, y asumimos que LAS
MEDIAS SON DIFERENTES ESTADÍSTICAMENTE.
Sin embargo, si hay MÁS DE DOS GRUPOS, el ANOVA se convierte en un test ómnibus. Esto
quiere decir que en el ANOVA se pone a prueba el efecto general del experimento. Por tanto:
- Si ρ > 0,05 (mayor que), aceptamos la hipótesis nula y asumimos que LAS MEDIAS SON
IGUALES O NO DIFERENTES ESTADÍSTICAMENTE y no hay que hacer contraste.
- Si ρ < 0,05 (menor que), entonces rechazamos la hipótesis nula, y asumimos que LAS
MEDIAS SON DIFERENTES ESTADÍSTICAMENTE. Sin embargo, no sé qué medias son
distintas. Por tanto, para averiguarlo hay que realizar otra prueba.
20
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
Se utilizan cuando no tenemos hipótesis previas ni específicas sobre entre qué grupos
pueden encontrarse las diferencias y queremos comprobar todos los pares de grupos
posibles.
Es decir, lo que buscamos en encontrar diferencias entre los grupos (todas las posibles
combinaciones)
H0: Las medias entre los dos grupos son iguales (no diferentes)
(H0: Media 1=Media 2)
H1: Las medias entre los dos grupos son diferentes
(H1: Media 1 ≠ Media 2)
- Si ρ > 0,05 (mayor que), aceptamos la hipótesis nula y asumimos que LAS MEDIAS SON
IGUALES O NO DIFERENTES ESTADÍSTICAMENTE.
- Si ρ < 0,05 (menor que), entonces rechazamos la hipótesis nula, y asumimos que LAS
MEDIAS SON DIFERENTES ESTADÍSTICAMENTE.
21
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
3.2.CONTRASTES A PLANEADOS
Entonces, el número de contrastes que podemos hacer es igual al nº de grupos que tenemos,
menos 1. (Nº contrastes = nº grupos – 1)
Este tipo de test se utiliza para analizar diferencias entre medias cuando hay sólo una
variable dependiente y una variable independiente (o factor). La variable independiente
(factor) puede tener 2 o más niveles (grupos/medias).
Cuando tenemos una variable dependiente y una independiente con únicamente dos
niveles, podemos utilizar tanto el T-Test como el ANOVA de un factor.
SUPUESTOS
EN CASO DE INCUMPLIMIENTO:
En función de qué supuesto se incumpla, hay una opción o alternativa. Y son las siguientes:
22
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
4.2.ANOVA FACTORIAL
Cuando hay 2 o más variables independientes y queremos evaluar su efecto en una sola
variable dependiente.
Ejemplo:
Un investigador quiere evaluar el efecto que tienen sobre el rendimiento en matemáticas tres
métodos distintos de enseñanza y el hecho de ser alumno de mañana o de tarde. Para ello,
selecciona 30 alumnos y asigna 5 de ellos aleatoriamente a cada una de las condiciones
experimentales.
Ejemplo:
Un investigador quiere evaluar el efecto que tienen sobre el rendimiento en matemáticas tres
métodos distintos de enseñanza y el hecho de ser alumno de mañana o de tarde. Para ello,
selecciona 30 alumnos y asigna 5 de ellos aleatoriamente a cada una de las condiciones
experimentales.
Se piensa que el nivel de inteligencia de los alumnos puede modificar los resultados, así que
mide el CI y lo tiene en cuenta en el análisis.
23
ANÁLISIS DE DATOS Y ESTADÍSTICA APLICADA
4.4.ANOVA DE MEDIDAS REPTIDAS
¿CUÁNDO SE PUEDE UTILIZAR?
Cuando tenemos una variable dependiente que se ha medido de forma repetida en las
mismas personas (animales o cosas). Es decir, cuando estamos ante un diseño
dependiente. El ANOVA de medidas repetidas es equivalente al t-test de medias
dependientes, sólo que el número de medidas repetidas puede ser más de dos.
Ejemplo:
Un profesor está interesado en comprobar si las puntuaciones de una prueba de
razonamiento abstracto se mantienen constante o se modifican entre los 6,7 y 8 años de
edad. A tal fin, selecciona una muestra aleatoria de 10 niños de 6 años y les mide el R.A. El
mismo registro lo hace con estos niños a los 7 y a los 8 años.
4.5.MANOVA
¿CUÁNDO SE PUEDE UTILIZAR?
Ejemplo:
Un investigador quiere saber la influencia de la edad sobre el nivel de utilización de nuevas
tecnologías y sobre el nivel de satisfacción en las relaciones sociales.
V. Dependientes:
- Utilización de TIC
- Nivel de satisfacción en las relaciones sociales
V. Independiente: edad