TEMA 4 Estadística Aplicada

Estadística Aplicada a la Educación Concepció Tortella
TEMA 4. ORGANIZACIÓN DE DATOS. ANÁLISIS EXPLORATORIO DE

DATOS.
4.1. Introducción.
“La estadística descriptiva comienza con un conjunto de datos: el investigador intenta trasladar
las características esenciales de los datos a formas más interpretables: distribuciones de
frecuencia, gráficos; y calcula índices numéricos como promedios, percentiles y medidas de
variabilidad” Johnson y Christensen.
El investigador observa (organiza datos) y describe lo que sucede (análisis exploratorio), sin
entrar en ningún contraste de hipótesis.
4.2. De la definición del problema y las variables, a la observación y

recogida de datos.
Una vez decidido el estudio a realizar, definido el diseño y planificados los instrumentos y
técnicas para la recogida de datos, hay que realizar el trabajo de campo (recogida de datos). Es
un error frecuente recoger datos sin seguir bien los pasos del proceso de investigación.
Una vez centrado el tema de investigación, revisada la literatura al respecto e identificadar las
variables, hay que realizar la recogida de información. Para ello necesitamos un
procedimiento que nos permita dar valores a las variables (números, rangos, categorías); se
precisa de un instrumento de medida adecuado y una regla de medida bien definida.
En la investigación empírica siempre tenemos que trabajar con datos empíricos: transformar
en números la realidad observada, para ello necesitamos instrumentos de medida válidos y
fiables.
La precisión (fiabilidad) de los instrumentos podrá tener distintos grados. No es lo mismo una
variable como la edad que el nivel de ansiedad, cuanto más abstracto menos precisión en la
medida. Eso afectará a la validez de los resultados. Por eso la elección/construcción de los
instrumentos de medida es fundamental en la investigación.
4.3. Permisos y ética en la investigación y recogida de datos.

Hoy en día y sobretodo en nuestro ámbito educativo es fundamental no solo realizar los
cálculos bien sino cubrir unos mínimos éticos. Los principios éticos fueron creados por la
ciencia médica tras la segunda guerra mundial y el ámbito educativo comparte estos principios
éticos que deben seguirse, entre los que destacan la participación voluntaria sea del ámbito
que sea y el informe de consentimiento. Se debe evitar todo riesgo de daño físico o psíquico,
guardando la confidencialidad y el anonimato.
Los aspectos éticos deben tenerse en cuenta al comienzo de la investigación y los estándares
éticos que se deben seguir se encontrarán en el American Educational Research Association
AERA.
1
4.4. De los distintos instrumentos a los datos: elección del programa, la

matriz de datos y el libro de códigos.
Una vez que hemos recogido la información debemos trasladar los datos a una hoja de cálculo
o un software para trabajarlo. A este proceso se le llama tabular datos.
Las puntuaciones que vamos a introducir se llaman puntuaciones directas (Xi): puntuación que
obtiene el sujeto tras aplicarle un instrumento de medida. Casado, 1’82 de estatura, 120 de CI,
etc.
La codificación de datos se hará en ese mismo momento y consiste en darle un valor numérico
a una característica que no la tiene. Este proceso es esencial dado que dependiendo del nivel
de medida de nuestra hoja de cálculos se realizará un cálculo u otro. Este hecho puede llegar a
confundir a una persona que mire la tabla y no esté familiarizado con la codificación empleada,
por lo tanto para solucionar este inconveniente se crea el Libro de Códigos.
El libro de códigos es una tabla donde se explican las variables del estudio y el orden en el que
se introducen en la matriz, vamos que a la hora de colocarla no puedo hacerlo a boleo, tengo
que poner cada fila dependiendo del orden de las columnas de la matriz. Esté libro de códigos
poseerá tres columnas:
1. Ítem y variable a la que hace referencia.

2. Etiqueta de la variable descripción de la variable.
3. Código posibles valores de la variable.
4. Etiqueta de valores, descripción de lo que indica cada valor. En el caso de variables
continuas, basta con escribir el recorrido de la escala.
EL LIBRO DE CÓDIGOS BUSCA EVITAR ERRORES DE TABULACIÓN.
2
Otro punto clave son los datos perdidos o missing data, son aquellos datos que faltan, ya sea
porque un individuo no ha contestado o por el contrario que se haya perdido una información.
En estos casos se debe dejar en blanco la matriz de datos, porque si se pusiese un 0 estaríamos
tomándolo como un valor real. Otra opción es definir el missing data por medio de un número
fuera de rango, está opción se utiliza cuando nos interesa saber cuál es el motivo que ha
llevado a que el valor está en blanco.
La forma habitual de introducir los datos es por medio de una matriz de datos. Es una tabla
donde las filas representan a un sujeto y las columnas a las variables a estudiar… El problema
de la matriz es que a simple vista es difícil de entender sobretodo cuantas más variables y
sujetos trabajemos.
4.5. Organización de los datos: depuración de datos y distribuciones de

frecuencia.
El problema que nos provoca la matriz es que es difícil de entender, por lo tanto en muchas
ocasiones tenemos el problema de clasificación, por lo que antes de empezar a trabajar con
ellos debemos hacer una depuración de datos. Esta depuración de datos tiene dos etapas, el
control de calidad y la depuración de datos.
El primer caso es el control de calidad que se basa en comprobar que hemos metido bien los
datos en la tabla, para ello seleccionamos al azar unos pocos test o cuestionarios y
comprobamos si hay errores de tabulación. Si encontramos muchos errores se debe repetir
toda la tabulación.
La depuración de datos propiamente dicha trata de verificar si hay valores fuera de rango, o
sea que hay valores que no están dentro de los valores posibles. Para ello debemos conocer
los valores mínimos y máximos, si lo que está tabulando no coincide, eso nos indica que hay un
error y debemos solucionarlo.
4.5.1. Distribución de frecuencias y aproximación al concepto de percentil.

Una vez que ya hemos depurado podemos empezar a trabajar para lo cual lo introduciré en
una tabla de distribución de frecuencias. En donde además de trabajar con ellas y adivinar
cosas sobre la muestra nos permitirá hacer otro tipo de depuraciones. Se ha de realizar una
tabla de frecuencias por cada variable:
 Puntuaciones directas (Xi) número de sujetos.

 Frecuencias absolutas (Fi) número de veces que se repite cada puntuación.
 Porcentaje Relativo o Frecuencia Relativa X 100 al multiplicarlo por cien lo
convertimos en un porcentaje, porcentaje relativo, e indica el tanto por ciento de
veces que ha aparecido una puntuación respecto del total, incluidos los valores
perdidos.
 Porcentaje Acumulado o Frecuencia Acumulada (Fa) X 100 muestra el número de
sujetos a los que supera una puntuación determinada. Para calcular se van sumando
las Frecuencias Absolutas (Fi). Al multiplicarlo X 100 da el porcentaje de sujetos que ha
sacado una determinada puntuación o menos.
3
DISTRIBUCIÓN DE FRECUNACIAS
Puntuación Frecuencia Porcentaje Frecuencia Porcentaje
Directa (Xi) Absoluta (Fi) Relativo. Acumulada (Fa) Acumulado
Frecuencia
Relativa X100
1 179 17’7 179 17’7
2 93 9’2 272 26’9
3 107 10’6 379 37’5
4 128 12’6 507 50’1
5 108 10’7 615 60’8
6 131 12’9 746 73’7
7 266 26’3 1012 100
Total N= 1012 100
4
4.5.2. Síntesis
La distribución de frecuencias es una forma fácil y rápida de transformar una columna de datos
en algo rápidamente comprensible. Una vez hecha la depuración de datos pararemos a hacer
las correcciones correspondientes. Podemos o corregir valores tratándolos como si fuesen
valores perdidos (dejar el espacio erróneo en blanco), o la segunda opción, mejor y más
costosa, identificar a cada sujeto con error e identificar el instrumento de medida, por ejemplo
coger su encuesta y corregir el dato. Tras realizar las correcciones volvemos a realizar la
distribución de frecuencias, para verificar que se han corregido todos los errores. Y entonces
estamos listos para comenzar a analizar datos.
4.6. Aproximación intuitiva a las representaciones gráficas y la curva

normal.
Una representación gráfica es una forma atractiva de ordenar la información disponible en la
matriz y comprenderla a simple vista. Para realizar un gráfico necesitamos una distribución de
frecuencias y podemos escoger un gráfico u otro dependiendo de las variables.
Al ver la distribución gráfica de una distribución de frecuencias normal, se ha descubierto que

muchas tienen la misma distribución (forma) a la que llaman Campana de Gauss.
La Campana de Gauss es una distribución teórica simétrica, o sea, si doblamos por la mitad la
gráfica la forma de ambos lado coinciden y es asintótica, es decir, que la media, la mediana y la
moda coinciden. Muchas variables educativas psicológicas

TEMA 4 Estadística Aplicada

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TEMA 4 Estadística Aplicada

Cargado por

Copyright:

Formatos disponibles

Estadística Aplicada a la Educación Concepció Tortella

TEMA 4. ORGANIZACIÓN DE DATOS. ANÁLISIS EXPLORATORIO DE

4.2. De la definición del problema y las variables, a la observación y

4.3. Permisos y ética en la investigación y recogida de datos.

4.4. De los distintos instrumentos a los datos: elección del programa, la

1. Ítem y variable a la que hace referencia.

EL LIBRO DE CÓDIGOS BUSCA EVITAR ERRORES DE TABULACIÓN.

4.5. Organización de los datos: depuración de datos y distribuciones de

4.5.1. Distribución de frecuencias y aproximación al concepto de percentil.

 Puntuaciones directas (Xi) número de sujetos.

4.6. Aproximación intuitiva a las representaciones gráficas y la curva

Al ver la distribución gráfica de una distribución de frecuencias normal, se ha descubierto que

También podría gustarte