Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
patatabrava.com
La Estadística se puede entender como una serie de conjuntos numéricos, como método de
trabajo propio del campo empírico, como a la forma de resolver problemas educativos, y como una
ciencia. La Estadística actúa como una disciplina puente entre los modelos matemáticos y los
fenómenos reales. Kerlinger la define como “La teoría y el método de analizar datos cuantitativos
obtenidos de muestras de observaciones, para estudiar y comparar fuentes de variancia de
fenómenos, ayudar a tomar decisiones sobre aceptar o rechazar relaciones hipotéticas entre los
fenómenos y ayudar a hacer inferencias fidedignas de observaciones empíricas”.
Por lo tanto, nos permite comprender las posibilidades y limitaciones de los trabajos empíricos
y desarrollar un pensamiento crítico y antidogmático en el estudio de la realidad. Para los
pedagogos, las funciones que puede desempeñar son:
Puede aportar una primera aproximación al campo de estudio a partir de los datos que facilita
al investigador, con posterioridad se pueden aplicar los principios derivados de la Estadística,
entendida como ciencia, para la resolución de problemas o para la toma de decisiones. La
Estadística ofrece las siguientes posibilidades:
Establecer relaciones entre variables y calcular el grado de relación entre las mismas.
Inferir desde la muestra a la población: análisis para extrapolar los resultados obtenidos en
las muestras a las poblaciones de las que se extrajeron.
3. Tipos de Estadística.
a. Estadística descriptiva.
Se le asocian los procesos de análisis que se llevan a cabo con los datos empíricos recogidos
en las muestras. Este proceso concluye con la obtención de unos valores numéricos que reciben
la denominación de estadísticos, cada uno de ellos pone de relieve una característica
representativa del grupo de sujetos que se analiza. En realidad, transforma un conjunto de
números u observaciones en índices que sirven para describir o caracterizar esos datos dentro de
los grupos de sujetos. Se ocupa del estudio de los métodos y técnicas necesarios para la
descripción gráfica y numérica de los conjuntos de datos numerosos.
Explorar las relaciones, manifiestas o no, en la estructura que define la relación de más de
dos variables.
La Estadística descriptiva univariada sirve para descubrir y analizar una distribución de datos
que provienen de la medición de una variable en una muestra. La Estadística descriptiva bivariada
sirve para recoger y analizar datos de dos variables. Cuando intervienen más de dos variables, se
habla de la multivariada.
b. Estadística inferencial.
Trata de extrapolar los resultados que se han obtenido en muestras a las poblaciones
respectivas de las que proceden. Se ocupa de los métodos estadísticos que nos sirven para
realizar inferencias objetivas sobre los datos disponibles y trasladarlos a grupos más amplios. La
Estadística inferencial tiene por finalidad la obtención de una serie de conclusiones sobre algún
aspecto o variable presente en una población a partir de las observaciones de comportamientos
en una o varias muestras.
2
La inferencia nos ayuda en la toma de decisiones sobre la aceptación o el rechazo de las
relaciones previstas en la hipótesis (posible solución del problema), aunque estas decisiones
suelen matizarse con la fijación del margen de error. Dos grandes campos forman la Estadística
inferencial: la estimación de parámetros puede llevarse a cabo mediante la elección de un solo
valor de la muestra que se transforma en parámetro (estimación puntual) o a través de unos
límites entre los cuales se espera se encuentre el verdadero valor del parámetro (estimación por
intervalos), esos límites vienen influenciados por los errores aleatorios y los sistemáticos. El
contraste de hipótesis trata de probar mediante datos empíricos las hipótesis que se plantean en
el proceso de investigación, de tal forma que son los datos los que deben ofrecer una respuesta a
los planteamientos iniciales del investigador.
La Estadística descriptiva aporta información que puede servir de base para trabajos
posteriores y análisis más complejos que entran en el cometido de la Estadística inferencial. Los
datos recogidos deben responder a unas hipótesis y objetivos previamente planteados. En alguna
de las fases va a estar presente la forma explícita, mientras en otras ofrecerá pautas para
entender y desarrollar esos parámetros.
a. En el problema de investigación.
Cuando el investigador formula su hipótesis o enumera sus objetivos se le exige que las
hipótesis sean contrastables y los objetivos comprobables. Referido al tipo de hipótesis nos
permite conocer qué estadísticos deben ser calculados, y determinar si la hipótesis que se plantea
ha de ser unilateral o bilateral. Además, nos ofrece argumentos para seleccionar la modalidad de
análisis estadísticos que sea el más adecuado.
En la gran mayoría de los casos, nos decantamos por plantear hipótesis bilaterales (existirán
diferencias entre los grupos); mientras que cuando existen otros trabajos que responden a teorías
previas, se pueden formular hipótesis unilaterales (se decantan por una de las opciones). La
elección va a tener repercusiones en la búsqueda de los valores teóricos o críticos. Buscamos la
existencia de diferencias significativas y no meramente aleatorias. Si la hipótesis se decanta por
establecer el valor predictivo de una prueba sobre otra, nos estamos refiriendo a los valores que
alcanzará la correlación, medidos en tiempos diferentes (validez predictiva). De esta formulación,
será preciso determinar la función predictiva del coeficiente que se traslada a las correspondientes
fórmulas derivadas de la regresión.
Nos encontramos ante una fase eminentemente estadística, pero ello no quiere decir que las
aportaciones en otras partes no sean tenidas en cuenta o sean de poca entidad, pues los
procesos lógicos y los estadísticos están íntimamente ligados y mutuamente condicionados en el
campo de la investigación socioeducativa. La utilización de una prueba u otra debe quedar en
manos del investigador, no del informático, éste nos puede ayudar y facilitar las herramientas de
cálculo, mientras que los investigadores debemos conocer estas pruebas y, sobre todo, ser
capaces de interpretar las salidas del ordenador.
f. En la decisión estadística.
La fase anterior concluye con la obtención del denominado valor empírico del estadístico
correspondiente, que será diferente según la prueba estadística que se haya seleccionado (t, z, F,
U, T, H, etc.), y que ha de ser interpretado, de tal forma que el investigador pueda concluir que las
diferencias entre los grupos son diferencias reales. Esa interpretación consiste en decidir si la
hipótesis de nulidad (H) se rechaza y, por consiguiente, se acepta la hipótesis alternativa o
hipótesis del investigador (H), se hace fijando unos niveles de confianza o unos márgenes de
error.
En esta fase, se pone de manifiesto al ofrecernos los valores teóricos o críticos de distribución
de cada uno de los estadísticos y que vienen recogidos en tablas o bien se determinan mediante
el empleo de una serie de ecuaciones. La regla general asociada al contraste de hipótesis y la
decisión estadística nos dice que cuando el valor empírico del estadístico es mayor que el valor
teórico o crítico, se rechaza H. Esta regla general tiene sus excepciones. Esta fase es fundamental
en el desarrollo de la investigación pedagógica empírica en el campo socioeducativo, nos permite
garantizar que los cambios producidos por la intervención del investigador sobre la variable
independiente (V) ha producido sus frutos y podrá ser recomendada en el futuro en contextos o
situaciones similares a la estudiada.
4
5. La Estadística y su relación con las Ciencias Sociales.
Su origen se encuentra unido al interés de los investigadores y científicos por cuantificar los
diferentes aspectos sociales de los grupos o comunidades. Ámbitos de las Ciencias Sociales en
las que actúa y aporta sus conocimientos la Estadística:
Psicología: análisis factorial, estudio del comportamiento de los sujetos, aptitudes, rasgos
de personalidad, factores de inteligencia, etc.
No lleva consigo que servirá para resolver todos los problemas que aquejan al campo de
estudio que nos ocupa. Debemos recordar que la tarea del diseño y elección de pruebas
estadísticas es tarea del educador. La Estadística nos ayudará en la decisión de rechazar las
hipótesis de nulidad, no podemos olvidar que sin un buen control sobre las variables extrañas,
podemos estar considerando que los cabios generados son achacables a una variable
independiente, cuando en realidad han sido otros factores o variables no controladas las que han
generado cambios. El investigador es el que debe tomar la decisión en elegir unas y descartar
otras, para que los resultados finales de los trabajos empíricos sean válidos en la toma de
decisiones.
5
TEMA 2: PROBLEMA, HIPÓTESIS/OBJETIVOS, VARIABLES Y DATOS. NIVELES DE
MEDIDA
1. Introducción.
Es el momento de abordar los aspectos fundamentales que nos ayuden a comprender mejor
los puntos básicos de este proceso. Así, presentamos unas ideas generales sobre el problema de
investigación, su definición, selección, características y criterios para su evaluación.
Seguidamente, analizamos la revisión de fuentes documentales y el estado de la cuestión. A
continuación, el apartado referido a las hipótesis y objetivos de la investigación, identificación y
definición de las variables, recogida de datos y su calidad, los diferentes niveles de medida y las
repercusiones que ello tiene en los análisis estadísticos.
2. El problema de investigación.
En la gran mayoría de los casos se parte de una idea general que después se va perfilando
hasta llegar a configurar el problema concreto de investigación. La aparición de un problema para
el que no encontramos una respuesta satisfactoria, viene condicionado por:
Es fundamental contemplar su concepción desde una visión apropiada y con una perspectiva
poco limitada, para poder percibir su globalidad. La característica fundamental consiste en la
posibilidad de resolución, es decir, se deben formular problemas sobre los cuales podamos
estudiar comportamientos, analizar hechos y evaluar resultados.
Según García de la Fuente, en el momento de elegir tema, influyen dos tipos de elementos:
Para formular un problema científico debemos tener en cuenta los criterios de rigor,
consistencia, precisión, exactitud y una expresión clara y unívoca. Se suele aceptar que un buen
planteamiento es la mitad de la solución. En esta línea, Fox señala que de la existencia de la idea
original o impulsora de problemas se debe pasar a realizar una primera revisión de la bibliografía
relacionada con el mismo, para pasar a definir de forma más precisa el problema de investigación.
Factible: existen medios apropiados para investigar y poder ser empleados por el
investigador (ej. encuesta).
Claro: que todos los términos estén perfectamente definidos y sea comprensibles, es decir,
definiciones adecuadas.
6
La investigación situada fuera de los contextos de problemas reales actúa como traba de la
misma. No obstante, cuando existe una intervención directa en la acción hay mayores
posibilidades de captar el problema en toda su plenitud. Así pues, debemos exigir al problema
como característica fundamental el que sea resoluble, es decir, que se puedan recoger datos
empíricos sobre el mismo que permitan ofrecer una respuesta adecuada a ese interrogante. A
modo de ejemplo, podríamos señalar:
¿Cuáles son las variables que inciden de forma más significativa en el rendimiento de los
estudiantes de la UNED? Investigación correlacional.
¿Qué características definen personal y profesionalmente a los estudiantes del primer curso
de Educación Social en la UNED? Investigación descriptiva.
Interés: que tiene el tema para el investigador, el equipo y la persona, autoridad o grupo
que encarga el trabajo.
Una vez planteado el problema, es necesario efectuar consultas sobre ese tema que se trata
de investigar. Para Fox, debemos diferenciar entre la denominada bibliografía de la investigación
(informes sobre trabajos ya realizados), y la bibliografía de tipo conceptual (referida a los textos,
artículos, etc.). Esta consulta vendrá condicionada por el nivel de conocimiento previo que tenga el
investigador sobre el problema que investiga. Los soportes de la información se diversifican y
multiplican sin cesar, por lo que resulta esencia conocer cómo obtener y utilizar la documentación.
Fuentes bibliográficas: centradas en los textos a los que se acude para recabar la
información sobre el problema de investigación:
7
o Revistas de Investigación: trabajos teóricos o empíricos.
Fuentes no bibliográficas:
Para valorar la información recogida se deben tener en cuenta los siguientes criterios:
Relevancia: que sea importante para el tema, y que proceda de autores de reconocido
prestigio.
Adecuación: que la información mantenga una estrecha relación con el problema y aporte
datos para facilitar su resolución.
Una vez concretado el problema y revisadas las fuentes, el investigador está en condiciones
de aventurar posibles soluciones al mismo, nos referimos a las hipótesis. En la mayor parte de las
investigaciones, se suele emplear el término hipótesis directiva. Hemos de tener en cuenta que los
objetivos tienen un carácter más descriptivo, mientras que las hipótesis buscan la relación causal
entre las variables.
8
Fundada en los conocimientos previos.
A estos criterios básicos se podrían añadir, según indica McGuigan, el que exista una
conexión con el marco teórico en el que se plantean, y también, con otras hipótesis de formulación
más sencilla. Las dos notas que identifican una buena formulación de hipótesis son el que estén
bien formuladas y el que sean contrastables empíricamente. La primera exige una profunda
revisión de las fuentes y verosimilitud. A su vez, es preciso que sea contrastable mediante
procedimientos empíricos. También deben establecer relaciones causales entre las variables, de
un lado las antecedentes sobre las que interviene el investigador, y de otro, las consecuentes, que
reciben los efectos. Es preciso que las hipótesis sean claras y sencillas.
Cuando el investigador formula las hipótesis o los objetivos del trabajo, debe tener la
referencia básica del problema que pretende resolver. En algunas investigaciones nos
encontramos con los términos objetivo o propósito general y objetivos operativos; el primero se
refiere al marco general de la investigación señalando lo fundamental del trabajo, en el segundo
se recogen de forma más concisa los puntos principales. Además, conviene indicar que las
hipótesis recogen en sus enunciados la existencia de diferencias o relaciones entre las variables,
en cambio los objetivos se dirigen hacia el campo de las descripciones e implicaciones.
Existenciales: establecen una relación entre dos o más variables. Ej.: los estudiantes que
empleen un método X para el aprendizaje en el Centro Y alcanzarán mejores resultados
que los que no lo utilicen.
Universales: válidos para todos los casos, aunque en el campo de la educación resulta
prácticamente imposible. En un determinado centro, con unas características definidas
para los estudiantes, en unas condiciones particulares es posible que ocurra esto.
Substantiva o científica: expresa la relación o dependencia entre las variables con definición
expresa de las mismas. Puede venir derivada de la observación y la experiencia
(inductiva), o de la teoría (deductiva). Sirven para comprobar el funcionamiento de las
teorías en el campo educativo. Ej.: comprobar que un método es más adecuado que otro.
Estadística: se establece una diferencia o relación entre los parámetros poblacionales que
debe ser comprobada empíricamente. Pueden enunciarse en forma de hipótesis nula (H),
que postula la no existencia de diferencias o relaciones entre los grupos. Mientras que la
9
hipótesis alternativa (H) es la que establece la relación entre las variables, bien de forma
genérica (bidireccional), bien decantándose por una de las opciones (direccional).
Variable es aquella característica que admite diversos valores, es decir, dos o más
modalidades; mientras que constante es un valor numérico que no cambia en un contexto
determinado, dicho de otra forma, es aquella característica que admite una única forma de
manifestarse, una única modalidad de presencia. Algunos autores suelen recurrir al término
atributo cuando se identifica con lo cualitativo y variable cuando se trata de lo cuantitativo.
Dicotómicas
Categóricas Politómicas
Cualitativas
Cuantitativas Discretas
Continuas
Dependientes
10
Independientes
Extrañas
Estímulo
Respuesta
Intermedias
Las variables categóricas o atributivas establecen distintas categorías para cada una de las
modalidades, en ocasiones se las denomina atributos, hacen referencia a las características de los
sujetos que no se pueden cuantificar. Si la variable solamente admite dos categorías se las
denomina dicotómicas. Por ejemplo, las calificaciones ‘Apto/No apto’. Las variables politómicas
son aquellas que admiten más de dos categorías. Por ejemplo, nivel de estudios: superiores,
secundarios, primarios; clase social: alta, media, baja, etc.
Las variables cualitativas expresan la posesión de una determinada cualidad y con cierta
intensidad (rangos). No será posible establecer diferencias numéricas. Por ejemplo, interés y
atención del estudiante, valoración de una tarea, la opinión, etc.
Las variables cuantitativas reflejan las características de la población que admiten medida
numérica. Pueden ser discretas, solo admiten números enteros. Por ejemplo, número de sillas, de
habitantes, de sujetos, etc. O, continuas, admiten un número infinito de valores potenciales. Por
ejemplo, edad, peso, puntuaciones de un test, medida de inteligencia, etc.
Las variables dependientes (V) reciben los efectos de la intervención sobre la variable
independiente. Los valores que alcance esta variable dependerán de la independiente, por ello
refleja la consecuencia de los cambios que se han producido. Por ejemplo, en una investigación
en que se analizan los procesos de enseñanza-aprendizaje y su influencia en el rendimiento
académico, la V que recibe los efectos es el rendimiento académico.
Las variables independientes (V) son aquellas sobre las que interviene o actúa el investigador
con el fin de analizar su influencia sobre la dependiente. En ocasiones se las denomina como
estímulos o antecedentes. Por ejemplo, si queremos analizar la influencia de un método de
aprendizaje del inglés en los resultados académicos de los estudiantes, la V será el método de
aprendizaje, y la V los resultados alcanzados.
Las variables extrañas o intervinientes (V) están presentes y deben ser controladas para evitar
la contaminación de los resultados finales. Por ejemplo, de los ejemplos anteriores, el profesorado,
el horario, etc.
Las variables estímulo engloban dentro de sí todas aquellas condiciones externas al sujeto
que pueden ser objeto de intervención por parte del investigador. Por ejemplo, recibir premios por
las tareas realizadas, valorar la participación activa, etc.
Las variables intermediarias son una interposición entre el estímulo y la respuesta, y pueden
influir sobre las respuestas que ofrecen los sujetos en la investigación. Por ejemplo, el ambiente
familiar, el contexto escolar, el docente, etc.
Implica que el concepto analizado debe ser definido en función de las acciones u operaciones
11
que son precisas para poder medirlo y actuar sobre él. Se pueden señalar tres sentidos: uno
centrado en las operaciones que deben ser llevadas a cabo para que se produzca el fenómeno
que se define; otro basado en la operatividad del objeto definido; y, el tercero se centra en las
denominadas propiedades estáticas. La operatividad de variables es un requisito indispensable
para que se pueda llevar a cabo la investigación con las suficientes garantías de validez, pues
facilita la prueba de hipótesis y permite el acuerdo entre distintos observadores del mismo
fenómeno.
Fox nos recuerda que la calidad de la investigación viene condicionada expresamente por la
calidad de los métodos utilizados para recoger y analizar los datos. Así pues, deben cumplir una
serie de requisitos que hagan posible la expresión cuantitativa o cualitativa de un rasgo,
característica o variable, ello nos ofrecerá una serie de informaciones y datos de calidad sobre los
sujetos objeto de estudio.
Para tomar la decisión en la selección de instrumentos debe contemplar una serie de criterios:
La identificación total del rasgo o característica: exige una clarificación del mismo, mediante
una definición operacional precisa.
El tipo de validez empleado: el instrumento mide lo que dice medir y no otra cosa distinta.
La técnica de fiabilidad: un instrumento será fiable en la medida que mida con precisión
algo.
Los niveles de fiabilidad y validez: para la fiabilidad se exigen valores altos, por encima de
0.85; en el caso de la validez, se suelen aceptar valores más bajo, a partir de 0.40.
Seleccionar los ítems o elementos más apropiados: siempre teniendo la referencia de los
sujetos de la muestra.
Formular los ítems o elementos con precisión: según el tipo de elemento dependerá su
formulación.
Ordenar los ítems de forma apropiada: es conveniente acompañar en cada bloque unas
instrucciones para su contestación, seguir una secuencia cronológica, una distribución al
azar.
El tiempo preciso para responder (duración): al conjunto de la prueba y a cada una de sus
partes. Aunque resulta difícil fijar una duración óptima, sí que debemos tener en cuenta la
edad de los sujetos, la vinculación con el tema propuesto, el momento en que se va a
aplicar y la finalidad de los resultados.
Las respuestas que debe dar el sujeto: deben ser unívocas y registrarse con facilidad.
Para alcanzar las suficientes garantías en todos y cada uno de los puntos contemplados es
conveniente someter dicho instrumento a lo que llamamos aplicación piloto. Además, con los datos
12
suministrados por la aplicación piloto podemos determinar los niveles de fiabilidad y validez de la
prueba.
Nivel nominal: atribuir números o símbolos a las diferentes categorías o clases en que se
ha dividido un conjunto. Así el mismo número o letra indica la pertenencia al mismo grupo
o categoría. No se trabaja directamente con números como tales, sino con sus
frecuencias, es decir, el número de veces que se presenta un hecho o fenómeno en el
grupo objeto de investigación. Entre los estadísticos que pueden calcularse con los datos
nominales se encuentran: la moda, la frecuencia, el coeficiente de asociación (C) o de
contingencia, la prueba de Ji cuadrado con sus diferentes modalidades.
Nivel ordinal: puede establecer con los objetos evaluados una escala ordenada de forma
creciente o decreciente. Probablemente sea el nivel de medida de mayor empleo en la
investigación en Ciencias Sociales y, por consiguiente, también en educación. Lo que nos
interesa es la posición (el rango) que ocupa dentro del grupo analizado. Para su
tratamiento estadístico disponemos de la mediana, la correlación ordinal de Spearman y
pruebas no paramétricas.
Nivel de razón o proporción: el nivel más perfecto, pues a todas las características ya
enumeradas hemos de añadir la existencia del cero absoluto. En este nivel, están
justificadas todas las operaciones matemáticas: suma, resta, multiplicación y división,
además de poder determinar lo que es el doble, el triple, la mitad. Este nivel solo se ha
alcanzado en variables de la Física, como el peso y la longitud. En el campo de la
Estadística tenemos la media geométrica y el coeficiente de variación que requieren de la
existencia del punto 0 de la escala.
13
TEMA 3: ORGANIZACIÓN DE LOS DATOS. ANÁLISIS EXPLORATORIO DE DATOS.
1. Introducción.
Uno de los errores más frecuentes de los investigadores es recoger datos sin seguir
adecuadamente los pasos del proceso de investigación. Por eso es fundamental tratar de dar
respuesta a todas las fases del proceso de investigación. Para ello, se procede a realizar la
recogida de información, es decir, atribuir valores a las variables que son objeto del estudio. Para
ello, necesitamos algún procedimiento que nos permita asignar dichos valores –números, rangos,
categorías– a las variables conceptuales: necesitamos un instrumento de medida adecuado y una
regla de medida bien definida.
En la investigación empírica, siempre tenemos que trabajar con datos empíricos, es decir,
transformar en números la realidad observada. Para ello, necesitaremos instrumentos de medida
válidos y fiables. La precisión (fiabilidad) de los instrumentos podrá tener distintos grados, y eso
afectará a la validez de los resultados. En este sentido, la elección de los instrumentos de medida
o el proceso de construcción de los mismos es una parte fundamental de la investigación. Si nos
planteamos un problema cuyas variables no son cuantificables, no estamos ante una investigación
empírica. Así pues, una vez realizado el diseño de investigación y elegidos los instrumentos de
medida, se puede realizar el trabajo de campo, aplicar los instrumentos, recoger datos.
4. De los instrumentos a los datos: elección del programa, la matriz de datos y el libro
de códigos.
Una vez que hemos aplicado los instrumentos, debemos trasladar los datos a una hoja de
cálculo o algún programa que nos permita posteriormente trabajar con ellos. A esto se llama
introducir o tabular los datos. Las puntuaciones que vamos a introducir se llaman puntuaciones
directas (X), es decir, la puntuación o puntuaciones que obtiene un sujeto tras aplicarle un
instrumento de medida. La codificación de datos consiste en la asignación de números o
caracteres a los valores de la variable. El nivel de la medida de las variables tiene repercusiones
14
en la forma de codificar los datos.
Antes de empezar a tabular los datos, es conveniente escribir el libro de códigos. Se trata de
un documento en el que se especifican todas las variables del estudio en el orden en el que serán
introducidas en la matriz de datos. Primero debe identificarse el ítem junto al nombre de cada
variable y su etiqueta (descripción). Posteriormente se anotan los posibles valores de la variable
(códigos) y, si procede, se les asigna también una etiqueta de valor. En el caso de variables
continuas basta con escribir l recorrido de la escala (por ejemplo, 5-20).
Asimismo, es importante definir el valor que asignemos a los datos perdidos o missing data.
Normalmente se deja en blanco en la matriz de datos (missing de sistema), de modo que no se
contabilice a la hora de calcular los estadísticos. La segunda opción es definir un valor perdido por
el usuario, por ejemplo, 99 (siempre que no sea un valor admisible dentro de la escala de medida
de la variable). En ese caso, debemos programar ese valor en el programa que utilicemos, de
modo que el programa no utilice ese valor para los cálculos.
Antes de empezar a realizar los análisis estadísticos, debemos hacer una depuración de
datos. La depuración de datos exige dos fases: el control de calidad de la tabulación y la propia
depuración de datos. Tabular los datos es trasladar los datos de los instrumentos de medida a la
matriz de datos. El control de calidad consiste en comprobar la fidelidad de la tabulación. La
depuración de datos consiste en verificar si hay valores “fuera de rango” según se había definido
en el libro de códigos.
15
Una de las más sencillas formas de hacerlo es realizar un análisis descriptivo solicitando
simplemente los valores mínimo y máximo para cada variable. Otra forma consiste en realizar una
distribución de frecuencias. En ella aparecen todas las puntuaciones obtenidas en una variable
(puntuaciones directas) y el número de veces que se repite cada puntuación (frecuencia absoluta).
También son muy utilizadas la frecuencia relativa (f/N) que, multiplicada por 100, indica el
porcentaje de aparición de una puntuación respecto del total; y la frecuencia acumulada, que
muestra el número de sujetos a los que supera una puntuación determinada.
Una distribución de frecuencias suele incluir el número de sujetos o casos que corresponde a
cada puntuación directa, denominado frecuencia absoluta, el porcentaje relativo (o frecuencia
relativa multiplicada por 100) para cada código. La siguiente columna es el porcentaje válido, que
es el porcentaje relativo de cada valor excluidos los valores perdidos. Finalmente, el porcentaje
acumulado indica el porcentaje de casos que deja por debajo de sí el límite superior de cada
puntuación. En el mismo sentido podemos hablar de frecuencia acumulada, que indica el número
de sujetos que deja por debajo de sí el límite superior de una puntuación determinada.
Las puntuaciones directas son la respuesta numérica elegida por los sujetos. La frecuencia
absoluta es el número de sujetos que han respondido a la pregunta. El número total que han
respondido se halla sumando todas las frecuencias absolutas (N). Después está la frecuencia
relativa multiplicada por 100 (f/N x 100). El porcentaje acumulado (frecuencia acumulada relativa
[f/N] multiplicada por 100) nos muestra el porcentaje de sujetos que deja por debajo de sí el límite
superior de una puntuación determinada. Los porcentajes acumulados (sin decimales) se utilizan
mucho en la construcción de baremos para interpretar las puntuaciones de los tests, donde
reciben el nombre de percentiles. El percentil indica el porcentaje de sujetos que deja por debajo
de sí una puntuación determinada.
b. Síntesis.
Hay distintas formas de representar los datos, dependiendo de la naturaleza de las variables:
sectores, barras, polígono de frecuencias, tallo y hojas, etc. si este gráfico lo giramos y lo
convertimos en un gráfico de barras verticales, obtenemos la siguiente figura.
Como puede verse, la figura b) es parecida al gráfico de barras, si uniéramos el punto central
superior de cada barra y suavizáramos la forma. La curva normal es una distribución teórica
simétrica (si doblamos la distribución sobre sí misma por la mediana, la forma de los lados
coincide) y asintótica, donde la media, la mediana y la moda coinciden. Muchas variables
educativas, psicológicas y biológicas se distribuyen según este modelo. La observación empírica
de la distribución de estas variables permitió crear un modelo matemático (curva normal) que
respondía a dicha distribución, de modo que es posible conocer la probabilidad asociada a cada
uno de los valores de la curva (como una frecuencia relativa), con lo cual podemos saber si la
obtención de un valor procedente de cualquier medición es más o menos probable que aparezca,
es decir, si se parece mucho o poco a lo que entendemos como “normal”. Las aplicaciones de la
distribución normal y otras distribuciones teóricas como la binomial, t, F, X, son fundamentales en
el campo de la inferencia estadística, donde reciben el nombre de distribuciones muestrales.
17
TEMA 4: REDUCCIÓN DE DATOS. MEDIDAS DESCRIPTIVAS BÁSICAS Y
REPRESENTACIONES GRÁFICAS
1. Introducción. De la organización a la descripción de datos.
Antes de realizar análisis más complejos, se parte de la Estadística Descriptiva para hacerse
una primera idea del comportamiento de cada una de las variables contenidas en nuestra matriz
de datos. La palabra más importante relacionada con la Estadística es la variabilidad, es decir, el
estudio de la dispersión de las puntuaciones, contribuyendo a explicar la magnitud y naturaleza de
las mismas. En este momento, simplemente pretendemos estudiar la magnitud de la variabilidad y
alguna otra nota ligada a la misma.
De forma genérica, podemos distinguir dos grupos de medidas o índices numéricos que
deben estar presentes en todo estudio descriptivo y que aparecerán en casi todos los artículos de
investigación cuantitativa: medidas de tendencia central y medidas de dispersión o variabilidad.
Las representaciones gráficas de los datos son un buen complemento de los índices numéricos y
ayudan a comprender rápidamente la información descriptiva. No debemos olvidar que estas
medidas describen grupos de datos (sujetos, objetos) y no los datos individualmente.
Generalmente, primero se estudia la tendencia central del grupo, es decir, hacia qué puntuación
tiende el grupo. El índice más conocido es la media aritmética. Sin embargo, este índice por sí
solo no nos proporciona suficiente información como para hacernos una idea del grupo. ¿Hay o no
dispersión de las puntuaciones en torno a la media aritmética? Para comprobarlo, nos referimos a
las medidas de variabilidad o dispersión, como la desviación típica.
La tendencia central del grupo indica hacia qué valor tiende el grupo, cuál es el valor que
mejor lo representa. El índice o medida más conocida es la media aritmética, el promedio, que se
calcula sumando todas las puntuaciones y dividiendo dicha suma por el número total de
puntuaciones. Su símbolo es .
= =
= Sumatorio.
Interpretar una media aritmética suele ser muy sencillo. Para interpretarla correctamente, es
conveniente conocer la puntuación mínima y máxima de la escala de medida de la variable y situar
la media aritmética dentro de ese recorrido. En sentido estricto, la media aritmética solo puede
utilizarse en variables cuyo nivel de medida sea de intervalo o de razón. También puede utilizarse
con variables dicotómicas (solo pueden adoptar dos valores).
Las otras medidas de tendencia central son la moda y la mediana. La moda es el valor con
frecuencia absoluta más alta, la puntuación que más se repite, no necesita ningún cálculo. Cuando
tenemos dos puntuaciones con la misma frecuencia, diremos que la distribución es bimodal, y
entonces diremos que las modas son, por ejemplo, 4 y 5. También podemos encontrarnos
distribuciones de frecuencias en las que más de dos puntuaciones tienen la misma frecuencia y
esta es considerablemente superior a la del resto de puntuaciones. En este caso hablaremos de
distribuciones plurimodales. Gráficamente, sería una distribución en la que observaríamos varios
picos de la misma altura.
18
la posición central. Cuando el número de puntuaciones es par, no hay una puntuación central, sino
dos. La medida más precisa de tendencia central es la media aritmética, ya que tiene en cuenta
todas las puntuaciones para su cálculo. Hay que tener en cuenta que la media aritmética es
sensible a las puntuaciones extremas, no así la mediana ni la moda. Como indica Morales, la
media se ve arrastrada por las puntuaciones extremas, lo que no sucede con las otras dos
medidas. Por eso, la mediana puede ser una medida preferible a la media cuando las
puntuaciones extremas puedan distorsionar la verdadera tendencia central del grupo. En sentido
estricto, cuando el nivel de medida de la variable es ordinal, solo podríamos utilizar la mediana y la
moda, mientras que para variables con nivel de medida nominal, solo podemos utilizar la moda
(excepto en el caso de las variables dicotómicas).
3. Medidas de variabilidad.
Supongamos que tenemos dos grupos de cuatro sujetos cada uno a los que pasamos un test
de inteligencia. Los resultados son los siguientes:
Grupo 1 Grupo 2
104 80
104 80
104 128
104 128
= 104 = 104
La media aritmética es la misma en los dos grupos y, sin embargo, son grupos muy diferentes.
Por esta razón, el índice de tendencia central debe ir acompañado por un índice de dispersión o
variabilidad que indique en qué medida las puntuaciones de los sujetos se dispersan o varían en
torno a la media aritmética.
a. La desviación de la media.
D. M. =
Esto es
D. M. =
Los sujetos del Grupo 1 tienen la misma puntuación, por tanto, la desviación media es 0. En el
Grupo 2, cada puntuación directa se aleja 24 puntos de la media. Así que (X – ) es igual a 24 o –
24. Para evitar las diferencias negativas, se toman las diferencias en su valor absoluto.
b. La desviación típica.
La desviación típica se presenta por “s” (estadístico) o (parámetro). Al ser otra medida de
dispersión, la desviación típica del primer grupo será igual a cero. Otro índice muy utilizado para
expresar la variabilidad de los grupos es la varianza (s o ). Su cálculo se realiza elevando al
cuadrado la desviación típica.
s=
Esto es
s= ; s=
El numerador expresa las distancias de cada puntuación directa a la media aritmética. Dichas
19
distancias se elevan al cuadrado para evitar que el valor siempre fuera 0. En nuestro ejemplo, la
varianza sería:
s=
Y la desviación típica:
s=
Ejemplo: Se ha utilizado una terapia para reducir la agresividad en cierto tipo de pacientes. Se
han formado dos grupos: el grupo experimental, y el grupo de control. Después de la aplicación de
la terapia, se ha medido el grado de agresividad (0 – 50 puntos). Los resultados son:
Hasta ahora nos hemos referido al cálculo de la desviación típica sesgada, que se utiliza
frecuentemente al trabajar con muestras. Es igualmente frecuente trabajar con la desviación típica
insesgada, que no es más que la estimación de la desviación típica de la población a la que
pertenece la muestra. Por lógica, se entiende que la desviación típica en una población será más
elevada que en una muestra, por lo que si disminuimos el denominador, el cociente será mayor.
Para calcular la desviación típica insesgada, simplemente se le resta una unidad al denominador:
s= ; s=
Para distinguir ambas fórmulas de la desviación típica suelen representarse como (sesgada)
y como (insesgada).
c. La amplitud o recorrido.
La amplitud o recorrido se calcula como la diferencia entre la puntuación mayor y menor más
uno:
A=X-X+1
d. La desviación semi-intercuartílica.
20
Q=
e. El coeficiente de variación.
El coeficiente de variación (V) permite comparar la variabilidad entre variables que tienen
distinta amplitud. Para ello, el V se expresa en términos porcentuales, y se calcula así:
V=
Las variables dicotómicas son variables que solo pueden tomar dos valores. Si sus dos
posibles valores se codifican con ceros y unos (ceros para noes o respuestas incorrectas y unos
para síes o respuestas correctas), entonces la media aritmética representa la proporción de unos.
Ejemplo: Si tenemos una muestra de 50 sujetos, y 30 han contestado que sí, ¿cuál es la
media? N = 50, por lo tanto, la media será 30/50 = 0’6. Esta media indica la proporción de sujetos
que ha respondido con un 1 (SÍ), que se representa por “p”. En otras palabras, el 60% de la
muestra ha respondido que sí (“p”), y el 40% que no (“q”). De modo que
p+q =1
Las medias con variables dicotómicas son muy usadas cuando utilizamos pruebas objetivas y
tests de rendimiento en los que la respuesta a las preguntas es acierto/error. En este caso, la
media nos dirá la proporción de sujetos que ha contestado correctamente a la pregunta, que viene
a denominarse índice de dificultad del ítem. La varianza es muy fácil de calcular:
s=p·q
s=
con lo cual sabremos que la desviación típica variará entre 0 (ausencia de variabilidad) y 0’5
(máxima variabilidad).
La asimetría positiva indica que la mayoría de los sujetos tiende a concentrarse en la parte
baja de las puntuaciones de la distribución de frecuencias. La cola de la distribución está a la
derecha. Esto no significa que los sujetos tengan puntuaciones bajas en aptitud numérica. La
asimetría negativa indica justamente lo contrario, que los sujetos tienden a agruparse en torno a
las puntuaciones altas de distribución. Esto no significa necesariamente que los sujetos de la
muestra obtengan puntuaciones altas. Hay distintas formas de calcularlo. Una de ellas (índice de
Pearson) es la siguiente:
As =
g2 =
6. Representaciones gráficas.
Hemos distinguido dos grupos de índices numéricos: índices de tendencia central e índices de
dispersión o variabilidad. Las representaciones gráficas son un buen complemento de los índices
numéricos y ayudan a comprender rápidamente la información descriptiva.
a. Gráfico de sectores.
También llamado ciclograma o gráfico de tarta, se utiliza para representar variables con nivel
de medida nominal (variables generalmente clasificatorias). Tiene forma circular y está dividido en
porciones. El gráfico de la izquierda es un diagrama de sectores que indica el porcentaje de
profesores universitarios que ha respondido a una encuesta según el tipo de universidad.
b. Gráfico de barras.
c. Histograma.
Es muy parecido al gráfico de barras, pero se utiliza para variables cuantitativas continuas
con nivel de medida de intervalo o de razón. Las barras están juntas.
Ejemplo: Supongamos que nuestra amplitud es de 71 puntos (de 30 a 100). Para calcular
por aproximación el número de intervalos, se divide la amplitud entre el valor que queramos darle
a i. si queremos una representación más concentrada, pongamos i = 10, entonces nos salen unos
7 intervalos, y el histograma quedaría así.
22
Una de las formas que suele usarse para la agrupación en intervalos es la siguiente:
Iniciar el primer intervalo con la puntuación que incluya la puntuación directa más baja y que
sea múltiplo del valor del intervalo. El último intervalo será el que contenga la puntuación
mayor.
Situar la marca de clase (punto central del intervalo) en el eje de abscisas en el centro de
cada barra.
d. Gráfico de caja.
El diagrama de caja, también conocido como caja y patillas o caja y bigotes, es un gráfico muy
práctico porque permite hacerse una idea rápida de la distribución de las puntuaciones en la zona
central (el espacio sombreado, que corresponde desde el cuartil 1 o percentil 25 hasta el cuartil 3
o percentil 75) y en los extremos. Otra de sus utilidades es que nos informa gráficamente del
grado de asimetría de la distribución y presenta los valores atípicos (outliers). Las patillas o bigotes
tienen como extremos posibles los valores máximo y mínimo de la variable.
Sin embargo, las patillas tienen un máximo de prolongación; para determinar los límites de las
patillas suele utilizarse la fórmula de multiplicar el intervalo intercuartil –que es la diferencia entre
el tercer y primer cuartil- por ±1’5. Si hay valores que se alejan de los límites de este producto, se
clasifican como atípicos. También puede especificarse la existencia de valores aún más extremos:
si hay puntuaciones que se alejan más del producto del intervalo intercuartil por ±3, entonces se
habla de puntuaciones extremas. Esto nos ayuda a identificar valores que pueden distorsionar el
comportamiento de la variable al calcular valores como la media aritmética, la desviación típica,
una correlación, etc. En ciertos casos, puede estar justificado eliminar de algunos análisis
estadísticos a los sujetos con puntuaciones atípicas o extremas.
A continuación puede leerse que en el primer tallo hay solo una hoja o puntuación (frecuencia
1) que es 47, en el siguiente tallo hay 6 puntuaciones, 52, 53, 53, etc. Si mentalmente lo giramos
de forma vertical, veremos que se convierte en un histograma.
23
TEMA 5: MEDIDAS INDIVIDUALES
1. Introducción.
Un punto de máximo interés es la atención individual a cada una de las personas para
proporcionarle toda la ayuda disponible. Así, el conocimiento de las puntuaciones individuales de
cada persona y su correcta interpretación resultan esenciales para la intervención educativa. Los
contenidos de este tema serán fundamentales para manejar correctamente tests y otro tipo de
instrumentos de medida presentes en el mercado para realizar diagnósticos, evaluaciones, etc.
Una puntuación directa (X) es la puntuación que obtiene un sujeto al realizar una prueba o
aplicarle un instrumento de medida.
Una forma rápida y sencilla de comparar la X en las dos pruebas es convertirla en una
proporción de respuestas correctas (n.º de respuestas correctas / n.º total de preguntas) o un
porcentaje de respuestas correctas (multiplicando la proporción por 100). No siempre es posible ni
pertinente hacer esta transformación, pero sí para, por ejemplo, evaluar la calidad y actitud.
Probablemente podríamos interpretar mejor dicha puntuación si la comparamos con las
puntuaciones del grupo al que hemos aplicado el instrumento de medida, viendo la media y la
desviación típica.
Una puntuación diferencial (x) es una puntuación individual relativa a la media aritmética del
grupo de referencia. Por tanto, para calcular una puntuación diferencial es necesario haber
aplicado un instrumento de medida a un grupo de sujetos. Simplemente se le resta a la puntuación
directa del sujeto la media aritmética del grupo al que pertenece.
X = X–
Por tanto, una puntuación directa superior a la media aritmética será una puntuación
diferencia positiva, mientras que si es inferior a la media, será negativa. Una puntuación diferencial
solo nos permite saber si una puntuación está por encima o por debajo de la media aritmética.
¿Son comparables dos puntuaciones diferenciales que proceden de distintos instrumentos de
medida? Necesitamos una puntuación que permita situar a un sujeto con respecto a su grupo de
referencia y hacer comparaciones independientemente de la amplitud del instrumento del que
procedan las puntuaciones directas que deseamos comparar. Las puntuaciones diferenciales son
muy utilizadas en el cálculo de otras puntuaciones (las puntuaciones típicas) y de algunos índices,
como las medidas de variabilidad.
Una puntuación típica (z) indica el número de desviaciones típicas que se desvía una
puntuación directa de la media aritmética. Las dos propiedades más importantes de las
puntuaciones típicas son que la media de dichas puntuaciones es igual a cero y la desviación
típica igual a uno.
Ejemplo: Supongamos que un grupo de sujetos tiene una media en CI (cociente intelectual) de
100 puntos y una desviación típica s = 10. Luego, si un sujeto tiene una puntuación directa de X =
110, ¿cuántas unidades de desviación típica se aleja de la media? Es claro: como la s = 10m se
aparta una s por encima de la media, luego su puntuación típica será z = 1. Las puntuaciones
típicas son muy utilizadas porque nos permiten comparar cualquier puntuación entre sí,
independientemente del instrumento de medida o de la amplitud de la escala utilizada. Se usa la
siguiente fórmula:
24
z= z=
A toda puntuación directa superior a la media le corresponderá una puntuación típica positiva,
y si es inferior a la media, negativa. Las puntuaciones típicas variarán dependiendo de la
homogeneidad o heterogeneidad del grupo. Si un grupo es muy homogéneo, su desviación típica
será pequeña y, por tanto, a una puntuación que no se aleje mucho de la media le puede
corresponder una puntuación típica mucho mayor que le correspondería si el grupo fuese
heterogéneo. Una de las utilidades más importantes de las puntuaciones típicas es la
correspondencia que existe entre estas puntuaciones y la distribución normal. De esta forma, se
podrá saber qué probabilidad existe de obtener determinada puntuación.
T=a·z+b
T = 10z + 50
S = 2z + 5
Entonces, un sujeto con una puntuación directa igual a la media tendrá una puntuación T =50
y una S =5.
Un cuantil indica el porcentaje de sujetos que deja por debajo de sí una puntuación
determinada. Las puntuaciones cuantiles más utilizadas son los percentiles, que dividen una
distribución de frecuencias en 100 partes. Otros cuantiles utilizados son los deciles (diez
divisiones) y los cuartiles (cuatro divisiones). Un cuantil es una medida relativa al grupo de
referencia. Los percentiles son utilizados para construir los baremos de los tests estandarizados.
Estos baremos están construidos con muestras grandes de sujetos, generalmente muestras
que pueden considerarse representativas de la población. De este modo, cuando aplicamos un
test a un sujeto y transformamos su puntuación directa en un percentil según los baremos del test,
simplemente estamos situando al sujeto en una posición (de 1 a 100) en referencia al grupo
normativo. Es decir, lo comparamos con lo que es normal en la población. Existen dos formas de
obtener percentiles. La forma más sencilla es el cálculo de percentiles por el procedimiento
denominado cálculo directo, esto es, lo percentiles correspondientes a cada una de las
puntuaciones directas que obtienen los sujetos en el test. Estos percentiles se obtienen
directamente al realizar la distribución de frecuencias y multiplicar por 100 las frecuencias
acumuladas relativas (f · 100/N); es decir, desde los porcentajes acumulados (redondeados sin
decimales).
Ejemplo:
25
Las respuestas posibles están escaladas desde 1 (“no se da nada en mí”) hasta 7 (“se da
muchísimo en mí”). En la primera columna, aparecen las puntuaciones directas, es decir, las
respuestas numéricas elegidas por los sujetos. En la segunda, la frecuencia absoluta. Así, la
respuesta “1” ha sido elegida por 179 sujetos, la “2” por 93, y así sucesivamente. El número total
de sujetos se halla sumando todas las frecuencias absolutas (N = 1.012). En la tercera columna
aparece la frecuencia relativa multiplicada por 100 ([f / N] · 100). Esto nos indica que la respuesta
“1” ha sido elegida por el 17.7% de los sujetos, la respuesta “2” por el 9.2%, etc. La columna
siguiente muestra las frecuencias acumuladas, y la siguiente, el porcentaje acumulado. La tabla de
percentiles se hace normalmente con la puntuación total en la prueba. Los percentiles
corresponden a la última columna redondeando los decimales. En algunas ocasiones, hay que
calcular percentiles que no aparecen en la distribución de frecuencias. Por ejemplo, para calcular
la mediana necesitamos saber el percentil 50, o para calcular la desviación semi-intercuartílica
necesitamos los percentiles 25 y 75 (cuartiles 1 y 3). El cálculo de estos percentiles se denomina
cálculo por interpolación, siendo los únicos percentiles que se pueden expresar con decimales.
Por ejemplo, para hallar el P se puede utilizar la fórmula siguiente:
C=L+
p = 1’5 +
En esta fórmula, lo primero que se resuelve es el numerador del segundo término (c · N / 100),
que indica el número de sujetos correspondientes al percentil 25. Esta cifra debemos buscarla en
la columna de frecuencias acumuladas, quedándonos con la más alta que no supere dicha cifra,
que en nuestro caso es 179, que corresponde a la X = 1. Restamos dicha frecuencia al dato
anterior (253 – 179 = 74),p ara ver cuántos sujetos nos faltan a partir de este intervalo para llegar
a los 253 que necesitamos. Esta cifra (74) es el numerador de la fórmula. Este valor lo dividimos
por la frecuencia absoluta del intervalo superior (f = 93). Esta cifra se multiplica por el valor del
intervalo. En este caso i = 1. Una vez aquí, le sumamos el límite inferior del intervalo en el que se
encuentra esta frecuencia absoluta, es decir, el límite inferior de X = 2, que es 1’5 (la puntuación
directa menos 0’5), y ya tenemos el P = 1’5 + 0’8 = 2’3.
Cuando tenemos una distribución normal, la obtención de una puntuación típica superior a 2 o
inferior a – 2 puede considerarse una puntuación extrema, ya que es obtenida solamente por
menos del 5% de sujetos. La probabilidad de obtener una puntuación típica igual o superior a 3 es
de p = 0.0013, esto es, en 1’3 casos de cada 1000. Entre las puntuaciones típicas de ±1 se
encuentra el 68% de los sujetos, entre ±2 el 95%, y entre ±3 casi el 100% (99’7%). Del mismo
26
modo, si tenemos una distribución de frecuencias con puntuaciones directas y sabemos que dicha
distribución es normal, nos basta saber su y su s (desviación típica) para aplicar las
propiedades de curva normal.
Es posible saber el porcentaje de sujetos que deja por encima y por debajo de sí una
puntuación individual. Para ello basta con consultar las tablas de la curva normal.
27
TEMA 6: RELACIÓN ENTRE VARIABLES. LAS CORRELACIONES Y LA REGRESIÓN
1. Introducción.
En este tema vamos a presentar una serie de conceptos teóricos y su desarrollo práctico en
el estudio de las relaciones entre las variables que intervienen en el proceso educativo. Además,
nos ocupamos de analizar las posibilidades y limitaciones de la predicción de puntuaciones en una
variable, conociendo los valores de otra (regresión).
2. El concepto de correlación.
Las situaciones que se pueden analizar pueden ser diversas, en concreto podemos citar tres
opciones diferentes:
Estudiar la relación entre dos o más variables medidas en un mismo grupo de sujetos.
Con dos o más grupos de individuos comprobar el grado de relación entre dichas muestras
de los grupos en una sola variable.
También se puede dar el caso de una misma variable medida en dos momentos distintos en
una misma muestra.
Así pues, podemos afirmar que la correlación nos indica la tendencia de dos o más conjuntos
de datos a variar de forma conjunta. Para cuantificar la intensidad de la correlación contamos con
el coeficiente de correlación que nos mide el índice de covariación o variación conjunta de dos, o
más, series de datos. En el análisis de la correlación entre dos variables se presentan diferentes
posibilidades que se expresan mediante un diagrama de dispersión.
Se manifiesta en aquellos supuestos en que al aumentar los valores de una de las variables
los valores de la otra lo hacen siempre en la misma proporción. Su expresión cuantitativa sería +1
y, en realidad, nos situamos ante lo que se conoce como una función.
Se la conoce como relación directa de variables, es decir, que a valores elevados en una
variable le corresponden valores altos en la otra. Esa tendencia no mantiene la proporcionalidad
que se da en el caso anterior. Su expresión cuantitativa se sitúa entre los valores 0 y +1.
Se manifiesta una relación inversa entre las variables, de tal forma que al aumentar los
valores en una de ella, los de la otra disminuyen y lo hacen en la misma proporción. Su expresión
cuantitativa es –1.
La identificamos con la relación inversa entre variables, las puntuaciones altas en una variable
se corresponden con las bajas en la otra. La forma de expresión cuantitativa se sitúa entre 0 y –1.
28
Relación nula o ausencia de relación
Se da cuando dos variables son independientes una de la otra, se puede decir que las
puntuaciones en las dos variables se deben a factores aleatorios. La forma de expresión
cuantitativa sería 0 (ausencia de relación).
El tipo de variables que se relacionan: cuando se da una similitud entre el valor del
coeficiente encontrado en el estudio empírico y el encontrado en el mismo grupo en
trabajos previos, también cuando se han encontrado unos valores elevados en anteriores
estudios y se repite en la actualidad la misma tendencia en los datos.
La variabilidad del grupo: cuanto mayor es la variabilidad del grupo, mayor será el valor del
coeficiente de correlación.
Asimismo se puede interpretar a través del coeficiente de determinación (d), cuyo cálculo se
realiza a partir del coeficiente de correlación (r) elevado al cuadrado y multiplicado por 100. Se
interpreta como el porcentaje de la varianza de una variable explicada por la otra. En la
investigación en educación, la interpretación de los coeficientes se suele completar con su
significación estadística. Se trata de poder afirmar que la correlación entre dos variables es real.
Puntuaciones
r = directas
Puntuaciones diferenciales
r=
La columna X se calcula elevando al cuadrado cada uno de los valores de X: 7 = 49; lo mismo
haríamos con Y, 8 = 64. La columna X · Y recoge los productos cruzados de los valores de cada
sujeto: 7 · 8 = 56; 5 · 4 = 20.
Previamente se deben calcular las medias de las dos variables del problema:
Y= =
Para la variable X:
x=X–
Para la variable Y:
y =Y–Y
Así pues, el cálculo del coeficiente de Pearson con puntuaciones directas sería:
r= =
r=
Según la escala de valoración que hemos presentado en páginas anteriores, el valor de 0’77
está comprendido entre 0’71 y 0’90; por lo tanto, podemos afirmar que la correlación entre las
calificaciones es alta, elevada, notable. Ello quiere decir que aquel sujeto que alcance una
calificación elevada en Matemáticas, tiene muchas posibilidades de repetir los resultados en
Física.
En muchas de las variables que utilizamos, tenemos que recurrir a datos de otra naturaleza, si
bien se expresan mediante valores numéricos. Se suelen emplear los puestos que ocupan las
puntuaciones en una serie ordenada: el orden de las calificaciones en una variable, la integración
de los estudiantes en las actividades de clase, etc. dada la dificultad de alcanzar una exactitud en
30
las puntuaciones alcanzadas, nos interesa conocer la posición, orden o rango que ocupan en una
serie ordenada de valores. Ante esos casos, debemos recurrir al coeficiente de correlación de
Spearman.
r=
Ejemplo: Queremos conocer la correlación que existe entre los niveles de comprensión oral
(X) y los de expresión escrita (Y) evaluados mediante una escala entre 0 y 50 que ha establecido
el propio docente. Los resultados son los siguientes:
Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
s
Var. X 45 39 50 33 47 25 40 30 20 40 25 15 23 35 17
Var. Y 38 35 45 30 50 28 35 35 15 40 32 15 14 30 12
r=
Como este valor de correlación 0’92 está por encima de 0’90 podemos decir que la relación
que se establece entre la compresión lectora y la expresión escrita es muy alta.
donde
a su vez
Ejemplo: En una investigación queremos conocer el grado de relación que existe entre el tipo
de estudios que han elegido 320 sujetos (Ciencias Sociales y Jurídicas, Ciencias y Humanidades)
y el nivel socioeconómico en que se ubica su familia (bajo, medio y alto).
Debemos comenzar con la determinación de las frecuencias esperadas en cada una de las 9
celdillas. En el caso de la fila 1 y columna 1 nos queda:
32
Alto 40 20 20 80
(25) (25) (30)
Total 100 100 120 320
A partir de los datos de la tabla anterior, ya podemos calcular el valor del estadístico Ji
Cuadrado (X):
Cuando buscamos el grado de relación que se manifiesta entre una variable cuantitativa,
continua o discreta y otra auténticamente dicotómica (de dos categorías), debemos recurrir al
coeficiente biserial-puntual. En realidad, nos encontramos ante una extensión del coeficiente de
correlación de Pearson. Tenemos dos fórmulas:
Se pondrán la diferencia de las medias en valores absolutos con el fin de evitar los valores
negativos para la correlación.
Ejemplo: Si queremos calcular el nivel de relación que existe entre el rendimiento académico
de los estudiantes de Matemáticas de un Curso de Secundaria, medido mediante la aplicación de
una prueba objetiva de 50 ítems, y el sexo. Los dates de la variable continua suelen agruparse en
intervalos de clase, de tal forma que construye la siguiente tabla:
Debemos calcular las puntuaciones medias de cada uno de los grupos y la media del total de
sujetos, la desviación típica del conjunto de puntuaciones, y la proporción de cada uno de los
grupos en relación al total. X es la marca de clase de cada uno de los intervalos de la distribución,
p la categoría femenina, y q la masculina.
33
Intervalo f f f X X·f X·f X·f X·f
1–7 2 1 3 4 8 4 12 48
8 – 14 6 4 10 11 66 44 110 1210
15 – 21 9 5 14 18 162 90 252 4536
22 – 28 11 13 24 25 275 325 600 15000
29 – 35 8 10 18 32 256 320 576 18432
36 – 42 3 6 9 39 117 234 351 13689
43- 49 2 4 6 46 92 184 276 12696
41 43 84 976 1201 2177 656111
Cálculos previos:
Según la escala de valoración, como se encuentra entre 0 y 0’20 se considera que la relación
entre las variables es muy baja, indiferente o despreciable.
Como 0’034 se encuentra muy próximo al 0, nos indica la ausencia de relación entre el tipo de
centro y el acierto en el ítem que se analizaba.
Se emplea en aquellos casos en que las dos variables son de tipo cuantitativo y continuo.
Consiste en dividir las puntuaciones de las dos variables en categorías. Su fórmula es la siguiente:
Para proceder a la dicotomización debemos buscar la puntuación que ocupa el lugar central
(mediana) en cada una de las series (entre el 10 y el 11):
- + Total
+ 3 (A) 7 (B) 10
- 7 (C) 3 (D) 10
Total 10 10 20
Primer procedimiento:
Como este valor está comprendido entre 5’389 y 5’595 el valor del coeficiente de correlación,
según la tabla, es 0’59.
35
Segundo procedimiento:
Según los valores de la tabla, podemos indicar que existe una correlación media, marcada o
notable, por estar comprendido entre 0’41 y 0’70.
Se utiliza cuando se trata de establecer la relación que existe entre una variable cuantitativa,
continua o discreta, y otra dicotomizada. Así, las dos variables son de naturaleza cuantitativa, una
de las cuales es presentada en escala de intervalo y la otra ha sido dicotomizada, y debajo de las
cuales subyace una distribución normal. Las ecuaciones de cálculo son:
Ejemplo: Queremos calcular el grado de relación que existe entre las puntuaciones de una
prueba de rendimiento, y el nivel de integración de los estudiantes. Por lo tanto, tenemos la
siguiente tabla:
Necesitamos conocer la puntuación media de cada uno de los grupos y la total, la desviación
típica del total de puntuaciones y los valores de p y q que son las proporciones de las dos
categorías dicotomizadas. A su vez, creamos la siguiente tabla:
Para establecer el valor de y, debemos tener en cuenta que se trata de una variable
cuantitativa que se distribuye siguiendo el modelo de curva normal (z). Por lo tanto, al conocer los
valores de p (área de la parte mayor) y q (área de la parte menor), buscamos en las columnas
correspondientes a estos valores y, en la misma fila, viene asociado el valor de y que es 0’3857
(por mayor proximidad a los dos valores). Así pues, las dos fórmulas de cálculo son las siguientes:
36
Según las tablas de interpretación de los coeficientes, al estar el valor 0’255 comprendido
entre 0’21 y 0’40 podemos indicar que se trata de una relación baja o moderada.
a es una constante equivalente al valor de Y’ cuando el valor de Xes igual a cero. b nos indica
la pendiente de esa recta de Y sobre X o coeficiente de regresión de Y sobre X. la pendiente
describe la razón del incremento de Y con respecto a X. Por su parte, X nos muestra el valor de la
variable predictora. Las puntuaciones en Y se refieren a la variable de criterio recogidas por
observación. Finalmente, la Y’ se refiere a las puntuaciones pronosticadas de la variable
dependiente después del ajuste de las puntuaciones Y en sujetos de otra muestra. La principal
ventaja del análisis de regresión se encuentra en que resume en una expresión simple gran
cantidad de información.
37
TEMA 7: APLICACIONES DE LA CORRELACIÓN: FIABILIDAD Y VALIDEZ DE LAS
MEDIDAS
1. Introducción.
En este tercer bloque de contenidos, nos vamos a centrar en las aplicaciones de la Estadística
a diversos campos relacionados con la investigación en educación. Vamos a analizar aquellos
aspectos relacionados con las características técnicas de los instrumentos de medida.
Seguidamente nos detendremos en el estudio de la validez en sus diferentes modalidades. Para
finalizar, ofrecemos unas directrices para el estudio y análisis de los elementos que configuran las
pruebas: índice de dificultad, de homogeneidad y de validez.
2. Estudio de la fiabilidad.
La fiabilidad de las medidas se identifica con la precisión, de tal forma que decimos que un
instrumento es fiable cuando mide algo con precisión, independiente de lo que se esté midiendo.
Por ello, una puntuación observada en un sujeto podrá descomponerse en dos partes: la que se
corresponde con la puntuación verdadera y el posible error que se comete. Se acepta que esos
errores los podemos dividir en sistemáticos y aleatorios. Los primeros vienen asociados a las
características internas del instrumento que afectaría a todo lo que se mida con él, mientras que el
error de tipo aleatorio es debido a aquellas variables cuyos efectos nos resultan desconocidos.
Cuando menor sea el error, más fiable es el instrumento. También podemos expresar la fiabilidad
como la constancia en las puntuaciones de los sujetos o bien la concordancia entre varias
mediciones sucesivas en una misma realidad.
Ejemplo: Para evaluar a unos estudiantes, se construye una prueba que consta de 20 ítems.
Realiza una primera aplicación a una muestra de 40 sujetos, transcurridos 22 días, vuelve a
aplicar la misma prueba a los mismo 40 sujetos.
La correlación entre la primera y segunda aplicación es de 0’96; así, cuando los valores están
38
por encima de 0’95 se considera que la prueba tiene una muy buena fiabilidad.
También conocido de las mitades, nos permite dividir la puntuación total del sujeto en una
prueba en dos partes (mitades), bien eligiendo como criterio los ítems pares y los impares o bien la
primera y la segunda mitad. En realidad obtenemos dos puntuaciones para cada sujeto.
Estableciendo una relación entre ambas partes nos dará el coeficiente de fiabilidad como
consistencia interna. Somos partidarios de utilizar este criterio mitades, y la división será más
equilibrada.
Sujetos X X X X X·X d d T T
1 12 13 144 169 156 -1 1 25 625
2 8 7 64 49 56 +1 1 15 225
3 11 10 121 100 110 +1 1 21 441
4 14 15 196 225 210 -1 1 29 841
5 7 6 49 36 42 +1 1 13 169
6 9 11 81 121 99 -2 4 20 400
7 13 11 169 121 143 +2 4 24 576
8 9 9 81 81 81 0 0 18 324
9 5 6 25 36 30 -1 1 11 121
10 13 12 169 144 156 +1 1 25 625
11 6 8 36 64 48 -2 4 14 196
12 11 9 121 81 99 +2 4 20 400
118 117 1256 1227 1230 +1 23 235 4943
39
Procedimiento de Spearman-Brown
Se basa en la correlación entre las mitades mediante el coeficiente de Pearson. Así pues:
Los subíndices son iguales, pues se trata de una correlación interna. r se calcula mediante el
coeficiente de correlación de Pearson entre las mitades, así llamamos X a las puntuaciones de los
ítems impares (1ª mitad), y X a la suma de los ítems pares (2ª mitad). Siendo:
Con el valor 0’93, esa prueba tiene una buena fiabilidad, por encima de 0’90.
Procedimiento de Rulon
Debemos calcular previamente tanto la varianza de las diferencias como la total. Como nos
encontramos ante muestras pequeñas (número de sujetos menor o igual a 30), se debe dividir
entre n – 1. Siendo:
Así pues:
Procedimiento de Guttman
Se basa en la varianza de las mitades, de tal forma que a menor valor de las varianzas más
elevada será la fiabilidad de la prueba. Se usa la siguiente fórmula:
Dado que trabajamos con los mismos datos, ya tenemos calculada la varianza total,
solamente debemos obtener los valores de las varianzas de las mitades (impares/pares):
Los tres procedimientos nos conducen al mismo valor del coeficiente de fiabilidad (0’93).
40
Procedimiento de Kuder-Richardson
Ejemplo: Tenemos una prueba de 30 ítems, pero suponiendo que son dicotómicos, y después
de calcular los valores de p y q de cada ítem, hemos obtenido el valor de p · q = 3’70.
El coeficiente resultante = 0’9145 nos indica que ese cuestionario o prueba alcanza un buen
nivel de fiabilidad. Los datos que nos aporta la salida del ordenador son: número de casos
contemplados en el cálculo, número de ítems y valor del coeficiente alfa. El programa nos facilita
dos tipos de tablas complementarias: la primera nos aporta, para cada uno de los ítems, la media,
la desviación estándar y el número de casos; la segunda presenta, para cada uno de los ítems, la
media de la escala de los ítems, la varianza de cada ítem, la correlación de cada uno de esos
ítems con la puntuación total de la prueba y el valor del coeficiente alpha para cada uno de los
ítems del cuestionario.
3. Estudio de la validez.
Un instrumento es válido cuando mide lo que dice medir y no otra cosa distinta. Ningún
instrumento va a ser absolutamente válido, sino que tendremos que matizar el grado y la
naturaleza de la validez.
a. La validez de contenido.
41
Será muy difícil que en ese instrumento estén recogidos todos los elementos relacionados con
ese objeto, por lo que debemos conformarnos con una parte. Esta muestra ha der ser suficiente y
representativa en función del universo de los ítems relacionados con el objeto de estudio. Así, la
suficiencia se relaciona con el número mínimo de elementos que debe incluir el instrumento, para
tener garantías de que comprende aquellos aspectos que son esenciales para el estudio. En
cuanto a la representatividad, exige un conocimiento profundo sobre el tema. En el caso de que la
relación entre las tareas no sea tan directa, es conveniente elaborar una tabla de especificaciones.
A este proceso se le denomina validación. Aunque no existe una técnica concreta para determinar
la validez de contenido, se puede recurrir a la tabla de especificaciones, y a la opinión de jueces o
expertos.
b. La validez predictiva.
Permite conocer la capacidad que tiene la prueba para avanzar las expectativas sobre futuros
hechos o fenómenos. Su cálculo se realiza estableciendo una correlación entre las puntuaciones
alcanzadas en la prueba a validar por un determinado número de sujetos y los obtenidos en otra
prueba denominada criterio. Para proceder a su cálculo estadístico es preciso determinar el
coeficiente de correlación entre ambas puntuaciones. En la gran mayoría de los casos,
recurriremos al coeficiente de correlación de Pearson.
0’88 muestra una elevada relación entre la prueba a validar y el criterio utilizado, por lo tanto,
las posibilidades de predicción son buenas.
c. La validez concurrente.
Es una modalidad predictiva, pues se calcula mediante una correlación entre las puntuaciones
de los sujetos en la prueba a validad y el criterio externo. La diferencia estriba en que ambas
42
mediciones se llevan a cabo en el mismo tiempo, es de utilización inmediata.
d. La validez de constructo.
e. La validez aparente.
La dificultad de los elementos depende del grupo de sujetos que lo conteste y se expresa
numéricamente por el número de ellos que los resuelven satisfactoriamente. Una buena
composición de una prueba debe contemplar la siguiente distribución de elementos:
Las fórmulas de cálculo varían dependiendo del tipo de respuesta que se solicite en la prueba.
Cuando se pretende evocar una respuesta, la calificación final será igual al número de aciertos de
cada sujeto, los errores no penalizan, por ello se calcula de la siguiente forma:
Donde A indica el número de sujetos que aciertan el ítem, y n el número de sujetos que lo
intentan. En el supuesto de que la prueba esté compuesta por ítems que buscan el reconocimiento
de la mejor respuesta, es decir, entre varias opciones elegir la correcta, los errores penalizarán.
Así, la puntuación de un sujeto es la siguiente:
Este índice oscilará entre 0 y 1, de tal forma que cuando el valor se aproxima a 1, será muy
sencillo y contestado acertadamente por la mayoría, mientras que si se aproxima a 0 el elemento
será muy difícil. Para proceder a la interpretación de los índices de dificultad de los ítems se
suelen emplear cinco categorías:
43
Muy fáciles: ID por encima de 0’75
Los elementos de una prueba se consideran válidos cuando realmente miden lo que dicen
medir y no otra cosa distinta. Ello exige la existencia de una clara relación entre las puntuaciones
obtenidas por los sujetos de la muestra en cada uno de los ítems y las alcanzadas en el criterio de
validez. Pueden usarse los coeficientes biserial-puntual (dicotómicos), el biserial, el tetracórico o el
Phi. Generalmente, se consideran satisfactorios aquellos ítems cuyos valores del IV sean iguales o
superiores a 0’20.
44
TEMA 8: MODELOS ESTADÍSTICOS Y PROBABILIDAD. LA CURVA NORMAL DE
PROBABILIDADES
1. Presentación.
En nuestro ámbito de reflexión, los modelos cumplen en gran medida con la importante
función de representar la realidad y, como tendremos ocasión de apreciar, nos van a permitir
adentrarnos en la comprensión de la realidad, acercarnos a su explicación y hasta tomar
determinadas decisiones en el campo de la prueba de hipótesis.
2. Introducción.
La siguiente definición está muy próxima al sentido que se atribuye al concepto de modelo:
“Esquema teórico, generalmente en forma matemática, de un sistema o de una realidad compleja,
como la evolución económica de un país, que se elabora para facilitar su comprensión y el estudio
de su comportamiento”.
3. Modelo.
Modelo es una representación de la realidad que puede ser muy variada: una representación
icónica (un cuadro, una escultura, etc.), matemática (fórmulas), analógica (esquemas, diagramas,
etc.). Todo modelo es una representación simplificada de la realidad a la que se refiere. Siempre
que se cumpla una que realidad es razonablemente bien representada por un modelo, las
cualidades de este, con una base teórico-científica, se pueden aplicar a aquella.
Si bien las predicciones a partir de modelos difícilmente pueden aplicarse a sujetos concretos,
sí pueden predecirse las tasas de incidencias de un determinado fenómeno en términos de
porcentajes y, siempre, debidamente moderadas a través de la probabilidad. En nuestro campo, si
somos capaces de establecer modelos suficientemente cercanos a la realidad, podremos hacer
predicciones, como el porcentaje de suspensos en el aula, o de niños violentos, o hiperactivos,
etc., en una determinada población escolar.
Se da una relación determinística entre C y r: conocido el valor del radio ® establecemos cuál
es el valor que, seguro, alcanzará C. Un modelo matemático clave en nuestro campo es la
campana de Gauss, cuya función es la siguiente:
Los modelos estadísticos parten de un supuesto: las relaciones entre ambos términos de la
igualdad no son determinísticas o necesarias, sino estocásticas. En consecuencia, toda predicción
asume un cierto riesgo de error que se considera aleatorio. Los errores aleatorios tienden a
compensarse y su magnitud puede estimarse. Si un modelo matemático como el siguiente
establece una relación funcional necesaria:
(Y, Y, Y, …, Y = f(Y, Y, Y, …, Y)
(Y, Y, Y, …, Y = f(Y, Y, Y, …, Y) + e
4. Probabilidad.
a. La Estadística.
b. La probabilidad.
A los fenómenos determinísticos no se les aplica la probabilidad: son fenómenos que ocurren
porque tienen que ocurrir. Pero los fenómenos aleatorios, antes de que ocurran pueden ser más o
menos probables. Antes de que ocurra un fenómeno podemos estimar las probabilidades de que
ocurra o de acertar una predicción; se trata de la probabilidad a priori. Cuando los fenómenos ya
han ocurrido, podemos establecer la probabilidad de ocurrencia de tal fenómeno. En este caso a
posteriori, la probabilidad se calcula empíricamente y se traduce en la frecuencia relativa con la
que ocurre tal fenómeno cuando se repite un elevado número de veces en las mismas
condiciones.
La probabilidad a priori se establece sobre la base del número de casos favorables dividido
por el de casos posibles. Si en la Lotería Nacional se juega con 90000 números y una persona
juega un número, la probabilidad a priori de que le corresponda el premio mayor será de 1/90000.
Para muchos fenómenos no tenemos claro cuáles son las probabilidades a priori, pero podemos
llegar a establecerlas a partir del estudio de la realidad. Cuando estudios reiterados vienen a
arrojar resultados compatibles, es posible establecer la probabilidad a priori de tal fenómeno. Y, a
partir de ahí, hacer estimaciones.
c. Cálculo de la probabilidad.
46
Espacio muestral es el conjunto de todos los resultados posibles de un fenómeno. Puede ser
establecido fácilmente en los casos de los dados o similares, acudiendo a la teoría de conjuntos.
También mediante diagramas en los que se presentan todas las combinaciones posibles. Cuando
dos conjuntos, A y B, no tienen elementos en común la probabilidad del conjunto A o del conjunto
B es igual a las probabilidades combinadas de A y B.
La mutua exclusión hace que dos acontecimientos sean mutuamente excluyentes cuando su
intersección sea un conjunto vacío. La independencia supone que la probabilidad de que ocurra el
fenómeno conjunto es igual al producto de las probabilidades de cada uno por separado:
Una variable cuantitativa es discreta cuando no puede adquirir todos los valores posibles, es
decir, cuando el conjunto de valores posibles es numerable. Así, mientras las calificaciones de los
alumnos pueden admitir infinitos valores entre 0 y 10, el número de los alumnos de una clase solo
admite valores enteros. En el primer caso, la variable aleatoria es continua; en el segundo,
estamos ante una variable aleatoria discreta. Las variables cuantitativas continuas admiten un
número “no numerable” de casos o valores. Si representáramos una serie de datos mediante
histogramas de base igual a 1, podríamos encontrarnos con cuyos datos cuya base fuera 0’5 o 0’3
o 0’1; incluso sería posible que la base del intervalo fuera 0’03 o 0’001… hasta llegar a tener como
base un punto. Por tanto, habríamos pasado de una serie de rectángulos de base más o menos
ancha a una curva que uniría los infinitos puntos posibles de esa distribución. Esas sucesivas
representaciones gráficas tendrían determinadas cualidades, que nos van a permitir establecer: la
función de densidad de probabilidad y la función de distribución. Esas cualidades son:
47
Las representaciones tienen siempre valores positivos.
En el caso de las variables cuantitativas discretas, el área que quede entre dos valores, A y B,
marcados en la misma, nos indica la proporción de casos del total. En el caso de las variables
cuantitativas continuas, es espacio traduce la probabilidad de que tal variable tome esos valores.
La función de densidad de probabilidad de una variable aleatoria continua cumple estas dos
condiciones:
Según la primera, tal función es no negativa; en la segunda debemos entender que el área
total es igual a la unidad.
Esta función nos permite establecer la probabilidad de que X tome valores iguales o menores
que x.
La función es no decreciente.
Conocida también como Campana de Gauss, y creada por Carl Friedrich (1777-1855). Se
pueden apreciar los porcentajes de casos entre dos valores determinados:
Entre : 68%.
Entre : 95%.
Entre : 99’99932%.
Nos interesa resaltar que las variables aleatorias a las que le es aplicable se distribuyen
según X con n grados de libertad (g. l.).
48
Los g. l. en cada caso son n – 1, esto es, el número de casos menos 1. El último viene
condicionado por los valores de los anteriores. Según aumenta el número de los g. l., la
distribución de X se aproxima progresivamente a la distribución normal. Las tablas de X nos
ofrecen valores de probabilidad hasta 30 g. l. A partir de ahí, X se distribuye con un valor de:
La importancia de esta función radica en sus aplicaciones como prueba de bondad de ajuste y
como prueba de independencia. También se puede utilizar para obtener el grado de asociación
entre dos conjuntos de variables atributos ya que es necesario para calcular C o coeficiente de
contingencia:
Conocida también como t de Student, fue creada por W. S. Gosset en 1908. Siendo Y y Z dos
variables aleatorias independientes, Y con una distribución Chi cuadrado con n grados de libertad,
y Z con una distribución normal estándar (0’1), entonces la distribución de la variable:
Fue creado por Sir Ronald Fisher. F, que no es sino el cuadrado de t, se puede aplicar,
además a contrastes con tres o más pares de medias en los diseños con tres o más grupos. F nos
informa de si se dan o no diferencias estadísticamente significativas entre varios grupos de
medias. En caso afirmativo, es preciso averiguar entre qué dos partes de medias se concreta tal
diferencia, razón por la cual debemos continuar el trabajo mediante las denominadas pruebas a
posteriori. Su fórmula es:
Solo tiene sentido utilizar el modelo cuando el fenómeno al que lo apliquemos se conforme al
mismo.
Calificaciones Frecuencias
10 74
9 175
8 219
7 340
6 528
5 750
4 370
3 210
2 96
1 43
0 9
Estos valores se acercan en mayor medida a una campana que los anteriores. La cuestión es
la siguiente: ¿podemos aplicar a estos datos las propiedades de un modelo teórico como la
campana de Gauss? Esta cuestión nos ayudará a resolver la Estadística mediante la prueba de
bondad de ajuste. Si los datos empíricos se ajustan razonablemente al modelo, esto es, si las
discrepancias son compatibles con las esperables por puro azar, consideraremos estos datos
como normales, y les aplicaremos todas las propiedades del modelo. En caso contrario, esta
actuación no estaría justificada.
a. El modelo.
Debemos dejar claro que no hay una única curva normal, sino una por cada par de valores de
la media y desviación típica. Eso nos conduce a una familia de curvas normales, pero que
cumplen con una serie de características:
El valor máximo de la ordenada corresponde a la media del grupo, y por tanto, a una
puntuación típica z = 0.
La curva es simétrica respecto de la media, dado que coinciden media, mediana y moda.
La curva es asintótica, esto es, por mucho que se acerque al eje de abscisas, nunca llegará
a cortarlo.
La prueba de Ji cuadrado valora las discrepancias entre las frecuencias empíricas y las
50
teóricas según un determinado patrón o modelo. Si las discrepancias entre unas y otras no fueran
estadísticamente significativas a un determinado valor de confianza, admitiríamos que los datos
empíricos y el modelo o patrón son una misma cosa: no podríamos rechazar la hipótesis de
nulidad. Estaríamos admitiendo que las discrepancias encontradas pueden explicarse por puro
azar como consecuencia de los errores de muestreo.
X puede ser aplicada para valorar la discrepancia entre valores empíricos y valores teóricos
de muy diferente naturaleza. Para decidir si una distribución empírica, por ejemplo, la de los datos
de la tabla anterior, es compatible con la curva normal, deberemos aplicar la fórmula
correspondiente, que nos permite establecer la magnitud de las discrepancias entre frecuencias
observadas o empíricas (f) y frecuencias esperadas o teóricas (f) según el modelo.
Este estadístico se distribuye según la distribución Xpara un valor igual al de filas menos 1
cuando µ y son conocidas, y con –3 en caso de ser estimadas.
Ejemplo: Procederemos a comprobar si los datos de la tabla anterior son compatibles con el
modelo normal para un nivel de confianza del 99%.
X f L z p(z) p f (f – f (f – f) (f – f)/f
0’0055 15’48 15’48 239’54 15’48
10 74 10’5 2’54 0’9945 0’0157 44’18 29’82 889’23 20’13
9 175 9’5 2’026 0’9788 0’0443 124’66 50’34 2534’12 20’33
8 219 8’5 1’51 0’9345 0’0956 269’02 50’02 2502’00 9’3
7 340 7’5 0’99 0’8389 0’1563 439’83 99’83 9966’03 22’66
6 528 6’5 0’475 0’6808 0’1968 553’79 25’79 665’12 1’2
5 750 5’5 -0’04 0’4840 0’1963 552’39 197’61 39049’71 70’69
4 370 4’5 -0’56 0’2877 0’1454 409’16 39’16 1533’51 3’75
3 210 3’5 -1’07 0’1423 0’0864 243’13 33’13 1097’6 4’51
2 96 2’5 -1’59 0’0559 0’0385 108’34 12’34 152’27 1’41
1 43 1’5 -2’11 0’0174 0’0132 37’14 5’86 34’34 0’92
0 9 0’5 -2’625 0’0043 0’0043 12’10 3’10 9’61 0’79
N = 2814 2814 171’17
X son las puntuaciones obtenidas por el alumnado, f las frecuencias observadas, L los límites
superiores de cada intervalo, z las puntuaciones típicas de tales límites, p(z) la probabilidad que
corresponde a tales puntuaciones típicas, f las frecuencias esperadas o teóricas. Para la
determinación de f debemos hacer las siguientes operaciones:
Buscar en las tablas de la curva normal la probabilidad que corresponde a valores iguales o
menores que z, “Área de la parte mayor” cuando z es positiva, y “área de la parte menor”
cuando z es negativa.
Calcular, para cada intervalo, su propia probabilidad, restando de su valor p(z) el mismo
valor en el intervalo anterior (columna p).
La columna z no s exige los cálculos previos de la media y la desviación típica; sus valores
son los siguientes:
51
El resultado de nuestros cálculos es:
Las tablas de Ji cuadrado, para un nivel de confianza del 99%, y (11-1) g. l. nos da un valor de
23’209. Para 11 – 3 g. l., el valor es de 20’090. Se da una discrepancia claramente mayor de la
esperada por efecto del azar: los datos empíricos no son compatibles con el modelo de la curva
normal de probabilidades. Intuitivamente, comprobaremos esto con facilidad comparando las dos
distribuciones:
52
TEMA 9: LOS BAREMOS O NORMAS. MUESTREO. APLICACIONES.
1. Presentación.
Hay muchos otros momentos en que la hipótesis presenta aplicaciones de notable relieve e
importancia. Una de ellas es la relativa al establecimiento de la calidad de los datos a recoger; y
otra está centrada en la interpretación de los valores que nos ofrecen tales instrumentos.
2. Introducción.
3. Normas o baremos.
b. La regla de medida.
Se debería cuidar de decidir con rigor si cada cuestión tiene la misma dificultad para poder
valorar el éxito o fracaso por igual si todos los errores pueden tener la misma penalización o los
hay que deberían restar puntos en mayor medida. Estas decisiones previas pueden hacer variar
notablemente los posibles valores de una prueba y, en consecuencia, el valor de una puntuación
concreta, lo que dificulta su interpretación directa.
No todos los objetos a medir pueden serlo con la misma precisión, fiabilidad y validez. Y, su
naturaleza decide hasta qué punto los valores obtenidos pueden situarse en uno u otro tipo de las
denominadas escalas de medida. En todos los casos, la “distancia” entre la realidad u objeto a
medir y los reactivos a utilizar para hacerlo es muy grande; estamos ante lo que se denomina
“constructo”, es decir, construcciones en torno a algo que nada tiene de visible, pesable, audible…
y sí de supuesto. La persona que construye el instrumento para medirlo supone que tal variable se
define como él lo hace y que el reactivo que propone es una manifestación de esa definición.
Es frecuente que estos constructos estén integrados por aspectos o dimensiones diferentes;
en tal caso, es necesario asegurar la presencia adecuada, equilibrada y ponderada de reactivos
de cada aspecto o dimensión. Cuando se recogen datos con tales instrumentos y asignamos
puntuaciones a las respuestas dadas por los sujetos, estamos ante unos números tan dóciles que
se dejan hacer lo que sea, en concreto, se dejan operar como si fueran auténticos números con
todas sus propiedades. Y ahí puede estar el gran error: que teniendo tales números ciertas
53
cualidades o características, los manejemos como si tuvieran otras más amplias y ricas.
La medida siempre va a acudir a reactivos familiares para las personas a las que se destina el
instrumento y lo que a los 6 años parece adecuado, a los 30 puede parecer una burla por infantil.
Esto da a lugar a lo que se conoce como falta de validez aparente. Todos estos aspectos tienen
que ser tenidos en cuenta para que los números arrojados por la aplicación de los instrumentos de
medida sean válidos y podamos proceder adecuadamente a su interpretación.
Fijar el tamaño de la misma, de forma que sea suficiente para que puedan manifestarse las
características que definen la población.
Disponemos de tablas que nos permiten fijarlo en función de una serie de factores a los que
nos referiremos más adelante.
El que ofrece mayores garantías a priori es el muestreo aleatorio simple, el cual permite
establecer la magnitud de los errores muestrales, con lo que es posible conocer los límites entre
los que se encontrará el valor de la población. Así pues, tamaño suficiente y selección aleatoria
son las dos condiciones fundamentales para construir una norma o baremo.
La denominada Edad Mental (EM) es el ejemplo más conocido. Se trata de que realicen la
prueba o cumplimenten el instrumento de medida de que se trate unas muestras imparciales y de
adecuado tamaño para cada edad o grupo de edad cronológica. La puntuación de los sujetos de
cada edad se convierte en representativa de la misma. En adelante, las puntuaciones de cualquier
sujeto, tenga la edad cronológica (EC) que tenga, se comparan con las del baremo o norma
resultante y se le asigna la edad mental correspondiente. Cuando la puntuación obtenida
corresponde a una edad mental superior, estamos ante personas que llevan un desarrollo
superior, ocurriendo lo contrario en el caso de que su puntuación corresponda a edades inferiores
a la cronológica.
Una alternativa consiste en seleccionar los ítems resueltos por cada grupo de edad; cuando
un nuevo niño resuelve los ítems de una edad determinada se le asigna la edad correspondiente.
La edad de base es aquella que corresponde a la resolución de todos los ítems de la misma; la
edad mental final se obtiene sumando a la misma determinado número de meses en función de
54
los ítems de edades superiores resueltos correctamente. La edad mental no es constante a lo
largo del tiempo, por lo que, con el paso de los años, las diferencias en edad mental en relación
con la edad cronológica tienden a reducirse. Para evitar en lo posible este efecto se utiliza el
Cociente Intelectual (CI) que consiste en dividir dos cantidades: la EM y la EC. El resultado
obtenido se suele multiplicar por 100 a fin de eliminar la presencia de decimales. La situación de
normalidad se da con valores próximos a CI = 100. Por lo general, este tipo de normas no es
aplicable más allá de los 14 o 15 años.
b. Normas cuantiles.
Entre las que destacaremos las cuartiles, deciles y centiles o percentiles, esto es: cuantiles de
orden cuatro, diez o cien. Entendemos por cuantil cada una de las partes en que puede dividirse
una serie ordenada de puntuaciones. La mediana es el cuantil 1 de orden 2, se trata de aquella
puntuación que divide la serie en dos partes con un número de frecuencias igual, en concreto el
50% de cada una. Los cuantiles más frecuentemente utilizados son los de orden 4 o cuartiles (Q,
Q, Q), que son aquellas puntuaciones que dejan por debajo de sí el 25, 50 y 75% delos casos. Los
deciles o cuantiles de orden 10 (d, d, d, d, d, d, d, d, d), que dejan cada uno por debajo de sí el 10,
20, 30, …, 90% de los casos. Y, los centiles o percentiles, cuantiles de orden 100 –c– cada uno de
los cuales deja por debajo de sí el 1, 2, 3, …, 97, 98, 99%.
X = 20, 20, 22, 40, 21, 16, 20, 20, 20, 24, 13, 26, 17, 29, 11, 22, 26, 23, 26, 11, 14, 26, 26, 28,
14, 22, 20, 14, 32, 30, 28, 22, 17, 26, 16, 28, 25, 17, 31, 7, 15, 29, 16, 23, 20, 19, 18, 15, 20, 23,
35, 22, 23, 23, 20, 28, 22, 23, 19, 20, 30, 20, 20, 19, 20, 36, 9, 15, 12, 21.
X = 40, 36, 35, 32, 31, 30, 30, 29, 29, 28, 28, 28, 28, 26, 26, 26, 26, 26, 25, 24, 23, 23, 23, 23,
23, 23, 22, 22, 22, 22, 22, 22, 21, 21, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 19, 19, 19,
18, 17, 17, 17, 16, 16, 16, 15, 15, 15, 14, 14, 14, 13, 12, 11, 11, 9, 7.
El rango total de la serie va de 7 a 40 puntos, esto es 33, por lo que en total hay 34 posibles
puntuaciones diferentes. Si hacemos 9 intervalos, un número razonable, cada intervalo tendrá una
amplitud de 4, lo que nos da 36 puntuaciones, por lo tanto, habrá dos puntuaciones de más de las
posibles.
Intervalo X f f % z z
37 – 40 38’5 1 70 100 2’75
33 – 36 34’5 2 69 98’57 2’12 2’19
29 – 32 30’5 6 67 95’71 1’48 1’72
25 – 28 26’5 11 61 87’14 0’84 1’13
21 – 24 22’5 15 50 71’43 0’21 0’57
17 – 20 18’5 20 35 50 -0’425 0
13 – 16 14’5 10 15 21’43 -1’06 -0’79
9 – 12 10’5 4 5 7’14 -1’70 -1’465
5–8 6’5 1 1 1’43 -2’33 -2’19
N = 70
Media:
1482’8 : 70 =
21’18
S = 6’296
Mediana = ½ · 70 = 35
Q = 2/4 · 70 = 35
d = 5/10 · 70 = 35
p= 50/100 · 70 = 35
Por tanto, al límite inferior del intervalo en que se encuentran estos cuatro cuantiles, 16’5,
deberemos sumarle 4, con lo que la mediana, el segundo cuartil, el quinto decil y el quincuagésimo
percentil será 20’5 puntos, que es el límite superior de ese intervalo.
El cuartil 3 ocupa el lugar 52’5 en la serie de frecuencias acumuladas: ¾ · 70 = 52’5. Por tanto,
está en el intervalo 25 a 28, cuyo límite inferior es 24’5. La regla de tres será:
A los 2’5 (que van desde 50 acumulados hasta los 52’5) le corresponden x
Pues bien, x = 0’91, que habrá que sumar a los 24’5 del límite inferior: 25’41.
El centil 95 ocupa el lugar 66’5 en la serie de frecuencias acumuladas: 95/100 · 70 = 66’5. Por
tanto, está en el límite 29 a 32, cuyo límite inferior es 28’5. La regla de tres será:
A los 5’5 (que van desde los 61 acumulados hasta los 66’5) le corresponden x
Pues bien, x = 3’67, que habrá que sumar a los 28’5 del límite inferior: 32’17.
56
70 = D 24’23 24
60 = D 22’36 22
50 = DQMed. 20’50 20
40 = D 19’96 20
30 = D 17’70 18
25 = Q 17 17
20 = D 16’10 16
10 = D 13’30 13
5 11 11
1 8’5 8
Normas típicas
Basta analizar la última tabla para apreciar que las puntuaciones centiles están muy cerca
unas de otras en el centro de la tabla mientras las distancias entre valores extremos son extremos
son progresivamente mayores. Las puntuaciones típicas o z indican la distancia de cada
puntuación directa hasta la media del grupo medida en unidades de desviación típica. Siendo su
fórmula:
Los sujetos con puntuaciones superiores a la media tienen valores de z positivos, y negativos
en caso contrario.
57
d. Puntuaciones típicas normalizadas.
Cuando nuestro datos empíricos son compatibles con la distribución modelo normal, es buena
idea normalizar la distribución, y en consecuencia, normalizar las puntuaciones típicas (z). Las
puntuaciones z se apartan tanto más de las z normalizadas cuanto menos se parezca la
distribución empírica de la distribución ideal: el modelo de la curva normal. En consecuencia,
aquellas no serán sin aproximaciones o estimaciones de estas. Podemos obtener una puntuación
típica normalizada mediante las tablas estadísticas correspondientes. Para ello calculamos el
porcentaje de casos que se encuentran por debajo –o por encima– de cada puntuación; a
continuación se busca el porcentaje en la tabla de áreas de la curva normal y se identifica la z
normalizada correspondiente.
Media: 21’5.
e. Estaninas y pentas.
En los EE. UU. se utiliza frecuentemente una escala de 10 rangos, creados a partir de 9
puntos –estanina = contracción de standard nine– cuya media es de 5 y su desviación típica de 2.
En España se utiliza con cierta frecuencia una escala de 5 rangos, denominada pentas, que
permite dividir la serie en 5 grandes bloques, cuyos límites en puntuaciones z se aprecian en la
siguiente tabla. La escala de pentas tiene como media 3 y como desviación típica 1.
Eneatipos/estaninos X Pentas X
58
9º 1’75 32’51
8º 1’25 a 1’75 29’36 a 32’51 5º 1’5 30’935
7º 0’75 a 1’25 26’22 a 29’36 4º 0’5 a 1’5 24’645 a
6º 0’25 a 0’75 23’07 a 26’22 3º -0’5 a 0’5 30’935
5º -0’25 a 0’25 19’93 a 23’07 2º -1’5 a -0’5 18’355 a
4º -0’75 a -0’25 16’78 a 19’93 1º -1’5 24’645
3º -1’25 a -0’75 13’64 a 16’78 12’065 a
2º -1’75 a -1’25 10’49 a 13’64 18’355
1º -1’75 10’49 12’065
Eneatipo: 5 +2z
Penta: 3 + z
Ejemplo: Siguiendo con los datos originales, el sujeto cuya X = 33, tendremos:
Como puede apreciarse, la primera escala crece –o decrece– a razón constante de 3’15
puntos (la mitad del valor de s), mientras en la segunda lo hace justamente a razón de 6’30 (el
valor de s).
6. El muestreo.
Una muestra es una parte, un subconjunto, de una población o universo. Una muestra de
calidad es aquella que representa fielmente el conjunto de características de la población. Aun en
la situación de que trabajáramos con todos los casos, debemos ser conscientes de que nuestro
interés es aplicar los resultados a nuevos sujetos en ocasiones posteriores. Una muestra debe
cumplir con ciertas condiciones: adecuado tamaño y selección imparcial. Ambas notas dan lugar a
muestras representativas, esto es, a muestras que reflejan con fidelidad las características de la
población.
a. Tamaño de la muestra.
Para la fijación del tamaño de las muestras deberemos atender, en primer lugar, al tamaño del
universo, considerado como infinito a partir de 100000 casos; junto a ello, se deben tomar en
consideración otras tres características:
Una población se toma como finita si no supera las 100000 unidades. En este caso, se da una
relación entre el tamaño de la población y el de la muestra, algo que no ocurre con tamaños
59
infinitos, donde no aparece el valor de N.
El nivel de confianza se suele fijar en el 95, 99, o 99’9%; admitiendo la distribución normal, y
conociendo como conocemos la curva normal de probabilidades, este dato se traduce en las
fórmulas en valores de 1’96, 2’58 o 3’2 desviaciones típicas. En cuanto al error de estimación, se
fija en términos de porcentaje. Obviamente, cuanto menor error esté dispuesto a aceptar, mayor
tamaño deberá tener la muestra. Se debe tomar en consideración la proporción en que una
característica se encuentra en la población. Con frecuencia se desconoce este dato, en cuyo caso
lo habitual es considerar que tal característica se da al 50% de la población, lo que representará
un mayor tamaño para la muestra. En el caso de que la población estuviera organizada en
diversos grupos, esta decisión debería aplicarse a cada uno de ellos. Para el cálculo del tamaño
de la muestra contamos con dos fórmulas diferentes, según el tamaño de la población de origen:
Ejemplo: Aplicaremos ambas fórmulas al caso de una población con 108000 sujetos, en el
primer vaso, y con 35600 en el segundo, tomando un nivel de confianza de 99% y un error de
estimación del 3%. En el primer caso, desconocemos la proporción en que se encuentra la
característica en la población; en el segundo caso sabemos que es de 35 a 65.
En el segundo caso:
b. Procedimientos de selección.
c. Procedimientos de muestreo.
Kerlinger cita al efecto el muestreo por cuotas. Cuando una determinada población está
60
estratificada atendiendo a criterios como nivel de estudios, clase social, religión, etc., a fin de
contar con aportaciones que representen a los diferentes estratos poblacionales.
d. El error muestral.
La propia teoría de la probabilidad nos va a permitir estimar la magnitud de tal error muestral
para un determinado nivel de confianza en nuestras afirmaciones. La magnitud del error muestral
en cada caso puede ser calculada a través de dos fórmulas: una se aplica a muestra finitas
(<100000), y la otra para muestras estadísticamente infinitas.
Ejemplo: Siguiendo con los datos anteriores, para poblaciones de 108000 y 35600, los errores
muestrales, para el caso de p = q = 50 en el primer caso, y de p = 35 y q = 65 en el segundo,
tendríamos:
Estos valores nos permiten establecer un intervalo de confianza, esto es, un conjunto de
puntuaciones entre las cuales consideramos que se encontrará la verdadera puntuación de la
población. Asumiendo que en una muestra de 1849 adultos, de una población de 108000 que no
obtuvieron el graduado en ESO, distribuida normalmente, el 46% fueron mujeres, podemos crear
un intervalo de confianza, para una probabilidad del 99%, sumando y restando a ese 46% el valor
del error muestral, esto es:
Cuanto menor sea el error muestral, menor será el intervalo de confianza. En nuestro caso, el
error muestral sería menor si el nivel de confianza fijado hubiera sido del 95%, y mayor si nos
hubiéramos decidido por el 99’9%. Con la pregunta: ¿en la población, hay más varones que
mujeres que no obtienen ese graduado? A simple vista, sí, ya que 46% es menor que el 54% de
varones. Sin embargo, para comprobarlo estadísticamente debemos aplicar a este 54% el error
muestral; al hacerlo podríamos encontrarnos con que el intervalo de confianza se superpusiera
con el de las mujeres, lo que nos indicaría que es posible que en la población no hubiera
diferencias reales. Veamos:
Ahora sí que podemos afirmar que, en toda la población, con una probabilidad del 0’ 99 (nivel
de confianza del 99%) el número de sujetos que no obtuvieron el graduado es superior entre los
varones que entre las mujeres. ¿Qué pasaría si, en lugar del 46% de las mujeres hubiera sido el
48% frente al 52% de varones? En tal caso, el intervalo de confianza iría de 45 a 51 en el primer
caso, y de 49 a 55 en el segundo. Está claro que ambos intervalos se superponen y no podríamos
dar por bueno, admitiendo ese grado de error, que hubiera diferencias estadísticamente
significativas con una probabilidad del 0’99.
61
TEMA 10: ESTIMACIÓN DE PARÁMETROS. ERRORES DE ESTIMACIÓN
1. Introducción.
Población: conjunto de todos los elementos que cumplen una o varias características o
propiedades. Los valores numéricos que describen a la población se denominan
parámetros. Normalmente los valores paramétricos son desconocidos. Por esta razón se
trabaja con muestras a partir de las cuales se trata de estimar el valor de los parámetros.
Muestra: subconjunto de los elementos de una población. Los índices numéricos que
describen a las muestras se denominan estadísticos. La técnica para seleccionar a los
sujetos que entrarán a formar parte de la muestra se denomina muestreo. Siempre que sea
posible, se debe utilizar el muestreo aleatorio porque nos da mayores garantías de que la
muestra sea representativa de la población.
Carencia de sesgo: sesgo igual a cero. La propiedad de insesgamiento nos garantiza que
las estimaciones que hagamos con el estimador se encuentran alrededor del parámetro en
cuestión.
62
va siendo mayor.
4. Distribución muestral, error muestral y error típico: estimación del parámetro media
aritmética.
Al igual que la distribución normal, hay otra serie de distribuciones teóricas como la binomial,
la t de Student, la multinomial, la F, etc., en las que se conoce la probabilidad de aparición
asociada a todos los posibles valores. Estas distribuciones son como un polígono de frecuencias
suavizado: frecuencias relativas en el eje de ordenadas y puntuaciones en el eje de abscisas.
Pues bien, existe un concepto teórico de distribución (función de densidad de probabilidad) que es
la distribución muestral y que puede definirse como la distribución de un estadístico en el
muestreo.
El error muestral nos da una idea de la precisión de nuestra inferencia estadística. Cuanto
más grande sea el error muestral, menor será nuestra precisión en la estimación y menor será la
utilidad de la estimación. Habremos comprendido ya que una distribución muestral tiene
variabilidad. Es decisivo en este punto recordar qué índice descriptivo expresa la variabilidad:
efectivamente, la desviación típica. Por tanto, una distribución muestral tendrá su propia
desviación típica. A la desviación típica de la distribución muestral se le denomina error típico. Es
una medida de dispersión con respecto al parámetro, es decir, nos indicará la dispersión de las
medias de las infinitas muestras aleatorias extraídas respecto a la media poblacional. ¿Cómo
podremos conocer este dato? Lo estimaremos y nos basaremos en los datos de la muestra. En el
caso de la distribución muestral de medias, esta es la fórmula:
63
encontramos directamente en las tablas de la curva normal buscando en el área de la parte menor
0’025. De modo análogo, la z para un nivel de confianza del 99% es 2’57.
Ejemplo: Supongamos que hemos aplicado un test de cociente intelectual a una muestra
aleatoria de 1000 adolescentes de la Comunidad de Madrid para estimar el cociente intelectual
medio de la población de adolescentes. Obtenemos una = 105 y una s = 10. Para estimar el
valor del parámetro µ (intervalo confidencial) con un nivel de confianza del 99%, haríamos lo
siguiente:
De la misma forma que estimamos el parámetro media aritmética, se pueden estimar otros
como la varianza, el coeficiente de correlación, la diferencia de medias, etc. Para calcular el error
muestral debemos conocer la distribución muestral del estadístico que se trate y consultar la
fórmula específica para calcular el error típico.
Cuando contamos con muestras pequeñas (N < 30), la distribución muestral de la media sigue
la distribución t de Student. La distribución t varía en función del número de sujetos, aunque se
trata también de una distribución simétrica y asintótica. Cuando N tiende a infinito, la distribución t
tiende a la distribución z.
Ejemplo: Pongamos que en el ejemplo anterior, con los mimos datos, en vez de tener una
muestra de 1000 sujetos, tenemos una de 25.
En este caso, al ser una muestra pequeña, corresponde a la distribución muestral t para N – 1
grados de libertad, donde la y el , por lo que el
La fiabilidad absoluta está más directamente relacionada con lo que conocemos como error
típico de medida y, en consecuencia, con la teoría de la inferencia estadística. Su utilidad
fundamental es la estimación de la puntuación verdadera de un sujeto en un instrumento o, dicho
de otra forma, entre qué puntuaciones es más probable que se encuentre su verdadera
puntuación. De nuevo, se trata de hallar el intervalo de confianza en el que es probable que se
encuentre la verdadera puntuación del sujeto en la prueba. Sabiendo que la distribución muestral
es normal, necesitamos conocer el error típico de medida, que en este caso es el siguiente:
65
Se trata de calcular el intervalo de confianza para la correlación de Pearson. Sabemos que la
distribución muestral de la correlación de Pearson se asemeja a la distribución normal con el
siguiente error típico:
Donde,
Ejemplo: Supongamos que tenemos una muestra de 20 sujetos y obtenemos una correlación
de t = 0’35. ¿Cómo será la correlación en la población con un nivel de confianza del 95%?
Aplicando la fórmula, obtenemos que el error típico será de y la sabemos que es 1’96, luego el
error muestral es igual a 0’39. La correlación en la población estará entre los límites -0’04 y 0’74.
Cuanto más pequeña sea la muestra, más imprecisa será nuestra estimación.
Una correlación no significativa es una correlación que no podemos generalizar sin más.
Con los datos que tenemos no podemos afirmar que en la población hay una relación,
aunque sea pequeña, y distinta a cero.
La estimación del parámetro diferencia de medias (µ - µ) nos acerca a la lógica del contraste
de hipótesis. Si establecemos el intervalo de confianza a partir del estadístico diferencia de
medias, obtendremos los límites confidenciales entre los cuales es más probable que se encuentre
la diferencia de medias en la población. Si este intervalo de confianza incluye la puntuación cero,
entonces dicha diferencia es compatible con una diferencia de medias igual a cero y, en
consecuencia, podremos interpretar que dicha diferencia es estadísticamente igual a cero.
Donde,
66
Y, para muestras pequeñas e independientes (también utilizable para muestras grandes),
Ejemplo: Supongamos que los datos que tenemos en el problema son estos:
Harvard Alcalá
=110 =105
s = 10 s =12
N = 90 N = 120
Por tanto,
Lo único que varía en este caso es el error típico. En este caso, el error típico de
diferencia de proporciones es
El contraste de hipótesis sigue esta misma lógica inferencia. De hecho, todo se reduce al
contraste de una hipótesis estadística, denominada hipótesis nula, según la cual se plantea una
distribución muestral que indica la no existencia de diferencias estadísticamente significativas. Es
decir, es una distribución muestral que indica que todas las diferencias encontradas entre dos
67
sucesos se deben simplemente al azar.
La hipótesis nula indica que la diferencia entre estas dos medias aritméticas no es
estadísticamente significativa porque se puede explicar por efecto del azar. Se establece una zona
en la que es más probable que las diferencias encontradas entre las medias de las muestras se
deba efectivamente a los efectos del azar: es la zona de aceptación (más bien, de no rechazo) de
la hipótesis nula (H). Por tanto, al no rechazar la H estamos deduciendo que las muestras que
comparamos pertenecen a la misma población, y que si hemos encontrado una diferencia
empírica, esta se debe probablemente a los efectos de la selección aleatoria de dichas muestras.
Además, establecemos otra zona en la que las diferencias entre las medias son de un tamaño tal
que resultaría muy improbable que fueran aleatorias, por lo que dicha diferencia la atribuimos a la
variable independiente. En este caso, expresamos la distribución muestral de la hipótesis nula del
siguiente modo:
Si resulta que nuestra diferencia empírica de medias se encuentra dentro del intervalo de
confianza de la distribución muestral conforme a H, diremos que nuestra diferencia de medias es
compatible con una diferencia de medias igual a cero y, por tanto, que se trata de una diferencia
estadísticamente no significativa o igual a cero.
Lo que haremos es calcular un estadístico (t, z, etc.) que nos dirá cuántas desviaciones típicas
(errores típicos) se aleja nuestra diferencia de medias de una diferencia de medias igual a cero.
Un valor grande de z indicará una probabilidad pequeña de que nuestra diferencia de medias
pertenezca a una población cuya diferencia de medias sea igual a cero. Es importante el tamaño
del efecto, que se refiere a la relevancia práctica de los resultados, a la interpretación de si se
puede considerar que la diferencia encontrada entre las medias es grande o pequeña,
independientemente de que sea o no significativa. Los intervalos de confianza y el tamaño del
efecto proveen una lectura más práctica de los resultados. Por ello, en los informes de
investigación actuales se recomienda informar de las tres estimaciones: contraste de hipótesis,
intervalos de confianza y el tamaño del efecto.
El tamaño del efecto nos dice cuánto de la variable dependiente se puede controlar, predecir o
explicar por la variable independiente (Snyder y Lawson) o en qué grado la hipótesis nula es falsa
(Cohen). El tamaño del efecto se presenta mediante una diferencia tipificada, es decir, una
puntuación interpretable como una puntuación típica. Su cálculo es sencillo. En el numerador
tendremos la distancia de medias y en el denominador una desviación típica que puede ser una
desviación típica combinada.
68
TEMA 11: INTRODUCCIÓN AL CONTRASTE DE HIPÓTESIS
1. Introducción.
La media muestral puede ser utilizada para hacer inferencias sobre los valores probables de
una media poblacional desconocida, µ. Los valores de la media muestral, M, pueden ser usado
para probar la hipótesis sobre un valor específico de una media poblacional desconocida a través
del uso de la prueba de significación de la hipótesis nula (PSHN). Lo que hacen los investigadores
es seleccionar una muestra de la población y probar su hipótesis sobre los métodos A y B. El
proceso de selección de la muestra y sus condicionantes (representatividad y tamaño) es decisivo
en las decisiones e interpretación de los resultados tras el contraste de hipótesis.
Sirve como punto de partida cuando no tenemos conocimiento o no hay razones para creer
que existen diferencias entre los grupos que estamos comparando.
Los valores de la media muestral, M, pueden ser usador para probar la hipótesis sobre un
valor específico de una media poblacional desconocida. Warner indica los siguientes pasos:
Ejemplo: la media de velocidad en autovía es de 120 km/h, el límite legal. o, de otra forma,
, donde hipotetizaremos que . En este caso, el “efecto” que se trata de detectar es la
diferencia entre la media poblacional desconocida, µ, y la media poblacional hipotetizada.
69
En el ejemplo que estamos poniendo, M es la media aritmética de una muestra aleatoria, pero
en los diseños de dos grupos, por ejemplo, M será la diferencia entre las medias de los dos grupos
sometidos a contraste, mientras que µhip será la media hipotetizada según la distribución muestral
de diferencias de medias, que no es otras sino: . El error típico, a su vez, tendrá que ser sustituido
por el error típico de diferencia de medias. Una vez obtenido el valor de z es fácil responder a la
pregunta que planteábamos. Cuanto más lejos está el valor de M del valor hipotetizado, más
grande será el valor de z y, en consecuencia, menor será su probabilidad de aparición si H es
verdadera.
En definitiva, la idea básica de la PSHN es que el investigador asume un valor para la media
poblacional desconocida, µ. Entonces, obtiene una media muestral M y la evalúa conforme a la
distribución de valores de M que cabría esperar si la H es verdadera. El investigador debe tomar la
decisión si rechazar o no rechazar H, dado el valor obtenido de M. cuando el valor de M es un
valor que puede ocurrir probablemente por casualidad cuando H es verdadera, entonces la
decisión es no rechazar H. Por el contrario, si M es improbable que ocurra por casualidad o azar
cuando H es verdadera, entonces el investigador puede rechazar H. ¿Cuándo estimamos que es
improbable que ocurra por azar? Dependerá del valor de que hayamos establecido a priori.
Siguiendo a Siegel, la condición de rechazo es la siguiente:
El error tipo I nos llevaría a afirmar, por ejemplo, que un método de enseñanza de las
matemáticas es mejor que otro cuando lo cierto es que no hay diferencias en los resultados de
aprendizaje que producen. El error tipo II () nos llevaría a afirmar que el medicamento no es eficaz,
cuando en realidad sí lo es. Este error coincide con la probabilidad de no rechazar la H cuando
esta es realmente falsa. El riesgo de cometer error tipo II depende de varios factores: el tamaño de
la muestra, el verdadero tamaño de efecto en la población y el valor de . Cuanto más grandes
sean cada uno de estos tres valores, más pequeño será el error tipo II.
70
4. Los pasos del contraste de hipótesis.
Es decir, las diferencias entre las medias de los grupos son estadísticamente igual a cero,
por lo que las diferencias empíricas que existan entre las medias de las muestras se deben
al azar. Las dos muestras pertenecen a la misma población.
71
c. Elección del valor alfa o nivel de significación.
Se habla del valor nominal de alfa porque es el investigador el que lo “nomina”. Los valores
más utilizados son 0’05 y 0’01, el investigador puede necesitar reducir al máximo el error tipo I y
establecer valores inferiores, como . También puede suceder que en una investigación
exploratoria con muestras pequeñas, el investigador decida utilizar un .
En este tipo de diseños, para muestras grandes, sabemos que la prueba estadística de
contraste es la z o la t de Student. Supongamos que elegimos la z, que responde a una
distribución normal. En un contraste de dos grupos, z nos estandariza las diferencias entre las
medias de los grupos con respecto a una diferencia igual a cero. Si dibujamos la distribución
normal conforme a H, esta estaría formada por los infinitos valores de obtenidos en infinitas
muestras aleatorias extraídas de la misma población. Esta distribución toma la forma de la curva
normal. Si la H es verdadera, la mayoría de las diferencias serán igual o próximas a cero,
disminuyendo la altura de la curva según nos alejemos del valor central que sería el cero. Se trata
de una distribución muestral que indica la no existencia de diferencias estadísticamente
significativas. Es decir, indica que todas las diferencias encontradas entre dos sucesos se deben
simplemente al azar.
En consecuencia, la región de rechazo de Hestará formada por todos aquellos valores del
estadístico de contraste cuya probabilidad de aparición asociada sea menor o igual que alfa (o si
el contraste es bilateral). De nuevo,
72
Realizar un muestreo aleatorio de N observaciones independientes.
Ejemplo: Supongamos que hemos aplicado una escala de actitudes de 100 ítems.
Suponiendo que = 0’05, en 5 de esos 100 contrastes obtendríamos una diferencia de medias
significativa cuando en realidad no la hay. Tendríamos entonces lo que se conoce como riesgo
inflado de error tipo I (Warner).
Para reducir algunas de las complicaciones, se realizan diversas prácticas. Una de ellas es la
replicación del estudio. Es decir, se hace necesario que otros grupos de investigación, utilizando
muestras y repitiendo el estudio, lleguen a la misma decisión estadística. El método de la
validación cruzada supone obtener de nuestra muestra de estudio una submuestra utilizando un
porcentaje determinado de la muestra inicial.
La interpretación de un resultado debe hacerse con cautela. Deben tenerse en cuenta todos
los supuestos ya comentados, y además la expectativa del investigador de que se cumpla su
hipótesis, la posibilidad de que nuestra variable independiente correlacione altamente con otra
variable independiente no tenida en cuenta y que se esta última la que está produciendo los
efectos sobre la variable dependiente que atribuimos a la primera.
Una diferencia estadísticamente significativa no nos dice que tal diferencia sea importante,
sino tan solo que existen diferencias en la población de referencia. Además, tampoco permita
comparar los resultados entre distintas investigaciones cuando la unidad de medida, la métrica,
varía. Para solucionar este problema, se utiliza como indicador complementario a la significación
73
estadística el tamaño del efecto, siendo la d de Cohen el índice más utilizado. Este índice muestra
el tamaño del efecto como una diferencia tipificada (como una puntuación z), donde el numerador
es la diferencia de las medias entre los grupos y el denominador es una desviación típica, que
recibe el nombre de desviación típica combinada y es la combinación de las desviaciones típicas
de los grupos que estamos comparando. La fórmula de la d de Cohen es:
Otra forma de valorar el tamaño del efecto es mediante una correlación biserial-puntual. La
variable X sería dicotómica, es decir, pertenecer a uno de los dos grupos que se están
comparando (valores posibles 0/1), mientras que la variable Y sería continua, la medida de la
variable dependiente. Podemos transformar el valor de la t de Student en otro valor que nos da la
idea de la fuerza de la relación entre la variable independiente y la dependiente y que nos permite
comparar también los resultados en distintos estudios. En definitiva, es importante combinar los
resultados de la significación estadística y el tamaño del efecto. De esta forma, podremos valorar
con más precisión los resultados obtenidos. Es importante ser consciente de que podrían
obtenerse resultados aparentemente contradictorios, y obtener un tamaño del efecto poco
relevante (cuando tenemos muestras muy grandes), u obtener un tamaño del efecto muy relevante
(cuando las muestras son pequeñas).
Variables de control, moderadoras o controladas: aquellas que tienen influencia sobre la VD.
Variables extrañas: aquellas que intervienen pero que se escapan al control del investigador
(condiciones ambientales, estado físico y anímico…).
Así, por ejemplo, lo que se desea saber es si un método de enseñanza (VI) es eficaz para
conseguir un mejor rendimiento en matemáticas (VD). Una forma de resolver este problema es
mediante los diseños de dos grupos: a un grupo (grupo experimental) se le aplica el tratamiento o
método experimental (VI), y a otro grupo no se le aplica y se utiliza como grupo de comparación
(grupo de control). Después de aplicar el tratamiento, se comparan los grupos. Para ello, lo que se
comparan son las medias de los grupos. Generalmente, el investigador esperará rechazar la
hipótesis nula, ya que confiará en que su tratamiento sea eficaz; sin embargo, deberá verificar su
intuición empíricamente.
74
Acabamos de referirnos a un diseño de dos grupos. Un diseño es el plan (esbozo del
proyecto), estructura (esquema) y estrategia (recogida y análisis de datos) de investigación
concebidos para obtener respuestas a las preguntas de investigación y controlar la varianza. Hay
dos tipos:
3- Definición de variables.
4- Formulación de hipótesis.
5- Diseño de la investigación.
i. Hipótesis nula: H.
La prueba estadística dependerá del tipo de diseño. Vamos a estudiar el diseño de dos grupos
independientes. Hay que elegir la prueba de contraste más adecuada. Hay dos tipos: las
paramétricas y las no paramétricas. Las primeras son las más potentes para rechazar H, por lo
75
que son preferibles. Pero para utilizar se deben cumplir:
Homocedasticidad de las varianzas poblacionales: los dos grupos que comparamos tienen
varianzas estadísticamente iguales. Se prueba con el test F de Snedecor o con la F de
Levene.
Donde
En el caso de dos grupos correlacionados, la fórmula general para el contraste de medias es:
Donde el error típico de diferencia de medias tiene en cuenta el valor de la correlación (r).
Lo establecerá el investigador. Los valores usuales son: = 0’05; = 0’01; y, = 0’001. También
puede expresarse, por ejemplo, como = 0’05.
Estaría formada por los infinitos valores del estadístico de contraste obtenidos en infinitas
muestras aleatorias de tamaño N extraídas de la misma población.
Es aquella parte de la distribución muestral formada por todos los valores del estadístico de
contraste cuya probabilidad de aparición asociada sea menor o igual que (o /2 si el contraste es
bilateral). Conviene siempre dibujarlo:
76
Decisión estadística
Para ello, calcularemos el valor del estadístico empírico según la fórmula elegida y
compararemos la probabilidad asociada a este valor con el valor de . En las pruebas z y t, cuando
el valor empírico es mayor que el crítico, se rechaza la hipótesis nula.
Será un cálculo complementario que nos ayudará a interpretar la importancia que debemos
atribuir a las diferencias encontradas desde un punto de vista educativo. Para ello, podemos
utilizar la d de Cohen para diseños de dos grupos independientes:
Donde
EJEMPLO
Estamos estudiando el efecto de un programa para mejorar la capacidad verbal de los sujetos.
Para ello, hemos seleccionado aleatoriamente dos grupos: a un grupo (experimental) le aplicamos
el programa y después le pasamos una prueba de rendimiento verbal. Al otro (de control), no se le
aplica el programa pero se le pasa también la prueba de rendimiento. De esta forma, obtenemos
dos medias aritméticas, una de cada grupo.
Diseño de la investigación
Se trata de un diseño experimental de dos grupos independientes con media postest (solo se
ha realizado una medición después de aplicar la VI).
VI: Método
o Hipótesis nula: , las diferencias entre las medias aritméticas de los grupos
experimental y de control son estadísticamente igual a cero, se deben al azar, y
pertenecen a la misma población.
77
o Hipótesis alterna: , la media aritmética del grupo experimental es
estadísticamente superior a la media del grupo de control, es decir, existen
diferencias estadísticamente significativas entre las medias de los grupos a favor
del grupo experimental.
Decidimos un = 0’05.
Es aquella parte de la distribución muestral formada por todos los valores de t cuya
probabilidad de aparición asociada sea menor o igual que = 0’05.
78
Decisión estadística (rechazo o no rechazo de H):
Analizamos ahora el estadístico de contraste de medias. Vemos que el valor de , con una
probabilidad de ocurrencia de p = 0’383. No se cumple en consecuencia la condición de
rechazo, ya que , por lo que podemos considerar que la diferencia de medias obtenida
entre los grupos de 1’20 es estadísticamente igual a 0, se ha obtenido por efecto del azar.
No puede confirmarse la hipótesis del investigador con los datos obtenidos en esta
muestra, con una probabilidad de cometer error tipo I de 0’05.
Cuando manifestamos las conclusiones de una investigación cuantitativa, debemos ser muy
cautos. Primero, porque estamos realizando inferencias y, podemos estar cometiendo un error en
nuestras afirmaciones. Segundo, porque trabajamos con personas y en situaciones y contextos
naturales que hacen difícil el control exhaustivo de variables. Y, tercero, porque las posibilidades
de generalización de nuestros hallazgos están limitadas a las poblaciones de las que hemos
seleccionado las muestras.
8. Resumen.
79
El contraste estadístico de hipótesis es un método para tratar de llegar a evidencias empíricas
en el campo de la educación. Se basa en la prueba de significación de la hipótesis nula. Esta
prueba exige que se cumplan determinados supuestos (población definida, selección aleatoria,
contrastes limitados, normalidad…), exige seguir unos pasos de forma sistemática y rigurosa
(hipótesis, muestra, comparación y decisión), lo que implica conocer los errores que podemos
estar cometiendo (error tipo I y error tipo II), así como la importancia de la potencia estadística de
la prueba utilizada. Estos pasos son: selección de una muestra aleatoria, formulación de las
hipótesis, nivel de significación, definición de la distribución muestral y la región de rechazo, y
decisión estadística: rechazar o no la hipótesis nula.
80