Está en la página 1de 81

Descargado en:

patatabrava.com

ESTADÍSTICA APLICADA A LA EDUCACIÓN (UNED)

ESTADÍSTICA APLICADA A LA EDUCACIÓN

PROF. CURS 13-14


ESTADÍSTICA APLICADA A LA EDUCACIÓN
TEMA 1: LA ESTADISTICA EN EL PROCESO DE INVESTIGACIÓN PEDAGÓGICA
EMPÍRICA
1. Introducción.

Se va a analizar lo que es la Estadística como ciencia y el papel que desempeña en el campo


de la educación. Para ello es necesario saber interpretar algunas publicaciones científicas, y
diseñar y desarrollar propuestas de trabaja en el campo educativo. Estas razones se pueden
agrupar en:

Comprender los trabajos que se publican en revistas científicas, libros, etc.

Entender los procesos implicados en la investigación educativa.

Facilitar el propio desarrollo de la investigación socio-educativa.

2. Concepto y funciones de la Estadística.

La Estadística se puede entender como una serie de conjuntos numéricos, como método de
trabajo propio del campo empírico, como a la forma de resolver problemas educativos, y como una
ciencia. La Estadística actúa como una disciplina puente entre los modelos matemáticos y los
fenómenos reales. Kerlinger la define como “La teoría y el método de analizar datos cuantitativos
obtenidos de muestras de observaciones, para estudiar y comparar fuentes de variancia de
fenómenos, ayudar a tomar decisiones sobre aceptar o rechazar relaciones hipotéticas entre los
fenómenos y ayudar a hacer inferencias fidedignas de observaciones empíricas”.

Por lo tanto, nos permite comprender las posibilidades y limitaciones de los trabajos empíricos
y desarrollar un pensamiento crítico y antidogmático en el estudio de la realidad. Para los
pedagogos, las funciones que puede desempeñar son:

Entender y criticar artículos profesionales.

Mejorar la evaluación del aprendizaje de los estudiantes.

Dirigir trabajos sencillos de investigación.

Entender las propuestas de evaluación de programas socioeducativos, del profesorado y de


las instituciones educativas sociales.

Ayudar en la preparación ciudadana y como consumidor de productos.

Mejorar la profesión socioeducativa.

Puede aportar una primera aproximación al campo de estudio a partir de los datos que facilita
al investigador, con posterioridad se pueden aplicar los principios derivados de la Estadística,
entendida como ciencia, para la resolución de problemas o para la toma de decisiones. La
Estadística ofrece las siguientes posibilidades:

Calcular las medias aritméticas de los grupos.

Establecer el grado de dispersión o variabilidad de las observaciones y datos.

Representar gráficamente los grupos o sujetos individuales.

Ayudar en la transformación de datos para compararlos.

Establecer relaciones entre variables y calcular el grado de relación entre las mismas.

Facilitar el cálculo de la fiabilidad y la validez de los instrumentos de recogida de datos y de


1
medida.

Recurrir a diversas mediciones o combinación de variables.

Permitir extrapolar los resultados de muestras representativas a grupos más amplios.

Comprar las actuaciones de dos o más grupos y establecer la existencia o no de diferencias


significativas.

Las principales funciones de la Estadística se pueden agrupar en:

Facilitar el manejo de datos amplios y dispersos: reducir a índices o estadísticos las


características que identifican a un conjunto de datos.

Inferir desde la muestra a la población: análisis para extrapolar los resultados obtenidos en
las muestras a las poblaciones de las que se extrajeron.

Ayudar en la toma de decisiones: incorporar cambios en las actuaciones educativas que


redunden en mejoras de las formas de actuación en el campo socioeducativo.

3. Tipos de Estadística.

a. Estadística descriptiva.

Se le asocian los procesos de análisis que se llevan a cabo con los datos empíricos recogidos
en las muestras. Este proceso concluye con la obtención de unos valores numéricos que reciben
la denominación de estadísticos, cada uno de ellos pone de relieve una característica
representativa del grupo de sujetos que se analiza. En realidad, transforma un conjunto de
números u observaciones en índices que sirven para describir o caracterizar esos datos dentro de
los grupos de sujetos. Se ocupa del estudio de los métodos y técnicas necesarios para la
descripción gráfica y numérica de los conjuntos de datos numerosos.

La Estadística descriptiva es aquella parte de la Estadística que utiliza estadísticos


procedentes de muestras o de poblaciones con una finalidad eminentemente descriptiva o
informativa de las mismas. Fox señala cinco funciones:

Conocer los estadísticos o características esenciales de un conjunto de datos.

Interpretar lo que nos dicen los estadísticos muestrales.

Conocer la existencia, el sentido y la magnitud de la relación entre dos variables.

Explorar las relaciones, manifiestas o no, en la estructura que define la relación de más de
dos variables.

Utilizar los estadísticos procedentes de muestras para conocer las tendencias en el


comportamiento de nuevos grupos de sujetos.

La Estadística descriptiva univariada sirve para descubrir y analizar una distribución de datos
que provienen de la medición de una variable en una muestra. La Estadística descriptiva bivariada
sirve para recoger y analizar datos de dos variables. Cuando intervienen más de dos variables, se
habla de la multivariada.

b. Estadística inferencial.

Trata de extrapolar los resultados que se han obtenido en muestras a las poblaciones
respectivas de las que proceden. Se ocupa de los métodos estadísticos que nos sirven para
realizar inferencias objetivas sobre los datos disponibles y trasladarlos a grupos más amplios. La
Estadística inferencial tiene por finalidad la obtención de una serie de conclusiones sobre algún
aspecto o variable presente en una población a partir de las observaciones de comportamientos
en una o varias muestras.
2
La inferencia nos ayuda en la toma de decisiones sobre la aceptación o el rechazo de las
relaciones previstas en la hipótesis (posible solución del problema), aunque estas decisiones
suelen matizarse con la fijación del margen de error. Dos grandes campos forman la Estadística
inferencial: la estimación de parámetros puede llevarse a cabo mediante la elección de un solo
valor de la muestra que se transforma en parámetro (estimación puntual) o a través de unos
límites entre los cuales se espera se encuentre el verdadero valor del parámetro (estimación por
intervalos), esos límites vienen influenciados por los errores aleatorios y los sistemáticos. El
contraste de hipótesis trata de probar mediante datos empíricos las hipótesis que se plantean en
el proceso de investigación, de tal forma que son los datos los que deben ofrecer una respuesta a
los planteamientos iniciales del investigador.

4. El papel de la Estadística en el proceso de investigación.

La Estadística descriptiva aporta información que puede servir de base para trabajos
posteriores y análisis más complejos que entran en el cometido de la Estadística inferencial. Los
datos recogidos deben responder a unas hipótesis y objetivos previamente planteados. En alguna
de las fases va a estar presente la forma explícita, mientras en otras ofrecerá pautas para
entender y desarrollar esos parámetros.

a. En el problema de investigación.

El punto de arranque se ubica en la identificación y selección del problema, en estos


momentos debe estar presente la Estadística como garantía para poder establecer relaciones
entre las características que se analizan; ello se lleva a cabo mediante diversos modelos
estadísticos, desde ellos buscamos si existe alguno que permita la resolución del problema. Así,
cuando procedemos a analizar el problema y sus características, se pondrán en manifiesto las
variables que intervienen en esos procesos. Se trata de identificar si existe un modelo estadístico
capaz de ofrecer una respuesta adecuada a ese problema. Si el investigador no contempla estas
sugerencias se puede encontrar más adelante con un camino sin salida. Es la Estadística la que
nos permitirá afirmar que el problema cumple una condición inexcusable en su formulación que
sea resoluble.

b. En la formulación de hipótesis y objetivos.

Cuando el investigador formula su hipótesis o enumera sus objetivos se le exige que las
hipótesis sean contrastables y los objetivos comprobables. Referido al tipo de hipótesis nos
permite conocer qué estadísticos deben ser calculados, y determinar si la hipótesis que se plantea
ha de ser unilateral o bilateral. Además, nos ofrece argumentos para seleccionar la modalidad de
análisis estadísticos que sea el más adecuado.

En la gran mayoría de los casos, nos decantamos por plantear hipótesis bilaterales (existirán
diferencias entre los grupos); mientras que cuando existen otros trabajos que responden a teorías
previas, se pueden formular hipótesis unilaterales (se decantan por una de las opciones). La
elección va a tener repercusiones en la búsqueda de los valores teóricos o críticos. Buscamos la
existencia de diferencias significativas y no meramente aleatorias. Si la hipótesis se decanta por
establecer el valor predictivo de una prueba sobre otra, nos estamos refiriendo a los valores que
alcanzará la correlación, medidos en tiempos diferentes (validez predictiva). De esta formulación,
será preciso determinar la función predictiva del coeficiente que se traslada a las correspondientes
fórmulas derivadas de la regresión.

c. En el control de variables extrañas.

En la investigación de naturaleza cuantitativa, uno de los elementos clave consiste en llegar


hasta donde sea posible, respetando al objeto de estudio (la persona), para evitar la
contaminación de los resultados. En el marco de la investigación socioeducativa el sujeto de
3
estudio es la persona, lo que lleva consigo connotaciones morales o éticas, ello limita el grado de
control. La Estadística nos aporta los análisis pertinentes para la selección de sujetos en función
de esas características de control. En síntesis, garantizar el control en los procesos de
investigación empírica supone que se aíslan o minimizan los efectos de las covariaciones y la
influencia de las variables extrañas que pudieran llegar a ofrecer explicaciones alternativas a las
buscadas por el investigador. El hecho de poder cuantificar estos pesos relativos nos permitirá
realizar afirmaciones con la suficiente validez y rigor en el campo socioeducativo.

d. En la definición de las variables.

En el caso de la investigación empírico-experimental, en el que la hipótesis establece una


relación de dependencia o de casualidad entre las variables, de tal forma que el investigador
cuando formula sus hipótesis u objetivos está indicando la relación entre aquellas variables sobre
las que interviene y modifica y aquella o aquellas que recogerán los efectos de esa intervención.
Así, podemos establecer que la motivación que reciben los estudiantes influirá de forma positiva
sobre el rendimiento alcanzado. La variable independiente (V) será la motivación y la variable
dependiente (V) el rendimiento obtenido después de la intervención.

En la investigación socioeducativa la Estadística se manifiesta en la medición de las variables


que intervienen en el proceso. Esta tarea requiere la utilización de instrumentos que sean fiables y
válidos. Nos ayudará también a definir de forma operativa las variables independientes, lo que nos
indicará la forma en que se debe proceder a su medida y valoración. En ocasiones, las variables
son constructos que no admiten una medida directa, por lo que es preciso definir conductas
operativas y medibles que nos indiquen el valor real de las mismas. A esto se le llama definición
operativa de las variables. Es conveniente reflejar en los trabajos empíricos que los datos
obtenidos de la medida de la variable pueden estar sujetos a variaciones provocadas por múltiples
factores y que puede tener unas repercusiones sobre la investigación y las aplicaciones de los
resultados a la práctica real.

e. En el contraste de hipótesis o comprobación de objetivos.

Nos encontramos ante una fase eminentemente estadística, pero ello no quiere decir que las
aportaciones en otras partes no sean tenidas en cuenta o sean de poca entidad, pues los
procesos lógicos y los estadísticos están íntimamente ligados y mutuamente condicionados en el
campo de la investigación socioeducativa. La utilización de una prueba u otra debe quedar en
manos del investigador, no del informático, éste nos puede ayudar y facilitar las herramientas de
cálculo, mientras que los investigadores debemos conocer estas pruebas y, sobre todo, ser
capaces de interpretar las salidas del ordenador.

f. En la decisión estadística.

La fase anterior concluye con la obtención del denominado valor empírico del estadístico
correspondiente, que será diferente según la prueba estadística que se haya seleccionado (t, z, F,
U, T, H, etc.), y que ha de ser interpretado, de tal forma que el investigador pueda concluir que las
diferencias entre los grupos son diferencias reales. Esa interpretación consiste en decidir si la
hipótesis de nulidad (H) se rechaza y, por consiguiente, se acepta la hipótesis alternativa o
hipótesis del investigador (H), se hace fijando unos niveles de confianza o unos márgenes de
error.

En esta fase, se pone de manifiesto al ofrecernos los valores teóricos o críticos de distribución
de cada uno de los estadísticos y que vienen recogidos en tablas o bien se determinan mediante
el empleo de una serie de ecuaciones. La regla general asociada al contraste de hipótesis y la
decisión estadística nos dice que cuando el valor empírico del estadístico es mayor que el valor
teórico o crítico, se rechaza H. Esta regla general tiene sus excepciones. Esta fase es fundamental
en el desarrollo de la investigación pedagógica empírica en el campo socioeducativo, nos permite
garantizar que los cambios producidos por la intervención del investigador sobre la variable
independiente (V) ha producido sus frutos y podrá ser recomendada en el futuro en contextos o
situaciones similares a la estudiada.

4
5. La Estadística y su relación con las Ciencias Sociales.

Su origen se encuentra unido al interés de los investigadores y científicos por cuantificar los
diferentes aspectos sociales de los grupos o comunidades. Ámbitos de las Ciencias Sociales en
las que actúa y aporta sus conocimientos la Estadística:

Educación: métodos de investigación, diseños de investigación, problemas de la medida,


evaluación, diagnóstico y orientación, etc.

Psicología: análisis factorial, estudio del comportamiento de los sujetos, aptitudes, rasgos
de personalidad, factores de inteligencia, etc.

Sociología: comprender y valorar el desarrollo de los comportamientos colectivos, describir


instituciones sociales, su organización e interrelaciones, análisis y comparación de
estructuras sociales subyacentes a los grupos, etc.

Economía: índice de precios al consumo, análisis de mercados, estimación de la demanda


y series temporales.

Demografía: enumeración de diversos censos, distribución por edades o sexo, localización


geográfica, profesiones, religión, nacionalidades.

Administración Pública: estudios de la Administración sobre los censos de habitantes, su


distribución, fuentes de riqueza, temas laborales y sectoriales.

Humanidades: nuevas metodologías de investigación en la historia, geografía, antropología


o literatura.

Ciencias Jurídicas: Criminología, estudios de prevención de delitos.

6. Posibilidades y limitaciones de la Estadística.

No lleva consigo que servirá para resolver todos los problemas que aquejan al campo de
estudio que nos ocupa. Debemos recordar que la tarea del diseño y elección de pruebas
estadísticas es tarea del educador. La Estadística nos ayudará en la decisión de rechazar las
hipótesis de nulidad, no podemos olvidar que sin un buen control sobre las variables extrañas,
podemos estar considerando que los cabios generados son achacables a una variable
independiente, cuando en realidad han sido otros factores o variables no controladas las que han
generado cambios. El investigador es el que debe tomar la decisión en elegir unas y descartar
otras, para que los resultados finales de los trabajos empíricos sean válidos en la toma de
decisiones.

5
TEMA 2: PROBLEMA, HIPÓTESIS/OBJETIVOS, VARIABLES Y DATOS. NIVELES DE
MEDIDA
1. Introducción.

Es el momento de abordar los aspectos fundamentales que nos ayuden a comprender mejor
los puntos básicos de este proceso. Así, presentamos unas ideas generales sobre el problema de
investigación, su definición, selección, características y criterios para su evaluación.
Seguidamente, analizamos la revisión de fuentes documentales y el estado de la cuestión. A
continuación, el apartado referido a las hipótesis y objetivos de la investigación, identificación y
definición de las variables, recogida de datos y su calidad, los diferentes niveles de medida y las
repercusiones que ello tiene en los análisis estadísticos.

2. El problema de investigación.

En la gran mayoría de los casos se parte de una idea general que después se va perfilando
hasta llegar a configurar el problema concreto de investigación. La aparición de un problema para
el que no encontramos una respuesta satisfactoria, viene condicionado por:

La existencia de una laguna notoria en los resultados de otras investigaciones.

La no concordancia entre los resultados aportados por diferentes trabajos.

La existencia de un hecho para el que no tenemos una adecuada explicación.

Es fundamental contemplar su concepción desde una visión apropiada y con una perspectiva
poco limitada, para poder percibir su globalidad. La característica fundamental consiste en la
posibilidad de resolución, es decir, se deben formular problemas sobre los cuales podamos
estudiar comportamientos, analizar hechos y evaluar resultados.

a. Definición y elección del tema de investigación.

Según García de la Fuente, en el momento de elegir tema, influyen dos tipos de elementos:

Subjetivos: relacionados con la personalidad, preparación científica en un determinado


campo y el conocimiento de otros idiomas.

Objetivos: relacionados con la posibilidad real de acceso a los campos de investigación. No


se podría estudiar en profundidad un tema si no existe la posibilidad de traslado a la zona
donde ocurren los hechos.

Para formular un problema científico debemos tener en cuenta los criterios de rigor,
consistencia, precisión, exactitud y una expresión clara y unívoca. Se suele aceptar que un buen
planteamiento es la mitad de la solución. En esta línea, Fox señala que de la existencia de la idea
original o impulsora de problemas se debe pasar a realizar una primera revisión de la bibliografía
relacionada con el mismo, para pasar a definir de forma más precisa el problema de investigación.

b. Estructura y características del problema.

Siguiendo las directrices de Hernández Pina:

Factible: existen medios apropiados para investigar y poder ser empleados por el
investigador (ej. encuesta).

Claro: que todos los términos estén perfectamente definidos y sea comprensibles, es decir,
definiciones adecuadas.

Significativo: nivel de importancia del problema.

La formulación de la pregunta debe reflejar la descripción, la asociación o la invención.

6
La investigación situada fuera de los contextos de problemas reales actúa como traba de la
misma. No obstante, cuando existe una intervención directa en la acción hay mayores
posibilidades de captar el problema en toda su plenitud. Así pues, debemos exigir al problema
como característica fundamental el que sea resoluble, es decir, que se puedan recoger datos
empíricos sobre el mismo que permitan ofrecer una respuesta adecuada a ese interrogante. A
modo de ejemplo, podríamos señalar:

¿Cuál es el nivel de participación de los estudiantes en la clase de Matemáticas en un aula


de Bachillerato en el centro X? Investigación basada en la observación.

¿Qué opinan los profesores sobre la reforma de las enseñanzas humanísticas?


Investigación por encuesta.

¿Cuáles son las variables que inciden de forma más significativa en el rendimiento de los
estudiantes de la UNED? Investigación correlacional.

¿Qué método de aprendizaje sería más eficaz en la enseñanza a distancia en Teoría de la


Educación? Investigación experimental o cuasiexperimental.

¿Qué características definen personal y profesionalmente a los estudiantes del primer curso
de Educación Social en la UNED? Investigación descriptiva.

c. Criterios para la evaluación de problemas de investigación.

Viabilidad: enlaza con la posibilidad de resolución del problema, el investigador debe


cuestionarse si el problema que se ha planteado es adecuado al contexto educativo y se
puede abordar con los medios disponibles.

Interés: que tiene el tema para el investigador, el equipo y la persona, autoridad o grupo
que encarga el trabajo.

Relevancia teórica y práctica: puede contribuir al aumento de los conocimientos y a la toma


de decisiones.

Coherencia: con los planteamientos generales de la comunidad científica.

Adecuación al contexto: exige la incardinación del problema en el contexto que se va a


realizar.

Otros aspectos: presentación, lenguaje, sin adornos.

3. La revisión de fuentes y el estado de la cuestión.

Una vez planteado el problema, es necesario efectuar consultas sobre ese tema que se trata
de investigar. Para Fox, debemos diferenciar entre la denominada bibliografía de la investigación
(informes sobre trabajos ya realizados), y la bibliografía de tipo conceptual (referida a los textos,
artículos, etc.). Esta consulta vendrá condicionada por el nivel de conocimiento previo que tenga el
investigador sobre el problema que investiga. Los soportes de la información se diversifican y
multiplican sin cesar, por lo que resulta esencia conocer cómo obtener y utilizar la documentación.

a. Fuentes y bases de documentación.

Fuentes bibliográficas: centradas en los textos a los que se acude para recabar la
información sobre el problema de investigación:

o Obras generales: diccionarios, enciclopedias, manuales, anuarios, thesaurus.

o Publicaciones bibliográficas periódicas: boletines bibliográficos, índices y abstracts.

7
o Revistas de Investigación: trabajos teóricos o empíricos.

Fuentes no bibliográficas:

o Recursos tecnológicos informáticos: bases de datos, correo electrónico,


buscadores, revistas electrónicas.

o Centros de Investigación en Educación: IBE (Directory of Educational Research


Institutions) recoge en su índice gran cantidad de estos centros repartidos por todo
el mundo.

o Centros de Documentación: centros especializados en un ámbito. CSIC (Consejo


Superior de Investigaciones Científicas), ISOC (Instituto de Información y
Documentación en Ciencias Sociales), CIDE (Centro de Investigación y
Documentación Educativa), ERIC (Educational Resources Information Center), ISI
(Institute for Scientific Information), CNRS (Centre National de la Recherche
Scientifique), EUDISED (European Documentation and Information System for
Education).

o Asociaciones de Investigación en Educación: en nuestro campo, AIDIPE


(Asociación Interuniversitaria de Investigación Pedagógica) edita la Revista de
Investigación Educativa (RIE); en el contexto europeo, EERA (European
Educational Research Association); en el ámbito internacional, AERA (American
Educational Research Association).

b. Criterios de valoración de la información recogida.

Para valorar la información recogida se deben tener en cuenta los siguientes criterios:

Relevancia: que sea importante para el tema, y que proceda de autores de reconocido
prestigio.

Claridad: la información debe mostrar de forma nítida aspectos básicos para la


investigación.

Actualidad: acudir a las citas más próximas en el tiempo.

Adecuación: que la información mantenga una estrecha relación con el problema y aporte
datos para facilitar su resolución.

Contextualización: que los contextos sean similares.

4. Hipótesis y objetivos de la investigación.

Una vez concretado el problema y revisadas las fuentes, el investigador está en condiciones
de aventurar posibles soluciones al mismo, nos referimos a las hipótesis. En la mayor parte de las
investigaciones, se suele emplear el término hipótesis directiva. Hemos de tener en cuenta que los
objetivos tienen un carácter más descriptivo, mientras que las hipótesis buscan la relación causal
entre las variables.

a. Concepto y naturaleza de las hipótesis.

La hipótesis es una proposición o conjunto de proposiciones no demostradas, cuyo análisis


puede llevar a una conclusión lógica; es un medio o una parte de cualquier investigación y estudio,
una explicación razonable sobre el tema a tratar, que debe ser sometida a comprobación empírica.
Bunge nos indica que se deben reunir tres requisitos en la formulación de hipótesis:

Bien formada y significativa.

8
Fundada en los conocimientos previos.

Ser empíricamente contrastable.

A estos criterios básicos se podrían añadir, según indica McGuigan, el que exista una
conexión con el marco teórico en el que se plantean, y también, con otras hipótesis de formulación
más sencilla. Las dos notas que identifican una buena formulación de hipótesis son el que estén
bien formuladas y el que sean contrastables empíricamente. La primera exige una profunda
revisión de las fuentes y verosimilitud. A su vez, es preciso que sea contrastable mediante
procedimientos empíricos. También deben establecer relaciones causales entre las variables, de
un lado las antecedentes sobre las que interviene el investigador, y de otro, las consecuentes, que
reciben los efectos. Es preciso que las hipótesis sean claras y sencillas.

Cuando el investigador formula las hipótesis o los objetivos del trabajo, debe tener la
referencia básica del problema que pretende resolver. En algunas investigaciones nos
encontramos con los términos objetivo o propósito general y objetivos operativos; el primero se
refiere al marco general de la investigación señalando lo fundamental del trabajo, en el segundo
se recogen de forma más concisa los puntos principales. Además, conviene indicar que las
hipótesis recogen en sus enunciados la existencia de diferencias o relaciones entre las variables,
en cambio los objetivos se dirigen hacia el campo de las descripciones e implicaciones.

b. Diferentes tipos de hipótesis.

Según la posibilidad de generalización

Existenciales: establecen una relación entre dos o más variables. Ej.: los estudiantes que
empleen un método X para el aprendizaje en el Centro Y alcanzarán mejores resultados
que los que no lo utilicen.

Universales: válidos para todos los casos, aunque en el campo de la educación resulta
prácticamente imposible. En un determinado centro, con unas características definidas
para los estudiantes, en unas condiciones particulares es posible que ocurra esto.

Probables: establecer una gradación en el término universalidad para determinados casos,


tiene mayor sentido en el campo educativo. Ej.: se podría indicar que los estudiantes de la
UNED que utilicen la bibliografía básica y recomendada, estudien más de doce horas
semanales, participen activamente, etc. probablemente obtengan buenas calificaciones.

Según su forma de expresión cuantitativa

Substantiva o científica: expresa la relación o dependencia entre las variables con definición
expresa de las mismas. Puede venir derivada de la observación y la experiencia
(inductiva), o de la teoría (deductiva). Sirven para comprobar el funcionamiento de las
teorías en el campo educativo. Ej.: comprobar que un método es más adecuado que otro.

Estadística: se establece una diferencia o relación entre los parámetros poblacionales que
debe ser comprobada empíricamente. Pueden enunciarse en forma de hipótesis nula (H),
que postula la no existencia de diferencias o relaciones entre los grupos. Mientras que la
9
hipótesis alternativa (H) es la que establece la relación entre las variables, bien de forma
genérica (bidireccional), bien decantándose por una de las opciones (direccional).

Según el nivel de aproximación a la realidad

Operacional: las variables relacionadas vienen expresadas en términos observables. Ej.: la


utilización de la técnica del subrayado influirá en los resultados académicos alcanzados.

Conceptual: establecer generalizaciones de mayor aplicación en el futuro. Es la


denominada macrohipótesis. Ej.: las técnicas de estudio empleadas por los sujetos
influirán sobre los rendimientos alcanzados.

Según el número de variables y sus relaciones

Hipótesis descriptiva de una sola variable: se decanta por la existencia de determinadas


características en una población o universo. Se trata de afirmaciones que deben ser
comprobadas. Ej.: los estudiantes que acudan a las tutorías, probablemente lograrán
buenas calificaciones en las pruebas presenciales.

Hipótesis descriptiva de dos o más variables y relación de aseveración: establece una


relación simple de asociación o covariación entre ellas; es decir, el cambio de una variable
va unido al cambio correlativo en la otra del mismo o distinto signo. Ej.: los estudiantes que
acudan a las tutorías, estudien nueve horas semanales y consulten la bibliografía
recomendada, posiblemente lograrán buenas calificaciones en las pruebas presenciales.

Hipótesis con dos o más variables y relación de dependencia: se dirigen hacia la


explicación y la predicción de los fenómenos educativos. Ej.: los estudiantes de primer
curso de Pedagogía que hagan el curso sobre ‘Técnicas de estudio’, mejorarán de forma
apreciable sus resultados académicos.

5. Identificación y definición de variables.

a. Concepto y modalidades de variables.

Variable es aquella característica que admite diversos valores, es decir, dos o más
modalidades; mientras que constante es un valor numérico que no cambia en un contexto
determinado, dicho de otra forma, es aquella característica que admite una única forma de
manifestarse, una única modalidad de presencia. Algunos autores suelen recurrir al término
atributo cuando se identifica con lo cualitativo y variable cuando se trata de lo cuantitativo.

Dicotómicas

Categóricas Politómicas

Cualitativas

Cuantitativas Discretas

Continuas

Dependientes

10
Independientes

Extrañas

Estímulo

Respuesta

Intermedias

Las variables categóricas o atributivas establecen distintas categorías para cada una de las
modalidades, en ocasiones se las denomina atributos, hacen referencia a las características de los
sujetos que no se pueden cuantificar. Si la variable solamente admite dos categorías se las
denomina dicotómicas. Por ejemplo, las calificaciones ‘Apto/No apto’. Las variables politómicas
son aquellas que admiten más de dos categorías. Por ejemplo, nivel de estudios: superiores,
secundarios, primarios; clase social: alta, media, baja, etc.

Las variables cualitativas expresan la posesión de una determinada cualidad y con cierta
intensidad (rangos). No será posible establecer diferencias numéricas. Por ejemplo, interés y
atención del estudiante, valoración de una tarea, la opinión, etc.

Las variables cuantitativas reflejan las características de la población que admiten medida
numérica. Pueden ser discretas, solo admiten números enteros. Por ejemplo, número de sillas, de
habitantes, de sujetos, etc. O, continuas, admiten un número infinito de valores potenciales. Por
ejemplo, edad, peso, puntuaciones de un test, medida de inteligencia, etc.

Las variables dependientes (V) reciben los efectos de la intervención sobre la variable
independiente. Los valores que alcance esta variable dependerán de la independiente, por ello
refleja la consecuencia de los cambios que se han producido. Por ejemplo, en una investigación
en que se analizan los procesos de enseñanza-aprendizaje y su influencia en el rendimiento
académico, la V que recibe los efectos es el rendimiento académico.

Las variables independientes (V) son aquellas sobre las que interviene o actúa el investigador
con el fin de analizar su influencia sobre la dependiente. En ocasiones se las denomina como
estímulos o antecedentes. Por ejemplo, si queremos analizar la influencia de un método de
aprendizaje del inglés en los resultados académicos de los estudiantes, la V será el método de
aprendizaje, y la V los resultados alcanzados.

Las variables extrañas o intervinientes (V) están presentes y deben ser controladas para evitar
la contaminación de los resultados finales. Por ejemplo, de los ejemplos anteriores, el profesorado,
el horario, etc.

Las variables estímulo engloban dentro de sí todas aquellas condiciones externas al sujeto
que pueden ser objeto de intervención por parte del investigador. Por ejemplo, recibir premios por
las tareas realizadas, valorar la participación activa, etc.

Las variables respuesta reflejan el comportamiento manifiesto de los sujetos ante


determinadas intervenciones en el campo educativo, en realidad se trata de la respuesta que
ofrece el individuo en la investigación cuando se le somete a un determina estímulo. Por ejemplo,
alcanzar unos mayores niveles de integración en el grupo social, el reconocimiento académico en
una materia, etc.

Las variables intermediarias son una interposición entre el estímulo y la respuesta, y pueden
influir sobre las respuestas que ofrecen los sujetos en la investigación. Por ejemplo, el ambiente
familiar, el contexto escolar, el docente, etc.

b. Definición operativa de las variables.

Implica que el concepto analizado debe ser definido en función de las acciones u operaciones
11
que son precisas para poder medirlo y actuar sobre él. Se pueden señalar tres sentidos: uno
centrado en las operaciones que deben ser llevadas a cabo para que se produzca el fenómeno
que se define; otro basado en la operatividad del objeto definido; y, el tercero se centra en las
denominadas propiedades estáticas. La operatividad de variables es un requisito indispensable
para que se pueda llevar a cabo la investigación con las suficientes garantías de validez, pues
facilita la prueba de hipótesis y permite el acuerdo entre distintos observadores del mismo
fenómeno.

6. La recogida de datos y su calidad.

Fox nos recuerda que la calidad de la investigación viene condicionada expresamente por la
calidad de los métodos utilizados para recoger y analizar los datos. Así pues, deben cumplir una
serie de requisitos que hagan posible la expresión cuantitativa o cualitativa de un rasgo,
característica o variable, ello nos ofrecerá una serie de informaciones y datos de calidad sobre los
sujetos objeto de estudio.

a. Criterios para la selección y elaboración de los instrumentos de recogida de datos.

Para tomar la decisión en la selección de instrumentos debe contemplar una serie de criterios:

La identificación total del rasgo o característica: exige una clarificación del mismo, mediante
una definición operacional precisa.

El tipo de validez empleado: el instrumento mide lo que dice medir y no otra cosa distinta.

La técnica de fiabilidad: un instrumento será fiable en la medida que mida con precisión
algo.

Las características de muestra.

Los niveles de fiabilidad y validez: para la fiabilidad se exigen valores altos, por encima de
0.85; en el caso de la validez, se suelen aceptar valores más bajo, a partir de 0.40.

Otros criterios secundarios: el tiempo que exige su respuesta y su valoración posterior, la


facilidad de comprensión, etc.

En aquellos casos en que se deba proceder a la elaboración de instrumentos:

Identificación y definición clara y concisa del rasgo o característica.

Conocer los objetivos a conseguir con el instrumento.

Seleccionar los ítems o elementos más apropiados: siempre teniendo la referencia de los
sujetos de la muestra.

Formular los ítems o elementos con precisión: según el tipo de elemento dependerá su
formulación.

Ordenar los ítems de forma apropiada: es conveniente acompañar en cada bloque unas
instrucciones para su contestación, seguir una secuencia cronológica, una distribución al
azar.

El tiempo preciso para responder (duración): al conjunto de la prueba y a cada una de sus
partes. Aunque resulta difícil fijar una duración óptima, sí que debemos tener en cuenta la
edad de los sujetos, la vinculación con el tema propuesto, el momento en que se va a
aplicar y la finalidad de los resultados.

Las respuestas que debe dar el sujeto: deben ser unívocas y registrarse con facilidad.

Para alcanzar las suficientes garantías en todos y cada uno de los puntos contemplados es
conveniente someter dicho instrumento a lo que llamamos aplicación piloto. Además, con los datos
12
suministrados por la aplicación piloto podemos determinar los niveles de fiabilidad y validez de la
prueba.

b. Los datos y sus niveles de medida.

Los niveles de medida vienen a reflejar la gradación existente en la información recogida.

Escalas Definición Ejemplos


Nominal Datos categóricos Colores, sexo, categoría
profesional, nivel de estudios
Ordinal Datos ordenados por rangos con Altos/bajos, pesados/ligeros,
orden creciente o decreciente interesados/desinteresados
(rangos)
Intervalo Intervalos iguales siendo el cero Tiempo de ejecución de tareas,
arbitrario tests, pruebas objetivas,
temperatura
Razón Intervalos iguales, el cero se Peso, longitud
define como ausencia de la
característica

Nivel nominal: atribuir números o símbolos a las diferentes categorías o clases en que se
ha dividido un conjunto. Así el mismo número o letra indica la pertenencia al mismo grupo
o categoría. No se trabaja directamente con números como tales, sino con sus
frecuencias, es decir, el número de veces que se presenta un hecho o fenómeno en el
grupo objeto de investigación. Entre los estadísticos que pueden calcularse con los datos
nominales se encuentran: la moda, la frecuencia, el coeficiente de asociación (C) o de
contingencia, la prueba de Ji cuadrado con sus diferentes modalidades.

Nivel ordinal: puede establecer con los objetos evaluados una escala ordenada de forma
creciente o decreciente. Probablemente sea el nivel de medida de mayor empleo en la
investigación en Ciencias Sociales y, por consiguiente, también en educación. Lo que nos
interesa es la posición (el rango) que ocupa dentro del grupo analizado. Para su
tratamiento estadístico disponemos de la mediana, la correlación ordinal de Spearman y
pruebas no paramétricas.

Nivel de intervalo: además de las características de la ordinal, se añade la igualdad de


distancia o intervalo entre dos valores consecutivos, lo que lleva consigo la existencia de
una unidad común y constante de medida. Se puede hablar de un nivel auténticamente
cuantitativo de datos. Así se pueden calcular la media, la desviación típica, la correlación
de Pearson, y en general, todas aquellas pruebas de resolución de contraste de hipótesis
englobadas en las pruebas paramétricas.

Nivel de razón o proporción: el nivel más perfecto, pues a todas las características ya
enumeradas hemos de añadir la existencia del cero absoluto. En este nivel, están
justificadas todas las operaciones matemáticas: suma, resta, multiplicación y división,
además de poder determinar lo que es el doble, el triple, la mitad. Este nivel solo se ha
alcanzado en variables de la Física, como el peso y la longitud. En el campo de la
Estadística tenemos la media geométrica y el coeficiente de variación que requieren de la
existencia del punto 0 de la escala.

13
TEMA 3: ORGANIZACIÓN DE LOS DATOS. ANÁLISIS EXPLORATORIO DE DATOS.
1. Introducción.

Comenzamos a aterrizar en el campo de la Estadística Descriptiva. Como indican Johnson y


Christensen, comienza con un conjunto de datos: el investigador intenta trasladar las
características esenciales de los datos a formas más interpretables (distribuciones de frecuencias,
gráficos) y calcula índices numéricos como promedios, percentiles y medidas de variabilidad.
Hablaremos primero de organización y después de análisis exploratorio de datos. Cuando nos
referimos al análisis exploratorio de los datos, decimos que el investigador comienza por la
observación de la realidad, después estudia las observaciones y finalmente trata de encontrar
algún patrón o modelo que explique el comportamiento de sus observaciones.

2. De la definición del problema y las variables a la observación y recogida de datos.

Uno de los errores más frecuentes de los investigadores es recoger datos sin seguir
adecuadamente los pasos del proceso de investigación. Por eso es fundamental tratar de dar
respuesta a todas las fases del proceso de investigación. Para ello, se procede a realizar la
recogida de información, es decir, atribuir valores a las variables que son objeto del estudio. Para
ello, necesitamos algún procedimiento que nos permita asignar dichos valores –números, rangos,
categorías– a las variables conceptuales: necesitamos un instrumento de medida adecuado y una
regla de medida bien definida.

En la investigación empírica, siempre tenemos que trabajar con datos empíricos, es decir,
transformar en números la realidad observada. Para ello, necesitaremos instrumentos de medida
válidos y fiables. La precisión (fiabilidad) de los instrumentos podrá tener distintos grados, y eso
afectará a la validez de los resultados. En este sentido, la elección de los instrumentos de medida
o el proceso de construcción de los mismos es una parte fundamental de la investigación. Si nos
planteamos un problema cuyas variables no son cuantificables, no estamos ante una investigación
empírica. Así pues, una vez realizado el diseño de investigación y elegidos los instrumentos de
medida, se puede realizar el trabajo de campo, aplicar los instrumentos, recoger datos.

3. Permisos y ética en la investigación y recogida de datos.

En la investigación educativa, se comparten los principios éticos que deben seguirse, la


participación voluntaria y el informe consentido; evitar todo riesgo de daño físico o psíquico;
confidencialidad y anonimato; y, respetar donde hacemos la investigación. La ética del
investigador exige informar a toda persona que está participando como sujeto de investigación de
la naturaleza de la misma, de la confidencialidad de los resultados y solicitar su permiso para
aplicarle los instrumentos de medida. También exige respetar a los sujetos objeto de la
investigación, no manipular los datos obtenidos y reflejar fielmente los resultados aunque
contradigan su hipótesis inicial. Esto incluye respetar a las distintas audiencias que puedan tener
acceso a los resultados y citar adecuadamente los autores y las fuentes de información.

4. De los instrumentos a los datos: elección del programa, la matriz de datos y el libro
de códigos.

Una vez que hemos aplicado los instrumentos, debemos trasladar los datos a una hoja de
cálculo o algún programa que nos permita posteriormente trabajar con ellos. A esto se llama
introducir o tabular los datos. Las puntuaciones que vamos a introducir se llaman puntuaciones
directas (X), es decir, la puntuación o puntuaciones que obtiene un sujeto tras aplicarle un
instrumento de medida. La codificación de datos consiste en la asignación de números o
caracteres a los valores de la variable. El nivel de la medida de las variables tiene repercusiones
14
en la forma de codificar los datos.

Antes de empezar a tabular los datos, es conveniente escribir el libro de códigos. Se trata de
un documento en el que se especifican todas las variables del estudio en el orden en el que serán
introducidas en la matriz de datos. Primero debe identificarse el ítem junto al nombre de cada
variable y su etiqueta (descripción). Posteriormente se anotan los posibles valores de la variable
(códigos) y, si procede, se les asigna también una etiqueta de valor. En el caso de variables
continuas basta con escribir l recorrido de la escala (por ejemplo, 5-20).

Ejemplo: tenemos un cuestionario con las siguientes variables:

Ítem Variable Etiqueta variable Código Etiqueta valores


C.1 C1Ident Identificación Asignar un valor
numérico a cada –
sujeto (por
ejemplo, 01; 02;
03…)
C.2 C2Sexo Sexo 0 Hombre
1 Mujer
C.3 C3C_aut Comunidad 1 Galicia
autónoma 2 Extremadura
3 Andalucía
4 Madrid
5 Castilla y León
C.4 C4CI Cociente Cualquier valor –
intelectual entre 50-150
C.5 C5Rmat Rendimiento Cualquier valor –
matemático entre 0-100
C.6 C6Satis Satisfacción con el 1 Muy insatisfecho
curso 2
3
4
5
Muy satisfecho

Asimismo, es importante definir el valor que asignemos a los datos perdidos o missing data.
Normalmente se deja en blanco en la matriz de datos (missing de sistema), de modo que no se
contabilice a la hora de calcular los estadísticos. La segunda opción es definir un valor perdido por
el usuario, por ejemplo, 99 (siempre que no sea un valor admisible dentro de la escala de medida
de la variable). En ese caso, debemos programar ese valor en el programa que utilicemos, de
modo que el programa no utilice ese valor para los cálculos.

La elección del programa informático dependerá de nuestros gustos y posibilidades. Existe


abundante software libre y gratuito, como el programa R, y también programas estadísticos
comerciales, como el SPSS. Las hojas de cálculo más conocidas tienen también herramientas
para el análisis estadístico sencillo. La forma habitual de introducir los datos consiste en conformar
lo que se denomina una matriz de datos. Es una tabla de doble entrada en la que las filas
representan a los sujetos y las columnas a las distintas variables medidas. Después, se procede a
ordenar y categorizar los datos, de modo que podamos apreciar mejor las características del grupo
en cada una de las variables.

5. Organización de los datos: depuración de datos y distribuciones de frecuencia.

Antes de empezar a realizar los análisis estadísticos, debemos hacer una depuración de
datos. La depuración de datos exige dos fases: el control de calidad de la tabulación y la propia
depuración de datos. Tabular los datos es trasladar los datos de los instrumentos de medida a la
matriz de datos. El control de calidad consiste en comprobar la fidelidad de la tabulación. La
depuración de datos consiste en verificar si hay valores “fuera de rango” según se había definido
en el libro de códigos.

15
Una de las más sencillas formas de hacerlo es realizar un análisis descriptivo solicitando
simplemente los valores mínimo y máximo para cada variable. Otra forma consiste en realizar una
distribución de frecuencias. En ella aparecen todas las puntuaciones obtenidas en una variable
(puntuaciones directas) y el número de veces que se repite cada puntuación (frecuencia absoluta).
También son muy utilizadas la frecuencia relativa (f/N) que, multiplicada por 100, indica el
porcentaje de aparición de una puntuación respecto del total; y la frecuencia acumulada, que
muestra el número de sujetos a los que supera una puntuación determinada.

a. Distribuciones de frecuencia y aproximación al concepto percentil.

Una distribución de frecuencias suele incluir el número de sujetos o casos que corresponde a
cada puntuación directa, denominado frecuencia absoluta, el porcentaje relativo (o frecuencia
relativa multiplicada por 100) para cada código. La siguiente columna es el porcentaje válido, que
es el porcentaje relativo de cada valor excluidos los valores perdidos. Finalmente, el porcentaje
acumulado indica el porcentaje de casos que deja por debajo de sí el límite superior de cada
puntuación. En el mismo sentido podemos hablar de frecuencia acumulada, que indica el número
de sujetos que deja por debajo de sí el límite superior de una puntuación determinada.

Puntuación Frecuencia Frecuencia relativa Frecuencia acumulada x 100


directa absoluta x 100 (porcentaje acumulado)
1 179 17.7 17.7
2 93 9.2 26.9
3 107 10.6 37.5
4 128 12.6 50.1
5 108 10.7 60.8
6 131 12.9 73.7
7 266 26.3 100.0
Total 1012 100.0

Las puntuaciones directas son la respuesta numérica elegida por los sujetos. La frecuencia
absoluta es el número de sujetos que han respondido a la pregunta. El número total que han
respondido se halla sumando todas las frecuencias absolutas (N). Después está la frecuencia
relativa multiplicada por 100 (f/N x 100). El porcentaje acumulado (frecuencia acumulada relativa
[f/N] multiplicada por 100) nos muestra el porcentaje de sujetos que deja por debajo de sí el límite
superior de una puntuación determinada. Los porcentajes acumulados (sin decimales) se utilizan
mucho en la construcción de baremos para interpretar las puntuaciones de los tests, donde
reciben el nombre de percentiles. El percentil indica el porcentaje de sujetos que deja por debajo
de sí una puntuación determinada.

b. Síntesis.

La distribución de frecuencias es una forma rápida y fácil de transformar una columna de


datos en algo rápidamente inteligible. El paso siguiente, una vez identificados estos valores
erróneos, es su corrección. Se pueden adoptar dos soluciones: la primera consiste en reemplazar
los valores erróneos por valores perdidos (por espacios en blanco); la segunda consiste en
identificar a cada sujeto en el que se ha introducido el error, identificar el instrumento de medida,
buscar la variable en la que se introdujo mal el dato y corregirlo en la matriz o base de datos. Tras
realizar las correcciones oportunas, volveremos a realizar las distribuciones de frecuencia para
verificar que se han corregido todos los errores. Una vez depurada la matriz de datos, estamos
listos para comenzar el análisis de datos.

6. Aproximación intuitiva a las representaciones gráficas y la curva normal.

Si utilizáramos un procedimiento manual para realizar la distribución de frecuencias,


podríamos ver fácilmente la relación entre la distribución y algún gráfico. En la siguiente figura,
vemos que en el eje de ordenadas se sitúan las puntuaciones directas, mientras que en el eje de
abscisas se representan las frecuencias. Una representación gráfica es una forma atractiva de
16
ordenar la información disponible en la matriz de datos y comprenderla con un simple golpe de
vista.

Hay distintas formas de representar los datos, dependiendo de la naturaleza de las variables:
sectores, barras, polígono de frecuencias, tallo y hojas, etc. si este gráfico lo giramos y lo
convertimos en un gráfico de barras verticales, obtenemos la siguiente figura.

Como puede verse, la figura b) es parecida al gráfico de barras, si uniéramos el punto central
superior de cada barra y suavizáramos la forma. La curva normal es una distribución teórica
simétrica (si doblamos la distribución sobre sí misma por la mediana, la forma de los lados
coincide) y asintótica, donde la media, la mediana y la moda coinciden. Muchas variables
educativas, psicológicas y biológicas se distribuyen según este modelo. La observación empírica
de la distribución de estas variables permitió crear un modelo matemático (curva normal) que
respondía a dicha distribución, de modo que es posible conocer la probabilidad asociada a cada
uno de los valores de la curva (como una frecuencia relativa), con lo cual podemos saber si la
obtención de un valor procedente de cualquier medición es más o menos probable que aparezca,
es decir, si se parece mucho o poco a lo que entendemos como “normal”. Las aplicaciones de la
distribución normal y otras distribuciones teóricas como la binomial, t, F, X, son fundamentales en
el campo de la inferencia estadística, donde reciben el nombre de distribuciones muestrales.

17
TEMA 4: REDUCCIÓN DE DATOS. MEDIDAS DESCRIPTIVAS BÁSICAS Y
REPRESENTACIONES GRÁFICAS
1. Introducción. De la organización a la descripción de datos.

Antes de realizar análisis más complejos, se parte de la Estadística Descriptiva para hacerse
una primera idea del comportamiento de cada una de las variables contenidas en nuestra matriz
de datos. La palabra más importante relacionada con la Estadística es la variabilidad, es decir, el
estudio de la dispersión de las puntuaciones, contribuyendo a explicar la magnitud y naturaleza de
las mismas. En este momento, simplemente pretendemos estudiar la magnitud de la variabilidad y
alguna otra nota ligada a la misma.

De forma genérica, podemos distinguir dos grupos de medidas o índices numéricos que
deben estar presentes en todo estudio descriptivo y que aparecerán en casi todos los artículos de
investigación cuantitativa: medidas de tendencia central y medidas de dispersión o variabilidad.
Las representaciones gráficas de los datos son un buen complemento de los índices numéricos y
ayudan a comprender rápidamente la información descriptiva. No debemos olvidar que estas
medidas describen grupos de datos (sujetos, objetos) y no los datos individualmente.
Generalmente, primero se estudia la tendencia central del grupo, es decir, hacia qué puntuación
tiende el grupo. El índice más conocido es la media aritmética. Sin embargo, este índice por sí
solo no nos proporciona suficiente información como para hacernos una idea del grupo. ¿Hay o no
dispersión de las puntuaciones en torno a la media aritmética? Para comprobarlo, nos referimos a
las medidas de variabilidad o dispersión, como la desviación típica.

2. Medidas de tendencia central: media, mediana y moda. Usos e interpretación.

La tendencia central del grupo indica hacia qué valor tiende el grupo, cuál es el valor que
mejor lo representa. El índice o medida más conocida es la media aritmética, el promedio, que se
calcula sumando todas las puntuaciones y dividiendo dicha suma por el número total de
puntuaciones. Su símbolo es .

= =

= Sumatorio.

X = Cada una de las puntuaciones obtenidas.

Interpretar una media aritmética suele ser muy sencillo. Para interpretarla correctamente, es
conveniente conocer la puntuación mínima y máxima de la escala de medida de la variable y situar
la media aritmética dentro de ese recorrido. En sentido estricto, la media aritmética solo puede
utilizarse en variables cuyo nivel de medida sea de intervalo o de razón. También puede utilizarse
con variables dicotómicas (solo pueden adoptar dos valores).

Las otras medidas de tendencia central son la moda y la mediana. La moda es el valor con
frecuencia absoluta más alta, la puntuación que más se repite, no necesita ningún cálculo. Cuando
tenemos dos puntuaciones con la misma frecuencia, diremos que la distribución es bimodal, y
entonces diremos que las modas son, por ejemplo, 4 y 5. También podemos encontrarnos
distribuciones de frecuencias en las que más de dos puntuaciones tienen la misma frecuencia y
esta es considerablemente superior a la del resto de puntuaciones. En este caso hablaremos de
distribuciones plurimodales. Gráficamente, sería una distribución en la que observaríamos varios
picos de la misma altura.

La mediana es el valor central de la distribución de frecuencias. Para calcular la mediana


podemos observar la distribución de frecuencias acumuladas y comprobar qué puntuación ocupa

18
la posición central. Cuando el número de puntuaciones es par, no hay una puntuación central, sino
dos. La medida más precisa de tendencia central es la media aritmética, ya que tiene en cuenta
todas las puntuaciones para su cálculo. Hay que tener en cuenta que la media aritmética es
sensible a las puntuaciones extremas, no así la mediana ni la moda. Como indica Morales, la
media se ve arrastrada por las puntuaciones extremas, lo que no sucede con las otras dos
medidas. Por eso, la mediana puede ser una medida preferible a la media cuando las
puntuaciones extremas puedan distorsionar la verdadera tendencia central del grupo. En sentido
estricto, cuando el nivel de medida de la variable es ordinal, solo podríamos utilizar la mediana y la
moda, mientras que para variables con nivel de medida nominal, solo podemos utilizar la moda
(excepto en el caso de las variables dicotómicas).

3. Medidas de variabilidad.

Supongamos que tenemos dos grupos de cuatro sujetos cada uno a los que pasamos un test
de inteligencia. Los resultados son los siguientes:

Grupo 1 Grupo 2
104 80
104 80
104 128
104 128
= 104 = 104

La media aritmética es la misma en los dos grupos y, sin embargo, son grupos muy diferentes.
Por esta razón, el índice de tendencia central debe ir acompañado por un índice de dispersión o
variabilidad que indique en qué medida las puntuaciones de los sujetos se dispersan o varían en
torno a la media aritmética.

a. La desviación de la media.

El índice de dispersión más intuitivo y fácil de comprender es la desviación media. Es una


medida que indica la media aritmética de las desviaciones de las puntuaciones directas respecto a
la media aritmética. Esta es la fórmula:

D. M. =

Esto es

D. M. =

Los sujetos del Grupo 1 tienen la misma puntuación, por tanto, la desviación media es 0. En el
Grupo 2, cada puntuación directa se aleja 24 puntos de la media. Así que (X – ) es igual a 24 o –
24. Para evitar las diferencias negativas, se toman las diferencias en su valor absoluto.

b. La desviación típica.

La desviación típica se presenta por “s” (estadístico) o (parámetro). Al ser otra medida de
dispersión, la desviación típica del primer grupo será igual a cero. Otro índice muy utilizado para
expresar la variabilidad de los grupos es la varianza (s o ). Su cálculo se realiza elevando al
cuadrado la desviación típica.

s=

Esto es

s= ; s=

El numerador expresa las distancias de cada puntuación directa a la media aritmética. Dichas
19
distancias se elevan al cuadrado para evitar que el valor siempre fuera 0. En nuestro ejemplo, la
varianza sería:

s=

Y la desviación típica:

s=

Al elaborar un informe descriptivo, lo usual es incluir la desviación típica como medida de


dispersión. No siempre es fácil interpretar una desviación típica. En muchas ocasiones se utiliza
para comprar la dispersión entre grupos distintos. Para obtener la mínima desviación típica, todos
los sujetos deben obtener la misma puntuación. Para obtener la desviación típica máxima, la mitad
de los sujetos debería obtener la puntuación máxima de la escala y la otra mitad la puntuación
mínima.

Ejemplo: Se ha utilizado una terapia para reducir la agresividad en cierto tipo de pacientes. Se
han formado dos grupos: el grupo experimental, y el grupo de control. Después de la aplicación de
la terapia, se ha medido el grado de agresividad (0 – 50 puntos). Los resultados son:

Grupo experimental Grupo de control


= 28 = 41
s=7 s = 12
N = 50 N = 50

La terapia parece haber producido un efecto beneficioso, ya que el grupo experimental


presenta una media de 13 puntos más baja que el grupo de control.

Hasta ahora nos hemos referido al cálculo de la desviación típica sesgada, que se utiliza
frecuentemente al trabajar con muestras. Es igualmente frecuente trabajar con la desviación típica
insesgada, que no es más que la estimación de la desviación típica de la población a la que
pertenece la muestra. Por lógica, se entiende que la desviación típica en una población será más
elevada que en una muestra, por lo que si disminuimos el denominador, el cociente será mayor.
Para calcular la desviación típica insesgada, simplemente se le resta una unidad al denominador:

s= ; s=

Para distinguir ambas fórmulas de la desviación típica suelen representarse como (sesgada)
y como (insesgada).

c. La amplitud o recorrido.

La amplitud o recorrido se calcula como la diferencia entre la puntuación mayor y menor más
uno:

A=X-X+1

La amplitud se utiliza como medida de dispersión única solamente cuando no es posible


calcular otra o como complemento de la moda (cuando el nivel de medida de la variable es
nominal). Es un índice muy simple, basado en este caso solo en dos puntuaciones, lo que puede
dar lugar a malas interpretaciones si no se valora con precaución, sobre todo cuando existen
puntuaciones extremas (outliers).

d. La desviación semi-intercuartílica.

La desviación semi-intercuartílica (Q) es una medida que indica la dispersión en el 50%


central de la distribución. Es adecuada cuando el nivel de medida de la variable es ordinal (sería el
complemento de la mediana). También es adecuado su uso cuando la existencia de puntuaciones
extremas pueda distorsionar en exceso la desviación típica. Su fórmula es:

20
Q=

e. El coeficiente de variación.

El coeficiente de variación (V) permite comparar la variabilidad entre variables que tienen
distinta amplitud. Para ello, el V se expresa en términos porcentuales, y se calcula así:

V=

4. Media y desviación típica para variables dicotómicas.

Las variables dicotómicas son variables que solo pueden tomar dos valores. Si sus dos
posibles valores se codifican con ceros y unos (ceros para noes o respuestas incorrectas y unos
para síes o respuestas correctas), entonces la media aritmética representa la proporción de unos.

Ejemplo: Si tenemos una muestra de 50 sujetos, y 30 han contestado que sí, ¿cuál es la
media? N = 50, por lo tanto, la media será 30/50 = 0’6. Esta media indica la proporción de sujetos
que ha respondido con un 1 (SÍ), que se representa por “p”. En otras palabras, el 60% de la
muestra ha respondido que sí (“p”), y el 40% que no (“q”). De modo que

p+q =1

Las medias con variables dicotómicas son muy usadas cuando utilizamos pruebas objetivas y
tests de rendimiento en los que la respuesta a las preguntas es acierto/error. En este caso, la
media nos dirá la proporción de sujetos que ha contestado correctamente a la pregunta, que viene
a denominarse índice de dificultad del ítem. La varianza es muy fácil de calcular:

s=p·q

y, por tanto, la desviación típica es

s=

con lo cual sabremos que la desviación típica variará entre 0 (ausencia de variabilidad) y 0’5
(máxima variabilidad).

5. Asimetría y apuntamiento: relación con la curva normal.

La asimetría y el apuntamiento son dos características relativas a la forma gráfica de la


distribución de frecuencias. El modelo de comparación es la curva normal, que carece de
asimetría, es decir, es simétrica o tiene un índice de asimetría igual a cero. De la misma forma, su
apuntamiento es igual a cero. Las representaciones gráficas de las variables tienden a ser curvas
que, por su grado de asimetría, pueden asemejarse a una de estas tres.

La asimetría positiva indica que la mayoría de los sujetos tiende a concentrarse en la parte
baja de las puntuaciones de la distribución de frecuencias. La cola de la distribución está a la
derecha. Esto no significa que los sujetos tengan puntuaciones bajas en aptitud numérica. La
asimetría negativa indica justamente lo contrario, que los sujetos tienden a agruparse en torno a
las puntuaciones altas de distribución. Esto no significa necesariamente que los sujetos de la
muestra obtengan puntuaciones altas. Hay distintas formas de calcularlo. Una de ellas (índice de
Pearson) es la siguiente:

As =

Cuando las puntuaciones extremas se encuentren en la parte alta (derecha) de la distribución,


21
la media será mayor que la moda y la asimetría será positiva. Por el contrario, cuando las
puntuaciones extremas se encuentren en la parte correspondiente a las puntuaciones bajas de
recorrido, la media se verá arrastrada hacia la izquierda, y entonces el valor de la moda será
superior al de la media y, por tanto, la asimetría será negativa. El apuntamiento o la curtosis indica
el grado en el que la distribución es más o menos picuda, es decir, el grado en el que la
distribución resulta más abierta o dispersa respecto a la media y, por tanto, más chata o aplanada
(platicúrtica) o, por el contrario, más apuntada y, por tanto, más estrecha o con las puntuaciones
de la distribución más concentradas en torno a la media (leptocúrtica). Una curtosis igual a cero
viene representada por la distribución normal. Curtosis superiores a cero nos indican una
distribución leptocúrtica, mientras que si es inferior a cero, será platicúrtica.

Para el cálculo de la curtosis puede utilizarse la siguiente fórmula:

g2 =

6. Representaciones gráficas.

Hemos distinguido dos grupos de índices numéricos: índices de tendencia central e índices de
dispersión o variabilidad. Las representaciones gráficas son un buen complemento de los índices
numéricos y ayudan a comprender rápidamente la información descriptiva.

a. Gráfico de sectores.

También llamado ciclograma o gráfico de tarta, se utiliza para representar variables con nivel
de medida nominal (variables generalmente clasificatorias). Tiene forma circular y está dividido en
porciones. El gráfico de la izquierda es un diagrama de sectores que indica el porcentaje de
profesores universitarios que ha respondido a una encuesta según el tipo de universidad.

b. Gráfico de barras.

El gráfico de la derecha es un gráfico de barras, y lo estamos utilizando para describir las


distintas categorías de profesores que hay en la universidad pública. Este gráfico es comparativo,
es decir, compara el porcentaje de profesores que hay en cada categoría en nuestra muestra de
profesores y en la población española. El gráfico de barras suele utilizarse para variables con nivel
de medida ordinal, aunque también es frecuente utilizarlo cuando el nivel de medida es nominal y
para realizar comparaciones de variables clasificatorias o categóricas. Las barras indican en este
caso el porcentaje de profesores que contestan a cada uno de los valores de la escala de medida.

c. Histograma.

Es muy parecido al gráfico de barras, pero se utiliza para variables cuantitativas continuas
con nivel de medida de intervalo o de razón. Las barras están juntas.

En un histograma no aparecen valores de la variable representada en el eje de abscisas. Lo


que se hace es agrupar las puntuaciones en intervalos, de modo que cada intervalo contiene un
número determinado de puntuaciones (valor de intervalo, se representa por i). Por ejemplo, si i =
5, cada intervalo contendrá 5 puntuaciones, de 1 a 5, de 6 a 10, etc. lo usual es que varíe entre 5 y
15, dependiendo de la longitud de la escala de medición. Cuanto menor es el número de
intervalos, más suavizada aparece la gráfica. El número de intervalos o barras y, en consecuencia,
el valor del intervalo (i), se calcula por tanteo.

Ejemplo: Supongamos que nuestra amplitud es de 71 puntos (de 30 a 100). Para calcular
por aproximación el número de intervalos, se divide la amplitud entre el valor que queramos darle
a i. si queremos una representación más concentrada, pongamos i = 10, entonces nos salen unos
7 intervalos, y el histograma quedaría así.

22
Una de las formas que suele usarse para la agrupación en intervalos es la siguiente:

Estimar por tanteo el número de intervalos que se desea.

Iniciar el primer intervalo con la puntuación que incluya la puntuación directa más baja y que
sea múltiplo del valor del intervalo. El último intervalo será el que contenga la puntuación
mayor.

Situar la marca de clase (punto central del intervalo) en el eje de abscisas en el centro de
cada barra.

Hoy en día, la agrupación en intervalos es utilizada casi exclusivamente para las


representaciones gráficas y para realizar las tablas de percentiles, como se verá en el tema
siguiente. Si en este mismo gráfico, en vez de barras tuviéramos una línea que uniera el punto
superior central de cada barra, tendríamos el gráfico llamado polígono de frecuencias. El polígono
de frecuencias y los gráficos de líneas son también muy utilizados y permiten una fácil
comparación de la distribución de distintas variables en un mismo gráfico.

d. Gráfico de caja.

El diagrama de caja, también conocido como caja y patillas o caja y bigotes, es un gráfico muy
práctico porque permite hacerse una idea rápida de la distribución de las puntuaciones en la zona
central (el espacio sombreado, que corresponde desde el cuartil 1 o percentil 25 hasta el cuartil 3
o percentil 75) y en los extremos. Otra de sus utilidades es que nos informa gráficamente del
grado de asimetría de la distribución y presenta los valores atípicos (outliers). Las patillas o bigotes
tienen como extremos posibles los valores máximo y mínimo de la variable.

Sin embargo, las patillas tienen un máximo de prolongación; para determinar los límites de las
patillas suele utilizarse la fórmula de multiplicar el intervalo intercuartil –que es la diferencia entre
el tercer y primer cuartil- por ±1’5. Si hay valores que se alejan de los límites de este producto, se
clasifican como atípicos. También puede especificarse la existencia de valores aún más extremos:
si hay puntuaciones que se alejan más del producto del intervalo intercuartil por ±3, entonces se
habla de puntuaciones extremas. Esto nos ayuda a identificar valores que pueden distorsionar el
comportamiento de la variable al calcular valores como la media aritmética, la desviación típica,
una correlación, etc. En ciertos casos, puede estar justificado eliminar de algunos análisis
estadísticos a los sujetos con puntuaciones atípicas o extremas.

e. Gráfico de tallo y hojas.

El gráfico de tallo y hojas combina la representación numérica y gráfica. Es una especie de


histograma horizontal cuyas barras están construidas por números correspondientes a las
puntuaciones. Es muy frecuente encontrar este gráfico en las salidas de los programas
informáticos. De este modo, se distinguen las hojas (normalmente el último dígito de la
puntuación) y el tallo (el resto de dígitos), ordenando en ambos las puntuaciones de menor a
mayor.

Este es el diagrama de tallo y hojas de la variable anterior:

A continuación puede leerse que en el primer tallo hay solo una hoja o puntuación (frecuencia
1) que es 47, en el siguiente tallo hay 6 puntuaciones, 52, 53, 53, etc. Si mentalmente lo giramos
de forma vertical, veremos que se convierte en un histograma.

23
TEMA 5: MEDIDAS INDIVIDUALES
1. Introducción.

Un punto de máximo interés es la atención individual a cada una de las personas para
proporcionarle toda la ayuda disponible. Así, el conocimiento de las puntuaciones individuales de
cada persona y su correcta interpretación resultan esenciales para la intervención educativa. Los
contenidos de este tema serán fundamentales para manejar correctamente tests y otro tipo de
instrumentos de medida presentes en el mercado para realizar diagnósticos, evaluaciones, etc.

2. Puntuaciones directas: problemas de interpretación y transformaciones


permisibles.

Una puntuación directa (X) es la puntuación que obtiene un sujeto al realizar una prueba o
aplicarle un instrumento de medida.

a. Puntuaciones proporcionales y porcentuales.

Una forma rápida y sencilla de comparar la X en las dos pruebas es convertirla en una
proporción de respuestas correctas (n.º de respuestas correctas / n.º total de preguntas) o un
porcentaje de respuestas correctas (multiplicando la proporción por 100). No siempre es posible ni
pertinente hacer esta transformación, pero sí para, por ejemplo, evaluar la calidad y actitud.
Probablemente podríamos interpretar mejor dicha puntuación si la comparamos con las
puntuaciones del grupo al que hemos aplicado el instrumento de medida, viendo la media y la
desviación típica.

b. Las puntuaciones diferenciales.

Una puntuación diferencial (x) es una puntuación individual relativa a la media aritmética del
grupo de referencia. Por tanto, para calcular una puntuación diferencial es necesario haber
aplicado un instrumento de medida a un grupo de sujetos. Simplemente se le resta a la puntuación
directa del sujeto la media aritmética del grupo al que pertenece.

X = X–

Por tanto, una puntuación directa superior a la media aritmética será una puntuación
diferencia positiva, mientras que si es inferior a la media, será negativa. Una puntuación diferencial
solo nos permite saber si una puntuación está por encima o por debajo de la media aritmética.
¿Son comparables dos puntuaciones diferenciales que proceden de distintos instrumentos de
medida? Necesitamos una puntuación que permita situar a un sujeto con respecto a su grupo de
referencia y hacer comparaciones independientemente de la amplitud del instrumento del que
procedan las puntuaciones directas que deseamos comparar. Las puntuaciones diferenciales son
muy utilizadas en el cálculo de otras puntuaciones (las puntuaciones típicas) y de algunos índices,
como las medidas de variabilidad.

c. Las puntuaciones típicas.

Una puntuación típica (z) indica el número de desviaciones típicas que se desvía una
puntuación directa de la media aritmética. Las dos propiedades más importantes de las
puntuaciones típicas son que la media de dichas puntuaciones es igual a cero y la desviación
típica igual a uno.

Ejemplo: Supongamos que un grupo de sujetos tiene una media en CI (cociente intelectual) de
100 puntos y una desviación típica s = 10. Luego, si un sujeto tiene una puntuación directa de X =
110, ¿cuántas unidades de desviación típica se aleja de la media? Es claro: como la s = 10m se
aparta una s por encima de la media, luego su puntuación típica será z = 1. Las puntuaciones
típicas son muy utilizadas porque nos permiten comparar cualquier puntuación entre sí,
independientemente del instrumento de medida o de la amplitud de la escala utilizada. Se usa la
siguiente fórmula:
24
z= z=

A toda puntuación directa superior a la media le corresponderá una puntuación típica positiva,
y si es inferior a la media, negativa. Las puntuaciones típicas variarán dependiendo de la
homogeneidad o heterogeneidad del grupo. Si un grupo es muy homogéneo, su desviación típica
será pequeña y, por tanto, a una puntuación que no se aleje mucho de la media le puede
corresponder una puntuación típica mucho mayor que le correspondería si el grupo fuese
heterogéneo. Una de las utilidades más importantes de las puntuaciones típicas es la
correspondencia que existe entre estas puntuaciones y la distribución normal. De esta forma, se
podrá saber qué probabilidad existe de obtener determinada puntuación.

d. Puntuaciones tipificadas o escalas derivadas.

Las puntuaciones tipificadas consisten en una simple transformación de las puntuaciones


típicas, creadas con el ánimo de evitar las puntuaciones decimales y las negativas. Su fórmula es:

T=a·z+b

Donde, b = ; a = s; y, z = puntuación típica. Entre las puntuaciones tipificadas más usadas, se


encuentran las siguientes:

T = 10z + 50

S = 2z + 5

Entonces, un sujeto con una puntuación directa igual a la media tendrá una puntuación T =50
y una S =5.

e. Las puntuaciones cuantiles.

Un cuantil indica el porcentaje de sujetos que deja por debajo de sí una puntuación
determinada. Las puntuaciones cuantiles más utilizadas son los percentiles, que dividen una
distribución de frecuencias en 100 partes. Otros cuantiles utilizados son los deciles (diez
divisiones) y los cuartiles (cuatro divisiones). Un cuantil es una medida relativa al grupo de
referencia. Los percentiles son utilizados para construir los baremos de los tests estandarizados.

Estos baremos están construidos con muestras grandes de sujetos, generalmente muestras
que pueden considerarse representativas de la población. De este modo, cuando aplicamos un
test a un sujeto y transformamos su puntuación directa en un percentil según los baremos del test,
simplemente estamos situando al sujeto en una posición (de 1 a 100) en referencia al grupo
normativo. Es decir, lo comparamos con lo que es normal en la población. Existen dos formas de
obtener percentiles. La forma más sencilla es el cálculo de percentiles por el procedimiento
denominado cálculo directo, esto es, lo percentiles correspondientes a cada una de las
puntuaciones directas que obtienen los sujetos en el test. Estos percentiles se obtienen
directamente al realizar la distribución de frecuencias y multiplicar por 100 las frecuencias
acumuladas relativas (f · 100/N); es decir, desde los porcentajes acumulados (redondeados sin
decimales).

Ejemplo:

Puntuación Frecuencia Frecuencia Frecuencia Porcentaje Percentil P


directa absoluta relativa x 100 acumulada acumulado
7 266 26.3 1.012 100.0 100
6 131 12.9 746 73.7 74
5 108 10.7 615 60.8 61
4 128 12.6 507 50.1 50
3 107 10.6 379 37.5 38
2 93 9.2 272 26.9 27
1 179 17.7 179 17.7 18
Total 1.012 100.0

25
Las respuestas posibles están escaladas desde 1 (“no se da nada en mí”) hasta 7 (“se da
muchísimo en mí”). En la primera columna, aparecen las puntuaciones directas, es decir, las
respuestas numéricas elegidas por los sujetos. En la segunda, la frecuencia absoluta. Así, la
respuesta “1” ha sido elegida por 179 sujetos, la “2” por 93, y así sucesivamente. El número total
de sujetos se halla sumando todas las frecuencias absolutas (N = 1.012). En la tercera columna
aparece la frecuencia relativa multiplicada por 100 ([f / N] · 100). Esto nos indica que la respuesta
“1” ha sido elegida por el 17.7% de los sujetos, la respuesta “2” por el 9.2%, etc. La columna
siguiente muestra las frecuencias acumuladas, y la siguiente, el porcentaje acumulado. La tabla de
percentiles se hace normalmente con la puntuación total en la prueba. Los percentiles
corresponden a la última columna redondeando los decimales. En algunas ocasiones, hay que
calcular percentiles que no aparecen en la distribución de frecuencias. Por ejemplo, para calcular
la mediana necesitamos saber el percentil 50, o para calcular la desviación semi-intercuartílica
necesitamos los percentiles 25 y 75 (cuartiles 1 y 3). El cálculo de estos percentiles se denomina
cálculo por interpolación, siendo los únicos percentiles que se pueden expresar con decimales.
Por ejemplo, para hallar el P se puede utilizar la fórmula siguiente:

C=L+

p = 1’5 +

En esta fórmula, lo primero que se resuelve es el numerador del segundo término (c · N / 100),
que indica el número de sujetos correspondientes al percentil 25. Esta cifra debemos buscarla en
la columna de frecuencias acumuladas, quedándonos con la más alta que no supere dicha cifra,
que en nuestro caso es 179, que corresponde a la X = 1. Restamos dicha frecuencia al dato
anterior (253 – 179 = 74),p ara ver cuántos sujetos nos faltan a partir de este intervalo para llegar
a los 253 que necesitamos. Esta cifra (74) es el numerador de la fórmula. Este valor lo dividimos
por la frecuencia absoluta del intervalo superior (f = 93). Esta cifra se multiplica por el valor del
intervalo. En este caso i = 1. Una vez aquí, le sumamos el límite inferior del intervalo en el que se
encuentra esta frecuencia absoluta, es decir, el límite inferior de X = 2, que es 1’5 (la puntuación
directa menos 0’5), y ya tenemos el P = 1’5 + 0’8 = 2’3.

3. Las puntuaciones individuales en la curva normal.

Una distribución de frecuencias puede representarse gráficamente mediante un polígono de


frecuencias, donde el eje de las “x” representa las puntuaciones obtenidas por los sujetos y el eje
de las “y” indica las frecuencias. Entre las distintas formas que pueden adoptar las distribuciones
de frecuencias en distintas variables, se descubrió que muchas variables adoptan un tipo de
distribución característica que se denomina distribución normal o campana de Gauss. La curva
normal es una distribución teórica, simétrica y asintótica, en la que los puntos de inflexión
corresponden con las puntuaciones típicas ±1 y donde la media, la mediana y la moda coinciden.
En casi todos los textos de Estadística se pueden encontrar las tablas de la curva normal con las
probabilidades asociadas a cada puntuación típica. Su interpretación es muy sencilla. Tenemos
que pensar que una puntuación típica divide la curva normal en dos partes: una grande y otra
pequeña.

Cuando tenemos una distribución normal, la obtención de una puntuación típica superior a 2 o
inferior a – 2 puede considerarse una puntuación extrema, ya que es obtenida solamente por
menos del 5% de sujetos. La probabilidad de obtener una puntuación típica igual o superior a 3 es
de p = 0.0013, esto es, en 1’3 casos de cada 1000. Entre las puntuaciones típicas de ±1 se
encuentra el 68% de los sujetos, entre ±2 el 95%, y entre ±3 casi el 100% (99’7%). Del mismo
26
modo, si tenemos una distribución de frecuencias con puntuaciones directas y sabemos que dicha
distribución es normal, nos basta saber su y su s (desviación típica) para aplicar las
propiedades de curva normal.

a. Las puntuaciones individuales normalizadas.

La puntuación normalizada es la puntuación individual que le corresponde a un sujeto si la


distribución de frecuencias original es una distribución normal. Concretamente suelen utilizarse
cuando en un test conocemos la media y la desviación típica, pero carecemos de los baremos. A
veces se utiliza otro tipo de puntuaciones normalizadas consistentes en una agrupación por
intervalo de las puntuaciones típicas, utilizando la desviación típica como unidad de agrupación.
Así, por ejemplo, los pentas son unas puntuaciones que dividen a la curva normal en cinco partes,
de modo que cada puntuación penta (excepto los extremos 1 y 5) contiene una desviación típica.
También existen los eneatipos o estaninos que dividen a la curva normal en nueve partes, por lo
que cada uno contiende media desviación típica. La utilización de estas puntuaciones en vez de
los percentiles se justifica en muchas ocasiones porque los instrumentos de medida que utilizamos
no son tan precisos como para pensar que los sujetos son clasificables en torno a 100 categorías
ordenadas, por lo que resulta más coherente disminuir el número de categorías de clasificación.
Como vemos, cuando consideramos que una distribución empírica es normal, podemos deducir
algunas conclusiones basándonos en dicha distribución teórica:

Es posible saber el porcentaje de sujetos que deja por encima y por debajo de sí una
puntuación individual. Para ello basta con consultar las tablas de la curva normal.

En la curva normal (y solo cuando la distribución es normal), existe una correspondencia


directa entre las puntuaciones típicas y los percentiles y demás cuantiles. Por tanto, dada
una puntuación típica, basta mirar el área que deja a su izquierda para transformarla en un
percentil multiplicando dicha área por 100 y redondeando el valor obtenido.

Si tenemos una muestra de sujetos cuya distribución de frecuencias es una distribución


normal, nos basta con saber el número de sujetos de la muestra, su media aritmética y su
desviación típica para saber cuántos sujetos se encuentran por encima o por debajo de
una puntuación directa o entre dos puntuaciones directas. Basta multiplicar la probabilidad
encontrada por el número de sujetos de la muestra.

27
TEMA 6: RELACIÓN ENTRE VARIABLES. LAS CORRELACIONES Y LA REGRESIÓN
1. Introducción.

En este tema vamos a presentar una serie de conceptos teóricos y su desarrollo práctico en
el estudio de las relaciones entre las variables que intervienen en el proceso educativo. Además,
nos ocupamos de analizar las posibilidades y limitaciones de la predicción de puntuaciones en una
variable, conociendo los valores de otra (regresión).

2. El concepto de correlación.

Las situaciones que se pueden analizar pueden ser diversas, en concreto podemos citar tres
opciones diferentes:

Estudiar la relación entre dos o más variables medidas en un mismo grupo de sujetos.

Con dos o más grupos de individuos comprobar el grado de relación entre dichas muestras
de los grupos en una sola variable.

También se puede dar el caso de una misma variable medida en dos momentos distintos en
una misma muestra.

Así pues, podemos afirmar que la correlación nos indica la tendencia de dos o más conjuntos
de datos a variar de forma conjunta. Para cuantificar la intensidad de la correlación contamos con
el coeficiente de correlación que nos mide el índice de covariación o variación conjunta de dos, o
más, series de datos. En el análisis de la correlación entre dos variables se presentan diferentes
posibilidades que se expresan mediante un diagrama de dispersión.

Relación perfecta positiva

Se manifiesta en aquellos supuestos en que al aumentar los valores de una de las variables
los valores de la otra lo hacen siempre en la misma proporción. Su expresión cuantitativa sería +1
y, en realidad, nos situamos ante lo que se conoce como una función.

Relación imperfecta positiva

Se la conoce como relación directa de variables, es decir, que a valores elevados en una
variable le corresponden valores altos en la otra. Esa tendencia no mantiene la proporcionalidad
que se da en el caso anterior. Su expresión cuantitativa se sitúa entre los valores 0 y +1.

Relación perfecta negativa

Se manifiesta una relación inversa entre las variables, de tal forma que al aumentar los
valores en una de ella, los de la otra disminuyen y lo hacen en la misma proporción. Su expresión
cuantitativa es –1.

Relación imperfecta negativa

La identificamos con la relación inversa entre variables, las puntuaciones altas en una variable
se corresponden con las bajas en la otra. La forma de expresión cuantitativa se sitúa entre 0 y –1.

28
Relación nula o ausencia de relación

Se da cuando dos variables son independientes una de la otra, se puede decir que las
puntuaciones en las dos variables se deben a factores aleatorios. La forma de expresión
cuantitativa sería 0 (ausencia de relación).

3. El coeficiente de correlación simple y su interpretación.

El coeficiente de correlación nos mide el valor de la covariación o variación conjunta de dos


series de datos. El valor de ese coeficiente nos marca la existencia de una relación directa de
variables (valores positivos) o inversa (valores negativos), es decir, los valores cuantitativos del
coeficiente se sitúan entre +1 y –1. Interpretar los valores de esos coeficientes depende de
diversos factores, entre otros, del procedimiento empleado en su cálculo y de la calidad de medida
de las variables. La mayor parte de los investigadores tienden a identificar tres aspectos:

El tipo de variables que se relacionan: cuando se da una similitud entre el valor del
coeficiente encontrado en el estudio empírico y el encontrado en el mismo grupo en
trabajos previos, también cuando se han encontrado unos valores elevados en anteriores
estudios y se repite en la actualidad la misma tendencia en los datos.

La variabilidad del grupo: cuanto mayor es la variabilidad del grupo, mayor será el valor del
coeficiente de correlación.

La finalidad a la que se destina el coeficiente: así cuando el coeficiente se emplea para


determinar la fiabilidad de un instrumento de medida debe tener unos valores por encima
de 0’85.

En la mayoría de las ocasiones se suelen aceptar las siguientes interpretaciones:

Valor del Interpretación


coeficiente
Entre 0’00 y + o – Correlación muy baja, indiferente,
0’20 despreciable
Entre 0’21 y + o – Correlación baja
0’40 Correlación media, marcada, notable
Entre 0’41 y + o – Correlación alta, elevada, fuerte
0’70 Correlación muy alta, muy elevada
Entre 0’71 y + o –
0’90
Entre 0’91 y + o – 1

Asimismo se puede interpretar a través del coeficiente de determinación (d), cuyo cálculo se
realiza a partir del coeficiente de correlación (r) elevado al cuadrado y multiplicado por 100. Se
interpreta como el porcentaje de la varianza de una variable explicada por la otra. En la
investigación en educación, la interpretación de los coeficientes se suele completar con su
significación estadística. Se trata de poder afirmar que la correlación entre dos variables es real.

4. El coeficiente de correlación de Pearson (r).

También recibe la denominación de correlación producto-momento. Se utiliza cuando las dos


variables que se relacionan tienen una naturaleza cuantitativa sean continuas o discretas, medidas
29
a nivel de intervalo, cumplirán el requisito de que se distribuyen normalmente y estén linealmente
relacionadas. Para llevar a cabo su cálculo empírico existen diferentes fórmulas:

Puntuaciones
r = directas

Puntuaciones diferenciales
r=

La columna X se calcula elevando al cuadrado cada uno de los valores de X: 7 = 49; lo mismo
haríamos con Y, 8 = 64. La columna X · Y recoge los productos cruzados de los valores de cada
sujeto: 7 · 8 = 56; 5 · 4 = 20.

Ejemplo: Se presentan las calificaciones de Matemáticas (X) y Física (Y).

Sujetos Var. X Var. Y X Y X·Y x x y y x·y


1 7 8 49 64 56 1’5 2’25 2 4 3
2 5 4 25 16 20 -0’5 0’25 -2 4 1
3 9 8 81 64 72 3’5 12’25 2 4 7
4 7 7 49 49 49 1’5 2’25 1 1 1’5
5 4 3 16 9 12 -1’5 2’25 -3 9 4’5
6 6 7 36 49 42 0’5 0’25 1 1 0’5
7 3 5 9 25 15 -2’5 6’25 -1 1 2’5
8 5 6 25 36 30 -0’5 0’25 0 0 0
9 4 5 16 25 20 -1’5 2’25 -1 1 1’5
10 5 7 25 49 35 -0’5 0’25 1 1 -1’5
Total 55 60 331 386 351 28’5 26 21

Previamente se deben calcular las medias de las dos variables del problema:

Y= =

Para la variable X:

x=X–

Para la variable Y:

y =Y–Y

Así pues, el cálculo del coeficiente de Pearson con puntuaciones directas sería:

r= =

En el supuesto de puntuaciones diferenciales quedaría:

r=

Según la escala de valoración que hemos presentado en páginas anteriores, el valor de 0’77
está comprendido entre 0’71 y 0’90; por lo tanto, podemos afirmar que la correlación entre las
calificaciones es alta, elevada, notable. Ello quiere decir que aquel sujeto que alcance una
calificación elevada en Matemáticas, tiene muchas posibilidades de repetir los resultados en
Física.

5. El coeficiente de correlación ordinal de Spearman (r).

En muchas de las variables que utilizamos, tenemos que recurrir a datos de otra naturaleza, si
bien se expresan mediante valores numéricos. Se suelen emplear los puestos que ocupan las
puntuaciones en una serie ordenada: el orden de las calificaciones en una variable, la integración
de los estudiantes en las actividades de clase, etc. dada la dificultad de alcanzar una exactitud en
30
las puntuaciones alcanzadas, nos interesa conocer la posición, orden o rango que ocupan en una
serie ordenada de valores. Ante esos casos, debemos recurrir al coeficiente de correlación de
Spearman.

Para proceder a la transformación de las puntuaciones obtenidas de la aplicación directa del


instrumento de recogida de datos en rangos se suele comenzar asignando el rango o posición 1 a
la puntuación más alta, la siguiente tendrá el rango 2, la siguiente el 3, y así sucesivamente, de tal
forma que el último rango que se asigne debe coincidir con el número de sujetos de la muestra. En
aquellos casos en que exista más de una puntuación similar, la asignación de rangos se realiza
calculando la media de las posiciones que les corresponden a esos dos o más sujetos. Aunque
existen varios procedimientos de cálculo, tenemos la siguiente fórmula:

r=

n indica el número de sujetos o de pares de puntuaciones y D es la diferencia de rangos que


ocupa un mismo sujeto en dos variables.

Ejemplo: Queremos conocer la correlación que existe entre los niveles de comprensión oral
(X) y los de expresión escrita (Y) evaluados mediante una escala entre 0 y 50 que ha establecido
el propio docente. Los resultados son los siguientes:

Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
s
Var. X 45 39 50 33 47 25 40 30 20 40 25 15 23 35 17
Var. Y 38 35 45 30 50 28 35 35 15 40 32 15 14 30 12

Se han sintetizado todos los cálculos previos a la siguiente tabla:

Sujetos Var. X Rango (X) Var. Y Rango (Y) D D


3 50 1 45 2 -1 1
5 47 2 50 1 +1 1
1 45 3 38 4 -1 1
10 40 4’5 40 3 +1’5 2’25
7 40 4’5 35 6 -1’5 2’25
2 39 6 35 6 0 0
14 35 7 30 9’5 -2’5 6’25
4 33 8 30 9’5 -1’5 2’25
8 30 9 35 6 +3 9
11 25 10’5 32 8 +2’5 6’25
6 25 10’5 28 11 -0’5 0’25
13 13 12 14 14 -2 4
9 20 13 15 12’5 +0’5 0’25
15 17 14 12 15 -1 1
12 15 15 15 12’5 +2’5 6’25
41

r=

Como este valor de correlación 0’92 está por encima de 0’90 podemos decir que la relación
que se establece entre la compresión lectora y la expresión escrita es muy alta.

6. El coeficiente de contingencia (C).

En el caso de las variables nominales o atributos, es preferible utilizar la expresión grado de


asociación en vez de grado de correlación. Se utiliza en aquellos supuestos en que se recogen
31
datos de variables clasificadas en categorías. Dentro del campo educativo, se las identifica como
variables de categorización, pues nos permiten estudios diferenciados en función de las
categorías de esas variables. Por ejemplo, el nivel de estudios, la categoría profesional, lugar de
residencia, el sexo, etc. En aquellos supuestos en que nos interese conocer el grado de
asociación entre dos variables de naturaleza nominal, tenemos que recurrir al coeficiente de
contingencia que se denota con la letra C.

donde

a su vez

En el cálculo de C, debemos comenzar por determinar los valores de las frecuencias


esperadas. Para ello se multiplica el número total de sujetos de esa fila (f) por el número de
sujetos de esa columna (f) y se divide entre el número total de sujetos de la muestra (f). Por su
parte, el cálculo del estadístico Ji Cuadrado (X) mide el grado de discrepancia que se manifiesta
entre las frecuencias observadas o empíricas (f) y las frecuencias esperadas o aleatorias (f).
Finalmente, el cálculo de C se realiza mediante la raíz cuadrada del cociente de Ji cuadrado entre
el número total de sujetos de la muestra (n) más Ji Cuadrado. En todo caso, el denominador
siempre será superior al numerador. C solo es válida en las tablas de contingencia cuadradas, es
decir, cuando el número de filas y columnas es el mismo.

Ejemplo: En una investigación queremos conocer el grado de relación que existe entre el tipo
de estudios que han elegido 320 sujetos (Ciencias Sociales y Jurídicas, Ciencias y Humanidades)
y el nivel socioeconómico en que se ubica su familia (bajo, medio y alto).

Estudios Ciencias Sociales y Ciencias Humanidades


Nivel socioec. Jurídicas
Bajo 20 40 60
Medio 40 40 40
Alto 40 20 20

Debemos comenzar con la determinación de las frecuencias esperadas en cada una de las 9
celdillas. En el caso de la fila 1 y columna 1 nos queda:

En el caso de la fila 1 y columna 3:

y así sucesivamente todas las demás, lo que nos lleva a:

Ciencias Sociales Ciencias Humanidades Total


Estudios y Jurídicas
Nivel socioec.
Bajo 20 40 60 120
(37’5) (37’5) (45)
Medio 40 40 40 120
(37’5) (37’5) (45)

32
Alto 40 20 20 80
(25) (25) (30)
Total 100 100 120 320

A partir de los datos de la tabla anterior, ya podemos calcular el valor del estadístico Ji
Cuadrado (X):

Finalmente, calculamos el valor de C:

Se puede calcular el C máximo, teniendo en cuenta que c se refiere al número de columnas,


que lógicamente coincidirá con el de filas:

7. El coeficiente de correlación biserial-puntual (r).

Cuando buscamos el grado de relación que se manifiesta entre una variable cuantitativa,
continua o discreta y otra auténticamente dicotómica (de dos categorías), debemos recurrir al
coeficiente biserial-puntual. En realidad, nos encontramos ante una extensión del coeficiente de
correlación de Pearson. Tenemos dos fórmulas:

Se pondrán la diferencia de las medias en valores absolutos con el fin de evitar los valores
negativos para la correlación.

Ejemplo: Si queremos calcular el nivel de relación que existe entre el rendimiento académico
de los estudiantes de Matemáticas de un Curso de Secundaria, medido mediante la aplicación de
una prueba objetiva de 50 ítems, y el sexo. Los dates de la variable continua suelen agruparse en
intervalos de clase, de tal forma que construye la siguiente tabla:

Punt. Intervalo Femenino Masculino Total


1–7 2 1 3
8 – 14 6 4 10
15 – 21 9 5 14
22 – 28 11 13 24
29 – 35 8 10 18
36 – 42 3 6 9
43 – 49 2 4 6
Total 41 43 84

Debemos calcular las puntuaciones medias de cada uno de los grupos y la media del total de
sujetos, la desviación típica del conjunto de puntuaciones, y la proporción de cada uno de los
grupos en relación al total. X es la marca de clase de cada uno de los intervalos de la distribución,
p la categoría femenina, y q la masculina.

33
Intervalo f f f X X·f X·f X·f X·f
1–7 2 1 3 4 8 4 12 48
8 – 14 6 4 10 11 66 44 110 1210
15 – 21 9 5 14 18 162 90 252 4536
22 – 28 11 13 24 25 275 325 600 15000
29 – 35 8 10 18 32 256 320 576 18432
36 – 42 3 6 9 39 117 234 351 13689
43- 49 2 4 6 46 92 184 276 12696
41 43 84 976 1201 2177 656111

Cálculos previos:

Según la escala de valoración, como se encuentra entre 0 y 0’20 se considera que la relación
entre las variables es muy baja, indiferente o despreciable.

8. Otros coeficientes de correlación.

a. El coeficiente PHI (Ø).

Se emplea cuando buscamos la existencia de relaciones entre dos variables dicotómicas,


aunque se podría utilizar con variables dicotomizadas (variables continuas que han transformado
sus puntuaciones en dos categorías).

Ejemplo: Queremos comprobar la existencia de relación entre la pertenencia a un centro de


enseñanza (público o privado) y las respuestas que nos ofrece una muestra de cada centro a un
ítem o elemento con dos alternativas de respuesta (verdadero/falso), siendo la respuesta correcta
la opción verdadero.

Público Privado Total


Falso 39 (A) 29 (B) 68
Verdadero 64 (C) 55 (D) 119
Total 103 84 187

Como 0’034 se encuentra muy próximo al 0, nos indica la ausencia de relación entre el tipo de
centro y el acierto en el ítem que se analizaba.

b. El coeficiente de correlación tetracórico (r).

Se emplea en aquellos casos en que las dos variables son de tipo cuantitativo y continuo.
Consiste en dividir las puntuaciones de las dos variables en categorías. Su fórmula es la siguiente:

En el numerador figura el producto cruzado de la diagonal donde coinciden los mismos


signos, mientras que en el denominador figura el cruce en que no coinciden los valores. Una vez
determinado el valor de ese cociente se busca en la tabla asociada a la distribución de los
34
cocientes, donde nos muestra el valor del coeficiente para un intervalo entre el que se encuentre
el cociente empírico. Existe otro procedimiento directo, con la siguiente fórmula:

El valor así obtenido es el coeficiente de correlación.

Ejemplo: Comprobar la relación entre las puntuaciones alcanzadas en matemáticas (X)


medidas a través de las calificaciones escolares en la escala de 1 a 10 y las obtenidas en una
prueba de razonamiento matemático (Y) mediante una prueba de precisión entre 1 a 100. Por
conveniencia, se decide dicotomizar las variables.

Estudiantes Puntuación en Prueba de


Matemáticas (X) razonamiento
(Y)
1 1 35
2 2 40
3 2 28
4 3 30
5 3 25
6 3 42
7 4 52
8 4 41
9 4 55
10 4 58
11 5 48
12 5 55
13 5 43
14 6 40
15 6 60
16 6 80
17 7 70
18 8 90
19 9 75
20 10 95

Para proceder a la dicotomización debemos buscar la puntuación que ocupa el lugar central
(mediana) en cada una de las series (entre el 10 y el 11):

Como los valores de X están ordenados, buscamos el valor central:

El mismo procedimiento para Y:

Con estos dos valores de referencia, construimos una tabla de contingencia.

- + Total
+ 3 (A) 7 (B) 10
- 7 (C) 3 (D) 10
Total 10 10 20

Primer procedimiento:

Como este valor está comprendido entre 5’389 y 5’595 el valor del coeficiente de correlación,
según la tabla, es 0’59.

35
Segundo procedimiento:

Según los valores de la tabla, podemos indicar que existe una correlación media, marcada o
notable, por estar comprendido entre 0’41 y 0’70.

c. Coeficiente de correlación biserial (r).

Se utiliza cuando se trata de establecer la relación que existe entre una variable cuantitativa,
continua o discreta, y otra dicotomizada. Así, las dos variables son de naturaleza cuantitativa, una
de las cuales es presentada en escala de intervalo y la otra ha sido dicotomizada, y debajo de las
cuales subyace una distribución normal. Las ecuaciones de cálculo son:

Ejemplo: Queremos calcular el grado de relación que existe entre las puntuaciones de una
prueba de rendimiento, y el nivel de integración de los estudiantes. Por lo tanto, tenemos la
siguiente tabla:

Prueba de rendimiento Integrados (p) No integrados (q)


1–5 3 3
6 – 10 4 6
11 – 15 8 9
16 – 20 15 14
21 – 25 23 10
26 – 30 12 5
31 – 35 10 4
36 – 40 5 2
80 53

Necesitamos conocer la puntuación media de cada uno de los grupos y la total, la desviación
típica del total de puntuaciones y los valores de p y q que son las proporciones de las dos
categorías dicotomizadas. A su vez, creamos la siguiente tabla:

P. rdto. I (f) NI (f) Total (f) X X·f X·f X·f X· f


1–5 3 3 6 3 9 9 18 54
6 – 10 4 6 10 8 32 48 80 640
11 – 15 8 9 17 13 104 117 221 2873
16 – 20 15 14 29 18 270 252 522 9396
21 – 25 23 10 33 23 529 230 759 17457
26 – 30 12 5 17 28 336 140 476 13328
31 – 35 10 4 14 33 330 132 462 15246
36 – 40 5 2 7 38 190 76 266 10108
80 53 133 1800 1004 2804 69102

Para establecer el valor de y, debemos tener en cuenta que se trata de una variable
cuantitativa que se distribuye siguiendo el modelo de curva normal (z). Por lo tanto, al conocer los
valores de p (área de la parte mayor) y q (área de la parte menor), buscamos en las columnas
correspondientes a estos valores y, en la misma fila, viene asociado el valor de y que es 0’3857
(por mayor proximidad a los dos valores). Así pues, las dos fórmulas de cálculo son las siguientes:

36
Según las tablas de interpretación de los coeficientes, al estar el valor 0’255 comprendido
entre 0’21 y 0’40 podemos indicar que se trata de una relación baja o moderada.

9. La regresión lineal simple.

La interpretación de los coeficientes de correlación se basa en la intensidad de esa relación,


desde los valores próximos a 0 hasta los que se acercan a 1. Esos valores permiten conocer la
varianza compartida. Para su cálculo, se eleva el valor del coeficiente al cuadrado y se obtiene el
denominado coeficiente de determinación. Es este coeficiente de determinación el que hace
posible que se puedan estimar los valores de una variable conociendo los valores en la otra. Este
procedimiento de estimación es el que conocemos como regresión lineal simple, cuya función
primordial nos permite la predicción. En el campo educativo, es de suma importancia poder
predecir las puntuaciones que puede obtener un estudiante en una determinada variable,
conociendo los resultados obtenidos en otra prueba con la que guarda un buen nivel de relación.
Francis Galton fue el primero que puso en práctica este tipo de análisis, conocida como la línea de
regresión, y ha sido empleada para llevar a cabo la predicción o estimación de los valores de una
variable (variable criterio) a partir del conocimientos de los valores de otra variable distinta
(variable predictora). El procedimiento de cálculo de la cuantía de las predicciones recibe el
nombre de regresión lineal. La expresión algebraica de la ecuación es la siguiente:

a es una constante equivalente al valor de Y’ cuando el valor de Xes igual a cero. b nos indica
la pendiente de esa recta de Y sobre X o coeficiente de regresión de Y sobre X. la pendiente
describe la razón del incremento de Y con respecto a X. Por su parte, X nos muestra el valor de la
variable predictora. Las puntuaciones en Y se refieren a la variable de criterio recogidas por
observación. Finalmente, la Y’ se refiere a las puntuaciones pronosticadas de la variable
dependiente después del ajuste de las puntuaciones Y en sujetos de otra muestra. La principal
ventaja del análisis de regresión se encuentra en que resume en una expresión simple gran
cantidad de información.

37
TEMA 7: APLICACIONES DE LA CORRELACIÓN: FIABILIDAD Y VALIDEZ DE LAS
MEDIDAS
1. Introducción.

En este tercer bloque de contenidos, nos vamos a centrar en las aplicaciones de la Estadística
a diversos campos relacionados con la investigación en educación. Vamos a analizar aquellos
aspectos relacionados con las características técnicas de los instrumentos de medida.
Seguidamente nos detendremos en el estudio de la validez en sus diferentes modalidades. Para
finalizar, ofrecemos unas directrices para el estudio y análisis de los elementos que configuran las
pruebas: índice de dificultad, de homogeneidad y de validez.

2. Estudio de la fiabilidad.

La fiabilidad de las medidas se identifica con la precisión, de tal forma que decimos que un
instrumento es fiable cuando mide algo con precisión, independiente de lo que se esté midiendo.
Por ello, una puntuación observada en un sujeto podrá descomponerse en dos partes: la que se
corresponde con la puntuación verdadera y el posible error que se comete. Se acepta que esos
errores los podemos dividir en sistemáticos y aleatorios. Los primeros vienen asociados a las
características internas del instrumento que afectaría a todo lo que se mida con él, mientras que el
error de tipo aleatorio es debido a aquellas variables cuyos efectos nos resultan desconocidos.
Cuando menor sea el error, más fiable es el instrumento. También podemos expresar la fiabilidad
como la constancia en las puntuaciones de los sujetos o bien la concordancia entre varias
mediciones sucesivas en una misma realidad.

a. Procedimientos para determinar la fiabilidad.

i. La fiabilidad como estabilidad. (Pearson, puntuaciones directas)

También se identifica como procedimiento de la repetición o del test-retest. Se busca la


correlación que existe entre las puntuaciones obtenidas por un mismo grupo de sujetos,
debidamente identificados, en dos aplicaciones sucesivas de una misma prueba en dos momentos
diferentes, entre ambas aplicaciones debe transcurrir un tiempo. Si transcurre poco tiempo, los
sujetos pueden recordar las respuestas anteriores (memoria), en cambio, si transcurre mucho
puede influir los efectos de la maduración, la práctica del aula. Muchos de los autores lo suelen
fijar entre 20-25 días de la primera a la segunda aplicación.

Ejemplo: Para evaluar a unos estudiantes, se construye una prueba que consta de 20 ítems.
Realiza una primera aplicación a una muestra de 40 sujetos, transcurridos 22 días, vuelve a
aplicar la misma prueba a los mismo 40 sujetos.

Sujetos 1ª aplic. 2ª aplic. Sujetos 1ª aplic. 2ª aplic. Sujetos 1ª aplic. 2ª aplic.


1 12 13 15 14 14 29 11 13
2 18 17 16 8 8 30 18 17
3 15 15 17 10 11 31 10 10
4 11 10 18 17 16 32 17 16
5 9 10 19 14 13 33 8 9
6 17 16 20 11 12 34 12 13
7 13 15 21 7 8 35 14 15
8 8 * 22 17 15 36 16 17
9 18 17 23 12 12 37 8 9
10 12 12 24 12 13 38 11 10
11 7 6 25 18 19 39 18 19
12 11 10 26 15 16 40 12 12
13 15 16 27 13 13
14 20 14 28 8 7
X (517) sería la primera aplicación, e Y (522) la segunda. Utilizando la fórmula de
puntuaciones directas de Pearson:

La correlación entre la primera y segunda aplicación es de 0’96; así, cuando los valores están

38
por encima de 0’95 se considera que la prueba tiene una muy buena fiabilidad.

ii. La fiabilidad como equivalencia. (Pearson, puntuaciones directas)

También recibe la denominación de formas paralelas. Consiste en aplicar dos pruebas


diferentes pero que miden el mismo rasgo o característica, lo que nos permite calcular el
coeficiente de correlación o equivalencia entre ambas puntuaciones. Se considera que son formas
paralelas cuando coinciden en los siguientes aspectos: objetivos, contenidos y forma de la prueba,
grado de dificultad de los ítems, mismas instrucciones para contestar la prueba, número de
elementos (longitud), duración o tiempo de contestación. Si transcurren 20 días, nos puede ofrecer
el cálculo de la fiabilidad como equivalencia y también como estabilidad. Si transcurre poco
tiempo, nos hallamos ante el coeficiente de equivalencia. Para calcular el valor del coeficiente
debemos tener en cuenta el nivel de medición de las respuestas, aunque en la gran mayoría de
los casos se recurre al coeficiente de correlación de Pearson.

Ejemplo: Queremos determinar la fiabilidad de una prueba de Física en una muestra de 30


sujetos a los que se aplica una primera prueba que consta de 25 ítems, transcurridos 3 días se
aplica una prueba equivalente. Los resultados son:

X es la prueba original, e Y la equivalente. Por lo tanto,

El valor es 0’92, por lo tanto, el índice de fiabilidad como equivalencia es bueno.

iii. La fiabilidad como consistencia interna.

También conocido de las mitades, nos permite dividir la puntuación total del sujeto en una
prueba en dos partes (mitades), bien eligiendo como criterio los ítems pares y los impares o bien la
primera y la segunda mitad. En realidad obtenemos dos puntuaciones para cada sujeto.
Estableciendo una relación entre ambas partes nos dará el coeficiente de fiabilidad como
consistencia interna. Somos partidarios de utilizar este criterio mitades, y la división será más
equilibrada.

Ejemplo: Se ha aplicado una prueba de 30 ítems a una muestra de 12 sujetos. Queremos


determinar el valor de la fiabilidad mediante la consistencia interna de esa misma prueba; para
ello, la puntuación de cada sujeto se ha dividido en dos puntuaciones: ítems impares (primera
mitad: variable X), e ítems pares (segunda mitad: variable X).

Sujetos X X X X X·X d d T T
1 12 13 144 169 156 -1 1 25 625
2 8 7 64 49 56 +1 1 15 225
3 11 10 121 100 110 +1 1 21 441
4 14 15 196 225 210 -1 1 29 841
5 7 6 49 36 42 +1 1 13 169
6 9 11 81 121 99 -2 4 20 400
7 13 11 169 121 143 +2 4 24 576
8 9 9 81 81 81 0 0 18 324
9 5 6 25 36 30 -1 1 11 121
10 13 12 169 144 156 +1 1 25 625
11 6 8 36 64 48 -2 4 14 196
12 11 9 121 81 99 +2 4 20 400
118 117 1256 1227 1230 +1 23 235 4943

39
Procedimiento de Spearman-Brown

Se basa en la correlación entre las mitades mediante el coeficiente de Pearson. Así pues:

Los subíndices son iguales, pues se trata de una correlación interna. r se calcula mediante el
coeficiente de correlación de Pearson entre las mitades, así llamamos X a las puntuaciones de los
ítems impares (1ª mitad), y X a la suma de los ítems pares (2ª mitad). Siendo:

El coeficiente de fiabilidad será:

Con el valor 0’93, esa prueba tiene una buena fiabilidad, por encima de 0’90.

Procedimiento de Rulon

Se basa en la varianza de las diferencias, es decir, debemos comprobar la relación entre la


varianza total del instrumento y la existente entre ambas mitades. A medida que las diferencias
entre las puntuaciones de los sujetos en las mitades es más elevada, menor será el valor del
coeficiente. Tenemos la siguiente fórmula:

Debemos calcular previamente tanto la varianza de las diferencias como la total. Como nos
encontramos ante muestras pequeñas (número de sujetos menor o igual a 30), se debe dividir
entre n – 1. Siendo:

Así pues:

Procedimiento de Guttman

Se basa en la varianza de las mitades, de tal forma que a menor valor de las varianzas más
elevada será la fiabilidad de la prueba. Se usa la siguiente fórmula:

Dado que trabajamos con los mismos datos, ya tenemos calculada la varianza total,
solamente debemos obtener los valores de las varianzas de las mitades (impares/pares):

Los tres procedimientos nos conducen al mismo valor del coeficiente de fiabilidad (0’93).

40
Procedimiento de Kuder-Richardson

El cálculo de la fiabilidad se realiza a partir de las intercorrelaciones de cada uno de los


elementos o ítems, pues se divide la prueba en tantas partes como ítems posee; con ello
obtenemos además del coeficiente de consistencia interna, el coeficiente de homogeneidad.
Solamente vamos a aplicarlo en el supuesto de los ítems dicotómicos, mediante la siguiente
fórmula:

Donde n es el número de elementos de que consta la prueba, p la proporción de sujetos que


aciertan, y q = 1 – p se debe realizar con cada uno de los ítems por el valor que necesitamos en la
suma de p · q de todos los elementos.

Ejemplo: Tenemos una prueba de 30 ítems, pero suponiendo que son dicotómicos, y después
de calcular los valores de p y q de cada ítem, hemos obtenido el valor de p · q = 3’70.

En la gran mayoría de los casos el valor alcanzado en el procedimiento Kuder-Richardson


suele ser más bajo que el calculado por las anteriores fórmulas. No obstante, 0’91 sigue siendo un
valor alto para la fiabilidad de la prueba.

Procedimiento alfa () de Cronbach

Se emplea cuando recurrimos como instrumento de recogida de datos el cuestionario. Se


suele recurrir a paquetes estadísticos, entre ellos el SPSS. Para ello se parte de la opción
ESCALAS, eligiendo dentro de ella la alternativa ANÁLISIS DE LA FIABILIDAD. La indicación del
modelo por defecto es el alfa de Cronbach, que resulta del cociente entre las sumas de varianzas
de los diferentes ítems, dividida entre la varianza total, ponderada por el número de ítems de la
escala. La fórmula es:

Donde, n es el número de elementos o ítems de la prueba, s es la varianza de cada uno de


los ítems, y s es la varianza de las puntuaciones totales de la prueba. La fiabilidad de los
cuestionarios está relacionada directamente con el número de ítems del mismo, a mayor cantidad
de ítems mayor fiabilidad. En el cuadro siguiente se recoge una salida de información, tal y como
nos lo ofrece el ordenador:

El coeficiente resultante = 0’9145 nos indica que ese cuestionario o prueba alcanza un buen
nivel de fiabilidad. Los datos que nos aporta la salida del ordenador son: número de casos
contemplados en el cálculo, número de ítems y valor del coeficiente alfa. El programa nos facilita
dos tipos de tablas complementarias: la primera nos aporta, para cada uno de los ítems, la media,
la desviación estándar y el número de casos; la segunda presenta, para cada uno de los ítems, la
media de la escala de los ítems, la varianza de cada ítem, la correlación de cada uno de esos
ítems con la puntuación total de la prueba y el valor del coeficiente alpha para cada uno de los
ítems del cuestionario.

3. Estudio de la validez.

Un instrumento es válido cuando mide lo que dice medir y no otra cosa distinta. Ningún
instrumento va a ser absolutamente válido, sino que tendremos que matizar el grado y la
naturaleza de la validez.

a. La validez de contenido.
41
Será muy difícil que en ese instrumento estén recogidos todos los elementos relacionados con
ese objeto, por lo que debemos conformarnos con una parte. Esta muestra ha der ser suficiente y
representativa en función del universo de los ítems relacionados con el objeto de estudio. Así, la
suficiencia se relaciona con el número mínimo de elementos que debe incluir el instrumento, para
tener garantías de que comprende aquellos aspectos que son esenciales para el estudio. En
cuanto a la representatividad, exige un conocimiento profundo sobre el tema. En el caso de que la
relación entre las tareas no sea tan directa, es conveniente elaborar una tabla de especificaciones.
A este proceso se le denomina validación. Aunque no existe una técnica concreta para determinar
la validez de contenido, se puede recurrir a la tabla de especificaciones, y a la opinión de jueces o
expertos.

b. La validez predictiva.

Permite conocer la capacidad que tiene la prueba para avanzar las expectativas sobre futuros
hechos o fenómenos. Su cálculo se realiza estableciendo una correlación entre las puntuaciones
alcanzadas en la prueba a validar por un determinado número de sujetos y los obtenidos en otra
prueba denominada criterio. Para proceder a su cálculo estadístico es preciso determinar el
coeficiente de correlación entre ambas puntuaciones. En la gran mayoría de los casos,
recurriremos al coeficiente de correlación de Pearson.

Ejemplo: Se ha elaborado una prueba de 30 ítems a 20 sujetos. Se han recogido las


calificaciones de ese mismo grupo del pasado curso que nos van a servir como criterio de
comparación.

Sujetos Prueba (X) Criterio (Y) X Y X·Y


1 20 8 400 64 160
2 12 3 144 9 36
3 17 5 289 25 85
4 25 10 625 100 250
5 8 2 64 4 16
6 15 5 225 25 75
7 21 7 441 49 147
8 13 4 169 16 52
9 16 6 256 36 96
10 30 9 900 81 270
11 9 2 81 4 18
12 18 5 324 25 90
13 14 3 196 9 42
14 28 10 784 100 280
15 22 6 484 36 132
16 11 2 121 4 22
17 15 6 225 36 90
18 22 5 484 25 110
19 26 9 676 81 234
20 13 3 169 9 39
355 110 7057 738 2244

El coeficiente de relación de Pearson nos indicará el nivel de validez de la prueba que


estamos analizando.

0’88 muestra una elevada relación entre la prueba a validar y el criterio utilizado, por lo tanto,
las posibilidades de predicción son buenas.

c. La validez concurrente.

Es una modalidad predictiva, pues se calcula mediante una correlación entre las puntuaciones
de los sujetos en la prueba a validad y el criterio externo. La diferencia estriba en que ambas
42
mediciones se llevan a cabo en el mismo tiempo, es de utilización inmediata.

d. La validez de constructo.

También se denomina de elaboración o de construcción. Se refiere al objeto mismo de la


medición. Se trata de analizar la conexión que se manifiesta entre la teoría en la que se basa la
prueba y los ítems que la componen. Se deben establecer una serie de hipótesis iniciales, que,
una vez comprobadas nos ofrecerá tanto la validez del instrumento como la teoría subyacente al
instrumento. Cuando las hipótesis no sean confirmadas, se puede deber a que la prueba carece
de validez o que es insuficiente. También puede ocurrir que la hipótesis no esté bien planteada o
que la propia investigación no permita validar la hipótesis.

e. La validez aparente.

También recibe la denominación de validez didáctica. Se refiere a la serie de aspectos


externos de la prueba: largura, formato, instrucciones, lenguaje, etc. Quizá no ofrezca información
relevante sobre el ajuste del instrumento al objeto de medida, pero contribuye a mejorar aquellos
aspectos externos, cuya influencia puede ser relevante para alcanzar una mayor participación.

4. Estudio de los elementos o ítems de una prueba.

a. El índice de dificultad (ID).

La dificultad de los elementos depende del grupo de sujetos que lo conteste y se expresa
numéricamente por el número de ellos que los resuelven satisfactoriamente. Una buena
composición de una prueba debe contemplar la siguiente distribución de elementos:

Muy fáciles …………………… 10%

Fáciles …………………............... 20%

Normales (dificultad media)…...40%

Difíciles ………………………... 20%

Muy difíciles ……………………10%

Las fórmulas de cálculo varían dependiendo del tipo de respuesta que se solicite en la prueba.
Cuando se pretende evocar una respuesta, la calificación final será igual al número de aciertos de
cada sujeto, los errores no penalizan, por ello se calcula de la siguiente forma:

Donde A indica el número de sujetos que aciertan el ítem, y n el número de sujetos que lo
intentan. En el supuesto de que la prueba esté compuesta por ítems que buscan el reconocimiento
de la mejor respuesta, es decir, entre varias opciones elegir la correcta, los errores penalizarán.
Así, la puntuación de un sujeto es la siguiente:

Donde E se refiere al número de errores, y n el número de alternativas de respuesta. Para


este caso de elementos de varias alternativas de respuesta, la fórmula que debemos aplicar es la
siguiente:

Este índice oscilará entre 0 y 1, de tal forma que cuando el valor se aproxima a 1, será muy
sencillo y contestado acertadamente por la mayoría, mientras que si se aproxima a 0 el elemento
será muy difícil. Para proceder a la interpretación de los índices de dificultad de los ítems se
suelen emplear cinco categorías:

43
Muy fáciles: ID por encima de 0’75

Fáciles: ID comprendido entre 0’55 y 0’75

Normales: ID comprendido entre 0’45 y 0’54

Difíciles: ID comprendido entre 0’25 y 0’44

Muy difíciles: ID por debajo de 0’25

b. El índice de homogeneidad (IH).

La homogeneidad de los elementos pone de manifiesto la coherencia de cada uno de ellos


con el total de la prueba. Se debe calcular el valor de la correlación entre cada elemento y el
conjunto de los demás, así pues, cuanto mayor es el coeficiente entre ambas puntuaciones, mayor
será la homogeneidad. El valor de referencia utilizado es 0’20; si su valor es superior a 0’20, es un
elemento homogéneo. Si los ítems son dicotómicos se utilizaría el coeficiente biserial-puntual (r),
en otros casos se podrá emplear el coeficiente biserial (r) o el tetracórico (r). Ahora bien, el valor
de este coeficiente debe ser corregido mediante la siguiente fórmula:

Donde r es la correlación entre el ítem y el total, s la desviación típica de las puntuaciones, s


la desviación típica en el ítem que se calcula .

c. El índice de validez (IV).

Los elementos de una prueba se consideran válidos cuando realmente miden lo que dicen
medir y no otra cosa distinta. Ello exige la existencia de una clara relación entre las puntuaciones
obtenidas por los sujetos de la muestra en cada uno de los ítems y las alcanzadas en el criterio de
validez. Pueden usarse los coeficientes biserial-puntual (dicotómicos), el biserial, el tetracórico o el
Phi. Generalmente, se consideran satisfactorios aquellos ítems cuyos valores del IV sean iguales o
superiores a 0’20.

44
TEMA 8: MODELOS ESTADÍSTICOS Y PROBABILIDAD. LA CURVA NORMAL DE
PROBABILIDADES
1. Presentación.

En nuestro ámbito de reflexión, los modelos cumplen en gran medida con la importante
función de representar la realidad y, como tendremos ocasión de apreciar, nos van a permitir
adentrarnos en la comprensión de la realidad, acercarnos a su explicación y hasta tomar
determinadas decisiones en el campo de la prueba de hipótesis.

2. Introducción.

La siguiente definición está muy próxima al sentido que se atribuye al concepto de modelo:
“Esquema teórico, generalmente en forma matemática, de un sistema o de una realidad compleja,
como la evolución económica de un país, que se elabora para facilitar su comprensión y el estudio
de su comportamiento”.

A partir de un determinado momento el modelo basado en la teoría debe funcionar en la


realidad; y el modelo surgido de la realidad debe encontrar una construcción teórica que lo
respalde. Un modelo que no explique con razonable adecuación la realidad, no nos sirve; y una
realidad para la que no somos capaces de encontrar un modelo que la represente con fidelidad
nos hace muy difíciles tanto su comprensión como la toma de decisiones en torno a la misma. Y
es que si una cualidad deben tener los modelos es la de resultar útiles. Ahora bien, tal utilidad
deriva de una característica propia de la teoría, como es su comprobabilidad.

3. Modelo.

Modelo es una representación de la realidad que puede ser muy variada: una representación
icónica (un cuadro, una escultura, etc.), matemática (fórmulas), analógica (esquemas, diagramas,
etc.). Todo modelo es una representación simplificada de la realidad a la que se refiere. Siempre
que se cumpla una que realidad es razonablemente bien representada por un modelo, las
cualidades de este, con una base teórico-científica, se pueden aplicar a aquella.

a. Utilidad de los modelos.

Si bien las predicciones a partir de modelos difícilmente pueden aplicarse a sujetos concretos,
sí pueden predecirse las tasas de incidencias de un determinado fenómeno en términos de
porcentajes y, siempre, debidamente moderadas a través de la probabilidad. En nuestro campo, si
somos capaces de establecer modelos suficientemente cercanos a la realidad, podremos hacer
predicciones, como el porcentaje de suspensos en el aula, o de niños violentos, o hiperactivos,
etc., en una determinada población escolar.

b. Modelos matemáticos y modelos estadísticos.

Se considera que un modelo estadístico es un tipo de modelo matemático en el que se


incorpora como componente fundamental la probabilidad. Los modelos matemáticos se expresan
mediante igualdades que reflejan la relación existente entre los componentes de la realidad. La
función es un modelo matemático; de todo es conocido que la longitud de la circunferencia es:

Se da una relación determinística entre C y r: conocido el valor del radio ® establecemos cuál
es el valor que, seguro, alcanzará C. Un modelo matemático clave en nuestro campo es la
campana de Gauss, cuya función es la siguiente:

Esta fórmula puede escribirse como distribución normal tipificada [z = (X – media


45
aritmética)/desviación típica]:

Los modelos estadísticos parten de un supuesto: las relaciones entre ambos términos de la
igualdad no son determinísticas o necesarias, sino estocásticas. En consecuencia, toda predicción
asume un cierto riesgo de error que se considera aleatorio. Los errores aleatorios tienden a
compensarse y su magnitud puede estimarse. Si un modelo matemático como el siguiente
establece una relación funcional necesaria:

(Y, Y, Y, …, Y = f(Y, Y, Y, …, Y)

En el caso de un modelo estadístico nos encontraríamos con:

(Y, Y, Y, …, Y = f(Y, Y, Y, …, Y) + e

Donde e es el error que afecta a la predicción. La meta es alcanzar e = 0.

4. Probabilidad.

a. La Estadística.

La Estadística ha sido definida como un conjunto de datos numéricos que se refieren a un


conjunto de sujetos; pero, también como la ciencia de recoger, analizar e interpretar tales datos.
Esta segunda acepción la sitúa como una rama del saber matemático. Cuando los resultados de
una prueba estadística vayan más allá de lo esperado por puro azar, se aceptará que el fenómeno
en cuestión no se explica por azar sino por la acción del investigador. Se comprenderá así la
importancia del conocimiento de los fenómenos aleatorios.

b. La probabilidad.

A los fenómenos determinísticos no se les aplica la probabilidad: son fenómenos que ocurren
porque tienen que ocurrir. Pero los fenómenos aleatorios, antes de que ocurran pueden ser más o
menos probables. Antes de que ocurra un fenómeno podemos estimar las probabilidades de que
ocurra o de acertar una predicción; se trata de la probabilidad a priori. Cuando los fenómenos ya
han ocurrido, podemos establecer la probabilidad de ocurrencia de tal fenómeno. En este caso a
posteriori, la probabilidad se calcula empíricamente y se traduce en la frecuencia relativa con la
que ocurre tal fenómeno cuando se repite un elevado número de veces en las mismas
condiciones.

i. Probabilidad a priori y a posteriori.

La probabilidad a priori se establece sobre la base del número de casos favorables dividido
por el de casos posibles. Si en la Lotería Nacional se juega con 90000 números y una persona
juega un número, la probabilidad a priori de que le corresponda el premio mayor será de 1/90000.
Para muchos fenómenos no tenemos claro cuáles son las probabilidades a priori, pero podemos
llegar a establecerlas a partir del estudio de la realidad. Cuando estudios reiterados vienen a
arrojar resultados compatibles, es posible establecer la probabilidad a priori de tal fenómeno. Y, a
partir de ahí, hacer estimaciones.

c. Cálculo de la probabilidad.

El lector debe conocer conceptos como espacio muestral, acontecimientos compuestos,


independencia, mutua exclusión y agotamiento o exhaustividad. Del mismo modo, nos referiremos
a la probabilidad condicional.

46
Espacio muestral es el conjunto de todos los resultados posibles de un fenómeno. Puede ser
establecido fácilmente en los casos de los dados o similares, acudiendo a la teoría de conjuntos.
También mediante diagramas en los que se presentan todas las combinaciones posibles. Cuando
dos conjuntos, A y B, no tienen elementos en común la probabilidad del conjunto A o del conjunto
B es igual a las probabilidades combinadas de A y B.

Se da con frecuencia la situación de dos conjuntos –o más– que mantienen algunos


elementos en común; por ejemplo, cuando una muestra de personas que abusan del alcohol lo
hacen también de las drogas. Si las muestras obtenidas nos dan 34 del conjunto A (Abuso de
alcohol), 18 del B (abuso de las drogas) y 4 que lo hacen de ambas sustancias, la ecuación no es
correcta, debiendo sustituirse por . En este caso, la ecuación más general para los cálculos es:

Que nos permite obtener la ecuación siguiente para el cálculo de la probabilidad:

El fenómeno de la exhaustividad o agotamiento se produce cuando los diferentes


subconjuntos son subconjuntos del espacio muestral y todos ellos juntos lo agotan. En tales
situaciones, su probabilidad es 1. Tal puede ser el caso del conjunto de estudiantes de un colegio
que obtienen toda la gama de calificaciones, desde 0 a 10. Las sumas de las probabilidades de
cada una de las calificaciones será 1, porque todos los subconjuntos agotan el conjunto de
calificaciones. Sin embargo, si a un grupo de jóvenes preguntados por sus preferencias musicales
se les ofrecen varias opciones, pero no aparece un tipo concreto, pero alguno o algunos de ellos
lo eligieran, el número de casos de cada uno de los subconjuntos no agotaría el conjunto de
preferencias musicales, lo que impediría obtener las probabilidades de cada subconjunto porque
faltan algunos elementos del espacio.

La mutua exclusión hace que dos acontecimientos sean mutuamente excluyentes cuando su
intersección sea un conjunto vacío. La independencia supone que la probabilidad de que ocurra el
fenómeno conjunto es igual al producto de las probabilidades de cada uno por separado:

Nos situamos ante el fenómeno de la probabilidad condicional si deseamos conocer la


probabilidad de un determinado acontecimiento o suceso cuando el otro es conocido. Por ejemplo,
¿cuál es la probabilidad de aprobar la asignatura de Física si se aprobó el pasado curso la de
Matemáticas? Su símbolo es p(B|A), y la fórmula es la siguiente:

i. El caso de las variables aleatorias continuas y discretas.

Una variable cuantitativa es discreta cuando no puede adquirir todos los valores posibles, es
decir, cuando el conjunto de valores posibles es numerable. Así, mientras las calificaciones de los
alumnos pueden admitir infinitos valores entre 0 y 10, el número de los alumnos de una clase solo
admite valores enteros. En el primer caso, la variable aleatoria es continua; en el segundo,
estamos ante una variable aleatoria discreta. Las variables cuantitativas continuas admiten un
número “no numerable” de casos o valores. Si representáramos una serie de datos mediante
histogramas de base igual a 1, podríamos encontrarnos con cuyos datos cuya base fuera 0’5 o 0’3
o 0’1; incluso sería posible que la base del intervalo fuera 0’03 o 0’001… hasta llegar a tener como
base un punto. Por tanto, habríamos pasado de una serie de rectángulos de base más o menos
ancha a una curva que uniría los infinitos puntos posibles de esa distribución. Esas sucesivas
representaciones gráficas tendrían determinadas cualidades, que nos van a permitir establecer: la
función de densidad de probabilidad y la función de distribución. Esas cualidades son:

El área ocupada por esas representaciones tiene como valor la unidad.

47
Las representaciones tienen siempre valores positivos.

En la representación en forma de histograma, con barras anchas, el eje de abscisas


representa una variable aleatoria discreta. Cuando la base son puntos la representación
es una curva, estamos ante una variable aleatoria continua.

En el caso de las variables cuantitativas discretas, el área que quede entre dos valores, A y B,
marcados en la misma, nos indica la proporción de casos del total. En el caso de las variables
cuantitativas continuas, es espacio traduce la probabilidad de que tal variable tome esos valores.

La función de densidad de probabilidad de una variable aleatoria continua cumple estas dos
condiciones:

Según la primera, tal función es no negativa; en la segunda debemos entender que el área
total es igual a la unidad.

La función de distribución de la variable aleatoria continua X es la que cumple:

Esta función nos permite establecer la probabilidad de que X tome valores iguales o menores
que x.

Tal probabilidad será mayor que 0 o menor que 1.

La función es no decreciente.

Si la probabilidad es 1, el suceso es seguro.

Si la probabilidad es 0, el suceso es imposible.

5. Algunas funciones de densidad de probabilidad.

a. Función de densidad de probabilidad normal.

Conocida también como Campana de Gauss, y creada por Carl Friedrich (1777-1855). Se
pueden apreciar los porcentajes de casos entre dos valores determinados:

Entre : 68%.

Entre : 95%.

Entre : 99’99932%.

Los anteriores valores, en términos de porcentajes, se convierten fácilmente en probabilidades


dividiendo por 100. Mediante la tabla de áreas de la curva normal podremos atribuir probabilidades
a un caso concreto, como la puntuación a la que corresponde (su probabilidad sería de 0’84, 0’5
por debajo de la media aritmética y 0’34 por encima de ella); si le correspondiera , su probabilidad
sería de 0’16 (0’5 – 0’34). Para este tipo de cálculos conviene manejar correctamente la tabla de
áreas de la curva normal, en sus diversas columnas.

b. Función de densidad de probabilidad X (Ji cuadrado).

Nos interesa resaltar que las variables aleatorias a las que le es aplicable se distribuyen
según X con n grados de libertad (g. l.).

48
Los g. l. en cada caso son n – 1, esto es, el número de casos menos 1. El último viene
condicionado por los valores de los anteriores. Según aumenta el número de los g. l., la
distribución de X se aproxima progresivamente a la distribución normal. Las tablas de X nos
ofrecen valores de probabilidad hasta 30 g. l. A partir de ahí, X se distribuye con un valor de:

La importancia de esta función radica en sus aplicaciones como prueba de bondad de ajuste y
como prueba de independencia. También se puede utilizar para obtener el grado de asociación
entre dos conjuntos de variables atributos ya que es necesario para calcular C o coeficiente de
contingencia:

c. Función de densidad de probabilidad t.

Conocida también como t de Student, fue creada por W. S. Gosset en 1908. Siendo Y y Z dos
variables aleatorias independientes, Y con una distribución Chi cuadrado con n grados de libertad,
y Z con una distribución normal estándar (0’1), entonces la distribución de la variable:

Viene dada por:

Cuando los grados de libertad aumentan, la distribución se aproxima progresivamente a la


campana de Gauss. Esta distribución se utiliza para decidir si la diferencia entre dos medias
aritméticas es o no estadísticamente significativa a un determinado nivel de confianza. En el caso
de que las muestras sean correlacionadas, la distribución de t tiene un estadístico de contraste
diferente del aplicado con muestras independientes.

d. Función de densidad de probabilidad F.

Fue creado por Sir Ronald Fisher. F, que no es sino el cuadrado de t, se puede aplicar,
además a contrastes con tres o más pares de medias en los diseños con tres o más grupos. F nos
informa de si se dan o no diferencias estadísticamente significativas entre varios grupos de
medias. En caso afirmativo, es preciso averiguar entre qué dos partes de medias se concreta tal
diferencia, razón por la cual debemos continuar el trabajo mediante las denominadas pruebas a
posteriori. Su fórmula es:

Si las dos varianzas poblacionales son iguales, la fórmula se reduce a:

La distribución de F es no negativa, sesgada hacia la derecha y sus valores oscilan entre 0 e


infinito si bien, por mucho que se aproximen al eje de abscisas, nunca llegan a cortarlo.

6. La curva normal de probabilidades.

Solo tiene sentido utilizar el modelo cuando el fenómeno al que lo apliquemos se conforme al
mismo.

Ejemplo: Imaginemos que estamos estudiando el comportamiento de las personas ante un


semáforo en ámbar y en rojo. Tomamos nota del comportamiento de las 1000 primeras personas
que pasan por el semáforo en el momento en que se pone en ámbar, teniendo los siguientes
resultados: 778 frenan, 215 pasan en ámbar, y 7 pasan en rojo. Representando estos datos
tendríamos esta figura. Es fácil comprobar que su forma no parece compatible con una curva
49
normal de probabilidades o de campana de Gauss.

Ejemplo: Pongámonos en el supuesto de un investigador que analiza los resultados de los


alumnos de bachillerato en una comunidad autónoma, encontrando los valores siguientes:

Calificaciones Frecuencias
10 74
9 175
8 219
7 340
6 528
5 750
4 370
3 210
2 96
1 43
0 9

Estos valores se acercan en mayor medida a una campana que los anteriores. La cuestión es
la siguiente: ¿podemos aplicar a estos datos las propiedades de un modelo teórico como la
campana de Gauss? Esta cuestión nos ayudará a resolver la Estadística mediante la prueba de
bondad de ajuste. Si los datos empíricos se ajustan razonablemente al modelo, esto es, si las
discrepancias son compatibles con las esperables por puro azar, consideraremos estos datos
como normales, y les aplicaremos todas las propiedades del modelo. En caso contrario, esta
actuación no estaría justificada.

a. El modelo.

Debemos dejar claro que no hay una única curva normal, sino una por cada par de valores de
la media y desviación típica. Eso nos conduce a una familia de curvas normales, pero que
cumplen con una serie de características:

El valor máximo de la ordenada corresponde a la media del grupo, y por tanto, a una
puntuación típica z = 0.

A ambos lados de la media (en el eje de abscisas z = 0) se encuentran dos puntos de


inflexión, que se corresponden con los valores de z ± 1.

La curva es simétrica respecto de la media, dado que coinciden media, mediana y moda.

La curva es asintótica, esto es, por mucho que se acerque al eje de abscisas, nunca llegará
a cortarlo.

b. La prueba de bondad de ajuste.

Para decidir si una distribución empírica se acomoda al modelo, o, si el modelo lo es de esa


realidad, se acude a lo que se denominan pruebas de bondad de ajuste: Ji cuadrado, prueba
binomial, Kolmogorov-Smirnov o la de rachas.

c. Prueba de Ji cuadrado (X).

La prueba de Ji cuadrado valora las discrepancias entre las frecuencias empíricas y las
50
teóricas según un determinado patrón o modelo. Si las discrepancias entre unas y otras no fueran
estadísticamente significativas a un determinado valor de confianza, admitiríamos que los datos
empíricos y el modelo o patrón son una misma cosa: no podríamos rechazar la hipótesis de
nulidad. Estaríamos admitiendo que las discrepancias encontradas pueden explicarse por puro
azar como consecuencia de los errores de muestreo.

X puede ser aplicada para valorar la discrepancia entre valores empíricos y valores teóricos
de muy diferente naturaleza. Para decidir si una distribución empírica, por ejemplo, la de los datos
de la tabla anterior, es compatible con la curva normal, deberemos aplicar la fórmula
correspondiente, que nos permite establecer la magnitud de las discrepancias entre frecuencias
observadas o empíricas (f) y frecuencias esperadas o teóricas (f) según el modelo.

Este estadístico se distribuye según la distribución Xpara un valor igual al de filas menos 1
cuando µ y son conocidas, y con –3 en caso de ser estimadas.

Ejemplo: Procederemos a comprobar si los datos de la tabla anterior son compatibles con el
modelo normal para un nivel de confianza del 99%.

X f L z p(z) p f (f – f (f – f) (f – f)/f
0’0055 15’48 15’48 239’54 15’48
10 74 10’5 2’54 0’9945 0’0157 44’18 29’82 889’23 20’13
9 175 9’5 2’026 0’9788 0’0443 124’66 50’34 2534’12 20’33
8 219 8’5 1’51 0’9345 0’0956 269’02 50’02 2502’00 9’3
7 340 7’5 0’99 0’8389 0’1563 439’83 99’83 9966’03 22’66
6 528 6’5 0’475 0’6808 0’1968 553’79 25’79 665’12 1’2
5 750 5’5 -0’04 0’4840 0’1963 552’39 197’61 39049’71 70’69
4 370 4’5 -0’56 0’2877 0’1454 409’16 39’16 1533’51 3’75
3 210 3’5 -1’07 0’1423 0’0864 243’13 33’13 1097’6 4’51
2 96 2’5 -1’59 0’0559 0’0385 108’34 12’34 152’27 1’41
1 43 1’5 -2’11 0’0174 0’0132 37’14 5’86 34’34 0’92
0 9 0’5 -2’625 0’0043 0’0043 12’10 3’10 9’61 0’79
N = 2814 2814 171’17

X son las puntuaciones obtenidas por el alumnado, f las frecuencias observadas, L los límites
superiores de cada intervalo, z las puntuaciones típicas de tales límites, p(z) la probabilidad que
corresponde a tales puntuaciones típicas, f las frecuencias esperadas o teóricas. Para la
determinación de f debemos hacer las siguientes operaciones:

Buscar en las tablas de la curva normal la probabilidad que corresponde a valores iguales o
menores que z, “Área de la parte mayor” cuando z es positiva, y “área de la parte menor”
cuando z es negativa.

En el caso de la primera columna es diferente: como empíricamente no tenemos


puntuaciones superiores a 10, pero la curva normal va hasta el infinito, buscaremos la
probabilidad de un valor superior a z = 2’54, esto es, desde z = +2’54 hasta el infinito.

Calcular, para cada intervalo, su propia probabilidad, restando de su valor p(z) el mismo
valor en el intervalo anterior (columna p).

Multiplicar tal valor por N, obteniendo la columna f

La columna z no s exige los cálculos previos de la media y la desviación típica; sus valores
son los siguientes:

Media = 5’58, y desviación típica: s = 1’935.

51
El resultado de nuestros cálculos es:

Las tablas de Ji cuadrado, para un nivel de confianza del 99%, y (11-1) g. l. nos da un valor de
23’209. Para 11 – 3 g. l., el valor es de 20’090. Se da una discrepancia claramente mayor de la
esperada por efecto del azar: los datos empíricos no son compatibles con el modelo de la curva
normal de probabilidades. Intuitivamente, comprobaremos esto con facilidad comparando las dos
distribuciones:

Con las frecuencias esperadas o teóricas en el supuesto de una distribución normal.

Con las frecuencias observadas.

52
TEMA 9: LOS BAREMOS O NORMAS. MUESTREO. APLICACIONES.
1. Presentación.

Hay muchos otros momentos en que la hipótesis presenta aplicaciones de notable relieve e
importancia. Una de ellas es la relativa al establecimiento de la calidad de los datos a recoger; y
otra está centrada en la interpretación de los valores que nos ofrecen tales instrumentos.

2. Introducción.

Para interpretar una puntuación necesitamos de algún tipo de referencia. En educación es


frecuente acudir a alguna de estas tres: la idiosincrásica o personalizada, la criterial y la normativa.
En el primer caso, la puntuación alcanzada por una persona en una prueba se valora atendiendo
bien a lo que alcanzó en una prueba anterior. El juicio valorativo de tal comparación suele ser el
de satisfactorio/insatisfactorio. En el caso criterial, la referencia es un nivel objetivo para decidir
sobre la suficiencia o insuficiencia. En el ámbito del aprendizaje esta es la referencia más
adecuada, compatibilizándola siempre que sea posible con la anterior. La tercera referencia es la
denominada normativa, lo que se viene a traducir en la elaboración de una regla de medida que
nos permita situar a cada persona en el conjunto de sus semejantes. Esta regla para medir e
interpretar las puntuaciones se conoce como baremo o norma.

3. Normas o baremos.

El término baremo procede de B. F. Barrême. Baremar es construir un baremo, esto es una


escala de puntuaciones obtenidas con un instrumento de medida que permite su interpretación
mediante la atribución a cada una de ellas de un determinado valor. Hay algunos elementos que
deben ser conocidos para interpretar una puntuación: el suelo y el techo de las puntuaciones
posibles, la regla de medida, el propio contenido del citado instrumento, y a quiénes va destinado
tal instrumento.

a. Suelo y techo de las puntuaciones.

Depende del número de ítems y de la propia regla de medida.

b. La regla de medida.

Se debería cuidar de decidir con rigor si cada cuestión tiene la misma dificultad para poder
valorar el éxito o fracaso por igual si todos los errores pueden tener la misma penalización o los
hay que deberían restar puntos en mayor medida. Estas decisiones previas pueden hacer variar
notablemente los posibles valores de una prueba y, en consecuencia, el valor de una puntuación
concreta, lo que dificulta su interpretación directa.

c. El contenido del instrumento.

No todos los objetos a medir pueden serlo con la misma precisión, fiabilidad y validez. Y, su
naturaleza decide hasta qué punto los valores obtenidos pueden situarse en uno u otro tipo de las
denominadas escalas de medida. En todos los casos, la “distancia” entre la realidad u objeto a
medir y los reactivos a utilizar para hacerlo es muy grande; estamos ante lo que se denomina
“constructo”, es decir, construcciones en torno a algo que nada tiene de visible, pesable, audible…
y sí de supuesto. La persona que construye el instrumento para medirlo supone que tal variable se
define como él lo hace y que el reactivo que propone es una manifestación de esa definición.

Es frecuente que estos constructos estén integrados por aspectos o dimensiones diferentes;
en tal caso, es necesario asegurar la presencia adecuada, equilibrada y ponderada de reactivos
de cada aspecto o dimensión. Cuando se recogen datos con tales instrumentos y asignamos
puntuaciones a las respuestas dadas por los sujetos, estamos ante unos números tan dóciles que
se dejan hacer lo que sea, en concreto, se dejan operar como si fueran auténticos números con
todas sus propiedades. Y ahí puede estar el gran error: que teniendo tales números ciertas
53
cualidades o características, los manejemos como si tuvieran otras más amplias y ricas.

d. A quiénes va destinado el instrumento.

La medida siempre va a acudir a reactivos familiares para las personas a las que se destina el
instrumento y lo que a los 6 años parece adecuado, a los 30 puede parecer una burla por infantil.
Esto da a lugar a lo que se conoce como falta de validez aparente. Todos estos aspectos tienen
que ser tenidos en cuenta para que los números arrojados por la aplicación de los instrumentos de
medida sean válidos y podamos proceder adecuadamente a su interpretación.

4. Cualidades de los baremos o normas.

La construcción de un baremo de calidad depende de la muestra utilizada para servir de


referencia. Si de lo que se trata es de conformar una serie de valores, debidamente ordenados,
para valorar los resultados, los valores seleccionados no pueden ser valores cualesquiera sino
valores representativos del grupo al que pertenezcan los sujetos cuyas puntuaciones deseamos
interpretar. La cuestión clave para la representatividad reside en que la muestra sea una especie
de fotografía fiel del conjunto de la población. La muestra de referencia debe acercarse cuanto sea
posible a las características más relevantes de la población de la que ha sido extraída. Para
alcanzar la representatividad de una muestra es preciso tomar dos decisiones clave:

Fijar el tamaño de la misma, de forma que sea suficiente para que puedan manifestarse las
características que definen la población.

Utilizar un procedimiento de selección imparcial, que evite todo tipo de sesgos.

a. Tamaño de la muestra: suficiencia.

Disponemos de tablas que nos permiten fijarlo en función de una serie de factores a los que
nos referiremos más adelante.

b. Procedimiento de selección: aleatoriedad.

El que ofrece mayores garantías a priori es el muestreo aleatorio simple, el cual permite
establecer la magnitud de los errores muestrales, con lo que es posible conocer los límites entre
los que se encontrará el valor de la población. Así pues, tamaño suficiente y selección aleatoria
son las dos condiciones fundamentales para construir una norma o baremo.

5. Construcción de los baremos o normas.

a. Normas cronológicas o de edad.

La denominada Edad Mental (EM) es el ejemplo más conocido. Se trata de que realicen la
prueba o cumplimenten el instrumento de medida de que se trate unas muestras imparciales y de
adecuado tamaño para cada edad o grupo de edad cronológica. La puntuación de los sujetos de
cada edad se convierte en representativa de la misma. En adelante, las puntuaciones de cualquier
sujeto, tenga la edad cronológica (EC) que tenga, se comparan con las del baremo o norma
resultante y se le asigna la edad mental correspondiente. Cuando la puntuación obtenida
corresponde a una edad mental superior, estamos ante personas que llevan un desarrollo
superior, ocurriendo lo contrario en el caso de que su puntuación corresponda a edades inferiores
a la cronológica.

Una alternativa consiste en seleccionar los ítems resueltos por cada grupo de edad; cuando
un nuevo niño resuelve los ítems de una edad determinada se le asigna la edad correspondiente.
La edad de base es aquella que corresponde a la resolución de todos los ítems de la misma; la
edad mental final se obtiene sumando a la misma determinado número de meses en función de
54
los ítems de edades superiores resueltos correctamente. La edad mental no es constante a lo
largo del tiempo, por lo que, con el paso de los años, las diferencias en edad mental en relación
con la edad cronológica tienden a reducirse. Para evitar en lo posible este efecto se utiliza el
Cociente Intelectual (CI) que consiste en dividir dos cantidades: la EM y la EC. El resultado
obtenido se suele multiplicar por 100 a fin de eliminar la presencia de decimales. La situación de
normalidad se da con valores próximos a CI = 100. Por lo general, este tipo de normas no es
aplicable más allá de los 14 o 15 años.

b. Normas cuantiles.

Entre las que destacaremos las cuartiles, deciles y centiles o percentiles, esto es: cuantiles de
orden cuatro, diez o cien. Entendemos por cuantil cada una de las partes en que puede dividirse
una serie ordenada de puntuaciones. La mediana es el cuantil 1 de orden 2, se trata de aquella
puntuación que divide la serie en dos partes con un número de frecuencias igual, en concreto el
50% de cada una. Los cuantiles más frecuentemente utilizados son los de orden 4 o cuartiles (Q,
Q, Q), que son aquellas puntuaciones que dejan por debajo de sí el 25, 50 y 75% delos casos. Los
deciles o cuantiles de orden 10 (d, d, d, d, d, d, d, d, d), que dejan cada uno por debajo de sí el 10,
20, 30, …, 90% de los casos. Y, los centiles o percentiles, cuantiles de orden 100 –c– cada uno de
los cuales deja por debajo de sí el 1, 2, 3, …, 97, 98, 99%.

c. Construcción de un baremo en cuantiles.

El procedimiento comienza con la elaboración de una distribución de frecuencias acumuladas,


sean estas con puntuaciones directas o agrupadas en intervalos.

Ejemplo: Supongamos que disponemos de la siguiente serie de puntuaciones en una prueba


de aptitud manual que integran una muestra imparcial y suficiente –representativa – de alumnos
de una ciudad que no han obtenido el Graduado en ESO.

X = 20, 20, 22, 40, 21, 16, 20, 20, 20, 24, 13, 26, 17, 29, 11, 22, 26, 23, 26, 11, 14, 26, 26, 28,
14, 22, 20, 14, 32, 30, 28, 22, 17, 26, 16, 28, 25, 17, 31, 7, 15, 29, 16, 23, 20, 19, 18, 15, 20, 23,
35, 22, 23, 23, 20, 28, 22, 23, 19, 20, 30, 20, 20, 19, 20, 36, 9, 15, 12, 21.

Es recomendable su ordenación, ascendente o descendente. Por lo tanto,

X = 40, 36, 35, 32, 31, 30, 30, 29, 29, 28, 28, 28, 28, 26, 26, 26, 26, 26, 25, 24, 23, 23, 23, 23,
23, 23, 22, 22, 22, 22, 22, 22, 21, 21, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 19, 19, 19,
18, 17, 17, 17, 16, 16, 16, 15, 15, 15, 14, 14, 14, 13, 12, 11, 11, 9, 7.

El rango total de la serie va de 7 a 40 puntos, esto es 33, por lo que en total hay 34 posibles
puntuaciones diferentes. Si hacemos 9 intervalos, un número razonable, cada intervalo tendrá una
amplitud de 4, lo que nos da 36 puntuaciones, por lo tanto, habrá dos puntuaciones de más de las
posibles.

Intervalo X f f % z z
37 – 40 38’5 1 70 100 2’75
33 – 36 34’5 2 69 98’57 2’12 2’19
29 – 32 30’5 6 67 95’71 1’48 1’72
25 – 28 26’5 11 61 87’14 0’84 1’13
21 – 24 22’5 15 50 71’43 0’21 0’57
17 – 20 18’5 20 35 50 -0’425 0
13 – 16 14’5 10 15 21’43 -1’06 -0’79
9 – 12 10’5 4 5 7’14 -1’70 -1’465
5–8 6’5 1 1 1’43 -2’33 -2’19
N = 70
Media:
1482’8 : 70 =
21’18
S = 6’296

La columna de porcentajes acumulados nos permite interpretar como porcentajes de casos


que dejan por debajo cada una de las puntuaciones superiores del intervalo. Lo que suelen
55
presentar los baremos de las pruebas no es este tipo de datos sino una serie de puntuaciones a
las que corresponden los cuantiles habituales, como los recogidos en la tabla que veremos a
continuación, para cuya construcción utilizamos la siguiente fórmula:

El procedimiento más sencillo consiste en calcular el intervalo en el que se encuentra el


cuantil (mediana, cuartil, decil o percentil) multiplicando el cociente C/100 por n o número de casos
de la serie. C/100 se sustituye por D/10, Q/4 o ½ si se trata de deciles, cuartiles o mediana. Este
valor nos permite identificar el límite inferior de dicho intervalo (L) al que debemos sumar el
resultado de una regla de tres. Veamos:

Mediana = ½ · 70 = 35

Q = 2/4 · 70 = 35

d = 5/10 · 70 = 35

p= 50/100 · 70 = 35

El puesto 35 se encuentra en el intervalo 17 a 20. Como el lugar de la mediana, del Q, del d,


del p, coincide con el último intervalo de valor del intervalo, la regla de tres será:

Si a los 20 casos del intervalo le corresponden 4 puntos de amplitud

A 20 casos le corresponderán x puntos, o sea, 4

Por tanto, al límite inferior del intervalo en que se encuentran estos cuatro cuantiles, 16’5,
deberemos sumarle 4, con lo que la mediana, el segundo cuartil, el quinto decil y el quincuagésimo
percentil será 20’5 puntos, que es el límite superior de ese intervalo.

El cuartil 3 ocupa el lugar 52’5 en la serie de frecuencias acumuladas: ¾ · 70 = 52’5. Por tanto,
está en el intervalo 25 a 28, cuyo límite inferior es 24’5. La regla de tres será:

Si a los 11 casos del intervalo le corresponden 4 puntos de amplitud

A los 2’5 (que van desde 50 acumulados hasta los 52’5) le corresponden x

Pues bien, x = 0’91, que habrá que sumar a los 24’5 del límite inferior: 25’41.

El centil 95 ocupa el lugar 66’5 en la serie de frecuencias acumuladas: 95/100 · 70 = 66’5. Por
tanto, está en el límite 29 a 32, cuyo límite inferior es 28’5. La regla de tres será:

Si a los 6 casos del intervalo le corresponden 4 puntos de amplitud

A los 5’5 (que van desde los 61 acumulados hasta los 66’5) le corresponden x

Pues bien, x = 3’67, que habrá que sumar a los 28’5 del límite inferior: 32’17.

En la tabla siguiente aparecen todos los valores habitualmente utilizados –columna de


puntuación–; se incluye a sí mismo la columna con la puntuación redondeada al número entero
más próximo.

Cuantiles Puntuación Puntuación redondeada


centiles, deciles, cuartiles,
mediana
99 37’7 38
95 32’17 32
90 = D 29’86 30
80 = D 26’68 27
75 = Q 25’41 25

56
70 = D 24’23 24
60 = D 22’36 22
50 = DQMed. 20’50 20
40 = D 19’96 20
30 = D 17’70 18
25 = Q 17 17
20 = D 16’10 16
10 = D 13’30 13
5 11 11
1 8’5 8

Podemos apreciar este hecho si representamos gráficamente los datos (intervalos y f)


mediante el correspondiente polígono de frecuencias acumuladas:

Y el polígono de frecuencias acumuladas suavizado:

Normas típicas

Basta analizar la última tabla para apreciar que las puntuaciones centiles están muy cerca
unas de otras en el centro de la tabla mientras las distancias entre valores extremos son extremos
son progresivamente mayores. Las puntuaciones típicas o z indican la distancia de cada
puntuación directa hasta la media del grupo medida en unidades de desviación típica. Siendo su
fórmula:

Los sujetos con puntuaciones superiores a la media tienen valores de z positivos, y negativos
en caso contrario.
57
d. Puntuaciones típicas normalizadas.

Cuando nuestro datos empíricos son compatibles con la distribución modelo normal, es buena
idea normalizar la distribución, y en consecuencia, normalizar las puntuaciones típicas (z). Las
puntuaciones z se apartan tanto más de las z normalizadas cuanto menos se parezca la
distribución empírica de la distribución ideal: el modelo de la curva normal. En consecuencia,
aquellas no serán sin aproximaciones o estimaciones de estas. Podemos obtener una puntuación
típica normalizada mediante las tablas estadísticas correspondientes. Para ello calculamos el
porcentaje de casos que se encuentran por debajo –o por encima– de cada puntuación; a
continuación se busca el porcentaje en la tabla de áreas de la curva normal y se identifica la z
normalizada correspondiente.

Ejemplo: Con los datos originales de antes, recordemos:

Media: 21’5.

Desviación típica: 6’29.

A un sujeto cuya puntuación directa sea de 35, le corresponde z = 2’15. En efecto, 35 –


21’5/6’29 = 2’146; redondeando el segundo decimal, 2’15. Si deseamos obtener su z normalizada
basta ver que esta puntuación deja por debajo de sí a 67 de 70 casos, esto es, al 95’71%.
Buscando en la tabla de áreas de la curva normal, bajo la columna “área de la parte mayor”,
podemos comprobar que el valor de z = 1’72 deja por debajo de sí el 95’73%, un valor muy
aproximado. Este valor será la z normalizada de tal puntuación. Las z normalizadas corresponden
a una distribución de frecuencias con media = 0 y s = 1. Para evitar decimales, podríamos
transformarla en otra con media = 50 y s = 10, dando lugar a una puntuación T, o en otra, también
con media de 50 y desviación típica de 20, propia de la escala S. a estas puntuaciones suele
denominárselas puntuaciones típicas derivadas. La siguiente figura recoge la equivalencia de una
serie de puntuaciones normalizadas.

e. Estaninas y pentas.

En los EE. UU. se utiliza frecuentemente una escala de 10 rangos, creados a partir de 9
puntos –estanina = contracción de standard nine– cuya media es de 5 y su desviación típica de 2.
En España se utiliza con cierta frecuencia una escala de 5 rangos, denominada pentas, que
permite dividir la serie en 5 grandes bloques, cuyos límites en puntuaciones z se aprecian en la
siguiente tabla. La escala de pentas tiene como media 3 y como desviación típica 1.

Eneatipos/estaninos X Pentas X

58
9º 1’75 32’51
8º 1’25 a 1’75 29’36 a 32’51 5º 1’5 30’935
7º 0’75 a 1’25 26’22 a 29’36 4º 0’5 a 1’5 24’645 a
6º 0’25 a 0’75 23’07 a 26’22 3º -0’5 a 0’5 30’935
5º -0’25 a 0’25 19’93 a 23’07 2º -1’5 a -0’5 18’355 a
4º -0’75 a -0’25 16’78 a 19’93 1º -1’5 24’645
3º -1’25 a -0’75 13’64 a 16’78 12’065 a
2º -1’75 a -1’25 10’49 a 13’64 18’355
1º -1’75 10’49 12’065

Basta calcular la puntuación z de ese sujeto y hacer la siguiente transformación:

Eneatipo: 5 +2z

En el caso de la escala de pentas, cuya media es de 3 y la desviación típica de 1, la


transformación será:

Penta: 3 + z

Ejemplo: Siguiendo con los datos originales, el sujeto cuya X = 33, tendremos:

Por lo tanto, esta puntuación directa estará en el eneatipo 9º (5 + 2 · 1’83) y en el 5º penta (3 +


1’83).

En el caso de la puntuación 13m tendríamos:

Por tanto, esta puntuación directa estará en el eneatipo 8º [5 + 2 · (-1’35)] y en el penta 4º [3 +


(-1’35)].

Como puede apreciarse, la primera escala crece –o decrece– a razón constante de 3’15
puntos (la mitad del valor de s), mientras en la segunda lo hace justamente a razón de 6’30 (el
valor de s).

6. El muestreo.

Una muestra es una parte, un subconjunto, de una población o universo. Una muestra de
calidad es aquella que representa fielmente el conjunto de características de la población. Aun en
la situación de que trabajáramos con todos los casos, debemos ser conscientes de que nuestro
interés es aplicar los resultados a nuevos sujetos en ocasiones posteriores. Una muestra debe
cumplir con ciertas condiciones: adecuado tamaño y selección imparcial. Ambas notas dan lugar a
muestras representativas, esto es, a muestras que reflejan con fidelidad las características de la
población.

a. Tamaño de la muestra.

Para la fijación del tamaño de las muestras deberemos atender, en primer lugar, al tamaño del
universo, considerado como infinito a partir de 100000 casos; junto a ello, se deben tomar en
consideración otras tres características:

El nivel de confianza en el que desea trabajar.

El error de estimación que considera adecuado asumir.

La proporción en que la característica a estudiar se encuentra en el total de la población.

Una población se toma como finita si no supera las 100000 unidades. En este caso, se da una
relación entre el tamaño de la población y el de la muestra, algo que no ocurre con tamaños
59
infinitos, donde no aparece el valor de N.

El nivel de confianza se suele fijar en el 95, 99, o 99’9%; admitiendo la distribución normal, y
conociendo como conocemos la curva normal de probabilidades, este dato se traduce en las
fórmulas en valores de 1’96, 2’58 o 3’2 desviaciones típicas. En cuanto al error de estimación, se
fija en términos de porcentaje. Obviamente, cuanto menor error esté dispuesto a aceptar, mayor
tamaño deberá tener la muestra. Se debe tomar en consideración la proporción en que una
característica se encuentra en la población. Con frecuencia se desconoce este dato, en cuyo caso
lo habitual es considerar que tal característica se da al 50% de la población, lo que representará
un mayor tamaño para la muestra. En el caso de que la población estuviera organizada en
diversos grupos, esta decisión debería aplicarse a cada uno de ellos. Para el cálculo del tamaño
de la muestra contamos con dos fórmulas diferentes, según el tamaño de la población de origen:

Donde N es el tamaño de la población, n el de la muestra, z el valor del nivel de confianza


recogido, y p y q la proporción de la característica en la población. E representa el error de
estimación admitido por el investigador. Tanto z como E están elevados al cuadrado.

Ejemplo: Aplicaremos ambas fórmulas al caso de una población con 108000 sujetos, en el
primer vaso, y con 35600 en el segundo, tomando un nivel de confianza de 99% y un error de
estimación del 3%. En el primer caso, desconocemos la proporción en que se encuentra la
característica en la población; en el segundo caso sabemos que es de 35 a 65.

En el primer caso tendríamos:

En el segundo caso:

b. Procedimientos de selección.

El principal procedimiento de extracción de muestras imparciales es el muestreo aleatorio


simple. Todas las unidades o sujetos de la población tienen, a priori, las mismas probabilidades de
ser seleccionados para integrar la muestra. Kerlinger considera que una definición mejor es la de
W. Feller: “método de extraer una porción (muestra) de una población o universo de modo que
todas las muestras posibles de tamaño fijo n tengan la misma probabilidad de ser escogidas”.

Para lograrlo, se dispone de tablas de números aleatorios. Seleccionadas la hoja y columna al


azar, se eligen los primeros sujetos hasta alcanzar el valor del tamaño de la muestra. El muestreo
sistemático es una modalidad del anterior que nos permite fijar el primero de los sujetos de la
muestra y, a partir de él, seleccionar sistemáticamente el resto sumándole un valor constante, en
concreto el denominado coeficiente de elevación, esto es, el cociente entre el tamaño de la
población y el de la muestra. En nuestro segundo caso, tal coeficiente sería: 108000/1849 = 58’41.
Pues bien, seleccionado al azar el segundo caso, seguiríamos eligiendo en las tablas de 58 en 58,
hasta llegar a los 1849 que integran la muestra.

c. Procedimientos de muestreo.

Dejemos constancia de la existencia de otros sistemas de muestreo como el estratificado, en


el que los sujetos o unidades muestreadas en cada estrato se pueden seleccionar mediante el
sistema aleatorio simple o el sistemático.

Kerlinger cita al efecto el muestreo por cuotas. Cuando una determinada población está
60
estratificada atendiendo a criterios como nivel de estudios, clase social, religión, etc., a fin de
contar con aportaciones que representen a los diferentes estratos poblacionales.

El sistema de muestreo más usual es el denominado incidental o casual en el que se acude a


los sujetos disponibles o accesibles.

d. El error muestral.

La propia teoría de la probabilidad nos va a permitir estimar la magnitud de tal error muestral
para un determinado nivel de confianza en nuestras afirmaciones. La magnitud del error muestral
en cada caso puede ser calculada a través de dos fórmulas: una se aplica a muestra finitas
(<100000), y la otra para muestras estadísticamente infinitas.

Ejemplo: Siguiendo con los datos anteriores, para poblaciones de 108000 y 35600, los errores
muestrales, para el caso de p = q = 50 en el primer caso, y de p = 35 y q = 65 en el segundo,
tendríamos:

En el caso de que las proporciones de p y q fueran, como en el caso anterior, de 50 · 50, el


valor resultante sería de 3’14 ().

Estos valores nos permiten establecer un intervalo de confianza, esto es, un conjunto de
puntuaciones entre las cuales consideramos que se encontrará la verdadera puntuación de la
población. Asumiendo que en una muestra de 1849 adultos, de una población de 108000 que no
obtuvieron el graduado en ESO, distribuida normalmente, el 46% fueron mujeres, podemos crear
un intervalo de confianza, para una probabilidad del 99%, sumando y restando a ese 46% el valor
del error muestral, esto es:

Cuanto menor sea el error muestral, menor será el intervalo de confianza. En nuestro caso, el
error muestral sería menor si el nivel de confianza fijado hubiera sido del 95%, y mayor si nos
hubiéramos decidido por el 99’9%. Con la pregunta: ¿en la población, hay más varones que
mujeres que no obtienen ese graduado? A simple vista, sí, ya que 46% es menor que el 54% de
varones. Sin embargo, para comprobarlo estadísticamente debemos aplicar a este 54% el error
muestral; al hacerlo podríamos encontrarnos con que el intervalo de confianza se superpusiera
con el de las mujeres, lo que nos indicaría que es posible que en la población no hubiera
diferencias reales. Veamos:

Ahora sí que podemos afirmar que, en toda la población, con una probabilidad del 0’ 99 (nivel
de confianza del 99%) el número de sujetos que no obtuvieron el graduado es superior entre los
varones que entre las mujeres. ¿Qué pasaría si, en lugar del 46% de las mujeres hubiera sido el
48% frente al 52% de varones? En tal caso, el intervalo de confianza iría de 45 a 51 en el primer
caso, y de 49 a 55 en el segundo. Está claro que ambos intervalos se superponen y no podríamos
dar por bueno, admitiendo ese grado de error, que hubiera diferencias estadísticamente
significativas con una probabilidad del 0’99.

61
TEMA 10: ESTIMACIÓN DE PARÁMETROS. ERRORES DE ESTIMACIÓN
1. Introducción.

En el tercer bloque, estamos viendo algunas aplicaciones de la Estadística, haciendo el


recorrido desde los estudios centrados en grupos o muestras de sujetos de interés para el
investigador hasta la extrapolación de los resultados de dichos grupos a las grandes poblaciones a
las que pertenecen. Este interés científico se concreta en la inferencia estadística.

2. Aproximación intuitiva a la inferencia estadística.

La Estadística es la ciencia que se ocupa de la ordenación y análisis de datos procedentes de


muestras, y de la realización de inferencias acerca de las poblaciones de las que estas proceden.
Aclaremos los términos:

Población: conjunto de todos los elementos que cumplen una o varias características o
propiedades. Los valores numéricos que describen a la población se denominan
parámetros. Normalmente los valores paramétricos son desconocidos. Por esta razón se
trabaja con muestras a partir de las cuales se trata de estimar el valor de los parámetros.

Muestra: subconjunto de los elementos de una población. Los índices numéricos que
describen a las muestras se denominan estadísticos. La técnica para seleccionar a los
sujetos que entrarán a formar parte de la muestra se denomina muestreo. Siempre que sea
posible, se debe utilizar el muestreo aleatorio porque nos da mayores garantías de que la
muestra sea representativa de la población.

A mayor tamaño de la muestra, mayores garantías de representatividad. A partir de cierto


tamaño, su aumento no aporta mejoras sustanciales a la representatividad. Supongamos que la
población a la que nos estamos refiriendo en el ejemplo es de 10000 sujetos y seleccionamos una
muestra aleatoria de 1500. El paso siguiente sería el proceso de medición. La medición es uno de
los problemas más graves en Estadística y en Psicología. Nos estamos enfrentando a constructos,
es decir, características del ser humano que no son directamente mensurables. Lo que medimos
son las manifestaciones observables que atribuimos a dichos constructos.

Necesitaremos uno o varios instrumentos adecuados. Una vez elaborados, se aplican a la


muestra, se recogen los datos y se elabora la matriz de datos. Y a partir de aquí, volveríamos a lo
dicho sobre ordenación y categorización de datos y análisis descriptivo. La Estadística inferencial
o inferencia estadística pretende sacar conclusiones sobre el conjunto de datos a través de
observaciones de parte de esos datos. Es importante notar que se habla de estimación.
Probablemente obtengamos un valor cercano al verdadero valor de la media aritmética. Dentro del
marco de la Estadística inferencial, suelen distinguirse dos objetos de estudio: la estimación de
parámetros y el contraste de hipótesis. Se habla de dos tipos de estimación: estimación puntual y
estimación por intervalos. En la estimación puntual, se hace coincidir el estadístico con el
parámetro. En la estimación por intervalos, se ofrece un intervalo de puntuaciones en el cual es
más probable que se encuentre el valor del parámetro.

3. Propiedades de los estimadores.

Un estimador es un estadístico muestral que permitirá la estimación de un parámetro


poblacional. Estas son sus características:

Carencia de sesgo: sesgo igual a cero. La propiedad de insesgamiento nos garantiza que
las estimaciones que hagamos con el estimador se encuentran alrededor del parámetro en
cuestión.

Eficiencia: un estimador es tanto más eficiente cuando menor es su desviación típica.

Consistencia: un estimador es consistente si a medida que aumenta el tamaño de la


muestra, la probabilidad de que el valor del estadístico se acerque al valor del parámetro

62
va siendo mayor.

Suficiencia: un estimador es suficiente cuando es capaz de obtener de la muestra toda la


información que esta contenga acerca del parámetro.

4. Distribución muestral, error muestral y error típico: estimación del parámetro media
aritmética.

Al igual que la distribución normal, hay otra serie de distribuciones teóricas como la binomial,
la t de Student, la multinomial, la F, etc., en las que se conoce la probabilidad de aparición
asociada a todos los posibles valores. Estas distribuciones son como un polígono de frecuencias
suavizado: frecuencias relativas en el eje de ordenadas y puntuaciones en el eje de abscisas.
Pues bien, existe un concepto teórico de distribución (función de densidad de probabilidad) que es
la distribución muestral y que puede definirse como la distribución de un estadístico en el
muestreo.

En inferencia, siempre hablamos del nivel de confianza (porcentaje de confianza al hacer la


estimación; también puede darse como probabilidad en vez de porcentaje y representarse por ), y
del nivel de significación (, probabilidad de error que estamos dispuestos a asumir en la
estimación). Obviamente, se trata de conceptos complementarios que se refieren a lo mismo. Por
tanto, para hallar el intervalo confidencial, es decir, los valores entre los cuales es más probable
que se encuentre el verdadero valor del parámetro, necesitamos calcular la de la muestra a la
que sumaremos y restaremos el error muestral, es decir, la diferencia más probable entre el
estadístico y el parámetro.

El error muestral nos da una idea de la precisión de nuestra inferencia estadística. Cuanto
más grande sea el error muestral, menor será nuestra precisión en la estimación y menor será la
utilidad de la estimación. Habremos comprendido ya que una distribución muestral tiene
variabilidad. Es decisivo en este punto recordar qué índice descriptivo expresa la variabilidad:
efectivamente, la desviación típica. Por tanto, una distribución muestral tendrá su propia
desviación típica. A la desviación típica de la distribución muestral se le denomina error típico. Es
una medida de dispersión con respecto al parámetro, es decir, nos indicará la dispersión de las
medias de las infinitas muestras aleatorias extraídas respecto a la media poblacional. ¿Cómo
podremos conocer este dato? Lo estimaremos y nos basaremos en los datos de la muestra. En el
caso de la distribución muestral de medias, esta es la fórmula:

En el denominador aparecerá N – 1 cuando se haya calculado en la muestra la desviación


típica insesgada, o solo N cuando se haya calculado la desviación típica sesgada. Cuanto más
grande N, más pequeño el cociente, más pequeño el error típico y más precisión en la estimación
del parámetro. Para calcular el error muestral, se tiene que definir el nivel de significación con el
que vamos a realizar la estimación. Si es conocido (o también si la muestra es grande), debemos
entonces recurrir a la distribución normal y escoger escoger la puntuación z correspondiente a
dicho nivel, y multiplicar dicha z por el error típico, esto es, la desviación típica de la distribución
muestral.

Donde la es la puntuación típica correspondiente al nivel de significación () que hemos


establecido (o al nivel de confianza). En otras palabras, consideramos que en la zona más grande
de la distribución muestral (zona no sombreada) se producen las diferencias “normales” o
esperables. Como el error que estamos dispuestos a cometer es de , esta probabilidad de error
tenemos que repartirla en ambas colas de la distribución; de ahí que la z utilizada sea la z de , que

63
encontramos directamente en las tablas de la curva normal buscando en el área de la parte menor
0’025. De modo análogo, la z para un nivel de confianza del 99% es 2’57.

Ejemplo: Supongamos que hemos aplicado un test de cociente intelectual a una muestra
aleatoria de 1000 adolescentes de la Comunidad de Madrid para estimar el cociente intelectual
medio de la población de adolescentes. Obtenemos una = 105 y una s = 10. Para estimar el
valor del parámetro µ (intervalo confidencial) con un nivel de confianza del 99%, haríamos lo
siguiente:

En este caso, la y el , por lo que el

En definitiva, , con lo que obtenemos ambos límites confidenciales, inferior y superior: LC =


104’18 y LC = 105’82. Podemos afirmar, con un nivel de confianza del 99%, que si repitiésemos la
estimación un número muy elevado de ocasiones, en el 99% de las muestras, la media en la
inteligencia de los adolescentes de la Comunidad de Madrid se encontraría entre los valores
104’18 y 105’82.

De la misma forma que estimamos el parámetro media aritmética, se pueden estimar otros
como la varianza, el coeficiente de correlación, la diferencia de medias, etc. Para calcular el error
muestral debemos conocer la distribución muestral del estadístico que se trate y consultar la
fórmula específica para calcular el error típico.

a. Estimación del parámetro media aritmética ( desconocido y para muestras


pequeñas).

Cuando contamos con muestras pequeñas (N < 30), la distribución muestral de la media sigue
la distribución t de Student. La distribución t varía en función del número de sujetos, aunque se
trata también de una distribución simétrica y asintótica. Cuando N tiende a infinito, la distribución t
tiende a la distribución z.

La lógica de la estimación del parámetro de la media con muestras pequeñas es exactamente


la misma; lo único que cambia es el estadístico para calcular el error muestral: .

Ejemplo: Pongamos que en el ejemplo anterior, con los mimos datos, en vez de tener una
muestra de 1000 sujetos, tenemos una de 25.

En este caso, al ser una muestra pequeña, corresponde a la distribución muestral t para N – 1
grados de libertad, donde la y el , por lo que el

En definitiva, , con lo que obtenemos ambos límites confidenciales, inferior y superior: LC =


99’29 y LC = 110’71. En conclusión, podríamos afirmar que el intervalo de confianza del 99%
64
alrededor de la medida de la muestra cae entre los valores 99’29 y 110’71. También podemos
decir que si utilizásemos este mismo procedimiento de estimación en cientos o miles de muestras,
con un nivel de confianza del 99%, en el 99% de esas muestras, la media en inteligencia de los
adolescentes de la Comunidad de Madrid se encontraría entre los límites confidenciales
establecidos (y la nuestra podría ser, o no, una de ellas). Sería un error decir que tenemos una
probabilidad de 0’99 de que el valor del parámetro se encontrara entre esos límites confidenciales.

b. Estimación del parámetro proporción.

La estimación del parámetro proporción () es un caso particular del anterior, en el que la


media aritmética oscila entre 0 y 1. En este caso sería:

El intervalo de confianza se establecerá igual que en la media aritmética, pero partiendo de


una proporción.

5. Estimación de la puntuación verdadera en una prueba.

La fiabilidad absoluta está más directamente relacionada con lo que conocemos como error
típico de medida y, en consecuencia, con la teoría de la inferencia estadística. Su utilidad
fundamental es la estimación de la puntuación verdadera de un sujeto en un instrumento o, dicho
de otra forma, entre qué puntuaciones es más probable que se encuentre su verdadera
puntuación. De nuevo, se trata de hallar el intervalo de confianza en el que es probable que se
encuentre la verdadera puntuación del sujeto en la prueba. Sabiendo que la distribución muestral
es normal, necesitamos conocer el error típico de medida, que en este caso es el siguiente:

Donde s es la desviación típica total, y r la fiabilidad. Como siempre, el intervalo de confianza


será:

Donde X es la puntuación obtenida en la prueba.

6. Intervalo de confianza de la puntuación estimada en la regresión lineal simple.

Una de las aplicaciones de la regresión lineal es estimar la puntuación de un sujeto en una


variable denominada criterio a partir de su puntuación conocida en otra variable, por lo general
denominada predictora o antecedente. Para realizar esta predicción o estimación, en realidad
estamos llevando a cabo una estimación del parámetro Y’ o puntuación del sujeto en el criterio. Si
queremos ser más realistas, deberemos establecer el intervalo de puntuaciones entre las cuales
cabe esperar que se encuentre la puntuación predicha para el sujeto. Para ello, sabiendo que la
distribución muestral de Y’ es la normal, nos basta conocer el error típico de estimación que, para
muestras grandes es:

Como siempre, el intervalo de confianza será:

7. Estimación del parámetro correlación de Pearson. Introducción al concepto de la


significatividad estadística.

65
Se trata de calcular el intervalo de confianza para la correlación de Pearson. Sabemos que la
distribución muestral de la correlación de Pearson se asemeja a la distribución normal con el
siguiente error típico:

Para muestras grandes (N > 100),

Para muestras pequeñas (N <100),

Por tanto, una vez más,

Donde,

Ejemplo: Supongamos que tenemos una muestra de 20 sujetos y obtenemos una correlación
de t = 0’35. ¿Cómo será la correlación en la población con un nivel de confianza del 95%?
Aplicando la fórmula, obtenemos que el error típico será de y la sabemos que es 1’96, luego el
error muestral es igual a 0’39. La correlación en la población estará entre los límites -0’04 y 0’74.
Cuanto más pequeña sea la muestra, más imprecisa será nuestra estimación.

La significación o significatividad estadística es cuando queremos referirnos al significado de


la diferencia entre dos medidas. En este sentido, cuando estimamos el intervalo de confianza en el
cual es probable que se encuentre la verdadera correlación en la población, si este intervalo
contiene el valor cero (ausencia absoluta de relación), diremos que dicha correlación no es
estadísticamente significativa. Debemos ser cuidadosos en la interpretación. Como dice Morales,
cuando una correlación no es estadísticamente significativa (p > 0’05):

Una correlación no significativa es una correlación que no podemos generalizar sin más.
Con los datos que tenemos no podemos afirmar que en la población hay una relación,
aunque sea pequeña, y distinta a cero.

Una correlación no significativa no es prueba de no relación en la población.

Hablar de significatividad estadística no es lo mismo que hablar de la magnitud de las


diferencias. La magnitud de la correlación la juzgaremos igualmente conforme a los criterios
explicados en el Tema 7.

8. Estimación del parámetro diferencia de medias.

La estimación del parámetro diferencia de medias (µ - µ) nos acerca a la lógica del contraste
de hipótesis. Si establecemos el intervalo de confianza a partir del estadístico diferencia de
medias, obtendremos los límites confidenciales entre los cuales es más probable que se encuentre
la diferencia de medias en la población. Si este intervalo de confianza incluye la puntuación cero,
entonces dicha diferencia es compatible con una diferencia de medias igual a cero y, en
consecuencia, podremos interpretar que dicha diferencia es estadísticamente igual a cero.

Donde,

Y donde, para muestras grandes e independientes:

66
Y, para muestras pequeñas e independientes (también utilizable para muestras grandes),

Ejemplo: Supongamos que los datos que tenemos en el problema son estos:

Harvard Alcalá
=110 =105
s = 10 s =12
N = 90 N = 120

Que es la desviación típica de la distribución muestral de diferencia de medias, es decir, el


error típico. Luego, para un nivel de confianza del 95%:

Por tanto,

El parámetro diferencia de medias en la población se encontrará entre una diferencia de 1’88


y 8’12, dicha diferencia es estadísticamente significativa.

a. Estimación del parámetro diferencia de proporciones.

Lo único que varía en este caso es el error típico. En este caso, el error típico de
diferencia de proporciones es

Y la estimación del intervalo de confianza y la interpretación será la misma que en el caso


anterior.

9. Estimación de parámetros y contraste de hipótesis: interpretación intuitiva.

El contraste de hipótesis sigue esta misma lógica inferencia. De hecho, todo se reduce al
contraste de una hipótesis estadística, denominada hipótesis nula, según la cual se plantea una
distribución muestral que indica la no existencia de diferencias estadísticamente significativas. Es
decir, es una distribución muestral que indica que todas las diferencias encontradas entre dos
67
sucesos se deben simplemente al azar.

La hipótesis nula indica que la diferencia entre estas dos medias aritméticas no es
estadísticamente significativa porque se puede explicar por efecto del azar. Se establece una zona
en la que es más probable que las diferencias encontradas entre las medias de las muestras se
deba efectivamente a los efectos del azar: es la zona de aceptación (más bien, de no rechazo) de
la hipótesis nula (H). Por tanto, al no rechazar la H estamos deduciendo que las muestras que
comparamos pertenecen a la misma población, y que si hemos encontrado una diferencia
empírica, esta se debe probablemente a los efectos de la selección aleatoria de dichas muestras.
Además, establecemos otra zona en la que las diferencias entre las medias son de un tamaño tal
que resultaría muy improbable que fueran aleatorias, por lo que dicha diferencia la atribuimos a la
variable independiente. En este caso, expresamos la distribución muestral de la hipótesis nula del
siguiente modo:

Es decir, se trata de la distribución muestral de diferencia de medias que parte de una


diferencia de medias igual a cero.

Si resulta que nuestra diferencia empírica de medias se encuentra dentro del intervalo de
confianza de la distribución muestral conforme a H, diremos que nuestra diferencia de medias es
compatible con una diferencia de medias igual a cero y, por tanto, que se trata de una diferencia
estadísticamente no significativa o igual a cero.

Lo que haremos es calcular un estadístico (t, z, etc.) que nos dirá cuántas desviaciones típicas
(errores típicos) se aleja nuestra diferencia de medias de una diferencia de medias igual a cero.
Un valor grande de z indicará una probabilidad pequeña de que nuestra diferencia de medias
pertenezca a una población cuya diferencia de medias sea igual a cero. Es importante el tamaño
del efecto, que se refiere a la relevancia práctica de los resultados, a la interpretación de si se
puede considerar que la diferencia encontrada entre las medias es grande o pequeña,
independientemente de que sea o no significativa. Los intervalos de confianza y el tamaño del
efecto proveen una lectura más práctica de los resultados. Por ello, en los informes de
investigación actuales se recomienda informar de las tres estimaciones: contraste de hipótesis,
intervalos de confianza y el tamaño del efecto.

El tamaño del efecto nos dice cuánto de la variable dependiente se puede controlar, predecir o
explicar por la variable independiente (Snyder y Lawson) o en qué grado la hipótesis nula es falsa
(Cohen). El tamaño del efecto se presenta mediante una diferencia tipificada, es decir, una
puntuación interpretable como una puntuación típica. Su cálculo es sencillo. En el numerador
tendremos la distancia de medias y en el denominador una desviación típica que puede ser una
desviación típica combinada.

68
TEMA 11: INTRODUCCIÓN AL CONTRASTE DE HIPÓTESIS
1. Introducción.

La media muestral puede ser utilizada para hacer inferencias sobre los valores probables de
una media poblacional desconocida, µ. Los valores de la media muestral, M, pueden ser usado
para probar la hipótesis sobre un valor específico de una media poblacional desconocida a través
del uso de la prueba de significación de la hipótesis nula (PSHN). Lo que hacen los investigadores
es seleccionar una muestra de la población y probar su hipótesis sobre los métodos A y B. El
proceso de selección de la muestra y sus condicionantes (representatividad y tamaño) es decisivo
en las decisiones e interpretación de los resultados tras el contraste de hipótesis.

2. Lógica de la prueba de significación de la hipótesis nula.

La hipótesis nula representa la no relación entre las variables, es la hipótesis de no


diferencias. Esto es, significa que la VI no produce ningún efecto en la VD. La hipótesis nula tiene
dos propósitos básicos (Salkind):

Sirve como punto de partida cuando no tenemos conocimiento o no hay razones para creer
que existen diferencias entre los grupos que estamos comparando.

Es un punto de referencia para comparar los resultados obtenidos y deducir si las


diferencias observadas pueden ser atribuidas a algún factor distinto a la de casualidad. De
este modo, ayuda a definir un intervalo en el que cualquier diferencia observada puede
atribuirse a la casualidad o azar y otro intervalo de valores en el que dicha diferencia
quizás se deba a otro factor distinto al azar, como la manipulación de otra variable (VI) que
esté ejerciendo un efecto sobre la variable medida (VD) en los grupos que estamos
comparando.

Los valores de la media muestral, M, pueden ser usador para probar la hipótesis sobre un
valor específico de una media poblacional desconocida. Warner indica los siguientes pasos:

El investigador hace una conjetura sobre un valor específico de un parámetro (digamos µ)


para una población de interés.

Ejemplo: la media de velocidad en autovía es de 120 km/h, el límite legal. o, de otra forma,
, donde hipotetizaremos que . En este caso, el “efecto” que se trata de detectar es la
diferencia entre la media poblacional desconocida, µ, y la media poblacional hipotetizada.

El investigador selecciona una muestra aleatoria de la población.

Ejemplo: M = 132 km/h.

Ahora, el investigador comparará la media observad (M = 132 km/h) con la media


hipotetizada de la población (µ = 120) y se hará la siguiente pregunta: ¿puede considerarse
la media obtenida en la muestra como un resultado probable o improbable? Los valores
cuya probabilidad de aparición es igual o menor de 0’05 (es decir, que aparecen 5 veces o
menos de cada 100 sucesos) cuando la H es verdadera, son considerados improbables.

Evaluación de la probabilidad asociada al valor empírico obtenido, supuesta H verdadera.


En el caso de la media, para muestras grandes, sabemos que su distribución muestral
puede ser la distribución normal. Por tanto, para evaluar cuán lejos está M del valor µ nos
basamos en el error típico. En este caso, la distancia entre M y µ es llamada z o puntuación
típica estandarizada, cuya distribución muestral es la distribución normal. Podemos
conocer la probabilidad de obtener cualquier valor de z mediante la fórmula general:

69
En el ejemplo que estamos poniendo, M es la media aritmética de una muestra aleatoria, pero
en los diseños de dos grupos, por ejemplo, M será la diferencia entre las medias de los dos grupos
sometidos a contraste, mientras que µhip será la media hipotetizada según la distribución muestral
de diferencias de medias, que no es otras sino: . El error típico, a su vez, tendrá que ser sustituido
por el error típico de diferencia de medias. Una vez obtenido el valor de z es fácil responder a la
pregunta que planteábamos. Cuanto más lejos está el valor de M del valor hipotetizado, más
grande será el valor de z y, en consecuencia, menor será su probabilidad de aparición si H es
verdadera.

En definitiva, la idea básica de la PSHN es que el investigador asume un valor para la media
poblacional desconocida, µ. Entonces, obtiene una media muestral M y la evalúa conforme a la
distribución de valores de M que cabría esperar si la H es verdadera. El investigador debe tomar la
decisión si rechazar o no rechazar H, dado el valor obtenido de M. cuando el valor de M es un
valor que puede ocurrir probablemente por casualidad cuando H es verdadera, entonces la
decisión es no rechazar H. Por el contrario, si M es improbable que ocurra por casualidad o azar
cuando H es verdadera, entonces el investigador puede rechazar H. ¿Cuándo estimamos que es
improbable que ocurra por azar? Dependerá del valor de que hayamos establecido a priori.
Siguiendo a Siegel, la condición de rechazo es la siguiente:

En el campo de la Educación, conviene plantearse los resultados obtenidos más como


“evidencia acumulativa” que como una prueba irrefutable para tomar decisiones. Será de gran
ayuda recurrir a índices complementarios como la magnitud del efecto.

3. Nivel de significación estadística y errores Tipo I y Tipo II.

El nivel de significación, , es lo que se conoce como error tipo I: la probabilidad de rechazar la


hipótesis nula cuando esta es verdadera. Cuando tomamos una decisión sobre rechazar o no la
hipótesis nula, podemos obtener cuatro resultados posibles:

Lo que de hecho sucede en la población


Hes H es falsa Decisión del investigador Rechazar H
verdadera
Error tipo I Decisión correcta (): No rechazar H
(): nivel de potencia estadística
significación

El error tipo I nos llevaría a afirmar, por ejemplo, que un método de enseñanza de las
matemáticas es mejor que otro cuando lo cierto es que no hay diferencias en los resultados de
aprendizaje que producen. El error tipo II () nos llevaría a afirmar que el medicamento no es eficaz,
cuando en realidad sí lo es. Este error coincide con la probabilidad de no rechazar la H cuando
esta es realmente falsa. El riesgo de cometer error tipo II depende de varios factores: el tamaño de
la muestra, el verdadero tamaño de efecto en la población y el valor de . Cuanto más grandes
sean cada uno de estos tres valores, más pequeño será el error tipo II.

La potencia estadística (1 – ) se define como la probabilidad de rechazar la hipótesis nula


cuando esta es realmente falsa (decisión correcta). Es deseable alcanzar una potencia de la
prueba de 0’80 (es decir, 0’20). La potencia de la prueba se utiliza para conocer el tamaño que
tendría que tener nuestra muestra si queremos alcanzar un determinado valor de , dado y un
valor previsto para el tamaño del efecto. El valor teórico del error tipo I son los valores 0’01 y 0’05.
Una probabilidad tan pequeña o inferior a nos estaría indicando que sería muy improbable que
dicha diferencia se aleatoria (pero podría darse el caso, y por eso se trata de un error posible,
aunque improbable). El valor de dependerá del tipo de variables que estén en juego. Es muy poco
frecuente utilizar valores superiores a 0’05, siendo una práctica común utilizar el valor exacto de p.

70
4. Los pasos del contraste de hipótesis.

Se valida la hipótesis en el paradigma cualitativo realizando lo que se denomina contraste


estadístico de hipótesis. Veremos ahora cuál es el proceso básico que deberemos seguir con rigor
si queremos llegar a unos resultados fiables e interpretables que nos permitan llegar a validar
nuestra hipótesis.

a. Selección de una muestra aleatoria.

Ejemplo: El efecto de un programa para mejorar el rendimiento lecto-escritor. A un grupo


(grupo experimental) le aplicamos el programa y después le pasamos una prueba de rendimiento.
Al otro grupo (grupo de control) no se le aplica, pero se le pasa también la prueba. Supongamos
que la población son los alumnos españoles que cursan tercer curso de educación primaria. El
muestreo aleatorio exige que seleccionemos aleatoriamente dos muestras de tamaño n y,
posteriormente, asignar aleatoriamente los tratamientos a los grupos. Una vez aplicados los
programas, obtendríamos las puntuaciones, a partir de las cuales se calcularán las medias
aritméticas de cada grupo.

b. Formulación de las hipótesis estadísticas.

Ejemplo: Con el programa de enseñanza García, conseguiremos mejores resultados en


rendimiento lecto-escritor que con el programa tradicional.

Formulación de la hipótesis nula (H)

En primer lugar, formulamos la hipótesis nula: “No existe diferencias estadísticamente


significativas entre las medias aritméticas de los grupos en rendimiento lecto-escritor en
función del programa utilizado.” Simbólicamente se expresa así:

Es decir, las diferencias entre las medias de los grupos son estadísticamente igual a cero,
por lo que las diferencias empíricas que existan entre las medias de las muestras se deben
al azar. Las dos muestras pertenecen a la misma población.

Formulación de la hipótesis alternativa (H)

Es llamada también la hipótesis del investigador. Dependiendo de la formulación de la


hipótesis sustantiva, la H podrá ser unilateral (unidireccional o de una cola) o bilateral
(bidireccional o de dos colas). En nuestro ejemplo, el investigador tiene razones suficientes
como para pensar que con el método García se obtendrán mejores resultados. Por tanto,
formulará así la hipótesis:

Es decir, espera que la media en rendimiento del grupo sometido al tratamiento


experimental sea superior a la del grupo de control. Cuando la diferencia esperada sea
positiva, el contraste será unilateral derecho (u la región de rechazo de la H se encontrará
en el extremo derecho). Cuando la diferencia esperada sea negativa, entonces tendremos
una hipótesis unilateral izquierda (y la región de rechazo de la H se encontrará en el
extremo izquierdo). Cuando esperamos que haya diferencias entre los grupos pero no
sabemos a favor de cuál, entonces procede formular una hipótesis bilateral, que
simbólicamente se expresará así:

Podríamos formularlo así: “Existen diferencias estadísticamente significativas entre las


medias aritméticas de los grupos en rendimiento lecto-escritor en función del programa
utilizado”. Este contraste implica repartir la probabilidad de error entre las dos colas de la
distribución, haciendo dividir por dos el valor alfa.

71
c. Elección del valor alfa o nivel de significación.

Se habla del valor nominal de alfa porque es el investigador el que lo “nomina”. Los valores
más utilizados son 0’05 y 0’01, el investigador puede necesitar reducir al máximo el error tipo I y
establecer valores inferiores, como . También puede suceder que en una investigación
exploratoria con muestras pequeñas, el investigador decida utilizar un .

d. Determinación de la distribución muestral y la región de rechazo.

En este tipo de diseños, para muestras grandes, sabemos que la prueba estadística de
contraste es la z o la t de Student. Supongamos que elegimos la z, que responde a una
distribución normal. En un contraste de dos grupos, z nos estandariza las diferencias entre las
medias de los grupos con respecto a una diferencia igual a cero. Si dibujamos la distribución
normal conforme a H, esta estaría formada por los infinitos valores de obtenidos en infinitas
muestras aleatorias extraídas de la misma población. Esta distribución toma la forma de la curva
normal. Si la H es verdadera, la mayoría de las diferencias serán igual o próximas a cero,
disminuyendo la altura de la curva según nos alejemos del valor central que sería el cero. Se trata
de una distribución muestral que indica la no existencia de diferencias estadísticamente
significativas. Es decir, indica que todas las diferencias encontradas entre dos sucesos se deben
simplemente al azar.

La distribución muestral tiene


una desviación típica que se denomina error típico, . Podremos saber, entonces, cuántas
desviaciones típicas se aleja nuestra puntuación empírica de la media de la distribución. De este
modo, el estadístico de contraste, z en este caso, nos indica cuántos errores típicos se desvía
nuestra diferencia de medias de una diferencia de medias igual a cero. Cuando este valor es tan
grande que su probabilidad de ocurrencia es igual o menor que el alfa definido por el investigador,
entonces diremos que es lo suficientemente improbable como para considerar que dicha diferencia
no es aleatoria y que atribuimos generalmente la variable independiente, en este caso al programa
García.

En consecuencia, la región de rechazo de Hestará formada por todos aquellos valores del
estadístico de contraste cuya probabilidad de aparición asociada sea menor o igual que alfa (o si
el contraste es bilateral). De nuevo,

e. Utilización del valor exacto de p.

El valor de se establece a priori, antes de calcular p, que es la probabilidad exacta asociada


al estadístico de contraste obtenida a posteriori. Indica la probabilidad de obtener un valor tan
extremo o más que el valor observado obtenido al calcular el estadístico de contraste (z, t, F, etc.)
asumiendo que la hipótesis nula es verdadera. Mediante el nivel de significación, llegamos a la
decisión de si rechazamos o no la H. Con p damos información más precisa: la probabilidad
exacta de obtener un valor igual o superior al observado si la H es verdadera. Muchas revistas
científicas del campo de la educación exigen a los autores informar del valor exacto de p en sus
artículos. En programas como el SPSS, el valor de p aparece bajo la abreviatura sig.
(significación). Otra forma frecuente de informar sobre el valore de p es utilizar la siguiente
nomenclatura:

n. s. p > 0’05 (la diferencia encontrada no es estadísticamente significativa)


* p < 0’05 (la diferencia es estadísticamente significativa utilizando un )
** p < 0’01 (la diferencia es estadísticamente significativa utilizando un )
*** p < 0’001 (la diferencia es estadísticamente significativa utilizando un )

5. Errores frecuentes en la utilización e interpretación de resultados de la prueba de


significación de la hipótesis nula.

La PSHN se basa en la asunción de una serie de condiciones:

72
Realizar un muestreo aleatorio de N observaciones independientes.

Las puntuaciones de la variable dependiente son cuantitativas y su nivel de medida es al


menos de intervalo.

La distribución de la variable dependiente es deseable que sea normal.

El investigador debe seguir rigurosamente los pasos definidos en el epígrafe anterior.

El investigador debería realizar solo uno o un número limitado de contrastes en el mismo


estudio.

Cuando se realizan investigaciones en educación raramente es posible obtener una muestra


aleatoria de una población bien definida. Incumplimos, por tanto, una de las condiciones
fundamentales para tomar de referencia la distribución muestral conforma a H. Debemos, por
tanto, definir tan claramente como sea posible la población de referencia y procurar que la muestra
sea representativa de dicha población. Otro error frecuente es no tener en cuenta la repercusión
de realizar un gran número de contrastes en un mismo estudio.

Ejemplo: Supongamos que hemos aplicado una escala de actitudes de 100 ítems.
Suponiendo que = 0’05, en 5 de esos 100 contrastes obtendríamos una diferencia de medias
significativa cuando en realidad no la hay. Tendríamos entonces lo que se conoce como riesgo
inflado de error tipo I (Warner).

Para reducir algunas de las complicaciones, se realizan diversas prácticas. Una de ellas es la
replicación del estudio. Es decir, se hace necesario que otros grupos de investigación, utilizando
muestras y repitiendo el estudio, lleguen a la misma decisión estadística. El método de la
validación cruzada supone obtener de nuestra muestra de estudio una submuestra utilizando un
porcentaje determinado de la muestra inicial.

Por lo que respecta a la interpretación de resultados debemos hablar de rechazar o no


rechazar la HPodemos rechazar la H si cumple dicha condición, pero si no se cumple,
simplemente no la rechazamos. Además del erro de muestreo, quizás el ejemplo más claro para
entender esto es el tamaño de la muestra. Cuando la muestra utilizada es demasiado pequeña,
resta potencia estadística a la prueba de contraste y entonces necesitamos diferencias muy
grandes para concluir que rechazamos H. En muchas ocasiones que no hemos rechazado H,
bastaría haber tenido una muestra más grande para haberla rechazado. Cuanto más grande es el
tamaño de la muestra, más fácil es obtener una diferencia estadísticamente significativa.

Otra explicación factible es que no se eligieron o no se manipularon bien los niveles de la


variable independiente. También podría suceder que estemos midiendo inadecuadamente la
variable dependiente (poca fiabilidad y validez) o que sea insensible a los efectos de la variable
independiente. En definitiva, concluimos que, en las condiciones en la que hemos realizado
nuestra investigación, no podemos rechazar la hipótesis nula, lo cual no quiere decir que sea
cierta o aceptemos la hipótesis nula, porque en otras condiciones podríamos haber llegado a
rechazarla.

La interpretación de un resultado debe hacerse con cautela. Deben tenerse en cuenta todos
los supuestos ya comentados, y además la expectativa del investigador de que se cumpla su
hipótesis, la posibilidad de que nuestra variable independiente correlacione altamente con otra
variable independiente no tenida en cuenta y que se esta última la que está produciendo los
efectos sobre la variable dependiente que atribuimos a la primera.

6. El tamaño del efecto.

Una diferencia estadísticamente significativa no nos dice que tal diferencia sea importante,
sino tan solo que existen diferencias en la población de referencia. Además, tampoco permita
comparar los resultados entre distintas investigaciones cuando la unidad de medida, la métrica,
varía. Para solucionar este problema, se utiliza como indicador complementario a la significación

73
estadística el tamaño del efecto, siendo la d de Cohen el índice más utilizado. Este índice muestra
el tamaño del efecto como una diferencia tipificada (como una puntuación z), donde el numerador
es la diferencia de las medias entre los grupos y el denominador es una desviación típica, que
recibe el nombre de desviación típica combinada y es la combinación de las desviaciones típicas
de los grupos que estamos comparando. La fórmula de la d de Cohen es:

Donde, la desviación típica combinada para diseños de dos grupos independientes es

Los valores sugeridos para interpretar el valor de d son los siguientes:

d 0’20 efecto pequeño

d 0’50 efecto moderado

d 0’80 efecto grande

Otra forma de valorar el tamaño del efecto es mediante una correlación biserial-puntual. La
variable X sería dicotómica, es decir, pertenecer a uno de los dos grupos que se están
comparando (valores posibles 0/1), mientras que la variable Y sería continua, la medida de la
variable dependiente. Podemos transformar el valor de la t de Student en otro valor que nos da la
idea de la fuerza de la relación entre la variable independiente y la dependiente y que nos permite
comparar también los resultados en distintos estudios. En definitiva, es importante combinar los
resultados de la significación estadística y el tamaño del efecto. De esta forma, podremos valorar
con más precisión los resultados obtenidos. Es importante ser consciente de que podrían
obtenerse resultados aparentemente contradictorios, y obtener un tamaño del efecto poco
relevante (cuando tenemos muestras muy grandes), u obtener un tamaño del efecto muy relevante
(cuando las muestras son pequeñas).

7. Contraste de hipótesis en los diseños de dos grupos.

En la investigación, lo que buscamos es conocer los efectos de una variable, la independiente,


sobre la dependiente.

Variable Independiente (VI): característica que el investigador observa para conocer su


relación sobre la variable dependiente.

Variable Dependiente (VD): característica cuyas variaciones se espera que se produzcan


por el efecto de la VI. Suele recibir el nombre de “variable medida”.

Variables de control, moderadoras o controladas: aquellas que tienen influencia sobre la VD.

Variables extrañas: aquellas que intervienen pero que se escapan al control del investigador
(condiciones ambientales, estado físico y anímico…).

En resumidas cuentas, lo que buscamos es saber si es cierta esta relación causa-efecto:

Así, por ejemplo, lo que se desea saber es si un método de enseñanza (VI) es eficaz para
conseguir un mejor rendimiento en matemáticas (VD). Una forma de resolver este problema es
mediante los diseños de dos grupos: a un grupo (grupo experimental) se le aplica el tratamiento o
método experimental (VI), y a otro grupo no se le aplica y se utiliza como grupo de comparación
(grupo de control). Después de aplicar el tratamiento, se comparan los grupos. Para ello, lo que se
comparan son las medias de los grupos. Generalmente, el investigador esperará rechazar la
hipótesis nula, ya que confiará en que su tratamiento sea eficaz; sin embargo, deberá verificar su
intuición empíricamente.
74
Acabamos de referirnos a un diseño de dos grupos. Un diseño es el plan (esbozo del
proyecto), estructura (esquema) y estrategia (recogida y análisis de datos) de investigación
concebidos para obtener respuestas a las preguntas de investigación y controlar la varianza. Hay
dos tipos:

Experimentales: existe manipulación y control de la/s VI. Tendremos diseños experimentales


cuando se aplique un tratamiento o un método, haya selección aleatoria de los sujetos de
la muestra, y selección aleatoria en la asignación de los tratamientos a los grupos (se
sortea).

No experimentales, ex-post-facto o correlaciónales: no hay manipulación ni control de la/s


VI. No puede haber un grupo experimental y de control, tan solo comparamos las medias
en la VD en función de una variable de clasificación (las diferencias en rendimiento en
función del sexo, en función del nivel familiar o en función del cociente intelectual).

Estos son los pasos del proceso de investigación:


1- Formulación del problema.

2- Revisión bibliográfica del estado de la cuestión.

3- Definición de variables.

4- Formulación de hipótesis.

5- Diseño de la investigación.

6- Contraste estadístico de hipótesis:

a. Formulación de las hipótesis estadísticas.

i. Hipótesis nula: H.

ii. Hipótesis alterna: H.

b. Elección de la prueba estadística adecuada.

c. Establecimiento del nivel de significación ().

d. Definición de la distribución muestral respecto a H.

e. Establecimiento de la región de rechazo de H.

f. Decisión estadística (rechazo o no rechazo de H).

7- Decisión de práctica (magnitud del efecto y conclusiones generales).

La investigación siempre se inicia con el planteamiento de un problema al que queremos dar


respuesta. A partir del planteamiento del problema de forma más o menos compleja, debemos
revisar el estado de la cuestión, es decir, qué se ha investigado anteriormente. A continuación,
definimos cuáles serán las variables que intervendrán y formularemos nuestra hipótesis. Esta
hipótesis, hipótesis sustantiva, convenientemente transformada en hipótesis estadísticas, será la
que contrastemos mediante la prueba de significación de la hipótesis nula (PSHN).

El diseño de investigación es el plan, la estructura y la estrategia de investigación. El plan es


el esbozo general del proyecto de investigación (incluye desde la formulación de hipótesis hasta el
análisis de los datos). La estructura es el esquema de lo que se hará con las variables. La
estrategia se refiere a los métodos de recogida y análisis de datos (muestreo, instrumentos, etc.).
A partir de aquí, se puede proceder al contraste estadístico de hipótesis.

Prueba estadística para el contraste de hipótesis

La prueba estadística dependerá del tipo de diseño. Vamos a estudiar el diseño de dos grupos
independientes. Hay que elegir la prueba de contraste más adecuada. Hay dos tipos: las
paramétricas y las no paramétricas. Las primeras son las más potentes para rechazar H, por lo
75
que son preferibles. Pero para utilizar se deben cumplir:

Nivel de medida de la VD: debe ser de intervalo o razón. (Valore de 1 a 6 su grado de


acuerdo).

Normalidad de la distribución en la población: se distribuye según la curva normal. Se


comprueba con el test de Ji cuadrado o el de Kolmogorov-Smirnov.

Homocedasticidad de las varianzas poblacionales: los dos grupos que comparamos tienen
varianzas estadísticamente iguales. Se prueba con el test F de Snedecor o con la F de
Levene.

Si no se cumplen estas condiciones, no se puede utilizar una prueba paramétrica. Después,


debemos saber elegir la prueba adecuada. Esto dependerá de aspectos como el número de
variables independientes, el número de grupos o muestras, el tipo de muestras (independientes o
correlacionadas) y el tamaño de la muestra. En este caso, vamos a ver solamente las pruebas
para una VI con dos niveles (dos grupos), siendo los grupos independientes y para cualquier
tamaño muestral.

Para muestras grandes (N > 30) la prueba adecuada es z (Razón crítica)

Donde

Para muestras grandes o pequeñas podemos utilizar la prueba t de Student

En el caso de dos grupos correlacionados, la fórmula general para el contraste de medias es:

Donde el error típico de diferencia de medias tiene en cuenta el valor de la correlación (r).

Establecer el nivel de significación

Lo establecerá el investigador. Los valores usuales son: = 0’05; = 0’01; y, = 0’001. También
puede expresarse, por ejemplo, como = 0’05.

Definición de la distribución muestral

Estaría formada por los infinitos valores del estadístico de contraste obtenidos en infinitas
muestras aleatorias de tamaño N extraídas de la misma población.

Definición de la región de rechazo de la distribución muestral

Es aquella parte de la distribución muestral formada por todos los valores del estadístico de
contraste cuya probabilidad de aparición asociada sea menor o igual que (o /2 si el contraste es
bilateral). Conviene siempre dibujarlo:

76
Decisión estadística

Rechazar o no rechazar la hipótesis nula, la hipótesis de contraste. Recordemos:

Para ello, calcularemos el valor del estadístico empírico según la fórmula elegida y
compararemos la probabilidad asociada a este valor con el valor de . En las pruebas z y t, cuando
el valor empírico es mayor que el crítico, se rechaza la hipótesis nula.

Relevancia práctica de las diferencias: tamaño del efecto

Será un cálculo complementario que nos ayudará a interpretar la importancia que debemos
atribuir a las diferencias encontradas desde un punto de vista educativo. Para ello, podemos
utilizar la d de Cohen para diseños de dos grupos independientes:

Donde

EJEMPLO

Estamos estudiando el efecto de un programa para mejorar la capacidad verbal de los sujetos.
Para ello, hemos seleccionado aleatoriamente dos grupos: a un grupo (experimental) le aplicamos
el programa y después le pasamos una prueba de rendimiento verbal. Al otro (de control), no se le
aplica el programa pero se le pasa también la prueba de rendimiento. De esta forma, obtenemos
dos medias aritméticas, una de cada grupo.

Diseño de la investigación

Se trata de un diseño experimental de dos grupos independientes con media postest (solo se
ha realizado una medición después de aplicar la VI).

VI: Método

VD: Rendimiento verbal

Contraste estadístico de hipótesis

Formulación de las hipótesis estadísticas:

o Hipótesis nula: , las diferencias entre las medias aritméticas de los grupos
experimental y de control son estadísticamente igual a cero, se deben al azar, y
pertenecen a la misma población.

77
o Hipótesis alterna: , la media aritmética del grupo experimental es
estadísticamente superior a la media del grupo de control, es decir, existen
diferencias estadísticamente significativas entre las medias de los grupos a favor
del grupo experimental.

Elección de la prueba estadística adecuada:

Supongamos que se cumplen los supuestos de independencia, normalidad y


homocedasticidad. La VD se ha medido mediante un test estandarizado de capacidad
verbal, por lo que su nivel de medida puede considerarse de intervalo. En consecuencia,
procede el uso de una prueba paramétrica. Tenemos una VI, dos grupos, grupos
independientes y N pequeña, por lo que seleccionamos la prueba t de Student. Veamos
cómo se comprobaría con SPSS. Comprobamos el supuesto de normalidad en cada
muestra para = 0’05.

Como , no se rechaza la H y aceptamos el supuesto de normalidad de distribución.

Establecimiento del nivel de significación ():

Decidimos un = 0’05.

Definición de la distribución muestral respecto H:

La distribución muestral conforme a la H estaría formada por los infinitos valores de t


obtenidos en infinitas muestras aleatorias del tamaño dado extraídas de la misma
población.

Establecimiento de la región de rechazo de H:

Es aquella parte de la distribución muestral formada por todos los valores de t cuya
probabilidad de aparición asociada sea menor o igual que = 0’05.

78
Decisión estadística (rechazo o no rechazo de H):

Calculamos el resultado con SPSS:

Realizamos ahora el contraste de medias mediante la prueba t. La propia prueba nos


indica en primer lugar si se cumple o no el supuesto de homocedasticidad con la F de
Levene, con el fin de que utilicemos el valor que corresponda.

Como , no se rechaza la H y aceptamos el supuesto de homocedasticidad o igualdad de


varianzas. Por lo tanto, se cumplen todos los supuestos para utilizar una prueba
paramétrica y es correcto utilizar la prueba t.

Analizamos ahora el estadístico de contraste de medias. Vemos que el valor de , con una
probabilidad de ocurrencia de p = 0’383. No se cumple en consecuencia la condición de
rechazo, ya que , por lo que podemos considerar que la diferencia de medias obtenida
entre los grupos de 1’20 es estadísticamente igual a 0, se ha obtenido por efecto del azar.
No puede confirmarse la hipótesis del investigador con los datos obtenidos en esta
muestra, con una probabilidad de cometer error tipo I de 0’05.

Decisión práctica (magnitud del efecto y conclusiones generales)

Aplicando la fórmula de Cohen, obtenemos que d =0’3, es decir, el efecto de la VI sobre la VD


es poco relevante. Por tanto, el investigador debería revisar su hipótesis. También hay que
considerar que el tamaño de las muestras es bastante pequeño. Con estos datos, no debería
recomendar utilizar unas técnicas de motivación diferentes con los alumnos de alta capacidad.

Cuando manifestamos las conclusiones de una investigación cuantitativa, debemos ser muy
cautos. Primero, porque estamos realizando inferencias y, podemos estar cometiendo un error en
nuestras afirmaciones. Segundo, porque trabajamos con personas y en situaciones y contextos
naturales que hacen difícil el control exhaustivo de variables. Y, tercero, porque las posibilidades
de generalización de nuestros hallazgos están limitadas a las poblaciones de las que hemos
seleccionado las muestras.

8. Resumen.
79
El contraste estadístico de hipótesis es un método para tratar de llegar a evidencias empíricas
en el campo de la educación. Se basa en la prueba de significación de la hipótesis nula. Esta
prueba exige que se cumplan determinados supuestos (población definida, selección aleatoria,
contrastes limitados, normalidad…), exige seguir unos pasos de forma sistemática y rigurosa
(hipótesis, muestra, comparación y decisión), lo que implica conocer los errores que podemos
estar cometiendo (error tipo I y error tipo II), así como la importancia de la potencia estadística de
la prueba utilizada. Estos pasos son: selección de una muestra aleatoria, formulación de las
hipótesis, nivel de significación, definición de la distribución muestral y la región de rechazo, y
decisión estadística: rechazar o no la hipótesis nula.

80

También podría gustarte