Está en la página 1de 87

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

PRIMERA PARTE
Antologa tomada del libro de: GIL FLORES, J.; RODRGUEZ GMEZ, G.; GARCA JIMNEZ, E. (1995). Estadstica Bsica Aplicada a las Ciencias de la educacin. Sevilla. Kronos.

Recopilado por: Mtra. Yolanda Reyes Carbajal

IESFROSUR DIVISION POSTGRADO MAESTRIA EN EDUCACION

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

ANALISIS DE DATOS EN INVESTIGACION EDUCATIVA


A. EL PAPEL DEL ANLISIS DE DATOS EN LA INVESTIGACIN EDUCATIVA 1. Introduccin 2. el concepto de anlisis estadstico de datos 3. el anlisis estadstico de datos en las distintas fases del proceso de investigacin 4. Planteamiento del problema y formulacin de hiptesis 5. Diseo de investigacin 6. Anlisis de Datos 7. Obtencin de conclusiones y redaccin del informe de investigacin 8. Contenidos del anlisis estadstico de datos 9. la informtica en el anlisis estadstico de datos B. ORGANIZACIN Y PRESENTACIN DE LOS DATOS 1. Conceptos previos sobre medicin y escalas de medida 2. concepto de medida 3. niveles de medida 4. constante, variable, modalidades y clases 5. ordenacin y clasificacin de los datos: distribuciones de frecuencias 6. frecuencias y distribucin de frecuencias 7. distribucin de frecuencias agrupadas 8. representacin grfica de datos 9. problemas resueltos 10. problemas propuestos C. TCNICAS DESCRIPTIVAS BSICAS PARA UNA VARIABLE 1. MEDIDAS DE TENDENCIA CENTRAL A. Media B. Mediana C. Moda 2. MEDIDAS DE POSICIN A. Percentiles B. Deciles C. Cuartiles 3. MEDIDAS DE DISPERSIN A. Rango B. Desviacin media C. Varianza y desviacin tpica D. Coeficiente de variacin E. Amplitud semiintercuartlica 4. Problemas resueltos 5. problemas propuestos D. PUNTUACIONES INDIVIDUALES Y CURVA NORMAL 1. Puntuacin tpicas 2. Ejemplo 2 3. Puntuaciones tpicas derivadas 4. La curva normal 5. Distribucin normal tipificada o estandarizada 6. reas bajo la curva normal 7. Ejemplo 3: 8. Problemas propuestos IESFROSUR Pgina 2

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

E. TCNICAS PARA EL ESTUDIO DE LA RELACIN ENTRE VARIABLES 1. Introduccin 2. Distribucin conjunta de frecuencias 3. Diagrama de dispersin o nube de puntos 4. Concepto de covarianza 5. Correlacin de pearson 6. Ejemplo 1 7. Condiciones de aplicacin 8. Propiedades 9. Interpretacin 10. Regresin 11. La ecuacin de una recta 12. La ecuacin de la recta de regresin 13. Coeficiente de determinacin 14. Problemas resueltos 15. Problemas propuestos F. TCNICAS PARA EL ESTUDIO DE LA RELACIN ENTRE VARIABLES (II) 1. Introduccin 2. Coeficiente de correlacin de spearman 3. Ejemplo 1 4. Propiedades 5. Coeficiente de contingencia 6. Ejemplo 2 7. Propiedades 8. Coeficiente de correlacin biserial puntual 9. Ejemplo 3 10. Propiedades 11. Coeficiente de correlacin biserial 12. Ejemplo 4 13. Propiedades 14. Coeficiente de correlacin phi 15. Ejemplo 5 16. Propiedades 17. Coeficiente de correlacin tetracrica 18. Ejemplo 6 19. Propiedades 20. Tratamiento informtico de las correlaciones 21. Ejercicios

IESFROSUR

Pgina 3

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

El papel del anlisis de datos en la investigacin educativa


1. Introduccin. 2. El concepto de anlisis estadstico de datos. 3. El anlisis estadstico de datos en las distintas fases del proceso de investigacin. 4. Contenidos del anlisis estadstico de datos. 5. La informtica en el anlisis estadstico de datos. Referencia bsica para el tema: GIL FLORES, J.; RODRGUEZ GMEZ, G.; GARCA JIMNEZ, E. (1995). Estadstica Bsica Aplicada a las Ciencias de la educacin. Sevilla. Kronos. (CAPITULO 1).

INTRODUCCIN Analizar informacin procedente de diversas vas es una actividad comn en el ser humano. Habitualmente examinamos aspectos de nuestra realidad, indagamos en un problema vital o damos diferentes interpretaciones a las cosas que nos ocurren. Desde este punto de vista llevamos a cabo un proceso de asimilacin de la informacin externa y acomodacin en nuestro intelecto, que muchas veces es realizado de manera automtica. Cuando nos referimos aqu al Anlisis de Datos hablamos de un proceso de indagacin cientfica sobre un problema de investigacin concreto con relevancia social y educativa. La informacin que recogemos puede ser tanto numrica como textual, y ante ella nos disponemos a la realizacin de diferentes actividades o tareas de anlisis acordes con el tipo de dato recogido, el problema de investigacin formulado, y las caractersticas propias del diseo de investigacin al que nos enfrentamos. De esta manera, el Anlisis de Datos no constituye un fin en s mismo sino que es un proceso subordinado a otro ms amplio como es la investigacin educativa. Concretamente, en esta materia nos detendremos en el Anlisis Estadstico de Datos y en la relevancia que poseen las tcnicas y procedimientos estadsticos en y para la investigacin educativa. No obstante, tambin dedicaremos un apartado al Anlisis de Datos no cuantitativos, aludiendo al anlisis de textos. EL CONCEPTO DE ANLISIS ESTADSTICO DE DATOS El Anlisis Estadstico de Datos se ha asociado de manera general con la investigacin de corte experimental, o podemos decir que es caracterstico de los enfoques positivistas. Este trmino se define de muchas maneras segn se conciba desde una perspectiva ms amplia o ms restringida, y segn se entienda tambin el proceso de investigacin. El concepto de Anlisis Estadstico de Datos no se agota en las acepciones que se identifican con un conjunto de datos o enumeracin de hechos, o con procedimientos de tipo descriptivo destinados a recoger, organizar y presentar la informacin relativa a un conjunto de casos. De esta manera, el Anlisis Estadstico de Datos ha dejado de ser nicamente la ciencia de recopilar datos y, tras fusionarse con la corriente de IESFROSUR Pgina 4

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

estudios sobre el clculo de probabilidades, se ha constituido en una rama de la matemtica aplicada, entendiendo sta como el uso de principios y modelos matemticos en diversos mbitos de la ciencia o la tcnica. Dentro del Anlisis Estadstico de Datos encontramos dos vertientes:

Anlisis Estadstico de Datos (propiamente matemtico), que supone el estudio de los fenmenos estadsticos utilizando los mtodos matemticos y proporciona conocimiento acerca de las tcnicas que integran los mtodos estadsticos. Anlisis Estadstico de Datos Aplicado; este carcter aplicado ha estado presente desde los inicios de esta ciencia, sobre todo en cuanto a su conexin con el estudio y resolucin de problemas prcticos con datos reales. Todo ello ha estimulado la innovacin de nuevos mtodos y procedimientos, y el avance de anlisis estadsticos.

A continuacin expondremos las caractersticas propias que definen el concepto de Anlisis Estadstico de Datos:

Carcter terico y aplicado. Estudio de conjunto de datos. Trabajo con datos procedentes de observaciones o mediciones. Carcter cuantitativo de los datos. Reduccin de la informacin. Generalizacin a colectivos ms amplios.

Por tanto, como ya mencionamos, el Anlisis Estadstico de Datos no se limita slo a su tratamiento sino que se extiende a tareas previas y posteriores a esta fase. Tambin puede ocuparse de la recogida de datos (referido a las tcnicas y mtodos de muestreo y a la evaluacin de la calidad de los instrumentos que se disean para la recogida de datos) y la interpretacin de los resultados (afirmaciones que se realizan como consecuencia de la aplicacin de mtodos estadsticos: descripcin, reduccin, generalizacin). Terminaremos este apartado sintetizando los rasgos ms relevantes que llevan a definir el Anlisis Estadstico de Datos:
Es una ciencia cuyo objeto es el estudio de mtodos y tcnicas para el

tratamiento de conjuntos de datos numricos.


Las tcnicas estadsticas permiten la descripcin de conjuntos de datos y la

inferencia sobre conjuntos ms amplios.


Los mtodos desarrollados por esta ciencia pueden ser aplicados a distintos

campos del saber, constituyendo un importante instrumento para el estudio cientfico. As, definimos el Anlisis Estadstico de Datos como un conjunto de mtodos, tcnicas y procedimientos para el manejo de datos, su ordenacin, presentacin, descripcin, anlisis e interpretacin, que contribuyen al estudio cientfico de los problemas planteados en el mbito de la educacin y a la adquisicin de conocimiento sobre las realidades educativas, a la toma de decisiones y a la mejora de la prctica desarrollada por los profesionales de la educacin (Gil Flores, 1996: 43). IESFROSUR Pgina 5

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

EL ANLISIS ESTADSTICO DE DATOS EN LAS DISTINTAS FASES DEL PROCESO DE INVESTIGACIN El Anlisis Estadstico de Datos desempea un papel relevante dentro de campo de la investigacin educativa. No obstante, dichas tcnicas de anlisis cobran especial importancia dentro del enfoque positivista. Desde esta perspectiva, existen razones que justifican la utilizacin del Anlisis Estadstico de Datos en la investigacin Educativa (Guilford y Fruchter, 1978):

Permite el tipo de descripcin ms exacta. Si el objetivo de la ciencia es la descripcin de fenmenos, el Anlisis Estadstico de Datos forma parte del lenguaje descriptivo que necesita el cientfico. Nos fuerza a ser definidos y exactos en nuestros procedimientos y en nuestro pensamiento, evitando las conclusiones vagas. Nos permite reducir los datos en una forma significativa y conveniente, poniendo orden en el caos. Facilita la extraccin de conclusiones generales, siguiendo reglas aceptadas para llegar a ellas. Permite hacer predicciones sobre lo que ocurrir bajo condiciones que conocemos y hemos medido. Tales predicciones pueden contener error, pero el Anlisis Estadstico de Datos nos informa tambin del margen de error que cometemos. Nos permite analizar algunos de los factores causales que explican fenmenos complejos.

Tambin Anlisis Estadstico de Datos como herramienta de trabajo til en la investigacin educativa ya que nos ofrece tcnicas y procedimientos que pueden aplicarse en la fase de Anlisis de Datos. No obstante, no queda limitado a dicha fase ya que contribuye a otras o a diferentes momentos del proceso de investigacin. De esta manera, intentamos resalta la presencia del Anlisis Estadstico de Datos en diferentes momentos del proceso de investigacin y la utilidad de las tcnicas estadsticas en y para el mismo. Dicho proceso constituye un todo interrelacionado en el que la toma de decisiones que realicemos sobre cualquier elemento del mismo supone un condicionante de cara a los dems elementos. Planteamiento del problema y formulacin de hiptesis El Anlisis Estadstico de Datos est presente en la formulacin del problema de investigacin. Como sealamos, el proceso de investigacin es un todo interrelacionado en el que las decisiones que tomemos con respecto a algunos de sus elementos condicionan a los dems elementos del proceso. La formulacin del problema determinar el tipo de datos que es necesario recoger, las tcnicas de recogida adecuadas para ello y los procedimientos estadsticos que se utilizarn en el anlisis. En la definicin del problema aparecer una limitacin de la amplitud del estudio, de tal forma que si ste se dirige a toda una poblacin, tendremos que pensar en procedimientos de la estadstica Descriptiva, mientras que si nos limitamos al estudio de una muestra, habremos de recurrir a la estadstica inferencial. Definimos problema como una laguna en el conocimiento (un interrogante que nos hacemos) para la cual no tenemos solucin aceptable. El problema ha de ser relevante IESFROSUR Pgina 6

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

y verificable empricamente y se debe formular de manera clara y breve. En este sentido, es muy importante la resolubilidad del problema de investigacin, aspecto que en ocasiones slo queda garantizado si contamos con tcnicas estadsticas adecuadas y potentes, capaces de abordar los interrogantes de partida. Por ejemplo, el planteamiento de problemas que supongan comparaciones entre mltiples grupos no podra hacerse sin contar con tcnicas como el anlisis de la varianza; un gran nmero de problemas de investigacin en los que se incluyen mltiples dimensiones o variables simultneamente no han llegado a ser estudiados hasta que no se ha contado con tcnicas de anlisis multivariante que permiten abordar su estudio. De igual manera, el Anlisis Estadstico de Datos est presente en la formulacin de hiptesis, ya que sta no puede hacerse sin tener en cuenta las tcnicas estadsticas que permiten su contrastacin. Como afirman Arnal, Del Rincn y Latorre (1992), el investigador se ve en la necesidad de salvaguardar la coherencia entre la teora, la hiptesis y el posterior anlisis estadstico que le permitir aceptarla o rechazarla. Una hiptesis es una solucin por adelantado que se da al problema de investigacin que formulamos; es una conjetura, una solucin posible. En el marco de los programas de investigacin positivistas, la hiptesis cientfica habr de ser expresada en trminos estadsticos para su contrastacin. Diseo de investigacin Como expusimos en un apartado anterior, el Anlisis Estadstico de Datos forma parte de los diseos de investigacin experimentales. En el concepto de diseo contemplamos por un lado la organizacin de los aspectos que constituyen el experimento (en los que el Anlisis Estadstico de Datos est presente en la medida que facilitan el anlisis de datos y posibilitan el control de la varianza debida a variables extraas), y por otro, el procedimiento estadstico que hace posible la interpretacin de los resultados (Fisher, 1953). El Anlisis Estadstico de Datos tambin est presente cuando el diseo contempla la seleccin de sujetos. La teora de muestras proporcionar tanto los procedimientos de seleccin como la determinacin del tamao muestral necesario para mantener el error dentro de los lmites aceptables. Por otro lado, la recogida de datos es una tarea para la que aparentemente las tcnicas estadsticas parecen no jugar un papel relevante. Sin embargo, el Anlisis Estadstico de Datos tiene un lugar especial en la construccin y validacin de instrumentos que se utilizan para la recogida de datos. Por ejemplo, la determinacin de la fiabilidad y validez de algunos instrumentos se apoya directamente en coeficientes de correlacin, o la aplicacin de tcnicas de anlisis de componentes principales o anlisis factorial permite explorar la dimensionalidad de los instrumentos. Adems, el Anlisis Estadstico de Datos puede participar indirectamente en la operacin de recogida proporcionando primeras elaboraciones de los datos en el momento mismo de su registro.

IESFROSUR

Pgina 7

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Anlisis de Datos Tras la recogida de datos procedemos al anlisis de los mismos. Es decir, pretendemos transformar, organizar, resumir y sacar indicadores bsicos de la informacin recogida, y en funcin de dichos indicadores extraer conclusiones, y tambin generalizar los resultados a las poblaciones de donde las muestras fueron extradas. Todas estas tareas corresponden al Anlisis Estadstico de Datos. El procedimiento de Anlisis suele comenzar con una depuracin de los datos para tratar de eliminar o corregir los posibles errores que se hayan cometido en la fase de registro o codificacin de la informacin recogida. Una segunda fase es la descripcin de las variables que entrarn a formar parte del estudio, teniendo en cuenta el enfoque del que partimos (univariante, multivariante o aplicacin de tcnicas inferenciales). No obstante, existen vas diferentes al Anlisis Estadstico de Datos dentro de la investigacin educativa. En ellas nos centraremos en el ltimo tema del programa de la asignatura. En este sentido, entre los procedimientos de Anlisis de datos, entendidos como tcnicas para extraer informacin de los datos e interpretar su significado, cabra hacer una distincin entre:
Anlisis Cualitativo, que expresa, ordena, describe, interpreta los datos

mediante conceptos, razonamientos y palabras, y


Anlisis Cuantitativo, en el que se recurre a conceptos y razonamientos que

se apoyan en nmeros y estructuras matemticas (Yela, 1994). Obtencin de conclusiones y redaccin del informe de investigacin
Aplicar tcnicas de Anlisis Estadstico nos lleva de manera directa a la obtencin

de conclusiones, las cuales estarn, de alguna forma predeterminadas por el tipo de tcnicas que usemos. Estas conclusiones, al igual que todo el proceso de investigacin, deben contar con la inclusin de resultados estadsticos. De esta manera, el Anlisis Estadstico de Datos est presente en la fase de redaccin del informe de investigacin. Para ilustrar tales conclusiones se utilizarn cuadros, tablas y grficos, que recogern medias, porcentajes, coordenadas, correlaciones, o cualquier otro tipo de estadsticos necesarios para ilustrar de manera adecuada la investigacin realizada.

IESFROSUR

Pgina 8

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

CONTENIDOS DEL ANLISIS ESTADSTICO DE DATOS Lejos de realizar una exhaustiva revisin de todas las tcnicas y mtodos estadsticos existentes, nuestra pretensin en este apartado es apuntar a grandes rasgos los principales campos en que se estructura el Anlisis Estadstico de Datos, y sobre todo el que habitualmente se aplica en el campo de las Ciencias de la Educacin. No obstante, aqu adoptaremos la solucin de distinguir entre:

Estadstica descriptiva, procedimientos dirigidos a la organizacin y descripcin de un conjunto de datos, y Estadstica inferencial, que se orientan a realizar inferencias sobre una poblacin a partir de las caractersticas conocidas para una muestra extrada de ella.

Es frecuente que se otorgue especial importancia a la Estadstica inferencial, considerndola el verdadero objetivo de la Estadstica; la descriptiva tendra nicamente la finalidad de proporcionar los ndices a partir de los cuales se estimarn los parmetros. Si adoptramos nicamente la complejidad como criterio, basndonos en el nmero de variables implicadas, podramos hablar de:
Estadstica univariada, Bivariada o Multivariada.

El esquema a seguir en la presentacin de los contenidos de la Estadstica podra estar basado en el planteamiento clasificatorio que suele adoptarse a la hora de recoger las tcnicas estadsticas en los manuales dedicados a esta materia:

Los procedimientos de la Estadstica descriptiva e inferencial se reduciran a las tcnicas que suponen el tratamiento de una o dos variables; cuando entramos en el manejo simultneo de ms de dos variables suele considerarse un apartado diferente de la Estadstica al que se califica con el trmino de Estadstica multivariante. Pero no debe perderse de vista que este modo de clasificacin no es sino una solucin prctica, que desde el punto de vista terico presenta algunas dificultades. Al diferenciar entre estos tres tipos de tcnicas no hemos logrado una verdadera clasificacin del Anlisis Estadstico de Datos; Estadstica descriptiva, inferencial y multivariante, en sentido estricto, no representan una particin del conjunto de contenidos de la Estadstica, es decir, no constituyen subconjuntos disjuntos ni tampoco abarcan entre ellas todo el dominio de las tcnicas estadsticas. No obstante, en esta materia nos centraremos en los dos primeros bloques de contenidos citados: Estadstica descriptiva e inferencial.

IESFROSUR

Pgina 9

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

LA INFORMTICA EN EL ANLISIS ESTADSTICO DE DATOS Auge y desarrollo /expansin de la Informtica desde hace algunos aos en el campo de la investigacin educativa, y ms concretamente en el mbito del Anlisis de Datos. Aplicaciones de la informtica muy importantes si tenemos en cuenta la cantidad de datos que manejamos normalmente y tambin los diferentes tipos de anlisis que se realizan. En este sentido, los programas informticos facilitan mucho la tarea pero es importante que resaltemos la correcta utilizacin de los mismos y la coherencia y lgica del investigador en tales procesos. Es fundamental que la informtica siempre responda al problema de investigador y objetivos planteados, y no sustituya al analista. De todas las funciones que el ordenador puede cubrir en la investigacin educativa, es quiz la del Anlisis de Datos la que con mayor claridad puede haberse beneficiado de este tipo de herramientas. El ordenador ha venido a revolucionar este campo, permitiendo la aplicacin de complejos procedimientos de anlisis y, de alguna manera, simplificndolos. Si el impacto de la informtica en el campo de la investigacin educativa ha sido considerable, en el caso del Anlisis de Datos esta afirmacin cobra pleno sentido. El Anlisis de Datos "ha recibido un impulso revolucionario con la generalizacin del uso de los ordenadores" (Bisquerra, 1989:230), hasta tal punto que hoy es difcil concebir este proceso desligado de la utilizacin de tales mquinas. Algunas de las ventajas y posibilidades que lleva consigo el uso de la informtica en el Anlisis Estadstico de Datos son:

Ha permitido un considerable ahorro de tiempo y esfuerzo. Los clculos manuales que costaban al investigador largas horas de trabajo, incluso utilizando la calculadora, la mquina los realiza en pocos segundos. Posibilita una mayor exactitud en los clculos. Es evidente que el clculo manual, adems de ser lento conlleva aproximaciones o redondeos, sobre todo cuando se trabaja con nmeros decimales y se requieren clculos encadenados, que pueden llegar a suponer un considerable error en los resultados finales obtenidos. Por otra parte, en el dominio de la inferencia estadstica, el ordenador nos ofrece posibilidades con mayor exactitud que las obtenidas mediante tablas de distribuciones tericas de probabilidad habitualmente usadas. Ha abierto la posibilidad de manejar grandes cantidades de datos, de trabajar con muestras mayores y de incluir ms variables, haciendo que el anlisis de grandes bancos de datos o la aplicacin de complejas tcnicas multivariantes a grandes muestras no presenten tareas inabordables en la prctica.

Considerando dichas ventajas, la Informtica en el Anlisis Estadstico de Datos:

Al liberarnos de tiempo en la realizacin de clculos el investigador puede centrarse en otros momentos o tareas conceptuales ms relevantes del proceso de investigacin como la toma de decisiones respecto al proceso estadstico a seguir o a la tcnica concreta que se deber emplear, mayor atencin al anlisis crtico del proceso y a la interpretacin de resultados. Tambin nos ofrecen la posibilidad de realizar clculos para la comparacin de resultados utilizando mtodos diferentes, aspecto que no se realizaba por Pgina 10

IESFROSUR

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

considerar un esfuerzo adicional para el investigador, adems de la dificultad que entraaba un anlisis. Otra de las posibilidades que abri la informtica fue el tratamiento conjunto de mltiples variables y, por ende, el desarrollo de anlisis multivariante, en los que se observaba una creciente complejidad estadstica. La triangulacin multimtodos y el manejo de grandes muestras y elevado nmero de variables contribuye al aumento de la fiabilidad y validez de los estudios y, por ende, su poder de generalizar los resultados.

No obstante, el desarrollo de la Informtica no slo ha supuesto beneficios para el Anlisis Estadstico de Datos sino tambin a la mejora y desarrollo de tcnicas estadsticas ms complejas e innovadoras. Teniendo en cuenta las ventajas que representa el uso del ordenador y el papel que juega en el Anlisis Estadstico de Datos, hoy da resulta inconcebible la realizacin de este tipo de anlisis en la investigacin educativa que no se apoyen en la informtica. Actualmente, gracias al avance y desarrollo del mundo de la informtica contamos con un gran nmero de programas para el Anlisis de Datos. Los diferentes tipos de datos (cuantitativos o cualitativos) exigen diferentes software informtico, ya que requieren diferente tratamiento. En este curso, al centrar nuestra atencin principalmente en el Anlisis Estadstico de Datos, tendremos como soporte el software EXCEL, utilizndolo para generar archivos de datos, transformarlos y realizar anlisis estadsticos, atendiendo, como ya sealamos, tanto a la Estadstica Descriptiva como a la Inferencial

IESFROSUR

Pgina 11

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Organizacin y presentacin de los datos


1. Conceptos previos sobre medicin y escalas de medida. 2. Ordenacin y clasificacin de los datos: distribuciones de frecuencias. 3. Representacin grfica de datos. Referencia bsica para el tema: GIL, J.; RODRGUEZ, G. y GARCA, E. (1995). Estadstica Bsica Aplicada a las Ciencias de la Educacin. Sevilla, Kronos. (Cap.2 y 3). CONCEPTOS PREVIOS SOBRE MEDICIN Y ESCALAS DE MEDIDA
Concepto de medida Niveles de medida Constante, variable, modalidades y clases

Concepto de medida Asignacin de nmeros a los objetos con la intencin de representar alguna de sus caractersticas. Toda medicin implica establecer una regla para hacer corresponder los nmeros con las distintas formas en que se presenta una caracterstica de los objetos o individuos. En el caso de la investigacin educativa, se suelen asignar nmeros a conductas, opiniones, actitudes, intereses, etc. manifestadas por individuos o grupos. Niveles de medida Segn el modo en que se utilizan los nmeros en la medicin, podemos hablar de distintos niveles de medida: a) Nivel nominal. El nivel nominal de medicin consiste en asignar nmeros que hacen la funcin de meros nombres o etiquetas. Si empleamos un nivel de medida nominal lo nico que podemos inferir es que los objetos difieren entre s respecto del atributo medido, aunque ello no implica ninguna otra propiedad. b) Nivel ordinal. El nivel ordinal de medida supone que podemos establecer una ordenacin, creciente o decreciente, con los objetos o hechos que medimos. Con un nivel de medida ordinal podramos establecer sin dificultad que algo es diferente de algo, y que es mayor o menor, pero no cunto mayor o menor. c) Nivel de intervalo En este nivel de medida, distancias numricamente iguales representan distancias iguales con respecto a la propiedad que se est midiendo. Una medicin a nivel de intervalo posee las caractersticas de los dos niveles anteriores, por lo que podemos establecer diferencias entre objetos, IESFROSUR Pgina 12

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

determinar una ordenacin entre ellos y adems, conocer en qu cuanta unos objetos son mayores o menores que otros. d) Nivel de cociente, razn o proporciones. Este nivel de medicin aade a la medida en escala de intervalo la existencia de un cero absoluto. Adems de las propiedades de los niveles anteriores, en las medidas en escala de razn puede afirmarse que el valor cero indica ausencia total del rasgo medido. Constante, variable, modalidades y clases Una constante es una caracterstica que se manifiesta de manera similar en todos los objetos o individuos sobre los que se realiza la medicin. Es decir, presenta un nico valor posible. Una variable es una caracterstica que puede manifestarse de manera diferente en un grupo de objetos o individuos sobre los que se realiza la medicin. Cada uno de los valores asumidos es una modalidad. Cuando el nmero de modalidades bajo el que se mide una variable es muy grande, las modalidades pueden ser agrupadas en clases. De esta manera, se pasa de un nmero amplio de modalidades a un nmero mucho ms reducido de clases. Al definir clases, deben respetarse al menos dos criterios:

Las clases deben ser mutuamente exclusivas. Es decir, una modalidad no puede formar parte de dos clases; quedar incluida en slo una clase. Las clases deben ser exhaustivas. La definicin de clases debe cubrir todas las modalidades, de forma que ninguna modalidad quede sin pertenecer a alguna clase.

ORDENACIN Y CLASIFICACIN DE LOS DATOS: DISTRIBUCIONES DE FRECUENCIAS


Frecuencias y distribucin de frecuencias Distribucin de frecuencias agrupadas

Frecuencias y distribucin de frecuencias Las tcnicas ms habituales para ordenar, clasificar y presentar datos son las distribuciones de frecuencias. Comenzaremos concretando el concepto de frecuencia. Frecuencia hace alusin al nmero de veces que se da un fenmeno. En estadstica, la frecuencia va referida al nmero de veces en que aparece un determinado valor para una variable. Comenzaremos diferenciando dos tipos de frecuencias:
Frecuencia absoluta individual (fi) de un valor. Es el nmero de veces que

aparece repetido dicho valor en un conjunto de n puntuaciones. La suma de las frecuencias fi para todos los valores coincide con el valor de n.

IESFROSUR

Pgina 13

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Frecuencia relativa individual (pi) de un valor. Es el cociente entre la

frecuencia absoluta individual y el tamao de la muestra. Es decir, pi = fi/n. Lo ms frecuente es utilizar este tipo de frecuencia en trminos porcentuales, expresndola como Pi=(fi /n) x 100. En este caso, la suma de las Pi para todos los valores es 100. A partir de las frecuencias alcanzadas por las distintas modalidades de una variable, puede organizarse una distribucin de frecuencias. Una distribucin de frecuencias consiste en presentar ordenadamente todos los valores asumidos por la variable estudiada, situando a su derecha la frecuencia con que aparecen (al menos, su frecuencia absoluta). En la distribucin de frecuencias podran aparecer adems otro tipo de frecuencias. Vamos a considerar ahora las frecuencias acumuladas:
Frecuencia absoluta acumulada (fa) de un valor. Es la suma de las

frecuencias absolutas que corresponden a todos los valores iguales o menores que l. La frecuencia fa para el valor ms alto de la variable coincide con n. Frecuencia relativa acumulada (pa) de un valor. Es la suma de las frecuencias relativas de los valores iguales o menores que l. Expresada en trminos de porcentaje, aparece como Pa, y la Pa correspondiente al valor ms alto resulta ser 100. Distribucin de frecuencias agrupadas Una distribucin de frecuencias agrupadas se origina cuando en lugar de modalidades consideramos clases. Suele recurrirse a ellas cuando se pretende simplificar la presentacin de variables que poseen muchas modalidades posibles. Un caso particular de agrupamientos se da en los valores correspondientes a variables continuas, medidas al menos en escala de intervalos. En esta situacin, la clase de valores que adoptamos se denomina intervalo y comprende las modalidades de una variable contenidas entre los dos valores que delimitan el intervalo. Conceptos relativos al agrupamiento en intervalos:

Lmites aparentes de un intervalo. Son los valores que delimitan el segmento de valores que constituyen un intervalo. Para cada intervalo existe un lmite inferior y un lmite superior. Lmites reales de un intervalo. El lmite real inferior de un intervalo es el valor que resulta de disminuir el valor del lmite aparente inferior en media unidad de medida. El lmite real superior de un intervalo resulta de incrementar el lmite superior aparente en media unidad de medida. Amplitud de un intervalo. Es la distancia existente entre el lmite real inferior y el lmite real superior de un intervalo. Tambin se podra definir como la diferencia entre los lmites aparentes del intervalo incrementada en la unidad de medida. Punto medio de un intervalo. Es el valor que se obtiene como promedio de los dos lmites del intervalo (real o aparente). IESFROSUR Pgina 14

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

REPRESENTACIN GRFICA DE DATOS Diagrama de barras. Consiste en indicar por medio de una barra o rectngulo las frecuencias correspondientes a cada modalidad o clase de modalidades. Las alturas de las barras son proporcionales a las frecuencias alcanzadas, con independencia de que se trate de frecuencias absolutas o relativas. Cuando representamos variables medidas en una escala nominal, las modalidades o clases pueden ser colocadas en cualquier orden. Cuando las variables se miden en escala ordinal, las barras deben ser colocadas en un orden determinado por la ordenacin que se establece entre las modalidades. Histograma. Cuando la variable a representar est medida en una escala de intervalos, en lugar del diagrama de barras recurrimos al histograma. Este es similar al diagrama de barras, pero la base de cada rectngulo coincide con los lmites reales del intervalo y el orden de presentacin de las modalidades en el eje de abscisas no es arbitrario. El histograma puede construirse para frecuencias absolutas o relativas, tanto si son individuales como acumuladas.

El histograma puede ser construido para representar frecuencias (tambin porcentajes) o frecuencias acumuladas.

IESFROSUR

Pgina 15

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Polgono de frecuencias. Consiste en una lnea poligonal que une el punto medio de cada intervalo, tomado a una altura que resulta proporcional a la frecuencia alcanzada en el intervalo. La lnea obtenida de este modo cierra el polgono al ser unida a los puntos medios del intervalo anterior y posterior sobre el eje de abscisas Puede construirse a partir del histograma. Polgono de frecuencias acumuladas. Es una lnea poligonal mediante la cual se representan las frecuencias que acumulan los intervalos. Se construye cmodamente sobre el polgono de frecuencias acumuladas, uniendo el vrtice inferior izquierdo de cada intervalo con su vrtice superior derecho.

Grfica circular. Es un diagrama en forma de crculo, el cual se encuentra dividido en tantos sectores circulares como modalidades presenta la variable. La amplitud de cada sector circular es proporcional a la frecuencia de la modalidad correspondiente.

PROBLEMAS RESUELTOS Problema 1: Hemos recogido los siguientes datos, correspondientes a las puntuaciones obtenidas por 25 alumnos en un test de inteligencia. Organzalos en una distribucin de frecuencias sin agrupar en intervalos. 105, 99, 109, 100, 94, 100, 97, 120, 99, 107, 96, 107, 100, 109, 105, 97, 100, 105, 96, 99, 100, 97, 105, 107, 99. Solucin 1: Para realizar la distribucin de frecuencias debemos, en primer lugar, ordenar los datos (de mayor a menor o de menor a mayor), representarlos en una tabla y realizar el recuento correspondiente a cada uno de los valores (las "marcas" facilitan dicha labor), tal y como se expresa en la tabla siguiente: Puntuaciones 120 109 107 105 100 99 97 96 94 Marcas / // /// //// ///// //// /// // / Frecuencias 1 2 3 4 5 4 3 2 1

IESFROSUR

Pgina 16

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Problema 2: Construye la distribucin de frecuencias absolutas y relativas, tanto individuales como acumuladas, para las siguientes puntuaciones. Agrupa los datos en intervalos de amplitud 5. 3, 6, 7, 9, 9, 12, 12, 13, 13, 14, 14, 15, 15, 16, 16, 20, 20, 20, 20, 20, 22, 23, 24, 24, 24, 25, 25, 28, 35, 37. Solucin 2: En primer lugar, calculamos la amplitud total para la serie de puntuaciones con las que vamos a trabajar. A.T. = PMAYOR - PMENOR + 1 = 39 - 3 + 1 = 37 A continuacin determinamos el nmero de intervalos necesarios. Teniendo en cuenta que la amplitud del intervalo debe ser igual a 5, de acuerdo con el enunciado del problema, el nmero de intervalos vendr dado por la relacin (cociente) entre la amplitud total y la de cada intervalo: 37/5 = 7.4. Este valor nos indica que necesitamos un nmero superior a 7 intervalos para distribuir todas nuestras puntuaciones en intervalos de amplitud 5. El nmero de intervalos mnimo necesario sera 8. Una vez construidos los intervalos, determinamos la frecuencia absoluta individual (f) en cada uno de ellos, la proporcin (p), el porcentaje (P) y los correspondientes valores acumulados para todos ellos (fa, pa y Pa). Intervalos 36 - 40 31 - 35 26 - 30 21 - 25 16 - 20 11 - 15 6 - 10 1-5 Marcas / / / ///// // ///// // ///// /// //// / f 1 1 1 7 7 8 4 1 p 0.0333 0.0333 0.0333 0.2333 0.2333 0.2667 0.1333 0.0333 P 3.33 3.33 3.33 23.33 23.33 26.67 13.33 3.33 fa 30 29 28 27 20 13 5 1 pa Pa 1.0000 100.00 0.9667 96.67 0.9333 93.33 0.9000 90.00 0.6667 66.67 0.4333 43.33 0.1667 16.67 0.3333 33.33

No obstante, podramos haber organizado los datos comenzando el primer intervalo con un lmite aparente inferior distinto (por ejemplo, 2 3). En ese caso, la distribucin resultante diferir algo de la aqu construida.

Problema 3: Los 31 profesores de una Escuela de Educacin Primaria se agrupan, en funcin de su situacin administrativa, de la forma que recogemos a continuacin. Representalos mediante una grfica circular o ciclograma. Situacin Administrativa Definitivos Provisionales En comisin de servicios Interinos N Profesores 15 10 4 2

IESFROSUR

Pgina 17

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Solucin 3: En este caso la superficie del crculo (360o) se reparte proporcionalmente a las frecuencias de cada categora. Los profesores definitivos ocuparn un sector circular que representa el 48.39% de los 360o, es decir, 360 x 48.39/100 = 174o que suponen algo menos de un ngulo llano. Los profesores provisionales estarn representados por un sector de 360 x 3226/100 = 116o, es decir, algo ms que un ngulo recto. Clculos anlogos determinan un sector circular de 47o para los profesores en comisin de servicios y 23o para los interinos. Problema 4: Representa mediante un histograma las edades (en meses) de los 60 alumnos del segundo ciclo de Educacin Preescolar de un Jardn, cuya distribucin de frecuencias es la siguiente: Edades 55 - 59 50 - 54 45 - 49 40 - 44 35 - 39 30 - 34 25 29 N Alumnos 16 10 8 7 8 6 5

Solucin 4: El histograma es similar a un diagrama de barras en el que estas se levantan sobre los lmites reales de los intervalos, apareciendo, por tanto, unidas lateralmente entre s.

IESFROSUR

Pgina 18

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Problema 5: Representa en un polgono de frecuencias los siguientes datos, correspondientes a los C.I. de un grupo de 25 alumnos de 61 de Educacin Primaria. C.I. 116 - 120 111 - 115 106 - 110 101 - 105 96 - 100 91 95 N Alumnos 1 3 7 11 2 1

Problema 6: Representa mediante un polgono de frecuencias acumuladas los datos relativos al C.I. de un grupo de 25 alumnos de 61 de Educacin Primaria utilizados en el problema anterior. Solucin 6: El polgono de frecuencias acumuladas se construye de forma muy parecida al polgono de frecuencias, con la diferencia de que aqu la altura viene dada por las frecuencias acumuladas (frecuencia de cada intervalo ms frecuencias de los intervalos anteriores). Adems, la lnea comienza en el eje de abscisas en el lmite inferior real del primer intervalo, y une los puntos situados sobre cada lmite superior real, a una altura igual a la frecuencia acumulada en cada intervalo.

IESFROSUR

Pgina 19

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

PROBLEMAS PROPUESTOS 1. Los aos de experiencia de 50 profesores, elegidos al azar, son los que se presentan a continuacin. Construye la distribucin de frecuencias para el total de las puntuaciones.
1 2 5 8 7 9 10 3 9 10 15 20 14 7 2 1 3 7 9 4 2 25 16 1 28 30 32 16 14 15 19 17 16 14 12 35 3 5 2 4 7 12 9 16 28 39 16 14 22 7

2. Las notas obtenidas en selectividad por un grupo de alumnos que finalizaron sus estudios de Enseanza Secundaria, son las que mostramos a continuacin. Organiza los datos agrupndolos en 8 intervalos, de modo que el lmite inferior aparente del intervalo de puntuaciones ms bajas sea el valor 5.1. Representa grficamente la distribucin mediante un histograma y un polgono de frecuencias. 6.4, 7.1, 7.8, 5.1, 6.3, 6.2, 9.0, 7.2, 6.9, 7.7, 8.8, 5.7, 6.9, 7.4, 8.2, 6.2, 7.4, 6.7, 7.1, 6.3, 6.6, 5.8, 6.7, 7.0, 6.1, 7.3, 6.0, 6.9, 8.4, 5.6, 7.1, 6.3, 6.5, 7.0, 6.9, 5.5. 3. Un profesor interesado en estudiar el tiempo requerido para resolver tareas de resolucin de problemas, recoge datos acerca del nmero de segundos que tarda un grupo de 36 alumnos en encontrar la solucin a una interrogante. Ordena los datos presentndolos agrupados por intervalos de amplitud 2 y comenzando por el valor ms pequeo de todos los obtenidos. 89, 89, 85, 83, 92, 91, 81, 88, 94, 81, 85, 87, 93, 92, 84, 87, 88, 90, 86, 80, 93, 95, 89, 87, 91, 88, 90, 93, 88, 83, 91, 87, 85, 83, 89, 90. 4. Para conocer la aceptacin que las actividades culturales realizadas en una Universidad tiene entre los alumnos de las distintas facultades, se registra la carrera cursada por cada uno de los estudiantes que participan en las actividades programadas durante un curso acadmico. Representa grficamente dicha distribucin.
Carrera Arquitectura Bellas Artes Biologa Econmicas Enfermera Farmacia Filosofa Fsicas Geografa e H fi 45 88 90 120 29 45 37 42 108

IESFROSUR

Pgina 20

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

5. A continuacin se presentan las puntuaciones obtenidas por los alumnos de una clase de Formacin Profesional en una prueba de aptitud espacial. Agrupa dichos datos en una distribucin de frecuencias que comience por el intervalo 30-32. Construye a continuacin un histograma para frecuencias acumuladas. 40 45 42 36 38 30 36 38 38 40 42 44 32 35 31 33 36 30 35 37 39 32 36 38 31 33 34 36 38 33

6. En una clase de Estadstica hay un total de 41 alumnos a los que se les ha aplicado una prueba de matemticas, que arroj las siguientes puntuaciones. Construye una distribucin de frecuencias con intervalos de amplitud cinco, comenzando por la puntuacin 42. 76, 82, 75, 44, 55, 46, 61, 55, 74, 70, 80, 72, 74, 60, 79, 67, 52, 69, 63, 64, 77, 66, 69, 86, 59, 68, 85, 75, 68, 60, 48, 42, 68, 75, 84, 56, 47, 53, 61, 61, 74.

IESFROSUR

Pgina 21

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Tcnicas descriptivas bsicas para una variable


1. Medidas de tendencia central a. Media b. Mediana c. Moda. 2. Medidas de posicin a. Percentiles b. Deciles c. Cuartiles 3. Medidas de dispersin a. Rango b. Amplitud c. Desviacin media d. Varianza y desviacin tpica e. Coeficiente de variacin f. Amplitud semiintercuartlica Referencia bsica para el tema: GIL, J.; RODRGUEZ, G. y GARCA, E. (1995). Estadstica Bsica Aplicada a las Ciencias de la Educacin. Sevilla, Kronos. (Cap.4 y 5). ESCOBAR, M. (1999). Anlisis grfico/exploratorio. Madrid, La Muralla. (pp. 53-61). MEDIDAS DE TENDENCIA CENTRAL Son ndices numricos que se toman como representativos de un conjunto de puntuaciones, utilizando para ello valores que se sitan hacia el centro del conjunto. Media: Es el valor obtenido como suma de todas las puntuaciones de un grupo dividida por el nmero de ellas. 1. Clculo: Datos sin agrupar

Datos agrupados por intervalos

donde: Xi es cada puntuacin n es el nmero de casos

donde: Xi es el punto medio de cada intervalo fi es la frecuencia de cada intervalo r es el nmero de intervalos n es el nmero de casos

IESFROSUR

Pgina 22

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

b) Propiedades La suma de las desviaciones de todas las puntuaciones respecto a la media es 0.

La suma de las desviaciones al cuadrado respecto a la media es menor que respecto a otro valor cualquiera. La media es sensible a la variacin de cualquiera de las puntuaciones. Basta que cambie un solo valor para que la media se modifique. Si se suma una constante a las puntuaciones de un grupo, la media quedar aumentada en dicha constante. Si se multiplican por una constante las puntuaciones de un grupo, la media quedar multiplicada por dicha constante. Si una variable X es combinacin lineal de r variables X1, X2, ... Xr, su media se obtiene como combinacin lineal de las medias de dichas variables. entonces

Es decir, si

Dados r grupos con n1, n2, ... nr casos y sus respectivas medias, la media

global se obtiene ponderando dichas medias.

Cuando calculamos la media para datos agrupados en intervalos, el valor resultante depende de los intervalos elegidos (de su amplitud, su nmero y de los lmites fijados).
La media puede calcularse cuando las variables se han medido en una escala

de intervalo o razn.

IESFROSUR

Pgina 23

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Mediana: Es el valor que divide en dos partes iguales a un conjunto de puntuaciones ordenadas, de tal forma que la mitad de las puntuaciones son mayores que la mediana y la otra mitad son mejores que ella. a) Calculo Datos sin agrupar Datos agrupados por intervalos Se ordenan los datos de menor a mayor. Si el nmero de casos es impar, la mediana es el valor que ocupa la donde: posicin central en la serie. Li es el lmite inferior del intervalo crtico (que contiene a la mediana) Si el nmero de casos es par, la I es la amplitud de los intervalos mediana es el punto medio entre los fi es la frecuencia absoluta en el intervalo dos valores centrales. crtico n es el nmero de casos fa es la frecuencia acumulada en el intervalo anterior al intervalo crtico b) Propiedades.
Es menos sensible que la media a variaciones de las puntuaciones. Podra

ocurrir que la modificacin de un valor no altera la mediana


Para datos agrupados por intervalos, el valor de la mediana depender de la

amplitud de los intervalos, el nmero de ellos y los lmites fijados.


La mediana puede calcularse cuando se han medido las variables en escala

ordinal o superior.

IESFROSUR

Pgina 24

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Moda: Es el valor o modalidad que ms se repite en un conjunto de medidas. a) Clculo Datos sin agrupar Se construye la frecuencias. Datos agrupados por intervalos de Punto medio del intervalo con frecuencia, o bien:

distribucin

mayor

El valor con frecuencia mxima es la moda. Si la frecuencia mxima se alcanza para dos o ms valores, stos constituyen modas. El grupo puede ser donde: Li es el lmite inferior del intervalo modal (que bimodal o multimodal. contiene a la moda). I es la amplitud de los intervalos. Si dos valores adyacentes alcanzan la d es la diferencia entre las frecuencias del mxima frecuencia, la moda es el 1 intervalo modal y el intervalo inferior. promedio de ambos. d2 es la diferencia entre las frecuencias del intervalo modal y el intervalo inmediato superior. b) Propiedades
Es la medida de tendencia central ms inestable, pudiendo variar mucho de

una muestra a otra extradas de la misma poblacin.


Para datos agrupados por intervalos, el valor de la moda depender de la

amplitud de los intervalos, el nmero de ellos y los lmites fijados.


Puede determinarse para variables medidas en cualquier escala.

IESFROSUR

Pgina 25

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

MEDIDAS DE POSICIN Son medidas que informan sobre la posicin de determinadas puntuaciones individuales en relacin con el grupo del que forman parte. Percentiles Son los 99 valores que dividen en cien partes iguales a una serie de puntuaciones ordenadas, de forma que el percentil Pm deja por debajo de s el m por ciento de las puntuaciones del grupo. Clculo Se obtienen de forma anloga a como lo hacamos en el caso de la mediana. La frmula de clculo para el percentil m (Pm) en el caso de datos agrupados por intervalos, que representa una generalizacin de la que utilizbamos para la mediana, es la siguiente:

donde: Li es el lmite inferior del intervalo crtico (que contiene a Pm) I es la amplitud de los intervalos fi es la frecuencia absoluta en el intervalo crtico n es el nmero de casos fa es la frecuencia acumulada en el intervalo anterior al intervalo crtico La expresin mn/100 representa el nmero de puntuaciones que quedaran por debajo del percentil m en la distribucin estudiada. El intervalo crtico es precisamente aqul donde la frecuencia acumulada alcanza o supera ese nmero de puntuaciones. Deciles Son los 9 valores que dividen en diez partes iguales a una serie de puntuaciones ordenadas, de forma que el decil Dm deja por debajo de s a m dcimas partes del total de puntuaciones del grupo. Clculo Para el caso de datos agrupados por intervalos, la expresin de clculo es:

IESFROSUR

Pgina 26

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Cuartiles Son los 3 valores que dividen en cuatro partes iguales a una serie de puntuaciones ordenadas, de manera que el cuartil Qm deja por debajo de s m cuartas partes del total de puntuaciones del grupo. Clculo

MEDIDAS DE DISPERSIN Son medidas que informan sobre la variabilidad que existe en un conjunto de puntuaciones. Indican en qu medida las puntuaciones se sitan prximas entre s. Rango Es la distancia total en la escala numrica a lo largo de la cual varan las puntuaciones. Tambin se denomina amplitud total o recorrido. Se utilizan dos tipos de rangos:

Rango excluyente: diferencia entre la mayor y la menor de las puntuaciones. Rango incluyente: diferencia entre la mayor y la menor de las puntuaciones incrementada en la unidad de medida. Este suele ser el ms utilizado.

Rango = Punt.mxima - Punt.mnima + unidad de medida El rango es la ms imperfecta de las medidas de dispersin, pues slo tiene en cuenta las puntuaciones extremas. Desviacin media: Es la media del valor absoluto de las diferencias de todas las puntuaciones respecto a la media aritmtica. 1. Clculo: Datos sin agrupar

Datos agrupados por intervalos

donde: Xi es cada puntuacin es la media n es el nmero de casos

donde: Xi es el punto medio de cada intervalo es la media fi es la frecuencia de cada intervalo r es el nmero de intervalos n es el nmero de casos

IESFROSUR

Pgina 27

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Varianza y desviacin tpica: La varianza es el promedio del cuadrado de las diferencias de todas las puntuaciones respecto a la media aritmtica. Clculo Podemos proponer dos frmulas equivalentes, tanto para datos sin agrupar como para datos agrupados por intervalos. Datos sin agrupar Datos agrupados por intervalos

En el mbito de la estadstica inferencial, se utiliza una expresin de la varianza obtenida recogiendo en el denominador el factor n-1. A esta varianza se le denomina varianza insesgada.

La desviacin tpica se define como la raz cuadrada de la varianza, tomada con signo positivo.

Propiedades de la varianza y la desviacin tpica


Adoptan siempre un valor positivo o igual a cero. Se ven afectadas por la modificacin de cualquiera de las puntuaciones. Si multiplicamos un conjunto de puntuaciones por una constante, la desviacin tpica y la varianza quedarn multiplicadas respectivamente por la constante y por el cuadrado de esa constante. Si sumamos a un conjunto de puntuaciones una constante, la desviacin tpica y la varianza no se vern afectadas. Para datos agrupados por intervalos, el valor depende de la amplitud de los intervalos, el nmero de ellos y los lmites fijados. No deben calcularse en situaciones en que tampoco debe calcularse la media.

IESFROSUR

Pgina 28

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Coeficiente de variacin: Es un ndice abstracto, que permite comparar la variabilidad de distintos grupos o distintas variables. Se obtiene a partir del nmero de veces que la desviacin tpica contiene a la media.

Amplitud semiintercuartlica: Se define como la mitad de la distancia entre el primer y el tercer cuartil. Puede ser calculada cuando se ha medido la variable en escala ordinal o superior.

PROBLEMAS RESUELTOS Problema 1 : Las puntuaciones obtenidas por un grupo de 38 alumnos en una prueba valorada de 0 a 100, las cuales se suponen medidas en escala de intervalos, son las que se presentan en la tabla. a) Calcula la media aritmtica, mediana y moda. b) Qu puntuacin deja por debajo de s el 75% de los casos? Y el 25%? Cmo se denominan dichas puntuaciones? Intervalos f 91 - 100 2 81 - 90 0 71 - 80 3 61 - 70 6 51 - 60 7 41 - 50 9 31 - 40 4 21 - 30 5 11 - 20 1 1 - 10 1 Solucin 1 a) La moda, valor ms sencillo de calcular, es la puntuacin con frecuencia mxima o puntuacin que ms se repite. Al estar los datos agrupados en intervalos, la moda ser el punto medio del intervalo con frecuencia mxima, es decir Mo = 45.5. Para calcular la media aritmtica necesitamos los puntos medios de los intervalos y los productos de dichos puntos medios por las frecuencias. Dichos clculos se expresan en la tabla que mostramos seguidamente. IESFROSUR Pgina 29

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Intervalos f 91 100 81 - 90 71 - 80 61 - 70 51 - 60 41 - 50 31 - 40 21 - 30 11 - 20 1 10

Xi 2 0 3 6 7 9 4 5 1 1 n = 38 95.5 85.5 75.5 65.5 55.5 45.5 35.5 25.5 15.5 5.5

fiXi 191 0 226.5 393 388.5 409.5 142 127.5 15.5 5.5 1899

La mediana es la puntuacin que deja por encima y por debajo de s el 50% de los casos. Como tenemos 38 sujetos, la mediana ser la puntuacin que deje por encima y por debajo de s 38/2=19 sujetos. Su frmula de clculo, para datos agrupados en intervalos, es la siguiente:

Como n/2=38/2=19 es una frecuencia acumulada que se alcanza dentro del intervalo 41-50 (intervalo crtico), sustituyendo en la frmula anterior los valores del lmite inferior de ese intervalo (Linfer), la amplitud de los intervalos (I), la frecuencia en el intervalo crtico (fi) y la frecuencia acumulada en el intervalo anterior al crtico (fa) tendremos

b) Las puntuaciones que dejan por debajo de s el 25 y el 75% de los casos se conocen con el nombre de cuartil 1 (Q1) y cuartil 3 (Q3), respectivamente. Dichas puntuaciones se corresponden, igualmente, con los percentiles 25 y 75. Su clculo viene dado por la frmula

Cada uno de ellos se sita en los siguientes intervalos crticos: Q3 : (338)/4=28.5 (intervalo 61 - 70) Q1 : (138)/4=9.4 (intervalo 31 - 40) IESFROSUR Pgina 30

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Sustituyendo los distintos valores en la frmula, obtendremos

Problema 2: Las puntuaciones obtenidas por 59 alumnos en una prueba de prerrequisitos para la lectura son las que se recogen en la tabla siguiente. a) Calcula P25,, P50, P75, P90, moda y mediana. b) Qu percentil corresponde a una alumna que ha obtenido una puntuacin directa de 40 puntos? Y a un alumno que obtuvo 34 puntos? Intervalos 47 - 49 44 - 46 41 - 43 38 - 40 35 - 37 32 - 34 29 - 31 26 - 28 23 - 25 20 - 22 17 - 19 14 - 16 11 - 13 8 - 10 5-7 2-4 Solucin 2 a) Clculo de los percentiles F 4 7 4 8 4 1 5 6 6 4 3 2 2 2 0 1 fa 59 55 48 44 36 32 31 26 20 14 10 7 5 3 1 1

IESFROSUR

Pgina 31

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Se pide tambin el clculo de la mediana y de la moda. La mediana ya est calculada, pues coincide con el percentil 50 (Md=P50=30.6). La moda es el punto medio del intervalo con frecuencia mxima, es decir Mo=39. b) Se trata del problema inverso al apartado anterior, que podemos resolver aplicando la misma frmula. El valor que buscamos no es, como ocurra anteriormente, Pm sino el valor m.

Problema 3: Los 25 alumnos de un aula de Educacin Infantil han sido evaluados para determinar el nivel que presentan en ciertas variables relevantes para el aprendizaje de las matemticas. Teniendo en cuenta que los resultados obtenidos en una prueba de discriminacin de formas son los que aparecen a continuacin, determina la tendencia central del grupo mediante la media, la mediana y la moda, as como el grado de dispersin que presentan las puntuaciones, expresado a partir de su rango y su desviacin tpica. 27, 35, 40, 26, 32, 31, 35, 28, 29, 25, 36, 31, 27, 29, 25, 32, 34, 28, 33, 35, 29, 30, 39, 27, 25. Solucin 3 En primer lugar organizamos las puntuaciones dadas en una distribucin de frecuencias, lo cual aunque no es necesario resulta conveniente, ya que facilita los clculos. En la tabla que se presenta a continuacin incluimos, adems de la distribucin de frecuencias, los clculos previos necesarios para resolver las cuestiones planteadas. El clculo de la media aritmtica resulta sencillo teniendo en cuenta los clculos previos:

IESFROSUR

Pgina 32

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Xi 25 26 27 28 29 30 31 32 33 34 35 36 39 40

Marcas /// / /// // /// / // // / / /// / / /

fi 3 1 3 2 3 1 2 2 1 1 3 1 1 1 n=25

Xifi 75 26 81 56 87 30 62 64 33 34 105 36 39 40 768

X2i 625 676 729 784 841 900 961 1024 1089 1156 1225 1296 1521 1600

X2ifi 1875 676 2187 1568 2523 900 1922 2048 1089 1156 3675 1296 1521 1600 24036

La mediana es la puntuacin que ocupa el lugar central. Puesto que contamos con 25 puntuaciones, la mediana ser el valor que ocupe el lugar 13 (deja 12 por debajo y 12 por encima), es decir Md=30. La moda es la puntuacin o puntuaciones que ms se repiten (las que tienen mayor frecuencia). En este caso, la distribucin es multimodal, contando con cuatro modas que son 25, 27, 29 y 35. El rango o amplitud total para la distribucin es: A.T. = Pmayor - Pmenor + 1 = 40 - 25 + 1 = 16

La desviacin tpica se obtiene a partir de su expresin de clculo:

IESFROSUR

Pgina 33

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Problema 4: Tras aplicar una prueba de memoria a 70 alumnos de Educacin Primaria, pretendemos describir la dispersin del conjunto de puntuaciones obtenidas. Determina el valor del rango, la desviacin media, la varianza, la desviacin tpica y el coeficiente de variacin. I 19 - 21 16 - 18 13 - 15 10 - 12 7-9 4-6 1-3 Solucin 4 En la tabla siguiente se incluyen los clculos previos para hallar las medidas de variabilidad solicitadas. En la primera columna se presentan los intervalos, en la segunda las frecuencias, en la tercera los puntos medios de cada uno de los intervalos, en la cuarta el producto de los puntos medios de cada uno de los intervalos por su frecuencia, en la quinta las diferencias en valor absoluto de cada punto medio de los intervalos con respecto a la media aritmtica (x, por tanto, representa puntuaciones diferenciales), en la sexta la columna anterior multiplicada por la frecuencia de cada intervalo, en la sptima los valores de los puntos medios de cada uno de los intervalos elevados al cuadrado y, en la octava y ltima el valor de la columna anterior multiplicado por la frecuencia de cada intervalo. I 19 - 21 16 - 18 13 - 15 10 - 12 7-9 4-6 1-3 fi 5 9 12 25 13 4 2 70 Xi 20 17 14 11 8 5 2 Xifi 100 153 168 275 104 20 4 824 x 8.23 5.23 2.23 0.77 3.77 6.77 9.77 fix 41.15 47.07 26.76 19.25 49.01 27.08 19.54 229.86 X2i 400 289 196 121 64 25 4 X2ifi 2000 2601 2352 3025 832 100 8 10918 fi 5 9 12 25 13 4 2

A.T = 21 -1 +1 = 21 (o bien, 21.5-0.5 = 21)

IESFROSUR

Pgina 34

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Problema 5 : Una empresa dedicada a la seleccin de personal utiliza determinada prueba con la que mide la aptitud de los candidatos para desempear cierto puesto de trabajo. El total de aspirantes es de 190 y los resultados alcanzados por cada uno de ellos en la prueba son los que mostramos seguidamente. Aptitud 125-129 120-124 115-119 110-114 105-109 100-104 95-99 90-94 85-89 80-84 fi 7 8 12 20 27 41 32 30 11 2

a) Si pretendemos seleccionar a slo 38 de los candidatos, cul es la puntuacin mnima que habra de obtenerse para ser seleccionado? b) Qu porcentaje de sujetos quedaron por debajo de un aspirante que consigui una puntuacin de 105.5? b) Determina la amplitud semiintercuartil para la distribucin. Solucin 5 a) Si de los 190 slo pretendemos seleccionar a 38, de 100 seleccionaramos 38100/190=20. Por tanto, se nos pide la puntuacin que deje por encima de s el 20% de los casos, es decir el percentil 80 (puntuacin que deja por debajo de s el 80% y por encima el 20%).

IESFROSUR

Pgina 35

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Es decir, la puntuacin mnima que hay que alcanzar es 111.75 puntos. 2. Se trata en este caso de un problema inverso al anterior. Utilizamos la misma expresin analtica de los percentiles, pero el elemento desconocido ahora es m.

Por debajo de la puntuacin 105.5 quedan el 63.89% de los sujetos. c) Amplitud semiintercuartil.

Para calcular cada uno de los cuartiles debemos previamente determinar el intervalo en el que se encuentran. Para Q3: Qn/4=3190/4=142.5 (intervalo 105-109) Para Q1: Qn/4=1190/4=47.5 (intervalo 95-99)

IESFROSUR

Pgina 36

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

PROBLEMAS PROPUESTOS 1. Calcula media aritmtica, mediana y moda en cada uno de los casos siguientes. Para el caso b, dibuja adems el grfico de caja correspondiente. a) 2, 8, 3, 5, 4, 7, 9, 8, 5, 7, 6, 7, 8, 5, 4, 6, 7, 8, 7, 9. b) 2, 3, 2, 4, 5, 8, 6, 2, 2, 12, 6, 7, 8, 6, 1, 1, 5, 9, 7, 4. 2. Calcula rango, desviacin media, varianza, desviacin tpica y coeficiente de variacin en cada uno de los casos siguientes: a) 9, 5, 9, 4, 9, 3, 9, 2, 9, 1. b) 8, 17, 8, 4, 24, 29. 3. Las puntuaciones obtenidas en un test de inteligencia, supuestamente bien construido, por 25 alumnos de 6 A de una Escuela de Educacin Primaria son las siguientes: Intervalos 106 - 110 101 - 105 96 - 100 91 95 F 4 15 4 2

2. Calcula media, mediana y moda. 3. Calcula rango, desviacin media, varianza, desviacin tpica y coeficiente de variacin. c) Si las puntuaciones obtenidas en 6B (n = 24 alumnos) tienen por media 106 y varianza 7.22, qu grupo es ms homogneo en lo que se refiere a los resultados obtenidos en dicho test?. 4. A continuacin se presentan datos relativos al ausentismo escolar de los alumnos de una Escuela de Educacin Primaria. a) Determina la desviacin media del ausentismo. b) Calcula la distancia entre los deciles 20 y 80. c) Cul es la amplitud semiintercuartil de la distribucin? d) Cul es el porcentaje de absentismo por debajo del cual se sitan el 70% de los alumnos del Centro? e) Halla la varianza. f) Si consideramos que en un Centro de estas caractersticas el absentismo que puede considerarse hasta cierto punto lgico es del 25%, cuntos alumnos se situaran por debajo de dicho valor?

IESFROSUR

Pgina 37

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

% Ausentismo 91-100 81-90 71-80 61-70 51-60 41-50 31-40 21-30 11-20 1-10

N Alumnos 44 18 14 35 26 26 30 70 220 17

4. La ratio media en los ltimos 5 aos en una Escuela de Educacin Primaria es la en la siguiente: Cursos 1 A 1 B 2 A 2 B 3 A 3 B 4 A 4 B 5 A 5 B 6 A 6 B Ratio 20 21 22 23 25 24 22 22 23 22 22 23

a) Cul es la desviacin media de dicha ratio en la Escuela? b) Y su varianza? c) La ratio media de la Escuela ms prximo al indicado es 22 y la desviacin tpica 3. Qu Centro puede considerarse ms homogneo con respecto a su ratio? 6. Un jugador del equipo de la Maestra en Ciencias Penales y otro del equipo de la Maestra en Educacin, habitualmente reservas, cuando sus respectivos equipos juegan en la liga universitaria de ftbol, discuten sobre su regularidad goleadora en el ltimo curso. El primero ha jugado 6 partidos marcando 0, 1, 0, 2, 1 y 2 goles, mientras que el segundo, que ha jugado 3 partidos, marc 0, 1 y 2 goles respectivamente. Qu jugador es ms regular? 7. El nmero de alumnos de raza indigena en un Centro de integracin, agrupados en funcin de la edad, es el que se presenta en la tabla siguiente:

IESFROSUR

Pgina 38

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Edades 15-16 13-14 11-12 9-10 7-8 5-6 3-4

N 5 15 20 25 35 48 50

a) Calcula los deciles 1 y 9. B)Determina los cuartiles 1, 2 y 3. 8. Las puntuaciones obtenidas por 28 alumnos en una prueba de velocidad lectora son las que se expresan en la tabla siguiente. Calcula la media, mediana y moda de las puntuaciones. Puntuaciones 60 64 55 - 59 50 - 54 45 - 49 40 - 44 35 - 39 30 - 34 25 - 29 20 - 24 15 - 19 10 - 14 5-9 f 1 2 3 4 4 4 3 2 2 1 1 1

9. Las puntuaciones obtenidas por un grupo de 20 alumnos de 6 de Educacin Primaria en una prueba de ingls (calificada de 0 a 10) son las que se presentan en la tabla siguiente. Cul es la desviacin tpica de dicho grupo? Puntuaciones 7 6 5 4 3 2 1 fi 1 2 4 6 4 2 1

IESFROSUR

Pgina 39

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Puntuaciones Individuales y Curva Normal


1. Puntuacin tpica 2. La curva normal 3. reas bajo la curva normal Referencia bsica para el tema: GIL, J.; RODRGUEZ, G. y GARCA, E. (1995). Estadstica Bsica Aplicada a las Ciencias de la Educacin. Sevilla, Kronos. (Cap.6). ARDANUY, R. y TEJEDOR, J. (2001). Tablas Estadsticas. Madrid, La Muralla. (Tabla 7: Probabilidades de la Distribucin Normal Estndar). Puntuaciones Tpicas Son puntuaciones transformadas de gran utilidad en Estadstica. Son conocidas tambin por "puntuaciones z", siendo la siguiente expresin que se utiliza para su clculo.

La media de las puntuaciones tpicas vale 0 y la desviacin tpica es igual a 1. Por tanto, cuando hablamos de tipificar los valores de una variable, significa que debemos transformarlos en puntuaciones z. Ejemplo 2 Considerando las puntuaciones del ejemplo anterior, las vamos a transformar en puntuaciones tpicas. Solucin: 1) determinar el valor de la desviacin tpica del grupo

2) Luego, se divide cada una de las puntuaciones diferenciales por la desviacin tpica.

IESFROSUR

Pgina 40

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Xi 7 3 2,5 2 9 8,5 5 3

xi 2 -2 -2,5 -3 4 3,5 0 -2

xi2 4 4 6,25 9 1,6 12,25 0 4

zi 0,76 -0,76 -0,95 -1,14 1,53 1,33 0 -0,76

Puntuaciones tpicas derivadas Las puntuaciones tpicas permiten establecer comparaciones entre distintas variables. Sin embargo el inconveniente de las puntuaciones tpicas es que suelen ser negativas y pueden presentar cifras decimales. Contamos solamente con siete puntuaciones enteras posibles (-3, -2, -1, 0, 1, 2, 3), ya que la mayora de las observaciones suelen quedar incluidas entre tres desviaciones tpicas a la derecha de la media y tres a la izquierda. Tanto los signos negativos como las cifras decimales y los redondeos pueden ocasionar errores de clculo. Para evitar esto, podramos multiplicar las puntuaciones z por una constante S determinada y para evitar los valores negativos, sumar una constante J. D = J + Sz De esta forma, y teniendo en cuenta las puntuaciones de las propiedades tpicas, obtendremos una distribucin de media J y de desviacin tpica S. A las puntuaciones obtenidas siguiendo este proceso se les denomina puntuaciones tpicas derivadas. Entre las ms usadas se encuentran el caso concreto de las puntuaciones T, que tienen como media 50 y como desviacin tpica 10. T = 50 + 10z Asimismo los coeficientes intelectuales suelen venir expresados en puntuaciones tpicas derivadas de media 100 y desviacin tpica 15. CI = 100 + 15z Otra de las puntuaciones tpicas que se suele utilizar en educacin son los eneatipos o estaninas, que son puntuaciones de media 5 y de desviacin tpica 2. E = 5 + 2z Por ejemplo: Supongamos que un sujeto obtiene en una prueba de inteligencia una puntuacin directa de 70 puntos. Sabiendo que la media del grupo de referencia es 63,04 y su desviacin tpica 10,8, podremos transformar la puntuacin directa en una puntuacin tpica z= 0,64.

IESFROSUR

Pgina 41

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Ya que

A partir de este clculo, podemos obtener las diferentes puntuaciones derivadas: T = 50 + 10 (0,64) = 56,4 C.I. = 10 + 15 (0,64) = 109,6 E = 5 + 2 (0,64) = 6,28 LA CURVA NORMAL La inmensa mayora de valores observados sobre variables cuantitativas en Ciencias Sociales suelen aproximarse a lo que se conoce como distribucin normal o curva normal. Es considerada como una de las distribuciones continas de ms importancia. En muchos casos, veremos que suponer el comportamiento normal de una poblacin, permitir extraer conclusiones para las estimaciones efectuadas sobre muestras. La representacin grfica de la distribucin normal (figura 1) presenta forma de campana (de ah el nombre de campana de Gauss, como tambin se conoce).

[ Figura 1: Curva Normal = media = desviacin tpica Se utilizan y , en lugar de X y s, porque hablamos de un modelo terico. N = nmero de casos, lo que significa que el rea total bajo la curva es N. La curva normal presenta las siguientes caractersticas:

Es simtrica alrededor del eje que pasa por la media. La ordenada mxima coincide con la media en el eje de abscisas. La media, mediana y moda coinciden. Es asinttica respecto del eje de abscisas. Como consecuencia hay dos colas, una a cada lado de la distribucin, que se alargan hasta el infinito. Los puntos de inflexin se encuentran en + y - Su ecuacin matemtica dada por Laplace en 1874 es:

IESFROSUR

Pgina 42

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Diremos que una variable aleatoria continua tiene distribucin normal de parmetros y si su funcin tiene esta forma. Siendo e la base de los logaritmos neperianos (e= 2,71828). Distribucin Normal Tipificada o Estandarizada Se dice que una variable aleatoria continua tiene distribucin normal tipificada: X ~ N (0,1) Si su funcin de densidad tiene la siguiente forma:

La curva normal tipificada o reducida es, por tanto, la que opera con puntuaciones z, es un caso especial de distribucin normal que tiene de media cero y de desviacin tpica uno. Tiene mltiples aplicaciones y su uso es frecuente en investigacin educativa. Al observar una variable tipificada que se distribuye normalmente, puede observarse que la mayor parte de las puntuaciones se encuentran comprendidas entre los valores que van de -3 a +3 (figura 2) Figura 2: Curva Normal para Puntuaciones z

Esta distribucin es mesocrtica El rea total comprendida entre la curva y el eje de abscisas es igual a uno Las reas bajo la curva normal se interpretan en trminos de probabilidades, proporciones o porcentajes

IESFROSUR

Pgina 43

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

REAS BAJO LA CURVA NORMAL Para muchos propsitos es necesario conocer la proporcin del rea bajo la curva normal entre las ordenadas de diferentes puntos sobre la lnea de base. Podemos desear conocer:

La proporcin del rea bajo la curva entre la ordenada de la media y cualquier punto especfico que se encuentre por encima o por debajo de la media. La proporcin del rea total por encima o por debajo de la ordenada de cualquier punto sobre la lnea base. La proporcin del rea que se encuentra entre las ordenadas de dos puntos cualesquiera sobre la lnea base.

Mediante la tabla de la Ley Normal pueden calcularse las reas entre dos puntos. Por tanto, pueden resolverse cualquiera de las tres situaciones anteriores. A continuacin se desarrollan algunos ejemplos teniendo en cuenta las siguientes consideraciones:

El rea total vale 1. La mitad es igual a 0,5. Las puntuaciones que utiliza la tabla estn tipificadas. Para Z > 0 corresponde la mitad derecha de la curva. Para Z < 0 corresponde la mitad izquierda de la curva.

Ejemplo 3: Se ha utilizado el test de inteligencia D-48 a un grupo de sujetos y se ha obtenido una distribucin normal de media 28 y desviacin tpica 5. Caso 1: Qu porcentaje de sujetos han obtenido una puntuacin superior a 36? 1) Sabemos que

2) Sustituyendo valores z = (36-28)/5 = 1,6 3) Mirando en la tabla de la Ley Normal encontramos que este valor de z (buscar en prob. A la derecha de z), corresponde a un rea de 0,05480. Lo que equivale a un porcentaje de sujetos del 5,48%.

Caso 2: Qu porcentaje han obtenido puntuaciones inferiores a 30? 1) Sabemos que

2) Sustituyendo valores z = (30-28)/5 = 0,4 IESFROSUR Pgina 44

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

3) Mirando en la tabla de la Ley Normal encontramos que este valor de z (buscar en prob. a la derecha de z), corresponde a un rea de 0,34458. 4) Pero obsrvese que el rea que hay que calcular es la contraria, la parte rayada. Por tanto tendremos que quitar a 1 (valor del rea total) el valor del rea calculada (que es la proporcin que obtiene puntuaciones mayores). 1-0,34458 = 0,65542

El porcentaje de sujetos que ha obtenido puntuaciones inferiores a 30 es del 65,54%.

Caso 3: Qu probabilidad existe de que al elegir un individuo al azar est comprendido entre 25 y 35? 1) Sustituyendo valores z1 = (25-28)/5 = -0,6 z2 = (35-28)/5=1,4 2) Mirando en la tabla de la Ley Normal los respectivos valores de z encontramos que el valor de la probabilidad de z2 (buscar en prob. la izquierda) es de 0,9192 y el valor de z1 (buscar en prob. a la derecha de z), corresponde a un rea de 0,2743. 3) se le resta al valor del rea de z2, el valor del rea de z1. 0,9192 - 0,2743 = 0,6449

Caso 4: Qu porcentaje de alumnos/as queda comprendido entre las puntuaciones 19 y 26? 1) Sustituyendo valores z1 = (26-28)/5 = -0,4 z2 = (19-28)/5= -1,8 2) Mirando en la tabla de la Ley Normal los respectivos valores de z encontramos que el valor de la probabilidad de z1 (buscar en prob. la derecha) es de 0,3446 y el valor dez2 (buscar en prob. a la derecha de z), corresponde a un rea de 0,0359. 3) se le resta al valor del rea de z1 el valor del rea de z2. 0,3446-0,0359 = 0,3087 Lo cual supone un 30,87% comprendidos entre ambas puntuaciones. de alumnos

IESFROSUR

Pgina 45

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

PROBLEMAS PROPUESTOS 1. En una distribucin con media 24 y desviacin tpica de 3,5, transforma las siguientes puntuaciones directas en puntuaciones tpicas: 8, 12, 23 y 34. 2. La puntuacin media de un grupo de alumnos/as en el rea de conocimiento del medio es 7 y su desviacin tpica 1,8. Suponiendo que la distribucin es normal Qu porcentaje de alumnos/as queda por debajo del que obtuvo una puntuacin directa de 4 puntos? y del que obtuvo 8 puntos?. 3. En un centro de adultos, se ha estudiado la velocidad lectora de todos sus alumnos/as (total de 200 sujetos). Utilizando una prueba para medir esta variable, se obtuvo una media de 75 y una desviacin tpica de 7. Suponiendo que las puntuaciones arrojadas por la prueba se distribuyen normalmente, si Pablo ha obtenido una puntuacin directa de 50 puntos y Marina de 80. a) Qu puntuacin tpica corresponde a cada alumno b) Cuntos alumnos han obtenido mejores resultados que Pablo? y que Marina? c) Cuantos alumnos han obtenido mejores resultados que Pablo pero peores que Marina?

IESFROSUR

Pgina 46

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Tcnicas para el estudio de la relacin entre variables Introduccin


1. 2. 3. 4. 5. 6. 7. Distribucin conjunta de frecuencias Diagrama de dispersin o nube de puntos Concepto de covarianza Correlacin de Pearson Regresin lineal Ecuacin de la recta de regresin Coeficiente de determinacin

Referencia bsica para el tema: GIL, J.; RODRGUEZ, G. y GARCA, E. (1995). Estadstica Bsica Aplicada a las Ciencias de la Educacin. Sevilla, Kronos. (Cap.7). PARDO, A. y SAN MARTN, R. (1994): Anlisis de Datos en Psicologa. Madrid, Pirmide. (Cap. 8) ABAD, F., HUETE, M.D. y VARGAS, M. (2001): Estadstica para las Ciencias Sociales y Laborales. Granada, Urbano (Cap. 3) INTRODUCCIN Anteriormente se han estudiado las distribuciones unidimensionales, que se obtienen efectuando la medicin de una caracterstica en una poblacin. Ahora estamos interesados en medir, no una caracterstica, sino dos, sobre cada elemento del conjunto de unidades en estudio; esto significa que si los caracteres que observamos pueden expresarse numricamente (lo que hemos llamado variables), tendremos un par de nmeros que representan las dos mediciones cuantitativas realizadas para cada elemento observado. Los datos que en este captulo consideremos son pares de puntuaciones, esto es, tendremos dos observaciones o puntuaciones para cada miembro de un grupo. A tales datos le llamamos datos bivariados y tienen como caracterstica esencial que una observacin o puntuacin puede ser emparejada con contra para cada miembro del grupo. Supongamos que tenemos una poblacin cuyos elementos son clasificados segn dos variables cuantitativas que denominamos X e Y, cuyas modalidades las notamos respectivamente por Xi e Yj, con i variando desde 1 hasta p y con j variando desde 1 hasta q. Como cada unidad observada corresponde a una medicin para la variable X y otra para la variable Y, tendremos un conjunto de pares ordenados de la forma (Xi, Yj) correspondientes a cada unidad o elemento de la poblacin; de esta forma la variable estadstica bidimensional ser (X,Y). El estudio de datos que se componen de pares de puntuaciones, como los que acabamos de describir, admite al menos dos tratamientos:
Por una parte, podemos considerar el problema de describir el grado o

magnitud de la relacin entre dos variables, esto es, la magnitud de variacin IESFROSUR Pgina 47

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

conjunta; este es un problema de correlacin. El estadstico que describe el grado de relacin entre dos variables se denomina coeficiente de correlacin.
Por otra parte, podemos considerar la estimacin o prediccin de una variable

a partir de lo que conocemos de otra. Este es un problema de prediccin. El instrumento para realizar tales predicciones se denomina recta de regresin. DISTRIBUCIN CONJUNTA DE FRECUENCIAS Decimos que tenemos una distribucin conjunta de frecuencias cuando consideramos simultneamente los valores alcanzados por un grupo de sujetos en dos variables X e Y. Por ejemplo, supongamos que tenemos dos puntuaciones cuantitativas de un grupo de 27 alumnos/as de educacin de adultos, referidas a pruebas de velocidad lectora (variable X) y comprensin lectora (variable Y): X 92 88 85 84 89 83 85 84 86 Y 8 6 5 6 8 5 6 5 6 X 91 93 89 83 92 94 91 92 90 Y 9 8 7 6 7 10 8 9 7 X 90 86 88 87 87 94 85 86 90 Y 8 7 7 5 6 8 6 5 9

Estas puntuaciones vienen expresados por los pares (92,8), (88,6), etc. Pero tambin podramos agruparlos en intervalos, por ejemplo de amplitud tres para los valores de X y de amplitud dos para los valores de Y, como se expresa en la siguiente tabla (tabla 1): 83 - 85 0 0 7 86 - 88 0 2 5 89 - 91 2 5 0 92 - 94 2 4 0

9 - 10 7-8 5-6

Tabla 1: Distribucin conjunta de frecuencias para las variables X e Y Para el caso en que se agrupen dos variables X e Y en r y s intervalos respectivamente, denominaremos distribucin conjunta de frecuencias al conjunto de todas las parejas de intervalos, junto con sus frecuencias correspondientes. A partir de la distribucin conjunta de frecuencias las variables X e Y podemos definir las frecuencias marginales de X e Y. IESFROSUR Pgina 48

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Llamamos distribucin marginal de X a la distribucin de frecuencias de X con independencia de los valores de Y, es decir a la distribucin de frecuencias que presenta esta variable considerada individualmente. Igualmente para la variable Y (obsrvese en la tabla 2 los valores marginales de X e Y para el ejemplo anterior). 83 - 85 0 0 7 7 86 - 88 0 2 5 7 89 - 91 2 5 0 7 92 - 94 2 4 0 6 Marg. Y 4 11 12

9 - 10 7-8 5-6 Marg. X

Tabla 1: Distribucin conjunta de frecuencias y frecuencias marginales para las variables X e Y Para las distribuciones marginales de X e Y pueden calcularse las medias y desviaciones tpicas, que recibirn el nombre de desviaciones tpicas marginales. DIAGRAMA DE DISPERSIN O NUBE DE PUNTOS Cuando las variables X e Y que conforman una distribucin bidimensional, son ambas cuantitativas, sus valores son pares de nmeros reales de la forma (Xi, Yj), como decamos con anterioridad. Estos pares ordenados se pueden representar sobre un sistema de ejes cartesianos, con lo que se obtiene un conjunto de puntos sobre el plano. A ese conjunto de puntos se le denomina diagrama de dispersin o nube de puntos. Si se observan las representaciones de los diagramas de dispersin de distintas variables, podemos tener una cierta idea sobre el grado de relacin entre cada par de variables. En la figura 1 se muestra un ejemplo de tales diagramas. La figura 1(a) es la representacin grfica de una relacin alta que denominaremos positiva, puesto que a medida que aumentan los valores de X tambin lo hacen los de Y. En este tipo de relacin, puede observarse cmo los puntos forman una especie de lnea recta. Si los puntos formaran una lnea recta perfecta, existira una relacin positiva perfecta entre las variables. La figura 1(b) muestra una relacin positiva baja. Se aprecia de nuevo, aunque con menor intensidad que en el caso anterior, la tendencia a que los valores altos de X se correspondan a valores altos de Y y, del mismo modo, los valores bajos de X se correspondan con valores bajos de Y. La figura 1(c) refleja una situacin en la que no puede observarse una tendencia sistemtica por la que valores altos de X se asocien con valores altos de Y, o que valores bajos de X se asocien con valores bajos de Y, o viceversa. La figura 1(d) muestra una relacin alta, que en este caso denominaremos negativa puesto que a valores bajos de X corresponden valores altos de Y, y a valores altos de X se asocian valores bajos de Y. De nuevo, si todos los puntos cayeran sobre una lnea recta, existira una relacin negativa perfecta. IESFROSUR Pgina 49

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Figura 1: diagramas de dispersin CONCEPTO DE COVARIANZA El tipo de relacin al que nos hemos referido en el apartado anterior son relaciones lineales. Un modo de cuantificar la intensidad o importancia de una relacin lineal es mediante el clculo de la covarianza entre las dos variables. El sentido positivo o negativo de la relacin entre dos variables puede venir expresado por el valor positivo o negativo del trmino covarianza Cov(X,Y). La covarianza se define como la media aritmtica de los productos entre las puntuaciones diferenciales (Xi e Yj) correspondientes a los n individuos considerados en un grupo. Su expresin matemtica es por tanto:

o tambin, empleando la expresin equivalente:

En el caso de que los datos estn agrupados en intervalos, en una tabla de r columnas por s filas, las expresiones anteriores se veran modificadas. Siendo respectivamente Xi e Yj los puntos medios de los intervalos en que se agrupan los valores de X e Y, siendo nij el nmero de individuos que presentan puntuaciones X e Y incluidas en la IESFROSUR Pgina 50

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

pareja de intervalos correspondiente a la interseccin de la fila i con la columna j, podemos escribir la covarianza para datos agrupados en intervalos del siguiente modo:

O bien utilizando la expresin:

La covarianza, por tanto, puede ser tomada como una medida de asociacin o relacin entre dos variables. Reflexionando sobre lo que acabamos de decir y teniendo en cuenta el anlisis de la primera de las expresiones, podemos argumentar que: Si la covarianza es positiva, los sumandos del numerador han de ser en su mayora positivos, es decir, habrn de obtenerse como producto de dos nmeros positivos o dos nmeros negativos. Por ejemplo, si una persona tiene una puntuacin por encima de la media en X, se espera tambin en Y una puntuacin por encima de la media. Y al contrario, si un sujeto obtiene una puntuacin por debajo de la media en X, debe ir unida a una puntuacin por debajo de la media en Y. Es decir, X e Y covaran en el mismo sentido. Con una covarianza negativa, el modelo se invierte. A puntuaciones por encima de la media en X, han de corresponder puntuaciones por debajo de la media en Y; y a puntuaciones por debajo de la media en X, correspondern puntuaciones por encima de la media en Y. En esta situacin, los sumandos del numerador de Sxy resultarn del producto de dos nmeros de distinto signo, y ello explica que se obtenga una covarianza negativa. En tal caso se dice que las variables covaran en sentido opuesto. Finalmente, una covarianza cero indica que los sumandos negativos se contrarrestan con los sumandos positivos en el numerador de Sxy. Es decir, a veces una puntuacin por encima de la media en la variable X corresponde a una puntuacin en Y por debajo de la media, y a veces por encima de sta. En este caso diremos que las variables no covaran

IESFROSUR

Pgina 51

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

CORRELACIN DE PEARSON Hablamos de correlacin cuando nos referimos a la relacin existente entre dos variables, su intensidad y su sentido (positivo o negativo). Los diagramas expresados en la figura 1 ilustran algunas de las posibles relaciones entre variables. La covarianza definida anteriormente como el promedio de desviaciones conjuntas de dos variables sobre sus respectivas medias, no resulta ser una medida adecuada de la relacin entre dos variables, pues el valor de Sxy est relacionado con el valor de la media de X y con el valor de la media de Y. Por este motivo, si cambiamos la unidad de medida, la covarianza tambin se ver modificada. En consecuencia, podemos afirmar que el valor de la covarianza depende de la unidad de medida. Para evitar el efecto de la unidad de medida sobre Sxy podemos dividir las puntuaciones diferenciales por las respectivas desviaciones tpicas Sx y Sy. El nuevo ndice de relacin que obtenemos tendr la ventaja de ser invariante ante cualquier cambio en la unidad de medida. A este ndice de correlacin se le denomina coeficiente de correlacin de Pearson o coeficiente de correlacin producto-momento, y se denota por rxy:

Esta frmula del coeficiente de correlacin de Pearson puede expresarse como promedio de los productos entre dos pares de puntuaciones X e Y previamente tipificados.

Si consideramos que y, del mismo modo,

no es ms que la puntuacin z correspondiente a Xi es la puntuacin z correspondiente a Yi.

La frmula del coeficiente de correlacin de Pearson tambin suele expresarse de la siguiente forma, con objeto de eliminar errores que provengan de la presencia de nmeros decimales en el valor que adopta la media:

En el ejemplo siguiente podemos comprobar la aplicacin de las distintas frmulas que nos sirven para calcular el coeficiente de correlacin de Pearson. IESFROSUR Pgina 52

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Ejemplo 1 Tomemos cinco valores diferentes de una distribucin y calculemos Sxy, bajo dos condiciones distintas: cuando las puntuaciones han sido referidas a una escala que va de 0 a 10, y cuando las puntuaciones van de 0 a 100. X 2 8 7 2 6 Y 4 8 6 4 8 X 20 80 70 20 60 Y 40 80 60 40 80

Teniendo en cuenta que las medias de X e Y son 5 y 6 respectivamente, y que X e Y alcanzan medias de 50 y 60 respectivamente, podemos obtener la suma de productos para cada pareja de puntuaciones y calcular el valor de la covarianza en ambos casos: Xi 2 8 7 2 6 Yi 4 8 6 4 8 Xi Yi 8 64 42 8 48 (Xi-3 3 2 -3 1 ) (Yi-2 2 0 -2 2 )

Xi 20 80 70 20 60

Yi 40 80 60 40 80

Xi Yi 800 6400 4200 800 4800

(Xi- ) -30 30 20 -30 10

(Yi- ) -20 20 0 -20 20

Por tanto, como afirmbamos anteriormente, podemos comprobar que el valor de la covarianza depende de la unidad de medida. IESFROSUR Pgina 53

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Utilizando estos mismos datos calcularemos el coeficiente de correlacin de Pearson, para poner de manifiesto que el valor de este coeficiente no se ve afectado por la unidad de medida. Calculemos en primer lugar las desviaciones tpicas de las dos variables en ambas distribuciones (recordemos que).

Teniendo en cuenta que la suma de los cuadrados de las puntuaciones asciende a 157 para la variable X, 15700 en el caso de la variable X, a 196 para la variable Y y a 19600 en Y, tendremos que:

Sx=

Sx=

Sy=

Sy=

A partir de estos valores calculamos el coeficiente de correlacin de Pearson.

Siguiendo con el mismo ejemplo, comprobaremos cmo utilizando la frmula:

obtendremos tambin el mismo resultado, pero debemos tener presente que es una frmula ms precisa en el caso de que se trabaje con decimales (como indicbamos con anterioridad). X 2 8 7 2 6 Y 4 8 6 4 8 XY 8 64 42 8 48 X2 4 64 49 4 36 Y2 16 64 36 16 64

IESFROSUR

Pgina 54

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Xi 20 80 70 20 60

Yi 40 80 60 40 80

Xi Yi 800 6400 4200 800 4800

X2 400 6400 4900 400 3600

Y2 1600 6400 3600 1600 6400

Condiciones de aplicacin Aplicar el coeficiente de correlacin de Pearson exige que las variables estn medidas al menos en una escala de intervalos y que se d una relacin lineal entre ellas. Es decir, que los puntos del diagrama de dispersin se posicionen en la forma aproximada de una lnea recta. Por tanto, usar el coeficiente de correlacin de Pearson presupone la sospecha de que entre los grupos de puntuaciones se da una relacin lineal. Propiedades a) El coeficiente de correlacin de Pearson se encuentra comprendido entre los valores -1 y 1. b) En el caso de que rxy valga 1, tendr que cumplirse que para toda pareja de valores, sus puntuaciones tpicas son iguales: zx=zy. En el polo opuesto, es decir, si rxy vale -1, entonces se cumple que para todo par de valores, las puntuaciones tpicas son iguales pero de distinto signo: zx=-zy. Por tanto si zx=zy, entonces rxy=1 y podremos escribir

(Ya que, de acuerdo con las propiedades de las puntuaciones tpicas, la media de las puntuaciones tpicas vale 0), que es la expresin de la varianza de las puntuaciones tpicas zx. Recordar cmo en temas anteriores habamos dicho que la varianza de la puntuaciones z para una variable vale la unidad.

IESFROSUR

Pgina 55

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

c) La transformacin lineal de las variables no modifica el valor del coeficiente de correlacin, aunque s podra cambiar su signo. Es decir, si calculamos la correlacin entre las variables X e Y, el valor de sta ser, en valor absoluto, el mismo que obtengamos entre la variable aX+b, donde a y b son constantes. Interpretacin Al interpretar el coeficiente de correlacin de Pearson nos situaremos en un nivel meramente descriptivo. Al igual que ocurra con la covarianza, la correlacin entre dos variable X e Y es positiva si ambas covaran en el mismo sentido, es decir cuando a puntuaciones por encima de la media en X corresponden puntuaciones por encima de la media en Y, y a puntuaciones por debajo de la media en X corresponden puntuaciones por debajo de la media en Y. Por el contrario, la correlacin entre X e Y es negativa, cuando covaran en sentido opuesto, es decir, a puntuaciones por encima de la media en X corresponden puntuaciones por debajo de la media en Y, y viceversa. Si tenemos en cuenta el valor de la correlacin, podemos afirmar que, un coeficiente de correlacin de Pearson igual a 1 -1, implica que en el diagrama de dispersin correspondiente a las variables X e Y los puntos se disponen a lo largo de una lnea recta, y por tanto podemos decir que la covariacin entre ambas variables es total. Un coeficiente de correlacin igual o prximo a cero indica que no existe relacin lineal entre las dos variables, aunque podra existir otro tipo de correlacin no lineal. Resulta difcil precisar a partir de qu valor de rxy podemos considerar que existe una correlacin lineal entre dos variables. Siempre debemos tener en cuenta para la interpretacin el tipo de variables a las que se aplica. Sin embargo, para tener un referente, y siendo conscientes de que estos coeficientes no son aplicables a todas las situaciones, tomamos los determinados por Bisquerra (1987:189):

Adems debemos tener presente que la existencia de una correlacin no implica que necesariamente deba existir una relacin causal directa. Por relacin causal directa se entiende que si X e Y estn correlacionados, entonces X es en gran parte la causa de Y, o Y es en parte la causa de X. No obstante, es habitual que tras encontrar una elevada correlacin entre variables se hipoteticen relaciones de causa-efecto. Pero la existencia de una relacin de este tipo habr de ser comprobada recurriendo a otras estrategias de investigacin y a otras tcnicas estadsticas. IESFROSUR Pgina 56

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

REGRESIN Como se dijo al iniciar el tema, el trmino regresin equivale a prediccin, pronstico, estimacin. El aspecto fundamental de la regresin consiste en encontrar una recta que consiga la mejor aproximacin posible a la nube de puntos de un diagrama de dispersin. Esta recta ser utilizada para predecir los valores de una variable en funcin de los valores de otra. La ecuacin de una recta La ecuacin general de cualquier lnea recta viene dada por la expresin: Y = BX+ A Las cantidades A y B son unas constantes. La constante A coincide con la ordenada en el origen, es decir con el punto en que la recta corta al eje de ordenadas (valor de Y cuando X=0). La constante B es la llamada pendiente de la recta y representa a la inclinacin de la recta, es decir el nmero de unidades en que se ve aumentado el valor de y por cada aumento en una unidad de x. En la figura 2 vemos representadas algunas rectas correspondientes a distintas ecuaciones. En el primer caso, A es 0 y la pendiente de la recta vale 2. En el segundo caso A vuelve a ser cero, pero la pendiente es -2, por esta razn cambia la direccin de la recta (va del segundo cuadrante al cuarto cuadrante. En el tercer caso, la constante vale 3 (punto de corte de la recta con el eje de ordenadas) y su pendiente 2.

Figura 2: Representacin grfica de tres rectas en el plano Si observamos el caso primero y el tercero comprobamos que las rectas son paralelas. Esto ocurre porque tienen la misma pendiente. Por tanto, afirmamos que rectas que difieren en la constante pero con la misma pendiente son paralelas. La ecuacin de la recta de regresin La ecuacin de la recta de regresin permite pronosticar la puntuacin que alcanzar cada sujeto en una variable Y conociendo su puntuacin en otra variable X. A la variable Y se le denomina criterio y a la variable X predictor.

IESFROSUR

Pgina 57

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Sin embargo, raramente la nube de puntos que representa la relacin entre dos variables X e Y adopta la forma de una lnea recta perfecta. En el caso en que exista una relacin alta entre las variables, la nube de puntos tiende a parecerse a una recta. Slo en el caso de rxy=1 la nube de puntos se ajusta perfectamente a la lnea recta. Teniendo esto en cuenta, la recta de regresin es la lnea recta que mejor se ajusta a la nube de puntos para dos variables X e Y, es decir, la que permitira minimizar el error medio cometido al hacer los pronsticos como si la nube de puntos tuviera una forma lineal. Por ejemplo: Consideremos un grupo de 4 personas para las que conocemos sus puntuaciones en determinadas variables X e Y, segn se muestra en las dos primeras columnas de la siguiente tabla: X 5 6 7 8 Y 3 2 4 5 Y 2 4 6 8 Y-Y -1 2 2 3 (Y-Y)2 1 4 4 9

A partir de estos valores, y suponiendo que existe una relacin lineal entre X e Y, podemos tratar de pronosticar el valor que alcanzar en la variable Y un sujeto, conociendo su puntuacin en la variable X. Supongamos que la relacin existente entre ambas variables viene determinada por la recta Y = 2X-8. Para comprobar si esta recta permite realizar un buen pronstico, comprobaremos si los valores que toma Y para los cuatro sujetos (segn la recta) coinciden con los que efectivamente hemos observado. Denominamos Y a las puntuaciones pronosticadas usando la recta Y = 2X-8. As observamos que la puntuacin pronosticada para el primer sujeto es de 2, mientras que la puntuacin real obtenida por dicho sujeto ha sido de 3.Se ha cometido un error en la prediccin, que viene determinado por (Y-Y) (a menudo interesa que el error no aparezca negativo, es decir, nos da igual que sea por exceso o por defecto; una forma de evitar el signo es considerando las diferencias al cuadrado). La diferencia entre las puntuaciones pronosticadas y las observadas en los sujetos se aprecian en la figura 3, que representa el diagrama de dispersin y la ecuacin de la recta utilizada para predecir los valores Y.

IESFROSUR

Pgina 58

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Figura 3: Diagrama de dispersin y prediccin de la recta Y=2X+8 Como hemos podido comprobar, la recta no estima demasiado bien los valores de Y. Nuestro inters se centrar en encontrar la recta que permita llevar a cabo una estimacin de los valores de Y con el menor error posible. Esa recta es la que denominaremos recta de regresin de Y sobre X. El criterio que ha de satisfacer esta recta, es que la suma de los errores cuadrticos ( ) en la prediccin de Y a partir de X sea mnima.

La recta de regresin vendr determinada por una ecuacin del tipo: Y= A+BX. El valor de las constantes A y B puede ser hallado a partir del clculo diferencial. Presentamos en el siguiente cuadro los valores de A y B en el caso de que trabajemos con puntuaciones directas, diferenciales y tpicas, y pretendamos calcular las constantes correspondientes a la recta de regresin de Y sobre X. ECUACIN DE LA RECTA DE REGRESIN DE Y SOBRE X Puntuaciones Directas Puntuaciones Puntuaciones Tpicas Diferenciales Y=A+BX y=A+Bx A= -B A=0 A=0 B= rxy

IESFROSUR

Pgina 59

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Coeficiente de determinacin Se denomina coeficiente de determinacin al valor r2, ya que ste ltimo indica el grado de aproximacin de los puntos a la recta (es la proporcin de que logramos explicar gracias a la regresin). Hemos dicho anteriormente que cuanto menos se desven los puntos de la recta, ms pequeo ser el valor del error y por lo tanto ms prximo a 1 estar el cuadrado de r. La proporcin de varianza que no explicamos con la regresin ser (1).

Tanto la varianza explicada por la regresin como la no explicada pueden obtenerse a partir del coeficiente de determinacin de acuerdo con las siguientes expresiones que los relacionan.

PROBLEMAS RESUELTOS Problema 1 El Equipo Directivo de una Escuela de Educacin Secundaria est interesado en conocer la relacin que existe entre el nmero de horas semanales (X) que dedican los alumnos al estudio y las calificaciones medias (Y) de los mismos al final de trimestre. Eligiendo 11 alumnos al azar, han recogido para X e Y los datos que aparecen en las dos primeras columnas de la siguiente tabla. Determina el valor de la covarianza entre ambas variables. X 5 2 4 7 10 4 8 1 3 6 10 60 Y 7 4 5 8 9 6 9 4 5 7 8 72 XY 35 8 20 56 90 24 72 4 15 42 80 446 x -0.46 -3.46 -1.46 1.54 4.54 -1.46 2.54 -4.46 -2.46 0.54 4.54 y 0.45 -2.55 -1.55 1.45 2.45 -0.55 2.45 -2.55 -1.55 0.45 1.45 xy -0.21 8.82 2.26 2.23 11.12 0.80 6.22 11.37 3.81 0.24 6.58 53.24

IESFROSUR

Pgina 60

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Solucin 1: En la tabla anterior se han presentado los clculos necesarios (x e y son puntuaciones diferenciales, es decir las puntuaciones directas menos las respectivas medias). El valor de la media en cada variable es:

y el de la covarianza:

Utilizando otra de las frmulas posibles:

En realidad se trata de la misma frmula expresada de manera diferente. Una covarianza positiva indicar cierta tendencia a que a un tiempo semanal de estudio por encima de la media correspondan calificaciones por encima de la media, y a un tiempo de estudio por debajo de la media correspondan calificaciones por debajo de la media. Problema 2 Calcula la correlacin entre las variables tiempo semanal dedicado al estudio y calificaciones obtenidas al final del trimestre, a partir de los datos considerados en el problema anterior. Realiza el clculo utilizando el valor de la covarianza y sin contar con este resultado. Representa el diagrama de dispersin para las puntuaciones correspondientes a ambas variables Solucin 2: Para calcular el coeficiente de correlacin de Pearson utilizando el valor de la covarianza entre las variables necesitamos, adems de dicho valor, las desviaciones tpicas respectivas de ambas variables.

IESFROSUR

Pgina 61

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

X 5 2 4 7 10 4 8 1 3 6 10 60

Y 7 4 5 8 9 6 9 4 5 7 8 72

X2 25 4 16 49 100 16 64 1 9 36 100 420

Y2 49 16 25 64 81 36 81 16 25 49 64 506

XY 35 8 20 56 90 24 72 4 15 42 80 446

A partir de estos valores, el coeficiente de correlacin rxy ser:

Si empleamos una expresin de clculo en la que no entra la covarianza:

La correlacin entre ambas variables es muy alta, e indica que a elevado tiempo de estudio corresponden calificaciones altas, mientras que a poco tiempo de estudio corresponden calificaciones bajas. Por ltimo, representamos el diagrama de dispersin.

IESFROSUR

Pgina 62

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Problema 3 En un estudio sobre el rendimiento de los 20 alumnos de un aula de Educacin Secundaria en la asignatura matemticas, se han considerado las variables conocimientos previos (X) y calificaciones finales (Y). La primera de ellas fue medida a partir de una prueba de conocimientos previos, administrada al iniciarse el curso, mientras que los valores para la segunda variable se obtuvieron directamente de las actas de evaluacin de junio. Teniendo en cuenta que los valores obtenidos son los siguientes, determina la ecuacin de regresin de Y sobre X y pronostica las calificaciones finales de los alumnos a partir de las puntuaciones logradas en conocimientos previos. X Y 48572932571879369255 29583841462989358346

Solucin 3: Para determinar la ecuacin de regresin de la variable Y sobre X, habr que tener en cuenta la expresin de esta recta, que en trminos generales es: Y'= A + BX, donde A y B, en el caso de puntuaciones directas, adoptan los valores:

Para hallar el valor de estos coeficientes, tendremos que realizar clculos previos, que recogemos en la siguiente tabla:
X 4 8 5 7 2 9 3 2 5 7 1 8 7 9 3 6 9 2 5 5 X=107 Y 2 9 5 8 3 8 4 1 4 6 2 9 8 9 3 5 8 3 4 6 Y=107 XY 8 72 25 56 6 72 12 2 20 42 2 72 56 81 9 30 72 6 20 30 XY=693 X
2

16 64 25 49 4 81 9 4 25 49 1 64 49 81 9 36 81 4 25 25 2 X =701

IESFROSUR

Pgina 63

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

A partir de las sumas calculadas y de las medias obtenidas, que en este caso resultan ser idnticas para las dos variables, tendremos:

Luego la ecuacin de regresin que nos pedan quedar del siguiente modo: Y' = 0.32 + 0.94X Mediante esta ecuacin podemos pronosticar los valores que los sujetos alcanzaran en la variable Y (calificaciones finales) a partir de las puntuaciones obtenidas en la prueba de conocimientos previos (X). El resultado de esta prediccin para cada uno de los valores de X ser: X 1 2 3 4 5 6 7 8 9 Y' Y'=0.32+0.941=1.26 Y'=0.32+0.942=2.20 Y'=0.32+0.943=3.14 Y'=0.32+0.944=4.08 Y'=0.32+0.945=5.02 Y'=0.32+0.946=5.96 Y'=0.32+0.947=6.90 Y'=0.32+0.948=7.84 Y'=0.32+0.949=8.78

PROBLEMAS PROPUESTOS 1. Conociendo las puntuaciones alcanzadas por un total de 15 sujetos en una prueba que mide el nivel inicial de conocimientos de los alumnos de 3 de Educacin Secundaria y conociendo tambin el rendimiento final de curso, construye el diagrama de dispersin para ambas variables y determina la convarianza. Prueba Rendimiento 8, 4, 6, 5, 8, 6, 9, 7, 3, 5, 6, 7, 6, 8, 4 7, 6, 5, 3, 7, 4, 8, 6, 1, 6, 7, 4, 5, 6

2. Para comprobar la fiabilidad de una prueba de razonamiento espacial, un psicopedagogo se dispone a aplicarla en dos momentos distintos a un grupo de 10 sujetos. Si la prueba es fiable se espera que las puntuaciones logradas en ambos casos correlacionen entre s. A partir de los datos recogidos, que mostramos a continuacin, en qu medida podemos afirmar que la prueba es fiable? IESFROSUR Pgina 64

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

1 aplicacin: 18 14 11 16 15 12 19 10 19 14 2 aplicacin: 17 15 9 18 15 11 18 10 17 16 3. Un modo de comprobar la validez de un test consiste en determinar si existe correlacin con un criterio externo. En el caso de los test de aptitudes, el criterio externo suele ser el rendimiento acadmico de los sujetos. Teniendo en cuenta estas consideraciones, un pedagogo que ha diseado un test de aptitudes intelectuales, pretende contrastar la validez del mismo tomando como criterio las calificaciones finales obtenidas por un grupo de 12 escolares. Si las puntuaciones en el test para los 12 sujetos son 75, 67, 45, 76, 87, 79, 68, 75, 68, 78, 88, 72 y las calificaciones obtenidas son respectivamente 7, 5, 5, 8, 9, 6, 7, 7, 5, 8, 9, 7, determina la validez del instrumento. 4. Una empresa suele evaluar el trabajo realizado por sus empleados cuando stos cumplen el tercer ao de antigedad en la misma, otorgndoles una puntuacin mediante la que se valora su eficacia. En el momento actual, la empresa se encuentra en expansin y pretende contratar a un nuevo operario para ocupar un determinado puesto. Como en ocasiones anteriores, los directivos de la empresa recurren a un gabinete psicopedaggico que aplica un test psicotcnico de seleccin. Los responsables de este gabinete afirman que la puntuacin obtenida en el test permite predecir la eficacia del nuevo operario. Aceptando este supuesto, y conociendo las puntuaciones en el test y en eficacia de 8 trabajadores anteriormente contratados, determina qu puntuacin en eficacia obtendr dentro de 3 aos el candidato seleccionado por el gabinete para ocupar el puesto de trabajo, sabiendo que su puntuacin en el test psicotcnico de seleccin ha sido 87. Test de Seleccin 80 75 61 90 81 79 89 97 Eficacia 9.00 8.25 7.50 9.50 9.25 8.75 9.25 9.75

5. Utilizando los datos relativos al test de seleccin y a la eficacia, considerados en el problema anterior, determina la relacin existente entre ambas variables. 6. Un psicopedagogo aplica un test de aptitud para la lectura a un total de 12 alumnos, obteniendo en una escala de 1 a 10 las siguientes puntuaciones: 7, 6, 3, 8, 6, 9, 7, 4, 6, 7, 3, 5. Estos mismos alumnos siguen un proceso de enseanza de la lectura al trmino del cual son evaluados por su nivel de aprendizaje logrado, recogindose respectivamente los siguientes valores: 65, 60, 47, 78, 71, 85, 67, 56, 68, 85, 49, 62. Suponiendo que el test de aptitud para la lectura permite predecir el aprendizaje de los alumnos, cul ser el nivel de aprendizaje alcanzado por un alumno que arroje la puntuacin 10 en el test de aptitud?

IESFROSUR

Pgina 65

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

7. En una muestra de 15 alumnos presentados al primer examen parcial de la asignatura Estadstica, se han obtenido para las partes terica y prctica del examen, las calificaciones que mostramos a continuacin. Existe alguna relacin entre las calificaciones en la parte terica y las calificaciones en la parte prctica? Parte terica 5.7 7.1 2.9 4.7 4.2 9.3 4.3 5.7 5.4 4.3 1.5 4.7 2.2 6.3 4.5 Parte prctica 6.7 7.2 7.0 3.0 6.0 8.5 8.0 6.2 5.5 5.2 4.2 6.2 6.2 7.2 5.2

8. En un curso de nivelacin se han seleccionado 10 alumnos, de los que se han tomado las puntuaciones que han obtenido como calificacin en las pruebas de acceso a la Universidad (variable Y) y las obtenidas como calificacin global en nivelacin (variable X). Predice la calificacin en la prueba de acceso para un alumno cuya calificacin global en nivelacin se encuentra 2 unidades por encima de la media. X 9 8.1 8.5 7 6.8 7.3 5.8 5 4.7 4.9 Y 7 8 8 7 6 8 5 3 6 4

IESFROSUR

Pgina 66

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

9. Los profesores de un centro educativo, interesados por los factores relacionados con el rendimiento escolar de los alumnos en el rea del lenguaje, han llegado a la conclusin de que existe una relacin directa entre las variables inteligencia y dominio del lenguaje, que puede apreciarse claramente en los alumnos de 6 de Primaria. A partir de una muestra de alumnos de 6, el coeficiente de correlacin obtenido para ambas variables, medidas respectivamente con el test de inteligencia general Factor G de Cattell y con una prueba de lenguaje elaborada por los profesores, es rxy=0.59. Por ello, los profesores consideran que la variable inteligencia general, medida por el Factor G, puede tomarse como un buen predictor del dominio del lenguaje que presentan los alumnos. De acuerdo con esta idea, y sabiendo que la media y desviacin tpica en la prueba de lenguaje son respectivamente 6 y 2.3, determina el rendimiento en la prueba de lenguaje para un alumno cuyo C.I. medido por el Factor G asciende a 112. 10. El director de una Escuela de Educacin Secundaria ha extrado de las actas de evaluacin depositadas en la secretara las calificaciones medias de 10 de sus alumnos que finalizaron estudios de Bachillerato en aos anteriores, y posteriormente ha recogido las notas obtenidas por esos mismos alumnos en su primer curso universitario. Con la informacin obtenida pretende predecir el rendimiento en el primer curso universitario que alcanzar un alumno que acaba de finalizar el Bachillerato con una calificacin media de 6.75. Cul ser la prediccin de rendimiento que podr hacer el director para este alumno? Calif. Bachillerato: 5.75, 6.50, 7.25. 8.00, 6.00, 7.50, 9.00, 8.50, 5.50, 6.00 Calif. 1er Curso Univ.: 4.00, 4.50, 5.75, 7.00, 8.00, 5.50, 6.25, 8.25, 7.25, 5.50

IESFROSUR

Pgina 67

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Tcnicas para el estudio de la relacin entre variables (II)


1. El coeficiente de correlacin de Spearman. 2. El coeficiente de contingencia. 3. El coeficiente de correlacin phi. Referencia bsica para el tema: GIL, J; RODRGUEZ, G. Y GARCA, E. (1995). Estadstica Bsica Aplicada a las Ciencias de la Educacin. Sevilla, Kronos, (Cap. 8). INTRODUCCIN En el captulo anterior se analizaba la correlacin entre dos variables medidas en escala de intervalos, presentando el coeficiente de correlacin de Pearson. De acuerdo con este coeficiente, una correlacin positiva entre dos variables implica que a puntuaciones altas en una variable X suelen corresponder puntuaciones altas en una variable Y, al tiempo que las puntuaciones bajas en ambas variables tambin suelen aparecer asociadas. Ahora nos ocuparemos de la correlacin entre variables que no presentan este nivel de medida, las cuales son bastante frecuentes en el contexto de las Ciencias de la Educacin. Cuando nos encontramos ante niveles de medida ordinal o nominal, hablaremos de correlacin entre dos variables si existe una vinculacin entre cierta o ciertas modalidades de la primera variable y cierta o ciertas modalidades de la segunda. Algunos de los coeficientes de correlacin indicados en esta situacin se apoyan en rxy, y no son ms que una derivacin de ste. As, el coeficiente de correlacin de Spearman, el coeficiente de correlacin biserial puntual o el coeficiente de correlacin phi, que veremos aqu, son el resultado de la aplicacin directa de la frmula de r xy al caso de variables ordinales y nominales. En cambio, coeficientes como el de correlacin biserial o el de correlacin tetracrica resultan de un intento de estimar el valor que correspondera a rxy. Finalmente, estudiaremos coeficientes distintos a rxy para medir la correlacin entre variables, como es el caso del coeficiente de contingencia. COEFICIENTE DE CORRELACIN DE SPEARMAN Para aplicar el coeficiente de correlacin de Spearman se requiere que las variables estn medidas al menos en escala ordinal, es decir, de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas. A veces, este coeficiente es denominado por la letra griega s (rho), aunque cuando nos situamos en el contexto de la Estadstica Descriptiva se emplea la notacin rs, que ser la que utilicemos aqu. La frmula de clculo para rs puede derivarse de la utilizada en el caso de rxy; bastara aplicar el coeficiente de correlacin de Pearson a dos series de puntuaciones ordinales, compuestas cada una de ellas por los n primeros nmeros naturales (ver Amn, 1986:267 y ss.). No nos ocuparemos aqu del modo en que se deduce la frmula, sino de su aplicacin.

IESFROSUR

Pgina 68

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

A partir de un conjunto de n puntuaciones, la frmula que permite el clculo de la correlacin entre dos variables X e Y, medidas al menos en escala ordinal, es la siguiente:

donde d es la distancia existente entre los puestos que ocupan las puntuaciones correspondientes a un sujeto i cuando estas puntuaciones han sido ordenadas para X y para Y. Ejemplo 1 Queremos establecer la correlacin existente entre las variables comportamiento en clase (X) y cumplimiento de tareas (Y) medidas en un grupo de 10 alumnos de EGB. Para la primera variable conocemos la puntuacin otorgada por un equipo de profesores, mientras que en el caso de la segunda variable, disponemos nicamente de la posicin que ocupan los 10 alumnos cuando son ordenados desde el que cumple en mayor grado sus tareas hasta el que lo hace con menor grado. Los datos aparecen recogidos en las dos primeras columnas de la tabla 1. En este caso no podramos aplicar el coeficiente de correlacin productomomento, puesto que slo una de las dos variables aparece medida en escala de intervalos. Por esta razn, tendremos que utilizar el coeficiente de correlacin rs. Para ello, transformaremos la variable X en una variable ordinal asignando a cada sujeto el rango (o posicin) que le corresponde en el grupo de acuerdo con la puntuacin alcanzada. El resultado de esta transformacin aparece en la columna tercera de la tabla 1. Tabla 1: Datos y clculos correspondientes al ejemplo %l
X 3.5 2.9 3.1 3.8 2.0 2.6 3.2 3.4 2.8 1.9 Y 1 2 3 4 9 8 6 5 7 10 Rango (X) 2 6 5 1 9 8 4 3 7 10 di 1 4 2 3 0 0 2 2 0 0 di2 1 16 4 9 0 0 4 4 0 0

di2 = 38 En este caso, hemos ordenado las puntuaciones de mayor a menor, dado que la variable Y tambin estaba ordenada en este sentido. No obstante, el coeficiente de correlacin no cambiara si las dos variables estuvieran ordenadas de menor a mayor.

IESFROSUR

Pgina 69

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

A partir de las dos series de puntuaciones expresadas en escala ordinal, hemos procedido a calcular los valores de las distancias al cuadrado entre el puesto que ocupa cada individuo en la ordenacin de acuerdo con las puntuaciones X y la ordenacin de acuerdo con las puntuaciones Y. El resultado de esta operacin y de sumar todos los cuadrados aparece en las columnas cuarta y quinta de la tabla 1. Con estos datos, podremos aplicar la frmula del coeficiente de correlacin de Spearman, obteniendo:

La correlacin positiva indica que los sujetos situados en los primeros puestos para la variable X, es decir, los de mejor comportamiento en clase, son tambin los que ocupan los primeros puestos en la ordenacin para la variable Y, o sea, los que en mayor grado cumplen sus tareas. Otro tanto podramos afirmar de los sujetos que ocupan los puestos ms bajos en ambas variables. En el ejemplo que acabamos de ver no haba dos sujetos que tuvieran una misma puntuacin en X o en Y. Sin embargo, esta circunstancia podra darse, dificultando la asignacin de rangos. En ese caso, el puesto asignado a ambos sera el promedio de los que les hubieran correspondido de no darse esa coincidencia. Por ejemplo, imaginemos las puntuaciones alcanzadas para dos variables X e Y, tal y como se muestra en la primera parte de la tabla 2. Como puede observarse, existen puntuaciones que se repiten, tanto en la variable X como en Y. La parte derecha de esa misma tabla presenta los rangos que asignaramos a cada una de las puntuaciones al ordenarlas de mayor a menor. Tabla 2: Asignacin de rangos a puntuaciones idnticas X Y Rango (X) Rango (Y) 35 11 1 5 29 18 4 3.5 31 23 2.5 1 31 18 2.5 3.5 19 21 5 2 La existencia de puntuaciones coincidentes para una variable hara que el coeficiente de correlacin se elevara ligeramente por encima de lo que hubiramos obtenido sin promediar los rangos correspondientes a las puntuaciones repetidas. En el caso en que las coincidencias de valores fueran muy numerosas, habra que emplear una frmula alternativa para el clculo de rs que trata de amortiguar este efecto (Siegel, 1976:238-242). Propiedades a) El coeficiente de correlacin de Spearman se encuentra siempre comprendido entre los valores -1 y 1. Es decir, -1 < rs < 1. b) Cuando todos los sujetos se sitan en el mismo puesto para la variable X y para la variable Y, el valor de rs es 1. Si ocupan valores opuestos, es decir, al IESFROSUR Pgina 70

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

primer sujeto en X le corresponde el ltimo lugar en Y, al segundo en X le corresponde el penltimo en Y, etc., entonces el valor de rs es -1. c) El coeficiente rs es un caso particular de rxy, puesto que se calcula a partir de ste, por aplicacin del coeficiente de Pearson a valores ordinales considerados como puntuaciones. Por ello, al aplicar la frmula de rxy a los valores de dos series de rangos, obtendramos el mismo resultado que con la frmula de rs. d) Si calculamos el coeficiente de correlacin de Pearson entre dos variables X e Y, y el coeficiente de correlacin de Spearman para las mismas puntuaciones pero transformadas en rangos, ambos coeficientes se aproximan en valor segn aumenta el nmero de sujetos n. COEFICIENTE DE CONTINGENCIA Cuando los valores de dos variables no pueden ser ordenados, sino nicamente clasificados (las variables se encuentran medidas en escala nominal), se requieren estadsticos diferentes a rxy para determinar la relacin entre esas variables. Una de las medidas de la relacin entre dos variables de este tipo nos la proporciona el coeficiente de contingencia C, cuya expresin es:

donde n es el nmero de individuos o puntuaciones y 2 es el coeficiente chicuadrado, que se calcula a partir de las frecuencias observadas (f o) para cada pareja de modalidades -una de cada variable-, y de las frecuencias esperadas en esa pareja de modalidades si no hubiera relacin entre las variables (fe):

Ilustraremos el proceso de clculo del coeficiente de contingencia C, y clarificaremos los conceptos en los que se basa, mediante su aplicacin a un ejemplo prctico. Ejemplo 2 Queremos determinar si existe relacin entre el sexo y la especialidad cursada por alumnos que estudian Magisterio, a partir de los datos correspondientes a 349 alumnos de una Escuela de Magisterio. La distribucin conjunta de frecuencias para ambas variables aparece en la tabla 3. Tabla 3: Distribucin conjunta de frecuencias para sexo y especialidad Ciencias Humanas Lenguas Preescolar Hombres 70 60 36 12 178 Mujeres 40 54 39 38 171 110 114 75 60 349

IESFROSUR

Pgina 71

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

En primer lugar calcularemos el valor de 2 para la anterior tabla de contingencia (denominacin que damos a la tabla usada al presentar la distribucin conjunta de frecuencias para dos variables). Partiendo del supuesto de que no hay relacin entre las dos variables, es preciso calcular las frecuencias esperadas en cada celdilla de la tabla. Tomemos, por ejemplo, los alumnos de Ciencias. Si no hubiera relacin entre especialidad y sexo, la proporcin de alumnos que estudian Ciencias habra de ser similar a la proporcin de alumnas que estudian Ciencias. Sin embargo, la proporcin de alumnos en Ciencias alcanza el valor 70/178 = 0.39, mientras que la de las alumnas es 40/171 = 0.23. Se demuestra que, cuando las variables son independientes, las frecuencias esperadas en cada celda pueden ser calculadas multiplicando la frecuencia marginal de la fila (ff) por la frecuencia marginal de la columna (f c) y dividiendo por el total de individuos (n):

El resultado de calcular las frecuencias esperadas aparece entre parntesis en cada celda de la tabla 4. Se trata de frecuencias tericas, pues resulta evidente que nunca podramos observar, por ejemplo, 56.1 alumnos varones en la especialidad de Ciencias. Con estos nuevos valores tericos, la proporcin de hombres en Ciencias es 56.1/178 = 0.32 y la proporcin de mujeres 53.9/171 = 0.32. Tambin puede comprobarse que la proporcin de hombres ser Tabla 4: Frecuencias observadas y esperadas para sexo y especialidad Ciencias Humanas Lenguas Preescolar Hombres 70 (56.1) 60 (58.1) 36 (38.3) 12 (25.5) Mujeres 40 (53.9) 54 (55.9) 39 (36.7) 38 (24.5) 110 114 75 50

178 171 349

ahora la misma en las especialidades de Ciencias, Humanas, Lenguas y Preescolar. En efecto, 56.1/110 = 58.1/114 = 38.3/75 = 25.5/50 = 0.51. A partir de las frecuencias observadas y esperadas podremos aplicar la frmula de clculo para 2 y obtener un valor que puede ser tomado como medida de independencia entre las dos variables. Si las frecuencias empricas (las observadas en este caso) resultaran ser iguales que las frecuencias tericas (las que aparecen entre parntesis), diremos que no existe relacin entre las variables sexo y especialidad. Cuanto ms se alejen las frecuencias tericas de las observadas, mayor ser la relacin entre las dos variables. El valor 2 se construye a partir de la distancia entre las frecuencias observadas y las frecuencias esperadas, es decir, indica en qu medida la distribucin de frecuencias se aleja de los valores que cabra esperar en el caso de que no hubiera relacin entre las dos variables.

IESFROSUR

Pgina 72

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

El valor de 2 presenta problemas como medida de correlacin, puesto que su cuanta depende del nmero de sujetos considerados. A medida que se incrementa n, crece tambin el valor de 2. Si dispusiramos del doble de alumnos en cada celda de la tabla de contingencia, el valor de 2 sera tambin el doble. En general, si multiplicamos las frecuencias observadas por k, el valor de 2 se ver incrementado tambin en un nmero de veces igual a k. Precisamente, para evitar el efecto del tamao de la muestra, utilizamos como coeficiente de correlacin el coeficiente de contingencia C:

La interpretacin de la correlacin habr de hacerse examinando la tabla de contingencia. Puesto que en las celdas hombres-Ciencias, hombres-Humanas, mujeres-Lenguas y mujeres-Preescolar se observan frecuencias por encima de lo esperado, la posible relacin entre las dos variables se concretara en una tendencia a que estas parejas de modalidades se den conjuntamente. Es decir, parece existir una asociacin entre alumnos y las especialidades de Ciencias y, en menor medida, Humanas, as como entre alumnos y las especialidades de Lenguas y, sobre todo, Preescolar. Por tanto, el procedimiento seguido para calcular la relacin entre dos variables nominales mediante el coeficiente de contingencia C, consta de los siguientes pasos: 1. Ordenamos las puntuaciones en una tabla de contingencia de r filas por s columnas, siendo r y s el nmero de modalidades o valores alcanzados por cada una de las dos variables. Se determinan las frecuencias esperadas para cada celda de la tabla. Calculamos el valor del coeficiente 2. Debe tenerse en cuenta que no es aconsejable calcular este coeficiente cuando ms del 20% de las celdillas tienen una frecuencia esperada inferior a 5, o si en alguna celdilla no se supera el valor 1 para la frecuencia esperada.

2. 3.

Adems, cuando calculamos el valor de 2 en una tabla de dos filas por dos columnas, es recomendable realizar la correccin de Yates, sobre todo cuando algunas de las frecuencias tericas presentan valores inferiores a 5. Introduciendo esta correccin, la frmula de clculo quedara del siguiente modo:

4) A partir del valor de 2 calculamos el coeficiente de contingencia C.

IESFROSUR

Pgina 73

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Propiedades a) El coeficiente de contingencia C est comprendido entre 0 y 1. Es decir, 0 < C < 1. En este caso, no tendra sentido hablar de coeficientes negativos o positivos. El signo suele indicar que las variables consideradas varan en una misma direccin o en direccin opuesta. Cuando trabajamos con variables nominales, no es posible hablar de incrementos o decrementos en el valor de las mismas, puesto que entre las modalidades de este tipo de variables no se dan ni siquiera relaciones de orden. Por otra parte, el coeficiente C presenta el valor 0 cuando la relacin entre las variables es nula, pero nunca alcanza el valor 1. El mximo que puede alcanzar C depende del nmero de filas y columnas. b) El coeficiente C indica la intensidad de la relacin, pero no cules son las modalidades de ambas variables que tienden a darse conjuntamente. La relacin se establece entre aquellas modalidades correspondientes a la fila y la columna de celdas con frecuencia esperada superior a la frecuencia observada. c) El valor de C depende del nmero de filas y de columnas de la tabla de contingencia construida para su clculo. Por este motivo, no son comparables dos valores de C obtenidos para una misma pareja de variables, salvo en el caso en que correspondan a tablas de las mismas dimensiones. d) El coeficiente de contingencia C no es comparable a otros coeficientes de correlacin, tales como rxy de Pearson o rs de Spcarman. Valores similares en C y en cualquiera de estos coeficientes no tendran que indicar un similar grado de correlacin entre las parejas de variables implicadas en cada caso. COEFICIENTE DE CORRELACIN BISERIAL PUNTUAL El coeficiente de correlacin biserial puntual se utiliza cuando queremos conocer la correlacin existente entre dos variables, de las cuales una ha sido medida en escala de intervalos y la otra resulta ser una variable dicotmica. Generalmente, el coeficiente de correlacin biserial puntual se denota mediante la expresin rbp. Antes de continuar conviene precisar lo que entendemos por variables dicotmicas. Son aqullas que presentan nicamente dos modalidades, tales como el sexo (varnmujer), la calificacin de la respuesta a un item (acierto-error), etc. En general, suelen atribuirse a estas modalidades los valores 0 y 1, aunque no habra inconveniente en asignar 1 y 2, cualquier otro par de valores. Las frmulas, ambas equivalentes, que permiten el clculo del coeficiente de correlacin biserial puntual entre una variable X, medida en escala de intervalos, y una variable dicotmica Y son las siguientes:

IESFROSUR

Pgina 74

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

donde: p es la proporcin de sujetos con una de las dos modalidades posibles de la variable Y. q es la proporcin de sujetos con la otra modalidad. es la media en X de los sujetos cuya proporcin es p. es la media en X de los sujetos cuya proporcin es q. es la media en X de todos los sujetos. sx es la desviacin tpica en X de todos los sujetos. Ejemplo 3 Considerando que en un aula universitaria los resultados obtenidos en una prueba de evaluacin (variable X) y el sexo de los alumnos (variable Y), son los que aparecen recogidos en la tabla 5, determinar la correlacin existente entre ambas variables. El sexo de los individuos se ha codificado como 1 cuando se trata de alumnos y 2 cuando se trata de alumnos. Tabla 5: Datos correspondientes al ejemplo 8.3 x 18 12 14 16 14 9 20 16 17 14 12 10 15 16 13 12 19 20 15 16 14 y 1 1 2 2 1 1 2 2 2 1 1 1 2 2 1 1 2 2 1 1 1 Para determinar la correlacin existente entre ambas variables, utilizaramos el coeficiente de correlacin biserial puntual. En primer lugar, calcularemos el valor de las proporciones de alumnos (p) y alumnas (q) teniendo en cuenta que en el grupo de 21 alumnos 12 son hombres (modalidad 1) y 9 mujeres (modalidad 2): p = 12/21 = 0.57l4 q = 9/21 = 0.4285 A continuacin calculamos los valores de la media de la variable X, la media de la variable X para los 12 sujetos de la modalidad 1 (en este caso los alumnos) y la desviacin tpica de X. Realizando los clculos oportunos, que dejamos al lector, resulta:

A partir de estos valores estamos en disposicin de calcular el coeficiente de correlacin biserial puntual. Aplicando una de las expresiones de clculo de rbp obtendremos:

IESFROSUR

Pgina 75

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Por tanto, el valor de la correlacin entre ambas variables es -0.635. Al tratarse de un coeficiente de signo negativo, a puntuaciones altas en la variable X corresponde pertenecer a la categora cuya proporcin es q. Es decir, las puntuaciones altas en la prueba de evaluacin se asocia a las alumnas; mientras que las puntuaciones bajas se asocian a los alumnos. Propiedades a) Se demuestra que el coeficiente rbp es resultado de aplicar el coeficiente de correlacin de Pearson al caso en que una de las variables tiene carcter dicotmico. b) El valor de rbp no puede ser mayor que 1 ni menor que -1 Es decir, se cumple -1 < rbp < 1. Cuanto mayor sea la distancia entre la media de los sujetos que presentan la primera modalidad y la media del total de sujetos, ms prximo a 1 -1 ser el coeficiente de correlacin que obtengamos. c) Un coeficiente de correlacin positivo indicar que a puntuaciones altas de corresponde pertenecer a la categora cuya proporcin es p, mientras que puntuaciones bajas de X corresponde pertenecer a la categora cuya proporcin es Un coeficiente negativo deber ser interpretado en sentido contrario, es decir, puntuaciones altas de X correspondera la categora cuya proporcin es q, y puntuaciones bajas aqulla cuya proporcin es p. COEFICIENTE DE CORRELACIN BISERIAL El coeficiente de correlacin biserial se utiliza cuando queremos conocer la correlacin existente entre dos variables, de las cuales una aparece medida al menos en una escala de intervalos, mientras que la otra ha sido dicotomizada artificialmente a partir de una variable que se distribua originalmente de forma normal. Generalmente, el coeficiente de correlacin biserial se expresa por rb. Por variables dicotomizadas entendemos aquellas variables que pueden presentar ms de dos modalidades, por lo menos tres, pero han sido transforma das en variables dicotmicas. As, por ejemplo, las variables rendimiento acadmico (aprobadosuspenso), asistencia (alta-baja), satisfaccin (satisfecho-insatisfecho), nmero de hijos (por encima de tres-tres o menos)... son ejemplos de variables dicotomizadas. El coeficiente rb no es aplicacin directa de rxy, sino una estimacin del valor de ste en el caso en que la segunda variable no hubiera sido dicotomizada y la relacin entre ellas fuera lineal. El clculo de este coeficiente para determinar la relacin entre dos variables X e Y, de las cuales la primera est medida en una escala de intervalos y la segunda ha sido dicotomizada, se realiza siguiendo cualquiera de estas expresiones equivalentes: X a q. a a

IESFROSUR

Pgina 76

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

donde los valores tienen el mismo significado que en el coeficiente de correlacin biserial puntual revisado en el apartado anterior. El valor de y es la ordenada correspondiente a un valor de z que deja a derecha e izquierda, en una distribucin normal, sendas proporciones del rea bajo la curva iguales a p y q respectivamente (ver figura 1).

Figura I: Ordenada correspondiente a un valor de z en la curva normal El valor de las expresiones p/y o pq/y no es necesario que sea calculado, puesto que nos lo suelen proporcionar tablas construidas para la curva normal (vanse, por ejemplo, Amn, 1986:372-373 Glass y Stanley, 1980:511-517). Ejemplo 4 Al analizar el contexto familiar en el que se desarrolla el estudio de los alumnos de un aula de Educacin Secundaria, se han recogido datos para una serie de variables, entre las que se encuentran la dedicacin al estudio -variable X- (n de horas semanales) y el tamao de la familia -variable Y-, consignando si sta consta de ms de cuatro miembros (modalidad 1) o de cuatro miembros o menos (modalidad 0). A partir de los datos obtenidos (ver tabla 6) determinar la correlacin existente entre ambas variables. Tabla 6: Datos correspondientes al ejemplo 8.4 x 9 3 2 8 8 7 1 1 2 6 4 8 y 1 0 0 1 1 1 0 0 0 1 0 1

3 0

7 1

7 1

5 0

6 0

8 1

9 1

9 1

4 0

4 0

Comenzaremos calculando la proporcin de individuos que proceden de familias con cuatro o menos miembros (p) y la de sujetos de familias con ms de cuatro miembros (q). p = 11/22 = 0.5 q = 11/22 = 0.5 Precisaremos adems la media de la variable X, la media de esta variable para los individuos de familias con tamao pequeo y la desviacin tpica para X.

IESFROSUR

Pgina 77

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Con estos valores, y consultando una tabla de ordenadas para los valores z en la curva normal, tendremos:

El valor de la correlacin es -1.1. El signo negativo indica que a puntuaciones altas en la variable X corresponde en la variable Y la modalidad cuya proporcin es q. Por tanto, los alumnos con elevada dedicacin al estudio suelen ser los que proceden de familias con ms de cuatro miembros. Propiedades a) Si aplicamos a unos mismos datos los coeficientes rbp y rb, obtendremos en el segundo caso un valor en trminos absolutos ms elevado. Es decir, se cumple |rbp| < |rb|. b) El coeficiente rb no siempre est comprendido entre los valores -1 y 1, sino que puede ser mayor que 1 menor que -1. c) Un coeficiente de correlacin positivo indicar que a puntuaciones altas de corresponde pertenecer a la categora cuya proporcin es p, mientras que puntuaciones bajas de X corresponde pertenecer a la categora cuya proporcin es Un coeficiente negativo deber ser interpretado en sentido contrario, es decir, puntuaciones altas de X correspondera la categora cuya proporcin es q, y puntuaciones bajas aqulla cuya proporcin es p. COEFICIENTE DE CORRELACIN PHI El coeficiente de correlacin phi, expresado por la letra griega , se emplea cuando nos encontramos ante dos variables dicotmicas, es decir, variables para las cuales slo es posible considerar dos modalidades. El coeficiente de correlacin es el resultado de aplicar rxy a los valores correspondientes a dos variables de este tipo. Si asignamos los valores 0 y 1 a cada una de las dos modalidades de la variables dicotmicas X e Y, podremos construir una tabla (tabla 6), en la que quede reflejada la distribucin conjunta de frecuencias para las dos variables. Tabla 6: Tabla de contingencia para variables dicotmicas X 0 1 Y 1 a b 0 c d X a q. a a

IESFROSUR

Pgina 78

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

A partir de los valores a, b, c y d, que representan la frecuencia en cada una de las celdillas de la tabla, es posible calcular el coeficiente . Basta aplicar la siguiente frmula:

Ejemplo 5 De un grupo de 200 estudiantes universitarios que han pasado una prueba objetiva, se sabe que 140 han acertado el tem 34. Se sabe adems que 30 varones han fallado, del grupo total de 80 varones. Determina el valor de la relacin entre el sexo y el nmero de aciertos al tem 34. Consideraremos de una parte la variable sexo, con los valores 0 (hombre) y 1 (mujer), y de otra el resultado de la respuesta al tem, con los valores 0 (error) y 1 (acierto). La tabla de contingencia con la que trabajamos puede completarse a partir de la informacin del enunciado (ver tabla 7). Tabla 7: Tabla de contingencia correspondiente al ejemplo 8.5 tem 34 0 1 Sexo 1 30 90 120 0 30 50 80 60 140 200 Conociendo todos los valores de las celdas, podemos aplicar la frmula del coeficiente :

El valor resultante no es muy elevado. El signo de la correlacin indicara que la tendencia observada es la asociacin entre las modalidades 0 de cada variable y entre las modalidades 1. As, acertar el tem se asociara a las mujeres y errarlo a los hombres

IESFROSUR

Pgina 79

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Propiedades a) El coeficiente es un caso particular de rxy, puesto que se calcula a partir de ste, por aplicacin del coeficiente de Pearson a una serie de valores de carcter dicotmico. b) El coeficiente de correlacin se encuentra comprendido entre los valores -1 y 1. Es decir, -1 < < 1. Este coeficiente de correlacin ser positivo cuando cb sea mayor que ad. En este caso, existe una relacin entre las dos variables en el sentido de que los sujetos que presentan el valor 0 en la variable X tienden a presentar el valor 0 tambin en Y, y sujetos que presentan el valor 1 en X tienden al valor 1 en la variable Y. Por el contrario, el coeficiente ser negativo cuando cb sea menor que ad. En tal situacin, predominan los sujetos situados en las casillas correspondientes a las frecuencias a y d. Es decir, existe relacin entre presentar el valor 0 en X y presentar el valor 1 en Y. De forma recproca, existe relacin entre presentar el valor 1 en X y el valor 0 en la variable Y. c) El valor de ser 1 cuando todos los sujetos que presentan la modalidad 1 en X presentan la modalidad 1 en Y, y todos los sujetos con 0 en X obtienen 0 en Y. El valor de ser -1 cuando todos los sujetos que presentan la modalidad 1 en X presentan la modalidad 0 en Y, y todos los sujetos con 0 en X obtienen 1 en Y (ver tabla 8). Tabla 8: Clculo de con casillas vacas en diagonales X 0 1 Y 1 Y 1 0 b b 0 0 c 0 c c b

X 0 a 0 a

1 0 d d

a d

A partir de los valores de la tabla 8, calcularemos el coeficiente cp para el caso en que las diagonales presentan frecuencia nula.

d) Si calculamos el valor de 2 para una tabla de contingencia de dos filas por dos columnas, se cumple la equivalencia:

IESFROSUR

Pgina 80

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

COEFICIENTE DE CORRELACIN TETRACRICA El coeficiente de correlacin tetracrica, expresado por rt, se utiliza cuando las variables con las que trabajamos han sido dicotomizadas de manera artificial. Es ms apropiado emplear el coeficiente cuando las variables son estrictamente dicotmicas, y recurrir a rt cuando las variables, siendo original mente continuas, aparecen dicotomizadas. El coeficiente rt no es aplicacin directa de rxy, sino una estimacin del valor de ste en el caso en que las dos variables no hubieran sido dicotomizadas y la relacin entre ellas fuera lineal. Se demuestra que el valor de rt, viene dado por un complejo desarrollo en serie de potencias de rt, que eludiremos presentar aqu. Sin embargo, como va alternativa, el clculo se ve enormemente facilitado por el uso de tablas que permiten encontrar el valor de rt en funcin de las frecuencias alcanzadas para cada par de modalidades posibles. Veamos cmo se procede al calcular el valor de este coeficiente. Si la distribucin conjunta de frecuencias correspondiente a las variables X e Y es la que aparece en la tabla 9, obtenemos en primer lugar los productos ad y cb comparndolos entre s, y construimos un cociente en el que el mayor de estos productos aparezca en el numerador: si ad > cb, calculamos el cociente ad/cb. si ad < cb, calculamos el cociente cb/ad. Tabla 9: Tabla para el clculo de rt X 0 1 Y 1 a b 0 c d El valor obtenido para este cociente puede ser trasladado a la tabla 11 para determinar el coeficiente de correlacin tctracrica que le corresponde. Conocido el valor de r t, asignamos el signo con el siguiente criterio: Si ad > cb, el coeficiente rt es negativo. Si ad < cb, el coeficiente rt es positivo.

IESFROSUR

Pgina 81

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Ejemplo 6 Las calificaciones obtenidas por los alumnos de un curso de Estadstica (variable X) y su grado de cumplimiento con las tareas desarrolladas durante el curso (variable Y) han sido dicotomizadas del modo que muestra la tabla 10. Determinar la correlacin existente entre ambas variables. Tabla 10: Datos correspondientes al ejemplo 8.6 Desarrollo de tareas (Y) Bajo(0) Alto(1) Calificaciones (X) Aprobado (1) 2 10 Suspenso (0) 7 4

Puesto que ad = 8 y cb = 70, se cumple que cb > ad, luego vamos a obtener un coeficiente de correlacin positivo. Calculamos el cociente cb/ad:

Consultando la tabla 11, encontramos que 8.75 se encuentra comprendido en el intervalo [8.500, 8.910], por lo que el coeficiente de correlacin tetracrica valdr en este caso rt = 0.70. Un coeficiente positivo, como el que hemos obtenido, indica que a valores 1 de la variable X corresponden predominantemente valores 1 en la variable Y, y a valores 0 en X corresponden valores 0 en Y. Es decir, al aprobado corresponde un desarrollo alto de tareas, mientras que el suspenso se asocia a un nivel bajo en el desarrollo de tareas.

IESFROSUR

Pgina 82

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Tabla 11: Coeficiente de correlacin tetracrica en funcin de las frecuencias

Propiedades a) El coeficiente rt puede valer ms que 1 menos que -1. Este coeficiente de correlacin ser positivo cuando cb sea mayor que ad. En tal caso, existe una relacin entre las dos variables en el sentido de que los sujetos que presentan el valor 0 en la variable X tienden a presentar el valor 0 tambin en Y, y sujetos que presentan el valor 1 en X tienden al valor 1 en Y. Por el contrario, el coeficiente ser negativo cuando cb sea menor que ad. En tal situacin, predominan los sujetos situados en las casillas correspondientes a las frecuencias a y d. Es decir, existe relacin entre presentar el valor 0 en X y presentar el valor 1 en Y. De forma recproca, existe relacin entre presentar el valor 1 en X y cl valor 0 en Y. b) Si una de las cuatro frecuencias de la tabla de distribucin conjunta es nula, el coeficiente de correlacin tetracrica tendr un valor rt = l rt = -l. Si a d adoptan el valor 0, tendremos que en cb/ad, el denominador es 0, y por tanto el cociente tiende a infinito. La tabla 11 asigna, en este caso, un coeficiente r t = l. Si b c adoptan el valor 0, tendremos que en ad/cb, el denominador se hace 0, y consecuentemente el cociente tiende a infinito. La tabla 11 asigna ahora un coeficiente rt=-l. IESFROSUR Pgina 83

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

c) Para un mismo conjunto de datos, se cumple que rt vale aproximadamente (3/2). Esta aproximacin es tanto mejor cuanto ms prximos se encuentren a la mediana los puntos de dicotomizacin de ambas variables y cuando rt es menor o igual a 0.50. TRATAMIENTO INFORMTICO DE LAS CORRELACIONES El programa estadstico SPSS, permite el clculo de la mayora de los coeficientes de correlacin que aqu hemos revisado. La obtencin de coeficientes que son aplicacin directa de rx , tales como rs, rbp o cp, conducira a salidas del mismo tipo de las que ya comentbamos en el captulo anterior para el caso de la correlacin de Pearson. Nos ocuparemos ahora de revisar el tipo de salidas a las que llegaramos cuando solicitamos del programa el clculo del coeficiente de contingencia C. Retomaremos un ejemplo anterior, en el que pretendamos determinar la relacin existente entre dos variables nominales: sexo (variable X) y especialidad de Magisterio cursada (variable Y). Tras introducir los datos y requerir del programa el clculo de C, obtendremos una salida como la mostrada en la tabla 12. Tabla 12: Coeficiente de contingencia C

En esta salida, la tabla de contingencia construida incluye tanto las frecuencias observadas (parte superior de cada celda) como las frecuencias tericas (parte inferior de la celda). Aparecen adems las frecuencias marginales para filas (Row) y columnas (Column) y los porcentajes que stas representan respecto al total de sujetos (Total). El valor de chi-cuadrado (Peatson) es de 22.006. A partir de este valor, se ha calculado el coeficiente de contingencia C = 0.24355. Junto a estos valores, aparece el grado de significacin de los mismos, que carecen de inters desde el punto de vista descriptivo en el que por ahora nos movemos. Otro dato interesante de la salida es la frecuencia esperada mnima (Minimum Expected Frequency), que es de 24.499. Recurdese que si en alguna de las celdas la frecuencia esperada estuviera por debajo de 1, no sera adecuado utilizar este coeficiente. En caso de que la menor frecuencia esperada estuviera por debajo de 5, se nos indicara tambin el porcentaje de celdas con fe inferior a este valor, que para permitir una correcta aplicacin de C no debera sobrepasar el 20% del total de celdas.

IESFROSUR

Pgina 84

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

Ejercicios 1. Los 12 alumnos de un aula unitaria asisten a una exposicin sobre la conservacin del medio ambiente. Antes de realizar la visita se les ha pedido que marcaran en una escala de 0 a 10 su alteres por asistir a la exposicin. Tambin conocemos la edad para cada alumno A partir de los datos recogidos determina la relacin existente entre el inters por la actividad y la edad de los alumnos (considrese que en sentido estricto, la edad medida en aos no puede considerarse ms que una medida en escala ordinal). Inters Edad 7 15 4 12 6 14 5 14 8 15 9 14 2 11 3 11 4 13 2 11 5 12 6 14 2. Los profesores de una academia para la preparacin de oposiciones a determinado cuerpo de funcionarios del Estado afirman que los opositores asistentes al curso de formacin impartido por ellos suelen superar la prueba selectiva a la que se presentan. Sabemos que en las ltimas oposiciones celebradas, a las que se presentaron un total de 364 candidatos, acudieron 87 alumnos de la academia y que entre los 60 aptos haba 35 que haban seguido el curso de formacin en la academia. Determina la relacin que existe entre la asistencia al curso de formacin y el resultado logrado en las oposiciones. 3. El orientador de un centro ha recogido datos sobre el domicilio de los alumnos, clasificado en tres zonas diferentes (A, B y C) y el tipo de estudios de sus padres, clasificado tambin en tres grupos (sin estudios, estudios primarios y estudios superiores). Si los datos obtenidos son los siguientes, determina la relacin existente entre el domicilio de los alumnos y el tipo de estudios de sus padres. Domicilio por zonas A B 60 80 40 20 100 120

Estudios de los Sin estudios padres Primarios Superiores

C 40 60 10

IESFROSUR

Pgina 85

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

4. El coordinador de las Escuelas Deportivas Municipales de una determinada localidad desea conocer si existe relacin entre el hecho de vivir en una de las dos zonas bien diferenciadas que existen en la localidad (zonas norte y sur) y las preferencias deportivas (balonmano, voleibol, baloncesto y ftbol). Para ello dispone de los datos pertenecientes a la ltima temporada, que son los que se presentan a continuacin. Existe relacin entre las dos variables consideradas? Balonmano 5 45 Voleibol 10 30 Baloncesto 35 15 Ftbol 50 10

Zona Norte Zona Sur

5. Un grupo de 8 alumnos ha sido ordenado de acuerdo con su puntualidad y su grado de atencin a las clases en una disciplina acadmica. Teniendo en cuenta el orden que ocupan los alumnos en cada variable, determina el valor de la relacin existente entre puntualidad y atencin. Puntualidad 2 5 3 4 1 7 6 8 Atencin 1 3 4 2 5 8 6 7

6. Una profesora de Educacin Infantil considera que el cansancio de los alumnos durante la jornada escolar est relacionado con el tipo de alimentacin que tos alumnos toman en su desayuno. Para aportar pruebas que refuercen esta afirmacin, la profesora ha observado y registrado el orden en que sus 18 alumnos comienzan a mostrar sntomas de fatiga, de tal manera que el primero es quien antes mostr cansancio, el segundo fue el siguiente en manifestar fatiga, y as sucesivamente. Con posterioridad ha preguntado a los alumnos la composicin de su desayuno y ha determinado el valor calrico (expresado en kilocaloras) de los alimentos consumidos por cada uno de ellos. Teniendo en cuenta los datos recogidos, establece la relacin existente entre cansancio y valor calrico de la alimentacin de los alumnos. Fatiga 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Kcal. 75 65 58 56 47 63 66 69 71 53 65 66 73 59 75 78 67 79 7. El director de un centro de educacin superior donde se cursan estudios dirigidos a la obtencin de titulaciones de carcter cientfico, pretende derribar el mito de que los hombres logran mejores resultados en los estudios de ciencias. Para ello recoge informacin sobre el sexo de los repetidores de primer curso, encontrando que de un total de 648 alumnos 259 son mujeres, y que a ste sexo pertenecen 50 de los 126 repetidores. Existe relacin entre xito acadmico y sexo?

IESFROSUR

Pgina 86

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

8. Para comprobar la utilidad de la estimulacin precoz de cara a la adquisicin de determinadas conductas motoras por parte de los nios se ha llevado a cabo un estudio con 46 nios, de los cuales 20 han seguido un programa de estimulacin precoz y 26 no lo han seguido. Al cumplir un ao, 7 de los nios que siguieron el programa eran capaces de caminar sin ayudas, mientras que entre los que no siguieron el programa slo 13 eran capaces de ejecutar esta conducta. Qu relacin existe entre la realizacin o no del programa y la capacidad de caminar al cumplir el ao de vida?

IESFROSUR

Pgina 87