Fundamentos de La Estadistica - Pablo Cazau

Fundamentos de Estadstica Pablo Cazau
Prefacio Captulo 1: Introduccin a la estadstica 1.1 Definicin y utilidad de la estadstica 1.2 Clasificaciones de la estadstica 1.3 Poblacin y muestra 1.4 Estructura del dato 1.5 La medicin Captulo 2: Estadstica descriptiva 2.1 Generalidades 2.2 Ordenamiento y agrupacin de los datos: matrices y tablas 2.3 Visualizacin de los datos: grficos 2.4 Sntesis de los datos: medidas estadsticas de posicin 2.5 Sntesis de los datos: medidas estadsticas de dispersin 2.6 Sntesis de los datos: asimetra y curtosis Notas Captulo 3: Probabilidad y curva normal 3.1 El concepto de probabilidad 3.2 Definicin y caractersticas de la curva normal 3.3 Puntajes brutos y puntajes estandarizados 3.4 Aplicaciones de la curva normal Notas Captulo 4: Correlacin y regresin 4.1 Introduccin 4.2 El anlisis de correlacin 4.3 Clculo grfico de la correlacin 4.4 Clculo analtico de la correlacin 4.5 Un ejemplo: construccin y validacin de tests 4.6 El anlisis de regresin 4.7 Clculo analtico de la regresin 4.8 Clculo grfico de la correlacin Notas Captulo 5: Estadstica inferencial 5.1 Introduccin 5.2 Estimacin de parmetros 5.3 Prueba de hiptesis 5.4 Ejemplos de pruebas de hiptesis 5.5 El concepto de significacin estadstica Notas Referencias bibliogrficas Otras fuentes consultadas Anexos ANEXO 1: NOMENCLATURA UTILIZADA EN ESTA GUA ANEXO 2: TABLA DE REAS BAJO LA CURVA NORMAL ESTANDARIZADA
Tabla 1 reas desde z hacia la izquierda Tabla 2 reas desde z = 0 hacia la izquierda o hacia la derecha
ANEXO 3: TABLA DE LA DISTRIBUCIN t
Fundamentos de estadstica
Pablo Cazau
PREFACIO
El presente texto fue pensado como un manual de consulta para alumnos de diversas carreras universitarias de grado y posgrado que cursan asignaturas donde se ensea la estadstica como herramienta de la metodologa de la investigacin cientfica. Se brinda aqu un panorama general e introductorio de los principales temas de una disciplina que opera en dos grandes etapas: la estadstica descriptiva y la estadstica inferencial. Tambin se desarrollan los conceptos de probabilidad y curva normal, bsicos para la comprensin de la estadstica inferencial, y los conceptos de correlacin y regresin vinculados, respectivamente, con las etapas descriptiva e inferencial.
Pablo Cazau. Licenciado en Psicologa y Profesor de Enseanza Media y Superior en Psicologa (UBA). Buenos Aires, Enero 2006.
Todos los derechos reservados
CAPTULO 1: INTRODUCCION A LA ESTADISTICA 1.1 DEFINICIN Y UTILIDAD DE LA ESTADSTICA La Estadstica es una disciplina que utiliza recursos matemticos para organizar y resumir una gran cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos. Por ejemplo, la estadstica interviene cuando se quiere conocer el estado sanitario de un pas, a travs de ciertos parmetros como la tasa de morbilidad o mortalidad de la poblacin. En este caso la estadstica describe la muestra en trminos de datos organizados y resumidos, y luego infiere conclusiones respecto de la poblacin. Por ejemplo, aplicada a la investigacin cientfica, hace inferencias cuando emplea medios matemticos para establecer si una hiptesis debe o no ser rechazada. La estadstica puede aplicarse a cualquier mbito de la realidad, y por ello es utilizada en fsica, qumica, biologa, medicina, astronoma, psicologa, sociologa, lingstica, demografa, etc. Cuando en cualquiera de estas disciplinas se trata de establecer si una hiptesis debe o no ser rechazada, no siempre es indispensable la estadstica inferencial. Por ejemplo, si sobre 60 veces que se mira un dado, sale un dos 10 veces, no se requiere la estadstica para rechazar la hiptesis el dado est cargado. Si sale un dos en 58 ocasiones sobre 60, tampoco se necesita la estadstica para aceptar la hiptesis el dado est cargado. Pero, qu ocurre si el nmero dos sale 20, 25 o 30 veces? En estos casos de duda, la estadstica interviene para determinar hasta qu cantidad de veces se considerar rechazada la hiptesis (o bien desde qu cantidad de veces se la considerar aceptada). En otras palabras, la estadstica interviene cuando debe determinarse si los datos obtenidos son debidos al azar o son el resultado de un dado cargado. Otro ejemplo. Si una persona adivina el color (rojo o negro) de las cartas en un 50% de los casos, se puede rechazar la hiptesis la persona es adivina. Si, en cambio, acierta en el 99% de los casos el color de las cartas, se puede aceptar la mencionada hiptesis. Los casos de duda corresponden a porcentajes de acierto intermedios, como el 60%, el 70%, etc., en cuyos casos debe intervenir la estadstica para despejarlos. La importancia de la estadstica en la investigacin cientfica radica en que la gran mayora de las investigaciones son casos de duda. 1.2 CLASIFICACIONES DE LA ESTADSTICA Existen varias formas de clasificar los estudios estadsticos. 1) Segn la etapa.- Hay una estadstica descriptiva y una estadstica inferencial. La primera etapa se ocupa de describir la muestra, y la segunda etapa infiere conclusiones a partir de los datos que describen la muestra (por ejemplo, conclusiones con respecto a la poblacin). Tanto la estadstica descriptiva como la estadstica inferencial se ocupan de obtener datos nuevos. La diferencia radica en que la estadstica descriptiva procede a resumir y organizar esos datos para facilitar su anlisis e interpretacin, y la estadstica inferencial procede a formular estimaciones y probar hiptesis acerca de la poblacin a partir de esos datos resumidos y obtenidos de la muestra. Puesto que estas ltimas operaciones llevarn siempre a conclusiones que tienen algn grado de probabilidad, la teora de la probabilidad constituye una de sus herramientas principales. Tngase presente que en s misma la teora de la probabilidad no forma parte de la estadstica porque es otra rama diferente de la matemtica, pero es utilizada por la estadstica como instrumento para lograr sus propios objetivos. La estadstica descriptiva tambin incluye explcita o implcitamente- consideraciones probabilsticas, aunque no resultan ser tan importantes como en la estadstica inferencial. Por ejemplo, la eleccin de un determinado estadstico para caracterizar una muestra (modo, mediana o media aritmtica) se funda sobre ciertas consideraciones implcitas acerca de cul de ellos tiene ms probabilidades de representar significativamente el conjunto de los datos que se intenta resumir. Tanto la estadstica descriptiva como la inferencial implican, entonces, el anlisis de datos. Si se realiza un anlisis con el fin de describir o caracterizar los datos que han sido reunidos, entonces estamos en el rea de la estadstica descriptiva Por otro lado, la estadstica inferencial no se refiere a la simple descripcin de los datos obtenidos, sino que abarca las tcnicas que nos permiten utilizar los datos muestrales para inferir u obtener conclusiones sobre las poblaciones de las cuales fueron extrados dichos datos (Pagano, 1998:19). Kohan, por su parte, sintetiza as su visin de las diferencias entre ambos tipos de estadstica: Si estudiamos una caracterstica de un grupo, sea en una poblacin o en una muestra, por ejemplo talla, peso, edad, cociente intelectual, ingreso mensual, etc, y lo describimos sin sacar de ello conclusiones estamos en la etapa de la estadstica descriptiva. Si estudiamos en una muestra una caracterstica cualquiera e inferimos, a partir de los resultados obtenidos en la muestra, conclusiones sobre la poblacin correspondiente, estamos haciendo estadstica inductiva o inferencial, y como estas inferencias no pueden ser exactamente ciertas, aplicamos el lenguaje probabilstico para sacar las conclusiones (Kohan, 1994:25). Kohan emplea la palabra inductiva porque las inferencias realizadas en este tipo de estadstica son razonamientos inductivos, modernamente definidos como razonamientos cuya conclusin es slo probable.
2) Segn la cantidad de variables estudiada.- Desde este punto de vista hay una estadstica univariada (estudia una sola variable, como por ejemplo la inteligencia), una estadstica bivariada (estudia la relacin entre dos variables, como por ejemplo inteligencia y alimentacin), y una estadstica multivariada (estudia tres o ms variables, como por ejemplo como estn relacionados el sexo, la edad y la alimentacin con la inteligencia). El siguiente esquema ilustra la relacin entre dos clasificaciones de la estadstica: descriptiva / inferencial y univariada / bivariada.
Parmetros
POBLACION
x y
Estadsticos
x y
MUESTRA
x1 x2 xn
Una variable
x1
y1
Dos (o ms) variables
La estadstica descriptiva se ocupa de muestras, y la estadstica inferencial infiere caractersticas de la poblacin a partir de muestras. A su vez, ambas etapas de la estadstica pueden estudiar una variable por vez o la relacin entre dos o ms variables. Por ejemplo, a) en el caso de la estadstica univariada, el clculo de medidas de posicin y dispersin en una muestra corresponde a la estadstica descriptiva, mientras que la prueba de la media corresponde a la estadstica inferencial; b) en el caso de la estadstica bivariada, el anlisis de correlacin de variables en una muestra corresponde estrictamente hablando a la estadstica descriptiva, mientras que el anlisis de regresin o las pruebas de hiptesis para coeficientes de correlacin (Kohan N, 1994:234) corresponden a la estadstica inferencial. 3) Segn el tiempo considerado.- Si se considera a la estadstica descriptiva, se distingue la estadstica esttica o estructural, que describe la poblacin en un momento dado (por ejemplo la tasa de nacimientos en determinado censo), y la estadstica dinmica o evolutiva, que describe como va cambiando la poblacin en el tiempo (por ejemplo el aumento anual en la tasa de nacimientos). 1.3 POBLACIN Y MUESTRA Puesto que la estadstica se ocupa de una gran cantidad de datos, debe primeramente definir de cules datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado estudio estadstico se llama poblacin. No debe confundirse la poblacin en sentido demogrfico y la poblacin en sentido estadstico. La poblacin en sentido demogrfico es un conjunto de individuos (todos los habitantes de un pas, todas las ratas de una ciudad), mientras que una poblacin en sentido estadstico es un conjunto de datos referidos a determinada caracterstica o atributo de los individuos (las edades de todos los individuos de un pas, el color de todas las ratas de una ciudad). Incluso una poblacin en sentido estadstico no tiene porqu referirse a muchos individuos. Una poblacin estadstica puede ser tambin el conjunto de calificaciones obtenidas por un individuo a lo largo de sus estudios universitarios. En el siguiente esquema pueden apreciarse algunas formas de considerar los datos individuales, segn que correspondan a muchas personas o a una sola, y tambin segn que hayan sido recolectados en un instante de tiempo determinado, o bien a lo largo del tiempo. De muchos individuos Notas de todos los alumnos en el primer parcial de tal mes y tal ao. De un solo individuo Notas de un solo alumno en el primer parcial de las materias que
En un instante de tiempo
A lo largo del tiempo
Notas de todos los alumnos durante los 6 aos de carrera.
cursa en ese momento. Notas de un alumno a lo largo de los 6 aos de carrera.
Los datos de la totalidad de una poblacin pueden obtenerse a travs de un censo. Sin embargo, en la mayora de los casos no es posible hacerlo por razones de esfuerzo, tiempo y dinero, razn por la cual se extrae, de la poblacin, una muestra, mediante un procedimiento llamado muestreo. Se llama muestra a un subconjunto de la poblacin, y que puede o no ser representativa de la misma. Por ejemplo, si la poblacin es el conjunto de todas las edades de los estudiantes de la provincia de Buenos Aires, una muestra podra ser el conjunto de edades de 2000 estudiantes de la provincia de Buenos Aires tomados al azar. 1.4 ESTRUCTURA DEL DATO Los datos son la materia prima con que trabaja la estadstica, del mismo modo que la madera es la materia prima con que trabaja el carpintero. As como este procesa o transforma la madera para obtener un producto til, as tambin el estadstico procesa o transforma los datos para obtener informacin til. Tanto los datos como la madera no se inventan: se extraen de la realidad; en todo caso el secreto est en recoger la madera o los datos ms adecuados a los objetivos del trabajo a realizar. De una manera general, puede definirse tcnicamente dato como una categora asignada a una variable de una unidad de anlisis. Por ejemplo, Luis tiene 1.70 metros de estatura es un dato, donde Luis es la unidad de anlisis, estatura es la variable, y 1.70 metros es la categora asignada. Como puede apreciarse, todo dato tienen al menos tres componentes: una unidad de anlisis, una variable y una categora. La unidad de anlisis es el elemento del cual se predica una propiedad y caracterstica. Puede ser una persona, una familia, un animal, una sustancia qumica, o un objeto como una dentadura o una mesa. La variable es la caracterstica, propiedad o atributo que se predica de la unidad de anlisis. Por ejemplo puede ser la edad para una persona, el grado de cohesin para una familia, el nivel de aprendizaje alcanzado para un animal, el peso especfico para una sustancia qumica, el nivel de salud para una dentadura, y el tamao para una mesa. Pueden entonces tambin definirse poblacin estadstica (o simplemente poblacin) como el conjunto de datos acerca de unidades de anlisis (individuos, objetos) en relacin a una misma caracterstica, propiedad o atributo (variable). Sobre una misma poblacin demogrfica pueden definirse varias poblaciones de datos, una para cada variable. Por ejemplo, en el conjunto de habitantes de un pas (poblacin demogrfica), puede definirse una poblacin referida a la variable edad (el conjunto de edades de los habitantes), a la variable ocupacin (el conjunto de ocupaciones de los habitantes), a la variable sexo (el conjunto de condiciones de sexo de los habitantes). La categora es cada una de las posibles variaciones de una variable. Categoras de la variable sexo son masculino y femenino, de la variable ocupacin pueden ser arquitecto, mdico, etc, y de la variable edad pueden ser 10 aos, 11 aos, etc. Cuando la variable se mide cuantitativamente, es decir cuando se expresa numricamente, a la categora suele llamrsela valor. En estos casos, el dato incluye tambin una unidad de medida, como por ejemplo aos, cantidad de hijos, grados de temperatura, cantidad de piezas dentarias, centmetros, etc. El valor es, entonces, cada una de las posibles variaciones de una variable cuantitativa. Datos individuales y datos estadsticos.- Un dato individual es un dato de un solo individuo, mientras que un dato estadstico es un dato de una muestra o de una poblacin en su conjunto. Por ejemplo, la edad de Juan es un dato individual, mientras que el promedio de edades de una muestra o poblacin de personas es un dato estadstico. Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede ser 37 aos, y el promedio de edades de la muestra donde est includo Juan es 23 aos. Por esta razn un dato estadstico nada dice respecto de los individuos, porque solamente describe la muestra o poblacin. Los datos estadsticos que describen una muestra suelen llamarse estadsticos (por ejemplo, el promedio de ingresos mensuales de las personas de una muestra), mientras que los datos estadsticos descriptores de una poblacin suelen llamarse parmetros (por ejemplo, el promedio de ingresos mensuales de las personas de una poblacin) (Kohan N, 1994:143). 1.5 LA MEDICIN Los datos se obtienen a travs un proceso llamado medicin. Desde este punto de vista, puede definirse medicin como el proceso por el cual asignamos una categora (o un valor) a una variable, para determinada unidad de anlisis. Ejemplo: cuando decimos que Martn es varn, estamos haciendo una medicin, porque estamos asignando una categora (varn) a una variable (sexo) para una unidad de anlisis (Martn).
A veces se ha definido medir como comparar, lo cual puede referirse a diversos tipos de comparacin: 1) comparar una cantidad con otra tomada como unidad Sentido clsico de comparacin); 2) comparar dos categoras de una misma variable en el mismo sujeto y distinto tiempo; 3) comparar dos categoras de una misma variable en distintos sujetos al mismo tiempo; y 4) categoras de variables distintas (debe usarse puntaje estandarizado), en el mismo sujeto o en sujetos distintos.
Se pueden hacer mediciones con mayor o menor grado de precisin. Cuanto ms precisa sea la medicin, ms informacin nos suministra sobre la variable y, por tanto, sobre la unidad de anlisis. No es lo mismo decir que una persona es alta, a decir que mide 1,83 metros. Los diferentes grados de precisin o de contenido informativo de una medicin se suelen caracterizar como niveles de medicin. Tpicamente se definen cuatro niveles de medicin, y en cada uno de ellos la obtencin del dato o resultado de la medicin ser diferente: Ejemplos de datos en diferentes niveles de medicin Nivel de medicin DATO Unidad de anlisis Variable Categora o valor Unidad de medida Nivel nominal Martn es electricista Martn Oficio Electricista ------------Nivel ordinal Elena termin la secundaria Elena Nivel de instruccin Secundaria completa -----------Nivel cuantitativo discreto Juan tiene 32 dientes Juan Cantidad de piezas dentarias 32 Diente Nivel cuantitativo continuo Mara tiene 70 pulsaciones por minuto Mara Frecuencia cardaca 70 Pulsaciones por minuto
En el nivel nominal, medir significa simplemente asignar un atributo a una unidad de anlisis (Martn es electricista). En el nivel ordinal, medir significa asignar un atributo a una unidad de anlisis cuyas categoras pueden ser ordenadas en una serie creciente o decreciente (la categora secundaria completa puede ordenarse en una serie, pues est entre secundaria incompleta y universitaria incompleta). En el nivel cuantitativo, medir significa adems asignar un atributo a una unidad de anlisis de modo tal que la categora asignada permita saber cunto mayor o menor es respecto de otra categora, es decir, especifica la distancia o intervalo entre categoras (por ejemplo, la categora 70 es el doble de la categora 35). Las variables medibles en el nivel cuantitativo pueden ser discretas o continuas. Una variable discreta es aquella en la cual, dados dos valores consecutivos, no puede adoptar ningn valor intermedio (por ejemplo entre 32 y 33 dientes, no puede hablarse de 32.5 dientes). En cambio, una variable es continua cuando, dados dos valores consecutivos, la variable puede adoptar muchos valores intermedios (por ejemplo entre 1 y 2 metros, puede haber muchas longitudes posibles). Algunas veces una misma variable puede ser considerada como discreta o continua. Por ejemplo, la variable peso es discreta si solamente interesan los pesos sin valores intermedios (50 kg, 51 kg, etc), mientras que ser continua si interesan tambin los valores intermedios (50,3 kg, 50,35 kg, 50,357 kg, etc). Obviamente, al considerar una variable como continua se obtendr mayor precisin, es decir, mayor informacin.
La precisin es una cualidad importante de la medicin. Se pueden hacer mediciones ms precisas y menos precisas, o tan precisas como lo permita el instrumento de medicin. El primer nivel de medicin es el menos preciso, y el ltimo el ms preciso. Por ejemplo, una mujer puede estar interesada en medir el amor de su pareja, para lo cual podr interrogarla solicitndole diferentes grados de precisin: me quers? (nivel nominal), me quers ms que a la otra? (nivel ordinal), Cunto me quers, del 1 al 10? (nivel cuantitativo). De la misma manera, diferentes grados de precisin para la variable temperatura pueden ser: A es un objeto caliente (nivel nominal), A es ms caliente que B (nivel ordinal), A tiene 25 grados Celsius (nivel cuantitativo). Los ejemplos del amor y de la temperatura ilustran tambin el hecho de que una variable puede en principio medirse en cualquiera de los niveles de medicin.
Los niveles de medicin pueden tambin ser clasificados de acuerdo a un criterio diferente, que afecta especficamente a los dos ltimos. As, los niveles de medicin pueden ser clasificados como nominal, ordinal, de intervalos iguales y de cocientes o razones. Ms all de sus diferentes propiedades matemticas, el nivel de intervalos iguales incluye un cero relativo o arbitrario, mientras que el nivel de cocientes o razones incluye un cero absoluto o real. Un cero absoluto o real representa la ausencia real de la variable (cero metros implica ausencia de longitud), mientras que un cero relativo o arbitrario no (cero grado centgrados no implica ausencia de temperatura).
Existen ciertas variables a las cuales no puede asignrsele un cero real, por cuanto no se considera que esa variable pueda estar ausente en la realidad. Tal es el caso de la ansiedad o la inteligencia: nadie, por menos ansioso o por menos inteligente que sea, puede tener ansiedad o inteligencia nulas. CAPTULO 2: ESTADSTICA DESCRIPTIVA 2.1 GENERALIDADES El propsito fundamental de la estadstica descriptiva es resumir y organizar una gran cantidad de datos referentes a una muestra (lo ms habitual) o a una poblacin. Se supone que los datos resumidos y organizados permiten describir adecuadamente la muestra o la poblacin a los efectos de conocerla y, eventualmente, utilizarlos en la estadstica inferencial para obtener conclusiones a partir de ellos. Para resumir y organizar los datos se utilizan diferentes procedimientos, llamados tcnicas descriptivas: la matriz de datos permite ordenarlos, las tablas de frecuencias (o tablas de distribucin de frecuencias) permiten agruparlos, los grficos permiten visualizarlos, y las medidas estadsticas y las medidas de asimetra y curtosis permiten resumirlos reducindolos a un solo dato. Secuencia para organizar y resumir datos individuales A medida que se van utilizando estos procedimientos, los datos van quedando cada vez ms resumidos y organizados. El empleo de dichos procedimientos propios de la estadstica descriptiva sigue un orden determinado, como puede apreciarse en el siguiente esquema:
DATOS ORDENADOS (matriz de datos)
DATOS RECOLECTADOS (entrevistas, cuestionarios, tests, etc)
DATOS AGRUPADOS POR FRECUENCIA (tabla de frecuencias)
DATOS AGRUPADOS POR INTERVALOS (tabla de frecuencias por intervalos)
DATOS VISUALIZADOS (grficos)
DATOS SINTETIZADOS (medidas estadsticas y medidas de asimetra y curtosis)
Como puede verse: a) Los datos quedan recolectados mediante entrevistas, cuestionarios, tests, etc. b) Los datos quedan ordenados mediante una matriz de datos (lo cual permite resumir la informacin en unas pocas pginas). c) Los datos quedan agrupados mediante tablas de frecuencias (lo cual permite resumir la informacin en una sola pgina). d) Los datos quedan visualizados mediante grficos. e) Los datos quedan sintetizados mediante las medidas estadsticas y otras (lo cual permite resumir la informacin en uno o dos renglones). Puede entonces decirse que, mediante una matriz de datos, una tabla de frecuencias (1), un grfico o con medidas estadsticas, etc, la muestra o la poblacin (conjuntos de datos) puede quedar adecuadamente descrita. Estas sucesivas abstracciones estadsticas implican: a) la reduccin del espacio fsico donde queda guardada la nueva informacin, y b) la desaparicin de considerable informacin irrelevante. Debe distinguirse el fin o propsito perseguido (por ejemplo ordenar los datos), del medio utilizado para ello, que e la tcnica descriptiva (por ejemplo, la matriz de datos). 2.2 ORDENAMIENTO Y AGRUPACIN DE LOS DATOS: MATRICES Y TABLAS Una vez que los datos han sido recolectados, se procede a continuacin a ordenarlos en una matriz de datos y luego a agruparlos en una tabla de frecuencias.
La forma de ordenarlos y agruparlos depender del tipo de variable considerada. Por ejemplo, si son datos relativos a variables cualitativas (niveles de medicin nominal y ordinal), no podremos utilizar tablas de frecuencias por intervalos. El siguiente cuadro indica de qu manera se pueden ordenar y agrupar los datos segn cada nivel de medicin de la variable: Ejemplos de organizacin de los datos segn el nivel de medicin Datos ordenados Nivel nominal (Ejemplo: variable religin) Matriz de datos Sujeto x (religin) Juan Catlica Pedro Catlica Mara Juda Antonio Protestante Luis Protestante Jos Protestante Datos agrupados por frecuencia Tabla de frecuencias x (religin) f Catlica 2 Juda 1 Protestante 3 n=6 f = frecuencia n = tamao de la muestra Tabla de frecuencias x (clase social) Alta Media Baja Datos agrupados por intervalos
Nivel ordinal (Ejemplo: variable clase social)
Matriz de datos Sujeto x (clase social) Juan Alta Pedro Media Mara Media Antonio Media Luis Baja Jos Baja
f 1 3 2 n=6
f = frecuencia n = tamao de la muestra
Nivel cuantitativo (Ejemplo: variable edad)
Matriz de datos Sujeto x (edad) Juan 15 Pedro 15 Mara 15 Antonio 16 Luis 16 Jos 16 Ana 16 Gabriela 16 Susana 17 Martn 17 Sergio 17 Pablo 17 Daniel 17 Graciela 17 Daniela 17 Beatriz 17 Oscar 18 Felipe 18 Alberto 18 Mnica 19 Marta 19 Mariana 20
Tabla de frecuencias x (edad) 15 16 17 18 19 20
f 3 5 8 3 2 1 n = 22
Tabla de frecuencias por intervalos x (edad) f 15-16 8 17-18 11 19-20 3 n = 22 f = frecuencia n = tamao de la muestra
f = frecuencia n = tamao de la muestra
Una vez confeccionada la matriz de datos, se procede luego a resumir an ms esta informacin mediante una tabla de frecuencias o, si cabe, en una tabla de frecuencias por intervalos. Una tabla de este ltimo tipo se justifica cuando la tabla de frecuencias original es demasiado grande y por tanto de difcil manejo para procesar la informacin. Sea de la forma que fuere, los datos ordenados segn sus frecuencias suelen denominarse distribucin de frecuencias (13). Las tablas de frecuencias contienen tres elementos importantes: las frecuencias, el tamao de la muestra y los intervalos (en este ltimo caso slo para variables cuantitativas).
a) Frecuencia.- La frecuencia (f) se define como la cantidad de datos iguales o que se repiten. Por ejemplo: la frecuencia 2 indica que el dato catlico se repite dos veces, la frecuencia 3 que el dato clase media se repite tres veces, y la frecuencia 8 que el dato 17 aos se repite ocho veces. A veces resulta necesario expresar las frecuencias de otra manera, como puede apreciarse en la siguiente tabla ilustrativa: Tipos de frecuencias que pueden indicarse en una tabla de frecuencias x (edad) 15 16 17 18 f 3 7 8 2 n = 20 f% 15% 35% 40% 10% n = 100% F 3 10 18 20 -----F% 15% 50% 90% 100% -----fr 0.15 0.35 0.40 0.10 n=1 Fr 0.15 0.50 0.90 1 ------
Frecuencia absoluta (f).- Es la cantidad de datos que se repiten. Por ejemplo, la frecuencia 3 indica que hay tres personas de 15 aos. La suma de todas las frecuencias absolutas equivale al tamao de la muestra. Frecuencia porcentual (f%).- Es el porcentaje de datos que se repiten. Por ejemplo, la frecuencia porcentual 15% indica que el 15% de la muestra tiene la edad de 15 aos. La suma de todas las frecuencias porcentuales es 100%. Frecuencia acumulada (F).- Es el resultado de haber sumado las frecuencias anteriores. Por ejemplo, la frecuencia acumulada 10 resulta de sumar 7+3, e indica la cantidad de veces que se repiten las edades 16 y 15. La ltima de todas las frecuencias acumuladas, que en el ejemplo es 20, debe coincidir con el tamao de la muestra. Frecuencia acumulada porcentual (F%).- Es el porcentaje de las frecuencias acumuladas. Frecuencia relativa (fr).- A veces tambin llamada proporcin, es el cociente entre la frecuencia de un dato x y la frecuencia total o tamao de la muestra. En la prctica, el tamao de la muestra se considera como 1, a diferencia del tamao de la muestra en la frecuencia porcentual, que se considera 100%. Frecuencia relativa acumulada (Fr).- Es el resultado de haber sumado las frecuencias relativas anteriores. Por ejemplo: la frecuencia relativa 0.90 indica que en 0.90 casos sobre 1 las edades estn comprendidas entre 15 y 17 aos. Frecuencias parciales y frecuencia total.- Tanto las frecuencias absolutas como las porcentuales o las relativas pueden ser frecuencias parciales o una frecuencia total, siendo sta ltima la suma de todas frecuencias parciales. Las frecuencias porcentuales y las frecuencias relativas comparan la frecuencia parcial con la frecuencia total, y sirven para establecer comparaciones entre muestras distintas. Por ejemplo, si en una muestra de 1000 hombres, solo votaron 200, y en una muestra de 600 mujeres solo votaron 200 mujeres, en trminos de frecuencias absolutas existe la misma cantidad de votantes masculinos y femeninos, es decir 200, pero en proporcin, las mujeres votaron ms (la tercera parte del total) que los hombres (la quinta parte del total). Esta informacin se obtiene al convertir las frecuencias absolutas en frecuencias porcentuales o en frecuencias relativas (o proporciones). 2) Tamao de la muestra.- Otro concepto importante es el tamao de la muestra (n), que designa la cantidad total de datos. Obviamente, la suma de todas las frecuencias f debe dar como resultado el tamao n de la muestra, por lo que el tamao de la muestra coincide con la frecuencia total. 3) Intervalos.- Un intervalo, tambin llamado intervalo de clase, es cada uno de los grupos de valores ubicados en una fila en una tabla de frecuencias. Por ejemplo el intervalo 15-16 significa que en esa fila se estn considerando las edades de 15 a 16 aos. La frecuencia correspondiente a un intervalo es igual a la suma de frecuencias de los valores en l includos (2). Los intervalos presentan algunas caractersticas, que son las siguientes: Tamao del intervalo (a).- Tambin llamado amplitud o anchura del intervalo, es la cantidad de valores de la variable que se consideran conjuntamente en ese intervalo. Por ejemplo, el intervalo 15-16 aos tiene una amplitud de 2, puesto que se consideran dos valores: 15 y 16. En otro ejemplo, el intervalo 2025 aos tiene una amplitud de 6, puesto que se consideran seis valores. En general, puede calcularse el tamao de un intervalo restando el lmite superior y el inferior y sumando al resultado el nmero 1. Por ejemplo, 25 menos 20 da 5, y sumndole 1 da 6. Los ejemplos indicados corresponden a variables discretas, lo que significa que no podrn encontrarse valores intermedios entre dos intervalos. Por ejemplo, entre los intervalos 15-16 y 17-18 no se encontrarn valores intermedios entre 16 y 17 aos. Tngase presente que: a) preferiblemente los intervalos deben tener un tamao constante, de manera tal que no se pueden considerar como intervalos 15-16 y 17-20, porque tienen diferentes tamaos; y b) los intervalos han de ser mutuamente excluyentes, de manera tal que cuando se trata de variables discretas, no pueden definirse los intervalos 15-16 y 16-17, porque el valor 16 aos est en ambos intervalos y no se podr saber con seguridad en qu intervalo ubicar dicho valor.
El problema se puede presentar con las variables continuas, donde, por definicin, podra aparecer algn valor intermedio entre dos intervalos. Por ejemplo, si se considera la variable continua ingresos mensuales y se consideran en ella los intervalos 1000-2000 dlares y 3000-4000 dlares, puede ocurrir que un dato obtenido de la realidad sea 2500 dlares, con lo cual no podr ser registrado en ningn intervalo. En tal caso se deberan reorganizar los intervalos como 1000-2999 dlares y 3000-4999 dlares, con lo cual el problema estara resuelto. Desde ya, puede ocurrir que aparezca un ingreso mensual de 2999,50 dlares, en cuyo caso en principio deberan reorganizarse nuevamente los intervalos como 1000-2999,50 dlares y 2999,51-4999 dlares. La forma de reorganizar los intervalos depender entonces del grado de precisin que pretenda el investigador o del grado de precisin del instrumento de medicin disponible. Lmites del intervalo.- Todo intervalo debe quedar definido por dos lmites: un lmite inferior y un lmite superior. Estos lmites, a su vez, pueden ser aparentes o reales (Pagano, 1998:38-39). Considrese el siguiente ejemplo: Lmites aparentes 95-99 90-94 85-89 80-84 75-79 Lmites reales 94.5-99.5 89.5-94.5 84.5-89.5 79.5-84.5 74.5-79.5
Si la variable considerada es discreta, carecer de sentido la distincin entre lmites reales o aparentes. Si se conviene que los valores que la variable puede adoptar son nmeros enteros, se considerarn solamente los intervalos 95-99, 90-94, etc. Estos intervalos son en rigor reales, porque expresan los valores reales que puedan haber, que no son fraccionarios. Slo en el caso de las variables continuas adquiere sentido la distincin entre lmites reales y aparentes. Si la variable es continua, deberan tenerse en cuenta los lmites reales. Por ejemplo, si un valor resulta ser 94.52, entonces ser ubicado en el intervalo 94.5-99.5. Sin embargo, an en estos casos, lo usual es omitir los lmites reales y presentar slo los lmites aparentes (Pagano, 1998:39). En todo caso, los lmites reales se utilizan a veces cuando se intenta transformar la tabla de frecuencias por intervalos en un grfico. En principio, en ningn caso deber haber una superposicin de valores, como en el caso de los intervalos 20-21 y 21-22, donde el valor 21 est includo en ambos intervalos, violndose as la regla de la mutua exclusin. Si acaso se presentara esta situacin, o bien podr ser adjudicada a un error del autor de la tabla, o bien deber traducrsela como 20-20.99 y 21-22.99. Punto medio del intervalo (xm).- Es el valor que resulta de la semisuma de los lmites superior e inferior, es decir, el punto medio del intervalo se calcula sumando ambos lmites y dividiendo el resultado por dos. Por ejemplo, el punto medio del intervalo 15-20 es 17.5. El punto medio del intervalo sirve para calcular la media aritmtica. Intervalos abiertos y cerrados.- Idealmente, todos los intervalos deberan ser cerrados, es decir, deberan estar especificados un lmite superior y uno inferior de manera definida. Sin embargo, en algunos casos se establecen tambin intervalos abiertos, donde uno de los lmites queda sin definir. En el siguiente ejemplo, 18 o menos y 29 o ms son intervalos abiertos. Obviamente, en este tipo de distribucin los intervalos dejan de ser de tamao constante. Intervalos 18 o menos 19-23 24-28 29 o ms Cantidad de intervalos.- La cantidad de intervalos es inversamente proporcional al tamao de los mismos: cuanto menor tamao tienen los intervalos, ms numerosos sern. El solo hecho de emplear intervalos supone una cierta prdida de la informacin. Por ejemplo, si se considera el intervalo 15-18 aos, quedar sin saber cuntas personas de 16 aos hay. Para reducir esta incertidumbre, podra establecerse un intervalo menor (15-16 aos), pero con ello habr aumentado la cantidad de intervalos hasta un punto donde la informacin se procesar de manera ms difcil. Consiguientemente, al agrupar los datos hay que resolver el dilema entre perder informacin y presentar los datos de manera sencilla (Pagano R, 1998:37) (Botella, 1993:54), es decir, encontrar el justo equilibrio entre el tamao de los intervalos y su cantidad. En la prctica, por lo general (Pagano, 1998:37) se consideran de 10 a 20 intervalos, ya que la experiencia indica que esa cantidad de intervalos funciona bien con la mayor parte de las distribuciones de datos (3). Se pueden sintetizar algunas reglas importantes para la construccin de intervalos de la siguiente manera:
a) Los intervalos deben ser mutuamente excluyentes. b) Cada intervalo debe incluir el mismo nmero de valores (constancia de tamao). c) La cantidad de intervalos debe ser exhaustiva (todos los valores deben poder ser includos en algn intervalo). d) El intervalo superior debe incluir el mayor valor observado (Botella, 1993:54). e) El intervalo inferior debe incluir al menor valor observado (Botella, 1993:54). f) En variables continuas, es aconsejable expresar los lmites aparentes de los intervalos, que los lmites reales. 2.3 VISUALIZACIN DE LOS DATOS: GRFICOS Una vez que los datos han sido organizados en tablas de frecuencias, es posible seguir avanzando organizndolos, desde all, de otras maneras diferentes y con distintos propsitos. Una de estas maneras es la utilizacin de representaciones grficas, algunas de las cuales son aptas para representar variables cualitativas (niveles nominal y ordinal) y otras para variables cuantitativas. Al tratarse de esquemas visuales, los grficos permiten apreciar de un golpe de vista l a informacin obtenida. Diagrama de tallo y hojas Esta tcnica de visualizacin de datos es aqu mencionada en primer lugar porque puede ser considerada un procedimiento intermedio entre la tabla de frecuencias y el grfico. Fue creada por Tukey en 1977 (citado por Botella, 1993:59) y presenta, entre otras, las siguientes ventajas: a) permite conocer cada puntuacin individual (a diferencia de la tabla de frecuencias por intervalos, donde desaparecen en ellos); y b) puede ser considerada un grfico si hacemos girar 90 el listado de puntuaciones o datos. A continuacin se describe la forma de construir un diagrama de tallo y hojas, tomando como ejemplo la siguiente distribucin de datos ordenados: 32-33-37-42-46-49-51-54-55-57-58-61-63-63-65-68-71-72-73-73-73-75-77-77-78-83-85-85-91-93 Tallo 3 4 5 6 7 8 9 Hojas 237 269 14578 13358 123335778 355 13 Procedimiento para realizar el diagrama de tallo y hojas a) Se construye una tabla como la de la izquierda con dos columnas: tallos y hojas. b) Se identifican cules son los valores extremos: 32 y 93. c) Se consideran los primeros dgitos de cada valor: 3 y 9. d) En la columna tallos se colocan los nmeros desde el 3 hasta el 9. e) En la columna hojas se colocan los segundos dgitos de cada valor que empiece con 3, con 4, con 5, etc.
Girando la tabla obtenida 90 hacia la izquierda, se obtendr algo similar a un grfico de barras, que muestra por ejemplo que la mayor concentracin de valores es la que comienza con 7. Una utilidad adicional del diagrama de tallo y hojas es que permite comparar visualmente dos variables, es decir, dos conjuntos de datos en los anlisis de correlacin, como puede apreciarse en el siguiente ejemplo: Hojas (Grupo control) 87655 44322110 876655 111000 Tallo 1 2 3 4 5 Hojas (Grupo experimental) 9 124 5667788899 00023344 555
Visualmente es posible darse una idea de los resultados del experimento: los datos del grupo experimental tienden a concentrarse en los valores altos, y los del grupo de control en los valores bajos. Pictograma Es una representacin grfica en la cual se utilizan dibujos. Por ejemplo, en el siguiente pictograma cada cara puede representar 100 personas:
Varones
Mujeres
100 personas
Sector circular Representacin grfica de forma circular donde cada porcin de la torta representa una frecuencia. Para confeccionarlo se parte de una tabla de frecuencias donde estn especificadas las frecuencias en grados (f), las cuales se calculan mediante una sencilla regla de tres simple a partir de las frecuencias absolutas (f). Por ejemplo, si 825 es a 360, entonces 310 es igual a 360 x 310 dividido por 825, lo cual da un resultado de 135. Por lo tanto, para representar la frecuencia 310 deber trazarse un ngulo de 135. Estos valores pueden verse en el ejemplo siguiente, donde se han representado dos sectores circulares distintos, uno para varones y otro para mujeres: x (patologa) Angina Bronquitis Sarampin Otras Total Sexo Varones 310 297 123 95 825 Mujeres 287 429 120 80 916 Total 597 726 243 175 1691 f (varones) 135 130 54 41 360 f (mujeres) 113 169 47 31 360
Bronquitis
Bronquitis
Angina Saram pin Otras Angina
Saram pin Otras
Varones
Mujeres
Para realizar estos sectores se traza un ngulo de por ejemplo 130 y dentro de coloca la palabra bronquitis, y as sucesivamente. El crculo para mujeres es algo mayor que el crculo para hombres, porque en la muestra hay ms mujeres que hombres. Para lograr estos tamaos debe calcularse el radio. Por ejemplo, si se ha elegido un radio masculino de 4 cm, el radio femenino puede calcularse mediante la frmula siguiente: El radio femenino es igual al radio masculino multiplicado por la raz cuadrada del n femenino, resultado que se dividir por la raz cuadrada del n masculino, donde n = tamao de la muestra de cada sexo. Si el radio masculino es 4 cm, con esta frmula se obtendr un radio femenino de 4,22 cm. Diagrama de barras Representacin grfica donde cada barra representa una frecuencia parcial. En el eje de las ordenadas se indican las frecuencias absolutas, y en el eje de absisas se representan los valores de la variable x. De esta manera, las barras ms altas tienen mayor frecuencia.
Existen diferentes tipos de diagramas de barras, de los cuales se ilustran tres: las barras simples, las barras superpuestas y las barras adyacentes. Los dos ltimos tipos dan informacin sobre dos variables al mismo tiempo, que son sexo y estado civil en los ejemplos que siguen:
Barras simples
Barras superpuestas
f 25 20 15 10 5
f 25 20 15 10 5
Solteros Casados Separados x
Solteros Casados Separados
Barras adyacentes
f 25 20 15 10 5 Adolescentes
Adultos
Solteros Casados Separados
Las barras tambin pueden disponerse horizontalmente. Mediante el diagrama de barras pueden representarse variables cualitativas y cuantitativas discretas. Histograma de Pearson Utilizado para representar variables cuantitativas continuas agrupadas en intervalos, este grfico se compone de barras adyacentes cuya altura es proporcional a las respectivas frecuencias parciales. En el ejemplo siguiente, se presenta la tabla de frecuencias por intervalos y su histograma correspondiente: x (longitud) 1-1.99 2-2.99 3-3.99 Total f 3 5 2 10
f 5 4 3 2 1
1 x
Como pude apreciarse, en las absisas se indican los lmites inferiores de los intervalos. Cuando los intervalos no son iguales, en lugar de indicar las frecuencias absolutas pueden indicarse las alturas (h). Esta ltima se obtiene dividiendo la frecuencia parcial por el tamao del intervalo correspondiente. Polgono de frecuencias Es un grfico de lneas rectas que unen puntos, siendo cada punto la interseccin del punto medio del intervalo (indicado en las absisas) y la frecuencia correspondiente. Tomando el ejemplo anterior, el polgono de frecuencias sera el siguiente:
f 5 4 3 2 1
1.5
2.5
3.5
punto medio (xm)
Un polgono de frecuencias puede obtenerse tambin a partir del histograma correspondiente. Para ello basta con indicar los puntos medios de cada lnea horizontal superior de cada barra del histograma, y luego unirlos con lneas rectas. Otra alternativa para este tipo de diagrama es el polgono de frecuencias acumuladas, donde se indican las frecuencias acumuladas en lugar de las frecuencias habituales. Ojiva de Galton Grfico en el cual se consignan en las ordenadas las frecuencias acumuladas y en las absisas los lmites superiores de cada intervalo (aunque tambin pueden indicarse los puntos medios de cada intervalo). Por ejemplo: x (longitud) 1-1.99 2-2.99 3-3.99 Total f 3 5 2 10 F 3 8 10
F 10 9 8 7 6 5 4 3 2 1
1.99
2.99
3.99
lm superior (L s)
La ojiva de Galton tambin puede representar frecuencias acumuladas decrecientes. 2.4 SNTESIS DE LOS DATOS: MEDIDAS ESTADSTICAS DE POSICIN Los datos individuales pueden ser sintetizados mediante medidas de posicin, medidas de dispersin (ambas se llaman medidas estadsticas), medidas de asimetra y medidas de curtosis. En este tem se describen las medidas de posicin. Definicin Las medidas de posicin pueden ser definidas de diversas formas (4). En esta nota proponemos la siguiente definicin: Las medidas de posicin son datos estadsticos que intentan representar un conjunto de datos individuales respecto de una variable. Esta definicin se refiere a tres cuestiones: 1) Son medidas estadsticas, es decir, no son medidas individuales. Una medida de posicin representa a todo un conjunto de datos, y no son los datos individuales. Por ejemplo, un promedio de edades representa a todas las edades del grupo, y no es la edad individual de uno de sus miembros, aunque pueda coincidir numricamente con ella. As, si el promedio de edades es 20 aos y una de las personas del grupo tiene 20 aos, el primer dato es una medida estadstica y el segundo una medida individual. En otros trminos, las medidas estadsticas no describen individuos, sino poblaciones o muestras. Por ejemplo, no tiene sentido explicar que una persona es anciana porque vive en una poblacin cuyo promedio de edad es 70 aos. 2) Son medidas representativas, es decir, intentan representar y sintetizar a todas las medidas individuales. El conjunto de todas las medidas individuales puede recibir diversos nombres, tales como muestra y poblacin, con lo cual tiene sentido afirmar proposiciones tales como una medida de posicin representa una muestra o una poblacin. Por ejemplo, es posible representar las notas obtenidas por un grupo de alumnos de diversas maneras: a) El promedio de las notas es de 7.35 puntos (en este caso usamos una medida de posicin llamada media aritmtica). b) La mitad de los alumnos ha obtenido una nota superior a 6,5 puntos (en este caso utilizamos otra medida de posicin llamada mediana). c) La nota que ms se ha repetido fue 7 puntos (en este caso usamos la medida de posicin llamada modo). La pregunta acerca de cul de las tres medidas de posicin representa mejor al conjunto de datos individuales es el problema de la representatividad de la medida de posicin, y la estadstica suministra,
como se ver, diversos criterios para evaluar la mejor forma de representar un cierto nmero de datos individuales. 3) Son medidas que miden una variable, es decir, algn atributo o propiedad de los objetos. En el ejemplo anterior la variable medida es el rendimiento acadmico, pero tambin pueden obtenerse medidas de posicin representativas de un conjunto de edades, de profesiones, de clases sociales, de puntuaciones de un test, de cantidad de dientes, etc. De otra manera: no tiene sentido decir que una medida de posicin represente un conjunto de personas, pero s tiene sentido decir que representan las edades de un conjunto de personas. Caractersticas de las principales medidas de posicin Las medidas de posicin pueden ser de tendencia central y de tendencia no central. Las primeras se refieren a los valores de la variable que suelen estar en el centro de la distribucin (Kohan, 1994:69). Por ejemplo: la media aritmtica, la mediana y el modo son las ms conocidas, pero tambin est la media aritmtica ponderada (til cuando hay valores que se repiten y que requieren atencin diferencial), la media geomtrica (Kohan, 1994:71-72), la media armnica, la media antiarmnica, la media cuadrtica, la media cbica, etc. Las medidas de posicin no centrales son los cuartiles, deciles y percentiles (Kohan, 1994:79), que reciben genricamente el nombre de cuantiles o fractiles (5). De acuerdo a Botella (1993:99), las medidas de posicin no centrales son datos o valores que ocupan una posicin especial en la serie de datos. Cuando una medida de posicin es un dato que ocupa un lugar central, la llamamos medida de tendencia central. En el siguiente cuadro se especifican las definiciones y caractersticas principales de las medidas de posicin. Medida MODO Definicin Es el dato o valor que ms se repite, o sea, el de mayor frecuencia. Caractersticas Resulta til si hay muchos datos repetidos (altas frecuencias). Puede calcularse cuando hay valores muy extremos. El modo muestral no es un estimador suficiente del modo poblacional porque no incluye todos los datos. En distribuciones multimodales es posible que la muestra no sea homognea, y que est constituda por varios estratos. Es posible convertir una distribucin multimodal en una modal reorganizando los intervalos. Si una distribucin no tiene modo, podra obtenerse reorganizando los datos en intervalos. Es la medida ms til en escalas ordinales siempre que los valores centrales sean iguales. No est influenciada por los valores extremos (por ello por ejemplo puede aplicarse desconociendo estos o sea cuando hay lmites superiores o inferiores abiertos). Puede usarse cuando hay intervalos abiertos, siempre que el orden de la mediana no se corresponda con ellos. Es til cuando unos pocos datos difieren mucho del resto. No es til si hay muchos datos repetidos (altas frecuencias). La mediana muestral no es un estimador suficiente de la mediana poblacional porque no incluye todos los datos. Es til es distribuciones muy asimtricas (extremos no compensados). La mediana coincide con el Q2 (cuartil 2), el D5 (decil 5) y el P50 (percentil 50) (8). Est influenciada por los valores extremos (por ejemplo, no puede utilizarse cuando hay valores extremos desconocidos o intervalos abiertos, salvo que estos puedan cerrarse). No conviene cuando los valores extremos son muy altos o muy bajos. Es til en distribuciones simtricas (con extremos compensados). No puede usarse en escalas nominales ni ordinales. Es siempre superior a la media geomtrica y a la media armnica. La media muestral es un estimador suficiente de la media poblacional porque incluye todos los datos. No necesariamente coincide con alguno de los valores. La media aritmtica tiene varios otras propiedades (7). Es til cuando hay gran cantidad de valores. Puede tambin utilizarse como medida de dispersin. Suelen utilizarse los cuartiles, los deciles y los percentiles.
MEDIANA
Es el dato o valor que divide por la mitad la serie de datos ordenados creciente o decrecienteme nte, es decir, es el valor central de la serie. Es el promedio aritmtico de todos los datos o valores.
MEDIA ARITMTICA
CUANTIL
Es el dato o valor que divide la serie ordenada de
-Cuartiles
-Deciles
-Percentiles
datos en partes iguales. Valores que dividen la serie en cuatro partes iguales. Valores que dividen la serie en diez partes iguales. Valores que dividen la serie en cien partes iguales.
Tres cuartiles dividen la serie en cuatro partes iguales.
Nueve deciles dividen la serie en diez partes iguales.
Noventa y nueve percentiles dividen la serie en cien partes iguales. Tambin se llaman centiles.
Relacin entre modo, mediana y media aritmtica.- a) La experiencia indica que la relacin entre estas tres medidas es: Modo = (3 . Mediana) (2 . Media aritmtica). Esta relacin es conocida como la frmula de Pearson. b) Cuanto ms simtrica es una distribucin (por ejemplo en una curva normal), ms tienden a coincidir los valores de las tres medidas. Clculo analtico de las medidas de posicin: frmulas Para calcular una determinada medida de posicin puede haber diversas frmulas. La eleccin de la frmula adecuada depender de la forma en que estn organizados los datos individuales. En principio, los datos pueden estar organizados de cuatro maneras: 1) Datos desordenados. Por ejemplo, las edades de un grupo de cuatro personas son 17, 29, 17 y 14. Cuando se recolecta informacin, generalmente se obtienen datos desordenados, frente a lo cual convendr ordenarlos. 2) Datos ordenados. Por ejemplo, las edades del mismo grupo de personas son 14, 17, 17 y 29, si hemos decidido ordenarlas en forma creciente, aunque tambin podemos ordenarlas decrecientemente. 3) Datos agrupados por frecuencia. Por ejemplo, hay dos edades de 17 aos, una edad de 14 aos y una edad de 29 aos. O, lo que es lo mismo, la frecuencia de la edad 17 es 2, y la frecuencia de las restantes edades es 1. 4) Datos agrupados por intervalos. Por ejemplo, hay 3 edades comprendidas en el intervalo 14-17 aos, y una edad comprendida en el intervalo 18-29 aos. La estadstica va agrupando los datos siguiendo el orden anterior. Cuanto ms avance en este proceso, ms habr logrado sintetizar y organizar los datos individuales. En el siguiente cuadro se sintetizan las diversas reglas o frmulas para calcular las medidas de posicin, segn como estn organizados los datos individuales y segn los niveles de medicin que admiten. Ntese que en algunos casos no es posible especificar ninguna frmula, y entonces el clculo se har siguiendo la regla indicada para los mismos. Por ejemplo: para calcular el modo de un conjunto de datos ordenados, debe buscarse el dato o valor que ms se repite (6).
Clculo de medidas de posicin segn los niveles de medicin que admiten y segn la forma de organizacin de los datos individuales.
Preparado por: Pablo Cazau
Medida de posicin Modo
Nivel de medicin Nominal Ordinal Cuantitativo
Datos ordenados Valor que ms se repite Valor que ms se repite Valor que ms se repite
Datos agrupados por frecuencia Valor con la mayor frecuencia Valor con la mayor frecuencia Valor con la mayor frecuencia
Datos agrupados por intervalos
----------------------f - fant Mo = Li + ---------------------- . a (f - fant) + (f- fpos) -----------n/2 - Fant Mn = Li + ---------------------- . a f xm.f) X = --------n t.n/4 - Fant Qt = Li + ---------------- . a f t.n/10 - Fant Dt = Li + ---------------- . a f t.n/100 - Fant Pt = Li + ---------------- . a f
Mediana
Ordinal Cuantitativo
Valor central de la serie ordenada de valores Valor central de la serie ordenada de valores
Valor que corresponde a la frecuencia acumulada n/2 Valor que corresponde a la frecuencia acumulada n/2
Media aritmtica Cuartil
Cuantitativo
x X = ----n
Valores que dividen la serie en cuatro partes iguales. Por tanto, hay 3 cuartiles: Q1, Q2 y Q3 Valores que dividen la serie en diez partes iguales. Por tanto, hay 9 deciles: desde el D1 hasta el D9 Valores que dividen la serie en cien parte iguales. Por tanto, hay 99 percentiles: desde el P1 hasta el P99
x.f) X = --------n
Valor que corresponde a la frecuencia acumulada t.n/4, expresin 0 llamada cuartil de orden o Q (1) Donde t puede valer 1, 2 o 3. Por tanto, hay 3 cuartiles: Q1, Q2 y Q3 Valor que corresponde a la frecuencia acumulada t.n/10, expresin 0 llamada decil de orden o D (1) Donde t puede valer entre 1 y 9. Por tanto, hay 9 deciles: desde el D1 hasta el D9 Valor que corresponde a la frecuencia acumulada t.n/100, expresin 0 llamada percentil de orden o P (1) Donde t puede valer entre 1 y 99. Por tanto, hay 99 percentiles: desde el P1 hasta el P99
Cuantitativo
Decil
Cuantitativo
Percentil
Cuantitativo
(1) Si no puede identificarse unvocamente una frecuencia acumulada, y por tanto un valor determinado de x, puede ser calculada por interpolacin. En realidad, los cuantiles se utilizan preferentemente cuando los datos estn agrupados por intervalos.
A continuacin, se suministran ejemplos de cmo calcular cada medida de posicin teniendo en cuenta las reglas y frmulas del esquema anterior. a) Clculo del modo para datos ordenados (niveles nominal, ordinal y cuantitativo) Nivel nominal: perro, perro, gato, gato, gato, gato (por tanto, el modo es gato) Nivel ordinal: grande, grande, mediano, mediano, mediano, chico, chico, chico, chico (por tanto, el modo es chico) Nivel cuantitativo: 6, 6, 7, 7, 7, 7, 8, 9, 10, 10, 11 (por tanto, el modo es 7) b) Clculo del modo para datos agrupados en frecuencia (niveles nominal, ordinal y cuantitativo) Nivel nominal x (religin) f Catlicos 56 Protestantes 78 Judos 45 Budistas 24 Otros 31 El modo es Protestantes Nivel ordinal x (dureza) f Muy duro 18 Duro 8 Intermedio 13 Blando 16 Muy blando 7 El modo es Muy duro Nivel cuantitativo x (edad) f 30 aos 6 31 aos 14 32 aos 19 33 aos 24 34 aos 15 El modo es 33 aos
Como puede verse, el modo es el valor de la variable x que est ms repetido. c) Clculo del modo para datos agrupados por intervalos (nivel cuantitativo) x (cantidad piezas dentarias) 10-18 19-27 28-36 37-45 f 6 8 24 2 n=40
Una vez confeccionada la tabla de frecuencias por intervalos, se procede en dos pasos: a) Se identifica cul es el intervalo de mayor frecuencia. En este caso, es 28-36. b) Se aplica la frmula correspondiente: f - fant Mo = Li + ---------------------- . a (f - fant) + (f- fpos) 24 - 8 Mo = 28 + ---------------------- . 8 = 31.37 piezas dentarias (24 - 8) + (24 - 2) d) Clculo de la mediana para datos ordenados (niveles ordinal y cuantitativo) Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden descendente o ascendente. Si el conjunto de datos contiene un nmero impar de elementos, el central es la mediana. Si hay un nmero par, la mediana es el promedio de los dos datos centrales. Ejemplos para el nivel ordinal: Nmero impar de datos: alto, alto, alto, alto, medio, medio, medio, medio, medio, medio, bajo (por tanto, la mediana es = medio). Nmero par de datos: En el nivel ordinal no puede calcularse un promedio si los dos valores centrales son distintos. Si los dos valores centrales son iguales, ese es el valor de la mediana. Ejemplos para el nivel cuantitativo:
Nmero impar de datos: 13, 13, 13, 14, 14, 17, 18, 19, 19 (por tanto, la mediana es 14) Nmero par de datos: 11, 11, 12, 13, 14, 15, 16, 18, 18, 18 (por tanto, la mediana es el promedio entre 14 y 15, o sea 14.5). e) Clculo de la mediana para datos agrupados por frecuencia (niveles ordinal y cuantitativo) x (das) 1 2 3 4 5 f 7 9 14 10 2 n = 42 F 7 16 30 40 42
La variable es aqu cantidad de das de posoperatorio. El procedimiento es el siguiente: a) Se calcula la mediana de orden: Mn0 = n/2 = 42/2 = 21 b) Se identifica cul es el valor de x que corresponde a la frecuencia acumulada que contiene el valor 21: Dicha frecuencia acumulada es 30, y, por lo tanto Mn = 3 das f) Clculo de la mediana para datos agrupados por intervalos (nivel cuantitativo) x 0-3 3-6 6-9 9-12 12-15 15-18 18-21 21-24 f 8 10 11 12 9 7 6 5 n = 68 F 8 18 29 41 50 57 63 68
Ntese que para calcular la mediana se precisa informacin sobre frecuencias acumuladas, razn por la cual se ha agregado la columna respectiva. Se procede en dos pasos: a) Se identifica cul es el intervalo que debe ser considerado, para lo cual se calcula la mediana de orden: Mn0 = n/2 = 68/2 = 34 Tomando en cuenta las frecuencias acumuladas, el valor 34 entra en la frecuencia acumulada 41, y, por lo tanto, el intervalo a considerar ser 9-12. b) Se aplica la frmula de mediana: n/2 - Fant Mn = Li + ---------------------- . a f 34 - 29 Mn = 9 + ---------------------- . 3 = 10.25 12 Tngase presente que si la variable fuera discreta y medible slo en nmeros enteros, sera Mn = 10. Si la variable fuese cantidad de materias aprobadas, el alumno con 10 materias aprobadas est en el lugar central de la serie, es decir, habra un 50% de compaeros con menos materias aprobadas y un 50% con ms materias aprobadas.
g) Clculo de la media aritmtica para datos ordenados (nivel cuantitativo) Dados los siguientes dados ordenados: 2-2-3-4-4-4-5-5-6-7-8-10 Se puede calcular la media aritmtica aplicando la frmula:
x X = ----n
X = ---------------------------------------- = --------- = 5 12 12
h) Clculo de la media aritmtica para datos agrupados por frecuencia (nivel cuantitativo) x (edad) 18 19 20 23 25 26 28 f 3 1 2 4 2 2 2 n = 16 f.x 54 19 40 42 50 52 56 363
Ntese que para el clculo de la media aritmtica se ha agregado una columna con los productos de x . f. Se aplica la frmula de media aritmtica:
x.f) 54+19+40+42+50+52+56 363 X = --------- = ----------------------------------- = -------- = 22.68 aos = 23 aos. n 16 16

i) Clculo de la media aritmtica para datos agrupados por intervalos (nivel cuantitativo) x 0-3 3-6 6-9 9-12 12-15 15-18 18-21 21-24 f 8 10 11 12 9 7 6 5 n = 68
1.5 4.5 7.5 10.5 13.5 16.5 19.5 22.5
xm
12 45 82.5 126 121.5 115.5 117.6 112.5 732.5
xm.f
Ntese que para el clculo de la media aritmtica se ha agregado una columna con los puntos medios de los intervalos y otra con los productos de las frecuencias por los puntos medios. Se aplica la frmula de media aritmtica:
xm.f) 732.5 X = ------------- = ---------- = 10.77 n 68
El mtodo corto y el mtodo clave son dos mtodos alternativos para calcular la media aritmtica, siendo el ltimo slo aplicable cuando el tamao de los intervalos es constante. De acuerdo al mtodo corto, la media aritmtica se calcula sumando al punto medio del intervalo de mayor frecuencia, el cociente entre la sumatoria de los productos entre cada frecuencia y la diferencia entre el punto medio de cada intervalo menos el punto medio del intervalo de mayor frecuencia, y la sumatoria de frecuencias (n). De acuerdo al mtodo clave, la media aritmtica se calcula sumando al punto medio del intervalo de mayor frecuencia, el producto entre el tamao del intervalo y un cociente, donde el numerador es la sumatoria de los productos entre las frecuencias y el llamado intervalo unitario (que resulta de dividir la diferencia entre cada punto medio y el punto medio del intervalo de mayor frecuencia, por el tamao del intervalo), y donde el denominador es la sumatoria de frecuencias (n). j) Clculo del cuantil para datos ordenados (nivel cuantitativo) 1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9 Si en la serie anterior resaltamos los tres valores que la dividen en cuatro partes iguales, esos valores sern los cuartiles Q1, Q2 y Q3: 1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9 Q1 = 2 Q2 = 3 Q3 = 6 Sin embargo, es ms prctico agrupar los datos por frecuencias o por intervalos, a los efectos del clculo de los cuantiles (cuartiles, deciles o percentiles). k) Clculo del cuantil para datos agrupados por frecuencia (nivel cuantitativo) x (edad) 18 19 20 23 25 26 28 f 3 1 2 4 2 2 2 n = 16 F 3 4 6 10 12 14 16
Se pueden calcular, por ejemplo, Q1, Q2 y Q3. El primer paso consiste en averiguar los respectivos cuartiles de orden. Para Q1 es Q = t.n/4 = 1.16/4 = 4 0 Para Q2 es Q = t.n/4 = 2.16/4 = 8 0 Para Q3 es Q = t.n/4 = 3.16/4 = 12
0
El segundo y ltimo paso consiste en identificar el valor de x correspondiente al cuartil de orden respectivo. Q1 = 4 Q2 = Est entre 20 y 23 Q3 = 25 l) Clculo del cuantil para datos agrupados por intervalos (nivel cuantitativo) x (puntaje) 0-10 10-20 20-30 30-40 40-50 f 1 3 5 6 10 F 1 4 9 15 25
50-60 60-70 70-80 80-90 90-100
12 13 9 4 3 n = 66
37 50 59 63 66
Se pueden calcular, por ejemplo, Q3, D7 y P45. El primer paso consiste en averiguar los cuantiles de orden: Para Q3 es Q = t.n/4 = 3.66/4 = 49.5 0 Para D7 es D = t.n/10 = 7.66/10 = 46.2 0 Para P45 es P = t.n/100 = 45.66/100 = 29,7
0
El segundo paso consiste en identificar el intervalo que corresponde al cuantil de orden en la columna de frecuencias acumuladas: El valor 49.5 corresponde al intervalo 60-70 El valor 46.2 corresponde al intervalo 60-70 El valor 29.7 corresponde al intervalo 50-60 El tercer y ltimo paso consiste en aplicar la frmula basndose en la informacin del intervalo identificado. Si la frmula pide el dato de la frecuencia acumulada anterior y esta no existe, se coloca 0 (cero). En el ejemplo del clculo del D7, se aplica la siguiente frmula: t.n/10 - Fant Dt = Li + ------------------- . a f 46.2 - 37 D7 = 60 + ---------------- . 11 = 67.78 13 Clculo visual de las medidas de posicin: grficos Es posible utilizar un procedimiento grfico para calcular ciertas medidas de posicin, tales como el modo y la mediana. Por ejemplo, el modo se puede calcular a partir de un histograma. La mediana tambin puede calcularse con un histograma, aunque lo ms habitual es hacerlo mediante una ojiva. a) Clculo del modo mediante un histograma Una vez construido el histograma a partir de una tabla de datos agrupados por intervalos: 1) Se considera el rectngulo de mayor frecuencia (mayor altura). 2) Dentro del mismo se trazan dos rectas como est indicado en el grfico siguiente. 3) Por la interseccin de ambas rectas se traza una recta perpendicular al eje de absisas. 4) El punto del eje de las absisas por donde pasa la recta perpendicular corresponde al modo (en el ejemplo, el modo es 4.80).
f 5 4 3 2 1
1 x
10
b) Clculo de la mediana mediante una ojiva En este caso pueden utilizarse dos procedimientos: 1) Una vez trazada la ojiva, a) se ubica en el eje de las ordenadas a la mediana de orden 0 (Mn ); b) por la mediana se orden se traza una recta paralela al eje x hasta que intersecte la ojiva; c) por este punto de interseccin se traza una recta paralela al eje y hasta que intersecte el eje x. En este punto estar ubicada la mediana. 2) Se trazan en el mismo eje de coordenadas las ojivas creciente y decreciente de la misma distribucin de datos. Luego, a) se traza una recta paralela al eje y que pase por la interseccin de ambas ojivas y por algn punto del eje x; b) el punto del eje x por donde pasa dicha recta corresponde a la mediana. Criterios de eleccin de medidas de posicin 1) La eleccin de una medida de posicin debe tener en cuenta el nivel de medicin de la variable que se mide: Modo Mediana Nivel nominal SI NO Nivel ordinal SI SI. Siempre y cuando los dos valores centrales con n = par sean iguales. En caso contrario usar el Modo. NO Nivel cuantitativo SI SI
Media aritmtica
NO
Cuantiles
NO
NO
SI Cuando no haya valores extremos alejados ni valores extremos abiertos. En caso contrario, usar el Modo o la Mediana (*). SI
(*) Hay al menos tres situaciones donde se preferir la mediana a la media (Botella, 1993:115): a) cuando la variable es ordinal, b) cuando haya valores extremos que distorsionen la interpretacin de la media, y c) cuando haya intervalos abiertos, como en el caso de variables como ingresos mensuales.
2) La eleccin de una medida de posicin debe tener en cuenta la forma en que estn organizados los datos. Por ejemplo: en ocasiones, el azar hace que un solo elemento no representativo se repita lo suficiente para ser el valor ms frecuente del conjunto de datos. Es por esta razn que rara vez utilizamos el modo de un conjunto de datos no agrupados como medida de tendencia central. Por esta razn, debemos calcular el modo en datos agrupados en una distribucin de frecuencias (Levin y Rubin, 1996). 3) La eleccin de una medida de posicin de una muestra debe tener en cuenta el grado de fidelidad con que representa a la medida de posicin poblacional.
Botella (1993:114) afirma, en este sentido, que si no hay ningn argumento en contra, siempre se preferir la media, no slo porque permite la utilizacin de otras medidas estadsticas (por ejemplo el desvo estndar), sino porque es ms representativa de la media poblacional que el modo o la mediana con respecto al modo o la mediana poblacional. 2.5 SNTESIS DE LOS DATOS: MEDIDAS ESTADSTICAS DE DISPERSIN Definicin Las medidas de dispersin, llamadas tambin medidas de variabilidad o de variacin, son datos estadsticos que informan acerca del grado de dispersin o variabilidad de los datos individuales de una muestra o una poblacin, respecto de una variable . En otras palabras, indican el grado de homogeneidad o de heterogeneidad del conjunto de los datos. Por ejemplo, indican cun alejados o cun cercanos se encuentran los datos de algn valor central como la media aritmtica: una muestra cuyos datos son 3-4-5 es menos dispersa que una muestra cuyos datos son 1-4-7. Algunos autores (Botella, 1993:325) han relacionado la dispersin de los datos -para los niveles de medicin nominal y ordinal- con los conceptos de entropa y de incertidumbre e incluso han propuesto a la primera como una medida que permite cuantificar la dispersin: a mayor dispersin de los datos, hay mayor entropa y mayor incertidumbre. Por ejemplo, las siguientes dos muestras tienen cada una 40 sujetos que han elegido determinados colores para representar la idea de paz: Muestra A: Muestra B: Blanco 28 8 Verde 3 8 Amarillo 3 8 Celeste 3 8 Rosa 3 8
Si habra que adivinar qu color eligi determinado sujeto de la muestra A, cabra proponer el color blanco porque fue el ms elegido. En cambio, la incertidumbre aumenta si habra que elegir lo mismo en la muestra B. En esta muestra hay ms entropa, es decir, ms desorden, mientras que en la muestra A los datos estn ms ordenados alrededor de un valor muy repetido, como el blanco. La muestra B es ms dispersa, es decir, ms heterognea, mientras que la muestra A es menos dispersa, es decir, ms homognea. La homogeneidad no debe relacionarse con la repeticin de frecuencias (3-3-3-3) sino con la repeticin de valores iguales o muy cercanos entre s (28 sujetos eligieron blanco). Una medida de posicin no alcanza para describir adecuadamente una muestra. Se obtiene una informacin ms precisa y completa de ella cuando adems se utiliza una medida de dispersin. Por ejemplo, la muestra 1 de datos 3-4-5 y la muestra 2 de datos 1-4-7 tienen la misma medida de posicin: la media aritmtica en ambos casos es 4. Sin embargo, se trata evidentemente de dos muestras diferentes, por cuanto la segunda es ms dispersa que la primera, es decir, sus datos estn ms alejados de la media aritmtica. En la primera muestra el promedio de las desviaciones respecto de la media es 1 (de 3 a 4 hay 1, y de 5 a 4 hay 1), mientras que el promedio de las desviaciones en la segunda muestra es 3 (de 1 a 4 hay 3, y de 7 a 4 hay 3). Por lo tanto, ambas muestras pueden representarse de la siguiente manera: Muestra 1: 4 + 1 (se lee 4 ms/menos 1) Muestra 2: 4 + 3 (se lee 4 ms/menos 3). Las medidas de dispersin tienen una importancia adicional porque (Levin y Rubin: 1996): a) Proporcionan informacin adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posicin central es menos representativa de los datos. b) A veces resulta indispensable conocer la dispersin de una muestra porque muestras demasiado dispersas pueden no ser tiles para poder sacar conclusiones tiles sobre la muestra. Levin y Rubin indican que, ya que existen problemas caractersticos para datos ampliamente dispersos, debemos ser capaces de distinguir los que presentan esa dispersin antes de abordar esos problemas. Caractersticas de las principales medidas de dispersin
En general, las medidas de dispersin ms utilizadas sirven para la medicin de variables en el nivel cuantitativo. Seguidamente se examinarn las siguientes medidas de dispersin: rango, desviacin media, varianza, desvo estndar, desvo intercuartlico y coeficiente de variacin. En el siguiente cuadro se especifican las definiciones y caractersticas principales de las medidas de dispersin. Medida RANGO Definicin Es la diferencia entre los valores mximo y mnimo de la variable.
DESVIACION MEDIA
VARIANZA
Es el promedio de las desviaciones de todos los valores respecto de la media aritmtica. Es el promedio de los cuadrados de las desviaciones con respecto a la media aritmtica.
Caractersticas De uso limitado, no es una buena medida de dispersin. Es muy sensible a los valores extremos e insensible a los valores intermedios. Est muy vinculada al tamao de la muestra: es probable que la muestra de mayor tamao presente mayor rango aunque las poblaciones de referencia tengan igual dispersin (Botella, 1993). Se llama tambin amplitud. Considera desviaciones absolutas, es decir, no las considera con valores negativos (de otro modo, el promedio de las desviaciones, por un teorem de la media aritmtica, dara cero). Esto representa una dificultad de clculo, por lo que se utiliza la varianza.
DESVIO ESTNDAR
Es la raz cuadrada de la varianza (11)
DESVIO INTER CUARTILICO COEFICIENTE DE VARIACION
Es la diferencia entre el Q3 y el Q1. Es el cociente entre el desvo estndar y la media aritmtica.
Es un valor esencialmente no negativo (10). Matemticamente es buena medida de dispersin, pero da valores muy altos, por lo cual en estadstica descriptiva se utiliza el desvo estndar (9). Se apoya en una propiedad de la media aritmtica segn la cual la suma de los cuadrados de las desviaciones respecto a la media es un valor mnimo. La varianza permite comparar la dispersin de dos o ms muestras si sus medias aritmticas son similares (Botella, 1993). Si se suma una constante a un conjunto de valores, la varianza no se modifica (Botella, 1993). Si se multiplica por una constante a un conjunto de valores, la varianza d los nuevos valores el igual al producto de la varianza de las originales po el cuadrado de la constante (Botella, 1993). Es un valor esencialmente no negativo (10). Es la medida de dispersin ms utilizada. Se la emplea conjuntamente con la media aritmtica como medida de posicin. La raz cuadrada permite compensar el cuadrado de la varianza. Si se suma una constante a un conjunto de valores, el desvo estndar no se modifica (Botella, 1993). Si se multiplica por una constante a un conjunto de valores, el desvo estndar de los nuevos valores el igual al producto del desvo estndar de las originales por el cuadrado de la constante (Botella, 1993). Se llama tambin desviacin tpica, o tambin desviacin estndar (Pagano, 1998:71). Expresa el rango del 50% central de la serie de valores. Se llama tambin amplitud intercuartil.
Permite comparar la dispersin de dos o ms muestras con diferentes medias aritmticas: a mayor coeficiente de variacin, mayor dispersin. No se expresa en unidades como la variable en estudio (por ejemplo, par edad, no se expresa en aos). Puede considerarse como un ndice de la representatividad de la media aritmtica: cuanto mayor es el coeficiente de variacin, menos representativa es la media (Botella, 1993).
Clculo analtico de las medidas de dispersin: frmulas En este tem se indican las frmulas para calcular medidas de dispersin, y se suministran ejemplos de cada caso.
Clculo de las medidas de dispersin segn la forma de organizacin de los datos individuales
Preparado por: Pablo Cazau
Medida de dispersin Rango Desviacin media Desvo estndar
Datos ordenados R = xmay - xmen
Datos agrupados por frecuencia R = xmay - xmen No
Datos agrupados por intervalos
|xX| Dm = --------------n ( x X )2 S = ---------------n

El segundo miembro es a la raz cuadrada
|xX|.f Dm = -----------------n ( x X )2 . f S = ------------------n

| xm X | . f Dm = -------------------n ( xm X )2 . f S = ---------------------n
Varianza Desvo intercuartlico Coeficiente de variacin
Es el cuadrado del 2 desvo estndar (S )
Es el cuadrado del desvo 2 estndar (S )
Es el cuadrado del desvo 2 estndar (S )
DQ = Q3 Q1 S CV = ----X
DQ = Q3 Q1 S CV = ----X
DQ = Q3 Q1 S CV = ----X
Cuando hay que calcular varianza o desvo estndar poblacionales, se utiliza n en el denominador, pero cuando se calculan las correspondientes medidas muestrales (o cuando la muestra es muy pequea), se utilizar n1 (12). a) Clculo del rango para datos ordenados y para datos agrupados por frecuencia Se puede aplicar a estas muestras la frmula del Rango R = xmay - xmen Muestra 1: 80, 100, 100, 110, 120. Aqu el rango R es = 120 80 = 40. Muestra 2: 30, 50, 70, 120, 180. Aqu el rango R es = 180 30 = 150 Como se ve, la muestra 2 es ms dispersa porque tiene mayor rango. No se puede calcular el rango para datos agrupados por intervalos porque se desconocen cules son los valores mximo y mnimo. b) Clculo de la desviacin media para datos ordenados La serie ordenada de datos puede ser la siguiente: 2, 3, 5, 6, 7, 9, 10 Como primer paso se calcula la media aritmtica: X 2+3+5+6+7+9+10 = --------------------------- = 6 7
Como segundo y ltimo paso, se calcula la desviacin media: |xX| |2-6| + |3-6| + |5-6| + |6-6| + |7-6| + |9-6| + |10-6| Dm = --------------- = --------------------------------------------------------------------- = 2.29 N 7 c) Clculo de la desviacin media para datos agrupados por frecuencia A la siguiente tabla de frecuencias (f) deber agregarse una columna (f.x) para calcular la media aritmtica, y luego otras dos columnas (x-X) y (| x-X | . f) para calcular la desviacin media: x 70 f 45 f.x 3150 |x-X| 35 |x-X|.f 1575
80 90 100 110 120 130 140
63 78 106 118 92 75 23 n = 600
5040 7020 10600 12980 11040 9750 3220 62800
25 15 5 5 15 25 35 160
1575 1170 530 590 1380 1875 115 8810
Primero se calcula la media aritmtica: x.f) 62800 X = --------- = ------------ = 104.66 = 105 n 600 Finalmente se calcula la desviacin media: |xX|.f 8810 Dm = ------------------ = ------------ = 14.68 n 600 d) Clculo de la desviacin media para datos agrupados por intervalos Se procede de la misma manera que en el caso anterior, con la diferencia que en lugar de considerar los valores x, se consideran los puntos medios de los intervalos (xm). e) Clculo del desvo estndar para datos ordenados Para la serie de valores 5, 6, 10, su media aritmtica es 7. Una vez conocido este valor, puede obtenerse el desvo estndar de la siguiente forma: (xX) ------------------- = n
2
S =
(5-7) + (6-7) + (10-7) ------------------------------------ = 3
4.66 = 2.2
f) Clculo del desvo estndar para datos agrupados por frecuencia x (edad) 18 19 20 23 25 26 28 f 3 1 2 4 2 2 2 n = 16 f.x 54 19 40 42 50 52 56 363 xX -5 -4 -3 0 +2 +3 +5 ( x X )2 25 16 9 0 4 9 25 ( x X )2 . f 75 16 18 0 8 18 50 185
Primero se calcula la media aritmtica, que arroja un valor de X = 23. Finalmente, se aplica la frmula de desvo estndar: (xX) .f ---------------------- = n
2
S =
185 ------------ = 16
11.56 = 3.2
Puede tambin utilizarse una frmula ms sencilla a los efectos del clculo (Bancroft, 1960:80): x .f 2 S = ----------- - (X) n Donde el primer trmino del segundo miembro es a la raz cuadrada.
2
g) Clculo del desvo estndar para datos agrupados por intervalos Se procede del mismo modo que en el caso anterior, con la diferencia que se calcula el punto medio xm de los intervalos en lugar del valor x. h) Clculo de la varianza El procedimiento es el mismo que en el caso del desvo estndar. Slo debe tenerse presente que la varianza es el cuadrado del desvo estndar. i) Clculo del desvo intercuartlico Dada la siguiente serie, obtener el desvo intercuartlico: x 0-20 20-40 40-60 60-80 80-100 f 2 4 5 8 1 n = 20
Primero se calculan los Q3 y Q1 aplicando la frmula explicada en medidas de posicin. Finalmente, se aplica la frmula del desvo intercuartlico: DQ = Q3 Q1 = 70 35 = 35 Una variante es el empleo del desvo semi-intercuartlico, es decir, el desvo intercuartlico dividido dos. Se trata de una medida de dispersin propuesta por Galton en 1889, y que resulta recomendable cuando hay algn valor extremo que pudiera distorsionar la representatividad de la media aritmtica (Botella, 1993). j) Clculo del coeficiente de variacin Si una muestra tiene una media aritmtica 111 y el desvo estndar 18, entonces su coeficiente de variacin es: S 111 CV = ----- = ---------- = 0.16 X 18 Cuanto mayor es el CV, mayor es la dispersin. Tambin puede calcularse un coeficiente de variacin porcentual, multiplicando CV por 100. En el ejemplo: CV% = 0.16 . 100 = 16%. Clculo visual de las medidas de dispersin: grficos Botella (1993:143) menciona dos procedimientos para expresar grficamente medidas de dispersin: el diagrama de caja y bigotes (Tukey, 1977) y el diagrama de bigotes verticales. Diagrama de caja y bigotes
75
80
85
Xmn
90
95
Q1
100
105
Q3
110
115
120
Xmx
125
130
B
Xmn Q1 Q3 Xmx
Puede apreciarse a simple vista que la distribucin de valores B es ms dispersa que A no slo porque la diferencia entre los valores mximo y mnimo (rango) es mayor, sino tambin porque lo es la diferencia entre los cuartiles primero y tercero. Diagrama de bigotes verticales
Nivel de ansiedad
4 Curso
El grfico representa las medias aritmticas de nivel de ansiedad de diversos cursos de alumnos. En cada media aritmtica se han trazado bigotes verticales que representan los respectivos desvos estndar. Puede entonces apreciarse, por ejemplo, que a medida que aumenta la media aritmtica, tiende tambin a aumentar el desvo estndar. 2.6 SNTESIS DE LOS DATOS: ASIMETRA Y CURTOSIS Un conjunto de datos o distribucin de datos queda exhaustivamente descrito cuando pueden especificarse una medida de posicin, una medida de dispersin, un ndice de asimetra y un ndice de curtosis. Las medidas de asimetra y curtosis se refieren a la forma de la distribucin y, aunque no son tan importantes como las medidas de posicin y dispersin y son muy poco utilizadas, aportan tambin informacin sobre la distribucin de los valores de una muestra o poblacin. Asimetra La asimetra hace referencia al grado en que los datos se reparten equilibradamente por encima y por debajo de la tendencia central (Botella, 1993:169). Por ejemplo, en la siguiente tabla se puede apreciar que en el curso A muchos alumnos obtuvieron buenas notas, en el curso C muchos alumnos obtuvieron bajas notas, y en el curso B estn equilibrados. x (nota) 10 f (curso A) 5 f (curso B) 2 f (curso C) 1
9 8 7 6 5 4 3 2 1 0
10 15 22 16 12 8 6 3 2 1 n = 100
5 8 10 15 20 15 10 8 5 2 n = 100
2 3 6 8 12 16 22 15 10 5 n = 100
Representando las tres distribuciones de datos con curvas en un grfico con las frecuencias en las ordenadas y los valores de x en las absisas, se obtiene lo siguiente:
Curso A
Curso B
Curso C
Media
Modo
Media Modo Asimetra cero
Modo
Media
Asimetra negativa (curva hacia la derecha)
Asimetra positiva (curva hacia la izquierda)
Han sido propuestos diversos ndices de asimetra para cuantificar el grado de asimetra de una distribucin de datos. De entre ellos pueden citarse los siguientes (Botella, 1993:170): Indice de asimetra mediamodo Es la distancia entre la media y el modo, medido en desvos estndar: X - Mo As = ------------S Indice de asimetra media-mediana (Kohan, 1994:93) Es la distancia entre la media y la mediana multiplicada por tres, medida en desvos estndar: X - Mn As= ------------S Indice de asimetra de Pearson Es el promedio de los valores z elevados al cubo (donde z es el cociente entre la diferencia entre x y la media aritmtica, y el desvo estndar). Indice de asimetra intercuartlico Es el cociente entre la diferencia Q3-Q2 y Q2Q1, y la diferencia Q3Q1
Los tres ndices se interpretan de manera similar: si resultan ser nmeros negativos, la curva ser asimtrica hacia la derecha, y si dan resultados positivos, la curva ser asimtrica a la izquierda. El resultado 0 (cero) indicar asimetra nula (simetra perfecta). Existen otros muchos tipos de curvas: parablicas, hiperblicas, bimodales, etc, pero una forma usual es la curva simtrica, llamada tambin curva normal o campana de Gauss. Curtosis
La curtosis hace referencia a la forma de la curva de la distribucin de datos en tanto muy aguda (mayor apuntamiento o mayor curtosis: leptocrtica) o muy aplanada (menor apuntamiento o menor curtosis: platicrtica).
Leptocrtica
Mesocrtica
Platicrtica
Del mismo modo que sucede con la asimetra, tambin se han propuesto diversos ndices de curtosis. Si el ndice es positivo, su apuntamiento es mayor que el de una distribucin normal y la curva ser leptocrtica, y si es negativo, su apuntamiento es menor y la curva ser platicrtica (Botella, 1993).
NOTAS (1) Segn Botella (1993:49) la distribucin de frecuencias es un instrumento diseado para cumplir tres funciones: a) proporcionar una reorganizacin y ordenacin racional de los datos recogidos; b) ofrecer la informacin necesaria para hacer representaciones grficas; y c) facilitar los clculos necesarios para obtener los estadsticos muestrales. (2) Cuando se confecciona una tabla de frecuencias por intervalos con la intencin de elaborar grficos o medidas estadsticas a partir de ella, deben asumirse ciertos supuestos que implican un margen de error, pero que son imprescindibles. Estos supuestos, llamados supuestos de concentracin intraintervalo, son dos. a) El supuesto de concentracin en el punto medio del intervalo, segn el cual todos los valores de la variable son el mismo, a saber, el punto medio del intervalo. b) El supuesto de distribucin homognea, segn el cual los valores incluidos en un intervalo se reparten con absoluta uniformidad en su interior. Es decir, que si en un intervalo hay cinco observaciones [valores observados en la variable] aceptaremos que sus valores son los que tendramos si partiramos al intervalo en cinco subintervalos de igual amplitud y asignramos a cada individuo el punto medio de un subintervalo (Botella, 1993:56). (3) Hay quienes recurren a la frmula de Sturges para calcular la cantidad de intervalos que resulta deseable tomar en funcin del tamao de la muestra. Esta frmula es: Nmero de intervalos = 1 + (log n / log 2), donde n designa el tamao de la muestra. Por ejemplo, aplicando la frmula para n = 40, la cantidad deseable de intervalos es 6.3, con lo cual podrn elegirse entre 6 o 7 intervalos. Una vez determinada la cantidad de intervalos, slo resta dividir el tamao de la muestra por 6 o 7, de lo que resultar el tamao de cada intervalo. (4) Por ejemplo, las medidas de posicin son aquellas que caracterizan la posicin de un grupo respecto de una variable (Kohan, 1994:69). Otras definiciones se refieren a la utilidad de estas medidas, y entonces por ejemplo se definen como ndices diseados especialmente para revelar la situacin de una puntuacin con respecto a un grupo, utilizando a ste como marco de referencia (Botella, 1993:83). (5) Estrictamente hablando, ciertos cuantiles como el cuartil 2, el decil 5 y el percentil 50 resultan ser medidas de tendencia central, ya que coinciden con la mediana. (6) Estrictamente, dato y valor no son sinnimos, aunque aqu se emplearn indistintamente ambas expresiones. El valor es uno de los componentes del dato: los otros dos son la unidad de anlisis y la variable. (7) Botella (1993:105-111) describe seis propiedades de la media aritmtica: 1) La suma de las diferencias de n puntuaciones de la media aritmtica, o puntuaciones diferenciales, es igual a cero. 2) La suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su media es menor que con respecto a cualquier otro valor. 3) Si sumamos una constante a un conjunto de puntuaciones, la media aritmtica quedar aumentada en esa misma constante. 4) Si multiplicamos una constante a un conjunto de puntuaciones, la media aritmtica quedar multiplicada por esa misma constante. 5) La media total de un grupo de puntuaciones, cuando se conocen los tamaos y medias de varios subgrupos hechos a partir del grupo total, mutuamente exclusivos y exhaustivos, puede obtenerse ponderando las medias parciales a partir de los tamaos de los subgrupos en que han sido calculadas. 6) Una variable
definida como la combinacin lineal de otras variables tiene como media la misma combinacin lineal de las medias de las variables intervinientes en su definicin. (8) Equivalencias entre cuantiles (Botella, 1993:89): Cuartiles Q1 Q2 Q3 Deciles D1 D2 D3 D4 D5 D6 D7 D8 D9 Percentiles P10 P20 P25 P30 P40 P50 P60 P70 P75 P80 P90
(9) Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas unidades no son intuitivamente claras o fciles de interpretar. Por esta razn, tenemos que hacer un cambio significativo en la varianza para calcular una medida til de la desviacin, que sea menos confusa. Esta medida se conoce como la desviacin estndar, y es la raz cuadrada de la varianza. La desviacin estndar, entonces, est en las mismas unidades que los datos originales (Levin y Rubin, 1996). La varianza como tal se utiliza ms frecuentemente en estadstica inferencial (Pagano, 1998:77). (10) La raz cuadrada de un nmero positivo puede ser tanto positiva como negativa. Cuando tomamos la raz cuadrada de la varianza para calcular la desviacin estndar, los estadsticos solamente consideran la raz cuadrada positiva (Levin y Rubin, 1996). (11) La desviacin estndar nos permite determinar, con un buen grado de precisin, dnde estn localizados los valores de una distribucin de frecuencias con relacin a la media. El teorema de Chebyshev dice que no importa qu forma tenga la distribucin, al menos 75% de los valores caen dentro de + 2 desviaciones estndar a partir de la media de la distribucin, y al menos 89% de los valores caen dentro de + 3 desviaciones estndar a partir de la media. Con ms precisin: Aproximadamente 68% de los valores de la poblacin cae dentro de + 1 desviacin estndar a partir de la media. Aproximadamente 95% de los valores estar dentro de + 2 desviaciones estndar a partir de la media. Aproximadamente 99% de los valores estar en el intervalo que va desde tres desviaciones estndar por debajo de la media hasta tres desviaciones estndar por arriba de la media (Levin y Rubin, 1996). (12) Esto se debe a que los especialistas en estadstica pueden demostrar que si tomamos muchas muestras de una poblacin dada, si encontramos la varianza de la muestra para cada muestra y promediamos los resultados, entonces este promedio no tiende a tomar el valor de la varianza de la poblacin, a menos que tomemos n1 como denominador de los clculos (Levin y Rubin, 1996). (13) El concepto de distribucin de frecuencias es uno de los ms bsicos de la estadstica descriptiva, y hace referencia a un conjunto de valores de una variable ordenados de acuerdo con sus frecuencias. Las distribuciones de frecuencias pueden expresarse en forma de tablas, grficos, medidas de posicin, medidas de dispersin, de asimetra y de curtosis. Estas ltimas cuatro medidas pueden considerarse propiedades o caractersticas bsicas de una distribucin frecuencial.
CAPTULO 3: PROBABILIDAD Y CURVA NORMAL La curva normal es uno de los temas fundamentales de la estadstica que utiliza la informacin provista por la estadstica descriptiva y permite el paso a la estadstica inferencial en el sentido de proveer una herramienta para obtener conclusiones respecto de la poblacin. La comprensin de este tema exige un conocimiento mnimo de la teora de la probabilidad. 3.1 EL CONCEPTO DE PROBABILIDAD Se entiende por probabilidad el grado de posibilidad de ocurrencia de un determinado acontecimiento. Dicha probabilidad puede calcularse en forma terica o emprica, a partir de las llamadas probabilidad clsica y frecuencial, respectivamente. El concepto de probabilidad ha demostrado ser de importante utilidad en ciertos enfoques sistmicos, especialmente en los mbitos de la termodinmica y la teora de la informacin. 1. Concepto de probabilidad.- Entendida como medida de la posibilidad de la ocurrencia de un determinado acontecimiento, la probabilidad abarca un espectro que se extiende desde la certeza (el acontecimiento ocurrir con total seguridad), hasta la imposibilidad (es imposible que el acontecimiento ocurra), pasando por todos los grados intermedios (es muy probable que ocurra, es medianamente probable, es poco probable, etc).
Por ejemplo, el suceso 'obtener un nmero entre 1 y 6 tirando un dado' equivale a la certeza; el suceso 'obtener un 7 arrojando un dado' equivale a la imposibilidad; y el suceso 'obtener un 2 arrojando un dado' equivale a uno de los grados intermedios de probabilidad. Es habitual representar el grado de probabilidad mediante un nmero que puede variar entre 1 (certeza) y 0 (imposibilidad). La probabilidad puede entonces valer 1, 0, 0.50, 0.80, etc. Por ejemplo, una probabilidad de 0.1 es muy baja, y una probabilidad de 0.98 muy alta. Una probabilidad intermedia es 0.50 o tambin, si la expresamos en trminos de porcentajes corriendo la coma dos lugares hacia la derecha, obtenemos una probabilidad del 50 por ciento. Tal el caso de obtener una cara arrojando una moneda. 2. Probabilidad clsica y probabilidad frecuencial.- Si bien existen diferentes teoras y enfoques acerca de la probabilidad, explicaremos a continuacin los dos planteos ms habituales, siguiendo un ordenamiento histrico e incluso sistemtico: el clsico y el frecuencial. En ltima instancia, se trata de dos modos diferentes de calcular la probabilidad de la ocurrencia de un fenmeno. a) Probabilidad clsica.- Suele tambin denominarse probabilidad terica o a priori, y se define como el cociente entre el nmero de casos favorables y el nmero de casos equiprobables posibles. Aclaremos esta aparentemente engorrosa definicin. Sabemos que un dado tiene seis caras, numeradas del uno al seis. La probabilidad de obtener la cara tres, por ejemplo, es de un sexto, es decir de un caso favorable (porque hay una sola cara con el tres) sobre seis casos equiprobables y posibles (caras 1-2-3-4-5-6). Aplicando la definicin de probabilidad, es: p= Casos favorables 1 ----------------------------------------------------- = 0.1666 Casos equiprobables posibles 6
Para poder calcular esta probabilidad necesitamos, obviamente, conocer todos los casos posibles (requisito de exhaustividad), pero adems debemos saber que todos esos casos posibles tienen la misma probabilidad de salir (requisito de equiprobabilidad), vale decir, debemos tener la suficiente seguridad de que ninguna cara tendr mayor o menor probabilidad de salir que otra cara cualquiera, como puede ocurrir, por ejemplo, con los dados 'cargados'. Una aclaracin respecto de la expresin 'casos favorables'. Debemos evitar aqui la connotacin subjetiva del trmino. Un caso favorable es simplemente un caso del cual queremos conocer la probabilidad de su ocurrencia. Puede incluso tratarse de un terremoto o una enfermedad, aunque estos eventos no sean 'favorables' desde otro punto de vista ms subjetivo. Respecto de la expresin 'casos equiprobables posibles', esta alude al hecho antes indicado de que para calcular una probabilidad en sentido clsico, deben cumplirse los dos requisitos de exhaustividad y equiprobabilidad. Puede suceder, en efecto, que alguno de estos requisitos no se cumpla. 1) Exhaustividad: Este requisito puede no cumplirse en dos casos. Primero, puede ocurrir que al arrojar un dado, este quede parado en equilibrio sobre alguno de sus vrtices o aristas. Como posibilidad existe, pero es remotsima. Debido a que esta posibilidad es muy baja, a los efectos prcticos la consideramos nula y seguimos aplicando la definicin clsica de probabilidad, como si todos los casos posibles fueran, como en el caso del dado, solamente seis. Segundo, puede ocurrir que no sepamos cuntas caras tiene el dado (en la situacin anterior s sabamos esta cantidad, descartando las alternativas remotas), an cuando sepamos que todas tienen la misma probabilidad de salir. En este caso, al desconocer el nmero de casos posibles, la definicin clsica de probabilidad resulta inaplicable, quedndonos la opcin de aplicar la probabilidad frecuencial. 2) Equiprobabilidad: Este requisito puede no cumplirse cuando el dado est 'cargado' lo que hace que, por ejemplo, el tres tenga mayores probabilidades de salir que el cuatro. En este caso, podemos calcular la probabilidad mediante la probabilidad frecuencial. En sntesis hasta aqu: cuando ninguno de estos requisitos, o ambos, no pueden cumplirse, nos queda an la opcin de calcular la probabilidad en forma emprica, lo que nos lleva al tema de la llamada probabilidad frecuencial. b) Probabilidad frecuencial.- Suele tambin denominarse probabilidad emprica o a posteriori, y es definible como el cociente entre el nmeros de casos favorables y el nmero de casos observados. En un ejemplo, supongamos que no conocemos cuntas caras tiene un dado (es decir desconocemos la cantidad de casos posibles), y queremos averiguar qu probabilidad tiene de salir el uno. Obviamente no podemos decir 'un sexto' o 'uno sobre seis' porque no sabemos cuntas caras tiene el dado. Para hacer este clculo decidimos hacer un
experimento, y arrojamos un dado comn de seis caras (aunque nosotros ignoramos este detalle) por ejemplo diez veces, constatando que el uno sali cinco veces, cosa perfectamente posible. Conclumos entonces que la probabilidad de obtener un uno es de cinco sobre diez, es decir, de 0.5. Si tomamos al pie de la letra este valor, podramos conclur que el dado tiene... 2 caras!, cada una con la misma probabilidad de 0.5. Aplicando la definicin de probabilidad frecuencial, resulta: p= Casos favorables 5 -------------------------------- = 0.5 Casos observados 10
Otro ejemplo: supongamos que conocemos perfectamente que el dado tiene seis caras, pero no sabemos si las probabilidades de salir son iguales o no para todas ellas, ya que sospechamos que el dado puede estar 'cargado'. Para determinar la probabilidad de salir del nmero uno hacemos el mismo experimento, dndonos un valor de 0.7. Este valor, si lo tomamos al pie de la letra, nos hara pensar que el dado est preparado para que tenga tendencia a salir el nmero uno, ya que su probabilidad de ocurrencia es bastante alta. La probabilidad frecuencial se llama tambin 'a posteriori' debido a que 'slo despus' de hacer nuestra observacin o nuestro experimento podemos saber el valor de la probabilidad, y no 'antes', como en el caso de la probabilidad clsica, donde 'antes' de arrojar el dado ya sabemos que la probabilidad de cada cara es de 0.1666. La denominacin 'frecuencial' alude al hecho de el clculo de probabilidades se realiza en base a la frecuencia con que sale una determinada cara o posibilidad, frecuencia que es relativa porque la comparamos con la cantidad de casos observados. Por ejemplo, en nuestro ltimo ejemplo la frecuencia absoluta es 7, porque de 10 veces que arrojamos el dado, 7 veces sali el nmero deseado. En cambio la frecuencia relativa es 0.7, y resulta de dividir la frecuencia absoluta por el nmero de casos observados. c) La ley de los grandes nmeros.- Tambin llamada principio de la estabilidad de la frecuencia relativa, nos permite unificar conceptualmente los dos tipos de probabilidad recin examinados, y puede expresarse de la siguiente manera: a medida que aumenta la cantidad de ensayos, el valor de la probabilidad emprica obtenido se va aproximando cada vez ms al valor de la probabilidad terica. Ley de los Grandes Nmeros Cantidad de ensayos arrojando una moneda una vez 2 veces 3 veces 4 veces 10 veces 100 veces 1000 veces 1000000 veces Probabilidad terica de salir cara 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 Probabilidad emprica obtenida para cara 0 0.5 0.3333 0.25 0.3 0.4 0.45 0.4999999999999
Siguiendo el esquema adjunto, si arrojamos una moneda por primera vez (primer ensayo), la probabilidad terica de salir cara es de 0.5, cosa que sabemos ms all de hacer o no esa experiencia. Sin embargo, puede ocurrir que salga ceca, y entonces conclumos que la probabilidad emprica es 0, pues no sali ninguna cara. Al arrojar la moneda por segunda vez, la probabilidad terica sigue siendo 0.5, ya que el dado no tiene 'memoria': por ms que haya salido cien veces cara, la 101 vez sigue teniendo la misma probabilidad de salir cara. La probabilidad emprica, en cambio, nos da por ejemplo tambin 0.5, porque la primera vez no sali cara pero la segunda s, con lo cual habr salido cara la mitad de las veces, o sea hay una probabilidad de 0.5. Al tercer tiro vuelve a aparecer ceca, con lo cual sobre tres tiros habr salido slo una cara (la segunda vez), y entonces la probabilidad emprica es de un tercio (0.333). Lo que dice la ley de los grandes nmeros es que, si seguimos aumentando la cantidad de tiros, el valor de la probabilidad emprica se ir aproximando cada vez ms a la probabilidad terica de 0.5, es decir, se verifica una tendencia de la frecuencia relativa a estabilizarse en dicho resultado, y por ello esta ley se llama tambin principio de la estabilidad de la frecuencia relativa.
La probabilidad (p) vara entre 0 y 1 Imposible 0 0 Probabilidad de extraer un as de espadas de un mazo de cartas francesas Grados intermedios de probabilidad 0.25 0.50 0.75 1/4 1/2 3/4 Probabilidad de Probabilidad de Probabilidad de extraer un naipe obtener cara extraer una de copas de un arrojando una bolilla roja de mazo de cartas moneda una caja donde espaolas hay 3 rojas y una blanca Seguro 1 1 Probabilidad de extraer una bolilla roja de un bolillero de bolillas rojas
3. Algunas aplicaciones del concepto de probabilidad.- La teora de las probabilidades, importante rama de la matemtica, ha permitido encarar la investigacin de sistemas, tanto cerrados como abiertos, bajo este relativamente nuevo enfoque. Ejemplos particularmente representativos aparecen en la termodinmica y en la teora de la informacin. a) Probabilidad en termodinmica.- La evolucin de los sistemas cerrados o abiertos puede medirse segn varios parmetros, como por ejemplo el grado de entropa o desorden, pero tambin segn el grado de probabilidad que pueden alcanzar cuando evolucionan hacia estados de equilibrio (como en el sistema cerrado) o hacia estados uniformes (como en el sistema abierto). As, se dice que la tendencia general de los procesos fsicos entendidos como sistemas cerrados apunta a la entropa creciente o estados de creciente probabilidad, mientras que los sistemas abiertos, como por ejemplo los sistemas vivos, consiguen mantenerse en un estado de mnima entropa, es decir, en un estado de alta improbabilidad estadstica. b) Probabilidad en Teora de la Informacin.- En la Teora de la Informacin se emplea tanto la probabilidad clsica como la probabilidad frecuencial. Es posible ilustrar esta cuestin con el siguiente ejemplo (Lichtenthal, 1970): Un forastero llega a un pueblo y pregunta: "Llover esta tarde?", a lo cual un vecino contesta "s". Esta respuesta provee mucha informacin o poca informacin? Todo depende de quien la reciba. a) Si la respuesta la recibe el mismo forastero, el "S" implica bastante informacin, porque desconoce el clima del pueblo. El "S" encierra para l tanta informacin como el "No", porque, al no conocer el clima habitual de la zona, para l ambas respuestas son igualmente probables (equiprobabilidad), y por consiguiente evala la probabilidad de que llueva o no en base a una probabilidad terica o a priori. b) Si la respuesta la escucha otro vecino, el "S" tiene un valor informativo prcticamente nulo porque todos en el pueblo saben que casi siempre llueve por las tardes. No es ninguna novedad el "S", es decir encierra poqusima informacin. En cambio si nuestro vecino hubiese escuchado "No" se sorprendera mucho, y la cantidad de informacin es mucha. El "S" y el "No" no son igualmente probables, cosa que el vecino descubri por experiencia, por haber vivido un tiempo en el pueblo (la probabilidad es, en este caso, frecuencial, y las posibles alternativas no son equiprobables). Los ejemplos vienen a destacar una idea muy importante que vincula informacin con probabilidad, y que es la siguiente: el contenido informativo de un mensaje est ntimamente ligado a su improbabilidad o 'valor sorpresa'. Por ejemplo, cuando ms nos 'sorprende' la respuesta, o cuando ms 'improbable' o 'inesperada' la juzgamos, ms informacin encierra. De aqu una importante definicin de informacin, como aquello que hace disminur la incertidumbre del receptor. Si al vecino le dicen que "s llover en este pueblo esta tarde" esto no es sorpresa para l, no reduce su incertidumbre y, por consiguiente, apenas si contiene informacin. 4. Vocabulario.- La teora de la probabilidad utiliza cierta terminologa tcnica. Algunos de los principales trminos son los siguientes: Espacio muestral: es el conjunto S de todos los resultados posibles de un experimento dado. Por ejemplo, los resultados posibles del experimento de arrojar un dado son 1, 2, 3, 4, 5 y 6. Muestra: es un resultado particular, o sea, un elemento de S. Por ejemplo, arrojar un dado y obtener 4. Evento: Un evento A es un conjunto de resultados, o sea, un subconjunto de S. Por ejemplo, un evento puede ser arrojar dos veces un dado obtenindose por ejemplo un 4 y un 3. Si el evento tiene una sola muestra, se llama evento elemental. El conjunto S o espacio muestral es de por s un evento (en este caso se lo llama cierto o seguro, pues es seguro que arrojando un dado se obtendr 1, 2, 3, 4, 5 o 6), mientras que
tambin se considera evento al conjunto vaco (se lo llama imposible: no es posible que no salga ningn nmero). Se pueden combinar eventos entre s para formar nuevos eventos, por ejemplo: A unin B es el evento que sucede si y slo si A o B o ambos suceden. A interseccin B es el evento que sucede si y slo si A y B suceden simultneamente. A complemento de A es el evento que sucede si y slo si A no sucede. Dos eventos son mutuamente excluyentes cuando no pueden suceder simultneamente. Espacio finito de probabilidad: se obtiene al asignar a cada muestra de un espacio muestral finito una determinada probabilidad de ocurrencia en forma de nmero real. La probabilidad de un evento es igual a la suma de las probabilidades de sus muestras. Si en un espacio finito de probabilidad cada muestra tiene la misma probabilidad de ocurrir, se llamar espacio equiprobable o uniforme. Existen tambin espacios muestrales infinitos. 3.2 DEFINICIN Y CARACTERSTICAS DE LA CURVA NORMAL Si se tomaran nueve personas al azar para medir la variable frecuencia cardaca, podran obtenerse, por ejemplo, los siguientes resultados: tres personas con 62, cinco personas con 70 y una persona con 84 pulsaciones por minuto. Representando visualmente esta situacin mediante un polgono de frecuencias, se obtiene el grfico 1. Si se registrara la frecuencia cardaca de 80 personas ms, probablemente se obtendra resultados similares al polgono de frecuencias del grfico 2. Finalmente, si se consideraran infinito nmero de personas, la representacin visual se asemejara al grfico 3, denominado curva normal, curva de Gauss o campana de Gauss (por su forma acampanada). Como puede apreciarse, ciertas variables continuas como la frecuencia cardaca, la glucemia, la estatura, el peso, la agudeza visual, el cociente intelectual, y otras, tiende a adoptar la forma de una curva normal a medida que aumenta la cantidad de casos observados (3). Aunque esta curva es una idealizacin, porque no pueden medirse infinitos casos, tiene, como se ver, su utilidad, an cuando las variables que se estudian desde este modelo no siguen estrictamente la distribucin de la curva normal. Pruebas como por ejemplo el chi cuadrado permiten determinar si una distribucin es lo suficientemente parecida a una distribucin normal como para poder aceptar el modelo de la curva normal para estudiarla. De hecho, muchas variables tienen distribuciones lo suficientemente similares a una distribucin normal como para tratarlas como tales sin cometer grandes errores. En relacin con estas cuestiones, conviene recordar aqu el teorema del lmite central, que dice que cualquiera sea la poblacin de donde se tome una muestra, la distribucin de los valores de la muestra se aproximan o asemejan cada vez ms a una distribucin normal a medida que el tamao n de la muestra aumenta. En la prctica se consideran normales a las muestras cuyo tamao es igual o superior a 30. f
Grfico 1
Grfico 2
Grfico 3
5 3 1
62
70
84
70
La curva normal tiene entonces algunas caractersticas que son las siguientes: a) Es la idealizacin de un polgono de frecuencias con tendencia central para una gran cantidad de casos. Por esta razn tiene la apariencia de una curva y no de una lnea quebrada, ya que el polgono de frecuencias tiene infinito nmero de lados. b) Tiene forma de campana: no tiene otras formas similares como puede ser la forma de herradura o la forma de una campana invertida.
c) Es simtrica respecto de un eje vertical, lo que las diferencia de otras curvas como por ejemplo la hiprbole equiltera. La simetra de la curva normal implica que la media aritmtica, la mediana y el modo coinciden en el punto central. Consecuentemente, la curva normal es unimodal (en cambio, una campana invertida podra ser bimodal). Tambin implica que la distancia del cuartil 1 al cuartil 2 es igual a la distancia entre el cuartil 2 y el cuartil 3. d) Es asinttica respecto del eje x. Esto significa que la curva y el eje de las absisas se cortan en el infinito, lo cual implica que cualquier valor de x tiene potencialmente alguna frecuencia, y ninguna frecuencia igual a 0. e) La curva normal puede adoptar diferentes formas: mesocrtica, platicrtica o leptocrtica. f) Los puntos de inflexin (donde la curva cambia de cncava a convexa y viceversa) se encuentran en los puntos correspondientes a la media aritmtica ms/menos un desvo estndar. g) Hay muchas posibilidades de curvas normales, dependiendo de cules sean los valores de las medias aritmticas y los desvos estndar. La ms importante es aquella que tiene como media aritmtica 0 (cero) y como desvo estndar 1 (la unidad). En este caso, la curva normal se designa como distribucin o curva normal estndar o estandarizada. h) Est comprobado que en una curva normal, y siempre idealmente, alrededor de un 68% de los casos posibles estn comprendidos entre menos un desvo estndar y ms un desvo estndar alrededor de un 95% estn comprendidos entre menos 2 y ms dos desvos estndar y alrededor de un 99% estn comprendidos entre menos tres y ms tres desvos estndar segn lo ilustra el siguiente esquema:
Esto significa por ejemplo que una persona tiene una probabilidad del 68% de tener una frecuencia cardaca comprendida entre menos un desvo estndar y ms un desvo estndar. Si la media aritmtica de esta distribucin fuera 80 pulsaciones por minuto y el desvo estndar fuera de 10 pulsaciones por minuto, entonces la frecuencia cardaca de una persona cualquiera tendra un 68% de probabilidades de valer entre 70 y 90 pulsaciones por minuto. Siguiendo el mismo criterio, tambin puede calcularse la probabilidad de aparicin de un valor comprendido entre menos tres desvos estndar y la media aritmtica (99% dividido 2), la probabilidad de aparicin de un valor comprendido entre menos dos desvos estndar y la media aritmtica (95% dividido 2), la probabilidad de aparicin de un valor comprendido entre menos un desvo estndar y ms dos desvos estndar (68% dividido 2, ms 95% dividido 2), y la probabilidad de obtener cualquier otro valor intermedio (como el
comprendido entre -1.27 desvos y +2.56 desvos), para lo cual se habr de consultar una tabla especialmente confeccionada para tal efecto. 3.3 PUNTAJES BRUTOS Y PUNTAJES ESTANDARIZADOS Antes de hacer referencia a las utilidades prcticas de la curva normal, convendr aclarar algunos conceptos tales como los de puntaje bruto y puntaje estandarizado. Para designar los diferentes valores que asume una variable para una determinada unidad de anlisis, en estadstica descriptiva suele emplearse la expresin dato. Por ejemplo, un dato puede ser Juan mide 1.70 metros. Muchos datos, sin embargo, se distribuyen de acuerdo a una curva normal, y esta clase de datos suelen ser tpicamente puntuaciones o puntajes de tests o pruebas de evaluacin. Por ejemplo, Juan obtuvo 90 puntos en el test de inteligencia de Weschler, o Pedro obtuvo 7 puntos en el examen de geografa. Esta es la razn por la cual, en lo que sigue se utilizar la expresin puntaje en lugar de dato, pero debe tenerse presente que todo puntaje es, siempre, un dato. Se llama puntaje bruto, directo u original al puntaje obtenido por un sujeto en una prueba. Por ejemplo, podra resultar de la suma de respuestas correctas, valiendo cada una de ellas un punto (Kohan, 1994:138). Los puntajes brutos presentan sin embargo algunos inconvenientes. Por ejemplo: a) Si una persona obtuvo 4 puntos en una prueba acadmica, podemos suponer que obtuvo un bajo puntaje porque lo comparamos con el puntaje mximo, que es 10. Sin embargo, no nos sirve para comparar a esa persona con el resto de la poblacin, ya que si los dems alumnos obtuvieron en promedio 2 puntos, la calificacin 4 ser, entonces, alta. b) Si una persona obtuvo 8 puntos en geografa y 5 puntos en matemticas, podemos suponer que obtuvo ms puntaje en geografa. Sin embargo, esta suposicin es errnea si resulta ser que el puntaje mximo en geografa es 20 y el puntaje mximo en matemticas es 6, en cuyo caso habr obtenido mayor puntaje en matemticas. Estas y otras dificultades pueden resolverse transformando los puntajes brutos en otros llamados puntajes estandarizados (o tambin puntajes transformados, porque resultan de haber transformado los puntajes brutos). Estos puntajes estandarizados permitirn, por ejemplo, comparar el puntaje de un sujeto con toda la poblacin, o bien comparar dos puntajes de pruebas con diferentes sistemas de evaluacin (1). Los puntajes estandarizados pueden ser lineales o no lineales, segn que resulten de transformaciones lineales o no lineales (Kohan, 1994:138). En el primer caso existe una proporcionalidad entre los puntajes brutos y sus correspondientes puntajes estandarizados, ya que la transformacin opera segn una ecuacin lineal o ecuacin de primer grado y, por tanto, no deforma la distribucin de los puntajes brutos. En lo que sigue se describen sucintamente tres ejemplos de puntajes estandarizados de uso frecuente: los puntajes estandarizados z (puntaje reducido), Z (puntaje derivado) y P (puntaje percentil). El puntaje reducido z es un dato transformado que designa a cuntas unidades de desvos estndar por arriba o por debajo de la media se encuentra un dato en bruto (Pagano, 1998:84). Para transformar un dato en bruto x en un puntaje z se utiliza la frmula: z = (x X) / s. Pueden destacarse tres caractersticas de los puntajes z (Pagano, 1998:86-87): a) tienen la misma forma que el conjunto de datos en bruto; b) la media de los puntajes z es siempre igual a cero; y c) el desvo estndar de los puntajes z es siempre igual a 1. El puntaje derivado Z (tambin llamado a veces puntaje derivado T) tiene la ventaja sobre el puntaje reducido z que no tiene valores negativos y que pueden despreciarse los decimales por ser una cantidad pequea (Kohan, 1994:141). Para transformar un puntaje reducido z en un puntaje derivado Z se utiliza la frmula: Z = (z.10) + 50, ya que este puntaje derivado considera la media aritmtica como 50 y el desvo estndar como 10. Existen otras modalidades de puntajes derivados (Botella: 1993:161). Uno muy conocido en psicologa es el llamado cociente intelectual o CI, que considera como media aritmtica a 100 y como desvo estndar a 15. El puntaje percentil P es un puntaje no lineal y es tambin de uso frecuente por su facilidad de comprensin, aunque tenga el inconveniente de que su distribucin toma una forma que no responde a la realidad de las funciones psicolgicas. Para transformar un puntaje z en un puntaje percentil hay que recurrir a una tabla especial, que se describe ms adelante. Como se puede apreciar en el esquema siguiente, el puntaje percentil P no es proporcional al resto de los puntajes, pero si lo es respecto de las reas cubiertas bajo la curva normal,
reas que a su vez indican la probabilidad de ocurrencia de un puntaje cualquiera. En efecto, puede verse que los puntajes percentiles P estn concentrados en aquellos lugares donde el rea bajo la curva es mayor y, adems, cuanto mayor es esta rea mayor ser el percentil correspondiente. Las correspondencias entre los diferentes puntajes pueden visualizarse mediante el siguiente esquema (2): Equivalencias de puntajes brutos y estandarizados
X = media aritmtica s = desvo estndar x = puntaje bruto z = puntaje reducido Z = puntaje derivado P = percentil
f (frecuencia)
50% del rea probabilidad = 0.5
50% del rea probabilidad = 0.5
x -3s -2s -1s X +1s +2s +3s z
-5
-4
-3
-2
-1
+1
+2
+3
+4
+5
Z 0 10 20 30 40 50 60 70 80 90 100 P P0 P2 P16 P50 P84 P98 P100
As por ejemplo, puede apreciarse que un puntaje bruto correspondiente a ms un desvo estndar corresponde a un puntaje reducido z de +1, a un puntaje derivado Z de 60, y a un percentil de 84. Especialmente cuando se trata de averiguar valores intermedios (por ejemplo el puntaje bruto correspondiente a ms 1.62 desvos estndar) debe recurrirse al empleo de frmulas y tablas. El siguiente esquema indica la forma de hacerlo: Reglas de transformacin de puntajes (de utilidad para resolver aplicaciones prcticas de la curva normal)
PUNTAJE BRUTO (x)
z = (x - X) / s
Tabla: entrar por z PUNTAJE REDUCIDO (z) Tabla: entrar por p AREA EXPRESADA COMO PROBABILIDAD (p)
x = (z.s) + X
Z = (z.10) + 50
z = (Z-50) / 10
Multiplicar por 100
Dividir por 100
PUNTAJE DERIVADO (Z)
AREA EXPRESADA COMO PORCENTAJE (%)
m%
Pm
Pm
m%
m = un nmero cualquiera entre 0 y 100
PERCENTIL (P)
En este esquema, las flechas ms gruesas indican los procedimientos habituales en las aplicaciones prcticas de la curva normal, mientras que aquellas y las flechas ms finas indican mas bien los procedimientos que se piden en ejercitaciones en cursos de estadstica. 3.4 APLICACIONES DE LA CURVA NORMAL El modelo matemtico de la curva normal tiene varias aplicaciones prcticas, como por ejemplo en psicologa y ciencias de la educacin. Pagano (1998:81) invoca tres razones principales que explican su importancia en estas disciplinas: 1) Muchas variables psicolgicas tienen distribuciones muy semejantes a la curva normal, tales como altura, peso e inteligencia. 2) Muchas pruebas de inferencia empleadas para analizar experimentos tienen distribuciones muestrales que poseen una distribucin muestral al aumentar el tamao de la muestra. 3) Muchas pruebas de inferencia requieren distribuciones muestrales que se asemejen a la curva normal, como la prueba z, la prueba t de Student o la prueba F. Consiguientemente, gran parte de la importancia de la curva normal aparece conjuntamente con la estadstica inferencial. En lo que sigue se suministran algunos ejemplos de aplicaciones prcticas de la curva normal con puntajes estandarizados. En primer lugar se expone un problema tpico y la forma de resolverlo teniendo en cuenta las reglas de transformacin de puntajes (ver esquema anterior). En segundo lugar, se presentan algunas variantes posibles dentro del problema tpico u otros. Problema tpico.- La variable peso en una poblacin de mujeres adultas tiene una distribucin aproximadamente normal, con una media aritmtica ( X) de 60 kg y un desvo estndar (s) de 6 kg. Calcular la probabilidad de que una mujer adulta de esa poblacin tomada al azar tenga un peso mayor a 68 kg. Resolucin del problema tpico.- Cuando el enunciado del problema afirma que la variable tiene una distribucin aproximadamente normal, ello significa que puede ser resuelto recurriendo al modelo de la curva normal. A partir de aqu, los pasos para resolverlo son los siguientes:
a) Lo primero que debe especificarse son los datos y las incgnitas. Los datos son tres: la media aritmtica (60 kg), el desvo estndar (6 kg), y finalmente un valor de la variable a partir del cual debe estimarse su probabilidad (68 kg). En smbolos: X = 60 kg s = 6 kg x = 68 kg En este caso el problema solicita resolver una sola incgnita: la probabilidad de que una persona tomada al azar tenga ms de 68 kg (tambin podra haber solicitado averiguar la probabilidad de que tenga menos de 50 kg, o la probabilidad de que tenga entre 40 y 60 kg). En smbolos: p 68 kg > x b) Antes de seguir adelante, siempre convendr trazar la curva normal y especificar la informacin revelante para resolver el problema. En este caso es:
Segn el esquema de reglas de transformacin de puntajes, si a partir de un valor dado de x (68 kg) se quiere calcular su probabilidad p, antes deber transformarse el valor x a un puntaje reducido z, el cual constituye una incgnita (?) que deber resolverse. Asimismo se raya el rea bajo la curva que se extiende desde 68 hacia la derecha, porque es esa probabilidad (proporcional al rea rayada) la que debe averiguarse (es decir, 68 o ms). c) Se aplica la frmula de transformacin del puntaje x en puntaje z: z = (x - X) / s z = (68 60) / 6 = 1.33 d) Se recurre a la Tabla de reas bajo la curva normal estandarizada para hallar la probabilidad p a partir de z = 1.33. Para ello, puede utilizarse indistintamente la Tabla 1 o la Tabla 2 (ver Anexo). Se utilizar la Tabla 1, donde puede verse que a un valor z = 1.33 corresponde una probabilidad p = 0.9082. e) Sin embargo, esta tabla indica la probabilidad de z o menos, es decir, la zona rayada hacia la izquierda de z. Por lo tanto, como lo que interesa es la probabilidad de un valor de z o mayor, se restar al valor p = 1 (el total del rea bajo la curva) el valor p = 0.9082. En smbolos: Area total 1.0000 Menos rea hacia la izquierda 0.9082 Area hacia la derecha 0.0918 Por lo tanto, la probabilidad de que una mujer adulta pese ms de 68 kg es de p = 0.0918. Traduciendo la probabilidad a porcentajes, puede decirse que existe un 9.18% de probabilidades de que la mujer pese 68 kg o ms. De idntica manera, puede decirse que el percentil P que ocupa una mujer adulta de 68 kg es, siguiendo las pautas del esquema de reglas de transformacin de puntajes: P91 (calculado y redondeado a partir de p = 0.9082), lo cual significa que una mujer que pese 68 kg tiene por debajo aproximadam ente un 91% de personas que pesan menos que ella. Algunas variantes posibles.- Los siguientes ocho casos ilustran algunos ejemplos de problemas que pueden resolverse mediante la curva normal y los puntajes estandarizados. El problema tpico examinado precedentemente encuadra en el caso 4. En todos estos casos se trata de calcular la probabilidad de ocurrencia de un valor comprendido bajo el rea rayada de la curva ya que la probabilidad de ocurrencia del valor
es proporcional al rea respectiva. Como se ver, en algunos casos conviene ms utilizar la Tabla 1 y en otros las Tabla 2 (ver Anexo).
CASO 1
CASO 2
CASO 3
CASO 4
CASO 5
CASO 6
CASO 7
CASO 8
Caso 1.- Aqu se trata de averiguar la probabilidad p de que un valor cualquiera de la poblacin corresponda a z = +1.5. Para este caso convendr utilizar la tabla 1, donde primero se busca el valor +1.5 en la primera columna, y luego se busca su valor de probabilidad, que es p = 0.9332. Nota: si el valor de z hubiese sido +1.56, se busca primero z = 1.5 y luego se busca, en la primera hilera, el valor 0.06 (ya que 1.5 + 0.06 = 1.56). En el entrecruzamiento de 1.5 y 0.06 encontraremos, finalmente, el valor de la probabilidad p = 0.9406. Caso 2.- En este caso se procede de manera similar que en el caso anterior. Caso 3.- Aqu se trata de averiguar la probabilidad de que un valor z valga -2 o ms. Esta situacin exige dos pasos. El primer paso es idntico al caso 1. Sin embargo, este primer paso calcula la probabilidad de z hacia la izquierda, y lo que se necesita saber es la probabilidad de z hacia la derecha (zona rayada). Como se sabe que la totalidad del rea
bajo la curva vale 1, para averiguar la zona hacia la derecha bastar con restar 1 de la probabilidad de la zona hacia la izquierda. En esto consiste el segundo y ltimo paso. Caso 4.- Aqu debe averiguarse la probabilidad de que un valor z valga 1.5 o ms. La opcin ms sencilla es aqu emplear la Tabla1, con la cual se calcula la probabilidad correspondiente a z = +1.5, que es p = 0.9332. Esta probabilidad corresponde a la zona rayada desde z hacia la izquierda, pero como debe averiguarse la probabilidad de z hacia la derecha, deber restarse 1 menos 0.9332. Caso 5.- Aqu debe averiguarse la probabilidad de que un valor z est comprendido entre 2.5 y +1.5. Una forma sencilla de resolver este problema es dividiendo el rea rayada en dos: una desde la mitad hacia la izquierda (0 a -2.5) y otra desde la mitad hacia la derecha (0 a +1.5). Se calcula luego la probabilidad de cada rea recurriendo a la Tabla 2, y finalmente se suman ambas probabilidades. Nota: para el clculo de la zona rayada de la mitad hacia la izquierda se buscar en la Tabla 2 el valor z = +2.5, porque es igual al valor z = -2.5 (por ser la curva normal simtrica). Caso 6.- Este caso es tan sencillo que no requiere el uso de tablas. La probabilidad de la zona rayada es p = 0.5 porque corresponde exactamente a la mitad de toda el rea bajo la curva, cuya p es igual a 1 (p = 1 equivale a la certeza). Caso 7.- Aqu debe calcularse la probabilidad de que un valor z est comprendido entre -2 y -1. En este caso, en lugar de sumar reas como en el caso 5, debern restarse reas. Recurriendo a la Tabla 1, se calcula primero la probabilidad correspondiente a z = -1 (que es p = 0.1587) y luego la probabilidad de z = -2 (que es p = 0.0228). La probabilidad resultante ser p = 0.1587 0.0228 = 0.1359. Caso 8.- Aqu debe calcularse la probabilidad de que un valor z est comprendido entre +1 y +2. Se puede proceder de la misma forma que en el caso 7, es decir, restando las probabilidades correspondientes a z = +2 y z = +1.
NOTAS (1) Botella (1993:153) refiere que los puntajes estandarizados son tiles en los siguientes casos: a) al hacer comparaciones entre unidades de distintos grupos: se pueden comparar, mediante puntuaciones estandarizadas, distintas observaciones de un mismo sujeto o de sujetos diferentes; b) al hacer comparaciones entre variables medidas de distinta forma, debido a que los puntajes estandarizados son adimensionales. Por ejemplo, comparar una altura expresada en centmetros con otra expresada en metros; y c) al comparar observaciones de distintas variables: por ejemplo, comparar la altura y el peso de un sujeto. (2) En el esquema puede apreciarse que z contempla valores que se extienden a -5 o +5.desvos estndar. En la prctica, sin embargo, se consideran solamente valores entre -3 y +3 por razones prcticas. En efecto, los valores superiores a +3 o menores a -3 cubren reas muy pequeas bajo la curva, es decir, la probabilidad de ocurrencia de puntajes mayores que +3 o menores que -3 son muy improbables, estando muy alejados de la media aritmtica. (3) Hay muchas formas en que los datos pueden distribuirse, y en todos esos casos existe cierta regularidad en los mismos. Por ejemplo, hay una tendencia a que la mitad de las veces salga cara arrojando una moneda, y tambin hay una tendencia a que la mitad de las veces se opte por un producto A y no uno B (suponiendo que lo hay ninguna razn para elegir uno u otro). Estos hechos sugieren que los datos de una manera regular, y los estadsticos propusieron diversos modelos de distribucin, uno para cada forma regular de distribucin de datos, como por ejemplo el modelo Bernouilli o el modelo binomial. La nocin de permanencia estadstica (Vessereau A, 1962:15) hace referencia a ciertas uniformidades en los datos de la realidad. Por ejemplo: a) la cantidad de varones y la de mujeres tiende a ser aproximadamente igual; b) el tamao de las galletitas que fabrica una mquina tiende a ser aproximadamente igual; c) la proporcin entre granos esfricos de arvejas y granos arrugados de arvejas tiende a ser del 75% y del 25% aproximadamente, o sea, siempre tiende a encontrarse aproximadamente 75 granos esfricos cada 100, y 25 granos arrugados cada 100; d) la estatura de las personas tienden siempre a estar alrededor de un valor medio, siendo frecuente encontrar estaturas de 1.70 metros pero raro encontrar estaturas de 2 metros. Estas uniformidades sugieren la presencia de leyes que rigen la forma en que se distribuyen los datos. Como hay muchas formas en que los datos pueden distribuirse, tambin habr muchas leyes que describen dichas distribuciones. Entre las ms conocidas (Vessereau A, 1962:16-24) se cuentan la ley binomial, la ley de Laplace-Gauss y la ley de Poisson. Por ejemplo, la ley de Laplace-Gauss describe las distribuciones que siguen una curva normal: cuando una magnitud recibe la influencia de una gran cantidad de causas de variacin, y estas son todas muy pequeas e independientes unas de otras, se demuestra que los valores individuales de las mediciones se distribuyen respondiendo a la ley de Laplace-Gauss (Vessereau A, 1962:20).
Otros autores consideran fundamentales a las distribuciones normal, binomial y de Student, y hacen referencia a otras, como la distribucin chi cuadrado (x2) que, a diferencia de la primeras, no es paramtrica, es decir, no requiere supuestos tan rigurosos acerca de la poblacin, como por ejemplo de que esta se distribuya normalmente (Kohan N, 1994:191). Hay otras leyes que tienen alcance ms general, como por ejemplo la ley de distribucin de las medias (Vessereau A, 1962:24) que establece que, cualquiera que sea la distribucin (binomial, gaussiana, etc), el desvo estndar de las medias aritmticas de todas las muestras posibles de n elementos disminuye inversamente a la raz cuadrada de n. Esto significa que cuanto ms grandes sean las muestras, menos desviacin o dispersin habr entre sus medias aritmticas.
CAPTULO 4: CORRELACION Y REGRESION 4.1 INTRODUCCIN El anlisis de correlacin permite averiguar el tipo y el grado de asociacin estadstica entre dos o ms variables, mientras que el anlisis de regresin permite hacer predicciones sobre la base de la correlacin detectada. Ms concretamente, una vez realizado el anlisis de correlacin, pueden obtenerse dos resultados: que haya correlacin o que no la haya. Si hay correlacin, entonces se emprende un anlisis de regresin, consistente en predecir cmo seguirn variando esas variables segn nuevos valores. Por ejemplo, si sobre la base de haber examinado a 40 alumnos se concluye una alta correlacin en sus notas en ambos parciales, conociendo la nota del primer parcial de un alumno nmero 41, podremos predecir con algn margen de seguridad cunto se sacar este alumno en el segundo parcial. En general el anlisis de correlacin se realiza conjuntamente con el anlisis de regresin. Mientras el anlisis de correlacin busca asociaciones, el anlisis de regresin busca predicciones, es decir, predecir el comportamiento de una variable a partir del comportamiento de la otra. As, la correlacin y la regresin estn ntimamente ligadas. En el nivel ms sencillo, ambas implican la relacin entre dos variables y utilizan el mismo conjunto de datos bsicos, pero mientras la correlacin tiene que ver con la magnitud y la direccin de la relacin, la regresin se centra en el uso de la relacin para hacer una prediccin. Esta ltima es sencilla cuando la relacin es perfecta, pero la situacin es ms compleja si la relacin es imperfecta (Pagano, 127). La correlacin es til porque permite hacer predicciones, porque permite establecer correlaciones (paso previo para la determinacin de una conexin causal), y para realizar pruebas de confiabilidad de instrumentos de medicin como los tests (prueba test-retest) (Pagano, 99). Por ltimo, vale la pena aclarar que en el contexto de un estudio cientfico, no basta con determinar el grado de correlacin entre dos variables en una muestra. Es necesario adems establecer, mediante una prueba de significacin (por ejemplo la prueba t), si la correlacin establecida en la muestra puede extenderse a toda la poblacin con un determinado nivel de confianza. Esta tarea corresponder a la estadstica inferencial. Correlacin lineal.- Las relaciones entre variables pueden ser de muchos tipos. a) Hay relaciones deterministas que responden a modelos matemticos tericos, como por ejemplo la relacin entre la intensidad de una corriente y la resistencia del conductor, o bien, la relacin entre la factura de consumo de agua y el nmero de metros cbicos consumidos. Estas relaciones son habituales en ciencias exactas. b) Otras relaciones no son tan deterministas, pero pueden eventualmente parecerse slo parecerse- a algn modelo matemtico terico determinista, en cuyo caso se concluye que ese modelo explica bien la relacin, aunque no lo haga perfectamente. Estas relaciones son habituales en las ciencias sociales (Botella, 1993:181). Dentro de los muchos modelos tericos a los cuales podra ajustarse una relacin no determinista se cuentan los modelos lineales, los modelos cuadrticos, los modelos cbicos, etc. El primero se representa mediante una recta, y los restantes mediante diversos tipos de curva como parbolas e hiprbolas. El presente artculo har referencia, por razones de simplicidad, a las relaciones lineales y, por tanto, a la correlacin lineal. Correlacin y causalidad.- El hecho de que dos variables estn correlacionadas, no significa necesariamente que una sea la causa y la otra el efecto: la correlacin no siempre significa causalidad. Entre otras cosas, una alta correlacin puede deberse a que ambas variables X e Y dependen cada una independientemente de otra variable Z, y entonces, al variar Z hace
variar conjuntamente a X e Y, produciendo un efecto de alta correlacin que puede dar la apariencia de causalidad. Por dar un ejemplo: entre memoria visual (X) y memoria auditiva (Y) puede haber una alta correlacin, pero ello no significa que la memoria visual sea la causa de la memoria auditiva, ya que ambas pueden estar dependiendo de otro factor Z ms general, llmese "memoria", o "cantidad de ARN". Si realizar el anlisis de correlacin es algo relativamente fcil (se trata de recoger datos y aplicar una frmula), determinar el vnculo causal suele implicar un procedimiento ms laborioso, como por ejemplo la ejecucin de un diseo experimental que implique la comparacin de dos grupos sometidos a condiciones diferentes y donde haya un control sobre la influencia de variables extraas. El siguiente esquema permite visualizar algunos pasos posibles para llevar a cabo un anlisis de correlacin seguido de un anlisis de regresin. El esquema sintetiza, al mismo tiempo, los temas a tratar en el presente artculo.
Si las variables son
CUANTITATIVAS Se calcula la correlacin con
CUALITATIVAS ORDINALES Se calcula la correlacin con
METODO ANALITICO Coeficiente de correlacin de Pearson
METODO GRAFICO Diagrama de dispersin
METODO ANALITICO Coeficiente de correlacin por rangos de Spearman
Se calcula la regresin (prediccin) con
METODO ANALITICO Mtodo de los cuadrados mnimos
Para interpretar mejor este coeficiente, se calcula el coeficiente de determinacin
METODO GRAFICO Recta de regresin
4.2 EL ANLISIS DE CORRELACIN Juan se sac una buena nota en el primer parcial, y por lo tanto es bastante probable que tambin saque buena nota en el segundo parcial. Esta persona tiene ms edad y por lo tanto es ms probable que le falte alguna pieza dentaria. Abundan esta clase de razonamientos en la vida cotidiana, que suelen aceptarse sin demasiada crtica. Sin embargo, en un estudio cientfico es habitual que estas hiptesis deban ser comprobadas ms all de las certidumbres subjetivas. Para constatar si hay realmente asociacin entre dos o ms variables cualesquiera, se emplea una herramienta denominada anlisis de correlacin, que tambin evala el grado o intensidad en que dichas variables estn asociadas. Se examina aqu el caso ms sencillo (dos variables), que se estudia dentro de la estadstica bivariada. En el siguiente ejemplo se exponen tres posibles distribuciones de frecuencias bivariadas (1) referidas a las primeras y segundas notas de exmenes parciales. Alumno A B C D E Tabla X 3 4 6 6 8 1 Y 2 5 5 6 6 Tabla X 3 4 6 6 8 2 Y 3 4 6 6 8 Tabla 3 X Y 3 2 4 3 6 5 6 5 8 7
F G
9 10
9 9
9 10
9 10
9 10
8 9
X = Nota del primer parcial Y = Nota del segundo parcial
En la Tabla 1 se han consignado las notas de los parciales de un grupo de 7 alumnos ordenadas en forma creciente. Un somero examen visual de la tabla revela que hay bastante asociacin entre las variables X e Y: quienes sacaron buena nota en el primer parcial tienden a sacar buena nota en el segundo, y lo mismo para quienes sacaron bajas notas, con lo cual ambas variables tienden a variar concomitantemente o conjuntamente. Sin embargo, debe tenerse presente que la asociacin o correlacin entre ambas variables no depende de la similitud entre X y Y, sino de la similitud de sus modos de variacin. As, en la Tabla 2 las notas de los primeros y segundos parciales de cada alumno son iguales, y en la Tabla 3 la nota del segundo parcial es diferente, pero siempre menor en un punto. Sin embargo, en ambas tablas la correlacin es la misma. El anlisis de correlacin busca establecer esencialmente tres cosas: 1) Presencia o ausencia de correlacin.- Dadas dos o ms variables, si existe o no correlacin entre ellas. 2) Tipo de correlacin.- En caso de existir correlacin, si esta correlacin es directa o inversa. En la correlacin directa, ambas variables aumentan (o disminuyen) concomitantemente, y en la correlacin inversa ambas variables varan inversamente, o tambin puede decirse "en relacin inversamente proporcional", lo que significa que cuando una aumenta la otra disminuye, o viceversa (2). En el siguiente esquema se muestran algunos ejemplos de correlacin directa e inversa. Tipos de correlacin Tipo Correlacin directa o positiva Definicin Ambas variables aumentan (o disminuyen) en forma concomitante. Ejemplos en psicologa Cociente intelectual/calificacin: A mayor CI, mayor calificacin obtenida en el examen. Tiempo/retencin: A mayor tiempo para memorizar, mayor cantidad de palabras retenidas. Test laboral/rendimiento futuro: A mayor puntaje en un test de aptitud tcnica, mayor rendimiento en dicha rea dentro de x aos (esto es tambin un modo de estimar la validez predictiva de un test). Edad/memoria: Al aumentar la edad, disminuye la memoria. Numero de ensayos/cantidad de errores: Al aumentar el nmero de ensayos, disminuye la cantidad de errores. Cansancio/atencin: Al aumentar el cansancio disminuye la atencin.
Correlacin inversa o negativa
Una variable aumenta y la otra disminuye (o viceversa) en forma concomitante.
3) Grado de correlacin.- El grado o intensidad de la correlacin, es decir, cunta correlacin tienen en trminos numricos. Para hacer todas estas averiguaciones, se puede recurrir a tres procedimientos. a) El mtodo tabular.- Una correlacin podra constatarse con la simple visualizacin de tablas de correlacin como las indicadas anteriormente, pero habitualmente las cosas no son tan fciles, sobre todo porque hay bastante mayor cantidad de datos, y porque estos casi nunca registran los mismos incrementos para ambas variables. Por lo tanto, debe abandonarse la simple visualizacin de las tablas y utilizar procedimientos ms confiables, como los grficos (diagramas de dispersin o dispersiogramas) y los analticos (por ejemplo el coeficiente de Pearson). b) El mtodo grfico.- Consiste en trazar un diagrama de dispersin. c) El mtodo analtico.- Consiste en aplicar una frmula que permita conocer no slo el tipo de correlacin (directa o inversa) sino tambin una medida cuantitativa precisa del grado de correlacin. La frmula del coeficiente de Pearson es un ejemplo tpico para medir correlacin entre variables cuantitativas.
4.3 CLCULO GRFICO DE LA CORRELACIN Un grfico es mucho mejor que una tabla para apreciar rpidamente si hay o no correlacin entre variables. Existen varias maneras de graficar la correlacin (3), pero aqu se describir el procedimiento clsico: el diagrama de dispersin. El diagrama de dispersin es bsicamente una nube de puntos, donde cada punto corresponde al entrecruzamiento de cada par de valores de X e Y. Este diagrama puede realizarse independientemente del clculo analtico de la correlacin. Por ejemplo, el diagrama de dispersin correspondiente a la Tabla 1 se asemeja al diagrama A del esquema de diagramas de dispersin. A este diagrama se ha agregado a ojo una lnea imaginaria, que viene a representar ms o menos el ordenamiento lineal de los puntos (que van desde abajo a la izquierda hacia arriba a la derecha). El diagrama se llama 'de dispersin' porque muestra cun dispersos (prximos o alejados) estn los puntos alrededor de dicha recta. Fcil es advertir que cuanto ms alineados estn, ms correlacin habr. En el ejemplo A del esquema sobre diferentes diagramas de dispersin, los puntos tienden a ubicarse en las proximidades de la recta imaginaria, lo que indica que estn poco dispersos. Si los puntos figurasen ms alejados habra ms dispersin, y por lo tanto menor correlacin entre X e Y. El caso B muestra correlacin inversa, pues el ordenamiento de los puntos indican que, a medida que aumenta X, va disminuyendo Y. As entonces, cuando la lnea imaginaria va de abajo a la izquierda hacia arriba a la derecha, hay correlacin directa, y cuando va desde arriba a la izquierda hacia abajo a la derecha hay correlacin inversa. Dicho ms tcnicamente, en el primer caso la recta tiene una inclinacin o pendiente positiva, y en segundo su pendiente es negativa. El caso C revela, por su parte, que a medida que aumenta Y, los valores de X ni aumentan ni disminuyen, permaneciendo fijos en el valor 5. Por lo tanto no hay correlacin. En general no la hay cuando una de las variables no vara (en este caso X permanece constante en el valor 5). El caso D es similar al anterior: all los valores de Y permanecen constantes en el nmero 4, mientras va variando X. Tampoco hay correlacin. El caso E muestra un ejemplo donde varan ambas variables, pero sin embargo no hay correlacin. En esa nube es imposible trazar una lnea imaginaria representativa de la orientacin de los puntos, simplemente porque no hay tal orientacin lineal. Los valores que van asumiendo las variables son en principio aleatorios (varan al azar). Tampoco hay correlacin. El caso F nos muestra un caso de correlacin perfecta o mxima (en este caso directa), pues no hay dispersin de puntos alrededor de la lnea imaginaria: todos estn sobre ella. Estas regularidades perfectas no suelen encontrarse fcilmente, ni menos an en ciencias sociales, porque los fenmenos obedecen siempre a muchas causas que estarn actuando para romper la armona natural entre X e Y. Tambin hay casos de correlacin no lineal, donde en lugar de una recta imaginaria se traza una curva. En este artculo se presentan solamente los casos ms sencillos, es decir, los casos de correlacin lineal, representables mediante rectas. Diferentes diagramas de dispersin
Y 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 X
Y 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 X
Y 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 X
A) Correlacin directa
B) Correlacin inversa
C) Sin correlacin
Y 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 X
Y 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 X
Y 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 X
D) Sin correlacin
E) Sin correlacin
F) Correlacin directa perfecta
Si bien una nube de puntos puede dar una idea de si hay o no correlacin, o de si es directa o inversa, todava no proporciona informacin sobre cuanta correlacin hay. Esta informacin se obtiene mediante un clculo analtico. 4.4 CLCULO ANALTICO DE LA CORRELACIN La correlacin se calcula analticamente mediante ciertos coeficientes, que sern distintos segn se trate de correlacionar variables nominales, ordinales o cuantitativas, y segn se trate de otras consideraciones varias. Si bien existen muchos coeficientes de correlacin (4), en lo que sigue se explicarn algunos de los ms utilizados: el coeficiente de correlacin lineal de Pearson (para variables cuantitativas), y el coeficiente de correlacin por rangos de Spearman (para variables cualitativas ordinales). a) Coeficiente de correlacin lineal de Pearson Este coeficiente (que se designa con r), fue creado por Karl Pearson (1857-1936) para relacionar variables cuantitativas (es decir, variables que, como nota de examen, se miden mediante nmeros). El coeficiente de Pearson es un nmero comprendido entre -1 y +1, y que posee un determinado signo (positivo o negativo). El valor numrico indica cuanta correlacin hay, mientras que el signo indica qu tipo de correlacin es (directa si el signo es positivo, inversa si es negativo). En el siguiente esquema se muestran algunos posib les valores de r. Algunos valores del coeficiente de Pearson
Correlacin inversa mxima (-1)
Baja correlacin inversa (-0.15) Correlacin nula (0)
Alta correlacin directa (+0.70) Correlacin directa mxima (+1)
Cuanto ms cerca de cero est el coeficiente de correlacin obtenido, tanto menor correlacin habr. Cabra preguntarse: hasta qu valor se considera que hay correlacin? desde qu valor no la hay? Esto es una cuestin que depende de varias cosas, y hace a la cuestin de la relatividad del coeficiente de Pearson. En efecto, su interpretacin depende de varios factores, como por ejemplo: a) la naturaleza de las variables que se correlacionan; b) la significacin del coeficiente; c) la variabilidad del grupo; d) los coeficientes de confiabilidad de los tests; e) el propsito para el cual se calcula r. El valor r = 0,70 puede indicar alta correlacin para cierto par de variables, pero baja correlacin para otras variables distintas. Otro ejemplo: un r de 0,30 entre estatura e inteligencia o entre tamao craneal y habilidad mecnica indicara una correlacin mas bien alta, puesto que las correlaciones entre variables fsicas y mentales suelen ser mucho ms bajas, a menudo iguales a cero. Otro ejemplo: un r de 0,30 entre inteligencia y nota de examen, o entre puntaje en ingls y puntaje en historia es considerada bajsima, ya que los r en estos campos suelen extenderse entre 0,40 y 0,60. Otro ejemplo: semejanzas entre padres e hijos, en cuanto a rasgos fsicos y mentales, se expresan por valores entre 0,35 y 0,55, y por lo tanto un r de 0,60 sera alto. Respecto de la frmula para calcular el coeficiente de correlacin de Pearson ("r"), no hay una nica manera de presentarla, y la eleccin de una u otra depender de la forma de presentacin de los datos. Por ejemplo, si los datos estn agrupados en una tabla de frecuencias, se utiliza cierta frmula (Bancroft, 1960:190), mientras que si los datos no estn agrupados en frecuencias, podrn utilizarse cualquiera de las frmulas indicadas en el siguiente esquema (5): Frmula 1 { ( x X) (y Y) } r = ------------------------------n x. y Se usa esta frmula cuando dan como datos las medias de X e Y y sus respectivos desvos estndar. Frmula 3 (Z x . Zy) r = --------------------n Se usa esta frmula cuando dan como datos los puntajes estandarizados Z. Frmula 2 { ( x X) (y Y) } r = ------------------------------2 2 ( x X) . (y Y) (El denominador debe elevarse a la raz cuadrada). Se usa esta frmula cuando dan como datos las medias aritmticas de X e Y. Frmula 4
n (x.y) x . y r = -----------------------------------------------n x2 ( x)2 . n y2 ( y)2

(Ambos factores del denominador se elevan a la raz cuadrada) Se utiliza esta frmula (llamada frmula del producto momento) cuando no se conocen ni medias aritmticas ni desvos estndar.
A continuacin se suministra un ejemplo de cmo calcular el coeficiente "r" utilizando la frmula 2. Se trata de determinar el coeficiente de Pearson para dos variables X e Y (que podran ser por ejemplo las notas del primero y segundo parcial). Tambin se pide interpretar el resultado. La tabla 1 son los datos dados, mientras que la tabla 2 es una ampliacin que debe hacerse para poder obtener ms informacin y poder as aplicar la frmula: Tabla 1 Alumno A B C D E N=5 alumnos Tabla 2 xX -3 -2 0 2 3 0 X=7 Y=8 Con los datos obtenidos se aplica ahora la frmula 2: { ( x X) (y Y) } 16 r = ---------------------------------------- = ----------------------- = +0.99 2 2 raz de ( x X) . (y Y) raz de 26,10 Interpretando el resultado, se puede decir que la correlacin obtenida es directa o positiva y es adems, muy alta. Coeficientes derivados.- A partir del coeficiente "r" de Pearson (en cualquiera de sus formas) se pueden derivar otros, segn la informacin que se quiera obtener: 1) Coeficiente de determinacin (r2): es el coeficiente "r" elevado al cuadrado. El coeficiente de determinacin indica qu porcentaje de la variacin de Y est determinada por las variaciones de X. Por ejemplo, para un "r" de 0,70, hay un coeficiente de determinacin de 0,49, lo que significa que el 49% de la variacin de Y est determinada por la variacin de X. 2) Coeficiente de alienacin (k): llamado tambin de no correlacin, no indica la correlacin sino la falta de correlacin entre dos variables (o grado de independencia). Para calcularlo se aplica la frmula siguiente: r2 + k2 = 1 [1] Por ejemplo, si sabemos que "r" es de 0,50, aplicando la frmula indicada tenemos que "k" vale 0,86, con lo cual el grado en que falta la correlacin resulta ser mayor que el grado en que s hay correlacin. Idnticamente, si "r" vale 1 entonces "k" vale 0, y viceversa. Cuanto mayor es el coeficiente de alienacin tanto menor es la correlacin, y por tanto menos confiables sern las predicciones que -anlisis de regresin mediante- se hagan sobre esa base. 3) Coeficiente de indeterminacin (k2): es el coeficiente "k" pero elevado al cuadrado. Mide el grado en que la variacin de Y no est determinada por la variacin de X. La frmula del coeficiente de indeterminacin es deducible de la anterior [1]. 4) Coeficiente de eficiencia predictiva (E): suele utilizarse para, sabiendo "r", estimar rpidamente el poder predictivo de la correlacin "r". Su frmula es: E = 100 . (1 - 1-r2) donde 1-r2 debe elevarse a la raz cuadrada. yY -2 -1 0 1 2 0 ( x X) (y Y) 6 2 0 2 6 16 ( x X) 9 4 0 4 9 26
2
X 4 5 7 9 10 35
Y 6 7 8 9 10 40
(y Y) 1 1 0 1 1 10
Por ejemplo si la correlacin "r" es de 0,50, la eficiencia predictiva ser del 13%. Pero cuando "r" sube a 0,98, la eficiencia predictiva ser del 80%. La correlacin debe ser entonces de 0.87 o ms para que la eficiencia predictiva sea mayor al 50%. Matriz de correlaciones.- En muchas investigaciones se estudian muchas variables, y se intenta cuantificar mediante el coeficiente r sus relaciones dos a dos, es decir, las relaciones de cada variable con cada una de las dems (Botella, 1993:202). A los efectos de comparar estos diferentes valores de r se traza una matriz de correlacin, que puede tener la siguiente forma: Variable X Variable Variable Variable Variable X Y W Z Variable Y r = -0.17 Variable W r = -0.11 r = +0.46 Variable Z r = -0.30 r = +0.17 r = +0.10
La matriz permite visualizar inmediatamente, entre otras cosas, cules son los coeficientes de correlacin ms altos (en este caso, entre Y y W). Ntese que no han sido llenados los casilleros donde se cruzan las mismas variables (por ejemplo X con X), porque carece de sentido hacerlo y su correlacin es siempre perfecta y positiva (r = +1). b) Coeficiente de correlacin por rangos de Spearman Se trata de un coeficiente de correlacin utilizado para estudiar la asociacin entre dos variables ordinales. Se representa con la letra griega rho, y sus frmulas son las siguientes: Frmula 1 6 d = 1 - --------------------------n (n + 1) (n 1)
2
Frmula 2 x + y + d = -------------------------------2 2 2. x. y La frmula para obtener x o y es la misma en ambos 2 2 casos, y es x = y = (n3 n) / 12 2 2 En el denominador, la raz cuadrada afecta a x . y
2 2 2 2 2
En ciertos casos conviene utilizar la primera frmula, y en otros casos la segunda. Por ejemplo (Kohan, 1994:256), si no hay empates en los rangos o son muy pocos, se utilizar la frmula 1, y si hay empates en los rangos, se utilizar la frmula 2. Para comprender esto, se suministran a continuacin dos ejemplos diferentes: uno sin empates y otro con empates. Ejemplo 1.- En este ejemplo (tomado de Kohan, 1994:256) se utiliza el coeficiente de Spearman para evaluar el grado de asociacin entre dos variables ordinales: X (autoritarismo) e Y (bsqueda de status). Por ejemplo, permitir averiguar si a medida que aumenta el autoritarismo en las personas tiende tambin a aumentar la bsqueda de status social. Para ello se toma una muestra de 12 sujetos, y se obtienen los siguientes resultados: Sujeto A B C D E F G H I J K L x (rango por autoritarismo) 2 6 5 1 10 9 8 3 4 12 7 11 y (rango por bsqueda de status) 3 4 2 1 8 11 10 6 7 12 5 9 d -1 2 3 0 2 -2 -2 -3 -3 0 2 2 d2 1 4 9 0 4 4 4 9 9 0 4 4
n = 12
d = 52
2
Esta tabla indica, por ejemplo, que el sujeto A se situ en un segundo lugar en autoritarismo y en un tercer lugar en bsqueda de estatus. Aplicando la frmula 1, se obtiene un coeficiente de Spearman de 0.82, lo cual sugiere una alta correlacin entre autoritarismo y bsqueda de status. Ejemplo 2.- Aqu se trata de obtener el coeficiente de Spearman cuando hay empates en los rangos. Los empates ocurren cuando dos o ms sujetos tienen el mismo rango en la misma variable. Por ejemplo (ver tabla siguiente), los sujetos A y B obtuvieron el mismo puntaje en la variable X (o sea, obtuvieron ambos cero). Otro tanto ocurri con los sujetos C y D y con los sujetos J y K, siempre en relacin a la misma variable X. En el caso de la variable Y todos los puntajes fueron diferentes, y por lo tanto no hubo empates. Cuanto mayor es la cantidad de empates, ms conveniente resultar utilizar la frmula 2. Sujeto x (rango por autoritarismo) Puntaje Rango 0 (1) 1.5 0 (2) 1.5 1 (3) 3.5 1 (4) 3.5 3 (5) 5 4 (6) 6 5 (7) 7 6 (8) 8 7 (9) 9 8 (10) 10.5 8 (11) 10.5 12 (12) 12 y (rango por bsqueda de status) Puntaje Rango 42 3 46 4 39 2 37 1 65 8 88 11 86 10 56 6 62 7 92 12 54 5 81 9 d d2
A B C D E F G H I J K L n = 12
-1.5 -2.5 1.5 2.5 -3.5 -5 -3 2 2 -1.5 -5.5 3.5
2.25 6.25 2.25 6.25 9 25 9 4 4 2.25 30.25 9 2 d = 109.5
Para hallar el coeficiente de Spearman en estos casos, puede procederse se acuerdo a tres pasos: a) Reasignacin de rangos.- En la columna de Puntaje de la variable X se ha agregado entre parntesis el rango u orden que ocupara el sujeto. Este agregado sirve al nico efecto de determinar el rango definitivo que se le asignar, y que aparece en la columna Rango, de la misma variable. La forma de calcular este rango definitivo es simple. Por ejemplo, si se consideran los sujetos A y B, se suman los rangos 1 y 2, con lo cual se obtiene el valor 3. Este valor se divide por la cantidad de empates, que en este caso es 2, y se obtiene el valor 1.5, que ser el rango definitivo de ambos sujetos. b) Correccin de la suma de los cuadrados.- Para poder aplicar la frmula 2, y puesto que 2 2 hay empates, deben modificarse los valores de x y de y es decir, las sumatorias de los cuadrados de los valores de cada variable. Para modificar dichos valores deben restarse a ellos E, cuyo valor se entiende a partir de la siguiente frmula donde dicho factor se ha restado: n n 2 x = --------- 141.5 12
3
12 12 2 2 2 2 2 -2 = ------------ - ( --------- + --------- + --------- ) 12 12 12 12
= 143 1.5
El valor 2 significa que hay sido dos los valores empatados. En este caso, los empates se han dado en tres oportunidades (sujetos A-B, C-D y J-K), y por ello se suman los tres cocientes. Como en la variable Y no se han verificado empates, el clculo no incluir el factor de correccin: n n
3
12 12
y = --------- = -----------12 12
2
= 143
c) Aplicacin de la frmula 2.- Se aplica la frmula con los valores corregidos del siguiente modo: x + y + d 141.5 + 143 109.5 = -------------------------------- = ------------------------------ = 0.616 2 2 2. x. y 2 141.5 . 143 Si no se hubieran introducido las correcciones indicadas, el valor del coeficiente de Spearman hubiera sido ms elevado, aunque en este caso la diferencia es poco importante y slo conviene corregir cuando hay gran cantidad de empates (Kohan, 1994:258). 4.5 UN EJEMPLO: CONSTRUCCIN Y VALIDACIN DE TESTS El anlisis de correlacin se aplica en muchos mbitos de la psicologa, como por ejemplo en la teora factorialista de la inteligencia, en el anlisis de actitudes en psicologa social, y tambin en la construccin de pruebas psicodiagnsticas (6). Como ejemplo, a continuacin se inventar un test, no slo para ver como se realiza esta tarea, sino tambin para ver el modo en que interviene en este proceso el anlisis de correlacin. La idea de construir un supuesto Test de personalidad de Prez pudo haber comenzado al leer los diversos trastornos de personalidad del DSM-IV. Uno de ellos es el trastorno narcisista, otro el trastorno esquizoide, y as sucesivamente. El DSM-IV propone diversos criterios para identificarlos, pero aqu se ha elegido otro camino: tomar un test creado ad hoc. Pensando en la cuestin, cabe imaginarse que un individuo narcisista podra muy bien estar cmodo con un dibujo como el esquema 6, donde aparece un gran punto rodeado de otros ms pequeos que lo admiran, mientras que un esquizoide preferira el esquema 7, representativo de un patrn de distanciamiento de las relaciones sociales.
2 2 2
Esquema 6
Esquema 7
Acto seguido, se eligen mil sujetos con diagnsticos diversos de personalidad y se les pregunta qu dibujo les gusta ms. Aqu es donde interviene el anlisis de correlacin, que permitir ver el grado de asociacin entre el diagnstico y el dibujo elegido. Una muy alta correlacin aparecera, por ejemplo, si gran cantidad de sujetos con trastorno narcisista eligen el esquema 6, con lo cual, en lo sucesivo se podr tomar este test sin necesidad de explorar sus conductas y ver si cumplen los criterios del DSM-IV, un trmite que suele ser arduo. Desde ya, construir un test exige una gran cantidad de controles y precauciones que no vienen al caso exponer aqu. Por ejemplo, debe determinarse su validez y su confiabilidad. El anlisis de correlacin permite, precisamente, determinar por ejemplo un tipo especial de
validez: la validez predictiva, que pueden verse claramente en las pruebas de orientacin vocacional. As, por ejemplo, una forma de establecer si un test de este tipo evala la vocacin de un sujeto, es esperar varios aos y ver si ese sujeto tuvo xito en la profesin sugerida por el test. Como puede apreciarse, aqu se recurre nuevamente al anlisis de correlacin, al compararse la profesin diagnosticada con la profesin elegida exitosamente. Una alta correlacin entre ambas variables es indicador de la validez predictiva del test en cuestin. El anlisis de correlacin permite tambin determinar otros tipos de validez como la validez inter-test, que compara los resultados de un test vocacional con otro test vocacional. Si ambos arrojan aproximadamente los mismos resultados en un conjunto de sujetos, entonces tienen validez inter-test, comparacin que fue posible por un anlisis de correlacin. 4.6 EL ANLISIS DE REGRESIN El objetivo del anlisis de regresin es establecer una prediccin acerca del comportamiento de una variable Y conociendo el correspondiente valor de X (o viceversa) y el grado de correlacin existente entre ambas variables. Para ello es preciso conocer la llamada recta de regresin (7), que es la recta imaginaria que mejor representa el conjunto de pares de valores de las variables X e Y. En el siguiente eje de coordenadas, estn representados por ejemplo cinco de esos pares de valores, mediante cinco puntos. La recta de regresin dibujada sera la que mejor representa esos puntos, por cuanto la distancia de los puntos a la recta (representada con una lnea punteada) es la mnima. Esta distancia recibe el nombre de regresin, de manera tal que cuanto menor es la regresin de los puntos, mayor ser la correlacin entre ellos.
Recta de regresin
x
La recta de regresin es, de muchas rectas posibles, la que mejor representa la correlacin o, ms tcnicamente, es la nica que hace mnima la suma de los cuadrados de las desviaciones o distancias de cada punto a la recta. Es, adems, la mejor manera de poder hacer predicciones. Las desviaciones de los puntos respecto de la recta se adjudican a factores no controlados (que suelen ser particularmente importantes en las ciencias sociales), y se parte del supuesto de que si no hubiera factores extraos que afecten la relacin entre X e Y, entonces no habra desviaciones y la correlacin sera perfecta. La recta de regresin puede trazarse a ojo, pero este procedimiento no tiene precisin. El anlisis de regresin propone un mtodo mucho ms preciso, consistente en hallar la recta de regresin por una va analtica. Este clculo de la recta de regresin consiste en hallar la ecuacin de la recta de regresin, y eventualmente luego dibujndola en un diagrama de coordenadas cartesianas. Una vez en posesin de esta ecuacin, podrn hacerse predicciones a partir de la ecuacin misma o bien a partir de la recta trazada en el diagrama de coordenadas. Ambos procedimientos sern examinados a continuacin con los nombres de clculo analtico de la regresin y clculo grfico de la regresin, respectivamente. 4.7 CLCULO ANALTICO DE LA REGRESIN
El clculo analtico de la regresin consiste en averiguar la ecuacin de la recta de regresin. Ello permitir realizar predicciones en base a dicha ecuacin. Una vez que se cuenta con un determinado conjunto de pares de valores obtenidos de la realidad, puede determinarse la ecuacin de la recta que los representan por dos mtodos: el mtodo de los cuadrados mnimos, y el mtodo de las desviaciones. Antes de examinarlos, debe tenerse presente que la forma general de una ecuacin de una recta es y = a + b.x (8). Determinar la ecuacin de la recta significa asignarle un valor al parmetro a y otro valor al parmetro b. Los mtodos indicados tienen como fin determinar el valor de ambos parmetros. a) Mtodo de los cuadrados mnimos.La ecuacin de la recta que tiene la forma y1 = a + b . x1 se obtiene averiguando los valores a y b. Una vez obtenidos ambos valores, puede realizarse una prediccin cualquiera: a partir de x1 como el valor conocido, se puede predecir el valor de y1. Las frmulas para el clculo de a y b son las siguientes: n (x.y) x. y b = -----------------------------n x2 - ( x)2 a = Y - b . X (donde Y y X son las respectivas medias aritmticas) Como puede apreciarse, primero debe calcularse b, ya que para calcular a se requiere conocer b. b) Mtodo de las desviaciones.La ecuacin de la recta se obtiene a partir de la siguiente expresin: y = r . (Sy / Sx) . (x - X) + Y En esta ecuacin de la recta, la expresin r . (Sy / Sx) se llama coeficiente de regresin. Como puede apreciarse, la aplicacin del mtodo de las desviaciones requiere conocer las medias aritmticas y los desvos estndar de X e Y. Tambin requiere conocer el coeficiente de correlacin r, para lo cual resulta aqu recomendable utilizar la frmula nmero 1. Ejemplo de prediccin en base a la ecuacin de la recta.- Si se dispone ya de una ecuacin de la recta, ser muy sencillo hacer una prediccin del valor de y en funcin del valor de x. En cambio, si debe hacerse esa prediccin a partir de una simple lista de pares de valores correlacionados, primero deber obtenerse la ecuacin de la recta, para lo cual, a su vez si la idea es aplicar el mtodo de las desviaciones- deben conocerse las medias aritmticas de x e y, los desvos estndar de x e y, y la correlacin r entre x e y. Considrese la siguiente lista de pares de valores ordenados: Sujeto A B C D E F X (edad) 2 3 5 6 6 8 Y (puntaje test) 55 60 65 80 85 75
A los efectos de poder obtener informacin sobre las medias aritmticas, los desvos estndar y el coeficiente de correlacin (necesarios para calcular la ecuacin de la recta), se ampla la tabla anterior de la siguiente manera: Sujeto A B C D X (edad) 2 3 5 6 Y (puntaje test) 55 60 65 80 (X-X) -3 -2 0 1 (Y-Y) -15 -10 -5 10 (X-X) (Y-Y) 45 20 0 10
E F Total
6 8 30
85 75 420
1 3 ---
15 5 ---
15 15 105
Aplicando la frmula correspondiente, se obtienen las medias aritmticas de X e Y (que son 5 y 70). Aplicando la frmula correspondiente, se obtienen los desvos estndar de X e Y (que son 2 y 10.8). Aplicando la frmula 1, se obtiene el coeficiente de correlacin (que es r = +0.81). Finalmente, se obtiene la ecuacin de la recta utilizando el mtodo de loas desviaciones: y = r . (Sy / Sx) . (x - X) + Y y = 0.81 (10.8 / 2) . (x 5) + 70 Esta expresin se transforma de manera tal que adopte la forma tpica de la ecuacin de la recta, con lo cual se obtiene: y = 47.85 4.43 . x Una vez que se cuenta con la ecuacin de la recta, ahora s pueden hacerse predicciones. Por ejemplo, si a un nio que 10 aos se le toma el test, cul ser el puntaje ms probable que obtendr? y = 47.85 4.43 . x y = 47.85 4.43 . 10 = 92.15 y = 92.15 4.8 CLCULO GRFICO DE LA REGRESIN El clculo grfico de la regresin consiste en trazar la recta de regresin en base a la ecuacin de la recta obtenida en el clculo analtico. Ello permitir realizar predicciones en base a dicha recta trazada en el diagrama de coordenadas cartesianas. La recta de regresin, como toda recta, puede determinarse por dos puntos. Un punto es la ordenada al origen, y el otro punto es la interseccin de las medias aritmticas de x e y. Este ltimo punto se llama baricentro. Tomando el ejemplo anterior, la ordenada al origen es 47.85, mientras que el baricentro queda determinado por las medias aritmticas 5 y 70, con lo cual la recta de regresin ser la siguiente:
Y 90 80 70 60 50 40 30 20 10 0 0 1 2 3 4 5 6 7 8 9 10 X
Ejemplo de prediccin en base a la recta del diagrama cartesiano .- Considerando solamente la recta dibujada, puede hacerse una prediccin (mtodo grfico). Por ejemplo, si se sabe que x = 7, puede predecirse que el valor de y ser 82 de la siguiente manera:
Y 90 80 70 60 50 40 30 20 10 0 0 1 2 3 4 5 6 7 8 9 10 X
Error estndar de la prediccin.- En el ejemplo anterior la prediccin realizada es slo probable, lo que significa que se est cometiendo algn error en la estimacin del valor y. Ello es as porque se ha calculado el coeficiente de correlacin r y la ecuacin de la recta de regresin en base a una muestra (en este caso de apenas seis sujetos) y con esta informacin se est intentando predecir un valor nuevo que no est en la muestra, es decir, que pertenece a la poblacin. Adems, se est suponiendo (Kohan N, 1994:228) que la muestra ha sido tomada al azar, y que ambas variables se distribuyen normalmente. Es posible estimar el error estndar cometido en base a la siguiente expresin:
est y
1r
Esto es, el error estndar es igual al desvo estndar poblacional multiplicado por la raz cuadrada de la diferencia entre 1 y el cuadrado del coeficiente de correlacin. En el ejemplo anterior, el desvo estndar vala 10.8 y el coeficiente de correlacin vala 0.82. Reemplazando, se obtiene:
est y
1 0.82 = 6.2
Esto significa que el valor de y predicho y = 82, estar en un 68% de los casos entre 82 6.2, es decir entre 88.2 y 75.8. O si se quiere, hay un 68% de probabilidades que el valor de y se encuentre entre 88.2 y 75.8. Desde ya, tambin puede calcularse este intervalo de confianza en base a un 95% o un 99% de probabilidades, en cuyo caso el intervalo de confianza deber ser mayor.
NOTAS (1) Una distribucin de frecuencias bivariada es un conjunto de pares de valores, correspondientes a dos variables observadas conjuntamente, con sus respectivas frecuencias. Cuando la distribucin se registra en una tabla de doble entrada se obtiene una tabla de contingencia. En cada celda de esta tabla se indica la frecuencia con que se observ cada par de valores. (2) Algunos autores (por ejemplo Botella, 1993:183), clasifican en tres los casos posibles de relacin lineal entre variables. a) Relacin lineal directa: se dice que dos variables X e Y mantienen una relacin lineal directa cuando los valores altos en Y tienden a emparejarse con valores altos en X, los valores intermedios en Y tienden a emparejarse con valores intermedios en X, y los valores bajos en Y tienden a emparejarse con valores bajos en X. Por ejemplo: la relacin entre inteligencia y rendimiento. b) Relacin lineal inversa: se dice que dos variables X e Y mantienen una relacin lineal inversa cuando los valores altos en Y tienden a emparejarse con valores bajos en X, los valores intermedios en Y tienden a emparejarse con valores intermedios en X, y los valores bajos en Y tienden a emparejarse con valores altos en X. Por ejemplo: la relacin entre tiempo y errores. c) Relacin lineal nula: se dice que hay relacin lineal nula entre dos variables cuando no hay un emparejamiento sistemtico entre ellas en funcin de sus valores. Por ejemplo: la relacin entre estatura e inteligencia. (3) Otra forma de apreciar grficamente la correlacin es mediante el ngulo de correlacin: dadas las dos rectas y1 = a + b . x1 y x1 = a + b . y1 , el punto donde se intersectan se llama centroide. El ngulo entre ambas rectas se llama ngulo de correlacin. Cuanto menor es este ngulo, ms correlacin hay (Kohan, 1994:224). (4) Adems del clsico coeficiente "r" de Pearson, existen otros tambin destinados a medir el grado de asociacin entre variables. En el esquema siguiente se resumen algunos ejemplos. No deben confundirse los coeficientes derivados del coeficiente de Pearson, con estos otros coeficientes de correlacin, que en general fueron diseados de manera diferente o para otros propsitos. Nombre Coeficiente de Condiciones de aplicacin Se aplica sobre variables cuantitativas (de intervalos iguales o de cocientes).
Pearson Coeficiente Q de Yule Coeficiente de asociacin (gamma) de Goodmann y Kruskal Coeficiente (Rho) de Spearman Coeficiente Etha
Adems, las variables deben estar distribuidas normalmente, o al menos tratarse de distribuciones bastante simtricas respecto de la media. Se llama tambin coeficiente de correlacin producto-momento de Pearson. De fcil clculo e interpretacin como el anterior, pero su uso se limita a dos variables nominales, con dos categoras cada una. Se utiliza sobre todo cuando son muchas observaciones y muy pocos valores ordinales alcanzados por ellas. Se busca computando las concordancias e inversiones en las ordenaciones que representan las dos variables y se aplica la frmula. No es ms que el coeficiente de Pearson aplicado a variables ordinales. Utilizado para variables cuantitativas (de intervalos iguales o de cocientes), debe reunir dos requisitos: que la curva de distribuciones sea bastante simtrica y unimodal, y que la asociacin de variacin sea al menos aproximadamente rectilnea. Para correlacionar simultneamente ms de dos variables. Para variables nominales.
Coeficiente de correlacin mltiple Coeficiente Phi
Otros coeficientes son: el Coeficiente (Tau) de Kendall (Kohan, 1994:260), el Coeficiente de Wilcoxon, el Coeficiente de Flanagan, el Coeficiente de correlacin multiserial de Jaspe, el Coeficiente T de Tschuprow, el Coeficiente de correlacin tetracrica (Kohan, 1994:281), etc. Todos los coeficientes de correlacin pueden aplicarse en psicologa, por ejemplo, en experimentos sobre el aprendizaje, en la teora factorialista de Spearman, y en psicometra cuando por ejemplo debemos establecer el grado de correlacin entre dos tests, o el grado de correlacin de un mismo test tomado en dos momentos diferentes. (5) En algunos textos de estadstica se describen frmulas abreviadas para facilitar los clculos cuando se dispone de un nmero grande de pares de valores. La disponibilidad actual de calculadoras de mesa y ordenadores personales hacen innecesarias estas frmulas (Botella, 1993:193). (6) La construccin de tests puede llevarse a cabo para realizar una investigacin ad hoc para la cual no hay instrumentos de medicin conocidos, o bien para crear una prueba que pueda ser utilizada por otros en diferentes circunstancias, aunque esto ltimo es ms raro en un mercado sobresaturado de pruebas psicomtricas y proyectivas donde es realmente muy difcil posicionar un test que pueda representar una mejora respecto de los anteriores. (7) Tambin puede ser una curva, pero en este artculo se describe solamente la regresin lineal, que se representa mediante una recta. (8) El valor a es la ordenada al origen, y el valor b es el coeficiente angular o pendiente de la recta, que equivale a la tangente del ngulo alfa (formado por la recta y otra recta paralela a la absisa). La ecuacin de la recta tambin puede representarse como x = a + b.y, en cuyo caso el parmetro a significar la absisa al origen. En este artculo no se considerar esta segunda expresin por razones de simplicidad, y por cuanto la idea es poder predecir un valor y en funcin de un valor x, y no un valor x en funcin de un valor y. As, la ecuacin y = a + b.x permite predecir cunto valdr y en funcin de x, mientras que la ecuacin x = a + b.y permite predecir cunto valdr x en funcin de y. Ambas rectas de regresin se cortan en un punto llamado centroide, y la correlacin entre las dos variables est dada por el ngulo entre las dos rectas: si este ngulo vale 0, la correlacin es 1 (Kohan N, 1994:224).
CAPTULO 5: ESTADISTICA INFERENCIAL 5.1 INTRODUCCIN A diferencia de la estadstica descriptiva, la estadstica inferencial va ms all de la mera descripcin de la muestra por cuanto se propone, a partir del examen de sta ltima, inferir una conclusin acerca de la poblacin, con un cierto nivel de confianza (o, complementariamente, con un cierto nivel de error). Las muestras de las cuales se ocupa la estadstica inferencial son muestras probabilsticas, es decir, aquellas en las cuales es posible calcular el error cometido al estimar una caracterstica poblacional (Kohan N, 1994:144) (1). Clsicamente, la estadstica inferencial se ocupa de dos cuestiones: la estimacin de parmetros y la prueba de hiptesis, aunque por lo general, la mayora de las aplicaciones de la estadstica inferencial pertenecen al rea de la prueba de hiptesis (Pagano, 1998:209). De acuerdo al mismo autor (1998:155), en la estimacin de parmetros el investigador busca determinar una caracterstica de la poblacin a partir de los datos de la muestra. Por ejemplo, tomando la variable edad, podra concluir que la probabilidad de que el intervalo 4050 contenga la media de la poblacin es de 0.95.
En cambio en la prueba de hiptesis, el investigador rene datos en una muestra para validar cierta hiptesis relativa a una poblacin. Ejemplos: a) para validar la hiptesis de que la media poblacional no tiene una diferencia significativa con la media muestral, toma ambas medias y las compara estadsticamente mediante la prueba de la media; b) para validar la hiptesis de que en la poblacin el mtodo de enseanza A es mejor que el B, el investigador toma dos muestras de alumnos y a cada uno le aplica un mtodo de enseanza diferente. El tipo de conclusin que se busca aqu podra ser que las mayores calificaciones en un grupo que en otro se deben al mtodo de enseanza aplicado y no al azar, y, adems, que dicha conclusin no se aplica slo a la muestra sino a toda la poblacin. En la estadstica inferencial se pueden hacer inferencias espaciales e inferencias temporales. Una inferencia espacial implica suponer, a partir de la muestra, cmo es la poblacin total. Una inferencia temporal es un caso especial donde, a partir de ciertos datos actuales podemos inferir o suponer ciertos otros datos que podamos obtener en el futuro, vale decir una poblacin potencial. 5.2 ESTIMACIN DE PARMETROS Esta tarea consiste en, partiendo de ciertos valores de la muestra llamados estadsticos o estadgrafos (por ejemplo la media aritmtica muestral), inferir ciertos otros valores de la poblacin llamados parmetros (por ejemplo la media aritmtica poblacional o esperanza). Ello es as porque en general lo que interesa es la poblacin, no la muestra. Cuando un investigador observa que en una muestra el 80% de las personas lee el diario, le interesar averiguar a partir de all qu porcentaje o proporcin de la poblacin lee el diario, ya que por ejemplo su inters es editar un nuevo peridico. De la misma forma, cuando un investigador observa que la media aritmtica muestral de la frecuencia cardaca es 80 pulsaciones por minuto, le interesar averiguar si ello se cumple tambin en la poblacin, ya que por ejemplo su inters puede ser comparar la frecuencia cardaca de sus pacientes con toda la poblacin para decidir sobre su salud en base a un criterio estadstico. Como puede verse, lo ms habitual es inferir medias aritmticas (promedios) y proporciones (porcentajes). As, a partir de la media aritmtica muestral se infiere la media aritmtica poblacional, y a partir de la proporcin observada en la muestra se infiere la proporcin en la poblacin. Existen dos tipos de estimacin de parmetros: la estimacin puntual y la estimacin intercalar (Pagano R, 1998:304). La estimacin puntual consiste en inferir un determinado valor para el parmetro. Por ejemplo, inferir que la poblacin debe tener puntualmente una media aritmtica de 80. La estimacin intervalar consiste en inferir dentro de qu intervalo de valores estar el parmetro con un determinado nivel de confianza. Por ejemplo, inferir que la poblacin debe tener una media aritmtica entre 75 y 83, con un nivel de confianza de 0.95 (esto es, hay un 95% de probabilidades de que el parmetro poblacional se encuentre entre 75 y 93) o, si se quiere, con un nivel de riesgo (4) de 0.05 (esto es, hay un 5% de probabilidades de que el parmetro no se encuentre entre esos valores). En general, resulta mucho ms riesgoso afirmar que el parmetro vale 80 que afirmar que vale entre 75 y 83. Por esta razn, se prefiere bajar este riesgo y establecer un intervalo de confianza, que podr ser de 0.90, 0.95, 0.99, etc, segn elija el investigador. Hay diferentes procedimientos de estimacin de parmetros, segn se trate de estimar medias o proporciones, o segn se trate de estimar parmetros de variables cualitativas (con dos categoras o con ms de dos categoras) o cuantitativas. En lo que sigue se dan algunos ejemplos combinados. Estimacin de la media poblacional para variables cuantitativas.- Conociendo la media muestral, es posible averiguar con un cierto nivel de confianza (por ejemplo 0.95), entre qu valores de la variable estar la media poblacional. Estos valores se llaman lmite superior del intervalo (Ls) y lmite inferior del intervalo (Li). Para obtener ambos valores se utilizan las siguientes frmulas: Ls = X + z . (S / n) Li = X - z . (S/ n) Donde: Ls = Lmite superior del intervalo de confianza. Li = Lmite inferior del intervalo de confianza. X = Media aritmtica muestral. S = Desvo estndar muestral. n = Tamao de la muestra. Si se trata de una muestra chica (menor a
30) se considera n-1. (S / n) = Desvo estndar poblacional. Cuando no tenemos el desvo estndar de la poblacin (hecho muy frecuente) se utiliza el desvo muestral (Rodrguez Feijo N, 2003). z . (S/ n) = Error muestral o estndar (error que puede cometerse al inferir la media poblacional) (3). z = Puntaje estandarizado que define el nivel de confianza. Si se desea un nivel de confianza de 0.90, debe consignarse z = 1.64. Si se desea un nivel de confianza de 0.95, debe consignarse z = 1.96. Si se desea un nivel de confianza de 0.99, debe consignarse z = 2.58. Para valores intermedios de nivel de confianza, pueden consultarse las tablas de reas de z (ver captulo sobre probabilidad y curva normal). Ejemplo (Rodrguez Feijo N, 2003).- En una muestra probabilstica de 600 nios de 10 aos de Capital Federal el cociente intelectual promedio obtenido fue de 105 con una desviacin estndar de 16. Con un intervalo de confianza del 95%, entre qu lmites oscilar el CI promedio de los nios de 10 aos de Capital Federal? Ls = X + z . (S / n) = 105 + 1.96 (16 / 600) = 106.27 Li = X - z . (S/ n) = 105 - 1.96 (16 / 600) = 103.73 Respuesta: con un riesgo de 5% de equivocarse en la estimacin, el CI promedio de los nios de 10 aos de Capital Federal oscila entre 103.73 y 106.27 puntos. Estimacin de proporciones para variables cualitativas de dos categoras (Kohan N, 1994:166).- Conociendo la proporcin muestral, es posible averiguar con cierto nivel de confianza (por ejemplo 0.99) entre qu proporciones estar la proporcin poblacional. Tngase presente que una variable con dos categoras es una variable que tiene solamente dos posibilidades de variacin (por ejemplo: el sexo). Para obtener los lmites superior e inferior del intervalo de confianza, se utilizan las siguientes frmulas: Ls = p + z . ( p . q / n) Li = p - z . ( p . q / n)
Nota: La raz cuadrada afecta a p, q y n.
Donde: Ls = Lmite superior del intervalo de confianza. Li = Lmite inferior del intervalo de confianza. p = Proporcin muestral z = Puntaje estandarizado que define el nivel de confianza. Si se desea un nivel de confianza de 0.90, debe consignarse z = 1.64. Si se desea un nivel de confianza de 0.95, debe consignarse z = 1.96. Si se desea un nivel de confianza de 0.99, debe consignarse z = 2.58. Para valores intermedios de nivel de confianza, pueden consultarse las tablas de reas de z (ver captulo sobre probabilidad y curva normal). q = Proporcin que falta para llegar al 100%. Por ejemplo: si p es 65%, entonces q = 35%). n = Tamao de la muestra. Si se trata de una muestra chica (menor a 30) se considera n-1.
Ejemplo.- En una muestra probabilstica de 100 personas, el 20% son masculinos. Con un intervalo de confianza del 99%, entre qu proporciones oscilar el porcentaje de masculinos en la poblacin? Ls = 20% + 2.58 . ( 20 . 80 / 100) = 30.3% Li = 20% 2.58 . ( 20 . 80 / 100) = 9.7% Respuesta: con un riesgo de 1% de equivocarse en la estimacin, la proporcin de masculinos en la poblacin oscila entre el 9.7% y el 30.3%. 5.3 PRUEBA DE HIPTESIS Las pruebas de hiptesis se utilizan para probar alguna hiptesis en investigacin cientfica (10). Cuando el investigador propone una hiptesis, su deseo ser poder confirmarla (porque l mismo la propuso o porque cree intuitivamente en ella). Si decide hacer una prueba estadstica para salir de dudas, entonces realizar una prueba de hiptesis y establecer dos hiptesis estadsticas: su propia hiptesis, a la que convertir en hiptesis alternativa, y la
opuesta, que llamar hiptesis nula, y la tarea consistir en intentar probar esta ltima. Si la rechaza, aceptar la alternativa, y si la acepta, rechazar la alternativa (7). Existe una gran variedad de pruebas de hiptesis, pero todas ellas tienen en comn una determinada secuencia de operaciones, que son las siguientes: 1) Formulacin de la hiptesis de investigacin y obtencin de los datos.- El investigador comienza formulando la hiptesis que pretende probar. Por ejemplo, que una determinada droga cura una enfermedad. Luego, disea un experimento y lo ejecuta para obtener datos que permitan aceptar o no la hiptesis. Por ejemplo, administra la droga a un grupo y al otro no, para comparar los resultados. Estrictamente, este primer paso no forma parte de la prueba estadstica de la hiptesis pero es una condicin necesaria para realizarla, y ello por tres motivos: a) si no hay datos empricos, no puede realizarse ningn estudio estadstico, del mismo modo que si no hay combustible, el motor no funcionar; b) si los datos obtenidos en el experimento o en la observacin son lo suficientemente convincentes como para aceptar o rechazar la hiptesis de investigacin, no ser necesario emplear una prueba estadstica de hiptesis, con lo cual, este primer paso permite decidir si cabe o no aplicarla, an cuando se sepa que en la inmensa mayora de los casos s cabe hacerlo. Por ejemplo, si el 100% de los pacientes tratados con una droga se cura, mientras que el 100% de los pacientes no tratados sigue enfermo, es posible concluir, sin la ayuda de la estadstica, que cabe aceptar la hiptesis de investigacin segn la cual la droga cura. Sin embargo, en la realidad no suelen obtenerse datos tan auspiciosos, por lo que se requiere una prueba estadstica; y c) para obtener datos se utiliza un determinado diseo de investigacin, y la eleccin de la prueba estadstica de hiptesis ms adecuada depender del tipo de diseo de investigacin utilizado. En suma, es importante saber qu diseo est usando el investigador, cules son las variables que puede controlar y en funcin de esto buscar la prueba estadstica adecuada (Kohan, 1994:357). 2) Formulacin de la hiptesis alternativa y la hiptesis nula.- Si la prueba estadstica resulta necesaria, la hiptesis de investigacin es reformulada en trminos estadsticos, obtenindose la hiptesis alternativa (Ha). A continuacin, se formula, en los mismos trminos, la hiptesis nula (Ho), que es la opuesta de la alternativa. Ambas reformulaciones incluyen consideraciones del tipo hay o no hay una diferencia significativa entre. Por ejemplo, si la hiptesis de investigacin sostiene que la droga cura, la hiptesis alternativa dir que hay una diferencia significativa entre los resultados del grupo de pacientes tratado y el grupo de pacientes no tratado. Por lo tanto, la hiptesis nula sostendr que no hay una diferencia significativa entre ambos grupos. En este caso, adems, la Ha plantea un cambio (la droga cura), mientras que la Ho plantea la permanencia de un estado (la droga no cura). Lo que siempre se intentar probar es la hiptesis nula para un determinado nivel de significacin o de riesgo. Si rechazamos la hiptesis nula aceptamos la alternativa, y si no rechazamos la hiptesis nula, rechazamos la alternativa, ya que ambas son mutuamente contradictorias (8). Al estimar parmetros o probar hiptesis pueden cometerse errores. Suelen describirse dos tipos de errores (Kohan N, 1994:178): El error Tipo I consiste en rechazar la hiptesis nula cuando en realidad es verdadera. O sea, creer que la muestra NO es representativa de la poblacin, cuando s lo es. Es el error del desconfiado. El error Tipo II consiste en aceptar la hiptesis nula cuando en realidad es falsa. O sea, creer que la muestra SI es representativa de la poblacin, cuando no lo es. Es el error del ingenuo. La probabilidad de cometer el error I se simboliza con la letra griega alfa ( ), y la probabilidad de cometer el error II se simboliza con la letra griega beta ( ) (Kohan N, 1994:185). Estos errores no son errores que cometan inadvertidamente los investigadores. Como la hiptesis nula se rechaza o se acepta en base a determinado nivel de significacin o de riesgo de equivocarse, siempre habr algn riesgo de error, que podr ser mayor o menor segn el nivel de riesgo elegido, pero que no obliga necesariamente a invalidar los resultados. Debe tenerse presente que siempre que se concluya algo sobre la poblacin a partir de la muestra, el procedimiento estar teido de algn grado de incertidumbre, es decir, siempre habr algn grado de probabilidad de cometer alguno de los dos tipos de errores.
3) Seleccin de la prueba de hiptesis ms adecuada.- Qued dicho que hay una gran cantidad de pruebas de hiptesis y su eleccin depende de la hiptesis alternativa que se formule, del nmero de casos examinados, del nivel de medicin utilizado, etc (Kohan N, 1994:176). Por ejemplo, a) si la hiptesis es direccional (es decir, especifica una relacin de mayor que o bien una relacin de menor que), se utilizar una prueba de hiptesis de una cola, mientras que si la hiptesis es no direccional (indica una relacin de diferente a), se utilizar una prueba de hiptesis de dos colas (11); b) si se conoce el desvo estndar poblacional, puede aplicarse la prueba z, mientras que si solamente se conoce el desvo estndar muestral, se aplicar la prueba t de Student; c) si se opera con variables medidas en un nivel nominal, puede utilizarse la prueba de chi cuadrado; si se trabaja con muestras muy pequeas (por ejemplo de 5 a 10 datos), la prueba t de Student es til. Seala Vessereau que se trata de un aporte importante por cuanto durante mucho t iempo se ha credo que era imposible sacar buen partido de las muestras muy pequeas (Vessereau A, 1962:33); d) La prueba ANOVA (anlisis de varianza): as como se pueden comparar las medias de dos muestras, existen pruebas que permiten confrontar su variabilidad (varianza o desviacin tpica). Estas pruebas sirven, entre otras, para resolver los problemas siguientes: 1) Reconocer si un grupo de muestras es homogneo; y 2) determinar, en la variabilidad de una poblacin de medidas, la parte que corresponde al azar y la que debe atribuirse a causas de variacin sistemticas, llamadas causas controladas o asignadas (Vessereau A, 1962:38). 4) Determinacin del nivel de significacin.- El nivel de significacin es la probabilidad de rechazar Ho siendo esta verdadera (error tipo I). Cada investigador elige su nivel de significacin, es decir, su probabilidad de equivocarse en el sentido indicado. Por ejemplo, puede elegirse un 5% o un 1% de probabilidad de error (o, lo que es lo mismo, un 95% o un 99% de probabilidad de no equivocarse). Seala Kohan (1994:177) que el nivel de significacin elegido depender de la importancia prctica de la investigacin. Por ejemplo, para un estudio sobre los efectos de una droga en el sistema nervioso se usar un nivel de significacin muy bajo, como por ejemplo un 0.01%, lo que minimiza al extremo su probabilidad de producir intoxicacin. Lo usual es especificar un nivel de significacin (probabilidad de cometer el error tipo I) y no el nivel de significacin (probabilidad de cometer el error tipo II). Una aclaracin ms detallada del concepto de significacin estadstica puede consultarse ms adelante en este mismo captulo 5) Determinacin del tamao de la muestra.- En principio, el tamao de la muestra n ya fue determinado en el momento de elegir y ejecutar el diseo de investigacin: cuanto mayor haya sido el tamao de la muestra elegido, menor ser el error de (Kohan, 1994:178). Sin embargo, tambin puede procederse al revs: si se elige un determinar nivel , puede determinarse por medios matemticos el tamao de la muestra n adecuado a ese nivel (Kohan N, 1994:181-185). As, por ejemplo, en general si el investigador desea un menor margen de error, deber aumentar el tamao de la muestra. Adems del tamao de la muestra, debern tambin determinarse la curva operativa caracterstica (Kohan N, 1994:180) y el poder de eficiencia de la prueba (o tambin potencia), definido este ltimo como la probabilidad de rechazar la hiptesis nula cuando es realmente falsa. Por consiguiente, el poder de eficiencia se define como 1 - , es decir, 1 menos la probabilidad del error II (no rechazar la hiptesis nula cuando es realmente falsa) (Kohan N, 1994:185). Tngase presente: Nivel de error tipo I 1Nivel de confianza Nivel de error tipo II Nivel de confianza Es la probabilidad de cometer el error tipo I. Probabilidad de rechazar la Ho cuando es verdadera. Es la probabilidad de NO cometer el error tipo I. Probabilidad de NO rechazar (aceptar) la Ho cuando es verdadera. Es la probabilidad de cometer el error tipo II. Probabilidad de NO rechazar (aceptar) la Ho cuando es falsa. Es la probabilidad de NO cometer el error tipo II. Probabilidad de rechazar la Ho cuando es falsa. Se llama poder de eficiencia o potencia de la prueba.
1-
6) Determinacin de la distribucin muestral de la prueba estadstica para Ho .- Seala Kohan (1994:186-187) que cuando un investigador eligi una prueba estadstica, necesita saber cul es su distribucin muestral, que es una distribucin terica que se obtendra si se
sacaran al azar todas las muestras posibles del mismo tamao de una poblacin (12). El conocimiento de esta distribucin muestral permite estimar la probabilidad de la ocurrencia de ciertos valores. 7) Definicin de la zona de rechazo.- Sobre la base de los puntos 3, 4, 5 y 6 deber ahora establecerse la zona de rechazo de la Ho. Para una mejor comprensin de este concepto, se puede trazar una lnea horizontal sobre la cual se podrn definir las zonas de rechazo y de no rechazo de la Ho. En esa lnea horizontal se indicarn valores que van desde -3 hasta +3, pasando por el 0 (cero). Estos valores corresponden a puntajes estandarizados, como por ejemplo z, si la prueba estadstica elegida es la prueba z, o t, si la prueba elegida es la prueba t de Student:
z -3 -2 -1 0 +1 +2 +3
t -3 -2 -1 0 +1 +2 +3
Las zonas de rechazo se definirn segn se trate de pruebas de hiptesis de una cola (hiptesis direccionales) o de dos colas (hiptesis no direccionales), segn el siguiente esquema:
z
Zona de rechazo Zona de aceptacin
Prueba de una cola a la izquierda
z
Zona de aceptacin Zona de rechazo
Prueba de una cola a la derecha
z
Zona de rechazo Z de aceptacin Zona de rechazo
Prueba de dos colas
Para determinar una zona de rechazo (o tambin zona crtica) es preciso indicar un determinado valor de z (o de t) que sirva para delimitar la zona de rechazo ( ) de la zona de aceptacin (1 - ). Ese valor recibe el nombre de z terico, z crtico o punto crtico, que se calcula en base a una tabla de z (o de t) y en base al nivel de significacin elegido. Existe una relacin bsica entre , y el tamao de muestra n. Puesto que es la probabilidad de que la estadstica de prueba (por ejemplo el z emprico) caiga en la regin de rechazo, un incremento en el tamao de esta regin aumenta , y simultneamente disminuye , para un tamao de muestra fijo. El reducir el tamao de la regin de rechazo disminuye y aumenta . Si se aumenta el tamao de muestra entonces, se tiene ms informacin en la cual basar la decisin y ambas y decrecern.
8) Decisin final (6).- Si el dato emprico (llamado z emprico) obtenido cae dentro de la zona de rechazo, se rechaza la Ho y por tanto se acepta la Ha. En cambio, si el dato cae fuera de esta zona de rechazo, no se rechaza (se acepta) la Ho, siempre para un nivel de significacin elegido (Kohan N, 1994:189). Por ejemplo:
z
-1.80 -1.65 Zona de aceptacin de la Ho
z terico = -1.65 z emprico = -1.80
Zona de rechazo de la Ho
En este ejemplo, se puede apreciar que el z terico delimita las zonas de rechazo y aceptacin de la Ho. Como de los datos del experimento result un z emprico ubicado dentro de la zona de rechazo, se decide rechazar la Ho y, por lo tanto, se acepta la Ha. 5.4 EJEMPLOS DE PRUEBAS DE HIPTESIS Existe una enorme cantidad de tipos de pruebas de hiptesis, adaptables a diversas necesidades y objetivos. En lo que sigue se suministran ejemplos de algunas de las pruebas ms frecuentes. 1) Prueba de la media.- Aqu no hay que estimar un intervalo para la media poblacional (como en la estimacin de parmetros), sino probar la hiptesis segn la cual no hay diferencia estadsticamente significativa entre la media poblacional y la muestral. Esta prueba, llamada tambin prueba de la media, se entiende cabalmente a partir de un conocimiento mnimo sobre distribucin muestral y teorema central del lmite (12). Existe una gran diversidad de pruebas de la media, segn que se conozca o no se conozca el desvo estndar poblacional (en cuyo caso se utiliza una prueba z o una prueba t, respectivamente), segn que la hiptesis sea direccional (prueba de una cola) o no direccional (prueba de dos colas), y segn se aplique a una sola muestra (Pagano R, 1998:293) o a dos muestras (Pagano R, 1998:317). Ejemplo.- Se supone que la estatura media de la poblacin de alumnos de una universidad es menor que 1.68 m, y su desvo estndar poblacional es de 0.10 m. Se cuenta con una muestra de 36 alumnos, con una media muestral de 1.65 m. Probar la hiptesis con un nivel de significacin o riesgo del 5%. Resolucin.- a) En primer lugar convendr ordenar los datos que suministra el problema: Tamao de la muestra (n) = 36. 1.68 m. Media aritmtica de la muestra (X) = 1.65 m. 0.10 m. Nivel de significacin ( ) = 5% = 0.05. Media aritmtica de la poblacin ( ) = Desvo estndar de la poblacin ( ) =
b) En segundo lugar, se establecen la hiptesis alternativa y la hiptesis nula. La hiptesis alternativa (Ha) sostiene que la media poblacional es menor que 1.68 m, o sea < 1.68 m. Ntese que, primero, la Ha siempre se refiere a la poblacin, no a la muestra; segundo, es la hiptesis deseable por el investigador y por tanto la que se quiere probar; tercero, en este caso particular la hiptesis se refiere a una permanencia, no a un cambio, ya que sostiene que la estatura media poblacional sigue siendo menor que 1.68 m. a pesar de la muestra, que parece sugerir lo contrario; de esto ltimo se desprende, en cuarto lugar, que la muestra no sera representativa de la poblacin, es decir, la diferencia entre muestra y poblacin sera significativa y en este caso debida al azar. La hiptesis nula (Ho) sostiene que la media poblacional es igual a 1.68 m, o sea = 1.68 m. Estrictamente hablando la Ho, por ser la opuesta a la Ha, debera proponer > 1.68 m, pero en la prctica se utiliza la igualdad.
La hiptesis nula (Ho) sostiene que la diferencia entre la media muestral y la media poblacional no es estadsticamente significativa para el nivel de significacin del 5%, o sea, la muestra es representativa de la poblacin. 2) Se calcula el z emprico mediante la siguiente frmula: X 1.65 1.68 ze = -------------- = ------------------ = - 1.8 / n 0.10 / 36 3) Se calcula el z terico mediante la tabla de z para un nivel de significacin del 5%. Como se trata de una hiptesis alternativa direccional que especifica una direccin de menor que, se emplea la tabla de reas de z hacia la izquierda (ver apndice). Puesto que se pide un nivel de significacin del 5%, traduciendo este valor a probabilidades obtenemos 0.05. A continuacin, se busca el valor de z que corresponde aproximadamente a esa probabilidad. Hay dos valores que se aproximan idnticamente: 0.0505 y 0.0495. Eligiendo arbitrariamente el primero, se obtiene: zt = -1.64 4) Se define la zona de rechazo mediante zt y se indica el valor de ze:
z
-1.8 -1.64 Zona de aceptacin de la Ho
z terico = -1.64 z emprico = -1.8
Zona de rechazo de la Ho
5) Como ze cae dentro de la regin de rechazo o regin crtica, entonces se rechaza la Ho, y por lo tanto, se acepta la Ha segn la cual la estatura media poblacional es menor que 1.68 m. En este caso se puede estar cometiendo un error tipo I, es decir, rechazar la Ho cuando es verdadera, con una probabilidad de = 0.05 (o si se quiere, existe una probabilidad del 5% de estar rechazando la Ho cuando es verdadera). 2) Prueba de hiptesis de correlacin (13).- La prueba de hiptesis que permite estudiar la significacin de una correlacin entre dos variables intenta probar la hiptesis nula que sostiene que la correlacin entre las dos variables ser cero en la poblacin origen. Las hiptesis estadsticas de esta prueba son: Ho) = 0 Ha) 0 La significacin del coeficiente de correlacin se estudia por medio de la distribucin t de Student. Para ello se obtiene el valor de: que se sita bajo la distribucin t (n-2, ). Ejemplo.- Sean, a efectos didcticos, las siguientes seis observaciones obtenidas en dos variables X e Y: X 10 10 12 12 14 16 Y 13 16 12 17 15 15
Resolucin.- Aplicando la expresin del coeficiente de correlacin lineal de Pearson, se obtiene r = 0.1225.
Si se quiere contrastar la hiptesis nula Ho) = 0, se deber estudiar la significacin del valor r obtenido. Para estudiar su significacin se debe transformar, en primer lugar, el valor de la correlacin en un valor t (t emprico) y, en segundo lugar, comparar dicho valor con el valor de las tablas de la t de Student (t terico) con n-2 grados de libertad (ver Tabla t en Anexo).
El valor proporcionado por las tablas es t (4, 0.05)= 2.776. As, puesto que el valor obtenido es inferior al de las tablas se concluye que los datos no aportan informacin para rechazar la hiptesis nula Ho en funcin de la cual las dos variables no estn correlacionadas en la poblacin origen de la muestra. 5.5 EL CONCEPTO DE SIGNIFICACIN ESTADSTICA En este tem se ofrecen mayores detalles este importante concepto de la estadstica inferencial, con un tercer ejemplo de prueba de hiptesis. Uno de los fines de la estadstica inferencial consiste en determinar si la diferencia entre dos conjuntos de datos es o no significativa. En el contexto de la investigacin cientfica, ambos conjuntos de datos pueden consistir en dos muestras (por ejemplo entre el grupo experimental y el grupo de control), o bien entre una muestra y una poblacin de la que fue extrada. 1) Diferencia entre muestras.- Cuando la investigacin incluye un diseo experimental, es sabido que las muestras (entonces designadas como grupo experimental y grupo de control), en general exigen un tratamiento estadstico antes y despus de la manipulacin, es decir, antes y despus de su exposicin a la influencia de la variable experimental x. a) Antes de aplicar x lo que se exige es que no haya diferencias significativas entre los grupos experimental y de control, tanto en lo referente a x como en las variables de control (es decir a las variables extraas relevantes que requieren ser controladas). b) Despus de aplicar x, lo que se espera como deseable (para aceptar la hiptesis de investigacin) es que haya diferencias significativas en cuanto a x entre ambos grupos. La teora de las muestras (2) es til para poder determinar si las diferencias observadas entre dos muestras son realmente debidas al azar o si son significativas, lo que puede llevar a un proceso de toma de decisiones gracias a las pruebas de hiptesis y de significacin que se pueden hacer (Kohan N, 1994:144). 2) Diferencia entre muestra y poblacin.- Queda, no obstante, otra tarea adicional para la estadstica inferencial: establecer si las conclusiones obtenidas para la muestra experimental, luego de la exposicin a x, pueden extenderse lcitamente a toda la poblacin, habida cuenta de que la ciencia busca un conocimiento vlido y universal. Esta tarea es lo que Kohan describe como probar hiptesis vlidas para la poblacin correspondiente, conociendo la informacin de las muestras (Kohan N, 1994:144). La misma autora indica que para que las conclusiones que se obtienen a partir de las muestras sean vlidas, stas deben ser representativas de la poblacin. El objetivo de este tem es explicar con un ejemplo de qu manera se puede alcanzar el objetivo 1b, es decir, como se puede probar si hay o no diferencias significativas entre un grupo experimental y un grupo de control. Los resultados de un experimento requieren un tratamiento estadstico que permita orientar al investigador acerca de si la hiptesis de investigacin debe ser rechazada o no rechazada, para lo cual deber establecer convencionalmente un determinado nivel de significacin que permita diferenciar resultados estadsticamente significativos de resultados estadsticamente no significativos. Seguidamente se explica en detalle esta aseveracin. En los informes de investigacin suelen aparecer expresiones del tipo "los resultados del experimento son estadsticamente significativos". Seguidamente se aclarar en forma intuitiva qu quiere decir esto, siguiendo los lineamientos didcticos de Len y Montero (1995:105-130).
Supngase un sencillo experimento, donde se trata de probar si un choque emocional altera o no el recuerdo de los sucesos inmediatamente anteriores al mismo. Para ello, se tomaron dos grupos de estudiantes: el grupo experimental presenci una pelcula donde haba una escena violenta, y el grupo de control presenci la misma pelcula pero sin la escena violenta. Los resultados fueron los siguientes: el grupo sometido al choque emocional lograba luego recordar un promedio de 10, mientras que el grupo sin choque emocional lograba recordar ms sobre las escenas del film: por ejemplo, un promedio de 15. Esquemticamente: Grupo Grupo I (vieron escena violenta) Grupo II (no vieron escena violenta) Choque emocional SI NO Recuerdo 10 15
Lo que debe ahora establecerse es si esta diferencia en los recuerdos entre 10 y 15 es o no significativa, es decir, si va o no ms all del simple azar. Si se concluye que NO es significativa, entonces las diferencias entre 10 y 15 se deben al azar, pero si se concluye que SI es una diferencia significativa, entonces no debe descartarse la influencia del choque emocional sobre la memoria. La expresin 'significativa' quiere decir una diferencia lo suficientemente grande como para pensar que el choque emocional influye sobre los recuerdos. En principio, para averiguar si la diferencia es o no significativa, puede apelarse a dos procedimientos, que podran llamarse el procedimiento intuitivo y el procedimiento estadstico. a) El procedimiento intuitivo es muy simple: se advierte que la diferencia entre ambos grupos es 15-10=5, y entonces se piensa: "evidentemente, hay una diferencia significativa". Si ambos grupos hubiesen obtenido 15, se pensara que no habra diferencia significativa y entonces se concluira que el choque emocional no influye sobre el recuerdo. Como puede notarse, este procedimiento intuitivo tiene el problema de la subjetividad en la estimacin de los resultados. Tal vez para otro investigador no hubiese sido significativa la diferencia de 5 sino una diferencia mayor, como por ejemplo 8. Ambos investigadores polemizaran fundamentando sus argumentaciones sobre la base de simples impresiones o creencias, es decir, jams llegaran a un acuerdo, y, en el mejor de los casos, acordaran buscar un procedimiento ms objetivo. En este caso contrataran a un tcnico en estadstica para que hiciera una estimacin como la que ahora se pasa a explicar. b) El procedimiento estadstico es ms complejo que el anterior: en lugar de intentar averiguar si la diferencia entre las promedios 15 y 10 es "intuitivamente significativa", lo que intentar probar es si la diferencia es "estadsticamente significativa". Cabe aqu anticipar algo que sealan Len y Montero: "Encontrar una diferencia de valores que no es estadsticamente significativa equivale a decir que esa diferencia la hemos encontrado por casualidad. O lo que es lo mismo, si repitiramos el proceso, el promedio de diferencias encontradas sera cero". Qu significa esta ltima expresin? Significa que si se hicieran otros experimentos con otros grupos, puesto que las diferencias que se obtienen obedecen a la casualidad, una vez se podra encontrar una diferencia de 5, otra vez una diferencia de 3, otra vez una diferencia de -4, etc, es decir, saldran nmeros al azar cuyo promedio tendera a cero, puesto que si dicho promedio tendiese a 5, entonces los resultados ya podran ser pensados como significativos. A partir del ejemplo, se puede ahora examinar el concepto de significacin estadstica, central dentro de la teora de las muestras (5). Len y Montero proponen imaginar por un momento una variante del experimento anterior, donde ninguno de los dos grupos fue expuesto al choque emocional, es decir, ambos grupos vieron la misma pelcula sin la escena violenta. Desde ya, este experimento carece de sentido, porque lo que interesa es ver si hay o no diferencias entre dos grupos en lo concerniente a capacidad de recordar, sometidos cada uno a 'diferentes' condiciones experimentales (uno vio la escena violenta y el otro no). Sin embargo, analizar lo que sucedera en este experimento imaginario resultar til para entender la idea de significacin estadstica, como enseguida se ver. En este experimento imaginario, puesto que ambos grupos no recibieron el estmulo violento, es esperable que los rendimientos mnmicos sean iguales, o por lo menos aproximadamente iguales, porque siempre cabe la posibilidad de la intervencin de pequeas variables no controladas.
Repitiendo varias veces el experimento, una vez podramos obtener una diferencia de 0, otra vez una diferencia de 0.5, otra vez una diferencia de -1, etc. Si el experimento se repitiese diez mil veces, es razonable pensar que habra muy pocos casos donde la diferencia fuese muy extrema (por ejemplo 7 o -7), y muchos casos prximos a una diferencia de 0. Las diferencias obtenidas en los diez mil experimentos podran resumirse, segn este criterio, en la tabla 1. Tabla 1 Diferencias entre los 2 grupos 7 6 5 4 3 2 1 0 -1 -2 -3 -4 -5 -6 -7 Total Cantidad de experimentos (frecuencias) 5 25 90 280 680 1200 1690 2000 1700 1190 720 290 100 26 4 10.000
Los resultados de la tabla 1 permiten ver, en efecto, que hay muy pocos experimentos donde la diferencia entre grupos es muy grande (en apenas 5 experimentos la diferencia fue 7), mientras que hay muchos experimentos donde la diferencia entre grupos es nula (hay 2000 experimentos donde la diferencia fue 0). La tabla tambin informa sobre lo siguiente: a) La cantidad de casos que obtuvieron como diferencia entre +1 y -1 fue de 5.390 casos (que resulta de sumar 1690 + 2000 + 1700). Ello representa el 53,9% ms prximo a cero del total de casos. b) La cantidad de casos que obtuvieron como diferencia entre +3 y -3 fue de 9180 casos. Esto representa el 91,8% ms prximo a cero del total de casos, y se puede graficar mediante una curva normal tal como aparece en el grfico 1. En este grfico se puede visualizar fcilmente que el 91,8% de los experimentos obtuvo una diferencia de -3 hasta +3. Grfico 1
2000 Frecuencias
91,8%
z
-7 +7 -6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6
Diferencias
Una vez hechos estos clculos, ahora cabe hacerse una pregunta fundamental: dentro de qu intervalo de diferencias cabra admitir que las diferencias responden al simple azar? Dentro del intervalo -1 y +1? Dentro del intervalos -3 y +3? Por las dudas, se considerar convencionalmente este ltimo intervalo. Esto quiere decir, por ejemplo, que si en un experimento se obtuvo una diferencia de 2, entonces se considerar que dicha diferencia se debe al azar (pues 2 est entre -3 y +3), mientras que si en otro experimento se obtuvo una diferencia de 6, entonces se considerar que dicha diferencia no se debe al azar (pues 6 est fuera del intervalo entre -3 y +3), es decir, se considerar que la diferencia es 'estadsticamente significativa'. Supngase ahora el experimento original, donde un grupo era sometido al estmulo violento y el otro no, es decir, donde los grupos son sometidos a diferentes condiciones experimentales. En uno de dichos experimentos se ha obtenido, por ejemplo, una diferencia de 2.5; por lo tanto, deber concluirse que esta diferencia no es 'estadsticamente significativa' porque est comprendida dentro del 91,8% de los casos ms prximos a cero (o sea, entre -3 y +3), segn la convencin propuesta. En cambio, si la diferencia encontrada en otro experimento de este tipo hubiese sido de 5, este valor cae fuera del intervalo entre -3 y +3, y por lo tanto es 'estadsticamente significativo' (ver grfico 2). Desde ya, para decidir esto se ha considerado que el porcentaje que permite discriminar lo que es significativo de lo que no lo es era 91,8%. Si se hubiese elegido el 99%, una diferencia de 5 como resultado hubiese resultado estadsticamente no significativa. Sealan Len y Montero: "el investigador [es quien] determina el porcentaje que sirve para discriminar la significacin de la no significacin. Este tanto por ciento se denomina 'nivel de confianza', y tiene sus valores ms frecuentes entre 95% y 99%". Cuanto mayor es el porcentaje elegido, ms exigente deber ser en cuanto a la tipificacin de un resultado como estadsticamente significativo. En los informes de investigacin, en vez de citarse el nivel de confianza, se suele citar su complementario, que es el 'nivel de significacin' o 'nivel de riesgo'. En el caso del ejemplo, si el nivel de confianza era del 91,8%, el nivel de significacin o de riesgo ser lo que falta para completar 100%, es decir, el 8,2% (ver grfico 2). Ms an, inclusive, es frecuente expresar este nivel de significacin no en trminos de porcentajes sino en trminos de probabilidad, con lo cual, en vez de afirmarse 8,2%, se afirmar 0.082. Grfico 2
Nivel de significacin (o de riesgo) 4,1%
Nivel de confianza 91,8%
Nivel de significacin (o de riesgo) 4,1%
z
-7 +7 -6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6
Resultados estadsticamente significativos
Resultados estadsticamente NO significativos
Resultados estadsticamente significativos
Las expresiones 'confianza' y 'riesgo' resultan esclarecedoras para entender estos conceptos: si un experimento cae dentro del nivel de confianza se puede decir con tranquilidad, con 'confianza', que los resultados no son estadsticamente significativos, pero si cae dentro del nivel de riesgo, el investigador se estara 'arriesgando' a sostener que los resultados son estadsticamente significativos, es decir, a aceptar la hiptesis segn la cual un choque emocional efectivamente influye sobre los recuerdos. Len y Montero indican que encontrar diferencias estadsticamente significativas no es el propsito final del investigador, ni lo ms importante. Lo que el investigador persigue es en realidad determinar la significacin terica, ms que la significacin estadstica que le sirve como medio, es decir, si resulta o no relevante para alguna finalidad. As por ejemplo, si se ha constatado que un tratamiento para adelgazar produce una prdida de 2 Kg, esto puede ser estadsticamente significativo, pero mientras que para un investigador nutricionista ser adems tambin importante desde el punto de vista terico, para un vendedor de esa dieta no, porque 2 Kg. no le proporciona un buen argumento de venta. Una ltima acotacin. Podra ocurrir que algunos investigadores que hicieran el experimento del choque emocional hubiesen obtenido diferencias extremas, como por ejemplo -7 o +7, mientras que otros hubiesen obtenido diferencias ms prximas a cero, con lo cual los primeros hubiesen aceptado la hiptesis del choque emocional, mientras que los segundos la hubiesen rechazado. Este desacuerdo entre investigaciones puede ocurrir, con lo cual deber emprenderse lo que se llama un 'meta-anlisis', es decir, un procedimiento que permita integrar los resultados acumulados de una serie de investigaciones.
NOTAS (1) Las muestras no probabilsticas solo suelen usarse como primera aproximacin en trabajos piloto, pero no puede saberse cun confiables son sus resultados (Kohan N, 1994:146). (2) Toda teora de las muestras es una estadstica inferencial, pues se infieren a partir de los valores estadsticos hallados en las muestras los valores paramtricos ms probables para las poblaciones de las cuales hemos extrado las muestras (Kohan N, 1994:145). (3) Cuanto mayor es el error estndar, mayor es el intervalo de confianza. El error estndar es mayor cuando z es mayor, o sea, cuanto menor es el riesgo que se quiere correr; cuando n es menor (si se quiere ms precisin se necesitar una muestra ms grande), y cuando S es mayor. En sntesis: cuanto menor es el riesgo que se quiere correr, cuanto menor es el tamao de la muestra y cuanto mayor es el S (desvo estndar muestral), mayor ser el intervalo de confianza. (4) Este nivel de riesgo es tambin llamado nivel de significacin (Rodrguez Feijo N, 2003). (5) "La teora sobre las muestras... es til [entre otras cosas] para poder determinar si las diferencias observadas entre dos muestras son realmente debidas al azar o si son significativas, lo que puede llevar a un proceso de toma de decisiones gracias a las pruebas de hiptesis y de significacin que se pueden hacer" (Kohan N, 1994:144).
(6) La prueba de hiptesis tiende a ser denominada en la actualidad teora de la decisin (Kohan N, 1994:173). Con ello se quiere significar que la prueba de hiptesis se lleva a cabo sobre la base de una teora llamada teora de la decisin. (7) Un experimento clsico para probar la hiptesis del investigador es comparar dos muestras: el grupo experimental y el grupo de control. Si hay diferencia significativa entre la muestra experimental y la muestra de control, entonces NO hay diferencia significativa entre la muestra experimental y la poblacin. (8) Puede llamar la atencin que el investigador no pruebe directamente su hiptesis alternativa sino que lo haga indirectamente, probando la hiptesis nula. Por qu proceder para apoyar una teora mostrando que hay poca evidencia para apoyar la teora contraria? Por qu no apoyar directamente la hiptesis alternativa o de investigacin? La respuesta est en los problemas para evaluar las posibilidades de decisiones incorrectas. El argumento que en general puede encontrarse en los textos de estadstica es el siguiente: Si la hiptesis de investigacin es verdadera (por ejemplo una vacuna cura el resfriado), la prueba de la hiptesis nula (la contraria a la hiptesis de investigacin) deber conducir a su rechazo. En este caso, la probabilidad de tomar una decisin incorrecta corresponde a cuyo valor fue especificado al determinar la regin de rechazo. Por lo tanto, si se rechaza la hiptesis nula (que es lo deseable) se conoce inmediatamente la probabilidad de tomar una decisin incorrecta. Esto proporciona una medida de confianza de la conclusin. Supngase que se utiliza el razonamiento opuesto, probando la hiptesis alternativa (de investigacin) de que la vacuna es efectiva. Si la hiptesis de investigacin es verdadera, la estadstica de prueba probablemente caer en la regin de aceptacin (en lugar de la de rechazo). Ahora, para encontrar la probabilidad de una decisin incorrecta de debe evaluar , la probabilidad de aceptar la hiptesis nula cuando esta es falsa. A pesar de que esto no representa un gran esfuerzo para el problema de la vacuna contra el resfriado, es un trabajo adicional que se debe hacer y en algunos casos es muy difcil calcular . As que, para resumir, es mucho ms fcil seguir el camino de la prueba por contradiccin. Por lo tanto, el estadstico elegir la hiptesis contraria a la de la investigacin como hiptesis nula y su deseo es que la prueba conduzca a su rechazo. Si es as, el estadstico conoce el valor de y tiene una medida inmediata de la confianza que se puede depositar en esta conclusin. (9) Autores como Hernndez Sampieri et al (1996:91) nos ofrecen una interesante tipologa de hiptesis nulas que contemplan varias posibilidades. Concretamente, hacen referencia a: 1) hiptesis nulas descriptivas de una variable que se va a observar en un contexto (por ejemplo la expectativa de ingreso mensual de los trabajadores de la corporacin T no oscila entre 50.000 y 60.000 pesos colombianos); 2) hiptesis que niegan o contradicen la correlacin entre dos o ms variables (por ejem plo no hay relacin entre la autoestima y el temor de logro); 3) hiptesis que niegan que haya diferencia entre grupos (por ejemplo no existen diferencias en el contenido de sexo en las telenovelas S, L y M); y 4) hiptesis que niegan la relacin de causalidad entre dos o ms variables (por ejemplo la percepcin de la similitud en religin, valores y creencias no provoca mayor atraccin fsica). A nuestro entender, una visin ms completa de las hiptesis nulas debera considerar al menos cuatro sentidos, que podemos designar respectivamente en trminos de hiptesis nula de estimacin, hiptesis nula de correlacin, de causalidad y de validez externa: a) La hiptesis nula de estimacin vendra a afirmar que los estadsticos muestrales no son representativos de los parmetros poblacionales. b) La hiptesis nula de correlacin vendra a afirmar que no existe una correlacin significativa entre dos o ms variables. El nivel de significacin es en estos casos el que establece a priori el investigador cuando califica ciertos intervalos del coeficiente de correlacin como alto, medio, bajo, etc. c) La hiptesis nula de causalidad vendra a afirmar que los cambios en la variable dependiente Y no son adjudicables a los cambios de la variable independiente X. Pagano, por ejemplo, refiere que la hiptesis nula indica que la variable independiente no influye sobre la variable dependiente (Pagano, 1998:212). Este segundo sentido de hiptesis nula es el ms frecuentemente mencionado en los tratados sobre el tema. d) La hiptesis nula de validez externa vendra a indicar que las conclusiones obtenidas en la muestra no son extensibles -con el nivel confianza requerido- a toda la poblacin. Este tipo de hiptesis vendra entonces a negar la validez externa de un experimento, entendiendo aqu validez externa como requisitos de los diseos experimentales tal como por aparecen en gran parte de la bibliografa sobre el tema (por ejemplo Campbell D y Stanley J, 1995:16). Autores como Tamayo pareceran considerar este sentido de hiptesis nula cuando la incluyen dentro de las hiptesis estadsticas, definiendo stas ltimas como suposiciones sobre una poblacin que se realizan a partir de los datos observados, es decir, de una muestra (Tamayo M, 1999:120). La hiptesis nula de estimacin corresponde a la primera tarea de la estadstica inferencial: la estimacin de parmetros. Las hiptesis nulas de correlacin y de causalidad corresponderan a la prueba de hiptesis donde se busca establecer si y se debe a x y no al azar, y la hiptesis nula de validez externa corresponderan a la prueba de hiptesis donde se busca generalizar los resultados a toda la poblacin. (10) Debe diferenciarse la hiptesis de investigacin (H), la hiptesis alternativa (Ha) y la hiptesis nula (Ho). La hiptesis de investigacin resulta, segn Vessereau (1962:28), de consideraciones tericas o bien est sugerida por los datos mismos. A los efectos de probar la hiptesis de investigacin, deber drsele una forma estadstica, con lo cual se convierte en la hiptesis alternativa (esta forma estadstica significa que incluye por ejemplo alguna afirmacin acerca de si hay o no diferencias significativas). A su vez para probar esta hiptesis alternativa deber probarse la hiptesis nula, que no es otra cosa que la negacin de la hiptesis alternativa.
Ms concretamente, por lo general, la hiptesis de investigacin predice una relacin entre dos o ms variables (por ejemplo, que los nios que tienen mayor dominio del ojo izquierdo obtendrn puntajes de rendimiento en lectura bastante inferiores a los de los otros alumnos). Para probar esta hiptesis de manera estadstica, el investigador debe transformarla en hiptesis alternativa y luego negarla mediante la hiptesis nula. La hiptesis nula no siempre refleja las expectativas del investigador en relacin con el resultado del experimento. Por lo general, se opone a la hiptesis de investigacin, pero se la utiliza porque resulta ms apropiada para la aplicacin de los procedimientos estadsticos. La hiptesis nula determina que no existe relacin entre las variables consideradas (por ejemplo, en lo que respecta al rendimiento en la lectura, no hay ninguna diferencia entre los nios que poseen mayor dominio del ojo izquierdo y los dems). Por lo general, cuando se formula una hiptesis nula, se espera que sea rechazada. Si esto ltimo ocurre, se acepta la hiptesis de investigacin (Van Dalen: 189 -190). (11) Las pruebas de una cola y dos colas tambin se llaman pruebas de un extremo y dos extremos, o tambin unilaterales y bilaterales, o tambin one tailed test o two tailed test. (12) Dada una poblacin de la cual se conoce su media aritmtica, por ejemplo 70, su varianza, y su tamao N, por ejemplo 4, puede llevarse a cabo el siguiente procedimiento: a) primero se sacan todas las muestras posibles del mismo tamao. La cantidad de muestras posibles se puede calcular mediante un nmero combinatorio, y as, por ejemplo, de una poblacin de N = 4, se pueden obtener un total de 6 muestras de n = 2. b) A continuacin se calculan las medias aritmticas de cada una de las muestras posibles, con lo cual se obtiene una distribucin muestral de medias aritmticas. Por ejemplo, las medias aritmticas de las 6 muestras pueden ser: 50, 60, 70, 80 y 90. c) Seguidamente se calcula la media aritmtica de todas estas medias aritmticas, y se obtiene un valor de 70. Como puede apreciarse, esta media de todas la medias muestrales coincide con la media poblacional. La estadstica ha demostrado que esta distribucin de medias de todas las medias muestrales sigue el modelo de la curva normal, y se ha establecido as el teorema central de lmite, que dice que si se sacan repetidamente muestras de tamao n de una poblacin normal de cierta media y cierta varianza, la distribucin de las medias muestrales ser normal con una media igual a la media poblacional y con una varianza igual a la varianza poblacional dividido n. Desde ya, la precisin de la aproximacin mejora al aumentar n. De todo ello se desprende que si se selecciona una muestra cualquiera y sta tiene una determinada varianza (o sea, un determinado desvo estndar respecto de la media de las medias), se habr cometido un determinado error, llamado en este caso error estndar, por haber trabajado con una muestra en lugar de haberlo hecho con la poblacin. La frmula del error estndar no es otra cosa que el desvo estndar de la muestra en cuestin, lo que es igual al desvo estndar poblacional dividido por la raz cuadrada del tamao n de la muestra (Rodrguez Feijo, 2003) (Kohan N, 1994:150-153). (13) Extrado de http://www.bibliopsiquis.com/psicologiacom/vol5num1/2815/. Otro ejemplo de prueba de hiptesis de correlacin puede encontrarse en Kohan (1994:234). REFERENCIAS BIBLIOGRFICAS Bancroft H (1960) Introduccin a la bioestadstica. Buenos Aires: Eudeba. Botella R (1993) Anlisis de datos en psicologa I. Buenos Aires: Paids. Campbell D y Stanley J (1995), Diseos experimentales y cuasiexperimentales en la investigacin social. Buenos Aires: Amorrortu. Hernndez Sampieri R, Fernndez Collado C y Baptista Lucio P (1996), Metodologa de la investigacin. Mxico: McGraw-Hill. Kohan N (1994) Diseo estadstico. Buenos Aires, Eudeba. Lichtenthal S, Qu es la teora de la informacin. Buenos Aires, Revista Ciencia Nueva, N 3, 1970. Len O y Montero I (1995) Diseo de investigaciones (Introduccin a la lgica de la investigacin en Psicologa y Educacin), Madrid, McGraw-Hill. Levin R y Rubin D (1996) Estadstica para administradores. Prentice Hall, 6 ed. Pagano R (1998) Estadstica en las ciencias del comportamiento. Mxico: Internacional Thomson. 5 edicin. Rodrguez Feijo N (2003) Estadstica social. Tamayo M (1999), Diccionario de la investigacin cientfica. Mxico: Limusa. Van Dalen D y Meyer W, Manual de tcnica de la investigacin educacional. Vessereau A (1962) La estadstica. Buenos Aires: Eudeba. OTRAS FUENTES CONSULTADAS Ander-Egg E (1987) Tcnicas de Investigacin social. Buenos Aires: Hvmanitas, 21 edicin. Cuidet C (1969) Nociones bsicas para el tratamiento estadstico en los tests mentales. Buenos Aires: Opfyl. Garrett H (1966) Estadstica en Psicologa y Educacin. Buenos Aires: Paids.
ANEXOS ANEXO 1: NOMENCLATURA UTILIZADA EN ESTA GUA
Muchos de los smbolos que se emplean en estadstica no son universales. En la siguiente lista se presentan los smbolos que se utilizan en esta Gua, y tambin se incluyen los smbolos de las letras del alfabeto griego. Hay ciertas reglas que suelen ser universales, como por ejemplo, las letras griegas siempre se refieren a parmetros de la poblacin y las letras latinas se refieren a estadsticos de la muestra (Levin y Rubin, 1996).
Smbolo h CV CV% 0 Q Qt 0 D Dt Dm S f F Fant F% Fpos Fr fant fpos f f% fr As Li Ls xmay X Y Mn 0 Mn xmen Mo t 0 P Pt p Z z xm R DQ n N a | xn x1 x, y 2 S
Concepto Altura Coeficiente de variacin Coeficiente de variacin porcentual Cuartil de orden Cuartil t (ejemplo: Q3 = Cuartil 3) Decil de orden Decil t (ejemplo: D9 = Decil 9) Desviacin media Desvo estndar muestral Desvo estndar poblacional Frecuencia absoluta Frecuencia acumulada Frecuencia acumulada anterior Frecuencia acumulada porcentual Frecuencia acumulada posterior Frecuencia acumulada relativa Frecuencia del intervalo anterior Frecuencia del intervalo posterior Frecuencia expresada en grados Frecuencia porcentual Frecuencia relativa Indice de asimetra Lmite inferior del intervalo Lmite superior del intervalo Mayor valor de la variable Media aritmtica muestral de x Media aritmtica muestral de y Media aritmtica poblacional (esperanza) Mediana Mediana de orden Menor valor de la variable Modo Nmero de decil o del percentil Percentil de orden Percentil t (ejemplo P99 = Percentil 99) Probabilidad Puntaje estandarizada derivado Puntaje estandarizado reducido Punto medio del intervalo Rango o amplitud Rango o desvo intercuartlico Sumatoria Tamao de la muestra Tamao de la poblacin Tamao o amplitud del intervalo Valor absoluto Variable (cualquier valor de una) Variable (determinado valor de una) Variables (letras que designan) Variancia muestral
Variancia poblacional
Ls Li H Ho Ha Lmite superior del intervalo de confianza Lmite inferior del intervalo de confianza Hiptesis de investigacin Hiptesis nula Hiptesis alternativa Probabilidad de cometer un error Tipo I Probabilidad de cometer un error Tipo II Probabilidad de NO cometer el error tipo I Probabilidad de NO cometer el error tipo II z emprico z terico o crtico
11ze zt
Alfabeto griego
Nombre Mayscula Minscula Nombre Mayscula Minscula Nombre Mayscula Minscula
alfa beta gamma delta psilon dseta eta zeta
iota kappa lambda mi ni xi micron pi
ro sigma tau psilon fi ji psi omega
ANEXO 2: TABLA DE REAS BAJO LA CURVA NORMAL ESTANDARIZADA Las siguientes tablas representan dos maneras diferentes de proporcionar una misma informacin, a saber, la relacin entre el puntaje reducido z con la probabilidad p de ocurrencia del valor z. El valor de esta probabilidad es proporcional al rea correspondiente bajo la curva. Por ejemplo, dado un valor z, las tablas permite conocer qu probabilidad tiene que darse ese valor o ms o ese valor o menos, en un individuo elegido al azar. Desde ya, a la inversa, tambin permite conocer qu valor z corresponde a una determinada probabilidad. Los valores z figuran en la primera columna, mientras que los diferentes valores de probabilidad figuran en las columnas restantes. Por ejemplo: a) Siguiendo la Tabla 1, un puntaje reducido z = +1.26 o menor tiene una probabilidad de ocurrencia de p = 0.8962 (el rea bajo la curva normal corresponde al 89.62% de total del rea). b) Siguiendo la Tabla 2, un puntaje reducido z situado entre z = 0 y z = +1.26 tiene una probabilidad de ocurrencia de p = 0.3962 (el rea bajo la curva normal corresponde al 39.62% del total del rea). Arriba de cada tabla puede observarse un esquema de la curva normal. Las reas rayadas indican las reas que cada tabla permite calcular. Por ejemplo, la Tabla 1 permite calcular reas desde z hacia la izquierda, y la Tabla 2 calcula reas entre z y el centro de la distribucin (z = 0). Ntese que el ttulo asignado a la Tabla 2 es reas desde z = 0 hacia la izquierda o hacia la derecha. Esto significa que, debido a la perfecta simetra de la curva normal, una distancia entre z = +1.26 y 0 da la misma probabilidad que la distancia z = -1.26 y 0. Tabla 1 reas desde z hacia la izquierda
z -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 -0.0 0.0
Probabilidad (p) 0.00 .0003 .0005 .0007 .0010 .0013 .0019 .0026 .0035 .0047 .0062 .0082 .0107 .0139 .0179 .0228 .0287 .0359 .0446 .0548 .0668 .0808 .0968 .1151 .1357 .1587 .1841 .2119 .2420 .2743 .3085 .3446 .3821 .4207 .4602 .5000 .5000 0.01 .0003 .0005 .0007 .0009 .0013 .0018 .0025 .0034 .0045 .0060 .0080 .0104 .0136 .0174 .0222 .0281 .0352 .0436 .0537 .0655 .0793 .0951 .1131 .1335 .1562 .1814 .2090 .2389 .2709 .3050 .3409 .3783 .4168 .4562 .4960 .5040 0.02 .0003 .0005 .0006 .0009 .0013 .0017 .0024 .0033 .0044 .0059 .0078 .0102 .0132 .0170 .0217 .0274 .0344 .0427 .0526 .0643 .0778 .0934 .1112 .1314 .1539 .1788 .2061 .2358 .2676 .3015 .3372 .3745 .4129 .4522 .4920 .5080 0.03 .0003 .0004 .0006 .0009 .0012 .0017 .0023 .0032 .0043 .0057 .0075 .0099 .0129 .0166 .0212 .0268 .0336 .0418 .0516 .0630 .0764 .0918 .1093 .1292 .1515 .1762 .2033 .2327 .2643 .2981 .3336 .3707 .4090 .4483 .4880 .5120 0.04 .0003 .0004 .0006 .0008 .0012 0016. .0023 .0031 .0041 .0055 .0073 .0096 .0125 .0162 .0207 .0262 .0329 .0409 .0505 .0618 .0749 .0901 .1075 .1271 .1492 .1736 .2005 .2296 .2611 .2946 .3300 .3669 .4052 .4443 .4840 .5160 0.05 .0003 .0004 .0006 .0008 .0011 .0016 .0022 .0030 .0040 .0054 .0071 .0094 .0122 .0158 .0202 .0256 .0322 .0401 .0495 .0606 .0735 .0885 .1056 .1251 .1469 .1711 .1977 .2266 .2578 .2912 .3264 .3632 .4013 .4404 .4801 .5199 0.06 .0003 .0004 .0006 .0008 .0011 .0015 .0021 .0029 .0039 .0052 .0069 .0091 .0119 .0154 .0197 .0250 .0314 .0392 .0485 .0595 .0722 .0869 .1038 .1230 .1446 .1685 .1949 .2236 .2546 .2877 .3228 .3594 .3974 4364. .4761 .5239 0.07 .0003 .0004 .0005 .0008 .0011 .0015 .0021 .0028 .0038 .0051 .0068 .0089 .0116 .0150 .0192 .0244 .0307 .0384 .0475 .0582 .0708 .0853 .1020 .1210 .1423 .1660 .1922 .2206 .2514 .2843 .3192 .3557 .3936 4325. .4721 .5279 0.08 .0003 .0004 .0005 .0007 .0010 .0014 .0020 .0027 .0037 .0049 .0066 .0087 .0113 .0146 .0188 .0239 .0301 .0375 .0465 .0571 .0694 .0838 .1003 .1190 .1401 1635. .1894 .2177 .2483 .2810 .3156 .3520 .3897 4286. .4681 .5319 0.09 .0002 .0003 .0005 .0007 .0010 .0014 .0019 .0026 .0036 .0048 .0064 .0084 .0110 .0143 .0183 .0233 .0294 .0367 .0455 .0559 .0681 .0823 .0985 .1170 .1379 1611. .1867 .2148 .2451 .2776 .3121 .3483 .3859 4247. .4641 .5359
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4
.5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .8413 .8643 .8849 .9032 .9192 .9332 .9452 .9554 .9641 .9713 .9772 .9821 .9861 .9893 .9918 .9938 .9953 .9965 .9974 .9981 .9987 .9990 .9993 .9995 .9997
.5438 .5832 .6217 .6591 .6950 .7291 .7611 .7910 .8186 .8438 .8665 .8869 .9049 .9207 .9345 .9463 .9564 .9649 .9719 .9778 .9826 .9864 .9896 .9920 .9940 .9955 .9966 .9975 .9982 .9987 .9991 .9993 .9995 .9997
.5478 .5871 .6255 .6628 .6985 .7324 .7642 .7939 .8212 .8461 .8686 .8888 .9066 .9222 .9357 .9474 .9573 .9656 .9726 .9783 .9830 .9868 .9898 .9922 .9941 .9956 .9967 .9976 .9982 .9987 .9991 .9994 .9995 .9997
.5517 .5910 .6293 .6664 .7019 .7357 .7673 .7967 .8238 .8485 .8708 .8907 .9082 .9236 .9370 .9484 .9582 .9664 .9732 .9788 .9834 .9871 .9901 .9925 .9943 .9957 .9968 .9977 .9983 .9988 .9991 .9994 .9996 .9997
.5557 .5948 .6331 .6700 .7054 .7389 .7704 .7995 .8264 .8508 .8729 .8925 .9099 .9251 .9382 .9495 .9591 .9671 .9738 .9793 .9838 .9875 .9904 .9927 .9945 .9959 .9969 .9977 .9984 .9988 .9992 .9994 .9996 .9997
.5596 .5987 .6368 .6736 .7088 .7422 .7734 .8023 .8289 .8531 .8749 .8944 .9115 .9265 .9394 .9505 .9599 .9678 .9744 .9798 .9842 .4878 .9906 .9929 .9946 .9960 .9970 .9978 .9984 .9989 .9992 .9994 .9996 .9997
.5636 .6026 .6406 .6772 .7123 .7454 .7764 .8051 .8315 .8554 .8770 .8962 .9131 .9279 .9406 .9515 .9608 .9686 .9750 .9803 .9846 .9881 .9909 .9931 .9948 .9961 .9971 .9979 .9985 .9989 .9992 .9994 .9996 .9997
.5675 .6064 .6443 .6808 .7157 .7486 .7794 .8078 .8340 .8577 .8790 .8980 .9147 .9292 .9418 .9525 .9616 .9693 .9756 .9808 .9850 .9884 .9911 .9932 .9949 .9962 .9972 .9979 .9985 .9989 .9992 .9995 .9996 .9997
.5714 .6103 .6480 .6844 .7190 .7517 .7823 .8106 .8365 .8599 .8810 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .9761 .9812 .9854 .9887 .9913 .9934 .9951 .9963 .9973 .9980 .9986 .9990 .9993 .9995 .9996 .9997
.5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621 .8830 .9015 .9177 .9319 .9441 .9545 .9633 .9706 .9767 .9817 .9857 .9890 .9916 .9936 .9952 .9964 .9974 .9981 .9986 .9990 .9993 .9995 .9997 .9998
Tabla 2 reas desde z = 0 hacia la izquierda o hacia la derecha
Probabilidad (p)
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359 0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0754 0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141 0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517 0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879 0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224 0.6 .2258 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2518 .2549 0.7 .2580 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852 0.8 .2881 .2910 .2939 .2967 .2996 .3023 .3051 .3078 .3106 .3133 0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389 1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621 1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830 1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015 1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177 1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319 1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441 1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545 1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633 1.8 .4641 .4649 .4656 .4664 .4671 .4599 .4608 .4616 .4625 .4633 1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767 2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817 2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857 2.2 .4961 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890 2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916 2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936 2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952 2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964 2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974 2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981 2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986 3.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990 3.1 .4990 .4991 .4991 .4991 .4992 .4992 .4992 .4992 .4993 .4993 3.2 .4993 .4993 .4994 .4994 .4994 .4994 .4994 .4995 .4995 .4995 3.3 .4995 .4995 .4995 .4996 .4996 .4996 .4996 .4996 4996. .4997 3.4 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4998 ANEXO 3 TABLA DE LA DISTRIBUCION t (Student) Grado de libertad Nivel de probabilidad para pruebas de una cola 0.10 0.05 0.025 0.01 0.005 0.0005 Nivel de probabilidad para pruebas de dos colas 0.20 0.10 0.05 0.02 0.01 0.001 3.078 6.314 12.706 31.821 63.657 636.619 1.886 2.920 4.303 6.965 9.925 31.598 1.638 2.353 3.182 4.541 5.841 12.941
1 2 3
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 Infinito
1.533 2.132 2.776 3.747 1.476 2.015 2.571 3.365 1.440 1.943 2.447 3.143 1.415 1.895 2.365 2.998 1.397 1.860 2.306 2.896 1.383 1.833 2.262 2.821 1.372 1.812 2.228 2.764 1.363 1.796 2.201 2.718 1.356 1.782 2.179 2.681 1.350 1.771 2.160 2.650 1.345 1.761 2.145 2.624 1.341 1.753 2.131 2.602 1.337 1.746 2.120 2.583 1.333 1.740 2.110 2.567 1.330 1.734 2.101 2.552 1.328 1.729 2.093 2.539 1.325 1.725 2.086 2.528 1.323 1.721 2.080 2.518 1.321 1.717 2.074 2.508 1.319 1.714 2.069 2.500 1.318 1.711 2.064 2.492 1.316 1.708 2.060 2.485 1.315 1.706 2.056 2.479 1.314 1.703 2.052 2.473 1.313 1.701 2.048 2.467 1.311 1.699 2.045 2.462 1.310 1.697 2.042 2.457 1.303 1.684 2.021 2.423 1.296 1.671 2.000 2.390 1.289 1.658 1.980 2.358 1.282 1.645 1.960 2.326 (Fuente: Kohan, 1994:519).
4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576
8.610 6.859 5.959 5.405 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.551 3.460 3.373 3.291

Fundamentos de La Estadistica - Pablo Cazau

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Fundamentos de La Estadistica - Pablo Cazau

Cargado por

Copyright:

Formatos disponibles

Fundamentos de Estadstica Pablo Cazau

Todos los derechos reservados

Dos (o ms) variables

A lo largo del tiempo

Notas de todos los alumnos durante los 6 aos de carrera.

cursa en ese momento. Notas de un alumno a lo largo de los 6 aos de carrera.

DATOS ORDENADOS (matriz de datos)

DATOS RECOLECTADOS (entrevistas, cuestionarios, tests, etc)

DATOS AGRUPADOS POR FRECUENCIA (tabla de frecuencias)

DATOS AGRUPADOS POR INTERVALOS (tabla de frecuencias por intervalos)

DATOS VISUALIZADOS (grficos)

DATOS SINTETIZADOS (medidas estadsticas y medidas de asimetra y curtosis)

Nivel ordinal (Ejemplo: variable clase social)

f = frecuencia n = tamao de la muestra

Nivel cuantitativo (Ejemplo: variable edad)

Tabla de frecuencias x (edad) 15 16 17 18 19 20

f = frecuencia n = tamao de la muestra

Angina Saram pin Otras Angina

Saram pin Otras

Solteros Casados Separados x

Solteros Casados Separados

Solteros Casados Separados

punto medio (xm)

Es el dato o valor que divide la serie ordenada de

Tres cuartiles dividen la serie en cuatro partes iguales.

Nueve deciles dividen la serie en diez partes iguales.

Medida de posicin Modo

Nivel de medicin Nominal Ordinal Cuantitativo

Datos agrupados por intervalos

Media aritmtica Cuartil

x.f) 54+19+40+42+50+52+56 363 X = --------- = ----------------------------------- = -------- = 22.68 aos = 23 aos. n 16 16

1.5 4.5 7.5 10.5 13.5 16.5 19.5 22.5

12 45 82.5 126 121.5 115.5 117.6 112.5 732.5

xm.f) 732.5 X = ------------- = ---------- = 10.77 n 68

50-60 60-70 70-80 80-90 90-100

Es la raz cuadrada de la varianza (11)

DESVIO INTER CUARTILICO COEFICIENTE DE VARIACION

Es la diferencia entre el Q3 y el Q1. Es el cociente entre el desvo estndar y la media aritmtica.

Medida de dispersin Rango Desviacin media Desvo estndar

Datos ordenados R = xmay - xmen

Datos agrupados por frecuencia R = xmay - xmen No

Datos agrupados por intervalos

|xX| Dm = --------------n ( x X )2 S = ---------------n

|xX|.f Dm = -----------------n ( x X )2 . f S = ------------------n

Varianza Desvo intercuartlico Coeficiente de variacin

Es el cuadrado del 2 desvo estndar (S )

Es el cuadrado del desvo 2 estndar (S )

Es el cuadrado del desvo 2 estndar (S )

80 90 100 110 120 130 140

63 78 106 118 92 75 23 n = 600

5040 7020 10600 12980 11040 9750 3220 62800

1575 1170 530 590 1380 1875 115 8810

(5-7) + (6-7) + (10-7) ------------------------------------ = 3

Media Modo Asimetra cero

Asimetra negativa (curva hacia la derecha)

Asimetra positiva (curva hacia la izquierda)

50% del rea probabilidad = 0.5

50% del rea probabilidad = 0.5

x -3s -2s -1s X +1s +2s +3s z

Z 0 10 20 30 40 50 60 70 80 90 100 P P0 P2 P16 P50 P84 P98 P100

PUNTAJE BRUTO (x)

Multiplicar por 100

Dividir por 100