Está en la página 1de 79

Curso de Estadstica y Diseo de Experimentos 2009

Curso de Estadstica y Diseo de Experimentos


INTRODUCCIN
Autor: Pablo Otero pabloadrianotero@gmail.com

No entiendes realmente algo a menos que seas capaz de explicrselo a tu abuela. Albert Einstein Un cientfico debe tomarse la libertad de plantear cualquier cuestin, de dudar de cualquier afirmacin, de corregir errores. Julius R. Oppenheimer El experimentador que no sabe lo que est buscando no comprender lo que encuentra. Claude Bernard

Una breve introduccin epistemolgica

Aunque la palabra ciencia proviene de scientia que en latn significa conocimiento, los conocimientos que poseemos todos nosotros no provienen slo de las ciencias. De dnde proviene nuestro conocimiento? 1. De la intuicin: muchas veces asumimos cosas como ciertas por pura lgica, sin ningn tipo de razonamiento ni confirmacin emprica. Este tipo de conocimiento (intuiciones) posee la particularidad que es muy difcil de ser explicado a otra persona. 2. De nuestra experiencia: el haber vivido diferentes situaciones nos da ciertos conocimientos. Aunque muchas veces son saberes prcticos, este tipo de conocimiento puede llevarnos a cometer errores (como nica herramienta nos propone el mtodo de prueba y error) o incluso puede impedirnos aceptar alguna explicacin cientfica por encontrarla contraria a nuestra experiencia. 3. De nuestras tradiciones: algunos conocimientos nos son transferidos, los heredamos culturalmente y no son discutidos ya que siempre se lo has considerado de esa forma. 4. De autoridades: algunos conocimientos provienen de una fuente que, por las razones que sea, resulta indiscutible y por lo tanto son aceptados como tales. Los llamados principios, doctrinas o creencias son formas de este tipo de conocimiento. Los preceptos religiosos, la palabra de los
Pgina | 1

Curso de Estadstica y Diseo de Experimentos 2009

hechiceros y jefes tribales, la orden de un superior en una organizacin militar. Se trata de dogmas. 5. De las ciencias: algunos conocimientos son adquiridos de forma metdica, objetiva y pueden ser verificados y contrastados; se trata de los conocimientos cientficos. Este tipo de conocimientos se caracterizan adems por ser refutables y provisorios.

Buscando algunas definiciones de ciencia, encontr las siguientes:


Conjunto de conocimientos racionales, ciertos o probables, obtenidos metdicamente, sistematizados y verificables

Ciencia es el conocimiento sistematizado, elaborado mediante observaciones, razonamientos y pruebas metdicamente organizadas. La ciencia utiliza diferentes mtodos y tcnicas para la adquisicin y organizacin de conocimientos sobre la estructura de un conjunto de hechos objetivos y accesibles a varios observadores, adems de estar basada en un criterio de verdad y una correccin permanente. La aplicacin de esos mtodos y conocimientos conduce a la generacin de ms conocimiento objetivo en forma de predicciones concretas, cuantitativas y comprobables referidas a hechos observables pasados, presentes y futuros. Con frecuencia esas predicciones pueden formularse mediante razonamientos y estructurarse como reglas o leyes generales, que dan cuenta del comportamiento de un sistema y predicen cmo actuar dicho sistema en determinadas circunstancias.
Enciclopedia WIKIPEDIA

Si bien este curso no pretende adentrarse en cuestiones epistemolgicas, vamos a destacar el carcter metdico de la actividad cientfica y sobre todo su relacin con la estadstica. En realidad, el trmino ciencia tiene un significado doble. Por un lado la ciencia es un producto. Este producto sera el cmulo de informacin obtenida por las investigaciones llevadas a cabo. Estos conocimientos, que crecen a un ritmo exponencial, son organizados y divididos en diferentes reas y sirven para el desarrollo de aplicaciones tecnolgicas y culturales y como base terica para nuevas investigaciones. Pero tambin la ciencia se refiere al proceso de investigacin. Dado que los problemas cientficos no se inventan, sino que lo descubre un observador perspicaz, el camino que siga este investigador para resolver este problema es conocido como el mtodo cientfico. Es errnea la idea de que existe un slo mtodo cientfico una especie de receta con la cual si o si se genera conocimiento- y cada vez est ms claro que los mtodos utilizados en las diferentes ciencias no son iguales. Incluso cada investigacin concreta genera su propio mtodo, que es vlido siempre y cuando permita validar o refutar la hiptesis planteada. Slo se aceptar un nuevo conocimiento si el camino recorrido queda claro y puede ser reproducido y verificado. Bsicamente cualquier mtodo cientfico utilizado debera: Promover una revisin de hechos y teoras. Formular una hiptesis lgica y que est sujeta a prueba mediante mtodos experimentales. Evaluacin objetiva de las hiptesis basndose en los resultados experimentales obtenidos.

Pgina | 2

Curso de Estadstica y Diseo de Experimentos 2009

Qu relacin tiene esto con la estadstica?


La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos , siempre y cuando la variabilidad e incertidumbre sea una causa intrnseca de los mismos; as como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones .

Comprobar objetivamente la veracidad de una hiptesis presenta problemas ya que se hace a partir de un cierto nmero de eventos, resultados o hechos y no de la totalidad posible de sucesos; entra en juego la variabilidad. En esta situacin se debe partir de lo particular a lo general lo que constituye un proceso de inferencia incierto, ya que permite desaprobar hiptesis incorrectas pero no aceptar (definitivamente) hiptesis correctas. Si partimos de una parte de la informacin total posible, cualquier inferencia ser incierta, ya que el azar entra en juego en la obtencin de esos datos e introduce incertidumbre. Lo que se puede hacer mediante los mtodos estadsticos es medir cuanta incertidumbre hay. Por lo anteriormente dicho queda claro que la incertidumbre disminuye cuanto ms grande sea el nmero de casos estudiados. A mayor cantidad de casos estudiados menor incertidumbre, pero tambin mayor costo, no slo de dinero, sino sobre todo de tiempo y esfuerzo. En resumen, la estadstica se puede aplicar en el momento de disear un experimento, en el momento de recolectar los datos, en el momento de analizarlos y en el momento de evaluar la incertidumbre de la las inferencias extradas. La estadstica, que puede o no ser considerada una ciencia en s misma, es un conjunto de mtodos usados para recopilar, presentar, condensar y analizar informacin de los datos extrados de un sistema de estudio (Figura 1). El objetivo de esto es poder hacer estimaciones, comparaciones y sacar conclusiones que permitan tomar decisiones a futuro. Dado que la mayora de los mtodos estadsticos poseen una base terica matemtica, esta disciplina es considerada una rama de esta ciencia formal.

Figura 1: Objetivos de la estadstica.

Pgina | 3

Curso de Estadstica y Diseo de Experimentos 2009

La estadstica se ocupa de desarrollar mtodos que permitan recopilar datos de forma tal de que estos sean tiles para los objetivos planteados anteriormente. En la mayora de los estudios en los cuales participa la estadstica, se trabaja con una parte (muestra) y no con la totalidad de los datos existentes, por lo que resulta indispensable que la muestra sea representativa, si es que queremos sacar conclusiones correctas. Es por ello que la variedad de tcnicas de muestreo, censado o encuestado, son estudiadas y desarrolladas por la estadstica. Una vez conseguidos los datos es necesario poder presentarlos a otras personas para su comprensin. Las distintas modalidades de presentacin de datos: grficos, tablas o texto es fundamental, son parte del estudio de la estadstica. Adems la estadstica se encarga de los mtodos que permiten condensar los datos obtenidos de forma tal de poder resumir la informacin en dos o tres valores (media, varianza, etc.), que luego sirven para describir o comparar.

Qu relacin tenemos con la estadstica?


La estadstica es una ciencia segn la cual todas las mentiras se transforman en cuadros. La estadstica es la primera de las ciencias inexactas. La estadstica es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos tenemos uno.

La estadstica, en general, no goza de buena fama, las tres frases anteriores son slo una muestra de lo que se dice de ella. A pesar de esto los resultados de los mtodos y tcnicas estadsticos aplicados a diferentes reas de nuestras vidas nos rodean a diario. Los medios de comunicacin publican los resultados de encuestas pero nunca nos dicen cmo fueron hechas. Tambin se nos dice que algo subi o baj mediante algn valor de porcentaje.

Figura 2: A veces interpretamos mal la informacin estadsticao la interpretamos como queremos.

Pgina | 4

Curso de Estadstica y Diseo de Experimentos 2009

Otra forma de encontrarnos con los resultados estadsticos son los grficos. Muchas veces los grficos que vemos en diarios y revistas no poseen los mnimos requerimientos para ser interpretados correctamente. Incluso, en algunos casos se confunde al lector de forma deliberada.

Figura 3: A veces no basta con saber de estadstica para entender algunos datos

La informacin estadstica presentada de forma confusa desborda al lector que lo nico que puede hacer es quedarse con algn valor como conclusin. Por ltimo si los mtodos y tcnicas usados no son explicitados las conclusiones que pueden sacarse de una misma informacin pueden ser variadas e incorrectas.

Figura 4: Este grfico que muestra la composicin de la poblacin econmicamente activa de la Argentina tiene una grave problema pero difcil de descubrir por un lector apresurado. La suma de los porcentajes de las categoras es de 96%, es decir falta un 4% que no se sabe a qu pertenece. Fuente:
http://www.fnm.org.ar/publicaciones/documentos/economia/empleo_no_registrado.html)

Pgina | 5

Curso de Estadstica y Diseo de Experimentos 2009

Cantidad de delitos cada 100 habitantes


40 Delitos 30 20 10 0 2000 2001 2002 2003 2004 2005 2006 2007 2008 Ao

Cantidad de delitos cada 100 habitantes


34

Delitos

30 26 22 18

2000 2001 2002 2003 2004 2005 2006 2007 2008 Ao

Figura 5: Los dos grficos mostrados a continuacin fueron realizados con los mismos datos. Sin embargo el efecto que causan en el lector es totalmente diferente. La nica diferencia en los datos es la escala del eje vertical.

Para qu necesitamos saber de estadstica?


La principal razn del estudio de la estadstica es que los fenmenos aleatorios tienen una fuerte presencia en nuestro entorno.

Por lo comentado anteriormente, cualquier ciudadano debe poder leer y comprender la informacin estadstica que se le presenta. La correcta interpretacin de esta informacin es fundamental y requiere de ciertas nociones mnimas de estadstica. Lamentablemente en muchas ocasiones se presenta informacin en forma de textos o grficos con errores, en algunos casos intencionales y en otras. Incluso muchas publicidades abundan en cifras disfrazadas de estadsticas cientficas para vender un producto.

Pgina | 6

Curso de Estadstica y Diseo de Experimentos 2009

Figura 6: Las publicidades nos bombardean con cifras supuestamente estadsticas y probadas cientficamente. No slo no sabemos cmo calculan esas cifras sino que en algunos casos como en la publicidad siguiente- nada significan.

La estadstica es til para muchas profesiones, que a priori, parecen desvinculadas de las matemticas. En las carreras de psicologa, medicina, enfermera y ciencias de la educacin estn incluidas asignaturas que presentan y desarrollan temticas estadsticas. Si recordamos que los niveles bsicos educativos poseen como uno de sus objetivos preparar a los alumnos para futuros estudios superiores, la estadstica es una disciplina a incluir en el currculo. Los temas de matemticas incluidos en los currculos ayudan a crear una imagen determinista de la matemtica. Nadie duda que 2 es diferentes de 2.5, ni tampoco que el primer nmero es menor que el segundo; pero en estadstica 2% no siempre ser significativamente menor que 2.5%. La mayora de las personas cuando escuchan valores de encuestas se limitan a comparar los nmeros, sin saber que, dependiendo como fueron tomados esos datos, valores numricamente diferentes podran ser estadsticamente iguales. Por lo tanto y dado que la estadstica se ocupa de lo que presenta variabilidad intrnseca, comprender sus mtodos ayuda un razonamiento crtico y a valorar la evidencia objetiva.

En el mundo contemporneo, la educacin cientfica no puede reducirse a una interpretacin unvoca y determinista de los sucesos. Una cultura cientfica eficiente reclama una educacin e n el pensamiento estadstico y probabilstico. (Santal, 1990)

Si todos los procesos que ocurrieran a nuestro alrededor fueran determinsticos, la estadstica no tendra sentido. La realidad es que nos rodean procesos que incluyen cierta aleatoriedad pero que deseamos comprender y es ah donde la estadstica se vuelve una herramienta til. La estadstica hace uso de las probabilidades y es por eso que muchas veces los nicos temas vistos en las escuelas relacionados con la estadstica estn referidos a los juegos de azar. Si bien esto es interesante para los alumnos, es importante introducir otros campos en los cuales participa la estadstica y que son parte del entorno social del alumno. Por eso est en el docente buscar ejemplos que sean interesantes y aplicables al mundo del alumno.

Pgina | 7

Curso de Estadstica y Diseo de Experimentos 2009

Principales trminos estadsticos


La estadstica, como cualquier otra disciplina, posee un vocabulario especfico. Comenzaremos definiendo uno de los trminos ms importantes para las investigaciones que conllevan el uso de mtodos o tcnicas estadsticas: Qu es una poblacin? Poblacin: Es el conjunto total de unidades o elementos sobre el que se realizan las observaciones. Es de vital importancia que conozcamos y definamos la poblacin sobre la cual se har la investigacin, ya que la descripcin que obtengamos ser particular de esta (a priori no necesariamente coincidir con otras) y todas las conclusiones que saquemos se deben limitar a la misma. Es un error muy comn extrapolar los resultados obtenidos de una poblacin a otras.

Figura 7: Poblacin de pinginos emperadores de la baha X en el ao Y.

Figura 8: Poblacin de personas que visitaron las playas X en el perodo Y.

Figura 9: Poblacin de pinos en la localidad J en el ao z.

La cantidad total de unidades o elementos que integran la poblacin se representa con la letra N (mayscula). Algunas investigaciones se hacen sobre poblaciones con un N conocido (y finito). Pero en otros casos, el tamao de la poblacin puede ser finito pero desconocido o incluso infinito.

Sern innumerables las veces que nos referiremos a variable a lo largo de este curso, pero Qu es una variable estadstica?
Pgina | 8

Curso de Estadstica y Diseo de Experimentos 2009

Variable: es una caracterstica que presenta variabilidad o variacin de un objeto a otro. Aunque a priori parecera que cualquier cosa podra ser una variable, esto no es as. Si mi pregunta fuera cules de mis alumnos regula su temperatura corporal (son homeotermos)?; la respuesta es todos!, es decir no hay variacin al respecto por lo tanto, la capacidad de regular la temperatura de una persona no es una variable; tampoco lo es la cantidad de cabezas por persona. Cada unidad o elemento que integra la poblacin es una unidad experimental (u.e.) y cada una de las observaciones o mediciones que sobre ella se hagan son observaciones individuales (o.i.). En una misma u.e, se pueden realizar varias o.i.. Por ejemplo, si estoy trabajando con medidas antropomtricas, a cada persona puede medirle la altura, el peso, etc.

Unidad experimental (u.e.): es la mnima unidad sobre la cual se realizan las observaciones.

Observacin individual (o.i.): determinacin o medida tomada en una unidad experimental. Segn el tipo de experimento pueden tomarse una o varias o.i. a una misma u.e.

El total de observaciones individuales de una variable se conoce como poblacin estadstica.

Poblacin estadstica: Total de observaciones individuales que se pueden obtener de la poblacin de estudio.

Pgina | 9

Curso de Estadstica y Diseo de Experimentos 2009

Si la poblacin posee pocas unidades, tal vez sea posible medir la variable en todas las unidades. En este caso se estara haciendo un censo. Los censos aportan mejor informacin que las muestras (ya definiremos este trmino) debido a que abarcan la totalidad de las unidades, mientras que las muestras (como su nombre lo indica) son slo una porcin de la poblacin. Censo: consiste en obtener las o.i. del total de unidades experimentales. Es una tcnica estadstica que trabaja sobre la poblacin total de u.e. En estadstica a las variables se las identifica mediante una letra mayscula (X,Y,W,B,...). Cada variable posee un rango o dominio que incluye los valores posibles de la variable. Segn las caractersticas del dominio o rango las variables son clasificadas en diferentes grupos: cualitativas o cuantitativas.

Pgina | 10

Curso de Estadstica y Diseo de Experimentos 2009

Las variables cualitativas son las que no se pueden medir mediante el uso de instrumentos y muchas veces se determinan sus valores por simple observacin. Existen dos tipos de variables cualitativas: Ordinales: Las variables ordinales implican categoras pero que poseen un orden lgico y preestablecido. Un buen ejemplo de variable ordinal sera la posicin obtenida en una carrera (ver ejemplo de variable A), o diferentes categoras que clasifiquen pelculas (ver ejemplo de variable B). A = {1, 2, 3, etc.} B = {muy mala, mala, regular, buena, excelente} Nominales o atributos: Los atributos son variables que toman como valor diferentes estados o categoras. Los atributos pueden ser dicotmicos o politmicos. En las dicotmicas el atributo puede adoptar slo dos valores posibles (ver ejemplo de variable C), mientras que en las politmicas existen ms de dos valores posibles (ver ejemplo de variable D). Ejemplos: C = {mujer, varn} D = {Boca Juniors, River Plate, San Lorenzo, etc.}

Las variables cuantitativas son las que se pueden medir (cuantificar) por simple conteo o mediante el empleo de algn instrumento (balanza, cinta mtrica, calibre, etc.). Se reconocen dos tipos de variables cuantitativas: continuas o discretas. Las variables continuas son aquellas que entre dos valores es posible encontrar un nmero infinito de valores intermedios, mientras que en las discretas no.
Pgina | 11

Curso de Estadstica y Diseo de Experimentos 2009

La altura de una persona es un ejemplo de variable continua (ver ejemplo de variable E) ya que entre dos valores de altura existen infinitos posibles. En cambio en las variables discretas (ver ejemplo de variable F) ciertos valores carecen de sentido, por ejemplo si la variable es la cantidad de mesas ocupadas en un restaurant puede ser 1, 2 o 10, pero nunca 2.3 o 5.6. Ejemplos: E = Peso de una persona = {23.5 kg, 25.38 kg, 85.9 kg, etc.} F = Cantidad de mesas ocupadas en un restaurant = {1, 2, 10, etc.} En el caso de la variable E el rango de valores est acotado por razones fisiolgicas y morfolgicas propias de la especie humana (la altura mxima de una persona fue de 2.72 m.) pero igualmente es un conjunto infinito. En cambio la variable F es un conjunto acotado ya que el restaurant posee un mximo de mesas y adems las mesas no se ocupan por fracciones.

Otra forma de diferenciar estos dos tipos de variables (cualitativas de cuantitativas) es que en una variable cuantitativa existe una relacin de proporcionalidad entre las observaciones individuales (o.i.). Por ejemplo si un hombre pesa 100 kg y una mujer pesa 50, es correcto afirma que la mujer pesa la mitad que el hombre (o el hombre el doble que la mujer), ya que ambos valores se refieren a mismo patrn que sera en este caso el kilogramo.

Muestreo
En algunas investigaciones es posible obtener una o ms observaciones individuales (o dato) de cada una de las unidades o individuos de la poblacin. En estos casos lo que se realiza es un censo y generalmente es posible cuando las poblaciones chicas (N bajo) o en los casos que se disponga de muchos recursos (tiempo y dems).

Figura 10: Si la poblacin a estudiar es un curso de 26 alumnos, es factible hacer un censo.

Pgina | 12

Curso de Estadstica y Diseo de Experimentos 2009

Pero en la mayora de los casos el tamao de la poblacin (N) excede la capacidad de trabajo y se debe tomar una muestra. El muestreo bsicamente implica obtener un conjunto menor (muestra) a partir de uno mayor (poblacin).Trabajar con una muestra implica ahorrar recursos, pero trae otros problemas. Cualquier proceso de muestreo implica aceptar una prdida de informacin de la poblacin, pero al mismo tiempo permite que la tarea sea factible. Muestra: en un subconjunto representativo de la poblacin. Para poder sacar conclusiones correctas de la poblacin a partir de la muestra que una muestra, sta debe ser representativa. Las muestras obtenidas de forma aleatoria, es decir aquellas que cada unidad muestral tienen la misma probabilidad de ser incluida en la muestra, son representativas. La aleatoriedad de la muestra elimina los sesgos de muestreo.

Figura 11: Si la poblacin a estudiar es la totalidad de los alumnos de una escuela (por ejemplo N=810), es poco factible hacer un censo y seguramente se deber recurrir a un muestreo.

Dado que los resultados y/o determinaciones obtenidos a partir de esta muestra servirn para hacer inferencias sobre la poblacin, debemos asegurarnos que la muestra sea representativa. Una forma de asegurar la representatividad de la muestra es asegurar la aleatoriedad durante el proceso de muestreo. Se denomina muestreo probabilstico o aleatorio aquel en el cual participa el azar.

Pgina | 13

Curso de Estadstica y Diseo de Experimentos 2009

Cuando muestreamos sin participacin del azar inevitablemente nos dejamos guiar e intervienen sesgos, prejuicios y/o preconceptos. La intervencin del azar elimina estos sesgos y permite obtener una muestra que pueda servir para hacer inferencias sobre la poblacin. En un muestreo aleatorio todas las unidades o individuos de la poblacin poseen la misma probabilidad de formar parte de la muestra. Este tipo de mtodo de muestreo asegura la representatividad de la muestra y son por ellos los ms recomendables. Que una muestra sea representativa implicar que a partir de ella se pueden extrapolar los resultados y sacar conclusiones sobre la poblacin.

Aleatoriedad: La aleatoriedad es un campo que se asocia a todo proceso cuyo resultado no es previsible ms que en razn de la intervencin del azar. El resultado de todo suceso aleatorio no puede determinarse en ningn caso antes de que este se produzca.

Pgina | 14

Curso de Estadstica y Diseo de Experimentos 2009

Qu tipos de muestreo probabilstico o aleatorio existen?

Muestreos con o sin reemplazo


Lo primero que podemos diferencias entre los tipos de muestreos es que en algunos la unidad experimental sujeta a mediciones o determinacin es extrada de la poblacin y no es devuelta, con lo cual no se la puede llegar a medir dos veces. Este tipo de muestreo se llama sin reemplazo. Un ejemplo de este tipo de muestreo sera colocar trampas en el suelo para capturar insectos. A estas trampas se le coloca agua con detergente por lo que los insectos mueren dentro de ellas. En otros muestreos la unidad experimental luego de ser medida es devuelta a la poblacin con lo cual un tiempo despus podra ser objeto de medicin nuevamente; este tipo de muestreo se llama con reemplazo. Un ejemplo de este tipo de muestreo sera colocar una red de niebla para cazar pjaros, que luego de realizarles las mediciones pertinentes son liberados.

Pgina | 15

Curso de Estadstica y Diseo de Experimentos 2009

Muestreo aleatorio simple


Una forma de realizar un muestreo aleatorio es asignar un nmero a cada unidad o individuo y luego mediante algn mtodo aleatorio se eligen tantas unidades como sea necesario (recordemos que el tamao muestral se representa con n y el de la poblacin con N). Como mtodo de muestreo posee la ventaja que es sencillo de entender, pero la desventaja de que debemos poseer una lista previa completa de todas las unidades, por eso en general es aplicable slo en poblaciones pequeas. Por ejemplo, podramos aplicar este mtodo para tomar una muestra aleatoria de alumnos de una escuela pequea.

Muestreo aleatorio sistemtico


Una variante de muestreo aleatorio que se puede aplicar a poblaciones ms grandes es el muestreo aleatorio sistemtico. En este caso el que se elige al azar es el primer individuo o unidad (i) y luego se selecciona el resto de unidades siguiendo intervalos de cada k unidades (es decir los individuos i+k, i+2k, etc.) Volviendo al ejemplo de una escuela, si tenemos una poblacin de 810 alumnos, con este mtodo

Pgina | 16

Curso de Estadstica y Diseo de Experimentos 2009

elegimos al azar el primero y luego cada k alumnos elijo los restantes. Cunto vale k?, depende del tamao de la poblacin y del tamao de las muestra requerido (k=N/n). Este tipo de muestreo posee un riesgo. Cuando en la poblacin existe cierta periodicidad en los datos y el valor de k coincide con el periodo, la muestra obtenida no es representativa y la muestra sera menos variable que la poblacin de la cual se obtuvo. Un ejemplo de esto podra ocurrir si poseo datos ordenados de parejas (primero el dato de la mujer y luego del varn). El primer individuo elegido ser al azar y existe la misma probabilidad que sea varn o mujer, pero si elijo un valor de k par, luego todos los dems datos sern del mismo sexo que el primero. As la muestra obtenida ser slo sobre varones o mujeres.

Muestreo aleatorio estratificado Un muestreo aleatorio estratificado es aquel en el que previamente se separan las unidades o individuos en categoras y dentro de cada una de ellas se muestrea al azar. Cada una de estas categoras se denomina estrato y, si estn bien asignados, se asegura la representatividad de los estratos y disminuye la variabilidad dentro de cada uno de ellos.
Pgina | 17

Curso de Estadstica y Diseo de Experimentos 2009

Este mtodo adems asegura la representatividad de cada uno de los estratos en la muestra final. El nico problema de este mtodo es inventar categoras o estratos que nada tienen que ver con la realidad del problema estudiado. Por ejemplo, si quiero obtener datos de alturas de alumnos, sera una buena idea dividir a los alumnos en mujeres y varones y muestrear dentro de estos dos estratos al azar. Esto es as dado que la altura est relacionada con la edad y el sexo de la persona. Cuntas unidades o individuos muestrear de cada estrato?, las opciones son dos: tomar la misma cantidad de individuos o unidades en cada estrato independientemente de cuanto haya en cada uno. tomar una cantidad proporcional de individuos o unidades segn la representatividad de cada estrato.

Pgina | 18

Curso de Estadstica y Diseo de Experimentos 2009

Muestreo aleatorio por conglomerados Por ltimo el muestreo por conglomerados se realiza mediante la seleccin de grupos de unidades o individuos. Este mtodo es ideal en poblaciones muy grandes, ya que no se necesitan listados de unidades, sino de los conglomerados. Por ejemplo, si la cantidad de alumnos es muy grande, se puede hacer un muestreo seleccionando cursos (seran los conglomerados) de forma que todos los alumnos de esos cursos formarn parte de la muestra. El problema de este mtodo puede radicar en la forma en que se definieron los conglomerados. Continuando con el ejemplo de la escuela, si elegimos los cursos al azar estamos considerando que entre ellos son similares, cuando en realidad es una prctica habitual juntar a alumnos con una misma caracterstica en un mismo curso, de forma tal que elegir un curso u otro no dar exactamente lo mismo.

Pgina | 19

Curso de Estadstica y Diseo de Experimentos 2009

Los muestreos no probabilsticos son aquellos en los cuales el investigador selecciona a los sujetos mediante el empleo de diferentes criterios. El problema es que estos muestreos son siempre sesgados aunque el investigador conozca la poblacin. Dentro de lo posible hay que evitar este tipo de muestreo, ya que impide utilizar con los datos la mayora de las tcnicas paramtricas estadsticas.

Qu tamao (n) debe tener una muestra?


El clculo exacto del tamao de una muestra requiere emplear algunos concomimientos que por ahora no vimos, pero para adelantar una respuesta podemos decir que: A mayor tamao de la muestra ms representativa es (cuando n = N, se trata de un censo, no de una muestra). Hay que ponderar la cantidad de unidades con la disponibilidad de tiempo y recursos, es decir muestrear la mayor cantidad de unidades en el tiempo disponible y con los recursos disponibles.

Estadstica Descriptiva
El objetivo principal del siguiente mdulo es el estudio y descripcin de una poblacin o muestra a partir de variables cuantitativas y cualitativas. Veremos qu tipos de grficos se pueden construir y qu valores se pueden calcular para lograr una descripcin completa de una poblacin o muestra. Para cumplir esto objetivo, supondremos que hicimos un trabajo de investigacin con un grupo de alumnos que estaba integrado por todos los alumnos de 15 a 16 aos de una escuela. Este grupo que constituy la poblacin, est subdividido en los diferentes cursos (a los que denominaremos: A1, A2, etc.). A cada alumno se le hicieron algunas mediciones, preguntas u determinaciones, y en el caso de ser mayor de 16 aos los datos no fueron tenidos en cuenta. El total de alumnos, que en este caso seran las unidades experimentales, fue de 324 (N=324).
Pgina | 20

Curso de Estadstica y Diseo de Experimentos 2009

Las determinaciones que se hicieron sobre cada alumno fueron: Sexo. Cuadro de ftbol, por el que hincha o simpatiza. Cantidad de hermanos. Altura (medida en cm). Peso (medido en Kg). Opinin sobre la utilidad de la educacin que recibe (se definieron tres categoras: nada, poco y mucho).

Una vez realizada las determinaciones en todos los alumnos, lo primero que se hizo fue organizar los datos para su posterior anlisis. Una forma de organizar estos datos es construir una matriz (o tabla de doble entrada) que posea en las columnas las variables y en las filas los casos particulares (datos de cada unidad experimental). Esto se puede hacer en algn programa de hojas de clculo (tipo Excel) o directamente en algn programa de anlisis estadstico (tipo G-Stat, Statistix, Statistica, etc.) A continuacin se muestra cmo quedara la planilla de datos en Excel lista para comenzar a completar los datos:
Figura 12: En las columnas las variables y en las filas las unidades experimentales. En la primera columna simplemente se numeraron los casos, esto puede obviarse ya que los programas de anlisis estadstico lo hacen automticamente. Se muestran slo las cuatro primeras filas. Este ejemplo fue generado con Excel 2007 por lo que puede ser visualmente diferente a lo hecho en Excel 2003.

Una vez ingresados todos los datos tendremos la matriz completa (tendr 324 x 7 datos, es decir 2268 datos).

Variables cualitativas
Comenzaremos describiendo a esta poblacin en base a las variables cualitativas utilizadas. Las variables cualitativas utilizadas en esta investigacin son: Sexo: Variable nominal dicotmica. Cuadro de ftbol del cual es hincha o simpatizante: Variable nominal politmica. Opinin sobre la utilidad de la educacin que recibe: Variable ordinal (las categoras en orden son: nada, poco y mucho).
Pgina | 21

Curso de Estadstica y Diseo de Experimentos 2009

Como podemos ver ninguna de estas variables est asociada naturalmente a valores numricos, ni pueden ser medidas. Algunas de ellas se determinan por simple observacin (ej.: sexo) y otras mediante preguntas (cuadro de ftbol y opinin sobre la educacin). En algunos casos las variables cualitativas pueden ser codificadas con nmeros. Por ejemplo, podemos dar el cdigo 1 a las mujeres y 2 a los hombres. Esto es vlido y til en algunos casos, pero no deben ser usados estos cdigos como si fueran variables cuantitativas. Por ejemplo, sera ridculo afirmar que dos mujeres (2x1) seran iguales a un hombre (1x2). Lo mismo sucede con las variables ordinales cuando se re-codifican. Veamos un ejemplo, si a las diferentes criticas de pelculas las identifico con nmeros (muy mala = 1, mala = 2, regular = 3, bueno = 4 y muy buena = 5) es una forma vlida manejar la informacin. Lo que no puedo decir es que una pelcula mala (2) es la mitad de buena que una buena (4). Las relaciones de proporcin entre los nmeros utilizados no son vlidas, simplemente sabemos que 2 es menor que 4, por lo que la primera pelcula recibi peor crtica que la segunda. Para cada una de estas variables podemos calcular con qu frecuencia se dan cada una de sus categoras (i). Esto se realiza por simple conteo (o lo hace el programa especfico si los datos ya fueron cargados). La informacin obtenida conviene organizarla en tablas como la siguiente:
Tabla 1: Tabla de frecuencias de las categoras de una variable cualitativa.

Sexo

Fi

fi

% 54 46 100

Mujer 175 0.54 Varn 149 0.46 N 324 1

La frecuencia absoluta (Fi) de cada categora es simplemente la cantidad de veces que ocurre; la sumatoria de todas las Fi es siempre igual a N y las frecuencias absolutas son siempre nmeros enteros.

La frecuencia relativa (fi) se calcula segn la siguiente frmula:

La sumatoria de las frecuencias relativas es siempre igual a 1.

Los valores de porcentaje (%) se obtienen simplemente multiplicando las frecuencias relativas por 100.
Pgina | 22

Curso de Estadstica y Diseo de Experimentos 2009

La ventaja de usar frecuencias relativas o porcentajes radica en que como son independientes del valor de N, sirven para comparar dos poblaciones diferentes entre s. Adems de organizar los datos en forma de tabla, se pueden hacer grficos para describir una variable de una muestra o poblacin. Para las variables cualitativas los grficos que se pueden hacer son: diagramas de barras y grfico tipo torta. Ambos grficos son muy comunes y en general no traen problemas para ser interpretados correctamente. Diagramas de barras (o grficos de barras): En este tipo de grfico, para cada categora de la variable cualitativa se dibuja una columna o barra cuya altura es proporcional a la frecuencia (pueden usarse las frecuencias absolutas, relativas o porcentajes) (Figura 2). Si el grfico est hecho con el propsito de comparar con otra poblacin, deben usarse frecuencias relativas o porcentajes.

Figura 13: Lo principal en un grfico de barras es que la altura de las barras o columnas debe ser proporcional al valor de frecuencia o porcentaje.

Veamos algunos ejemplos utilizando los datos de la planilla de adolescentes:

Figura 14: Diagrama de barras que muestra la distribucin de sexos para la poblacin de estudio. En este grfico se usaron los valores de porcentaje para el eje vertical.

Pgina | 23

Curso de Estadstica y Diseo de Experimentos 2009

Figura 15: Diagrama de barras que muestra la cantidad de hinchas de cada club para la poblacin de estudio. En este grfico se usaron los valores de frecuencias absolutas para el eje vertical.

Algunas recomendaciones a la hora de construir este tipo de grficos.

Figura 16: Si el diagrama de barras es sobre una variable ordinal, las categoras en el grfico deben seguir el orden natural, en este caso: nada, poco y mucho.

Si la variable cualitativa es nominal (como los ejemplos mostrados anteriormente) el orden de las categoras no altera los resultados y son vlidas las diferentes alternativas. En cambio en las variables ordinales debe seguirse el orden lgico y natural. Por ejemplo, si graficamos en un diagrama de barras las frecuencias para la variable opinin sobre la utilidad de la educacin, el orden de las categoras posee un orden natural (nada, poco y mucho) y debera ser el orden a usar en el eje del grfico. El cero debe ser siempre el mnimo del eje de frecuencias o porcentajes. De no ser as se puede engaar al lector del grfico sugiriendo una diferencia entre las alturas de las columnas que no se corresponde con la diferencia en las frecuencias. En la figura 6 se muestra un grfico mal hecho en el cual se cometi este error. En l se puede ver cmo, si nos guiamos por las alturas de las columnas, una de las barras es ms del doble de alta que la otra; pero si verificamos los nmeros notaremos que 33.144 no es el doble de 26.090 (de hecho la relacin es 1.27). Este efecto engaoso se produjo por no incluir el cero en la escala.

Pgina | 24

Curso de Estadstica y Diseo de Experimentos 2009

Figura 17: Un grfico malintencionado para engaar a los lectores. No incluir al cero en las escalas produce que visualmente un mismo grupo de datos reflejen una realidad diferente.

Si el grfico de barras ser utilizado para realizar comparaciones con los de otra poblacin, resulta imperioso que el mximo de la escala en ambos casos coincida. Si el grfico no se usar para comparaciones, el mximo puede establecerse apenas por sobre el valor mximo de frecuencia o porcentaje. Esto produce que el grfico ocupe la mayor rea posible y sea ms claro. Cuando el valor mximo elegido es mucho ms alto que los valores a graficar, resultan grficos aplastados contra el eje horizontal y sern menos notorias las diferencias (Figura 7).

Figura 18: El mismo grfico con dos escalas verticales diferentes. En la versin de la izquierda el mximo de 100% hace que las diferencias entre los porcentajes de las categoras resulten menos evidentes, adems de ser ms difcil leer la escala. En la versin de la derecha, el valor mximo utilizado (60%), permite visualizar mejor las diferencias y leer mejor la escala.

La escala vertical deber tener suficientes divisiones como para poder extrapolar el alto de las columnas y obtener aproximadamente los valores de frecuencias. Demasiadas divisiones tampoco son recomendables, ya que dificultan la lectura de los valores en el eje. En algunos grficos se agregan a cada columna el valor de la frecuencia. Esto es redundante con la presencia del eje, pero en algunos grficos sirve para destacar valores. Por ltimo, ya que no se trata de una variable continua, no se deben graficar las columnas pegadas unas a otras. Por la misma razn si se trazan lneas desde una columna a otra, slo sirven para visualizar mejor las diferencias, pero en ningn caso constituyen dibujos de ecuaciones lineales. Otra prctica frecuente es utilizar imgenes alusivas al tema del grfico. En estos casos hay que tener en cuenta que, si bien mejoran la presentacin, no deben producir un efecto engaoso y dificultar la interpretacin del grfico. Por ejemplo en el siguiente grfico (Figura 8) se reemplaza la coloracin de la
Pgina | 25

Curso de Estadstica y Diseo de Experimentos 2009

columna por una bombita y, a mayor cantidad de bombitas vendidas mayor el tamao. Lo que no es aconsejable de esta grfico es que la bombita ms grande, no slo es ms alta sino tambin ms ancha. En el caso de las columnas la frecuencia slo est representada por la altura; todas las columnas poseen la misma base. En este grfico el tamao de las bombitas sugiere una diferencia entre las ventas a lo largo de los aos mayor a la real. Otra crtica es: para qu incluir un eje sin valores? Dado que los valores estn puestos arriba de cada bombita, el eje es prescindible.

Figura 19: Mezcla de diagrama de barras y pictograma. En los diagrama de barras la frecuencia nada tiene que ver con el ancho de las columnas. En este caso, adems de variar la altura de las barras tambin vara el ancho. El eje vertical no tiene valores ni escala. Ntese que la variable tiempo est considerada en este caso como variable nominal: aos.

Si deseamos representar las frecuencias mediante el tipo de grfico ideal es un pictograma. En este tipo de grfico a mayor rea mayor frecuencia, y no se utiliza ningn eje. La ausencia de un eje de referencia hace que sea imprescindible incluir los valores a lado de cada dibujo: En la siguiente figura se muestra un pictograma con las frecuencias de hinchas para cada club (Figura 9).

117

96

34

32

29

16

Figura 20: En los pictogramas la frecuencia puede estar referida al rea de un objeto. En este caso la cantidad de hinchas de cada club est en relacin con el rea de la pelota de ftbol. Si bien suelen ser grficos muy vistosos, es indispensable que se aclare los valores, ya que es muy difcil deducir las frecuencias a partir de los dibujos.

En la siguiente versin del grfico de las bombitas vendidas (Figura 10) todas las columnas poseen el mismo ancho y la altura del dibujo de las bombitas (a ms altura, ms bombitas) refleja la frecuencia. Dado que cada columna posee el valor sobre ella, se podra prescindir del eje vertical (que adems no tiene valores).
Pgina | 26

Curso de Estadstica y Diseo de Experimentos 2009

Figura 21: Versin mejorada del grafico de la figura 6. La frecuencia est slo representada por la altura, ya que las bases de las columnas son iguales. Un eje sin valores no tiene sentido y se debera eliminar.

En el siguiente grfico (Figura 11) que muestra los cambios en la produccin de trigo segn los aos, se cometieron algunos errores. El primero es incluir un eje sin valores; carece de sentido y de utilidad. Otro error es que la distancia entre los aos es diferente, se va agrandando a medida que se acerca al ao 1997. Esto sumado al aumento del tamao del dibujo, agranda las diferencias reales entre las producciones en diferentes aos y hace ms visible el valor a destacar.

Figura 22: En este grfico se cometieron errores en ambos ejes. La distancia en los aos del eje horizontal va en aumento hasta la ltima categora, mientras que el eje vertical no posee valores ni escala.

Grficos tipo torta (Pie chart en ingls): En este tipo de grfico (Figura 12), cada categora de la variable cualitativa recibe una porcin de la torta proporcional a la frecuencia relativa o porcentaje. Todos los programas de anlisis estadsticos permiten hacer este tipo de grfico, pero si lo deseamos hacer en forma manual, simplemente hay que considerar que la circunferencia completa (360) representa el 100%, de forma tal que valores diferentes se obtienen simplemente mediante regla de tres simple. En ningn caso debe suceder que la sumatoria de los porcentajes sea diferente de 100%.

Pgina | 27

Curso de Estadstica y Diseo de Experimentos 2009

Distribucin de sexos
mujer varn

46% 54%

Figura 23: Los grficos de tipo torta son muy fciles de hacer y de interpretar.

Diagramas de barras para ms de una variable cualitativa: A veces la respuesta que buscamos sale de combinar dos variables cualitativas. Por ejemplo si yo me preguntara: Por qu club hinchan las personas de distinto sexo? Para responder esto podra ordenar los datos de frecuencias absolutas en una tabla de doble entrada; de la siguiente forma:
Mujer Varn Boca Juniors 65 52 117 River Plate 50 46 96 Racing Club 13 21 34 San Lorenzo 21 11 32 Independiente 17 12 29 Otros 9 7 16 175 149 N=324

Si calculamos los porcentajes dividiendo por el total (N=324) y los multiplicamos por cien, obtendremos para las combinaciones de sexo/club:
Boca Juniors River Plate Racing Club San Lorenzo Independiente Otros Mujer Varn 20.1 16.0 36.1 15.4 14.2 29.6 4.0 6.5 10.5 6.5 3.4 9.9 5.2 3.7 9.0 2.8 2.2 4.9 54.0 46.0 100.0

Con estos datos podemos hacer un grfico de barras con dos series (una para cada sexo) (Figura 13).

Pgina | 28

Curso de Estadstica y Diseo de Experimentos 2009

Porcentajes de hinchas de clubes de ftbol para ambos sexos 25,0 Porcentaje


20,0 15,0 10,0 5,0 0,0

Mujer

Club de ftbol

Varn

Figura 24: En este grfico de barras, los valores de porcentaje estn divididos en dos series de datos (correspondientes a los sexos). Segn este grfico lo que ms abunda son los hinchas varones de Boca Juniors. Notar que el orden de los clubes de ftbol es arbitrario y si se modifica, las conclusiones que se pueden extraer del grfico seran las mismas.

Con estos mismos datos podra responder otras preguntas, por ejemplo si me preguntara: por qu club de futbol hinchan ms las mujeres? Y los hombres? Como la cantidad de mujeres y varones es diferente (175 vs. 149), para poder comparar y responder la pregunta convendra independizar los valores del total de hinchas de cada sexo calculando los porcentajes para cada club por sexo. Para ello dividido el valor de frecuencia absoluta por el total para ese sexo y lo multiplico por 100. Los resultados seran:
Boca Juniors mujer varn 37.1 34.9 72.0 River Plate 28.6 30.9 59.4 Racing Club 7.4 14.1 21.5 San Lorenzo 12.0 7.4 19.4 Independiente 9.7 8.1 17.8 Otros 5.1 4.7 9.8 100 100

Con estos datos podemos hacer diversos tipos de grficos de barras, a continuacin veremos dos posibilidades. La primera es hacer un grfico de barras en el cual el eje horizontal tenga dos categoras principales (sexo en este caso) y para cada uno de los sexos cinco sub-categoras (clubes en este caso). De esta forma quedaran cinco columnas o barras para cada sexo. El aspecto del grfico ser el siguiente (Figura 14):

Pgina | 29

Curso de Estadstica y Diseo de Experimentos 2009

Figura 25: Para hacer este grfico los valores de porcentaje fueron calculados en relacin a total de cada sexo ya que el objetivo era saber para cada sexo que tipo de hincha era ms frecuente y adems poder comparar entre hombres y mujeres. Segn este grfico, sea mujer o varn, lo ms frecuentes es que sea hincha de Boca Juniors, seguidos por sus primos River Plate. Entre los varones, el tercer cuadro en cantidad de hinchas es San Lorenzo, mientras que entre las mujeres es Racing Club.

Otra posibilidad es realizar un diagrama de barras de porcentajes acumulados. En este tipo de grfico las columnas de las categoras a comparar siempre miden 100%, pero se dividen en porciones segn los porcentajes de la otra variable cualitativa utilizada. Para los mismos datos usados en el grfico anterior, este tipo de grfico quedara con dos columnas (una por sexo) dividida cada una de ellas en seis porciones referidas a los porcentajes de cada club. El aspecto del grfico ser el siguiente (Figura 15).

Figura 26: Este grfico resulta ideal para hacer comparaciones ya que las barras siempre son iguales (100%), lo que difiere entre ellas es el alto de las porciones referidas a la segunda variable cualitativa (en este caso los clubes).

Variables cuantitativas
Continuaremos describiendo a esta poblacin en base a las variables cuantitativas utilizadas. Recordemos que las variables cuantitativas pueden ser:
Pgina | 30

Curso de Estadstica y Diseo de Experimentos 2009

En el caso de que la variable cuantitativa sea discreta el tipo de grfico que se puede hacer es similar al caso de las variables cualitativas. Mostraremos el caso del anlisis de la variable cantidad de hermanos por alumno. Los datos se pueden organizar y calcular las frecuencias relativas, absolutas y porcentajes de igual manera que se hizo para las variables cualitativas. La tabla quedara de la siguiente forma:

Cantidad de hermanos
0 1 2 3 4 5

Fi
88 166 30 20 18 2

fi
0.27 0.51 0.09 0.06 0.06 0.01 1

%
27.2 51.2 9.3 6.2 5.6 0.6 100

Fi (acum) % (acum)
88 254 284 304 322 324 27.2 78.4 87.7 93.9 99.5 100

N= 324

Con estos valores podemos hacer diagramas de barras usando las frecuencias absolutas, las relativas o los porcentajes. El uso de porcentajes permita comparaciones posteriores de este grfico con otros (Figuras 16 y 17).

Figura 27: Diagrama de barras hecho con las frecuencias absolutas.

Pgina | 31

Curso de Estadstica y Diseo de Experimentos 2009

Figura 28: Diagrama de barras hecho con los porcentajes.

Para las variables discretas se pueden hacer grficos de barras con las frecuencias o porcentajes acumulados (Figura 18). Las barras no deben tocarse entre s ya que la variable no es continua y no existen valores intermedios. Este tipo de grficos sirve para ver por debajo de cada valor que porcentaje de las observaciones est presente.

Figura 29: Diagrama de barras de porcentajes acumulados. Este grfico muestra que casi el 80% de los alumnos poseen hasta un hermano.

Si la variable cuantitativa es continua los tipos de grficos y anlisis que se pueden hacer son muy diferentes y les dedicaremos especial atencin. Si bien la mayora de los clculos los har el programa de anlisis estadstico que se vaya a usar (en nuestro caso el G-Stat) veremos cules son las frmulas y criterios usados en estos clculos. Si as no lo hiciramos, al usar el programa y obtener los resultados no sabramos que significado tienen.

Pgina | 32

Curso de Estadstica y Diseo de Experimentos 2009

Utilizaremos para los siguientes ejemplos de clculos y grficos la variable altura de los alumnos, pero lo mismo se puede hacer para cualquiera de las otras variables. Si observamos los datos de la variable altura podemos extraer ciertos valores importantes (para ello abrir el archivo de Excel con los datos correspondientes): Cantidad de datos (N) 324 Mnimo 141 cm Mximo 192 cm

La diferencia entre el mximo y mnimo se conoce como recorrido muestral (w). En este caso:

w = 192 cm 141 cm = 51 cm.


A diferencia de otros tipos de variables, las variables continuas pueden tomar cualquier tipo de valores (incluso nmero decimales). Vale la pena recalcar esta diferencia con otras variables con algunos ejemplos. Si para un alumno se determina que: es varn, que tiene un hermano y que es de boca, son todos datos que no admiten duda. En cambio si esa misma persona es medida y su altura es 162 cm, esa no es su verdadera altura; es una estimacin (cuanto medimos ms que una medida exacta obtenemos un intervalo que incluye la verdadera medida, en este caso el intervalo sera 161.5-162.5 cm). A la misma persona si la medimos con cinta milimetrada su altura ser 162.5 cm. Los valores son diferentes, pero la persona es la misma. Es importante que al trabajar con datos de variables continuas recordemos esto, qu sentido tendra contar las personas que midieron 162 cm si no es el valor exacto? Debido a lo anteriormente explicado, con las variables cuantitativas se trabaja con intervalos o clases. Cada intervalo posee un mximo y un mnimo. El valor mnimo de la variable debe quedar incluido en el primer intervalo o clase, mientras que el valor mximo debe quedar incluido en la ltima clase. La cantidad de clases a utilizar est en relacin con la cantidad de observaciones o datos. Si bien no hay frmulas exactas, los siguientes son buenos criterios para saber cuntas clases (valor que llamaremos k) necesitamos:

Si N < 1000, entonces k = 1 + (Log (N) x 3.3) Si N > 1000, entonces k = Raz cuadrada de N
En nuestro caso, dado que N = 324, usaremos el segundo caso y k = 9.28 que se redondea a k = 9. En todos los casos trabajaremos con clases o intervalos de iguales ancho o amplitud; llamaremos al ancho del intervalo h. Para obtener el valor de h:

Para no tener problemas en la inclusin de los valores dentro de los intervalos que se formarn conviene que el valor de h tenga ms decimales que los usados para los datos. En nuestro caso los datos de altura son nmeros enteros y usaremos h= 5.667 Veamos cmo armar los intervalos de las clases. Dado que son nueve clases deberemos hacer una tabla con ms de nueve filas (ver tabla a continuacin). En la primera columna colocaremos la el nmero de clase (1
Pgina | 33

Curso de Estadstica y Diseo de Experimentos 2009

al 9), en la segunda y tercera los lmites inferior y superior (respectivamente de cada clase). Por ejemplo, para la clase 1, el lmite inferior es el valor mnimo 141 cm y el mximo es 146.667 (que resulta de hacer 141 + h). Para la clase 2, el mnimo es el mximo de la clase anterior y el mximo ser 152.33 (que resulta de hacer (146.667 + h); y as sucesivamente. Para que los decimales en los valores de los lmites si las alturas son nmeros enteros? Justamente para no tener dudas a que clase pertenecen los valores; si hiciramos los intervalos con nmeros enteros, en qu intervalo incluiramos un valor que coincide con alguno de los lmites?

Lmite de la clase Clase Mnimo Mximo Marca de clase


1 2 3 4 5 6 7 8 9 141.00 146.67 152.33 158.00 163.67 169.33 175.00 180.67 186.33 146.67 152.33 158.00 163.67 169.33 175.00 180.67 186.33 192.00 143.83 149.50 155.17 160.83 166.50 172.17 177.83 183.50 189.17

Acumuladas

Fi
5 14 36 67 91 51 45 10 5 324

%
1.54 4.32 11.11 20.68 28.09 15.74 13.89 3.09 1.54 100

Fi
5 19 55 122 213 264 309 319 324

%
1.54 5.86 16.98 37.65 65.74 81.48 95.37 98.46 100.00

Cada intervalos tendr un valor en el centro, equidistante del mnimo y el mximo, a ese valor se lo llama marca de clase (lo simbolizaremos como Xc). Cmo puede calcular la marca de clase de un intervalo?, simplemente sumndole al mnimo la mitad del ancho del intervalo (h/2). Una vez armadas las clases podemos calcular la frecuencia absoluta (Fi) para cada una de ellas. Si utilizamos un software estadstico esta tarea la hace el programa, pero si lo queremos hacer manualmente conviene ordenar los datos de menor a mayor y contar cuantos quedan incluidos en cada una de las clases armadas; luego corroborar que:

Calcular los porcentajes para cada una de las clases ser de gran utilidad para confeccionar grficos y hacer comparaciones con otras muestras o poblaciones.

Pgina | 34

Curso de Estadstica y Diseo de Experimentos 2009

Las ltimas dos columnas son valores acumulados de frecuencias y porcentajes. Para calcular la frecuencia acumulada de cualquier clase, simplemente debemos a la frecuencia de esta clase la suma de todos los valores de frecuencia anteriores; lo mismo para los porcentajes. Por ejemplo, la frecuencia acumulada de la cuarta clases es:

La frecuencia acumulada de la ltima clase debe ser igual a N.

Qu tipos de grficos se pueden hacer con estos datos?


Histograma de frecuencias: Un histograma de frecuencias representa mediante el alto de columnas las frecuencias para cada una de las clases. A continuacin el histograma de frecuencia elaborado con los datos de la tabla anterior (Figura 19):

Figura 30: Histograma de frecuencias para la variable altura. En este caso en el eje horizontal se rotularon las marcas de clase.

A priori parece similar a un diagrama de barras para una variable cualitativa, pero es bastante diferente. Primero se puede ver que las columnas se tocan entre si y esto, ms all de un detalle de diseo, es vlido ya que todos los valores de la variable son posibles. Por otro lado el orden de las clases es el orden natural de los nmeros y el nico posible, mientras que en un diagrama de barras puede ser modificado y sigue siendo vlido (excepto que sea de una variable ordinal). Si se desea comparar este grfico con otro hecho a partir de los datos de otra poblacin es necesario emplear las frecuencias relativas (fi) o los porcentajes y adems emplear el mismo valor mximo para el eje de porcentaje; en ese caso el grafico sera as (Figura 20):

Pgina | 35

Curso de Estadstica y Diseo de Experimentos 2009

Figura 31: Histograma hecho con los porcentajes para la variable altura. En este caso en el eje horizontal se rotularon las marcas de clase (crculo rojo). La lnea negra que une los valores de porcentaje en cada marca de clase se denomina polgono de frecuencias y ser visto ms adelante.

Los histogramas adems muestran la forma de la distribucin de una variable. Es evidente que la forma de distribucin de frecuencias est influida por la cantidad de clases (k) utilizadas. Cuando se usan pocas clases, si bien el trabajo es ms sencillo, el histograma no muestra claramente la distribucin de la variable. Si la cantidad de clases es excesiva, adems de dificultarse la tarea de tabular y graficar, el histograma resultante tampoco es claro. Por eso es importante utilizar la cantidad de clases correcta (Figura 21).

Figura 32: En estos cuatro histogramas se ve como la cantidad de clases utilizadas influye en la forma de forma de la distribucin de frecuencias de la variable. En este caso corresponde a la variable peso y para N=324, la cantidad correcta de clases sera 9, el grfico inferior izquierdo.

Una posibilidad para visualizar mejor la forma de una distribucin es trazar una lnea usando como coordenadas de los puntos, las marcas de clase y los valores de frecuencias correspondientes (Figura 20).

Pgina | 36

Curso de Estadstica y Diseo de Experimentos 2009

Esta lnea se denomina polgono de frecuencias y sirve justamente para remarcar la forma de una distribucin. Dos de las formas ms comunes de distribuciones de frecuencias son las (Figura 22): Unimodales: Se identifican porque el polgono de frecuencias muestra claramente la presencia de una clase ms frecuente que las restantes. Entre estas distribuciones est la distribucin normal o Gaussiana de la cual hablaremos mucho ms adelante. La distribucin de las alturas es claramente unimodal y muy probablemente normal. Bimodales: Se identifican porque el polgono de frecuencias muestra claramente la presencia de dos clase ms frecuente (una tal vez ms que la otra) que las restantes.

Figura 33: Dos formas de distribuciones de frecuencias bsicas.

Parmetro vs. Estadsticos.


Vimos anteriormente que en algunas ocasiones, una vez definida la poblacin, podemos hacer observaciones en todas las unidades experimentales (censo). Pero en la mayora de los casos slo podemos trabajar con una muestra de la poblacin. A continuacin veremos cmo calcular ciertos valores que describen y dan informacin sobre las variables estudiadas. Entre estos valores estn la media, la varianza, la moda, etc. En el caso que se calculen a partir de datos provenientes de toda la poblacin a estos valores se los llama parmetros (se simbolizan con letras griegas), mientras que si son calculados a partir de una muestra, se los denomina estadsticos (se simbolizan con letras latinas). Cuando trabajamos con muestras y no conocemos los parmetros poblacionales deseamos que los estadsticos sean buenos estimadores de los parmetros. Por bueno estimadores nos referimos a que sean insesgados y por lo tanto lo ms cercanos al verdadero valor. Un buen muestreo permitir disminuir el sesgo y aumentar la exactitud del estimador. Reflejemos estos conceptos en un ejemplo: Si calculamos la altura promedio a partir de los N=324 datos de los adolescentes, habremos calculado un parmetro ya que utilizamos la totalidad de los datos de la poblacin definida. Mientras que si calculamos la altura promedio a partir de una muestra, tendremos un estadstico que ser un buen estimador del parmetro, siempre y cuando la muestra sea representativa. Qu tipos de estadsticos existen?

Pgina | 37

Curso de Estadstica y Diseo de Experimentos 2009

Estadstico de Posicin: Son los estadsticos que dividen al conjunto de datos en grupos. Por ejemplo: percentiles y cuartiles. Estadstico de centralizacin o tendencia central: Son los valores respecto a los cuales los restantes tienden a agruparse. Por ejemplo: media, mediana y moda. Estadstico de dispersin: Son los estadsticos que muestran cun dispersos estn los datos alrededor de la medida central. Por ejemplo: desviacin tpica, coeficiente de variacin, rango y varianza. Estadstico de forma: Son los que muestran si existe asimetra o apuntamiento en la distribucin de los datos.

Estadsticos de posicin: Percentiles: El percentil de orden k es la observacin que deja por debajo el k% de la poblacin. La forma ms comn de calcular los percentiles es mediante el uso de programas de anlisis estadsticos, pero veremos una forma aproximada de hacerlo usando un grfico especial: un histograma de frecuencia o porcentajes acumulados. En la tabla de frecuencias para las distintas clases de alturas (ver ms arriba) calculamos los porcentajes acumulados. Si graficamos estos valores en funcin de los intervalos o clases, obtendremos el siguiente grfico (Figura 23):

Figura 34: El histograma de frecuencias o porcentajes acumulados permite entre otras cosas calcular aproximadamente los percentiles.

Claramente se ve como las frecuencias se van sumando hasta llegar al valor de N en la ltima clase. La lnea negra del grfico es el polgono de frecuencias acumuladas y se traza usando como puntos los mximos de cada intervalo y los valores de porcentajes acumulados (notar que en este caso no se usa la marca de clase). Si dejamos slo el polgono de frecuencias acumuladas, el grafico se ver de la siguiente forma (Figura 24):

Pgina | 38

Curso de Estadstica y Diseo de Experimentos 2009

Figura 35: El polgono de frecuencias o porcentajes acumulados se obtiene al trazar una lnea entre puntos cuyas coordenadas son los valores de frecuencias acumuladas (o %) y el mximo de cada clase.

Si deseamos conocer el P40 o percentil 40, es decir el valor que acumula el 40% de las observaciones, slo de vemos extrapolar una lnea desde 40% hasta el polgono y de ah al eje horizontal. El valor obtenido es aproximado ya que utiliz un mtodo grfico. Los percentilos que se reparten el 100% en cuatro porciones se llaman cuartiles (Q) y son tres:

1 2
50

25

75

Los percentiles que reparten el 100% en diez porciones se llaman deciles (D) y son nueve: D1 = P10, D2 = P20.. D9 = P90 El recorrido o rango intercuartil (Figura 25) es la diferencia entre el tercer (Q3) y primer cuartil (Q1), mientras que el recorrido interdecil es la diferencia entre el noveno decil (D9) y el primer decil (D1). Cualquiera de estos dos valores posee la ventaja que no se ven afectados por la presencia de datos extremos, pero la desventaja que desestiman el resto de los valores en su clculo.

Figura 36: Con las dos lneas negras se marcan las posiciones del primer y tercer cuartil. Entre estos valores se encuentran el 50% de las observaciones. La distancia entre ellos es el recorrido o rango intercuartil.

Pgina | 39

Curso de Estadstica y Diseo de Experimentos 2009

Estadsticos de centralizacin o tendencia central: Las medidas de tendencia ms usadas son la media, la moda y la mediana. Existen otras que se aplican slo en casos particulares y que se pueden consultar en fuentes bibliogrficas. Comenzaremos con la mediana (Med), ya que en realidad se trata de un percentil; el P50. Si recordamos la definicin de percentil, la mediana es la observacin que divide al conjunto de valores en dos partes iguales. Por ejemplo, si el conjunto de datos fuera: {2.3 - 3.2 4.8 5.6 2.3 4.5 6.5} Si ordenamos los datos, veremos que 4.5 es el valor que divide al conjunto de datos en dos partes: {2.3 2.3 - 3.2 4.5 4.8 - 5.6 6.5} Si n es impar, la mediana es la observacin que queda en el medio una vez que las observaciones fueron ordenadas. Es decir:

( )
Si n es par, no existe esta observacin central, sino que hay dos, en este caso la mediana es la media entre estas dos observaciones. Para los datos de altura la mediana la podemos calcular de forma grfica usando el grafico de frecuencias o porcentajes acumulados (Figura 24), tal como se hace con cualquier percentil, pero en este caso partiendo del valor 50%. Se puede ver que la mediana esta cercana a la marca de clase de la clase 5, es decir cerca de 166.5 cm. Si deseamos calcular la mediana de forma analtica podemos usar la siguiente frmula:

Dnde: L: es el lmite inferior de la clase que contiene a la mediana. Esto se puede averiguar mediante inspeccin de la tabla de frecuencias por clases. h: ancho de la clase. f: frecuencia de esa clase. j: es el nmero de datos en esta clase para llegar a N/2. Apliqumoslo a nuestros datos. Al final de la clase 4 se acumula el 37.65% de las observaciones, mientras que al final de la clase 5 se acumula el 65.74% de los casos, es decir que la mediana est dentro de la clase 5, por lo tanto L=163.67 y f=91. El valor de h ya lo conocemos (h: 5.667). El valor de j se calcula de la siguiente forma: si hasta la clase
Pgina | 40

Curso de Estadstica y Diseo de Experimentos 2009

cuatro hay acumuladas 122 observaciones, para llegar a la mitad de N (324/2=166) haran falta 44, por lo tanto j=44. Se realizamos el clculo, la mediana es: 166.41 cm. La mediana posee como caractersticas principal el hecho de que no da informacin alguna sobre la variabilidad de los datos. Dos muestras semejantes excepto en sus valores extremos tendrn las misma mediana. Esto, que a priori parece una desventaja, en algunos casos es muy til. Para demostrar esto fcilmente, calculemos la mediana de estos dos conjuntos de datos: A = {2, 40, 50, 50 y 60} B = {40, 40, 50, 50 y 160} Ntese que la diferencia slo est en el valor 2 del conjunto A y 160 del B, que es bastante ms bajo y ms alto, respectivamente (seran valores extremos), sin embargo la mediana para amos conjuntos es 50. Otra ventaja de la mediana es que es la alternativa a usar con variables discretas ya que el valor siempre ser un entero. Por ejemplo, si la variable es nmero de hijos, el promedio pueda dar un nmero decimal (que no tendra sentido tratndose de hijos) mientras que la mediana sera un nmero entero.

Continuemos con la moda (Mod). La moda es definida como el valor ms frecuente. En caso de variables discretas u ordinales es muy sencillo saber la moda. Por ejemplo en el caso de la cantidad de hermanos, la moda es 1 hermano, ya que 166 alumnos poseen un solo hermano (Figura 17). En el caso de variables continuas, la moda es la marca de clase de la clase con mayor frecuencia. La moda como caracterstica principal posee el hecho de que es muy sencilla de calcular y por sobre todo que en algunos casos puede no ser nica. Veamos el siguiente grfico (Figura 26):

Figura 37: Incidencia de tuberculosis por clases de edad. Claramente se trata de una distribucin bimodal y las personas ms afectadas son los adultos jvenes y las personas de ms de 65 aos.

Se claramente que existen dos clases con mayor frecuencia que el resto; las clases 4 y 8.

Pgina | 41

Curso de Estadstica y Diseo de Experimentos 2009

Por ltimo, abordaremos al estadstico que todos calculamos alguna vez: la media aritmtica (el promedio). A partir de ahora lo llamaremos simplemente media, pero sepa el lector que existen otras medias, por ejemplo la geomtrica, la harmnica, etc., que no trataremos en este curso, ya que son de uso muy limitado.

La media de una muestra se simboliza con una x debajo de una barra (ver frmula) y es el estadstico de tendencia central que mejor estima (con menos sesgo) a la media poblacional (que se simboliza con la letra (se lee mu)). Para calcular la media de una poblacin o de una muestra sumamos todos los valores y dividimos el resultado por el nmero de datos (tamao de la muestra o de la poblacin). Escrito formalmente con el lenguaje estadstico sera:

Donde xi es cada una de las observaciones desde i=0 hasta i=n, n = tamao de la muestra (en caso de ser la poblacin sera N). Si los datos estn agrupados en clases, la frmula para calcular la media es:

Donde Fi es la frecuencia de la clase i, xci es la marca de clase de la clase i y n es el tamao de la muestra (en caso de ser la poblacin sera N). La media aritmtica como medida de tendencia central posee algunos problemas, el principal es que es muy sensible a los valores extremos. Para demostrar esto fcilmente, calculemos la media aritmtica de estos dos conjuntos de datos: A = {2, 40, 50, 50 y 60} B = {40, 40, 50, 50 y 60} Ntese que la diferencia slo est en el valor 2 del conjunto A que es bastante ms bajo (sera un valor extremo). La media aritmtica para A es: 41, mientras que para B es 48. Para nuestro conjunto de datos de ejemplo y en particular para la variable altura, los estadsticos de tendencia central resultaron ser: Media: 166.2, mediana: 166.41 y moda: 166.50. Si ubicamos estos estadsticos el histograma de frecuencias veremos lo siguiente (Figura 27):

Pgina | 42

Curso de Estadstica y Diseo de Experimentos 2009

Figura 38: Ubicacin de las medidas de tendencia central en el histograma de frecuencias. Como se ve en las distribuciones unimodales y simtricas las tres mediadas estn cercanas unas de otras.

Estadsticos de dispersin: La medida ms sencilla de medir la dispersin es el rango o la amplitud. Es lo que calculamos anteriormente como recorrido muestral, es decir es la diferencia entre el mximo y el mnimo. Este estimador tiene como ventaja que muy sencillo de calcular y que el resultado posee las mismas unidades que las medidas (por ejemplo: 51 cm en el caso de las alturas). Lo malo es que est muy influido por los extremos y desestima todos los otros datos. A diferencia de otras medidas de dispersin que disminuyen al tomar ms datos, el rango cuantos ms datos se tomen, mayor ser ya que nunca disminuye (a lo sumo queda igual). Otra posible medida de dispersin seria sumar las diferencias entre todos los valores y la media Esto en escritura estadstica sera de la siguiente forma:

Esto calculado para los valores de x mayores que la media dar negativo, y para los menores dar positivo. Sucede que al sumar estas diferencias entre si se cancelan los positivos y negativos y resulta ser siempre cero.

Por lo tanto no sirve como medida de dispersin, ya que para cualquier conjunto de datos da lo mismo. Una posibilidad es calcular estas diferencias y transformarlas en valores absolutos mediante la funcin mdulo; de esta forma se desestima el signo. La frmula sera:

Pgina | 43

Curso de Estadstica y Diseo de Experimentos 2009

El valor Dm se denomina desviacin media. Posee la ventaja que sus unidades son similares a la de los valores, pero es difcil de calcular y la mayora de los programas estadsticos no lo calculan por los problemas que trae la funcin mdulo. Otra posibilidad para que no se cancelen los valores de diferencia positivos y negativos es elevar al cuadrado las diferencias. Como ya sabemos cualquier nmero elevado al cuadrado es positivo. La frmula de las diferencias al cuadrado (tambin llamado suma de cuadrados o SC) sera:

)
):

Si dividimos la SC por el tamao de la poblacin (N), obtenemos la varianza (

Si estamos trabajando con toda la poblacin estadstica es factible utilizar la frmula anterior, pero si estamos calculando la varianza a partir de una muestra, el estimador se denomina S2 y la frmula es la siguiente:

El denominador es n-1 y de esta forma S2 es un estimador insesgado de Como se puede apreciar las unidades de la varianza son las mismas que la de las medidas pero al cuadrado, si se calcula la raz cuadra de S2, se obtiene lo que se denomina desviacin estndar (s) (a veces tambin llamada desviacin tpica):

La desviacin estndar posee como ventaja respecto a la varianza que posee las mismas unidades que las mediciones. Cuando calculamos la varianza utilizando calculadoras redondeamos datos y la frmula anterior para la varianza produce errores (y ms an al calcular s). En tales casos conviene usar la siguiente frmula:

Pgina | 44

Curso de Estadstica y Diseo de Experimentos 2009

Supongamos que deseamos calcular la varianza y la desviacin estndar para una muestra de diez alturas de los adolescentes:

Alturas (cm)
1 2 3 4 5 6 7 8 9

Xi
151 170 170 152 168 165 174 157 166

x2
22801 28900 28900 23104 28224 27225 30276 24649 27556

(x- )2
161.3 39.7 39.7 136.9 18.5 1.7 106.1 44.9 5.3

1473 163.7

241635.00
( )

554.1 2169729

S2 = 69.25 cm2 s = 8.32 cm 65.27 cm2 s = 8.07 cm

( 2

Los valores obtenidos son parecidos pero no iguales (se nota ms en comparando los valores de s). Para usar la frmula de la fila 2, hay que primero calcular la media y redondear el valor. Luego restarle a cada observacin el valor de la media (ya redondeado). Esto produce una secuencias de redondeos, en cada uno de los cuales, se agrega un pequeo error.

Como ltima medida veremos el coeficiente de variacin (CV):


Pgina | 45

Curso de Estadstica y Diseo de Experimentos 2009

La idea de este coeficiente es calcular cunto de la media representa la desviacin estndar. Es decir que si la media representa el 100%, Cunto representara s? Se calcula segn:

Dado que la desviacin estndar y la media poseen las mismas unidades y stas se cancelan, por lo que CV no posee unidades y al multiplicarlo por 100 resulta un porcentaje. Qu utilidad tiene esta estadstico? Supongamos que para las mismas unidades experimentales tengo medidas dos variables diferentes, como en el caso de los adolescentes el peso y la altura; y deseo saber cul de las dos variables posee ms variacin. Los datos de media y desviacin estndar para estas dos variables (N= 324) son: Variable Media Desviacin estndar CV Altura 166.23 cm 8.84 cm 5.32 % Peso 57.30 kg 10.95 kg 19.10 % No tendra sentido comparar las desviaciones estndar de las dos variables, ya que una representa centmetros y la otra representa kilogramos. Pero el valor de CV es independiente de las unidades y muestra claramente que entre los adolescentes hay ms variacin en el peso que en la altura.

Estadsticos de forma: Asimetra: Una distribucin de frecuencias es simtrica cuando la media divide al grfico en dos porciones similares. En este tipo de distribuciones la cantidad de observaciones antes y despus de la media son iguales, es decir que la media es similar a la mediana. Adems la media sera tambin el valor ms frecuente por lo que sera igual a la moda. La distribucin que se muestra en la figura 28 es conocida como distribucin normal, de Gauss o Gaussiana. Es muy usada en estadstica y aqu slo la presentaremos pero ser nombrada y utilizada ms adelante en muchas ocasiones. La importancia de esta distribucin es que muchos procesos y fenmenos reales siguen esta forma de distribucin. La forma de la distribucin normal se denomina campana de Gauss.

Figura 39: Distribucin normal o Gaussiana. Como muestra el dibujo es una distribucin unimodal y perfectamente simtrica alrededor de la media ().

Pgina | 46

Curso de Estadstica y Diseo de Experimentos 2009

Algunas propiedades de esta distribucin son: la forma es perfectamente simtrica. la media es igual a la moda y a la mediana. Antes y despus de cualquiera de estos valores estn el 50% de los datos. en el intervalo [ - , + ] se encuentran el 68,26% de los valores, mientras que en el intervalo [ 2, + 2] se encuentra el 95,44% y en el intervalo [ -3, + 3] se encuentra el 99,74% de la distribucin. Cuando en estadstica se habla de un valor normal se hace referencia a que est incluido en el intervalo [ - , + ].

Qu ocurre en las distribuciones asimtricas? En este tipo de distribuciones la media, mediana y moda no coinciden. Esto ocurre porque la media se ve afectada por los valores extremos (las colas de la distribucin), mientras que la mediana no. En la siguiente figura (Figura 29) se ve claramente como la media tiende a estar ms cerca de la cola alargada, mientras que la moda por el contrario tiende a la zona de mayor frecuencia y la mediana no modifica su posicin.

Figura 40: Las dos posibilidades de curvas unimodales asimtricas (Fuente: Wikipedia).

El coeficiente de asimetra de Fisher, representado por 1, determina la simetra de una distribucin. El clculo a mano de este valor es tedioso y no tiene sentido intentarlo ya que lo calculan todos los programas de anlisis estadstico. Lo importante la informacin que provee: Si 1 = 0 (simtrica). Si 1 > 0 (asimtrica positiva o a la derecha). Si 1 < 0 (asimtrica negativa o a la izquierda).

Apuntamiento o curtosis: El apuntamiento o curtosis de una distribucin hace referencia a la altura del pico central. Algunas distribuciones son ms bajas que la normal (se las denomina platicrticas) y otras son ms altas (leptocrticas) (Figura 30).

Figura 41: La distribucin de la izquierda est achatada con respecto a la normal (la del medio), mientras que la de la derecha posee un pico ms alto.

Pgina | 47

Curso de Estadstica y Diseo de Experimentos 2009

El coeficiente de curtosis de Fisher, representado por 2, determina la curtosis de una distribucin. De igual manera que con el coeficiente anterior, el clculo a mano de este valor es tedioso y no tiene sentido intentarlo ya que lo calculan todos los programas de anlisis estadstico. Lo importante la informacin que provee: Si 2 = 0 (normal). Si 2 > 0 (leptocrticas o en pico). Si 2 < 0 (platicrticas o achatada).

Algunas consideraciones finales acerca de los estadsticos.

El clculo de un estadstico no debe ser ambiguo, si se realiza el clculo se debe obtener siempre el mismo y nico valor. Esto ocurre con la media y la varianza, pero no ocurre con la moda, que ya vimos que puede haber ms de una. Para calcularlo se debe utilizar la mayor cantidad de datos de la muestra posible y no descartar ninguna de ellos de antemano. Por ejemplo, el recorrido muestral utiliza slo dos valores (mximo y mnimo) y descarta el resto; mientras que para calcular la media o la varianza se utilizan todos. Debe ser fcil de calcular y de manipular matemticamente. Por ejemplo la desviacin media no es un buen estadstico ya es calculado mediante la funcin mdulo que no es derivable. Si los estadsticos se calculan a partir de muestras, sera deseable que vare poco de muestra a muestra. De no ser as, en diferentes muestras de una misma poblacin el estadstico tomara valores muy diferentes.

Cifras significativas
Las cifras significativas de un nmero son aquellas que poseen un significado y aportan alguna informacin. La manera ms sencilla y amena de abordemos este tema un tanto rido- es mediante ejemplos sencillos. Si medimos el largo de un objeto con un calibre y obtenemos el valor 15.66 cm y otra persona mide el mismo objeto con una regla y obtiene el valor de 15.7 cm. Quin posee la medida ms precisa? Evidentemente la nuestra es ms precisa ya que posee 4 cifras significativas (1, 5, 6 y 6) y la otra estimacin posee 3 cifras significativas (1, 5 y 7). Hasta aqu parecera que un nmero cuantas ms cifras tiene ms preciso es y simplemente hay que contarlas para saber cuntas son. Esto es cierto con las cifras del 1 al 9, pero no siempre cuando aparecen ceros. Tal como vimos anteriormente, si yo quisiera hacer ms precisa una medicin (15.7 en este caso), debera conseguir un instrumento con mejor resolucin (en este caso un calibre) y medirlo nuevamente. Si sigo usando la regla para medir pero simplemente agrego otra cifra a ojo despus del 7 aumentara la precisin, pero sera un invento!!! En general nadie que trabaje es serio hace esto, excepto con los ceros. Es muy comn agregar ceros a las nmeros sin darnos cuenta que son igual de inventados que si agregramos un dos o un nueve. Por ejemplo, medimos algo con una regla y nos da 5.2 cm (cifre con 2 c.s.) es una prctica comn escribirlo como 5.20 cm. Este cero agregado a la derecha aument la precisin diez veces, a pesar de que el instrumento sigue siendo una regla (no se transform en un calibre).
Pgina | 48

Curso de Estadstica y Diseo de Experimentos 2009

Qu conclusiones podemos sacar hasta ahora? 1. Todas las cifras de un nmero diferentes de cero son significativas (23 posee 2 c.s.). 2. En los nmeros decimales, los ceros a la derecha son significativos (5,00 posee 3 c.s.).

Sigamos con los ceros. Si mi peso es 105 kg, el cero del medio es una cifra significativa?, por supuesto, ya que posee informacin, no es lo mismo 105, que 115 o que 195. Qu conclusin podemos sacar? 3. Los ceros en posiciones intermedias de un nmero son siempre significativos (105 posee 3 c.s.). Qu ocurre con los ceros a la izquierda?... ya lo dice el dicho: es un cero a la izquierda. 4. Los ceros a la izquierda no son significativos (0.023 posee 2 c.s. y 0.00210 posee 3 c.s.). Adems los nmeros que resultan de hecho de contar y derivados a partir de sus clculos poseen infinitas cifras significativas. Ejemplo: si en este curso hay 15 personas sabemos positivamente que ese nmero es exacto. As que podramos escribirlo como 15, 15.0000 o 15.00000000 segn nuestra conveniencia (ms adelante se entender esto de la conveniencia). Qu pasa cuando hacemos operaciones entre nmeros (usando o no la calculadora)? Partamos de un ejemplo, quiero calcular el rea de un patio rectangular y mido sus lados con una cinta mtrica slo con los centmetros. Los valores obtenidos con 6.10 m x 3.23 m, el rea resultante es 19.703 m2. Pero ac hay un problema con las cifras significativas, tanto 6.10 y 3.23 poseen tres cifras significativas, pero el resultado posee 5 c.s. por lo tanto el resultado habra que redondearlo a 3 c.s., y el resultado sera 19.7 m2. Conclusin: En la multiplicacin y divisin: el nmero de cifras significativas en el resultado es determinado por el nmero original que tenga menos cifras significativas. Supongamos este otro caso. Compro 25 kilos de harina y deseo repartirlos entre cuatro personas. Cuntas cifras significativas poseen los nmeros 25 y 4? El nmero 25 posee 2 c.s. y 4? Si aplico la regla anterior estara cometiendo un error ya que el nmero cuatro en este caso no es un valor estimado, es un valor exacto que result de contar por lo que tiene infinitas cifras significativas. Es decir que me conviene escribir para esta cuenta 25 / 4.0 (los dos con 2 c.s.). La operacin 25/4.0 = 6.25. El nmero 6.25 posee 3 c.s. ms que cualquiera de los otros dos. Eso no puede ser y resultado debera ser redondeado a la cantidad 6.3. En el caso de sumar o restar, la cantidad cifras significativas a la derecha de la coma en el resultado est determinada por la cantidad menor de cifras significativas a la derecha de la coma punto de cualquiera de los nmeros originales. Ejemplo
Pgina | 49

Curso de Estadstica y Diseo de Experimentos 2009

8.4486 + 1.2 = 9.6486 redondeado a 1 c.s. despus de la coma (tal cual 1.2) quedara redondeado a 9.7 Atencin a este ejemplo: 8.024 8.002 = 0.022 Los dos nmeros originales tenan 4 c.s., pero el resultado slo posee 2 c.s. Es decir algunas sustracciones disminuyen el nmero de cifras significativas, por eso conviene hacer las sumas antes que las restas. Ejemplo: 6.03 6.01 + 15.37 = Lo podemos resolver de dos maneras 1. (6.03 6.01) + 15.37 = 0.02 15.37 = 15.39 = 15.4 (el resultado debe ser redondeado a 15.4 ya que 0.02 posee 1 c.s.) 2. (6.03 + 15.37) 6.01 = 21.40 6.01 = 15.39 (y no debe ser redondeado ya que ambos nmeros tenan 2 c.s.)
En el siguiente sitio de internet se puede practicar el tema cifras significativas: http://www.educaplus.org/formularios/cifrassignificativas.html

Precisin y exactitud
Cuando realizamos una medicin o determinacin de una variable o magnitud cometemos errores. En cualquier proceso de investigacin que implique la experimentacin cometemos errores y esto es inevitable. Algunos errores son cometidos en el momento del diseo de la experiencia, otros en la recoleccin de los datos (proceso de medicin por ejemplo) y otros al analizar los resultados y sacar conclusiones.

Pgina | 50

Curso de Estadstica y Diseo de Experimentos 2009

Los errores de diseo pueden evitarse si planeamos con cuidado el experimento, para lo cual necesitamos conocer lo mximo posible sobre la teora disponible (marco terico adecuado). Los errores cometidos al analizar los resultados pueden evitarse utilizando correctamente tcnicas adecuadas (estadsticas o analticas) y acordes a los resultados disponibles. Los errores que cometemos al recolectar los datos los podemos reducir pero no eliminar del todo, por eso es importante tratar este tema y ver cmo podemos mejorar las mediciones y estar ms cerca de encontrar valores ms precisos y exactos. Una magnitud es todo lo que se puede medir y medir es comparar, por lo tanto el acto de medicin involucra tres sistemas que interactan entre s: lo que va a medirse, el instrumento y el sistema de referencia (las unidades patrn).

Cuando trabajamos con variables cualitativas (ya sean nominales u ordinales) no se utilizan instrumentos de medicin y la asignacin de una unidad muestral a una categora u otra se basa en la
Pgina | 51

Curso de Estadstica y Diseo de Experimentos 2009

simple observacin y en criterios fijados previamente. La nica posibilidad de error es que los criterios empleados para determinar a qu categora pertenece un objeto sean poco claros y ambiguos.

En el caso de las variables cuantitativas se utilizan instrumentos lo cual trae aparejado la posibilidad de cometer errores de medicin que alteren la precisin y exactitud de las mediciones. Un instrumento de medicin es cualquier objeto o aparato que pueda ser utilizado para medir.

Existen instrumentos ms complejos que otros, por ejemplo para medir longitudes puedo usar una vara de madera o una regla milimetrada, pero independientemente de la complejidad que tenga el instrumento debe poder establecer una proporcionalidad entre lo que queremos medir y alguna unidad patrn (la unidad patrn en algunos casos podra ser el mismo instrumento). Un instrumento ser ms sensible cuando sea capaz de medir variaciones ms pequeas en la magnitud y un instrumento ser ms exacto si los valores obtenidos con l se acercan a los valores reales. De lo anterior se desprende que lo ideal sera disponer de un instrumento con la sensibilidad adecuada y de gran
Pgina | 52

Curso de Estadstica y Diseo de Experimentos 2009

exactitud. Cabe destacar que un instrumento puede ser muy sensible y poco exacto, por ejemplo si est ms construido y su escala no se corresponde con el patrn. La precisin o poder de resolucin de un instrumento est asociada a la menor divisin de su escala. De forma tal que una balanza que pesa hasta gramos es ms precisa que una que pesa hasta 10 gramos, o un calibre es ms preciso que una regla. Adelantamos que, dado que todo instrumento posee cierta precisin (una mnima divisin de la escala patrn) su uso conduce a cometer lo que se conoce como error de apreciacin. Se considera que el error de apreciacin es la mitad de la mnima divisin del instrumento.

Errores que cometemos al hacer mediciones: errores sistemticos, de apreciacin y accidentales


Los errores de medicin no son equivocaciones. Son parte inherente del propio proceso de medicin.

Error sistemtico. Este tipo de error se produce cuando un instrumento est mal calibrado o es usado en condiciones de laboratorio diferentes a las cuales fue calibrado. Un error sistemtico muy comn es el corrimiento del cero del instrumento, es decir que el instrumento no mide 0 cuando la magnitud medida es nula; esto suele suceder con las balanzas. Lo bueno de esta situacin es que a veces este tipo de errores se pueden corregir posteriormente si se verifica el error sumando o restando la diferencia. Error de apreciacin. Este tipo de error no vara de medicin a medicin y depende del instrumento ya que est directamente relacionado con su precisin. Mientras mayor precisin o poder de resolucin tenga un instrumento (ms pequea sea la menor divisin de su escala), menor ser el error de apreciacin. Lo que tiene de particular este tipo de error es que no puede ser eliminado. Error accidental. Como su nombre lo indica, los errores accidentales se producen por factores accidentales o aleatorios como puede ser el uso incorrecto del instrumento por el operador, o por las condiciones variantes en las que se realiza la medicin.
Pgina | 53

Curso de Estadstica y Diseo de Experimentos 2009

Este tipo de errores pueden reducirse mediante un uso cuidadoso del operador y mediante la repeticin de las medidas. Cuando medimos una misma magnitud varias veces no necesariamente obtendremos los mismos valores. En algunos casos estaremos por arriba del valor real y en otras por debajo. Est demostrado que el promedio de las mediciones es el valor que ms se acerca al real.

Qu es el error absoluto de una medicin?


El error absoluto de una medicin es la suma de los errores: sistemticos, de apreciacin y accidentales. Es decir que cuando realizamos una medicin (M) debido a la presencia de estos errores slo podemos asegurar que el valor real se encuentra en un intervalo definido por:

Donde

corresponde al error absoluto:

Si la magnitud se mide con un instrumento adecuado y sin cometer errores accidentales se puede considerar que:

En general se utiliza una sola cifra significativa para el error absoluto, redondeando si hubiera sido obtenido por clculo.

Apliquemos esto a un ejemplo. Supongamos que quiero medir en el alto de un billete (llammoslo x) con una regla que slo posee sealados los centmetros (resolucin = 1cm). Evidentemente con este instrumento no podr obtener un valor muy preciso ni exacto del alto del mismo. Con esta regla las posibles longitudes medidas en centmetros seran todos nmeros enteros (2, 5, 10 cm, etc.). Cuando la uso para medir el billete, determino que el alto est entre seis y siete centmetros. Pero no puedo dar ms precisin ya que no hay divisiones menores al centmetro. Si concluyo que mide 6.5 cm sera una medicin aproximada o a ojo de buen cubero y este resultado tendra un nivel de precisin mayor que la resolucin del aparato que us (ver ms adelante el tema cifras significativas); el resultado 6.5 cm est en dcimas de centmetro (milmetros) y la regla posee una resolucin de un centmetro. El valor a informar en este caso sera x=6 cm, aunque s que no es exactamente el valor real. Lo que s puedo estar seguro, es que dado que la resolucin de la regla es de 1 cm y el error de apreciacin es 0,5 cm y el intervalo que seguro contiene al valor real es:

Pgina | 54

Curso de Estadstica y Diseo de Experimentos 2009

Figura 42: Si la regla posee marcados slo los centmetros, el resultado no puede incluir en su cifra milmetros.

Figura 43: La medicin del mismo objeto con una regla milimetrada, si permite dar una cifra con milmetros.

Cmo puedo obtener un valor ms preciso? Usando un instrumento con un poder de resolucin menor y con menor error de apreciacin, por ejemplo una regla milimetrada. Usando esta regla veo que el billete de alto casi mide 6.5 cm, y tal vez nos veamos tentados a arriesgar un 6.45 cm. Este valor tendra un nivel de detalle mayor (dcima de milmetro) que la resolucin de la regla (milmetro). Nuevamente lo que s puedo estar seguro es que el valor exacto del alto est entre los valores 6.45 y 6.55 cm (que incluye al valor estimado 6.5 cm).

Por ltimo, si uso un calibre cuya resolucin es la decima de milmetro (y por lo tanto el error de apreciacin 0.005 cm) obtengo un valor 6.45 cm y dado que la resolucin es la dcima de milmetro, puedo estar seguro que el valor exacto se encuentra entre 6.445 y 6.455 cm.

Si repasamos los datos en la siguiente tabla:


Resolucin del instrumento (regla) 1 cm 0.1 cm 0.01 cm Error de apreciacin 0.5 cm 0.05 cm 0.005 cm Valor obtenido (cm) 6 6.5 6.45 Intervalo (cm) 5.5 6.5 6.45 6.55 6.445 6.455

Pgina | 55

Curso de Estadstica y Diseo de Experimentos 2009

Cuando medimos, en realidad ms que un resultado preciso y exacto, encontramos un intervalo que contiene al verdadero valor. Instrumentos ms precisos nos proporcionan intervalos ms acotados. Vemos que a medida que aumentamos la resolucin del aparato obtuvimos valores ms precisos (intervalos ms cortos) y adems si esos instrumentos estn correctamente calibrados o construidos, los valores se acercarn cada vez ms al alto real del billete, es decir se gan tambin en exactitud. Ntese que el valor 6.45 cm est incluido en todos los intervalos obtenidos previamente. Dijimos anteriormente que cuando se descartan los errores sistemticos y accidentales, el error absoluto era igual al error de apreciacin. Tambin dijimos que los errores de apreciacin no se pueden eliminar pero si reducir. Una forma de poder comparar los errores cometidos con diferentes instrumentos (y por lo tanto con diferentes errores de apreciacin) es calcular el error relativo y porcentual. La frmula es muy sencilla, es el cociente entre el error absoluto y el valor obtenido:

Ntese que el erro relativo es adimensional. Por ltimo el error porcentual es:

Valor obtenido (cm) 6 6.5 6.45

Error absoluto (=apreciacin) 0.5 cm 0.05 cm 0.005 cm

Error relativo 0.1 0.008 0.0008

Error porcentual (%) 10 0.8 0.08

Los conceptos: precisin y exactitud se suelen usar como sinnimos y no lo son. Repasmoslos y remarquemos las diferencias: La precisin de un instrumento est relacionada con el poder de resolucin, es decir con la mnima divisin. Si se realizan varias mediciones de una misma magnitud, la precisin se refiere a la dispersin del conjunto de valores obtenidos en mediciones repetidas. Cuanta menor precisin se tenga al medir, mayor ser la dispersin de los resultados (mayor el intervalo que incluye al valor real). La falta de precisin o imprecisin aumenta al cometer errores de apreciacin y accidentales durante el proceso de medicin y constituyen una fuente de incertidumbre. Esta incertidumbre aumenta con aparatos con poca resolucin y el descuido en el uso del operador.

Pgina | 56

Curso de Estadstica y Diseo de Experimentos 2009

La exactitud se refiere a que tan cerca del valor real se encuentra el valor medido. En trminos estadsticos, la exactitud est relacionada con el sesgo de una estimacin (sesgo = inexactitud), por lo que cuanto menor sea el sesgo ms exacta ser una estimacin. La inexactitud est asociada a errores sistemticos debidos a mala calibracin o construccin de un aparato; tambin a malos hbitos del experimentador al momento de medir. Si se conoce el valor real, la exactitud es la diferencia entre el valor real y el estimado.

Pgina | 57

Curso de Estadstica y Diseo de Experimentos 2009

TUTORIAL PARA UTILIZAR EL PROGRAMA


Este breve tutorial pretende introducir al usuario en el uso de este sencillo pero potente- programa de anlisis estadstico. Para lograr este objetivo se explican la mayora de los comandos y mens de que dispone el programa. Luego de utilizar esta gua el usuario no tendr problemas de usar los comandos que no son explicados. De todos los mens, en este tutorial se explicarn los comandos de los mens: ARCHIVO, EDITAR, UTILIDADES, GRAFICOS y DESCRIPTIVA. El resto de los mens se abordarn en otro tutorial (parte II). Para todos los ejemplos se utiliz el archivo de datos: Datos adolescentes (Gstat).txt Una vez abierto el programa podemos observar una barra con varios mens (Figura 1). ARCHIVO EDITAR UTILIDADES GRAFICOS DESCRIPTIVA ANALISIS ANOVA MULTIVARIANTE AYUDA
Figura 44: Mens del programa G-Stat.

Lo primero que veremos es como se puede generar una planilla de datos. Existen dos formas para hacerlo:

USAR EL EXCEL PARA CARGAR LOS DATOS


a) Para hacerlo de esta forma se debe abrir una planilla de Excel y colocar en las columnas de la fila 1 los nombres de las variables. Una vez hecho esto procedemos a cargar los datos como en cualquier planilla de Excel. Una vez cargados los datos, la planilla terminada quedar con la siguiente apariencia (se muestran las primeras siete filas) (Figura 2):

Figura 45: Muestra de las primeras filas de datos de la planilla. Ntese que las variables ocupan las diferentes columnas y los casos las filas.

b) Luego deber guardarse el archivo con formato texto (delimitado por tabulaciones) (Figura 3). Lo grabaremos con el nombre: Datos adolescentes (Gstat).txt. IMPORTANTE: Hay que tener en cuenta que el separador decimal debe ser el punto en lugar de la coma. Esto se cambia de la siguiente forma: ir a Inicio (en el escritorio de Windows), luego Panel de Control luego Configuracin Regional y seleccionar Personalizar y en smbolo decimal elegir el punto ..

Pgina | 58

Curso de Estadstica y Diseo de Experimentos 2009

Figura 46: Para poder importar con G-Stat las planillas realizadas con Excel, los datos deben ser guardados previamente con formato Texto delimitado por tabulaciones.

c)

Por ltimo se abre el programa G-Stat y en el men ARCHIVO se selecciona ABRIR ARCHIVO. Se busca el archivo recientemente guardado y se lo abre. Aparecer el siguiente cuadro (Figura 4):
Figura 47: Verificar la presencia de la tilde que asegura que la primera fila contiene el nombre de las variables.

d) Chequear que est colocado el tilde en nombres de las variables en la primera fila y aceptar. Listo. e) Si los datos ya estaban cargados en una planilla de Excel, editarla de forma tal que las variables queden como columnas y sus nombres ocupen la primera fila. Luego continuar desde el paso c.

USAR EL G-STAT PARA CARGAR LOS DATOS


a) Si ingresaremos los datos directamente con este programa debemos hacer lo siguiente. Cuando abrimos el programa aparece una planilla vaca con 10 variables (Var-1 a Var-10) y 100 casos. Debemos ingresar las variables una por una. Para ello seleccionamos una columna (en la imagen est seleccionada la Var-1). Luego en el men EDITAR ejecutamos el comando INSERTAR VARIABLE y aparecer el siguiente cuadro (Figura 5):
Figura 48: Insertar variables con este programa es muy sencillo, slo debe especificarse su nombre.

b) Ingresamos el nombre de la variable y aceptamos. Debemos hacer lo mismo con cada una de las variables. Si ingresamos menos de 10 variables, podemos dejar las restantes o eliminarlas (es indistinto para el trabajo posterior). Una vez ingresadas las variables debemos ingresar los datos.
Pgina | 59

Curso de Estadstica y Diseo de Experimentos 2009

c)

Para ello nos situamos en una casilla e ingresamos el valor deseado, luego presionamos ENTER y la seleccin se dirige a la casilla de abajo ingresamos un nuevo valor y as sucesivamente, por lo tanto es ms sencillo ingresar todos los valores de una misma variable y recin luego pasar a los de otra. Tambin se puede usar las teclas del cursor para desplazarnos de una casilla a otra. d) Una vez ingresados todos los datos grabamos la planilla y para ello en el men ARCHIVO seleccionamos el comando GUARDAR. Una vez que disponemos de la planilla con los datos podemos empezar a utilizar los diferentes comandos y capacidades de este programa de anlisis estadstico. Para comenzar a utilizar el programa abriremos la planilla con los datos (Datos adolescentes (Gstat).txt), para ello en el men ARCHIVO usamos el comando ABRIR ARCHIVO(Figura 6).
Figura 49: El men archivo posee varios comandos que son comunes a otros programas de Windows.

Seleccionamos el archivo (Datos adolescentes (Gstat).txt). Una vez abierto, veremos las variables (Sexo, Club, etc.) ocupando las columnas y los casos (1, 2, etc.) en las filas (Figura 7).
Figura 50: Vista de las primeras filas de la planilla de datos que se usar en este tutorial. En total posee 7 variables y 324 casos (alumnos en este caso).

Para conocer las variables existentes y el nmero de casos disponibles para cada una de ellas, podemos en el men DESCRIPTIVA utilizar el comando VALIDACION, aparecer el siguiente cuadro (Figura 8):

Pgina | 60

Curso de Estadstica y Diseo de Experimentos 2009

Figura 51: Cuadro resultado de la ejecucin del comando VALIDACION. Ntese que las variables cualitativas se distinguen de las cuantitativas, ya que para ellas los casos numricos son cero y no poseen mximos ni mnimos.

Como se puede ver en el cuadro para todas las variables hay 324 datos (casos vlidos). En el caso de las variables cuantitativas se informa el nmero de casos numricos, adems de los valores mnimo y mximo. Comenzaremos trabajando con estos datos incluyendo una nueva variable que llamaremos IMC (ndice de masa corporal). Este ndice se calcula dividiendo el peso (en Kg) por la altura (en m) elevada al cuadrado. Como primer paso, en el men EDITAR seleccionamos INSERTAR VARIABLE; aparecer el siguiente cuadro (Figura 9):
Figura 52: Una vez armada la planilla de datos podemos seguir insertando variables posteriormente de la misma forma que se insertaron al principio.

Escribimos IMC y aceptamos. Luego, para calcular esta nueva variable, utilizaremos del men UTILIDADES el comando TRANSFORMAR. Dado que los valores de altura estn en centmetros los pasaremos a metros dividindolos por 100. En el cuadro TRANSFORMAR deberemos colocar lo siguiente (Figura 10):
Figura 53: En el cuadro para hacer transformaciones aparece un men desplegable llamado operador. Entre los operados matemticos disponibles, estn las operaciones matemticas bsicas, adems de otras ms complejas.

Pgina | 61

Curso de Estadstica y Diseo de Experimentos 2009

En el primer cuadro seleccionamos la variable Altura, en el segundo colocamos el valor del divisor (en este caso 100) y en operador elegimos la divisin (/). En variable resultado elegimos tambin Altura, es decir que los nuevos valores reemplazarn a los anteriores. Comprobemos que simplemente a los valores se les desplaz la coma dos posiciones. Ahora necesitamos crear una nueva variable (la llamaremos Altura2) que tendr los valores de altura elevados al cuadrado (para insertar la nueva variable hacer como ya fue indicado anteriormente). Volvemos al men TRANSFORMAR y colocaremos lo siguiente (Figura 11):
Figura 54: Podemos elevar una variable a cualquier potencia seleccionando ^ como operador y colocando la potencia deseada.

El operador ^ indica elevar a una potencia, en nuestro caso 2. Como variable resultado colocamos Altura2, la variable que insertamos anteriormente. Finalmente, de nuevo en el men TRANSFROMAR, calculamos los valores de la nueva variable IMC, completando en el men los siguientes valores (Figura 12):
Figura 55: Podemos generar una nueva variable operando matemticamente otras dos, tal es el caso de la variable IMC.

Como se ve, indicamos que calcule los valores de IMC dividiendo el Peso por el Altura2 (el cuadrado de la altura en metros). Luego podemos eliminar la variable Altura2 ya que no volveremos a usarla. Para ello seleccionamos con el mouse la variable a eliminar y luego en el men EDITAR seleccionamos ELIMINAR VARIABLE, aparecer el siguiente cuadro (Figura 13):

Pgina | 62

Curso de Estadstica y Diseo de Experimentos 2009

Figura 56: Si lo deseamos podemos eliminar variables que estamos seguro no utilizaremos.

Confirmamos y la variable es eliminada. Otro comando muy til del men UTILIDADES es RECODIFICAR. Supongamos que deseamos juntar los datos de quienes tengan 4 o 5 hermanos en una sola categora (que sera 4 o ms hermanos) pero que estara simbolizada por el nmero 4. Para hacer esto sealamos la variable y seleccionamos el comando RECODIFICAR e introducimos los siguientes cambios (Figura 14):
Figura 57: La re-codificacin permite asignar nmeros a las categoras de variables cualitativas o reagrupar datos de variables discretas.

A lado del 5 de la columna Antes, colocamos 4, es decir que se cambiarn todos los 5 de esta variable a 4. Tambin a veces se puede codificar variables cualitativas, por ejemplo podramos codificar la variable sexo, de forma tal que mujer sea igual a 1 y varn igual a 0. Para ello seleccionamos la variable y en el men RECODIFICAR introducimos los siguientes cambios (Figura 15):
Figura 58: Re-codificar variables cualitativas es una ventaja para ciertas tcnicas estadsticas.

Pgina | 63

Curso de Estadstica y Diseo de Experimentos 2009

Vale aclarar que la re-codificacin de una variable cualitativa en cuantitativa se realiza por una cuestin de conveniencia operacional, pero no significa que la variable sea realmente cuantitativa. Por ejemplo si en la recodificacin es: 1=mujer y 2=hombre, eso no significa que dos mujeres sean iguales a un hombre.

Qu grficos podemos hacer con estos datos?


El men GRAFICOS (Figura 16) contiene las opciones necesarias para la realizacin de diferentes tipos de grficos. Dentro de las opciones tenemos opciones de grficos para de una variable (univariantes) o de dos (bivariantes). Los cdigos (a) o (b), a continuacin del nombre del grfico, indican que ese tipo de grfico es adecuado para variables cualitativas y los cdigos (y) o (x) indican que ese tipo de grfico es vlido para variables cuantitativas.
Figura 59: En el men GRAFICOS hay varias opciones que cubren los tipos ms usados en estadstica descriptiva.

En los grficos para dos variables, la separacin por barras verticales indica que la variable a la izquierda de la barra representa la variable explicativa o independiente y a la derecha la variable respuesta o dependiente. En todos los casos los grficos pueden guardarse con formato BMP o imprimirse, simplemente mediante el uso de los botones GUARDAR o IMPRIMIR que estn arriba de cualquiera de los grficos. Diagrama de barras (a) Para crear un diagrama de barras para una variable cualitativa debemos seleccionar en el men GRAFICOS, el comando BARRAS(a). Los grficos de barras se construyen de forma que la altura de la barra corresponde a la frecuencia para cada una de las categoras de la variable. El orden y el color de las barras dependen de la disposicin que ocupan los datos en la planilla. Tambin se puede usar este tipo de grfico para hacer diagramas de barras para una variable cuantitativa discreta. En este caso debera previamente ordenarse los valores en la planilla, ya que el orden en el grfico ser el mismo que en el orden de aparicin en la planilla. Si no se hace esto podra pasar que en el grfico aparecieran los valores discretos en un orden incoherente, ej.: 1, 3, 2, 0 y 4.
Figura 60: Los diagramas de barras son muy usados para mostrar los datos de variables cualitativas ya que son muy sencillos de interpretar y de construir.

Pgina | 64

Curso de Estadstica y Diseo de Experimentos 2009

Una vez abierto el cuadro seleccionamos la variable a analizar (sexo en nuestro caso) y activamos la pestaa Barras; aparecer el grfico de barras en una nueva ventana (Figuras 17 y 18).
Figura 61: El G-Stat permite hacer fcilmente grficos de barras (verticales u horizontales) de frecuencias absolutas o relativas.

Oprimiendo el botn OPCIONES aparece un cuadro en donde se puede cambiar (Figura 19):
Figura 62: Apretando el botn OPCIONES aparece un cuadro que ofrece varios cambios posibles.

el ttulo del grfico la orientacin la escala (absoluta o relativa) los valores mximos y mnimos de la escala vertical.

Por ejemplo el mismo grfico de forma vertical y escala de frecuencias relativas quedara de la siguiente forma (Figura 20):

Pgina | 65

Curso de Estadstica y Diseo de Experimentos 2009

Figura 63: El mismo grfico de la Figura 18 con algunos cambios.

Histograma (y) Para crear un histograma para una variable cuantitativa continua debemos seleccionar en el men GRAFICOS, el comando HISTOGRAMA (y). Para hacer el histograma, como paso previo, el programa agrupa los valores de la variable en un nmero determinado de clases. La altura de cada bloque en el histograma depende del nmero de casos en cada clase (frecuencia). En un histograma se puede ver claramente cul es la distribucin de los datos. Cuando ejecutamos este comando aparece el cuadro siguiente (Figura 21):
Figura 64: En el siguiente cuadro podemos seleccionar la variable cuantitativa que deseamos graficar en un histograma de frecuencias.

Una vez seleccionada la variable cuantitativa (slo puede usarse para variables cualitativas), seleccionamos la pestaa Histograma para ver el grfico (Figura 22).

Pgina | 66

Curso de Estadstica y Diseo de Experimentos 2009

Figura 65: Notar que en los histogramas las columnas que representan las frecuencias de cada clase se tocan entre s, no as en los diagramas de barras.

Si apretamos el botn Opciones, podemos introducir varios cambios al grfico, entre ellos (Figura 23):
Figura 66: Adems de los ttulos, el botn OPCIONES nos permite modificar las escalas y el nmero de clases.

el ttulo principal y los ttulos de los ejes. los mximos y mnimos de los ejes. el nmero de clases (mximo 12 clases).

Por ejemplo el mismo histograma pero con nueve clases sera el siguiente (Figura 24):

Pgina | 67

Curso de Estadstica y Diseo de Experimentos 2009

Figura 67: Dado el nmero de datos (N=324), cinco clases son pocas, lo adecuado seran nueve.

Cajas (y) Este tipo de grficos (tambin llamado caja y bigotes o en ingls box and whisker plots) muestra resultados sobre la distribucin de una variable cuantitativa, mostrando una serie de medidas de centralizacin (o de tendencia central). La estructura del grfico est formada por una caja y dos segmentos horizontales situados a ambos lados de sta (Figura 26). Los bordes de la caja representan los cuartiles 1 (25%) y 3 (75%), respectivamente, y la mediana (percentil 50%) corresponde a la lnea central. La media aparece sealada en los grficos con un cuadrado gris y suele encontrarse prxima a la mediana. La distancia entre ambos valores, aporta informacin en cuanto a la simetra o asimetra de la distribucin de la variable. Cuando la distribucin es simtrica; media y mediana coinciden. La distancia entre estas dos medidas indica, asimismo, la posibilidad de valores extremos ya que la media es considerablemente sensible a ellos y la mediana no. Los valores que estn situados a una distancia superior a 1.5 veces la distancia intercuartlica (diferencia entre el tercer y primer cuartil) son considerados outliers o valores extremos y estn sealados en rojo. Los extremos de los segmentos corresponden al mnimo y al mximo de los valores sin considerar los valores extremos. En el caso de que no haya valores extremos, los segmentos son simplemente el mnimo y el mximo. Para crear un grfico de caja para una variable cuantitativa debemos seleccionar en el men GRAFICOS, el comando CAJAS (y); cuando ejecutamos este comando aparece el cuadro siguiente (Figura 25).

Pgina | 68

Curso de Estadstica y Diseo de Experimentos 2009

Figura 68: Los grficos de cajas son muy tiles como herramientas descriptivas de variables cuantitativas. En el siguiente cuadro slo debemos seleccionar la variable cuantitativa.

Una vez seleccionada la variable cuantitativa (slo puede usarse para variables cuantitativas), seleccionamos la pestaa Cajas para ver el grfico terminado (Figura 26).
Figura 69: Un grfico de caja tpico. Muestra la posicin de dos medidas de tendencia central, adems de cuartiles y de mostrar los valores extremos u outliers.

Si apretamos el botn Opciones, podemos introducir varios cambios al grfico, entre ellos (Figura 27):
Figura 70: Tambin disponemos del botn OPCIONES para este tipo de grfico.

Pgina | 69

Curso de Estadstica y Diseo de Experimentos 2009

la orientacin del grfico. los ttulos del eje y general. la escala del eje x.

Por ejemplo el mismo grfico de caja en sentido vertical sera el siguiente (Figura 28):
Figura 71: El mismo grfico en sentido vertical.

Los grficos que incluyen dos variables y que construye este programa son:
Barras (a|b) En los grficos de barras de dos variables cualitativas, una de las variables, denominada explicativa sirve para agrupar los datos, mientras que la otra (la variable respuesta) es la que formar los bloques de frecuencias. Por ejemplo con la planilla de adolescentes podramos hacer un grfico que muestre como son las respuesta de los adolescentes acerca de la utilidad de la educacin que reciben (variable: Educacin), segn su sexo. Para ello, cuando ejecutemos el comando BARRAS (a/b) del men GRAFICOS, aparecer el siguiente cuadro (Figura 29):
Figura 72: En este tipo de grfico podemos combinar dos variables cualitativas.

Pgina | 70

Curso de Estadstica y Diseo de Experimentos 2009

La variable respuesta en este caso sera Educacin y la explicativa sera Sexo. Luego de elegir las variables seleccionamos la solapa Barras y veremos el siguiente grfico (Figura 30):
Figura 73: No es lo mismo intercambiar estas dos variables (como descriptiva o explicativa). El autor deber saber cul de las dos variables asume cada una de estas funciones.

Cajas (a|y) Con este programa podemos hacer un grfico de cajas para una variable cuantitativa pero cuyos datos estn previamente estratificados por una variable cualitativa. De esta forma logramos ver las distribuciones de diferentes subconjuntos de una variable cuantitativa. Para hacer este tipo de grfico es necesario identificar las dos variables: una explicativa (que puede ser cualitativa o discreta) que es la que definir los subconjuntos y otra respuesta cuantitativa (y) sobre la cual se analizarn los datos. Para cada categora de la variable que forma los subconjuntos se presenta un diagrama de cajas. Por ejemplo con los datos de la planilla podramos ver como vara la altura de los adolescentes (variable cuantitativa) segn el sexo (variable cualitativa). Luego de ejecutar el comando CAJAS (a/y) del men GRAFICOS, aparecer el siguiente cuadro (Figura 31):
Figura 74: Este tipo de grfico permite analizar dos variables: una cualitativa y una cuantitativa.

La variable cuantitativa respuesta en este caso sera Altura y la explicativa (cualitativa) sera Sexo. Luego de elegir las variables seleccionamos la solapa Cajas y veremos el siguiente grfico (Figura 32):
Pgina | 71

Curso de Estadstica y Diseo de Experimentos 2009

Figura 75: La utilidad de este tipo de grficos es para poder observar las diferencias de una variable cuantitativa en las categoras formadas por la variable cualitativa (en este caso, las diferencias en la estatura segn el sexo).

Dispersin (x|y) Si queremos hacer grficos con datos de dos variables cuantitativas y localizar los puntos en un sistema de ejes cartesianos podemos hacer un grfico de dispersin (x/y). Por ejemplo con los datos de la planilla podramos ver como vara la altura y los pesos de los adolescentes. Luego de ejecutar el comando DISPERSION (x/y) del men GRAFICOS, aparecer el siguiente cuadro (Figura 33):
Figura 76: Si las dos variables son cuantitativas, los datos pueden ubicarse en un sistema de ejes cartesianos.

Las variables, ambas cuantitativas son: Altura y Peso. Altura debe ser graficada en el eje x, ya que sera la variable independiente, mientras que Peso por ser la variable dependiente ira en el eje y. Luego de elegir las variables seleccionamos la solapa Dispersin y veremos el siguiente grfico (Figura 34):

Pgina | 72

Curso de Estadstica y Diseo de Experimentos 2009

Figura 77: La forma de la nube de puntos en los grficos de tipo dispersin ofrece una idea de la posible relacin entre ambas variables. Esta relacin se podr probar ms adelante mediante una tcnica estadstica especial. En este caso es evidente la relacin lineal entre ambas variables.

A continuacin haremos hincapi en el men DESCRIPTIVA del programa G-Stat. El resto de los mens se abordarn en otros tutoriales para un prximo curso. Para todos los ejemplos se utiliz el archivo de datos: Datos adolescentes (Gstat).txt

MENU DESCRIPTIVA Dentro de los mens del programa G-Stat usaremos los comando del men DESCRIPTIVA (Figura 1) si queremos obtener valores de parmetros o estadsticos para las variables a estudiar.

Figura 78: Comandos del men DESCRIPTIVA. Recordemos que las letras a y b se refieren a variables cualitativas, mientras que x e y a variables cuantitativas.

Pgina | 73

Curso de Estadstica y Diseo de Experimentos 2009

Si la variable con la que trabajaremos es cualitativa elegiremos el comando CUALITATIVA(a). Aparecer el siguiente cuadro (Figura 2):

Figura 79: En este cuadro debemos seleccionar de todas las variables de la lista la variable cualitativa de inters.

Luego de seleccionar una variable cualitativa, cliqueamos en la pestaa frecuencias y obtendremos las frecuencias absolutas y los porcentajes para cada una de las categoras de la variable (Figura 3) y seccionando la solapa barras se genera un diagrama de barras con las frecuencias o porcentajes (segn decida el usuario).

Figura 80: Se muestran las frecuencias absolutas y los porcentajes para cada una de las categoras.

Si ejecutamos el comando CUALITATIVAS (a)(b) se obtienen los mismos resultados que para el comando anterior, slo que para ms de una variables. En este caso no hay opcin de hacer grficos. Si la variable con la que trabajaremos es cuantitativa elegiremos el comando CUANTITATIVA (y). Aparecer el siguiente cuadro (Figura 4):

Figura 81: En este cuadro debemos seleccionar de todas las variables de la lista la variable cuantitativa de inters. Pgina | 74

Curso de Estadstica y Diseo de Experimentos 2009

En la solapa Variables seleccionamos la variable cuantitativa a estudiar. Despus tenemos una serie de solapas que detallaremos a continuacin: Solapa Estadsticos: Seleccionada esta solapa aparecer el siguiente cuadro con resultados (Figura 5): Vemos que el programa calcula varios estadsticos de posicin y de tendencia central: Media, mediana, moda. mnimo, mximo, rango, cuartil inferior (25%), cuartil superior (75%) y rango intercuartlico. Adems calcula los siguientes estadsticos de dispersin: Varianza, desviacin tpica (o estndar) y coeficiente de variacin (CV). El valor de E.E. de la media se refiere al Error estndar de la media que por ahora no usaremos, pero si ms adelante. Para finalizar, calcula dos coeficientes que dan informacin sobre la forma de la distribucin de frecuencias: Asimetra y Curtosis.
Figura 82: Estadsticos que calcula el programa G-Stat.

Figura 83: Si el usuario est seguro que algn o algunos de los estadsticos no son de su inters puede sacar la tilde de la seleccin y no ser calculado.

Solapa Cajas: Seleccionada esta solapa se genera un grfico de cajas para la variable elegida. Este tipo de grfico y si interpretacin se explic en la primera parte de este tutorial. Pero bsicamente, este grfico nos muestra la presencia de valores extremos u outliers, adems de la relacin entre la mediana y la media.
Pgina | 75

Curso de Estadstica y Diseo de Experimentos 2009

Solapa Clases: Al seleccionar esta solapa se genera la distribucin en clases (Figura 7). Apretando el botn opciones podemos cambiar la cantidad de clases (por defecto son 5). Para cada clase se informa los lmites, frecuencia absoluta, absoluta acumulada, relativa y relativa acumulada.

Figura 84: Para cada clase se informan las frecuencias relativas/absolutas y acumuladas o no. En pociones se puede modificar la cantidad de clases.

Solapa Histograma: Cliqueando en esta solapa se genera un histograma. El botn opciones permite acceder a un men para cambiar las propiedades del grfico (tal cual se explic en la primera parte del tutorial). Solapa Percentilos: Mediante esta solapa se accede a los percentilos 1, 5, 10, 25, 50, 75, 90, 95 y 99%, pero apretando opciones se puede calcular el percentil que dese el usuario. Si ejecutamos el comando CUANTITATIVAS (x)(y) se obtienen los mismos resultados que para el comando anterior, slo que para ms de una variable cuantitativa.; en este caso no hay opcin de hacer grficos.

El comando TABLAS (a/b) nos permite armar tablas de doble entrada para dos variables cualitativas. Al ejecutar este comando aparecer el siguiente cuadro (Figura 8):

Figura 85: Seleccionados dos variables cualitativas se generan tablas de dos entradas. Pgina | 76

Curso de Estadstica y Diseo de Experimentos 2009

Mediante la solapa tablas se genera la tabla de doble entrada (Figura 9). En cada casilla figura la frecuencia absoluta y el porcentaje. Los porcentajes se calculan en relacin al total (N), pero se puede cambiar mediante el botn opciones. En la solapa barras se encuentra el grfico tal cual fuera explicado en la parte del tutorial que se explicaron los grficos. Por ahora no utilizaremos la salida obtenida al seleccionar la solapa estadsticos.

Figura 86: En cada casilla figuran la frecuencia absoluta y el porcentaje. El porcentaje puede ser calculado por el N total, o por el total de las filas o las columnas.

Si ejecutamos el comando GRUPOS (a/y) podemos analizar una variable cuantitativa pero clasificando sus valores con las categoras de una variable cualitativa. Por ejemplo, podemos obtener los estadsticos de la variable altura, pero separados los sexos. Una vez ejecutado es comando aparecer el siguiente cuadro (Figura: 10):

Figura 87: A veces deseamos separar los casos de una variable cuantitativa segn categoras de una variable cualitativa.

La variable respuesta es la cuantitativa (en este caso altura), y la usada para clasificar los datos es la variable cualitativa (en este caso sexo) (Figura 10). Cliqueando en estadsticos, se calculan los estadsticos
Pgina | 77

Curso de Estadstica y Diseo de Experimentos 2009

pero para los dos sexos por separado (Figura 11). Cliqueando en cajas se produce de cajas para conjunto de datos (en este caso sexos) tal cual fue explicado en la parte del tutorial que se explicaron los grficos.

Figura 88: Valores de estadsticos pero para los sexos por separado.

Si ejecutamos el comando GRUPOS (a*b/y) podemos analizar una variable cuantitativa pero clasificando sus valores con las categoras de dos variables cualitativas. A diferencia del comando anterior slo se generan los valores de los estadsticos, pero no hay opciones de grficos. Si ejecutamos el comando GRUPOS (a*b*c/y) podemos analizar una variable cuantitativa pero clasificando sus valores con las categoras de tres variables cualitativas. A diferencia del comando anterior slo se generan los valores de los estadsticos, pero no hay opciones de grficos. Si ejecutamos el comando GRUPOS (a/xyz) podemos analizar ms de una variable cuantitativa pero clasificando sus valores con las categoras de una variable cualitativa. Por ejemplo, podemos obtener los estadsticos de las variables altura y peso, pero separados los sexos. Una vez ejecutado es comando aparecer el siguiente cuadro (Figura: 12):

Figura 89: Cuadro para seleccionar variables cuantitativas de las que queremos los estadsticos, pero separados por alguna variable cualitativa. Pgina | 78

Curso de Estadstica y Diseo de Experimentos 2009

Figura 90: Opcin de estadsticos calculados para las dos variables cuantitativas discriminadas por sexo. Recuerde el usuario que mediante el botn opciones puede elegir que estadsticos calcular y cules no.

Si ejecutamos el comando x/y podemos analizar ms de una variable cuantitativa y adems obtener (mediante la solapa grfico) un grfico de puntos (x vs. y) y probar el ajuste a una recta de los datos (este tema se ver ms adelante) (Figura 14).

Figura 91. Cuadro para seleccionar dos variables cuantitativas de las cuales se desea calcular los estadsticos. En la solapa recta de ajuste, adems de un grfico se pone a prueba el ajuste de la relacin a un modelo lineal.

Pgina | 79

También podría gustarte