Está en la página 1de 272
DISENO ESTADISTICO BNSC R@me eRe os Coit DISENO ESTADISTICO (Para investigadores de las Ciencias Sociales y de la Conducta) Nuria Cortada de Kohan EDITORIAL UNIVERSITARIA DE BUENOS AIRES Disefio de Tapa: Carlos Pérez Villamil Primera odicién: agosto de 1994 EUDEBAS.EM Fundada por la Universidad de Buenos Aires No se permite la reproduecién total o parcial de este libro, ni su almacenamiento en unsistemainformatico,ni sutransmisién en cualquier forma o por cualquier medio, electrénico, mecénico, fotocopia u otros métodos, sin el permiso previo de! editor. ©1994 EDITORIAL UNIVERSITARIA DE BUENOS AIRES Sociedad de Economia Mixta Rivadavia 1571/73 Hecho el depésito que marea la ley 11.723 ISBN 950-23-0569-8 IMPRESO EN LA ARGENTINA - PRINTED IN ARGENTINA ‘DISENO ESTADISTICO PARA INVESTIGADORES 83 CIENCIAS SOCIALES Y DEE COMPORTAMISHTO Dedicado a mi esposo Manuel que siempre esté a mi lado y @mi hija Anita, con amor. Nuria Buenos Aires Septiembre 1993. PISENOBSTADISTICO PARA INVESTIGADORES BN CIENCIAS SOCIALES Y DRL COMPORPANIENTO INDICE Prélogo, por el Dr. Horacio Rimol: Capitulo 1. s 7 eRe Introduceién. Origen y evolucion de la Betadistion. algunas de finiciones de ta estadistica. Poblacién y muestra. Bstadistice dan, criptiva e inferencial. Bibliografia 16 Ww aa Seer, Variables estadisticas, Las definiciones y las variables op ig, vestigacién Medicién en las ciencias sociales y del comporte, mmignto, Escala nominal o de clasificacién. Escala ordinal » por orden jerdrquico. Escala de intervalos iguales o de uniditey ‘guales. Escala de cocientes o razones, Bjercicies. Bibliografia Capitulo HL... sn ae sss 48 Presentacién de los datos. Variables cualitativas. Proporsiones Porcentajes. Niimeros tndice. Representaciones grificas, prdfice sectorial. Pictogramas. Variables cuantitativas. Variables disera, las, Variables continuas. Distribuciones de frecuencia. Grafivos para las variables continuas, Distribuciones de frecuencias mec, Fruladas. Ojiva de Galton. Curva de Lorente. Redondeo de ciftes, Ejercicios, Bibliografia Capitulo IV rnantininnnninnnennnnunnntenane 69 Propiedades de las distribuciones de frecuencia, Modlides da ianiencias central. Media aritmética (X). Mediana (Md). Moe Mo). Media geométrica (G). Medidas de posivién no centralea we, didas de variabilidad o dispersién. Amplitud total. Desviacitn ma, [NURIA CORTADA DE KOHAN 6 Coeficiente de va- . Variancia y desviacién estandard 0 tipica. ba Sion, Puntajeseotandard o 2 Asinetria. Curtoss.Bjercli Bibliografia. 99 Capitulo V : Bstadistica inferencial. Nociones de probabildad. Layes de Lar place. Relacién entre probabilidades y teoria ce los canjuntos. ‘mentos de andlisis combinatorio. Ejercicios. Bibliografia 113 fapitulo VE... ite 7 paras de probabilidad. Distribucién binomial. Esperanza ‘matemaitica, Distribucién de Poisson. Eyercicios. Bibliografia. 129 ‘apitulo VII so Duibuctn normal Ordos cs im ara normal Distribuci6n normal acumulada. Aplicaciones on pect or in de la curva normal. Transformaciones de los put 7 eae ‘Puntajes Z derivados. Percentiles. Bjercicios. Bibliogrof 143 Capitulo VIIL..... 7 imaciébn estadistica. Poblacion y muestras, Seleccién de dare teas Mucstreo al azar simple, Muestreo sistomatico. Muesireo estratificado al azar. Muestreo estratficado proper eional. Muestreo estratificado no proporcional. Muestreo p Disrtbuclnes muesizale,Teremo del inte env rach de ta media. Intervalos de confianza para tas medias de muceiras grandes. Estaciones parciales y no parciales, Grados de liber. tad. Disiribuciones de ia de Student: Estimacisn de ta media de ta poblacin, Prucba dela diferencia entre medias. Prugha ds proporcién. Prueba de la diferencia entre proporcione: Bibliografia Capitulo Xn sn jroduccién a la teoria de la decision, ipétesis nula. Se- argh de la prueba eatadistica. Nivel designificacion. Tipoe di error. Curoa operative earacteristica, Determinacién del tama fo.en la muestra. Poder de eficiencia de una eatadistion. Disty- ducién muestral de la prueba estadistica. Zonas de ree cision. Rjercicioe. Bibliografia 173 10 ‘PISENO BSTADISTICO PARA INVESTIGADORSS BN CIENCIAS SOCIALES Y DBL COMPORRANTENTO Capitulo X. aera : svn 19D Prueba de x (i al euadrado). Distribucién muestral de x2 como prueba de bondad de adaptacion. Correccién de Yates. La prueba de 2 como prueba de independencia de los atributos. Caso particu. tar cuando la tabla es de doble entrada y de 2 x 2. Supuestos que subyacen al empleo de la prueba de 7. Ejercicios. Bibliografta Capitulo XT Correlacién entre dos variables. Estadistica bivariada, Coefi. siente de correlacién de Pearson. Caleulo de la correlacién para datos agrupados. Prediccin. Rectas de regresién y eorrelacién Bs. timacién predictiva. Variancia total, explicada y no explicada. In- dice de eficiencia predictiva. Coeficiente de determinacién y de alienacisn. Otras formas de interpretacién. Significacién de y re. diante la pructa de hipstesis nula de t. Bjereieios, Bibliografta 205 Capitulo XI..... : ited . . 237 Coeficiente de asociacién para esealas nominales. Coeficiente fi (©) para tablas de doble entrada de 2 2. Significacién de fi. Coe. ficiente de contingencia o C de Pearson. Coeficiente V de Cramer, Corficiente @ de Yule. Medida delta &. Coeficiente lambda h Coeft ciente gamma ¥, Ejercicios. Bibliografia Capitulo XII. Pruebas de asociacién para escalas ordinalee. Coeficiente de avo. 7-5 W-8<10-7 5-3=7- NURIA CORAL DB ROHAN Esta caracteristica se llama distancia. 8) La serie tiene un origen nico que llamamos “cero” y lo im portante es que la diferencia entre cualquier par de niime- ros que tiene a 0 en un miembro es igual al ndmero del otro miembro: 8-0=8 Esta caracteristica se llama origen. in embargo, pueden no satisfacer todas las propa dee mere batt permis ac tas mediciones de los mismos. Por lo tanto, es como si en 7 a cién bubiera grados de perfeccién de acuerdo con la a rd con que Jas variables a medir cumplen con las Propiedades| Seicas do Jos atimeros. Segtin Cambell ®, existen nueve postulados para la medicién. Estos son: jad o equivalencia: A) Postulados basicos de ident 1)a=bobien ab. Los niimeros son iguales o diferentes. a, Es decir, la relacién de igualdad es 2) Sia =bentonces b simétrica, 3) Sia=byb=e, entonces a = c. Es decir, dos cosas iguales a ‘una tercera son iguales entre si. Transitividad. B) Postulados relativos al orden jerarquico: 4) Sia > b luego b by b> centonces a > c. Propiedad transitiva. C) Postulados relativos a la aditividad: 32 DISENO ESTADISTICO PARA INVESTIGADORES BN CIENCIAS SOCIALES ¥ DRL COMPORTAMIENTO 6)Sia=pyb > o, entonces a +b> p. Indica la posibilidad de sumar. 7) Sia +b=b +a. El orden de los sumandos no afecta el re- sultado, 8) Sia=pyb =q, entoncesa +b =p +q. Es decir, los objetos idénticos pueden ser sustituidos. 9) (a +b) +e=a + (b +0), Es decir, el orden de las asociacio. nes no produce diferencias en el resultado, 14. Posibilidad de medicién en las ciencias socia- Jes y del comportamiento. La comparacién es la base del conocimiento y los juicios cuan- titativos son inseparable de la comparacién, por lo tanto absolu- tamente necesarios para la ciencia. La medici6n es el arma esen- cial de la investigacién cientffica, pues como ha dicho alguien “to- do lo que existe, existe en alguna cantidad”. Los problemas que Se presentan on la ciencia son cada vez més complejos y no es po- sible resolverlos por simple observacién, Las relaciones entre fo- nOmenos son a menudo tan disimuladas por diversos factores que es necesario iluminarlos con una medicién delicada de los mismos, porque s6lo midiendo los fenémenos en condiciones dis- tintas se puede Hegar a obtener variaciones y saber si éstas son coneomitantes y, por lo tanto, si existe entre ellos alguna rela- cién. En psicologia, sociologia, educacién y en las ciencias socia- Jes en general, la introduccién de la medici6n ha sido lenta y difi- cil porque, per una parte, no se comprendia cémo se podian me- dir fenémenos cualitativamente diferentes y en segundo lugar, en estas ciencias la gran cantidad de factores que interviene en la aparicién de cualquier fonémeno, hace dificil establecer los controles adecuados, lo que no sucede con el estudio de las cien- cias naturales en un Laboratorio. Por otro lado,el prestigio de Kant, que habja dicho enféticamente que las matemétieas no po- dian aplicarse @ la psicologia y los argumentos de Bergson on 33 NURIA CORTADA DE KOHAN “Los datos inmediatos de la conseiencia” en contra del posi- tivismo, retardaron la comprensién de la posibilidad de aplica- cién de la estadistica a 1a psicologia. Para llegar a los desarrollos ‘actuales de la investigacién en psicologia matemética, ha sido necesario salvar muchos escollos y comprender cuél es la rela- cin de isomorfismo que se puede establecer entre el mundo ideal de la logica matematica y el mundo de la observacién psicolégica y social. La matemética es una invencién del hombre, no un des- ‘cubrimiento. Por esto, las funciones mateméticas como 1a curva de probabilidad normal de Gauss son modelos mateméticos pura y exclusivamente. Lo que sucede es que es muy conveniente utili zar estos modelos mateméticos para las deseripeiones psicolégi- cas cuando es posible hacerlo, Esta es la gran funcién de la mate- mética: prover modelos fructiferos para la descripeién de la na- turaleza. La medicién es posible porque la estructura de la natu- raleza, del pensamiento del hombre o su actividad social, poseen propiedades que desde el punto de vista légieo, son suficiente- mente similares, paralelas, a la estructura de los sistemas logi- cos de las matematicas. Es posible establecer entre la naturale- za, en el sentido amplio, y In matemitica, un isomorfismo de es- tructuras. En algunos casos, este isomorfismo es casi perfecto, en otros casos lo es menos, En modicién la base son los mimeros, El sistema numérico ha evolucionado mucho. En primer lugar, esté el sistema natural de los nimeros, ta- es como 1, 2, 3, 4, ete. Con este sistema se pueden hacer las ope- raciones de suma y multiplicacién, pero no se puede restar, para esto fue necesario crear los mimeros enteros (que incluyen los niimeros naturales, el 0 y los némeros negativos). Para poder e- var a cabo la operacién de dividir fue necesario inventar los nu- moros fraccionarios. El sistema que incluye ntimeros positives, negativos, el 0 y los fraccionarios se lama sistema racional de Jos ntimeros. En este sistema se pueden Ilevar a cabo todas las operaciones fundamentales excepto la divisién por 0. Existen al- gunas expresiones, sin embargo, que no pueden Ilevarse a cabo 34 D ISENO RSTADISTICO Fak INVESTIGADORES BN CIENCIAS SOCIALES Y DBL COMPORTAMIENTO con ntimeros racionales, como por ejemplo |: Para abarear estos resul ceeuaita Cae Itados fue inventado el Pern etree concepto de nu- meros ian ‘ionales. Pero para los propésitos practices de la io cua de cualquier ntimero puede usarse la aproximacién ‘ondeo, con un ntimero que pertenece al sistema racional. IL 5. Niveles de medicién ‘Si aceptamos como definicién de medi sostonido por Stevens (1951) de que “medir es asignar nimeros bjetos o datos de acuerdo a ciertas reglas” podemos diviair los niveles do medicién en cuatro exealas fundamentalen nectecn ordinal, de intervalos iguales y de cocientes, ae cién el criterio amplio 15.1 Escala nominal o de clasificacion Hg al nal eee : a cl nivel mas primitivo. Segdn Coombs y Torgerson no debe censiderarse nivel de medicién pues no se mide nada, sdlo se cla- sifian objots, personas caracteristicas. La asignacién de ni- ees os Dieori arbitraria, Por ejemplo, los distintos grupos iE piclentes seg una clasficacién psiquistrica, los nimeros de is chapas de liceneia de los automéviles, los numeros de las ee- eee ela la clasificacién de profesionales (en médicos, s, ingenieros, psicdlogos, socidlogos, veterinarios, odonts. Jogos, farmactuticos, tc.). Las propiedades formales de la a , es decir, las condiciones que requiere, son que los reiombros, elementos u observaciones de una clase 0 categoria deben ser equivalentes, idénticos, respecto al atributo que tene- 10s en cuenta. La relacién de identidad a = b, a # b ya sab que es simétrica y transitiva iieeieninnine cag Nando tenemos que usar ol nivel nominal podemos hacer po operaciones estadisticas, Sefialares ; a ; mos oportunamente, en ca da disefio estadistico, qué nivel de medicién se puede usar 35 [NURIA CORTADA DE KOHAN’ Il. 5. 2 Escala ordinal 0 por orden jerdrquico Puede suceder que los objetos 0 elementos de una categoria no solo sean distintos de los de otras categorias, sino que estén en alguna relacién con ellos; por ejemplo, ser mayores, més altos, més dificiles, mas enfermos, etc. Tales relaciones se expresan por los simbolos “>” y “<” (mayor que, menor que). Si estas relaciones se presentan entre los pares de categorfas tenemos una eseala ordinal. Acé, no solo rigen los postulados matemdticos de identi- dad, sino los de orden jerérquico que, como sabemos, son los de asimetria y transitividad. En las escalas ordinales estén permitidas las transformacio- nes que mantengan el mismo orden entre las clases, es decir, transformaciones monoténicas. Por ejemplo, si tenemos las cate- gorfas de analfabetos, educacién primaria, educacién secundaria y educacién universitaria, podemos llamar a la primera categoria 1, a la segunda 2, a la tercera 8 y ala cuarta 4.0 podemos llamar a la primera categoria 5, a la segunda 6, a la tercera 7 y ala cuarta 8, es decir, tenemos que clasificarlas siempre guardando el orden de menor a mayor. O sea, las transformaciones que no cambien el orden de Jas clases son perfectamente admisibles; lo tinico que sucede es que no sabemos la distancia entre una cate- goria y la otra. Asf, en cuanto a edueacién, las eategorias estan ordenadas: analfabetos < edueacién primaria < educacién secun- daria < educacién universitaria, Pero no sabemos si la distancia entre la categoria “analfabetos” y “educacién primaria” es igual, mayor o menor que Ja distancia entre la categoria “edueacién pri- maria” y “educacién secundaria” JL5.3 Escala de intervalos iguales o de unidades iguales. La propiedad mas importante que presentan es, por encima de los tipos de escala nominal y ordinal, que las distancias numéri- camente iguales representan distancias iguales empiricas en la variable que miden. Bs decir, que los objetos a los que se ba asig- 36 Dispio astaptsme YSTICO PARA INVESTICADORES BY CIENCIAS SOCIALES Y DEL COMFORTANIENTO nado en la escala los nimeros 5 que los otros a los que se les hai ieee een a : in asignado 10 y 15 x y Wen eu la a ea Una eseala de intervalos so caracoria por fd Peal age tieisn comin y constante, que asigna un namere ae ae ae obiets del conjunto ordenado. En las 5 igual rmedie on ae tee ¥stes el punto 0 de origen y la unidad de pyaees : a Por tiempo, medimos la temperatura con una eseala de tipo Ciarvalo, Baten dos tipos de escalas muy conocidas, la escala eaztieradce y la Farenhet Je unidad de medicién y el punto 0 itrarios y distintos; ane ti 5 Pero nos dan la misma in- formacion. ston incalmentewelaionada, de manera que tae csctla puode aaa en otra por Ia ecuacién y = a + bx n le transformar gradi i aheit In ceuaein es BBs Srados Centigrados a grados Farenheit 7 7 7 ee demostrarse que las relaciones de las diferencias a (0 sea los intervalos) son independientes de la gelacidn oe ee cion ¥ del punto 0. Por ejemplo, el punto de eon- Foor ne eetale contelgrada es 0° y el de ebullcién del agua oo do 37 io, en 1a escala Farenheit el punto de congelacion Teo el punto de ebullicién 212%. Podemos ejemplif algunos puntos en Jas 2 escalas: eee Con esto podemos observar on una escala son ij valentes en la otra escala. Por ejemplo, que la relacién de las diferenci: iguales a las relaciones de las diferencias or relacin entre (30 - 10) / (XU eee areca nl 10-0)= 2 yen la escal: Para los mismos puntos tenemos también (86 — S050 ae Es 's decir, que en una eseala de intervalos iguales la relacién, [RURIA CORTADA DE KOHAN entre intervalos es independiente de la unidad ompleada y del punto de origen, que son siempre arbitrarios. En cambio, la rela- cién entre 2 puntos on una y otra escala no es la misma. Por ejomplo, para la escala C* 30/10 = 3 mientras que para la escala ¥° 86 / 50 = 1,7 ; es decir, no existe una razén 0 cociente constan- te entre los puntos para las dos escalas. También solemos medir por escalas de intervalos iguales el tiempo del calendario, 1a al- tura de las montafias a partir del nivel del mar, y los puntajes de los tests de inteligencia, de aptitudes 0 conocimiento, La eseala de intervalos iguales es la primera escala verdaderamente cuan- titativa y a ella pueden aplicarse casi todas las medidas estadis- ticas, con pocas exeepciones. 115.4 Escala de cocientes 0 razones. Cuando una escala tione todas las caracteristicas de una escala de intervalos iguales y, ademas, tiene un punto 0 verdadero en su origen, tenemos una eseala de cocientes. Esto quiere decir que el 0 de ia escala ha de coineidir con la “nada” en la variable a medir. En una eseala de cocientes la relacién 0 cociente entre dos puntos ‘cualesquiora de 1a escala es independiente de la unidad de medi- da (Obsérvese que decimos “dos puntos” y no “dos intervals 0 di- ferencias entre dos puntos”). Medimos peso, longitud, velocidad, presién atmosférica, volumen, ete. con escalas de cocientes. Por ejemplo, comparemos la escala en kilogramos del Sistema Métri- co Decimal y la escala en libras del Sistema Inglés. Por ejemplo: En este caso encontramos que no solo existe la misma rela- cién entre los intervalos o diferencias, es decir 38, | ' I | I biseo asrism TOO PARA BVESTIGADORES BW CIENCHS SOCIALES DL coNPoRnAMISNTD) (B~2)/(6,6—4,4) = 0,454 6-4)/ (11-3, 454 Sino que también hay la misma relacién entre dos puntos, es decir 3/2 5 66/44=1,5 Enla i eats Papas hu cicientes, todas las operaciones ariméticas son eee valores numéricos asignados a los puntos co arbitearis 10s intervalos, pues existe un coro autentieny sol aria la unidad de medicién, Las escalas de cociente xe on. Vemos que cuanto mis refinadas son las escalas menos tras- : formaciones permiten, Asf, en el nivel nomi mantendrén el orden jerarquico En el caso de las escalas de medicién i i las transformaciones que se anu eae pueden permitir son ses ir son no solo m Pa elaeseny en las escalas ordinales, sino también. linealee Act Tnenlee es ue itmpliquen potencins,ra‘ces ologaritmos no son eave apiatinenis| lineal esta expresada Por la ace = x” y da por resultado un cambi i i ae 2 bio en unidad y origen, ibn nt, 8S esealas de cociente hay solo una transformation ave es la multiplicacién por una constante, “y = by” on “y= be’ donde “b” puede ser mayor o menor que 0 pero no igual [NURIA CORTADA DE ROHAN 1. Clasifique las siguientes variables en cualitativas, diseretas continuas. a) Edad al ingresar a la universidad. b) Aiios de educacién completados. ¢) Color de ojos. e) Profesiones de una comitnidad universitaria. f) Respuesta a un cuestionario de actitudes cuyas posibili- dades son: en desacuerdo, de acuerdo, muy de acuerdo. g) ‘Tiempo que se tarda en terminar una tarea. h) Puntaje on un test de lectura. i) Peso de los chanchitos de la India al comenzar un experi- mento con vitamina B. j) Cantidad de arrestos que ha tenido un delincuente. k) Proporeién de proteinas en la alimentacién de las perso- nas. 1) Religion de las personas. m) Presién arterial de la persona de 60 afos. ‘n) Cantidad de acciones vendidas un dia determinado en la Bolsa de Comercio de Buenos Aires. ‘0) Temperaturas de Buenos Aires segiin el registro anual del Servicio Meteorolégico Nacional. p) Escala de sueldos nominales del personal de una Facul tad dela UBA. q) Serie de ndimeros de Jas ruletas. 2. Con los siguientes datos determinar el nivel de medicién que utilizaria en cada caso. a) Religién practicante de cada indi 200 personas. b) Un investigador pregunta a un grupo si los nifios de- ben tener perros para jugar y los encuestados contestaro: En desacuerdo, Muy de acuerdo, De acuerdo, Muy en desa- cuerdo, Indeciso. ¢) Se pide al investigador que organice grupo de nifios de 8 afos en el test de Raven: iduo en un grupo de Jos puntajes de un 40 | isnito BsPADisTICo PARA LE as PARA INVESTIOADORES NV CIENCIAS SOC! IAS SOCIALKS Y DEL COMPORTUENTO 43-40-83 - 32-37 48-82-39 -31-41-27 28-36-33 - 32-33-49 4) Edad cronoligica de una grupo de nitios. 4,7, 10, 8, 10, 10, 8, 9, 9, 6, 5,7 Bibliogratia 1 FERGUSON, G.A. Statistica sy eGem N86 2 CULLIOND, 17. Paychometsic Methods. Me Gram Hil NY. 1054 one pees for Psychologists, Holt, Rinehart y Wi sychelogical Statistics. J. Wiley and Sons, NY. 1062 5) Stevens, S'S. Handbook of i Stevens, ibook of Experimental, Psychology. N.Y. J. Wiley and 6) Torgerson, W. §, Theory anc Perens, We ry and Methods of Scaling. John Wiley and Sons, TD Zelaiteh, Ma. in Soci Basic Course in Sociological Statisties. H. Hool N.Y, 1952. I Analysis in Psychology and Education. 4 | | i | | Dssh0 ESTADISTCO PAA ISVESTEOADORES Li CENA SOCULES YDS courogDuMENTO CAPITULO I Presentacién de los datos Cuanrlo un investigador ha decidido el tema a tratar en su trabajo, ha establecido una hipstesis, ha dofinide adecuadamente Jas variables que estudiard y ha recolectado los datos, Io primero que deberd hacer es presentarlos de modo sistematico, mediante tablas y gréficos que le permitan descrihir o explicar ea 8 Tesulta- dos con claridad, iL1 Variables cualitativas Cuando los datos obtenidos son sobre variables eualitativas aus s6lo poseen 1a informacién correspondiente a escalas nom, niles u ordinales, es importante eatablecer comparaciones entre las distintas clases o categorias. Para esto existen algunas opera- ciones sencillas que suelen resultar muy utiles, Estes som las Proporciones, los porcentajes y las razones, 1.1 Proporciones Supongamos que tenemos una escala nominal con cuatro cae ‘egorias: Ny, N, , Nyy N,. El ntimero total de caso sora N,osea NURIA CORTADA DE KOHAN N+ Nat Nyt Ny=N Nyy Me NMoNet win NNN ‘Supongamos que tenemos dos pequefias poblaciones, A y By hallamos los resultados que se presentan a continuacién ‘Tabla ULL ‘Tabla IL1 Delincuentes y no delincuentes en dos comu- nidades Ay B ‘ Sujetos Comunidad A Comunidad B 40 Delineuentes 101 1 146 No delincuentes 481 1 582 1286 ET Estos datos resultan dificiles de compatar por tener Gane de casos diferentes. Si los convertimos en proporciones tenem Ja Tabla IL2 Tabla I1L.2 Proporciones de delincuentes y no delin- ‘cuentes en dos comunidades A y B ae Comunidad B Sujetos Comunidad A eee eee eee eee eee CE Et aeeeer creer eeeeee eee Delincuentes 0,173 0,108 A No delincuentes 0,897 0,89. 1,000 1,000 aS ‘ISEO BSTADISTICO PARA INVESTIOADORES BN CIENCIAS SOCTALESY DEL COMPORTAMIENTO Estos datos si pueden compararse y el investigador podré tra- far de explicar las causas de por qué es mayor la proporcién de delincuentes en la comunidad A, ete. 11.1.2 Porcentajes Los porcentajes surgen de las proporciones multiplicando por 100. Sin embargo, hay que tener en cuenta ciortas precauciones, Por ejemplo: si tenemos los siguientes resultados como respues- fas a una pregunta de un cuestionario, tal como se prosenta en la ‘Tabla HLS Tabla LS Porcentajes relativos a las respuestas a una pregunta Respuestas N % ePaper ee EP HEE Muy agradable 10 40 Agradable 7 28 Indiferente 2 8 Desagradable 4 16 Muy desagradable 2 8 25 100 Sere Vemos que la diferencia entre el grupo que ha contestado a la pregunta como agradable (7 casos, 28 %) y el grupo que ha contes. tado Desagradable (4 casos, 16%) hace ponear , por el porcentaje, due son muy diferentes, pero veremos (cuando leguemos a la esta. distica inferencial) que una diferencia de 3 casos en una mucsiva de s6lo 25 casos on total, puede muy bien sor debida sencillamente al azar: Por lo tanto, en el uso de proporciones y porcentajes hay NURIA CORTADA DE KOHAN . tantes: dos reglas que se deben cumplir pues son muy impor D Siompre hay que informar sobre el mimero de casos usado ara la proporcién o poreentaje. pe) No debe caleularse ningtin porcentaje cuando el N total de casos es menor que 50. : La tabla que sigue, por ejemplo, seria correcta: F i ados segan una bla TIL4 Niveles de educacién aleanzi n ‘7 encuesta realizada a 880 j6vones de 25 afios. es Educacién aleanzada N eee Nivel Primario 600 Nivel Secundario 200 Nivel Universitario 80 880) 111.3 Razones. La razn de un numero A respecto de otro B se define como el cociente A/B. Supongamos que tenemos la Ta bla IILS sobre afiliados a partidos politicos. Tabla 11.5 Partidos politicos N Radicales 365 Peronistas 420 Otros partidos 130, 915 La razén de radicales a peronistas seré 365/420 = 0,86. La razén en- tre radicales y peronistas a otros partidos serd (865 + 420) /130 = 6,03, Obsérvese que la raz6n puede tener un valor mayor que la 46 PISEHO ESTADISTICO nana nvEstieaDoRES 84 CNCINS soctALES Y Ds compornuaero 65.000 - 50.000 50.000 dies none B# habido un aumento de Ia poblacién de um 30% en diez atios. Bin el caso de las tasas, los Porcentajes pueden sor ma- pores del 100 % y también pueden ser nogativos en el caso do que haya habido una disminucidn de la poblacion, IIL1.4 Némeros indice En cconomfa y finanzas son muy usados los nimeros indice tiga niden los cambios de una variable o de un grupo de varie bles, respecto al tiempo. Por ejemplo, mediante tos muimeros indi- mo por ejemplo la educacién; mediante el uso de pruebas objeti- vas de conocimiento se podria comparar, con los nimeros indice, Jos conocimientos de un grupo de estudiantes con otros de distin- tos lugares y para distintos afios. Por ‘ejemplo, es muy conocido en Poicologia que la relacién entre edad mental y edad cronolégica es 1 Cociente Tntelectual que es, por tanto, un nimero tndiee Uno [NURIA Cowrana DE KORAN Precio en 1992 60 Precio en 1990 50 = 12 = 120% Esto significa que en 1992 el precio de la leche fue 120% el de 1990, es decir, que subié en un 20%. Existen muchas maneras de calcular los ntimeros indice se~ gtin se comparen precios solamente 0 precios y cantidades, y también segtin se use un perfodo de tiempo o varios periodos pro- modiéndolos, todo lo cual esté fuera del alcance de este libro. I1L.1.5 Representaciones graficas Los gréficos mas comunes para representar datos de escalas nominales u ordinales son los siguientes: 1) Graficos de barras o de columnas. Por ejemplo supon- gamos que tenemos los datos de la Tabla TIL.6 ‘Tabla IL6 Profesionales matriculados en un periodo en una ciudad hipotética A oe Profesionales N % Méaicos 306 23,43 Abogados 350 27,34 Ingenieros 120 9,37 Veterinarios 40 3,12 Odontélogos 230 17,96 Socislogos 80 6,25 Psicélogos 100 7,81 Otros 60 488 48 Dissio BSTADISTICO PARA INVESTIGADORES EN CIBNCLS SOCIALAS ¥ DRL-COMPORTANIENTO Para graficar esta tabla colocariamos en el eje horizontal categorias de la variable, todas de la misma amplitud, por ejemplo lem., y separadas, y en el eje vertical el numero de ca- - ate: aan ‘nos convenga convencionalmente, por ejem- plo, 2 em. cada 100 sujetos. El resultado seria el que el - tacn le Figura IIL1 Peed Fig. I1L.1 Gréfico de barras 0 columnas segin los datos de Ja tabla IIL6 sobre distribucién de profesionales. 300 200 100 2) Grafico sectorial Por ejemplo, supongamos que tenemos una tabla como la Ta- bla IIL7 en Ia que se ve la distribucién d le grandes pa: superficie terrestro, * fee 49 Parte continental Km? ee Cee eeee eee eee eee Africa 0.200.000 Asia 26.842.000 Europa 4.904.000 Norteamérica, 24.261.000 Rusia 20.390.000 Oceanfa 8.517.000 América del Sur 17.809.000 eee eee ere eee 182.923.000 PEPE eee eee ee eee eee Podemos representar estas medidas como sectores de un cir- culo de una cireunferencia de un radio cualquiera, por ejemplo, de 5 em. Como la circunferencia vale 360° s6lo tenemos que osta- blecer la proporcién del Angulo correspondiente a cada categoria. Asi, para Africa can 30.200.000 km* de superficie, decimos: si a 132,928.00 km? le corresponden 360°, a 30.200.000 km® Ie co- rresponden: 360° x 30.200.000 132,923.000 2817 Haciendo los oéleulos para todas las regiones vemos que le corresponden a Africa 82°, a Asia 73°, a Europa 13°, a Nortea- _mérica 66°, a Rusia 55°, a Oceania 23° y a América del Sur 48°. ‘Asi lo hemos representado en la Figura IIL2 50 . E ISBN STADISTICO PaRé INVESTIGADORES EN CIENCIAS SOCIALES ¥ DBL COMPORTAMEN TO Fig. IML2 Grafico sectorial o en for: ‘ma de pastel sogan 1 datos de la Tabla HL, en millones de Kar ata ASF mt Africa eters 802 mil Kat America dot Norto 24,2 mill. Rusia 204ml: Kat Amézica ‘dal Sur ara Ket 8) Pictogramas Supongamos que queremos hae: dole table ILS cor un pictograma de los datos Tabla IIL8 Poblacién de los Estados Unidos de América en millones de personas. fio ec et tel ea 3020 105 millones aed 122 millones a 131 millones 4950 151 millones 1960 179 millones Se EES eae eee eeeerercce eee eee ere SI [NURIA CORTADA DE KONAN Para hacer un pictograma se toma, por ejemplo, . aibvio ‘que represente esquematicamente una persona, y soto podria significar 10 millones de personas. El resultado es un pictogran como el de la Figura IIL3 do el i tos de 1a tabla IIL8 se ha clabora Me MO tetograma en done. X equivale 10 millones de personas KARARAARRA AAAAAAARRAR AARRARRARARRA AARRARRARRARRARR AAAARARAARARAARR IIl.2 Variables Cuantitativas variables cuantitati- La sistematizacion de los datos para las variables cuanti 52 | | ?ISENO STADISTIC a INVESTIOADORES BY CIBNCAS SOCIALES VEL COMPORTAMLENTO Yas es igual si se trata de variables medidas en escala de inter- valos iguales o de cocientes. Los datos suclen clasificarse en en. fos casos usando tablas en la que tenemos, por un lado, la varia, ble con sus valores y al lado, las frecuencia, o sea la cemtidad de vertical u ordenada, MIL2.1 Variables discretas Supongamos que tenemos Ja siguiente variable discreta: cantidad de hijos por familia. Si tuviéramos los valores de la Tabla THL9 los graficariamos como aparecen en la Figura mL ‘Tabla TIL9 Distribuci6n de las famili ias de una comunidad A segiin niimero de hijos Numero de hijas Cantidad de familias x f — 30 0 1 80 2 240 3 320 4 5 6 5a ‘NURIA CORTADA DE KOHAN r los datos de Fig. IIL4 Gréfico de barras para representar los _ Ja Tabla ITL9 Familias de una comunidad segtin el mimero de hijos. Bamilias 400 350 300 250 200 100 50 SRO ESTADISTIOO PARA INVESTOADORES B¥ CENCIS SocuLES¥ DEL couPoRtENTO Tabla IIL10. Puntajes obtenidos para 60 nifios en un test de inteligencia 100 102 ae 9% 83 104 106 103 102 85 103 ane a . bei 80 80 104 100 103 102 ae ee 90 97 7 He a bid $1 85 102 103, —— Lo primero que podemos hacer es ordenarlos de menor a ma- Yor por magnitud como en la Tabla IIL.11. ‘Tabla IIL11, Puntajes ordenados por rangos (a ° 1 2 3 48 6 IIL.2.2 Variables continuas Para las variables continuas, como los datos mimericos sue- len ser més numerosos explicaremos todo el proceso de la cons- in de una tabla de frecuencias. i Siemans que aplicamos un test de inteligencia a 50 ni- fios. Lo primero que obtenemos ser un conjunto desordenado de puntajes como los de la Tabla THL.10 : 54 er ee a i xii | a a ie - 7 fi 2 87 94 100 103 i: * = i 102 104 80 90 95 102 104 82 90 95 102 104 to 90 9% 102 104 ee 91 97 402 105 _ 92 98 103 106 85 98 98 103 0 NUBIA CORPADA DE KOHAN Esta ordenacién por rangos no tiene grandes ventajas, pero permite ver rapidamente los valores que més se repiten. Esto permite pensar que los datos se podrian poner en 2 columnas in- dicando por un lado los posibles puntajes y por otro Lilies ° frecuencia con que un puntaje determinado se Produce a esto ejemplificado con los datos anteriores en la Tabla III. Tabla 111.12 Puntajes (x) Frecuencia (f) T9 ssn 80, 81, 82... 83. 84. 85, 86... BT 88... 89. 90. 91... 92. Wo 94. 95. 96... 97. 98, Wee 100. 101 OQ 108... 104, 108, 106... 107, 108, 109, 110. bb oSbibbinbbbbr ome bi hboULENouHoRH DISENO BSTADISTICO PARA INVESTIGADORES EN CIENCIAS GOCIAL#S¥ DEL CONPORTAMIENTTO En osta Tabla HI.12 los puntajes se han clasificado en tantas clases como valores de la variable, o sea, puntajes. Pero como se Ne por la cantidad de ceros, es conveniente en estos casos orde- nar las clases de Ja variable arbitrariamente, asf los puntajes de 80 a 84 podrian ir juntos y los de 85 a 90 también. Hate tipo de agrupamiento se llama Distribueién de frecuencias agrupa- das por intervalos de clase y en nuestro ejemplo se veria co. moen la Tabla 1113 ‘Tabla IIL.13 ee Intervalos de dase Marcas Frecuencia N° de Puntaje casos por intervalos [needed 1% - 19 \ 1 80 - 84 AAA AL 8 85 - 89 aed 5 90 - 94 ABA VAL 9 95 - 99 AE MA 7 100. - 104 ALY A AY) a7 105 - 109 \ 2 no - 114 \ 1 La agrupacién en intervalos de clase supone, en cierto modo, pérdida de informacién, ya que se da por supuosto que todas las ohservaciones de una clase intervalo se concentran en cl punto medio del intervalo, [NURIA CORTADA DE ROWAN El tamaiio del intervalo depende do: 1) la amplitud que abar- can los valores de la variable y 2) la cantidad de observaciones. Con pocos intervalos desperdiciamos informacién, con muchos intervalos ahorramos poco trabajo. Conviene utilizar el mismo tamafio a Jo largo de la distribucién y no conviene que sean me nos de 10 ni mas de 20. Generalmente se hacen de 2, 3, 5 a 10 unidades. Los intorvalos tienen un limite inferior y superior que ¢s el escrito; por ejemplo, 80 - 84 y un limite real que en este caso seria 79,5 y 84,5. Para hallar el punto medio de un intervalo se suman los limi- tes eseritos y se divide por dos. Por ejemplo, para el punto medio entre 80 y 84 seria: 80 + 84 = 82 2 11.2.3 Graficos para las variables continuas Existen dos gréficos que podemos usar para las variables continuas expresadas en una tabla de distribueién de frecuencias con intervalos de clase, Estos son el histograma de Pearson (Figura IIL5) y el poligono de frecuencias (Figuras 111.6). En el primer caso representamos Ja frecuencia del intervalo por una superficie (histograma viene de iovés = columna en grie~ go), en el segundo cago la frecuencia del intervalo se representa por una ordenada en cl punto medio del intervalo. Siempre la variable X se indica en la abseisa y la frecuencia en la ordenada. Las Figuras IIL5 y TIL.6 ejemplifican los datos, de la Tabla de puntajes 111.13: ‘DISBRO RSTADISTICO PARA BVVESTIGADORES BN CIENCIAS SOCIALES V DRL COMPORTARIENTO Fig. ILL5 Histograma de Pearson para la distribucién de frecuencias de la Tabla 111.13 Ci L i TAR TSS GAR OE AS G95 WASOSLLGT ‘x pantajes Fig. IIL6 Poligono de frecuencias ara la distribuci Poligono de fr para la distribueién de 2 8 oe Hmm Wi PMS NURIA CORTADA DE KOHAN Como puede verse en el histograma de Pearson, en la abs- cisa se colocan los limites inferiores de cada intervalo y las co- Tumnas estan pegadas una a la otra, no separadas como en las variables diseretas. En el poligono de frecuencias, los valores de la ordenada corresponden al punto medio de cada intervalo y para los da- tos se coloca un punto medio anterior y uno posterior 1a dis- tribueién con frecuencia cero, para que quede cerrada la figura del poligono, pues en realidad la superficie dentro del poligono de frecuencias es igual a la del histograma para la misma dis- tribucién. En los gréficos de distribuciones de fremnencia es usual re- presentar los puntajee en el eje horizontal y las frecuencias en tl eje vertical, Se suele establecer una relacin arbitraria que establece un cociente de 3/5 de la altura respecto al ancho to- tal de la figura. El cero debe colocarse en la interseccién de los dos ejes y sefialar con un pequofio corte, si los puntajes 0 valo- res no comienzan desde 0. TIL2.4 Distribuciéa de frecuencias acumuladas Existen situaciones en las que es conveniente conocer la can- tidad de valores “mayores que”, “o menores que”, un determina- do valor, Esto s0 obtiene facilmente con la distribucion de fre- cuencias acumuladas que ademas puede hallarse también en porcentajes o freeuencias acumuladas relativas. Para nuestros datos de la Tabla IIT. 13 tendriamos la siguiente Tabla IIL.14 en donde hemos colocado las frecuencias usuales, las acumuladas simples y las acumuladas relativas. Disko E8T4DfSTICO PARA INVESTIGADORES EN CIENCIAS SOCIALES Y DEL COMPORTANIENTO Tabla [11.14 ie TT oie one 80 - 84 8 7 som “ 2 a is ‘También sera util a veces, graficar las frecuencias acumula- . En la abscisa se colocan los limites inferiores reales de cada intervalo y en la ordenada van los valores de las frecuencias has- ta este limite inferior, Podemos ver el grafico correspondi aca spondiente a la Tabla TIL.14 en Fig. IIL.7 Curva de frecuencias acumuladas para los datos de la Tabla HIL13 8 40 8 30 oo 20 % 10 o = 5 1S MS m5 MS 5 IMs IMs IS x 61 URIS CORTADA DE KOHAN Cuando graficamos la curva de frecuencias acumuladas rela- tivas obtenemos una curva en forma de $ estilizada, que se Ila- ma Ojiva de Galton que facilita la comparaci6n entre distintas distribuciones por ser la altura comin. Por cjemplo, supongamos que tenemos dos distribuciones de frecuencias, como las que pre- sentamos en la Tabla IIL15 como Distribuciones A y B. En am- bas hemos acumulado las frecuencias y obtenido sus frecuencias acumuladas relativas, que podemos comparar observando el gré- fico de la Figura IL8 i istribuei ladas Fig. 111.8, Comparacién de dos distribuciones acumul be Ay B para los datos de 1a Tabla W115 tts 100 Disteibucién B 62 biseio ESTADISTICO PARA IWVESTIGADORES EN CIENCIAS SOGIALES ¥ DL COMPORTAMITO Tabla IHL15 Distribucion A Distribucign B x f fi fae | Xx f fi a% — sos 56 5818 | oe tt 35-39 105.75 | 35-99 20a 40-46 16 8075 | a-ak 4085.87 5-49-30 615.00 | 45-49 90155 5.48 50-54 60 120 30.00 | 50-54 100 . 255 sRa7 55-59 120 240 60.00 80 3357665 80-64 8091080000 | 6-64 60395 80.38 65-69 45 365 91.00 | 65-69 30425725, 70-74 25-390 97.00 | 0-74 10438980 7-79 10 400 100.00 | 75-79 2 437 10000 eet No todas las distribuciones, al ser acumuladas, producen 1a Ojiva de Galton, Existe también la curva de concentracién de Lo- renz. Para entenderlo supongamos que tenemos 10 jvenes estu- diantes que tienen eada uno de ellos 1 peso. Si graficamos las fre- cuencias acumuladas de los pesos y de los estudiantes tendremos ‘una recta como se ve en la Figura IIL9 Fig. 11.9 Comparacién de dos distribuciones acumuladas Ay B para los datos de la Tabla LIS a a 63 NURIA CORTADA DE KOHANT Sin embargo, como sucede a menudo, si la entrada de mu- éhes es poca y la entrada de pooas es mucha, la curva rsulta c- mo en 1a Figura IIL10 en donde 6 estudiantes no pasoen nada, cl sexto, séptimo y octavo tienen 1 peso, el noveno 2 y el imo 5, Acumulando estos valores resulta la eurva de la Figura I Fig. 111.10 Curva de Lorenz. 0 2 8 « 58 6 7 8 9 10 Betudiantes 1a cual demuestra muy grificamente que cuanto més repar- tidas estén las entradas, més se acercaré la curva a Ja recta de la Figura HL9. TIL3.1 Redondeo de las cifras Como el investigador que emploa la estadistica maneja a me- nudo muchos némeros, es conveniente recordarle cémo se hace el redondeo para los valores de una serie continua. En primer Iu- 64 DISENO BSTADISTICO PARA IVYESTICADORES BN CIENCIAS SOCIALES Y DEL COMORTAMISNTO gar, debo decidir cudntas cifras significativas desea usar después de la coma decimal; lo usual es usar dos, asi, si aparece un mime. To como 3,2875316 él puede decidir aceptar dos o tres a partir de la coma. Para esto hay criterios establecidos. Por ejemplo, si do. sea dejar 2 cifras significativas: 1) Si la eifra real siguiente a la ‘altima significativa es menor que 5 se desprecia la cantidad resi. dual. Ast, 75,2831 quedaria 75,28, 2) Si la cifra siguiente a la alti. ma significativa es mayor que 5 se aumenta la tiltima significati- va en una unidad. Por ejemplo, 5.238 quedaria 5,24. 3) Cuando la cifra siguiente a la signifieativa es 5 por convencién se accpta que sila cifra significativa antes del 5 es par, se desprecia el residuo, si es impar se aumenta en una unidad. Ast, si tenemos 27,245 ‘quedara 27,24; si tenemos 27,275 queda 27,28. TIL3.2 Notacién cientifica. Cuando por algiin motivo el estadistico debe usar niimeros con muchos ceros antes después de la coma decimal es conveniente utilizar la notacién cientifiea que utiliza las potencias de 10. Por ejemplo: 10" = 10 10°=1 10? = 100 107 = 0,1 10° = 10000 10° = 0,00001 Es decir que, por ejemplo, si multiplicamos un mimero por 10 corremos la coma decimal 8 lugares hacia la derecha. As{, 8,64 x 10° = 864000000 Si multiplicamos un némero por 10% corremos la coma deci= mal 5 lugares hacia la izquierda. Por ejemplo: 3,416 x 10° = 0,00003416 Es conveniente saber esto porque, por ejemplo, cuando usamos una computadora manual usual si queremos multiplicar, por ejemplo: 0,003 x 0, 0004 aparecerd en la pantalla 1,2 7 es decir 0,00000012, 65 [NURIA CORTADA DE KOHAN Ejercicios 1) Un investigador pregunt6 a un grupo de personas su opinion sobre la privatizacién de cierta empresa del estado. Las respues- tas fueron las siguientes: Indeciso - Muy en desacuerdo - Indeciso - Muy de aeuerdo - Inde- iso - De acuerdo - En desacuerdo - De acuerdo - De acuerdo - En desacuerdo - Indeciso - De acuerdo - En desacuerdo - De acuerdo - En desacuerdo - En desacuerdo - En desacuerdo - Indeciso - De acuerdo - Muy de acuerdo - Indeciso - Muy en desaeuerdo - Inde- ciso - De acuerdo - De acuerdo - Muy de acuerdo - Indeciso - Muy de acuerdo - Indeciso - Indeciso - Muy de acuerdo - Indeciso - Muy en desacuerdo - Indeciso. Presente estos datos en una tabla, y grafique los resultados en un gréfico de barras y en un grafico sectorial 2) Un grupo de nifios de 8 afios de edad cbtuvo los siguientes puntajes en ol test de las matrices Progresivas de Raven. 43 - 40 - 38 - 33 - 32 - 41-32 - 37 - 44-46 -40- 8-31-48 88 - 33 - 41-39 - 19 - 50 - 88 - 29-38-37 - 44-31-36 -34 42-31-42-40-40- 44-45-36 -10-39- 44- 32-27-40 32 - 49 - 43 - 29 - 26 - 24 - 20 - 39-33 - 41 - 13 - 24-9 - 29 23 - 23-34-44 - 21-25 - 28-34-18 - 36-36-27 - 34-21 35 - 18-41-28 - 49-30 -37- 26-21-26 -31- 44-43-33 Al - 12-35 - 20 - 38 - 82 - 25 - 36 - 41 - 18 - 25 - 25 - 30-24 82 - 49 - 43 - 29 - 26 - 24 - 20-39-33 - 41-18 - 24-9 - 22 18 - 36 - 32 - 38 Con estos datos labore una tabla de distribucién de frecuen- cias con clases intervalo = 5 y con clases intervalo = 10. Determi- ne en cada tabla las frecuencias, las frecuencias acumuladas re- j lativas. Haga los gréficos correspondientes, histograma, polfgono 66 | 9 FRIENDLY, M, SAS | 4) GEHRING ROBE seo BsmaDise DISCO PARA INTRSTIGADORES BY CINTA SotALES DL coMURTAuNTO de frecuencias y curva de frecuencias acumuladas, 3) ¢Como reduciria a nuimeros? a) 38,2555 >) 6.3751 ©) 8.2483 ©) 38,2895 21,3185 2 cifras significativas los siguientes 4) 6¥ a tres cifras significativas? 5) Exprese cada uno de los s ni si A potencias de 10: timeros siguientes sin usar las a) 192,5 x 104 b) 418,72 ye @) 7300 x 108 oe ©) 280 x 107 ©) 8,487 x 10+ 6) Escri ie i «iba los siguientes nimeros utilizando la notacién cientifica a) 0,000817 b) 428.000. ©) 21600,00 i 4) 0,000008810 Statisties, Me Gr 2) DOMENECH - J. M. RIBA » Me Graw Hill B., N.Y. 1960 Palcologia, Herder, Barcdona 10s) mae He Estaditionaplicada a ‘macro programs for statistical graphics, SAS Institute, 1982 Cary Nc, Boston 1978 stiea aplica D SPIEGEL, ae ge ete8 *Plicada Editorial Limusa, México, 1977 xy and Problems of Statisties, Schaum, N-Y. 1961 8) YAMANE, TARO Statistic tional Raition No gatst® Att Introductory Analysis. A Harper letoaa: fundamentales se pueden considerar los ica descriptiva y pueden dividirse on cuatro érupos fundamentales: NURIA CORTADA DB KOHAN con un promedio de edad semejante, 16 afios; bet en pea a los aifios lo :ntes estan todos entre los 14 y 7 tir lor componentes estan entre ls 11y os 19 anos. En este 2 Ja variaciéa es mucho mayor. fy wees de asimetria que determinan si las cio i bajos (asimetria positiva) 0 soncentran més hacia Jos valores : A hacia os valores altos de la variable (asimetria negativa) y on mente la, d) Curtosis que se refiere a la altura o ae i: ° i untiagu e frecuencia, siendo una curva may p loses si es muy chata platieértica, siendo el punto e io mesocirtica. 7 : : fees cuatro caracteristicas las podemos ver sintetizadas gra- ficamente on Io Figura TV. Fig. IV.1 4) Curvas con distintos valor ree do tendencia contra Ki -8= 9 -#= 4 > O20 > 5 = 25 LX -X)*= 38 En cambio, si usamos cualquier otro valor, por ejemplo, 6, tenemos: 2-624 : oe . 5H , 10-6 =4 , 2 (K~6)'= 42 y vemos que 38 < 42 1V.2.2 Mediana (Md) Se define como aquel valor de la variable por encima y por Gebajo del cual hay la misma cantidad de observaciones. Por sjemplo, si tenemos los valores de la edad de nifios de 2, 3, 7, 9'y 10 afos, como N es un nimero impar la mediana es 7. Si afiadi- ‘mos otro valor por ejemplo 2, 3, 7, 8, 9, y 10, aca los valores cen- trales se promedian y la mediana (Md) sor: 7+8 Ma=—~* <75 2 Para hallar la mediana en una distribucién de frecuencias, se 75 NURIA CORTADA DE KOHAN PISEROESTADISICO PAR LVASTIGADORES EN CENCLA SOcLALES DRL COMPORTAMIATO acumulan las frecuencias como en la ‘Tabla IV.2 N/2 = 144/2 =12 : ee eS eet st Md = 49,5 +—72= 56 __ 49 40 Intervalos de clase £ f, ae 7 - Md = 49,5 + 16/40. 10 = 49,5 + 4 = 53,5 20-29 8 10 30-39 20 30, 40-49 26 56 50-59 40 96 60-69 30 136 ca 10 136 . bs 6 142, emplo, si tenemos nifios de: 90-99, 2 144 2, 3,7, 7,7, 10 y 11 afios la moda 0 modo es 7. Se suele simbolizar con Mo, En las distribuciones de del intervalo de clase que tiene la mayor frecuencia, Asi para los datos de la Tabla IV. 1 el modo seria 87, para los | datos de la Tabla IV.2, el modo seria 54,5, fe Entre las tres medidas mas frecuent | Ja media, la mediana y el modo existe, frecuencia unimodales levemente asi |_| presada por esta formula: 144 frecuencia el modo es el punto medio La formula que se emplea es: ites de tendencia central para las distribuciones de imétricas, una relacién ex- f Md=L+ En donde: L Iimite inferior real del intervalo que contiene la Md, es decir N/2 £, = suma de las frecuencias hasta este limite inforior frecuencias del intervalo que contiene la mediana N= mimero de casos ralor de la clase intervalo X —Mo = 3 (XK ~ Ma) Es decir, “dia es aproxi lamediana, que la distancia o diferencia entre la moda y la me- madamente tres veces la diferencia entre la media y Si obtenemos la X para la distribucién de la Tabla IV.2 ye- ___ mos que la media es 52,07. Asi, para los datos de la Tabla V2 tenemos los tres valores: Para nuestro ejemplo de los puntajes de un test de la Tabla IV. 2 los valores definidos seran para: 16 [NURIA CORTADA DE KOHAXY KX =52,97 Md = 53,5 Mo = 54,5 ¥ como la ditribucién presenta una ligera asimetria negaliva te- IV.8 Medidas de posicién no centrales, nemos que efectivamente: " Existen otras medidas de posicién de las (52,97 — 54,5) = 3 (58,97 ~ 53,5) ~ 1,53 = 8 (-0,53) aproximadamente Esta relacién entre las medidas de tendencia central tam- bién se la conoce como relacién de Pearson y sirve para es- ; dremmos timar de une manera préctica el modo, La relacin de Pear- [> Janey Ds Ds, De igg Ba si dividimes ol conjunto en cien son es: Mo = 8 (Md ~ 2 X), en nuestro caso como vemos temente ol G, = D, ee ares PLPS» Pp... Pop Eviden- Mo = (8 x 53,5) ~ (2 x 52,97) = 160,5 ~ 105,94 = 54,56, que fue ol dela Tabla vg |” Mt StPongamos que tenemos los datos modo hallado. Se puede usar siempre que la distribucion sea unimodal y no sea excesivamente asimétrica. | Tablaivs Sugiero al lector que como ejercicio grafique un poligono de a frecuencia con los datos de la Tabla IV.2 y ubique en la abscisa x Puntajes f f L% Jos valores de & Md y Mo, re eee ae 20 20 168 45-49 30 50 Le i 4,20 1V.2.4. Media geométrica (G) notes a Otra medida de tendencia central es la media geométrica, 55-59 que, para una serie de valores x, x2 5%, xs ma del produeto de sus valores: x, es la rafz enési- 60-64 65-69 A erent 10-74 Ge Nixy oxy. xy. Xp. hy i a : : 80-84 Por ejemplo, para los valores 2, 4 y 8 la media geométrica se- ra: 85 - 89 a: Noas -Vor ‘NURIA CORTADA DE KOWAN Para caleular los percentiles usamos la siguiente formula: En donde P, = el percentil que deseamos porcién que corresponde al percentil buseado ast si es el 62 Ifmite inferior exacto o real del intervalo que contiene P, suma de frecuencias acumuladas por debajo de L frecuencia del intervalo que contiene P, lor del intervalo de clase Por ejemplo, si para los datos de la Tabla IV.8 queremos cal- cular el P,s,, diremos p.N = 0,25 x 1190 = 297,5, por lo tanto, apli- cando la férmula, tenemos: (0,25 x 1190) - 230 Pog = 59,5 +— 5 185 Pos = 59,5 + 1,82 = 61,32 Es decir, que para los datos de la Tabla IV.8 el percentil 25 vale 61,32 puntos. Como se ve, el procedimiento de céleulo para percentiles, de- ciles y cuartiles es el mismo que ya sabfamos para la mediana. 80 DISE HD ESTADISTICO PARA IWVESTIGADORES BN CIECIAS SOCIALES Y it COMFORRAMIENTO Se pueden calcular también estos valores, aproximadamente, por el método grafico a través de la Ojiva de Galton. Para obtoner las frecuencia acumuladas en porcentaje como las de la Tabla 1V.3 se hace muy fécilmente con la formula: 100) x £ En nuestro caso 100 = 0,084 190 Asi, para la frecuencia acumulada 20 serd; 20 x 0,084 = 1,68, 50 ser 50 x 0,08 = 420, ete como so puede vor ena Tabla vis, Ahora dibujemos cl grafico de las frecuencias acumuladas en Porcentajes, u Ojiva de Galton, y si se hace con exactitud con pa- pel milimetrado puede hallarse ficilmente el valor del percentil que deseemos, trazando las coordenadas correspondientes como. vemos en la Figura IV.2 Fig. IV.2 Ojiva de Galton para los datos de la Tabla IV3 en donde se ve aproximadamente el valor del percentil 25, SOS MS 495-565 OOS U8 eos TAS Tes IS ALS HS 81 NURIA CORTADA DE KOHAN IV.4 Medidas de variabilidad o dispersion El estudio de las variaciones que presentan las variables, es sumamente importante y est implicito en el concepto mismo de estadistica. Tal como ha sefialado Fisher “el concepto de estadis- tica como estudio de las variaciones es el resultado natural de considerar a la estadistica como el estudio de las poblaciones' En efecto, si una poblacién fuera un conjunto de individuos idénticos unos a otros se podria comprender con la deseripeién de un solo individuo, junto con la cantidad que hay en el grupo. Pero las poblaciones que son objeto de estudio estadistico siem- pre presentan variaeiones en uno y otro aspecto. Por esto, es importante que cuando ya conocemos la tendencia central de una distribucién, estudiemos su variabilidad, pues dos distribu- ciones pueden tener una media muy similar y no obstante ser muy diferentes en cuanto a la dispersién de sus valores. {Cémo podemos estudiar Ia variabilidad? Los estad{sticos han elabora- do varias medidas. IV.4.1 Amplitud total Consideremos los siguientes grupos de nifios A, B y C A)6, 6, 6, 6, 6,6 anos B)5, 6,7, 8,7, 3 aiios 0) 2, 8,4,7,9, 11 aitos En el grupo A no hay variacién visible, son todos de 6 aitos. En el grupo B podemos usar la amplitud total que es Ta diferencia en- tre el valor mas alto y el mas bajo 8 - 3 = 5. Para el grupo C la am- plitud total seria 11 - 2 = 9, este es pues, sin duda, el més variado. Como vemos, los tres grupos tienen la mistna media aritmética. La amplitud total es la medicién m4s simple de variabilidad. Solo se usa en muestras pequeiias y no es comparable para gru- 82 rsBio BsTADISTICO PaRa InvESTIOADORES RW CIENCIAS SOCLALBS Y DEL COMPORTAMENTO pos de N distintos. 1V.4.2 Desviacién semiintercuartil Se suele indicar con la letra C (maydiscula) Se trata de: c Es la diferencia entre el cuartil tercero y el cuartil primero, promediados ; Por ejemplo, si tenemos la distribucién de la Tabla IV.4 ten- drfamos: ‘Tabla IVA x t t a 65-69 5 ' 70-74 20 25 15-79 60 85 alias 140 205 85-89 180 405 90-94 130 585 ee 80 615 100 - 104 55 670 105 - 109 40 710 no- 114 20 730 730 See 83 NURIA CORTADA Dz KOHAN Hallamos ©, = P, (0,75 x 730) — Le fi BAT, — 535 = 94,5 + 80 = 94,5 + 0,78 = 95,28 ©, = Pa; haciendo operaciones correspondientes hallamos que 1 = 82,98, 5,28 — 2,30 9528-8298 615 2 2 Por lo tanto, la desviacién semiintercuartil, si la distribucién no es muy asimétrica, es un buena medida de la densidad de la distribucién en su parte media. IV.4.3 Desviacién media Es la suma de los desvios de todas las obgervaciones respecto a la media, en valor absoluto y promediados. En valor absolut quie- re decir que no se tiene en cuenta los signos, pues de otro modo ya sabemos que por un teorema de la media, darfa siempre 0. EIS-Eh n ‘ise80 BSTADISTICO PAA INYESTIGADORES BN CIENCLAS SOCEALES Y DBL COWrORTAMIENTO Por ejemplo, si tenemos los siguientes casos. 2, 8,4, 7,9, 11 n=6 X-E =2-6= E = 36/6 =6 =3~6 =4-6 =7-6= 9-6 = 11-6 eee E1X-X) 18 n 6 Pero en valor absoluto Nose usa con mucha frecuencia, porque al usar valores abso- lutos no es facil de manipular algebraicamente. 1V.4.4 Variancia y desviacién estandard o tipica Estas son las medidas de variabilidad mas usadas, pues em- plean los desvios respecto a la media, pero elevados al cuadrado. La variancia para muestras la simbolizaremos como s" y la des. Yiaeion estandard para muestras s. En cambio, como ya veremos en estadistica inferencial, cuando trabajamos con poblaciones to- tales Ia variancia la simbolizamos por la letra griega o” y la des- viaciOn estandard como o (sigma) Caleulo: Para los datos sin agrupar: & Ix-x]* Variancia | .MURIA CORTADA DE ROHAN Desviacion estandard En algunos textos se usa en el denominador m - 1, que es mas correcto cuando las muestras son pequefias. Para nuestro ejemplo anterior de nifios de 2, 8, 4, 7, 9 y 1 afios en donde X = 6 tenemos: (X-X) = aen bak =ll-6= Variancia = s? =64/6 = 10,6 Desviaci6n estandard s= \\64/6= \\ 10,6 = 3,25 Para calcular la desviacién estandard para datos agrupados usaremos los datos de la Tabla IV.5 ISBN ESTADISTICO PARA INVESTTGADORES EN CIENCIAS SOCIALES DSL COMPORTAMTEVTO ‘Tabla 1V.5 XPuntajesde un test f x fe fx? aaa 30-34 wo 50 250 35 - 39 20 4 ~80 320 40-44 0-8 120 360 45-49 50 ~100 200 50-54 800 -80 80 55-59 100 0 a9 60 - 64 60 1 60 60 65-69 40 2 80 160 10-74 40 3 120 360 15-79 20 4 80 320 80 - 84 30 5 150 750 85 - 89 20 6 60 360 00 6,44 — (0,24)* 6,44 ~ 0,057 =5 \ 6,393 =5 x 2,52 = 12,63 [NURIA CORTADA DE ROHAN La variancia para estos datos es, por lo tanto, s*, 0 sea 12,68? = 159,52 La desviacién estandard calculada para todos los datos agru- pados tiende a ser algo mas grande que si se calcula con las ob- servaciones originales sin agrupar. Por eso, algunas veces es con- veniente, en estos casos, utilizar una correccién que se conoce con el nombre “correceién de Sheppard" cuya férmula es s corre- gida= \[s?— 0/12, en donde c* = al cuadrado del intervalo de clase, Cuando ¢ no es muy grande no es importante hacerlo, pero si es grande conviene usarlo, s6lo con distribuciones eonti- nuas y en forma de campana, En una distribucién la s cabe apro- ximadamente 6 veces. Hay dos propiedades de la desviacién es- tandard que son importantes: 1) Si se suma una constante a todas las observaciones de una muestra, la desviacién estandard seguira siendo igual. Disgio ESTADISTICO Pan INVESTIGADORES RN CIENCLAS SOCIALES ¥ DBL COMPORTARIENTO Si a los valores de X le sumamos una constante, por ejemplo 5, tendriamos: X45 X-X CS — rT 2 4 13 1 1 2 ° 0 un a 1 10 2 4 60 10 X= 60/5 = 12 Nios = V2 = 1,414 La segunda propiedad establece que: 2) Si multiplicamos todos los valores de la variable por Por ejemplo: ‘una constante, la s queda multiplicada por la constante. Por ejemplo, si a X la multiplicamos por 10, tenemos x X-X (X-x? 9 2 4 10xX X-X (X-X? 8 1 1 90 20 400 7 0 0 80 10 100 6 oat 1 0 0 0 cee ag a 60 10 100 35 10 50 20 400 350 1000 X= 35/5 = s = \i0/ N= 1414 1000 =\'200 = 14,14 89 [NURIA CORTADA DE KOHAN La variancia y la desviacién estandard son las medidas de va- riabilidad més usadas por que tienen muchas ventajas sobre las demés. La variancia tiene, como se verd mas adelante, propieda- des aditivas y puedo ser dividida en componentes que pueden re- lacionarse con circunstancias causales (se verd en el andllisis de la variancia). La desviacién estandard de una muestra, por su parte, es la estimacién mas estable del mismo parémetro en la poblacién y ademds, tanto la variancia como la desviacién estandard son mnds féciles de analizar mateméticamente y entran en los célculos de muchos otros valores estadisticos. IV.4.5 Coeficiente de variacion Cuando queremos comparar la variabilidad de dos variables que han sido medidas con unidades distintas, esto es muy dificil, por esto los estadisticos han inventado el coeficiente de variacién (V) que es: 100.8 x Por ejemplo, un grupo de nifios de 7 afios mide una talla de X = 1,30 con una s = 0,05. Por otro lado sabemos que su peso modio es X = 25 kg., con unas = 2 kg. En qué sentido es el grupo més variable: en peso o en talla? La V para la talla serd: 100. 0,05 1,30 La V para el peso sera: 100.2 25 90. DISBRO ESTADISTICO ZARA INVESTIGADORES BY GIRNCIAS SOCLALES ¥ DBL COMPORTAMTENTO Por lo tanto, son més heterogéneos, mas diversos, tienen ma- yor dispersién, en peso que en talla. Este coeficiente tione el inconveniente de que sélo puede usar se cuando hacemos las mediciones en el nivel de razones o cocien. tes, IV.5. Puntajes estandard o 2 Acé conviene que incluyamos un tipo de puntajes muy usados en Psicologia. Son los puntajes estandard o tfpicos que se simbo. lizan por una x mindscula, Su formula es: Hemos realizado una especie de transformacién de los punta- Jes como si la unidad de medida fuera la desviacién estandard. Por ejemplo supongamos que tenemos los nifios A, B, C, D, E y F euyos puntajes en un test cualquiera fueran los que se pre- sentan en la X de la siguiente Tabla IV.6 B 6 4 16 0,399 c 7 3 9 0,229 D 9 a1 1 0,025 EB 16 5 25 0,626 Fo 2% 100 2,502 60 0 200 5,01 o NURIA CORTADA DE KoHAN X= 60/6 =10 x, 1 ‘Vernos asi ejemplificado on esta Tabla IV.6 que la utilidad de Jos puntajes estandard es que su media es 0 y su desviacién es- tandard 1.Para qué sirven?. Bien, para muchas cosas como se iré viendo a lo largo del texto; pero una de las mas importantes es poder comparar distribuciones diferentes. Supongamos que tenemos una distribucién de puntajes en un test de Matematica cuya X = 30 y cuya s = 6. Por otro lado tene- mos una distribucién de una prueba de Castellano cuya X = 70 y cuya s = 20. Un nifio cualquiera ha obtenido un puntaje de 36 en Matemiticas y de 54 puntos en Castellano. Quoremos saber en qué es mejor el nifio. Sélo tenemos que transformar sus puntajes originales en puntajes estandard. Asi: 36-30 Para Matemsticas 2), =~» 54~70 Para Castellano z,= ——— = 20 En _una sola distribucién, la de 2, como podemos ver en la Fie gura IV.8 ubieamos los dos puntajes z para Mateméticas y z pa- ra Castellano y vemos de inmediato que es mucho mejor en Ma- teméticas que en Castellano. 2 3 (X~Ma) s Sila distribucion os perfectamente simétrica g ‘itvos indican asimetria positiva y los valores negati sativa y cuanto mayores son los valores absoluts, m: 0. Los valores po- ivos, asimetria ne- ayor la asimetria, [NURIA CORTADA DE KOA IV.6 Curtosis Recordemos que la curtosis nos da la forma de la curva en tanto muy aguda hacia arriba o muy aplanada. Una medida de curtosis que es facil de usar es en términos de pereentiles. En es- te caso curtosis o como se simboliza gy, es c (Pag — Pro) Si en una curva este valor es mayor que 0,263 la distribucion es platictirtica, si es menor que 0,263 es leptoctirtica. ‘Los valores de asimetria y curtosis son muy pocos usados. Pero ahora en términos de momentos de fuerza ya conocemos los cuatro momentos que son, de acuerdo a su simbologia con caracteres lati- nos o griegos, si se trata de valores hallados en una muestra (esta Aisticos) o en una poblacién (parémetros), como sigue: ee Muestra Poblacién Estadisticos Pardmetros 1'Momento Punto de apoyo Media aritmética (mu) 2Momento Inercia Desviacién estandar s (sigma) 3* Momento Asimetria a %4 (gamma) 4°Momento Curtosis & ‘2 (gamma) 94 ISENO RSTADISTICO PARA INVESTIGADORES EN CLENCIAS SOCIALES ¥ Dit COMFORTAMIEUTO Ejercicios 1) @Cual es el modo de la siguiente serie?: 6, 6,3, 2, 1,3,7,3,5 2) (Cual es la mediana de la siguiente serie?: 3,6,2,4,5,6,1 8) {Cudl es la media de la siguiente serie?: 5,4, 3,0,6,2 # Dada la siguiente tabla de frecuencias determinar y caleu- Jar todas las medidas de tendencia central e indicar cudl de ellas resume mejor las observaciones: 7 20-29 16 30-39 21 40-49 12 50-59 4 5) Halle la media para la siguiente distribucién: x 60 - 62 5 63-65 18 66 - 68 42 69-71 27 72-74 8 130 (ee 95 EEE’ ~ OOO [NURIA CORTADA DE KOKAN PSSROBSTADITICO PARA DVESTCADORDS A CENGWS SOCALES ¥ Det. coupoRRanEyTO 6) Halle la mediana para la siguiente distribucién: 10) Para los datos anteriores halle la desviacién media, 11) Para los mismos datos de a) y b) halle la desviacion estan- = t dard. Seana TT UEC 12) Halle la desviacién standard y la variancia para los datos 118 - 126 2 del ejercicio 5, 127-135 5 18) Halle la sy 1a variancia (s*) para los datos del ejercicio 8, 136 - 134 90 14) Para los datos del ejercicio 8 halle los indices de asimetia 145 - 153 120 (G1) y curtosis (g,) 154 - 162 pe. 163 - 171 40 172-180 20 400 ee 7) Para la distribucién anterior grafique la Ojiva de Galton y halle los valores aproximados de Pss y Pys. 8) Para la siguiente distribucién halle C, C, C; D, y Pye Py: ———— =. f ——— 50 - 59) 8 60 - 69 10 70 - 79 160 80 - 89 140 90 - 99 100 100 - 109 50 10 - 119 20 Bibliogratia 448 DBLALOCK, HM. Social statistics, N:Y. Me Graw Hi, 1960 ee, 9) Halle la amplitud total en a) y b): a) 12, 6, 7, 3, 15, 10, 18,5 b) 9, 3, 8, 8,9, 8, 9, 18 2 FERGUSON, G.A Statistical Anaisis in Psyholingy sed Education, Mo Graw Hill B. Ca. 1966. ere i SFISHER, IA Statistical Methods for Research Workers, Oliver & Boyd, 1 4) SPIEGEL, MR. The ory and Problems of Statisties, Sheum Pub. Co, NY. 1960 96 EOS: ~- Ol ee SEND ESTADITICO ana uvestAnoRES Y CENCUS SOLALES YD courorrauiro CAPITULO V Estadistica inferencial V.1 Nociones de probabilidad iv Podamos estudiarlos a todos, pero si nos intense. una doter- minada variable, por ejemplo el nivel de conocimiento en mate- inaticas de estos estudiantes, podemos toma una muestra al a azar de 1.000 de estos estudiantes, aplicarioy una prueba de co- NURIA CORTADA De KOHAN media, desviacién estandard, mediana, etc y casi siempre los po- ligonos de frecuencia correspondientes presentan forma de cam- pana aproximadamente simétrica, es decir, se concentran la ma- yor parte de los casos en Ja parte central de la variable y hay muy pocos en los extremos. Esto es asf en casi todos los datos empfricos de las ciencias biolégicas y antropométricas (talla, pe- 50, indice cefélico) en muchos datos de tipo social y econémico (sueldos, actitud) y on datos de tipo educacional y psicolégico {co- mo puntajes en tests de inteligencia, test de conocimiento, tiem- pos de reaccién, amplitud en campos perceptivos, tiempo de aprendizaje, etc). El modelo tedrico para estas distribuciones em- pfricas sucle ser la curva de probabilidad normal conocida simplemente como curva normal o curva de Gauss y es por esto que el investigador en ciencias sociales y de la conducta debe co- nocer pormenorizadamente sus caracteristicas y propiedades. De ahi que también sea conveniente comprender algunas nociones de probabilidad. La definicin de probabilidad a priori que debemos a La- place, dice que "la probabilidad (P) de un hecho es el nuimero de casos favorables dividido por el mimero total de casos igualmen- te posibles’, es decir, casos ‘favorables' (f) y ‘casos no favorables' (nf) 0 sea: £ fenf Definicién a priori, en el sentido de que podemos determinar la probabilidad de los hechos sin necesidad de investigacién em- pirica alguna. Si sabemos que un dado tiene seis caras numera~ das del 1 al 6, la probabilidad al arrojarlo de hallar un 3 seré 1/6. La definicién de probabilidad a posteriori es de naturaleza empfrica y tiene en cuenta la frecuencia y dice que “Ia probabili- dad es el cociente entre el ntimero de casos en que el hecho ocu- rre y el ntimero total de veces que se examina", Este enfoque a posteriori se debe al ruso Kolmogorof. Un ejemplo nos hara ver 100 ‘ISBIO ESTADISTICO PARA INVESTICADORES BN CIENCIAS SOCTALES ¥ DEL COMPORTAMIENTO mas claramente esta diferencia en la definicién. La probabilidad a priori de obtener un 3 al arrojar un dado es 1/6, pues el dado tiene 6 caras posibles y s6lo una lleva escrito un 3. Ast, de 6 re. sultados posibles, s6lo 1 es favorable por tanto: : Pi, = 1/6 = 0,166 Para la definicién a Posteriori tendriamos que arrojar un da- do una gran cantidad de veces. Por ejemplo, si tiramos el dado 60 veces, te6ricamente tendriamos que sacar el 3, 10 veces, pero os- to no suele suceder. Para lograr empirieamente hallar 3, una vex cada seis hay que tirar el dado muchas veces. ;Cudntas? En teo- ria una cantidad de veces infinita. En Matematica se dice que cuando N tiende a =, P es el limite de la probabilidad de una se- Hie de tiradas. Por ejemplo, si yo tiro un dado 60 voces es posible que halle no 10, sino 8 yeces un 3, entonces la probabilidad de hallar 3 en este caso seré 8/60 = 0,193. Silo tire 600 veces tal ver salga 95/600 = 0,158 que es un valor muy cercano a 0,166. Esto se llama frecuencia relativa. En la practica, la diferencia entre la. definicién a priori y la definicién a posteriori no es vital. El enfo. aue de Laplace es una definicién teérica y el de la probabilidad como frecuencia relativa es operacional. También existe un enfoque llamado subjetivo, hacia la pro- babilidad que fue definido por Savage, en el cual la probabilided de un hecho A es interpretado como una medida de la confiansa que una persona razonable asigna a un hecho A. ‘Los puntos de vista Personalisticos, dice Savage, i que Ia probabilidad mide la confianza que un individu partion Jar tiene on la verdad de una proposicin especifica, por ejemplo Ja proposicién que asegura que "manana lovera". Estos puntos de vista postulan que el individuo en cuestién es en cierto modo "razonable" pero no niegan la probabilidad de que dos personas razonables, frente a la misma evidencia, pue. dan presentar distintos grados de confianza en la verdad de la .vunia conpADA DE ROHAN misma proposicién, Este enfoque puede ser aplicado a hechos que todavia no han ocurrido, a hechos que sélo ocurren una vez y no requieren un experimento con gran cantidad de ensayos, es un enfoque muy flexible y puede ser aplicado a muchas situaciones. V2 Leyes de Laplace 1a) El valor numérico de la probabilidad es siempre un’ niimero positive o nulo pero nunca puede ser mayor que 1. Es decir Pay = probabilidad de un hecho A, sera siempre mayor o igual a 0 y menor o igual a 1. Es decir, 0s Pyst ‘imple. Si dos hechos 2a) Ley de la suma o probabilidad simp! Ay B se excluyen mutuamente, le probabilidad do obtener A 0 B es igual a la probabilidad de obtener A més la probabilidad de obtener B. Piro = Poy + Pos “Excluirse mutuamente" quiere decir que A y B no pueden ocu- ‘imento. rrir simultaneamente en el mismo experimer fee Asi, la probabilidad de obtener 5 o 6 al tirar un dado al aire sera: Poo n+ Py = M6 + U6 = 216 = 3 3a) Ley de la multiplicacién o probabilidad compuesta. Si Ay B son dos hechos cualesquiera,la probabilidad de obtener 102 ‘ISBNO BSTADISTICO PAA INVESTIGADORES RN CIENCIAS SOCIALES Y DEL COMPORTAMIBNTO ambos A y B es el producto de la probabilidad de un hecho por la probabilidad condicionsl de obtener ol otro una vex que se ha ob- tenido el primero. Pays "a Poway = ‘83 Pray El término "probabilidad condicional" significa que nosotros Teconocemos quo la probabilidad de A puede depender de «i B co presenta 0 no, Dos hechos son “independientes" cuando, Probabilidad de un hecho A, habiéndose dado otro B, es igual ala probabilidad de A no habiéndose dado B, es decir si: » ¥ s6lo cuando, la podemos decir que A y B son hechos "independientes". En este caso la probabilidad compuesta de A y B seria su producto Praye = Pray» Pow Por ejemplo, la probabilidad de hallar un as en un mazo de cartas es 4/62 y la probabilidad de hallar un as rojo en el sector Tojo de las eartas inglesas es 2/26 y vemos que 4/52 = 2/26 = 0,07 Por Io tanto, el color de las cartas y su numeracién son hechos in. dependientes. Aplicando la formula, si A es hallar una carta roja y Bel hecho de hallar un as, Piya = Puy. Pw) = W/2. 1/13 = 1/26 [NURIA CORTADA DE KOHAN Esto serd asf, siempre que reemplacemos en el mazo Ia carta que extraemos; pues si no la reemplazamos, la segunda probabi- lidad, si hemos extrafdo un as, serfa 3/51. En este caso no ten- Griamos independencia de los atributos. Cuando dos caracteristicas, hechos o atributos "no son independientes" la formula para aplicar es, como ya vimos Puy - Pon = Pray: Peony ‘Veamos esto con un ejemplo préctico, tenemos un grupo de 2000 sehoritas categorizadas segtin dos atributos A) color del pelo y B) carécter agresivo. Segiin los datos que presentamos en la Tabla VI Table VI Cabellos Negro | Rubios Rojos Caracter 300 600 300 1200 Agresivo (B) 600 100 100 800 No agresivo 900 700 400 2000 Si se eligiese de este grupo de 2000 chicas una al azar {Cul es la probabilidad de que sea "pelirroja y agresiva"? 400 2000 Pus 104 SEE eee DING ETHOS PARA IWESTICADORES AN URNA SociLES Yet couPornano 1200 2000 Por lo tanto la probabilidad de ; hallar en el “peli- roja y agresiva" ser4 ernie P, Pays =Puy Pax) 08ea, 400 300 300 Pam =—— . = ——=0,15 2000 400 2000 V.8 Relacién entre ii E probabilidad Relecién Y teorfa de los Podemos considerar todos los resultad le ‘ultados posibles de una ex- Periencia (tirada de monedas al aire 0 de dados, et) como puntos nian net " os pong i? au se Hama “espacio muestral” y que simbolize SiS contiene una cantide lad finita de Puntos, entor at punto puede vincularse a ui probabil in valor positivo Namado “probabili- NURIA CORTADA DE KOHAN dad" y la suma de todos estos valores correspondientes a cada punto es Ja unidad. Un hecho es un "conjunto’ de puntos en el "espacio" como los indicados en A y B de 1a Figura V.1 que se lla- ma diagrama de Euler o Venn. La teoria de los conjuntos fue ela- borada por e] matematico ruso Cantor (1805-1918) e introducida. a la légica simbélica por el inglés George Boole (1815-1864). Si tenemos un universo finito que es el conjunto S y un sub- conjunto A contenido en $ y Hamamos N(S) los elementos de S y n(A) los elementos de A, la probabilidad de A en relacién a S es: n(A) NS) Fig. Va 106 PISENO ESTADISTICO PARA INYESTYOADORES A CIENCIAS SOCIALES Y DRL COMPORRAMIENO ACS significa que A pertenece aS, Si S es un universo con rubconjuntos A y B euyas probabili- dades conocemos como Pia y Peg) entonces tenemos: 1) La probabilidad del complemento de A ser: 2) La probabilidad de la union de Ay B sera: Pam = Pyy + Pa) =P, 3) Si Ay B son mutuamente excluyentes, entonces la probabi- lidad de la union seré: Pave = Pu +P 4) Si A y B son estadisticamente independientes Panay = Peay Pips Pum significa la probabilidad de A dado By Pap, dad de A y la no ocurrencia de B, entonces, en térmi bilidades condicionales tenemos: Ja probabili- inos de proba- 5) La probabilidad de Ia interseccién de A con B esta dada por Pane |NUNIA CORTADA DE KOHAN 6) Si Ay B son estadisticamente independientes, Recordemos los simbolos © = pertenece a Us union © = interseccién A=noA conjunto vacio (letra griega fi). V.4 Rudimentos de andlisis combinatorio Para obtener las probabilidades de los hechos complejos a menudo es dificil la enumeracién de los casos y para facilitar la labor se usa el andlisis combinatorio. Esto se refiere a las for- ‘mas en que pueden arreglarse los elementos de un conjunto. Hay tres formas de hacerlo: 1) Variaciones 0 arregios. Son los subgrupos de n objetos tomados de ren r siendo r Bo C, a diferencia indica que le pregunta A es més dificil respecto a lg B ae 0 gues a pregunta B respecto de la C. : ‘a aplicacién de Ia curva normal es para i exe em ens wn aprendizaje 0 aptitud para una materia. Supongamos que he, mos aplicado un examen a 100 estudiantes y queremos elasifi, carlos en cinco grupos A, B, C, Dy RB desde los mejores a los peo. res. Suponiendo que la variable medida se ajuste a la distribu. cién normal, geuéntos estudiantes conviene poner en cada sub. ee Para ser justos? Si consideramos que la abscisa tiene 6 z, Aividimos 6 por grupos. En este caso ol grupo E int de de 4 82, el Dde-18 a -0,60z, el C de -0,60z a ++0,60z, el B de 40,602 @ +1,82 y el grupo A ira de +1,82 a 43, Tal como se ve on la Fi gura VIL4 los srupos representarén un oreentaje de los alum- nos obtenido por la Tabla de areas ee Y que es para cada grupo co- 7 35% B 23,8.% ec 450% 7 23,8-% 7 35% ee NURIA CORPADA DE KOHAN Fig, VIL4 Clasificacién de un grupo en cinco subgrupos A, B,C,DyE. “eee VIL5 Transformaciones de los puntajes de los tests. Los tests 0 escalas de medicién psicol6gicos se utilizan para conocor mejor ciertos aspesios de las personas eatudiadas. Di chos instrumentos suelen proporcionar sus resultados en anus En general, cuanto mayor os ol némero de puntos, mas elevado es ol nivel aleanzado por el individuo en determinada aptitud 0 conocimiento. A estos resultados se los ama puntajes directos w originales, y se obtienen sumando los puntos que se asignan las respuostas corectas a cada tuna de las proguntas. Po ejem Plo, onal test de Raven cada respuesta correcta equivale a 1 Punto. A mayor nivel intelectual, mayor nGmero de puntos. Bs- tos puntajes originales permiten la comparacién de distintos ni- fos o adultos en un mismo test, pero tienen grandes ineonve nientes, pues no permiten Ia comparacién entre pruebas distin- tas. Por ejemplo, si en un test se pueden alcanzar 40 Dantas co ‘mo méximo y en otro se pueden alcanzar 200, se comprende 4! 18 I IE LT DISBRO ESTADISTICO PARA LVVESTIGADORES BN CLENCIAS SOCTALRS Y DEL COMORTAMIEWTO el mismo valor numérico de 25 fica lo mismo, Por este motivo se suelen usar las tos puntajes originales a otros puntaj racién. Existen dos tipos de transformaciones que se pueden hacer con los puntajes. Por un lado, estén a) las transformaciones li. neales y por el otro, b) las transformaciones no lineales, La transformacién lineal se usa utilizando una ecuacién li- neal, es decir, aquel tipo de ecuacién que tiene todos lo términos con exponentes iguales a uno. Cuando se las representa grafica- mente en un sistema de coordenadas cartesianas se obtiene una Vénea recta, Son ccuaciones de primer grado, Puntos en uno y otro test no signi: “transformaciones” de es- jes que permiten la compa- como por ejemplo: yratbx. Las transformaciones no lineales emplean ecuaciones no lineales es decir que tienen por lo menos algtin miembro afectado or un exponente distinto a la unidad, Su representacién gréfica da lugar a curvas (parébolas, hipérbolas, etc,), La forma general es la ecuacién de segundo grado como: ysax?+brse Entre las transformaciones lineales las mds conocidas son: 1) Los puntajes z que ya vimos en el Capitulo IV, su forma es x-X 130 [NURIA CORTADA DE KORA Por ejemplo, si en una distribucién de puntajes originales la ‘media vale 200 y la desviacién estandard 12, aquella persona que saca 210 puntos tiene un puntaje 2: 210 ~ 200 12 = 40,83 Ess decir, que este puntaje nos informa que el nifio que sacé en una prucba determinada 210 puntos esta a una distancia de la media de +0,83 sigmas, Permiten, pues, comparar los puntajes cen distintas priehas teniendo en cuenta que se distribuyen nor- malmente. Tiene el inconveniente de que los puntajes a la iz- quierda de la media tienen signos negatives, y que deben expre- sarse on decimales. Para obviar esto muchas veces se usan los: 2) Puntajes Z derivados. En estos se fija una media arbitra- riamente (X,) que suele ser 50 y una desviacién estandard arbi- traria (s,) que suele ser 10. La ecuacién lineal para los Z deriva- dos es: 5, K-%) 5 En el caso de nuestro alumno que sacé 210 puntos en la prue- tba original tendriamos: 10 &%-X) Z=50+ —— es decir, 5 140 [eee See ese ee see ents eee RERSSeRECerereeeseree.. | ISB BSTADISTICO PARA IWVRSTIGADORES RX CIENCIAS SOCIALES ¥ DBL COMPORTALIENTO 10 (210 - 200) Z=504 = 2 = 50 + 8,3 = 58,3 puntos En esta transformacién tenemos la ventaja de no tener valo- res negativos y podemos despreciar los decimales porque repre- sentan una cantidad pequefia. También los Z derivados son una transformacién lineal, de modo que no deforman la distribucién original de los puntajes, 3) Percentiles. Esta os una transformacién no lineal, cam- bia por lo tanto la distribucién do los puntajes originales. El per- centil correspondiente a un individuo indica el porcentaje de su- Jetos que en relacién a la caracteristica estudiada, reciben un puntaje inferior a este individuo. Por ejemplo, si en un grupo de 500 personas en una prueba alguion obtiene el percentil 75, quie- re decir que en este grupo hay 375 personas que han obtenido Puntajes inferiores a los del nino considerado. Los percentiles se usan mucho, pues permiten la comparacién entre distintas prue- bas y son ficiles de entender por todos, pero tienen el ineonve- niente de que su distribucién toma la forma cuadrangular que no responde a la realidad de las funciones psicolégicas. Existe también otra transformacién no lineal que son los Puntajes 'l de Me. Call que no tratamos porque cada dia os me- nos usada, Ejercicios 1) Caleular el desvio reducido (x) que corresponde a cada uno de los siguiontes valores de una distribucién caracterizada por: Mi [NUBIA CORTADA DE KOHAN X, = 80, X,= 60, X,= 90 2) Calcular los valores de variable que corresponden respecti- vamente a cada uno de los siguientes desvios reducidos de una distribucién caracterizada por: X= 100 s=10 m=-3 2 =0 m=2 38) Si tenemos 2500 casos que se distribuyen, segiin una prue- a, normalmente: a) Hasta qué valor de x habria que tomar para comprender os 2000 casos inferiores. b) Desde qué valor de z habria que tomar si se quicren incluir los 1900 casos superiores. ©) Entre qué valores z estardn los 1000 casos centrales. 4) Qué valor tiene Ia ordenada de la curva normal cuando 5) Dada X = 40 ys = 6. Cul es el valor de 2, Z y de percentil de las siguientes personas: A) 43 puntos B) 87 puntos C) 49 puntos D) 28 puntos B) 35 puntos Bibliografia rms gee eee oe 2 HR ener ant Mm 2 Tolar A ENC Compare yet aE tomate hi janie il ent ee 142 SEE [ISENO ESTADISTICO PARA INVESTIOADORES BN CIENCIAS SOCIALES YDB COMPORRAMETO CAPITULO VILL Estimacién Estadistica VUE. Poblaciones y muestras Cuando realizamos una investigaci6n tenemos la pretension de que sus resultados sean confiables, objetivos y universales, La primera etapa de toda investigacién consiste en definir de modo Preciso las entidades sobre las que se van a observar ciertas ca- racteristicas. El conjunto de todas estas entidades se denomina poblacién 0 universo. Por ejemplo, supongamos que nosotros queremos estudiar la inteligencia de los nifios de 8 afios, Debe- mos definir con precisién nuestra poblacién, lo que podriamos hacer diciendo: “queremos estudiar la inteligencia de todos los nifios que concurren a las escuelas argentinas de 8 afios”. Es de- ir, esto nos dejaria afuera de la poblacién a los nifios de 8 afios que no concurren a la escuela, Podriamos limitar més la defini ci6n diciendo “ nifios de 8 afios que concurren a la escuela pibli- ca de Buenos Aires”, etc. En general cuando, como en este caso, el conjunto de entida- des 0 nifios para estudiar es muy numeroso, esto requiere una gran eantidad de dinero, tiempo y colaboradores, por lo que no se suelen estudiar las poblaciones completas definidas sino que se usan subgrupos o muestras. Los valores estadisticos que se obtienen estudiando poblacio- 143 [NURIA CORTADA DE KOHAN nes completas se Haman pardmetros como los que ya conoce: mos, media = p y desviacién estandard = . Los valores estadis cos que se obtienen de las muestras se llaman estadisticos, y esto se suele simbolizar con las correspondientes letras latinas, para media = X y para desviacién estandard La estadistica inferencial permite la estimacién confiable de los parémetros gracias al conocimiento de los estadisticos, y esto siempre que las muestras obtenidas sean representativas de la poblacién, Por esto, es muy importante para el disefio de una in- vestigacin conocer los procedimientos para obtener muestras validas de una poblacién. La teoria sobre las muestras también es ttil para poder deter- minar si las diferencias observadas entre dos muestras son real- mente debidas al azar 0 si son significativas, lo quo puedo llevar a tun proceso de toma de decisiones gracias a las pruebas de hip6- tesis y de significacién que se pueden hacer. Para que las con- clusiones que se obtienen a partir de las muestras sean validas, éstas deben ser representativas de Ia poblacién. Las ventajas de la utilizacién de las muestras son que la in formacién obtenida suele ser de mejor calidad que trabajando con grupos muy grandes. En primer lugar, se necesitan menos colaboradores y se pueden elegir de mejor nivel y que se encuen- tren motivados para obtener informacién fidedigna y confiable. AdemAs, el costo es menor y se obtiene una disminucién notable del tiempo necesario para una investigacién, E] relevamiento total de una poblacién se denomina censo y el trabajo sobre muestras muestreo. Las conclusiones obte das a partir de las muestras tienden a: 1) Probar hipétesis validas para la poblacién correspon- diente, conociendo la informacién de las muestras. 2) Estimar ciertas caracteristicas de la poblacién, 0 sea los 144 | | | Se ‘ISB BSTADISTICO PARA INVESTIGADORES EN CIENCIAS SOCIALES ¥ DEL COMPORTAMIENTO parémetros a través del conocimiento de las mismas caractoristi- cas en los valores de la muestra, que son los estadisticos, Por esto, toda teorfa de las muestras es una estadistica “infe- rencial’, pués se infieren a partir de los valores estadisticos ha- Mados en las muestras Jos valores paramétricos mas prabables ara las poblaciones de las cuales hemos extrafdo las muestras. La primera etapa en cualquier problema de muestreo reside en la definicién precisa de las entidades que componen el univer- so de las cuales so seleccionaré una pequefia cantidad que form: rd nuestra muestra. A veces no es facil contar con la informacién escrita que permite individualizar el universo, individuo por indi- vViduo y asf elegirlos de acuerdo a algdn método determinado, Esta informaci6n escrita sobre el universo puede ser de lo més variada en cuanto a su presentacién. En términos genera- les se llama el esquema y puede ser, por ejemplo, un listado de todos los alumnos de una escuela, un mapa, un registro de los obreros de una fabrica, un conjunto de tarjetas perforadas, ote. A veces no se puede obtener un listado de acuerdo a la variable que nos interesa estudiar. Por ejemplo, supongamos que nos in- teresa estudiar nivel educative de las personas y tenemos una lista de todas las personas que pertenecen a una organizacién, escuela, hospital, etc., pero no su nivel educacional. Pero sf sa- bomos dénde viven las personas; a través de su ubicacién por vi- vienda, podemos tener una idea de su nivel educacional y pode- mos hacer el disefio del muestreo de acuerdo a esta variable, ubicacién de la vivienda, que esta altamente correlacionada con nivel educacional. VIIL2 Seleccién de las muestras Podemos hablar en primer lugar de muestras “probabilisti- cas” y “no probabilisticas”. La diferencia es que en las primeras se puede conocer el error que se comete al estimar un pardmetro 145 [NURIA CORTAMA DB KOHAN a partir de un estadistico y en las segundas, no. Nosotros sélo nos referiremos a las primeras. Las muestras “no probabilisti- cas” solo suelen usarse como primera aproximacién en trabajos piloto, pero no puede saberse cudn confiables son sus resultados. Dentro de las muestras probabilfsticas hay varios tipos de los cuales vamos a considerar seis: 1) Muestras al azar simple. Se definen como aquellas en las que cada elemento de la poblacién tiene la misma probabili- dad de estar incluida en la muestra elegida y también toda com- binaci6n de elementos tiene 1a misma probabilidad. Por ejemplo, si tenemos un bolillero con cien bolillas numeradas del 1 al 100, la probabilidad de extraer al azar una bolilla cualquiera (por ejemplo 6) es igual para todas las bolillas (1/100). Esto quiere de- cir que !a probabilidad de extraer una bolilla es “independiente” de la probabitidad de extraer otra cualquiera y si se trata de una poblacién finita tenemos que realizar la reposicién; es decir, si ‘extraomos una bolilla para extraer la segunda bolilla, debemos colocar dentro del bolilléro la primera, si no, la probabilidad de la segunda bolilla no seria 1/100 sino /99. Una poblacién finita en la que se realiza el reemplazo para el muestreo puede conside- arse infinita. El reemplazo os mas importante hacerlo cuando mais pequefia es la diferencia entre el ntimero de casos de la po- blacién y el miimero de casos de la muestra. Por ejemplo en los dos casos siguientes A y B A B N=500 N =5000 n=300 ean 400 Pp 0,08 5000 300 400 a =0,601 Pp == 0,080016 499 4999 146 a _ isatio EstaDfsTICO PARA INVESTTOADORES BN CIENCIAS SOCIALES Y DEL COMPORTAMENTO Por los datos es facil comprender que més importante es ha- cer el reemplazo en el caso A que en el caso B. El procedimiento consiste en obtener un listado de todos los clementos de la poblacién y enumerarlos. Por ejemplo, suponga- mos que queremos saber “la talla de los alumnos varones que cursan estadistica para Psicologia on la U.B.A. en 1993”. Con es- ta explicacién definimos la poblacion. Numeraremos todos los jé- ‘Yenes varones que tengan boleta de inscripeién en la materia y obtenemos asi, por ejemplo, un listado de 600 varones. N=600 1. Juan Pérez 2. Luis Gonzales Bete, 600. Nicolas Paganini ‘Luego tendremos un bolillero con 600 bolillas Y supongamos que salen el 3, 61 42 y el 64 ati 2 ‘Talla — r 3 1,60 » 42 1,73 e 64 1,80 ee Cuando no tenemos bolillero, que es lo més usual, se usan las tablas de mimeros al azar, como las que presentamos en el Apéndice B. Como nuestro N = 600 tenemos que usar ntmeros de 8 cifras (tantas como tiene el mimero de la poblacién segin nuestra tabla el 1°, 2° y 8° serfan 517, 240 y 459, 2) Muestreo sistematico EL muestreo sistematico consiste en elegir los individuos de la 147 NURIA CORTADA DE KOHAM muestra a intervalos sistemsticos del listado, es decir intervalos igualos a partir de un primer caso elegido segtin el métado de los né- meros al azar. Para fijar el intervalo se divide el mimero de casos de a poblacién por el ntimero de elementos que se desea en la muestra. Por ejemplo si N= 1.600 y queremos una muestra de 80 se tomaré: N/n=1.600/80= 20, es decir, uno de cada veinte individuos de la poblacién, siendo el primer mémero entero entre 1 y 20 tomado al azar. Por ejemplo supongamos que sale el 12; el siguiente seré el 12 + 20 = 32, el si- guiento 32 + 20 = 52, etc. Este método es més conveniente que al azar simple cuando el listado es muy largo. Puede producir defor- maciones, si el listado presenta alguna tendencia, pero esto suele poder corregirse mezclando bien los individuos de la lista, 3) Muestreo estratificado al azar So usa.cuando se puede categorizar a Jas personas en 1 0 més variables. Por ejemplo, si queremos que los varones y las muje- res estén igualmente representados se hace un listado con muje- ‘res y con varones y en ambos estratos se elige 1a muestra al azar © sistematico. También si ya tenemos categorizados a los indivi- duos en 4 estratos sociales, tomamos de cada estrato una mues- tra. Esto siempre permite reducir el error aleatorio, 4) Muestreo estratificado proporcional Es igual que el anterior, pero el némero de casos de cada muestra en cada estrato es proporcional al tamatio del estrato en la poblacién. Por ejemplo, supongamos que tenem« ‘Varones universitarios Mujeres universi N= 2000 N=500 n= 200 n=50 Se han tomado en cada estrato una muestra al azar propor- cional del 10 %. 148 DISRRO ESMADISTICO PARA INVESTICADORES BN CIENCIAS SOCIALAS ¥ DEL COMPORTANIENTO 5) Muestreo estratificado no proporcional Cuando la dispersion de las variables dentro de cada estrato del universo es muy distinta, conviene tomar més casos en ol estrato con mayor dispersién, que sucle ser el mas pequefo, que en el estrato mds homogéneo, que suele ser el mayor. Por ejemplo, si tenemos estratificada la poblacién en clases sociales Y queremos hacer un estudio sobre educacién, Supongamos que los estratos son: N n % de poblacién: NR de poblacisn r 1000 100 10% 2 5000 300 6% s 20000 500 25% SSS 6) Muestreo por conglomerados Consiste en dividir la poblacién en grupos Mamados conglo- merados, Estos grupos se usan generalmente cuando hay que ha- cer trabajos que abarcan una superficie geogréfica muy amplia, por ejemplo, estudiar algtin aspecto de la poblacién de un pais, como si hay que comparar el nivel socioeconsmico en provincias Iejanas como Misiones, Mendoza, Cérdoba, Tierra del Fuego. Se trata de que dentro del conglomerado esté representada la mayor cantidad posible, por lo que en este tipo de muestreo suele haber mucho error, El objeto de este método consiste en dividir a la poblacién en sectores lamados conglomerados, cuya caracteristica fundamen- tal es que las cantidades sean lo més heterogéneas entre s{ den- tro de cada conglomerado y que los conglomerados sean lo més homogéneos posible, En el método de muestreo por conglomera- dos lo que se clige es una muestra de conglomerados, pero dentro de cada uno de los conglomerados elegidos se estudian u obser- van todas las entidades. Este método, si bien es menos eficiente 149 [NURIA CORDADA DE KDHAN por tener mucho mayor error que el muestreo por azar simple, tiene la ventaja de que aunque para ir de un conglomerado a otro sea una distancia muy lejana, como en dos provincias distintas, los entrevistados dentro del conglomerado estarsin muy cerca en- tre sf, por ejemplo todos los habitantes de un determinado barrio de la ciudad de Mendoza. VUIL8 Distribuciones muestrales ‘Ya hemos visto que las muestras se usan para poder inferir Jas caracteristicas que tiene una variable en la poblacién, Para poder inferir debemos conocer el comportamiento de los estadis- ticos de las diversas muestras respecto de los parémetros corres- pondientes de la poblacién. ‘Supongamos que tenemos una poblacién cuyas observaciones nos dan los siguientes valores: A=40 B=60 C=80 y D=100 Estas obsorvaciones tendrin un parémetro particular, la me- dia que vale Xp = 280/4 =70. De esta poblacion de N sacar muchas muestras, por ejemplo del tamaiio muestras? Sélo tenemos que caleular: 4x3x2x1 2xilx2x1 Por ejemplo, la muestra constitufda por: 40 + 60 2 DAyB 150 EEE eS eee ‘DISBRO ESTADISTICO PARA INVESTIGADORES BV CIENCIAS SOCIALES Y DBL COMPORIANAEINTO 40 DAyC oo 2 4 syayp = 40300 2 6 o apyc= 80+ 80 gag 2 60 + 100 i 5)ByD= =%=80 2 8 an @cyp= 204100 _ x 99 2 En A, B,C, D, teniamos una poblacin de observaciones indivi- duales cuya media era p = 70. Ahora, al obtener todas las muestras posibles de n = 2 de la misma poblacién tenemos una poblacién de medias de muestras 50, 60, 70, 70, 80, 90 y si sacamos de ellas la media de las medias X que es: 50 + 60 + 70 +70 + 80 4 90 = 4206 igual a la media de la poblacién original. 0, como vemos, resulta Como sabemos que Xp = 70, el conocimiento de las probabili- dades de todas las medias posibles de muestras Xm, nos permite relacionar el parémetro de la poblacién con los diversos estadisti- cos.de.la muestra y este modelo se denomina distribucién muestral: 151 [NURIA CORTADA DE KOHAN X PB 50 0,166 = U6 60 0,166 70 0,388 = 2/6 80 0,166 90 0,166 Cuando el N de la poblacién y el n de la muestra son peaue- ‘ios, la distribucién muestral no es normal pero se considera que cuando N = 100 yn > 30 ya la distribucién muestral acerca mucho a la normal, y cada vex mas, a medida que Ny n_ aumentan. VIIL4 Teorema central del limite Los estadisticos han demostrado que si tenemos una pobla- cin cuyas observaciones en cierta caracteristica se distribuyen normalmente con una p y una variancia 0” y si se extraen repeti- damente de esta poblacién muestras al azar de tamaiio n, Ia dis- tribucién muestral de las medias de muestras es una curva nor- mal cuya media es Xp y cuya variancia es: ¥, por lo tanto, la desviacién estandard, que en este caso se llama error estandard es PERSE See See eee ‘DISHNO RSTADISTICO PA INVESTICADORES BN CIENCIAS SOCIALES V DBL COMPORTAMITO Esto es Jo que se suele lamar eliioréina central del limite) Y que sefala que si se sacan repetidamente muestras de tamaivo n de una poblacion normal con media igual a p y variancia a °°, la distribucién muestral de las medias de muestras seré normal on ini media igual a py una variancia on. He TAM AK Cuanto mayor sea e] n de las muestras més leptociirtica serd Ja distribucién muestral, como se ve en la figura siguiente: Fig. VII 1 Distribuciones muestrales segin el n de casos de la muestra Se ve por tanto que la dispersién de la distribucion muestral ‘es menor que la dispersién de las observaciones originales y que cuanto mayor sea el tamagio de la muestra n, menor la dispersién de la distribucion muestral. Independientemente de la forma de la distribucién de Ia poblacién, a medida que n aumente, la dis- tribucién muestral sera normal. Si tenemos en la Xp de la pobla- cién como un valor exacto, real, las medias de las muestras pue- den considerarse como valores aproximados con un determinado “error estandard”, que es raiz cuadrada de la variancia. Por esto, a la desviaci6n estandard de la distribucién muestral se le llama “error estandard” y su férmula, como vimos, os : 153 [NURIA CORTADA DE KOWAN ‘VIIL.5 Prueba de la media Ahora podemos ir a lo que se lama la Prueba de la media. 1) Establecemos 1a hipétesis de que la media de la muestra pertenece a la poblacién. 2) Establecemos la hipétesis de nulidad, diciendo que la di- ferencia entre la X,, y X, es nula, es decir no es significativa para un determinado nivel de significacién (por ejemplo 1 % 6 5%). 3) Reducimos la diferencia X,, - X, a puntajes z X,-%, 5 ( =zempirico °) estimado 4) Buscamos en la tabla de dreas de la curva normal el valor de z que corresponde al nivel de significaién elegido. 5) Comparamos el z del nivel de significacién. elegido con el z empfrico hallado por la formula. Siz > 2, no rechazamos la hip6- tesis de nulidad y decimos que las diferencias entre X,, y X, no son significativas. Siz < 2, rechazamos la H, y podemos suponer que la X,, no pertenece a la poblacion dada. Por ejemplo, supongamos que tenemos una muestra cuya X,, = 30; n =100, Si sabemos que la X, = 82 y la o,= 6 el 2, sora: 154 BRS eee eS eS ee eee eee eee {ISERO BSTADISTICO PARA IVVESTIGADORES BN CIRNGIAS SOCIALES ¥ Dit COMMPORTANAENTO 30-32 6 \{100 Si nuestro nivel de significacién era 0,01, en Ja tabla de las ‘éreas vemos que para 0,01, z = 2,58. Como en nuestro caso 2 < 24, (2,58 < 3,83) rechazamos H, y decimos que la muestra no porte. nece a la poblacién con un riesgo de equivocamnos sélo en el 1% de los casos, Vease figura VIIL2 Figura VIIL2 Buscamos en la tabla de las dreas: 0,500 0,005 0,495 —> 2,58 =2 155 [NURIA CORTADA De KORA ‘VIIL6 Intervalos de confianza para las medias de muestras grandes Hasta ahora consideramos la media y la desviacién estan- dard de I distribucién muestral de medias cuando los pardme- tros de la poblacién se conoeian. Pero en la mayoria de las situa- ciones reales los parémetros no se conocen y tenemos que hacer la inferencia para los valores de la poblacién a partir tnicamente de los datos de la muestra. Asf, si conocemos la X de una mues- tra gqué juicios podemos establecer sobre la u de la poblacién que nos es desconocida? Para poder estimar la media de la poblacién (u) debemos es- pecificar un intervalo dentro del cual podamos afirmar, con cierto grado de confianza conocido, que est la media de la poblacién. Asi supongamos, que para una muestra de n = 100 casos la media sea de 20 puntos. Como no tenemos la ¢ de la poblacién usamos, para estimar el “error estandard” de la distribucién anuestral, la s de la muestra que es s = 5. Entonces tenemos: a,= s/ Nn 5/N 100 = 5/10 = 0,5 Ahora tenemos todos los datos: X=20 n= 100 5 06 y podemos establecer un intervalo de confianza que sea 95% y establecer los limites de confianza entré Ios cuales colocamos a la X, dado que sabemos que la distribucién muestral de medias es nor- mal. Gréficamente vemos que si el intervalo es 95%, quedan fuera de ese limite el 2,5 superior y el 2,5 inferior. (Véase Figura VIIL3). 156 CE EEESSS:'S'S:ZD"9~ ON PISENO ESTADIMTICO PARA INVESTIGADORES BY CIRNCIAS SOCIALES Y NEL COMPORTARTO Fig. VIIL3 Distribucién muestral de medias de muestras p= 0,025, Buscando en Ja tabla de las dreas 0,500 ~ 0,025 = 0,475; a es- te valor corresponde una z de 1.96. Entonces podemos ver que la X,, con una certeza del 95%, es- tard entre los limites de X +z. Oy 8 Vr X, =X, £1,96x0,5 = X, =X, £196 | =2040,98 sea que la X, estard entre: 19,01 y 20,98 ‘Si queremos establecer limites mas exactos podemos fijar, por "7 \NURIA CORTADA DE Kowa ejemplo, el 99%. Entonces, buscando en la tabla 0,500 — 0,005 = 0,495 tenemos una z de 2,58 y la media estar entre: 20+ 1,29 0 sea, entre 18,71 y 21,29 Estos valores de z se usan convencionalmente siempre que una muestra se considera grande o sea mayor de n = 30 VIIL7 Estimaciones parciales y no parcialcs (bia- sed) ) Un estadistico muestral se dice que no es sesgado o parcial “cuando la media de una gran cantidad de valores muestrales ob- tenidos por muestreo repetido, se acerca al valor de la poblacién sea al parémetro. Ya vimos que el valor estadistico de la media de la distribucion muestral es igual a la media de la poblacién, es decir no tiene parcialidad o sesgo, o sea, tendencia a ser menos 0 més que la media de la poblaeién, por lo que : x En cambio el valor de la variancia de una muestra calculada segtin la formula comin, Ta-KF n es una estimacién parcial o sesgada de la variancia de la pobla- cién, Cuando el n de casos de la muestra es chico hay que corre- 158 cr DISRIO BSTADISTICO PARA INVESTIGADORES SN CLENCIAS SCCLALES Y DEL COMPOREAMAETO Bir este sesgo que puede ser muy grande lo que se hace divi- diendo por n -1 y por lo tanto el error estandard de la distribu- cién muestral también debe corregirse y poner: Esto nos dara una estimacién imparcial de la o de la poblacién. VIIL8 Grados de libertad | El uso de (n -1) en vez de n para obtener una estimacién no sesgada, implica el concepto de grados de libertad. Si n es el numero de observaciones de la muestra (n - 1) es el numero de grados de libertad, es decir la cantidad, de valores de la variable que tenemos libertad para cambiar. Supongamos que tenemos 5 medidas: 10, 14, 6, 5, 5. Su media 8 8 luego, los desvios respecto de la media de estos valores son +2, +6, -2,-3y -8. La suma de los desvios respeeto a la media, es 0. En consecuencia si se conocen 4 cualesquiera de estos desvios, el desvio restante esta determinado. Asi, 4 de los desvios pueden variar independientemente y por esto sus grados de libertad son n-1=4, Para grados de libertad debe usarse el simbolo gl o df o la le- tra griega v (nu). El concepto de grados de libertad es simple. E] mimero de grados de libertad es siempre el ntimero de valores que puede va- iar dadas la cantidad de restrieciones impuestas on los datos. Asi, un punto en un plano tiene libertad de movimiento en 2 dimensiones y tiene 2 grados de libertad. Un punto en el espacio de tres dimensiones, tiene 3 grados de libertad. 159, [NURIA CORTADA DE KORA VIIL9 Distribuciones de la t de Student Recordemos que cuando estudiamos la distribucitin normal vimos que era posible el pasaje de una distribucién real a la dis tribucién normal expresada en términos de desvfo reducido 2, de manera que un valor cualquiera de la variable tenfa un valor de- terminado en desvio reducido 0 z, o bien: Cuando se quieren conocer los desvios reducidos de los valores de variables que se distribuyen normalmente, on el caso que no se conoce el desvfo estandard de la poblacién de promedios pero si el error estandard de la distribucién muestral, en este caso, co- nocemos la desviacién estandard de la muestra y hacemos el su- puesto de que'es la mejor estimacién posible de la desviacién es- tandard de la poblacién. Entonces obtendremos los valores t de Student, (Student es el pseudénimo que utiliz6 un investigador inglés llamado Gosset, que elabord el modelo de la “curva de t” en 1908 y que era disefpulo del famoso estadistico Fisher y por e3- to firmé su obra como “Student” en honor a Fisher). 160 SS rrr PISBNO BStADISTICO PARA INVESTIGADORSS BN CIRNCLAS SOCIALES ¥ DEL COMPORTAMIEYTO La distribucién de la “t de Student” os el tercer modelo de dis- tribucion que estudiamos, es una distribucién més chata, mas aplanada que la distribucién normal, mas platicirtica, y es- to dependerd del tamaiio de la muestra; sin es muy pequetia Ja distribucion de t seré muy chata. Por tanto, hay una distribucién de € para cada tamasio de muestra. Para usar la distribuciin de t debe suponerse siempre que la distribucica de la poblacién es normal, especialmente si n es muy pequefio, En los problemas, la distribucién de t se usa igual que la distribucion normal. Asi sabemos, por las tablas, que en la dis- tribucién normal el area central de 95% bajo la curva cae entre * 1,962 y que el 99% bajo la curva cac entre + 2,58 de z. En la distribucién de t estos valores son distintos y han sido calculados Para los distintos grados de libertad, como se puede ver en la ‘Ta- bla correspondiente del Apéndice B. ‘Veamos con un ejemplo cémo procedemos. Supongamos un ea- so con: n= 16, X=24, s =8. Los grados de libertad son n — 1 =15; tendremos que la verdadera media, con una probabilidad del 95 % estard entre 24 42,13x he-1 8 osea 24 %2,13 x ——_ 3.87 osea 24t4ar sea, entre 28,41 y 19,58 161 NURIA CORTADA DE KOHAN Para una probabilidad de certeza del 99 % (0 sea un riesgo del 1 %) seria: osea entre 30,11 y 17,89 ‘VIIL.10 Estimacién de la media de la poblacién. Si tenemos la X de una muestra y queremos estimar.a partir de ella la media pardmetro (p), usamos el error estandard de la media, nos fijamos un nivel de significacién 0 sea un riesgo méxi- mo en Ja estimacién y utilizamos la siguiente formula: 400 = 100 £2,58x 0,5 = 100 £1,29 162 ‘DISENO BSTADISTICO PARA INVESTIGADORES BN CIENCIAS SOCIALES YDB. COMPORRAMURNTO ‘© sea que la media de Ja poblacién esta entre 101,29 y 98,71, con un riesgo de error sélo del 1 %, es decir, un 0,5 de las veces corre- mos el riesgo de que sca mayor de 101,29 y un 0,5% de las veces que sea un valor menor de 98.71. VHIL11 Prueba de la diferencia entre medias Para realizar esta prueba debemos suponer que las observa- ciones de las muestras provienen de pablaciones que se distribu- yen normalmente.Como siempre nos vamos a apoyar en una dis- tribueién muestral, que en este caso sera la de todas las diferen- cias de pares de medias de muestra perteneeientes a una misma poblacién. (= media muestra 1 = desviacin estandard de la muestra 1 X,=media muestra2 _s; = desviacién estandard de la muestra 2 n, ~ 1 = grados de libertad de muestra 1 ny—1 = grados de libertad de muestra 2 La distribucién muestral de diferencias de medias de muestras tomadas al azar de una poblacién normal, es normal y tiene una media = X Dif, = 0.y una desviacidn estandard que llamamos “error estandard de la distribucién de diferencias de medias” que es pic La distribucion seria algo asi. (Ver Figura VIIL4) 163, ‘NURIA CORTADA DE ROHAN Fig. VIIL4 Distribucién muestral de diferencias de medias de muestras | Conocida la distribucién, podemos poner un ejemplo, Supon- | /gamos que tenemos 2 muestras de dirigentes politicos de 2 parti- |dos, y queremos establecer si hay diferencias entre las edades | |promedio de sus dirigentes. 1-mestra de dirigentes de UCR 2— muestra de dirigentes del peronismo = 55 afios y= 44 afios =6 8 =10 ny n=6 164 Wiican DISniiO BSTADISTICO PARA IWVESTIGADORES BN CLENCIAS SOCLALES Y DSL COMPORTAMIEHTO ‘Los pasos de la prueba de diferencia de medias son los si- guientes 1) Establecer la Hipétesis de nulidad, es decir decimos que la diferencia entre las 2 medias se debe al azar con un riesgo de 1%, 2) Buscalmos el error estandard de la distribueién de diferen- cias de medias de muestras, e Snes a1 ny = \[5,14 + 16,60 = [21,74 Spicx= NI2174 = 4,65 3) Convertimos la diferencia X, - X, a puntaje t, = t empfrica El valor tedrico do t para los grados de libertad es, en este caso, 165 [NURIA CORTADA DE KOHAN g.1=(@,-D+iy-=7+5=0 y la t te6rica segiin la tabla del Apéndice B que tenemos, y para un riesgo del 1 %, es 3,05. Como t, < t, porque 2,36 < 3,05, decimos que la diferencia en- tre las medias de las muestras no es significativa, no podemos rechazar la H,, en consecuencia la diferencia de 11 afios que apare- ce en las muestras es debida al azar del muestreo y no se puede suponer que pertenezcan a dos poblaciones distintas. VIIL11 Prueba de la proporcién Cuando tenemos escalas nominales como la divisién de sexos. ocupaciones, ete. y tenemos 2 categorias podemos hallar el valor dep, el valor deqy den. Por ejemplo, supongamos que hacemos un estudio en Ia Ar- gentina y hallamos que entre 249 empresarios, 88 cursaron estu- dios superiores 0 sea, p = 88/249 =35 %, 0 sea que q=1-p=65% Se trata de ver si esta proporeién, 35 %, difiere de la propor- cién hallada para el mismo problema on los Estados Unidos do Norteamérica que tienen una p = 67 % para el mismo proceso. La distribucién muestral de proporciones es una curva nor- mal cuya media = Proporcién en la poblacién y el error estandard ‘La prueba de la proporcién consiste en comparar el z empiri- 166 SS OO SSS DISBNO RSTADISTICO Paka INVESTTGADORES BN CIENCIAS SOCHALRS ¥ DEL COMFORTAMIEWTO co que se halle, reas con un riesgo, por ejemplo, de 1 % o del 5 %. Para nuestro caso tenemos como p y q de la poblacién los va- lores hallados en USA y en Argentina, o sea 67 % y 35% respecti- vamente, y en el de nuestra muestra. ft 7 = BH - 87% 32 V 67.33 \ [_2ur 29 4g 32, 32 = = = 10,77 N87 2,97 Como 2 para 5% = 1,96 %>Zya que 10,77 > 1,96, Por lo que rechazamos la hipétesis nula y decimos que la mues- tra es evidentemente diferente de la poblacion usada (la pobla. cién de USA en este caso), VIII. 12 Prueba de diferencias entre proporciones Si queremos saber si las proporciones de un fenémeno cual- quiera son diferentes en dos muestras distintas, usamos la dis- 167 con el z de la tabla de la distribucién normal de [NURIA CORTADA DE KOHAN tribucién muestral de diferencias de pares de proporciones de muestreo pertenecientes a una misma poblacién. Esta distribu- cién se puede demostrar que es normal y tiene las siguientes ca- racteristicas: La media de la diferencia de proporciones es igual a 0. D, y el error estandard de la distirbucién muestral de diferencias de proporciones o porcentajes: Supongamos que tenemos dos muostras, 1 y 2; en ellas quore- mos comparar el porcentaje de sujetos que se dedican a ocupacio- nes manuales. Muestra 1 Muestra 2 (aldea) (gran ciudad) n=73 n=78 p= 65% p=60% a=35 % q=40% Las etapas del planteo son las siguientes: 1) Establecemos la hipétesis de nulidad diciendo que la dife- rencia entre los 2 porcentajes se deben al azar de muestreo con 168 ESS DISKO RSTADISTICO PARA IYVESTIGADORES Bi CTRNCIAS SOCLALES ¥ DEL COMPORTAMIENTO uun nivel de significacién del 5 % (z = 1,96). 2) Caleulamos el error estandard “de la distribucién mu: de diferencia de proporciones” ee ania 65 x 35 60 x 40 3 78 eee ee tH 2275 2400 Shae N\ 81,16 +30,76 = 73 78 8) Hallamos la z empirica P,-P,._ 65-60 Soe 787 4) Comparamos la z empfrica con la z tebtica establecida por el nivel de significacién, En este caso 2, < x tedrica 0,64 < 1.96 Por lo que no rechazamos la hipétesis de nulidad y decimos que la diferencia entre las proporciones de las muestras no son significativas y que, por lo tanto, las dos muestras podrian perte- necer a la misma poblacién y que la diferencia hallada entre el NURIA CORTADA DB KOHN 65,% y 60 % podria haberse debido al azar del muestreo. Ejercicios 1) Si para una muestra de 12 observaciones se utiliza para la significacién los valores de z en vez de los de t {Los valores de son mayores 0 menores que los de 2? 2) En una cierta zona, antes de realizar una campafia publici- taria, el 20 % consumfa el producto “A” sobre una muestra de 1500 familias; Iuego de realizada la campajia publicitaria se ‘comprueba que en una muestra de 500 familias el 25 % consume el producto “A”, Con un nivel de significacién del 5 % {puede de- cirse que la campafia ha sido efectiva? @Es la diferencia en el consumo de A significativa? 3) Se toma una prueba de inteligencia con un mismo tost a dos grupos de personas y se obtienen los siguientes resultados: Grupo 1 N,=10 Grupo 2 K-34 % Ni=8 {Puede decirse con un nivel de significacién del 1 % que la in- teligencia del grupo 1 es mds elevada que la del grupo 2? 4) Una poblacién tiene los valores de los cuatro mimeros si- guientes: 3, 7, 11, 15. Considere todas las muestras posibles de n = 2 que pueden extraerse de esta poblacién con reemplazo. Luego halle: a) media de la poblacién, b) la desviacién estandard de la poblacién, ¢) la media de la distribucién muestral de medias, d) la desviacién estandard de la distribucién muestral de las medias. 170 fe ete eee EEE ESSSSSSSSS ‘LISENO BSTADISITCO PAza INVESTIGADORES BN CIANCIAS SOCTALRS ¥ DSL COMPORTAMIEHTO 5) Los paquetes que se reciben en una ti 5) reciben ienda tienen una media de 300 kilos y una desviacién estandard de 50 kilogra- mos, {Cudl es la probabilidad de que 25 paquetes Ilegados al azar y que entran en el ascensor de la tienda puedan exceder el limite determinado de seguridad del reais Bt lel ascensor que es de 8200 6) Halle la probabilidad de que los préximos 200 nifios que nazean Sean: a) menos del 40 % varones, b) entre 43 y 57 % sean nitias yc) mas del 54 % sean varones. Suponga que Ia probabili- dad de nacer varén y mujer sea igual. 7) Indique, consullando te tabla de las éreas ) lc las areas y los 2 corres: Pondientes a los siguientes niveles de confiabilidad: a) 99 %e b) 98 %, ©) 96 %, d) 95 %, e) 90%, f) 80 % y h) 50 %. ; Bibliografia 1 BLALOCK IL, Socal Statistios, WY. Me Gram 2) COCHRAN, WG. Sampling Techniques, NY Jha le 1963 8) KISH, Selection ofthe Sample en Fetings. 9 Katy Doo Research Methods inthe Behavioral Sciences, NY The Devden Pe ee ie: ea oan icos para investigadores, Madrid, “Agu lar, 1949 1, Ms. 1, WS: v, le Sui ot . SEN A HUI WADOW,W Sample Survey Method sad 6) Mc NEMAR, Q: Psychological Statistics, N.Y. John ‘Wiley, 1962 CE SSSESSS"_' IIS ‘ISRSO BSTADISTICO PARA INVESTIGADORES BN CYENCIAS SOCLALES Y DEL COMPORTAMTENTO CAPITULO Ix Introduccién a la teoria de la decisi6n Lo que harcmos ahora es estudiar mas a fondo algunos de los femas que ya hemos utilizado empiricamente, La terminologia cldsica en estadistica era la de pruebas de hipstosis o significa, ci6n; pero modernamente se ha ampliado el concepto cambidndo. ‘Se un poco el enfoque al hablar de ‘Teoria de deeisién, Cuando se habla de pruebas de significacisn, el punto do vis- ta subyacente es tener una hipétesis de lo que sueede en una po- blacisn. Por ejemplo, Ia hipotesie puede ser que cuando atroja. mos una poblacién de monedas al aire la proporeién en que se Presentard cara serd 1/2. El problema consiste en saber si los re- sultados son coherentes con esta hipétesis. Los resultados se con. sideran consistentes con la hipétesis de nulidad (H,) si se man. tienen dentro de los Iiinites de Variacién razonables, es decir, que las diserepancias observadas se prosentan con una probabilidad no mayor que la predeterminada ‘arbitrariaménte, por ejemplo del 1% 0 del 5 %. Esto punto de vista tiene la desventaja de que @ menudo las hipétesis que verificamos pueden no ser exacta mente verdaderas. Por ejemplo, ninguna moneda concreta tiene i la probabilidad exacta de salir cara en una proporceién 1/2 al arrojarla un gran mimero de veces. La verdadera probabilidad serd algo distinta aunque difiera en el valor de 1/2 tan solo por 1/1.000.000 = 0,000.001. Esto nos leva a pensar si estas diferencias tienen o no valor en la préctica. Por ejemplo, en ciertos casos, esta diferencia de NURIA CORTADA DB KOHAN proporcién minima puede condueir a un envenenamiento. Ast, el enfoque se desplaza hacia las decisiones. Por ejemplo, ghabria si- do igualmente apropiada la decisién sobre 1a aceién préctica si la moneda resulta cara en el 0,50001 de los casos que si resulta 0,50007. :Vale la pena el asunto para que paguemos el precio de recabar los datos necesarios para poder decidir qué accién to- mar? Lo que debemos equilibrar son los costos de los distintos grados de error que cometemos, frente a los costos de reducir el riesgo de error que supone recolectar mas datos. Por esto algu- nos autores como Wallis y Roberts definen a la estadistica como “un conjunto de métodos para tomar decisiones inteligentes fren- te ala incertidumbre”. En las ciencias sociales y de la conducta realizamos investi- gaciones para determinar la aceptabilidad de las hipétesis que derivamos de nuestra teorfa sobre la conducta. Después de seleccionar ciertas hipétesis que consideramos importantes para una teoria determinada, recolectamos los datos empiricos que han de aportar informacion directa para la acepta- cin de dicha hipstesis. Nuestras decisiones sobre el significado de los datos pueden conducirnos a rotener, revisar 0 rechazar la hip6tesis y la teorfa de la cual emanaba. Para alcanzar una decisién objetiva sobre la confirmacién de una hipétesis dada mediante la informacién que nos dan los da- tos concretos necesitamos un procedimiento objetivo para poder rechazar o aceptar tal hipétesis. Se pone el acento en Ia objetivi- dad, porque uno de los requisitos del método cientifico es alcan- zar conelusiones que sean universales y, por tanto, que puedan ser repetidas por otros investigadores. El procedimiento requerido generalmente implica varios pa- ‘808 que explicaremos con mayor detalle a continuacién: 1) Formular la “hipétesis de nulidad” 2) Elegir la “prueba estadistica correspondiente” para verifi- 174 DISERO RSTADISTICO FARA INVESTIGADORRS BN CIENCIAS SOCIALES Y DEL COMFOREAMIBNTO car la H, (va hemos visto algunas, como las pruebas de la media, Tade diferencias de medias de mnestras, la de proporciones, etc. 8) Determinar: a) el nivel de significacién (0). b) los “tipos de error,” ©) el “tamafio de la muestra” (n), 4) la “curva operativa caracteristica” y ©) “poder de eficacia”, 4) Hallar la “distribucién muestral” de Ja prueba estadisit- ca para Hy. 5) Sobre la base de los puntos 2), 3)y 4) definir la “zona de re- chazo” 6) Establecor la decisién. Calcular el valor de la prueba esta- distica ufilizando los datos de la muestra. Si este valor esta den- {ro de la “zona de rechazo” la decisién consiste en rechazar la H,: si el valor eae fuera de la zona de rechazo la decisi6n seré que la H, no puede rechazarse para el nivel de significacién elegido. IX1 Hipétesis nula La hipstesis de nulidad postula que no existen diferencias. Se formula con el propésito expreso de rechazarla. Si se puede re- chazar la H, puede aceptarse la Hipétesis alternativa (Hl). La hipétesis alternativa es la formulacién operativa de la “hipstesis do investigacién” del investigador. La “hipétesis de investigacién” es la prediccién que se deriva de la teoria que estamos tratando de verificar. Se considera que la hipétesos nula es aquella que es més pre- cisa, La hipétesis alternativa esta definida con menos exactitud. Con un ejemplo entenderemos mejor esto. Supongamos que una teoria psiquidtrica nos lleva a pronosticar que un determina- [NURIA CORTADA DR ROHAN do tratamiento psicoterapéutico mejora la condicién de ciertos enfermos. Es decir que dos grupos de enfermos mentales diferi- ran en su mejorfa por el uso 0 no de dicho tratamiento. Esta pre- diccién es nuestra hip6tesis de investigacién que hecha en su for- ma operativa, serd la hipétesis alternativa. H, diria, por ejemplo, ‘que fi; # tt es decir, que la media de los sfntomas de la enferme- dad que presentan los enfermos tratados con la nueva psicotera- pia es distinta a la media de los sintomas que presentan los en- fermos no tratados con la psitoterapia. La H, diria que p = ms es decir, que la media de sfntomas de uno y otro grupo son iguales. Si los datos nos permiten rechazar H, entonces H, puede ser aceptada. Bl tipo de hipétesis de investigacién determina la for- mulacién de Hy, Ast, esta pueda formularse 1 [ly Hy> He Hh < ly La hipétesis nula nunca se acepta, siempre es rechazada.o no rechazada TX.2. Seleccién de la prueba estadistica Existen muchas pruebas, la prueba de la media, de la dife- rencia entre medias de muestras, de proporciones, ote. Uds. ya conocen algunas. Su eleceién depende de la hipétesis alternati- va que se formule, niimero de casos usados, nivel de medicién utilizado, ete 1X3, Nivel de significacién Cuando se ha formulado la hipétesis alternativa y la hipéte- sis nula y se ha elegido la prueba estadistica més conveniente, se debe especificar el nivel de significacién, que se suele simbolizar con la letra griega o (alfa). « indica la probabilidad de que rechacemos H, siendo ésta cierta, Es decir, si la probabilidad de ocurrencia de un valor par- ticular obtenido en una prueba estadfstica es igual 0 menor que 176 DISRNO RSTADISTICO PARA INVESTTAADORES EN CIENCIAS SOCIALES ¥ DEL COMPORTANLBNTO ©, rechazamos H, y aceptamos la hipétesis alternativa. Al probar una hip6tesis, la mayor probabilidad que estamos dispuestos a arriesgarnos de cometer un error, es el nivel de significacién que usamos. Este suele ser usualmente del 5%, 1% 0 el be. En la teoria de la decisién moderna se suele utilizar lo que se lama el prineipio de “minimax” es decir, minimizar la maxima pérdida, pero generalmente son procedimientos poco practicos. El nivel de a debe determinarse por la estimacién de la im- Portancia del significado préctico. Para un estudio sobre los efec- tos de una droga en el sistema nervioso se usaré un ct muy fino, un riesgo de solo 0,0001 de produeir intoxicacién, Si usamos una prueba estadistica cuya distribucién muestral es normal ya sabemos que, por ejemplo, un nivel « de significa- ci6n del 5 % seria algo como lo que podemos ver en la figura IK.1, Figura IX1 ‘Nivel de confiabitidad 1X.4.Tipos de error. ‘Supongamos que en una prueba establecemos el nivel de sig- 7 EE EEEEEEESS?”=CO nificacién de 5 %, éste es el riesgo de error, pues aunque la H, opere, existe una probabilidad del 5% de que la rechacemos inde- bidamente. Este tipo de error es el “error tipo I°,)Es el error que se comete al rechazar H., cuando sta 08 cierta. Pero, ade- més, hay otro error, el “error tipo II”, que consiste en no rechazar la H,, cuando en realidad és falsa. La probabilidad del er! simboliza por la letra alfa (o:) y la probabilidad del error simboliza con le letra griega beta (B). cE Generalmenie se especifican de antemano o y n (aimero de casos de la muestra) pues existe una relacién: cuanto mayor es n, menor ser4 el error tanto de ot como de B. Para entender los dos tipos de error supongamos que en un hospital psiquidtrico se quiere decidir si conviene 0 no adoptar un nuevo sistema psicoterdpico para una cierta clase de enfer- mos. En el hospital podrian hacer Ia siguiente experiencia: sepa- rar a los pacientes al azar en dos grupos, uno el grupo “control” tratados con la psicoterapia clasica y otro grupo en que se les trataria a los enfermos segiin la nueva psicoterapia. Luego de un tiempo se compararfa la proporcién de enfermos curados en cada grupo. Supongamos que sabemos que los pacientes tratados se- gtin el viejo método se curan en el 50% de los casos. Si con el nuevo tratamiento se eleva la proporcién de curados, entonces se adopta el tratamiento y, si no, debe rechazarse. Las posibilidades para una decisién correcta o incorrecta es- tn en el siguiente esquema: Ise Realidad (desconocida) ‘Viejo método mejor Nuevo método mejor Retener el viejo método Decisi6n correcta [Error tipo II (B) Adoptar el nuevo método Error tipo I (a) Decision correcta 178, IOS <\ ISB ESTADISTICO AltA INYESTIGADORES BN CIENCIAS SOCIALES Y DL COMFORZANUENYTO Ahora veamos graficamente cudl es el error o y cual es el error B para un caso més simple. Supongamos que en una mone- da perfecta la probabilidad de cara P =es 1/2, la de cruz q = 1/2. Supongamos que tiramas al aire 100 veces la moneda. Si esta es perfecta, su media = Np = 100 x 0,5 = 50. Es decir, sera 50 veces cara y su desviacién estandard \[npg = \[100 x 0,5 0,5 =\I25 = 5, Si queremos fijar un a del 5% es decir una z = 1.96 diremos que la moneda es correcta si sale cara una cantidad entre los If. mites 50 + 1.96 x 5 = 50 +9,8, es decir , entre 59,8 y 40,2, veces cara Ahora bien, supongamos que la moneda no sea correcta, es decir, sea falsa, y que su p= 0,7 y q= 0,8. Entonces n x p = 0,7 x 100 = 70 yo=\100«0,7x03=\a1= Los limites de o, en este caso, sersin 70 + 1,96x 4,58 = 70+ 8,97, 80a, entre 78,9 y 61.03 Graficamente esto podria representarse como en Ja figura IX.2. 58, Figura IX.2 45 5055 6) 65 70 ae BO 179 [NURIA CORTADA DE-KOHAN Para calcular este Area de B pensemos que 59,8 en unidades estandard es: 598-70 -10,2 4,58 4,58 40,2 —70 29,8 Pepe 50 458 4,58 = serd bajo la curva normal entre: 2=-650 y 2,22 entre =O Y p=2=2,22 = 0,4868 0,5000 - 0,4868 = 0,0132 Asi podemos decir que la probabilidad de aceptar la hipétesis de que una moneda sea correcta cuando en realidad es falsa, con p= 0,7, es de 0,0132. IX.5 Curva operativa caracteristica Los errores tipo f pueden calcularse para diversas alternati- vas y con aquollos valores dibujar una curva que se lama curva operativa caracteristica. Por ejemplo, para un o = al 5% y un N = 100, podemos calcular en el caso de la moneda, con los dis- tintos valores de p, 0 sea, la probabilidad de cara en la abscisa, los distintos valores de § on la ordenada y tendriamos algo como Jo representado on la Figura IX.3. 180 EE SEEESSSSOT CSS DISBNo ESTADISTICO PARA INVESTICADORES BN CIENCIAS SOCIALES ¥ Di. COMPORTAMIENTO Fig. 1X3 | | oe oa 01 02°03 04 08 06 G7 08 09 1 ere AB se le lama también la funcién operativa caracteristica. IX. 6 Determinacién del tamaiio de la muestra Supongamos que deseamos ponernos en guardia de no recha- zar la hipétesis de nulidad w= a, cuando en realidad tiene otro valor b. Entonces consideremos un riesgo especifico de B. Adop- tamos un nivel de significacién « y podemos despejar el valor n necesario, Supongamos que un gran grupo de estudiantes ha hecho un teat y deseamos estimar p tomando una muestra al azar: Supongamos que: p=70 o=18 [NURIA CORTADA DE KOHAY Supongamos que tomamos de esta poblacién N una muestra n= 36 R= 65 Cuandon —> NlaX 5p Sabemos que p = 70, X = 65 Elerror del estimador es X ~ 1 = 65 ~ 70 = 18 Na N36 Como la distribucién es normal, el 4rea de la parte sombrea- da dela Figura IX.4 se halla calculando: E-p 65-70 FigIXA 485% i 0 182 DISiH0 ESTADISTICO PARA INVESTIGADORES BN CIENCIAS SOCIALES ¥ DEL COMPORTANIENTO y como segiin las tablas del Apéndice B - 1,66 = 0,4515 0,5000 - 0,4515 = 0,0485 o sea, el 4,85 por ciento, 0 por lo que potlemos decir que habria 4,85 ve- ces en 100 de que la X esté 5 puntos o més, por debajo de la media de la poblacidn e igualmente 4,85 veces en 100 de que la media esté 5 puntos por arriba de la media de la poblacién, es decir, que hay 9,7 veces en 100 que el error sea igual 0 mayor que 5 puntos cuando n = 36, Sabemos entonces que cuando n = 36 el error era de 5 puntos y el riesgo de cometer un error de 5 puntos era 9,7/100 ,Qué pasa an el riesgo cuando n aumonta? Infuitivamente nos damos cuenta de que el riesgo debe ser menor, Aumentemos ¢l tamaiio an = 1. Una proporcién 0 area correspondiente a 2,5 es: 0,5000 ~ 0,4938 = 0,0062 osea 0,62 por cien, de cada lado = 1,24% en total Vemos que cuando se pasa de 36 a 81 casos, el riesgo de co- meter un error de 5 puntos en la estimacién de la media dismi- 183 [NURIA CORTADA DE ROHAN nuye de 9,7% a 1,24%. ‘Supongamos que nosotros fijamos el error de estimacién (e) y el riesgo. Supongamos que queremos un tamaiio de la muestra n que nos pemita un error no mayor de 3 puntos con un riesgo del 5%, 0 sea, Io que hemos graficado en la Figura IX.5. Figix.5 La z correspondiente a este riesgo ya sabemos que es 1.96. Asi, recordando que o = 18 tenemos: 1,96 pues si 184 OES SST ISEAO ESTADISTICO PARA INVESTIGADORES BN CIENCIAS SOCIALES ¥ DEL COMFORTAMIWTO tenemos que sea, 1,96" x 18" 32 244, Or x1s' _ 384x924 | 124416 a # 9 set Sin necesidad de hacer tantas cuentas, algunos libros traen laminas de dbacos o gréficos para distintos niveles de a y para Jas pruebas de la normal, t, de z* y con zonas de rechazo bilatera- les 0 unilaterales (lo que los ingleses Haman one tailed or two tailed test). IX.7, Poder de eficiencia de una prueba estadistica Recordemos en primer lugar que : © = Ia probabilidad de rechazar la hipétesis nula (H,) cuando en realidad es cierta B = la probabilidad de no rechazar la hipétesis nula cuando en realidad es falsa. Entonces, el poder de eficiencia de una prueba es Ia probabili- dad de rechazar H, cuando en realidad es falsa, es decir, qué se define como 1—probabilidad del error II, es decir. que: poder de eficiencia = 1- Este poder aumenta cuando crece el n al que se aplica. La curva que resulta de graficar para un ejemplo la funcion de po- der de eficiencia, 1 ~ B es exactamente inversa a la correspon- diente curva operativa caracteristica. 185 [NURIA CORTADA DE KoHANY IX. 8 Distribucién muestral de la prueba estadistica Cuando un investigador ha elegido la prueba ostadistica, ne- cesita saber cual es la distribucién muestral de dicha prueba.La ‘distribucién ‘muestra! es una distribucién teérica; esta distribu- cidn la obtendrfamos si sacdramos al azar todas las muestras Po ibles del mismo tamafio de una poblacicn, La distribucién mues- tral es la distribueién “bajo la H,” de todos los valores posibles ue un estadfstico (digamos, por ejemplo, la media) puede tomar cuando se caleula el estadistico en muestras del mismo. tamafo tomadas al azar. Nos indica las distintas probabilidades asociadas con la ocu- rrencia bajo la H,. Esto quiere decir que nos referimos, no a la Probabilidad de un valor particular, sino a la probabilidad de to- dos los valores ms extremos que aquél, es decir al valor de un area por debajo de un punto eritico, Supongamos que queremos saber cudl es la probabilidad de obtener 3 caras tirando 3 monedas, Ia distribucién muestral se Puede obtener de todos los resultados posibles. Sean las monedas A,B,C I EESSE'= Sse DISENO RSTADISTICO PARA IWWESTIGADORES EN CIENCIAS SOCIALES Y DEL COMPORTAMTENTO dos en Ia ocurrencia simultdnea de 3 caras, la probabilidad es V8. Acé la H, es la afirmacién implicita de que las monedas son buenas (y no falsas) lo cual quiere decir que la probabilidad de cara = 1/2 = probabilidad de cruz. Este meétodo no se puede seguir en las distribuciones mues- trales de muestras muy chicas de poblaciones grandes, por lo que os apoyamos en los teoremas matematicos demostrados por los estadisticos. Generalmente, estos teoremas tienen supuestos que se refie- ten a la forma de la distribucién de la poblacién y al tamaito de ly muestra. Por ejemplo, uno de estos teoremas que ya conocemos e: el “Teorema del Ifmite central” que dice: si una variablo se ditribu ye con media = 1 y una desviacion estandard = o y si se extracn muestras de tamafo n, las medias de muestras ¥,, X,, X ... X, se distribuirdn en forma normal con media = 1 y una desviacion es. tandard, llamado error estandard o,= 6/ Np (cuando n > 30). Al conocer la distribucién muestral teérica de un estadistico podemos establecer juicios probabilisticos acerca de la ocurfencia de ciertos valores de este estadistico, = z c TX.9. Zonas de rechazo ee c c © 5 En una distribucién muestral que incluye todos los valores e c Cr que una prueba estadistica puede tomar bajo la hipétesis nla, © Or c se puede establecer una zona de rechazo de la H, euya probabili. c Or cr | dad es a a 7 c | Es decir, la zona de rechazo es un conjunte de valores cuya probabilidad, caando H, és cierta, es muy pequefia. La ubicacion Cr e or | de la zona de rechazo depende de la hipétesis alternativa, A cr cr c t no india direccién, la prueba es bilateral y la zona de recham, Cr cr Cr | est en ambos extretios de la distribucicn, Por ejemplo, para un” alfa de 5% las zonas de rechazo se ubican por arriba y por debajo de 2 1,96, que es lo que hemos hecho habitualmente, como indi. Como el total de combinaciones es 8 y sélo estamos interesa- calla figura IX.6, Se lama “two tailed test”, o prueba bilateral, 186 [NURIA CORTADA D8 KOHAW Figura IX.6 c= 0,028 J 1,962 eA x oie 1,962 Si la hipétesis alternativa indica direccién para el mismo 5% ‘tenemos solamente el extremo de la derecha y el valor de z = +1,64 como se ve on la Figura IX.7 Figura IX.7 x He +1652 188 I EE ———— OO TT DissN0 BSTADISTICO PARA IWVESTIGADORSS BY CIENCIAS SOCIALES Y DEL COMTORTAMIBWTO 1X10. Decision Si los datos empfricos producen un valor que esté dentro de la zona de rechazo, rechazamos la H,. Estamos expuestos a un error, que es el error del tipo I. El valor hallado en nuestros datos, si podemos rechazar Ja H,, decimos que ¢s “significativo”. Un‘valor significatiyo o3 aquél aya probabilidad de presentarse bajo la H, es igual o menor que @ . El razonamiento es que la probabilidad asociada con un valor en esta zona es muy pequefia. Podriamos usar dos criterios para Ja decision. Uno seria decir que la H, es falsa, el otro que el he- cho hallado es muy raro. En estadistica elegimos el primer crite- rio para decidir Ejercicios 1) Tenemos los siguientes datos. En una poblacién N = 3000 tenemos para una prueba una pl = 80 y = 9. Queremos extraer de ella una muestra en Ia que no cometamos un error de estima- cin mayor de 2 puntos con un riesgo del 1% {Qué n tendria que tener la muestra? 2) Tiramos una moneda al aire 80 veces y sale cara p=1/2=0,5. Con un 2 = 2.58 gentre qué limites aceptariamos como sana la moneda? Y si tirdndola 80 veces P, = 0,67 y el riesgo fuera de 2= 2,58 centre qué limite estaria? Caleule el error B para el pri- mer caso. 3) Un profesor da un pequefio examen de 10 preguntas “ver- dadero - falso”. Para probar la hipétesis de que un estudiante es- ta adivinando so opta el criterio de que: a) si 7 0 mas respuestas son correctas el estudiante no adivin6, sabia, b) si menos de 7 respuestas son correctas cl estudiante adiviné. Halle la probabi- lidad de rechazar la hipétesis cuando es correcta. 4) Halle los valores critieos de 2 para a =! ; 0,05; 0,01; 189 [NURIA CORTADA DE KOHAN 0,005 y 0,002 para las pruebas a) bilaterales y b) unilaterales. 5) En una escuela primaria se da una prueba ortografica. Pa- ra los 32 varones la media fue 32 puntos con un s = 8 mientras para 86 chicas la media fue 75 con una desviacion estandard de 6. Pruebe la hipétesis con un nivel de significacién de 0,05 y de 0,01 de que las chicas son mejores que los varones en ortogratia (zona de riesgo unilateral). Bibliografia 1) ALLEN, WY ROBERTS, H. V, Statisties NY. The Free Press of Glencoe, 1956 2) BLALOCK, H.M, Social Statisties, N.Y, Me Graw Hill, 1960 3) EDWARS, A Experimental Design in Psycological Research N.Y, Holt, Rinehart and Winston, 1964 4) GEHRING Basie Behavioral Statisties, Houghton Mifflin Boston, 1978, 5) HAYS, WL Statistes for Psychologists, N.Y. Holt Rinehart and Winston, 1963, 5) PEATMAN, J.C. Introduction to applied statisties, N-Y, Harper Row, 1963 190 I IEIDIIES'SS'SS SSO Disitto smabISTico PARA INVESIIGADORES BN CIENCIAS SOCIALES ¥ DEL COMPORTAMTETO CAPITULO X Prueba de 7? (ji al cuadrado) Hasta ahora hemos visto algunas aplicaciones de tres distri- buciones estadisticas fandamentales: la distribucién binomial, la distribucién normal y la distribueién de la t de Student. Ahora veremos el empleo de una distribucién nueva, la de ? (ji al cua- drado) que tiene la caracteristica de no ser paramétriea, es decir, ue no requiere supuestos tan rigurosos con relacién a los pard metros subyacentes de la poblacién. En la prueba de 7? no nece- sitamos asegurarnos de que los datos de 1a distribucién proven- gan de poblaciones o universos que se distribuyen normalmente. Por esto se denomina a este estadfstico inferencial 72, como una Prueba no paramétrica o de distribucién libre. Ademés, ni si- quiera requiere el empleo de una eseala numérica continua sino que puede ser usado con datos nominales. La prucha tiene dos usos fundamentales que veremos enseguida: a) como prueba de bondad de adaptacién (“goodness of fit") para comparar las frecuencias observadas con algtin modelo te6rico, y b) como prueba de independencia entre los datos de dos variables que nos interesa comparar, X.1, Distribucién muestral de En muchas situaciones que se nos presentan en las investiga- ciones se desea comparar las frecuencias observadas en la rea- 191 ‘NURIA CORTADA DE ROHAN lidad con las frecuencias esperadas que pueden deducirse de al- gin modelo teérico. Supongaios, por ejemplo, que al arrojar 100 monedas al aire, que creemos sanas, hallamos quo aparecen 46 caras y 54 cruces. Estas son frecuencias observadas. Ahora bien, de acuerdo al modelo te6rico binomial las frecuencias esperadas © teéricas deberfan ser 50 caras y 50 cruces. La formula que se usa para hallar el valor de ? es: siendo o = frecuencias observadas E = frecuencias esperadas En nuestro caso el valor de” de acuerdo a los datos seria: | 2 -E Moneda | 0 ze [o-r | o-m| -¥ sale: | Cara 46 50 4 16 Cruz 54 50 +4 16 En este caso, el valor de ° = 0,64 y los grados de libertad son uno, pues cuando se obtiene la frecuencia de cara, la de cruz ya esta determinada, as{ que 2-1 = 1. Si repitiéramos esta expe- riencia muchas veces seguramente obtendriamos diversos valo- res de °y la distribueién de frecuencias de todos estos valores serfa una distribucién experimental de muestreo de 7° para 1 grado de libertad. 192 CC ESEEEOOQOS 9 ETD DISENO EsMADfSTICO PARA INVESTIOADORES EN CIENCIAS SOCLALSS Y DEL COMPORTAMIENTO Podriamos utilizar ¢l mismo procedimiento para tirar no 100 monedas, sino 100 dados, y obtendriamos la distribucién mues- tral de x" para 5 grados de libertad (pues un dado tiene 6 caras) La distribucién de muestreo tedrica de 4? se conoce y sus proba- bilidades se han estimado, pero su ecuacién es excesivamente compleja para presentarla aquf. Lo que es importante conocer es que existe una distribucién de x? para cada valor de los grados de libertad. En el Apéndice B se puede ver la Tabla VIII de los valores de ° que van de 0 a infinito y que se usa como prueba de significacién, del mismo modo que la tabla de la normal o de la t. Es decir, se supone la hipétesis de nulidad y si el valor de y! es mayor o igual al nivel erftico usado, se rechaza la hipétesis nula, Por cjomplo, en nuestro ejemplo para 1 grado de libertad el valor de x? = 0,64, no es significativo ni a 1, ni al 5%. La Figura X.1 nos presenta la forma de algunas distribucio- nes de x* para distintos grados de libertad. Fig.X.1 0,20) 0,10] O12 a 4567 89 wie is i451 1920 NURIA CORTADA DE KOHAN La Tabla X.1 nos indica el valor de x" para el 5% y el 1% de significacion para 1, 3, 5 y 10 grados de libertad. ‘Tabla X.1 Valor x’ para un riesgo del: Grados de libertad X.2. x? como prueba de bondad de adaptacién La prueba 7, como seftalamos, puede servirnos para relacio- nar las frecuencias observadas con las esperadas tebricamente, segin algin modelo. Las comparaeiones pueden ser muy varia- das. Por ejemplo: a) 7? para probar la significacién de una distribu- cién de igual proporcién en todas las categorias. Supongamos que hacemos una pregunta en una encuesta y las respuestas pueden ser Si, No o No sé. Si la indiferencia o el desconocimiento fuera total la proporcion de respuestas en cada categoria serfa igual, pero esto no suele suceder en la realidad, Por ejemplo, supongamos que la pregunta es “{Conviene privati- zar toda la Ensefanza Secundaria?” ‘Tenemos la Tabla X.2 siguiente, donde estin las respuestas alas categorfas. 194 isnt ESTADISTICO PARA UTVESTIOADORES EN CLENCIAS SOCIALES YDBL-COMFORTAAMENTO Tabla X2 Ty -Ey Respuestas | 0 E O-E | @-EF | Si 24 16 8 64 4 No 12 16 4 16 1 Nose | 12 16 4 1 48 48 g.1=(3-1)=2 2 significativo al 5% ») ¢ para probar la significacién de una distribu- cidn respecto a la curva normal. Supongamos que clasificamos 42 vendedoras en 5 grupos se- tin Ja aptitud para vender en: sobresalientes, muy buenas, sa- tisfactorias, regulares y malas. ¢Sigue esta aptitud para vender Ja distribucién normal, como ocurre con casi todas las aptitu- des, o no? En las frecuencias observadas colocamos nuestros resultados yen las frecuencias esperadas o tedricas segun la curva normal, colocamos los valores correspondientes a la division do 6 sigmas en 5 partes (categorias) con la proporcién de casos correspondien- te a cada categoria, segtin el Area de la curva normal. Asi: entre +3 y 1,80 sigma - rea = 0,0035 -> 1,5 entre +1,80 y 0,60 sigma- area = 0,24-> 10 entre +0,60 y -0,60 sigma- area =0,45 > 19 entre -0,60 y—-1,80 sigma- érea =0,24-> 10 entre-1,80y—3sigma- rea = 0,0085 > 1,5 Segiin la Tabla X.3 tenemos, 195 ‘NURIA CORTADA DE KOHAN ‘Tabla X.3 SEINE Categorias PISENO BSTADISTICO PARA INVESTIGADORSS RY CISNCIAS SOCTALES Y DEL COMFORTAMIENTO punto antes de elevarlo al cuadrado. Por ejemplo, supongamos due un sujeto que dice poseer poderes parapsicoldgicos asegura que puede ejercer influencia mental para que una moneda caiga (o-By cara 0 cruz. Entonces se tira una moneda 200 veces mientras el E (0-BY de ° gE O- : z Parapsieélogo so concentra para que In moneda caiga como cara, la variable 7 y los datos arrojan los resultados de la Tabla X.4, —S Sobresalientes 6 15 45 20,25 13,50 Tabla X.4 ‘Muy buenas 10 10 0 0 0 — Satisfactorias 20 19 1 1 0,05 a : o-k | o-ne | O=™ Regulares 4 10 6 36 3,60 E 5 17 Malas 2 15 0K 025 0, Cara 14 100 4 196 1,96 ———— 4, 42 42 = 17,32 Cruz 86 100 14 196 196 200 200 xf = 11,32 para (n - 1) = 4 grados de libertad; el valor de x? signi- — ficativo al 1% es 16,08, de modo que debemos rechazar Ia H, y decir que nuestra clasificacién no se ajusta a la distribucién nor- mal de la aptitud para vender, X.3. Correccién de Yates. Cuando los grados de libertad en la prueba de x" son uno, convie- ne usar la correceién para continuidad de Yates. En este ca- so la formulacién es: 0-E| -0,57 ay 9581 -05% E x Es decir, reducimos el valor de O - E exactamente en medio 196 Para 1 grado de libertad 2 al 5% = 3,84, por lo tanto, la pruc- ba es significativa al 5%. Pero si usamos la correceién de Yates tenemos: y O-E] -05" ~ (1114 - 100] - 0,5) " gE 100 (186~100|-0,5% 13,57 + 13,5" = 1,82 + 1,82 =3,64 100 100 ¥ on este caso, con la correecién, no es un valor significative al 5%, es decir que la correccién de Yates implica una reduccién del tipo I de error.