Está en la página 1de 6

Mtodos Cuantitativos de Anlisis de Datos I Reinaldo Zurita Z., Psiclogo.

Mtodos Cuantitativos de Anlisis de Datos I


Resumen Primera Unidad Estadstica Univariada Primera Parte
INTRODUCCIN: La estadstica tiene que ver con la recopilacin, presentacin, anlisis y uso de datos para tomar decisiones y resolver problemas. Sirve, fundamentalmente, para hacer inferencias, generalizaciones y extrapolaciones de un conjunto relativamente pequeo de datos a un conjunto mayor. Una de las aplicaciones ms importantes, radica en el trabajo de adquisicin de conocimiento mediante la investigacin cientfica. ESTADSTICA DESCRIPTIVA Corresponde a la tcnica utilizada para el anlisis y representacin de los datos. Este anlisis es muy bsico, pero fundamental en todo estudio. Existen varias formas de resumir datos de forma tal que facilite la comprensin a partir del comportamiento que se podran observar en estos datos. Dichas formas son: Tablas Grficos Medidas de Resumen: Medidas de Tendencia Central Medidas de Posicin Medidas de Dispersin ESTADSTICA INFERENCIAL Corresponde al tipo de estadstica mediante la cual se obtienen generalizaciones o se toman decisiones en base a una informacin parcial o completa obtenida mediante tcnicas descriptivas. CONCEPTOS BSICOS (GENERALES): Poblacin Estadstica: Conjunto de todos los elementos que cumplen una o varias caractersticas. En la prctica se tienda a utilizar slo una parte de este conjunto. Los elementos que componen la poblacin son denominados Individuos o entidades estadsticas. La mayor parte de las poblaciones con las que solemos trabajar son finitas. El hecho de que, por lo general, las poblaciones sean muy numerosas suele hacer inaccesible la descripcin de sus propiedades. De ah que se trabaje fundamentalmente con muestras. Muestra: corresponde a un subconjunto de los elementos de una poblacin. Ofrece una serie de datos que podemos ordenar, simplificar y describir. Lo ms importante es que las muestras sean representativas El objetivo es poder describir la poblacin mediante lo que podamos encontrar en la muestra. Parmetro: es una propiedad descriptiva de una Poblacin (tienden a ser desconocidos). Estadstico: es una propiedad descriptiva de una Muestra (pueden ser calculados). Por otra parte, cuando estudiamos las entidades que conforman una poblacin nos interesamos por alguna de las propiedades de sus elementos, y esas propiedades adoptan distintas variedades: Caracterstica: es una propiedad o cualidad de un individuo. Modalidad: cada una de las formas en que se presenta una caracterstica. Medicin de Variables: la medicin estudia las condiciones de construccin de representaciones numricas. Es decir, corresponde al proceso de atribuir nmeros a las caractersticas. Adems los modelos desarrollados reciben el nombre de escalas.

Mtodos Cuantitativos de Anlisis de Datos I Reinaldo Zurita Z., Psiclogo. Escalas (Niveles) de Medicin: son de gran importancia porque nos indican que medidas de resumen (Medidas de Tendencia Central) y que formas de representacin podemos utilizar para describir los datos de determinadas caractersticas. Tradicionalmente, las escalas de medicin se han separado en cuatro: Nominal Ordinal - Intervalo o Intervalar - Razn. Cada uno de estos niveles o escalas posee restricciones respecto de la manipulacin estadstica que se puede hacer con ellos.

Nivel

Definicin
Corresponden a agrupaciones de objetos en modalidades, de modo que todos los que pertenezcan a la misma sean equivalentes respecto de la caracterstica en estudio, despus de lo cual se les asignan nombres a tales clases. Consiste en asignar a los sujetos u objetos medidos un nmero que permita ordenarlos segn la cantidad de variables que poseen. Los nmeros permiten afirmar si la cantidad de caracterstica que posee un sujeto u objeto es mayor que o menor que la cantidad de caracterstica que posee otro sujeto u objeto cualquiera. Es similar a la ordinal, sin embargo, en este tipo de escalas es posible determinar la magnitud de la diferencia entre dos objetos medidos, es decir, la cantidad de variable en la que difieren dos objetos. En esta escala no existe el cero absoluto, es decir, no existe un valor numrico que indique ausencia total de cantidad variable. En este caso el valor 0 ocupa un lugar arbitrario, es un punto ms de la escala. Similar a la escala de Intervalo. Aunque, se aade la nocin de cero absoluto, es decir, el cero indica ausencia total de cantidad de variable. En este tipo de escala el cero es un punto fijo, el cual indica que no existe cantidad alguna de variable.

Ejemplos

Observacin
La clave es que slo informan de igualdad o desigualdad de los individuos de una caracterstica, pero no de un posible orden, puesto que la caracterstica a la que se refieren no se tiene en mayor o menor medida, sino que adopta formas cualitativas distintas.

Nominal (Cualitativa)

Sexo Carrera Nacionalidad Raza Ocupacin

Ordinal (Cualitativa)

Curso Estado de Animo N.S.E. Rango Militar

Aunque nos informa de que un objeto representa la caracterstica en un sentido mayor o menor, no nos informa cuanto ms o cuanto menos.

Intervalar (Numricas/Cuantitativa)

Actitudes Temperatura C.I.

La mayora de las medidas en las C. Sociales se encuentran a este nivel. No se puede afirmar que un punto de la escala sea igual a otro.

Razn (Numricas/Cuantitativa)

Edad Peso Estatura

Aqu tambin las diferencias entre los elementos medidos son cuantificables, sin embargo, la presencia del Cero absoluto permite afirmar si un objeto posee el doble, el triple, etc., de caracterstica que otro.

Mtodos Cuantitativos de Anlisis de Datos I Reinaldo Zurita Z., Psiclogo. En el proceso de medicin se asignan nmeros a los objetos segn reglas, y el conjunto de valores numricos atribuidos a las modalidades estadsticas constituyen lo que llamamos Variable estadstica. Variable: es una representacin numrica de una caracterstica. Pueden clasificarse de varias formas, por ejemplo, el tipo de escala: Variable Cualitativa: (Nominal u Ordinal) categoras o atributos de los elementos estudiados. Variable Cuantitativa: (Intervalo o Razn) puede a la vez clasificarse, en funcin del nmero de valores asumibles, como: Variable Discreta: adopta valores aislados (entre A y B, no hay C) Variable Continua: puede adoptar valores intermedios (entre A y C, existe B). En la prctica las variables continuas no pueden representarse como tales. Por lo cual slo se tienden a utilizar valores discretos. Es importante no confundir valores discretos con valores enteros. ORGANIZACIN Y DISTRIBUCIN DE DATOS: DISTRIBUCIN DE FRECUENCIAS: Tres funciones: 1) Proporciona una reorganizacin y ordenacin racional de los datos recogidos. 2) Ofrecer la informacin necesaria para hacer representaciones grficas. 3) Facilitar los clculos necesarios para obtener los estadsticos muestrales. Smbolo Xi ni pi na pa Nombre Valor Xi Frecuencia Absoluta Frecuencia Relativa Frecuencia Absoluta Acumulada Frecuencia Relativa Acumulada Descripcin Valor de la Variable con la que se trabaja Nmero de veces que se repite el valor Xi en la muestra. cociente entre la frecuencia absoluta de ese valor y el tamao de la muestra, es decir, pi = ni/n. Nmero de veces que se repite en la muestra ese Valor Xi o cualquier otro valor inferior. Cociente entre su frecuencia absoluta acumulada y el tamao de la muestra. Es decir, pa = na/n

Frecuencias Relativas (simples o acumuladas), se representan a travs de porcentajes. Adems son representadas con letras maysculas: Pi = pi 100 y Pa = pa 100 REPRESENTACIONES GRFICAS Se construyen a partir de las distribuciones de frecuencias. Su funcin es dar informacin global mediante un solo golpe de vista. Es decir, de una sola mirada. Hay de muchos tipos, pero a continuacin se mencionaran aquellas que son usadas frecuentemente en el rea de la psicologa. Nombre del Grafico Descripcin Variables nominales o cuantitativas discretas. Las modalidades (o nmeros) van en el eje de abscisas y las frecuencias en el eje de ordenadas Representacin

Grfico de Barras

Grfico de Torta o Pastel

Variables cualitativas. Se representa a travs de crculos divididos en secciones proporcionales a la frecuencia de la modalidad correspondiente. Variables cuantitativas continuas. Parecido al grfico de barra, pero aqu los rectngulos son consecutivos en el eje de abscisas. Puede manejar frecuencias simples o acumuladas.

Histograma

Mtodos Cuantitativos de Anlisis de Datos I Reinaldo Zurita Z., Psiclogo.

Polgono de Frecuencias

Variables discretas. Es la figura que resulta de unir los extremos superiores de las que hubieran sido las barras de un grafico de barra Es una alternativa a las distribuciones de frecuencias, para resumir y exponer conjuntos de datos. Su obtencin requiere separar cada puntuacin en dos partes: El primer, o primeros dgitos, que reciben el nombre de tallo, y el dgito o dgitos restantes, que reciben el nombre de hojas

Grfico de Tallo y Hoja

4 Propiedades de las Distribuciones de Frecuencias Tendencia central: se refiere a la magnitud general de las observaciones hechas. Esta magnitud puede cuantificarse mediante los ndices conocidos como tendencia central o promedios, y que reciben ese nombre porque pretenden ser sntesis de los valores de la variable. Variabilidad: Grado de concentracin de las observaciones en torno al promedio. Una distribucin de frecuencias ser homognea o poco variable si los datos difieren poco entre s, y por tanto, se agolpan en torno a su promedio. Sera heterognea o muy variable si los datos se dispersan mucho con respecto al promedio. Asimetra o sesgo: Grado en que los datos tienden a concentrarse en los valores centrales, en los valores inferiores al promedio, o en los valores supriores a ste. Existe la simetra perfecta (al doblar la representacin grfica sobre la media, las dos mitades se superponen perfectamente), asimetra negativa (la mayora de las puntuaciones resultan altas) y la asimetra positiva (la mayora de las puntuaciones son bajas). Curtosis: Se refiere al grado de apuntamiento de la distribucin de frecuencias. Si es muy apuntada se llama Leptocrtica y si es muy aplastada, se llama Platicrtica, y se denomina Mesocurtica cuando tiende a la normalidad. MEDIDAS DE POSICIN Medida de Posicin Percentiles Descripcin Corresponden a 99 valores de la variable que dividen a la distribucin en 100 secciones, cada una conteniendo a la centsima parte de las observaciones. Se pueden representar por la inicial de cada uno de los dos trminos que los designan ms el subndice correspondiente. Nueve puntuaciones que dividen a la distribucin en 10 partes, cada una conteniendo al 10% de las observaciones. Existe una equivalencia directa entre deciles y centiles: el D4 es igual al C40 . Tres puntuaciones que dividen a la distribucin en cuatro partes, cada una conteniendo al 25% de las observaciones. Existe una equivalencia directa entre cuartiles y centiles: el Q1 es igual al C25, el Q2 es igual al C50, y el Q3 es igual al C75. Smbolo

Ck o Pk.

Deciles

Dk

Cuartiles

Qk

Dado que los valores correspondientes a los centiles se determinan en funcin de los porcentajes de observaciones, normalmente las distancias entre ellos, en trminos de puntuacin, no sern constantes. Por ejemplo, las puntuaciones correspondientes a los centiles 55 y 56 sern ms cercanas entre s que las puntuaciones correspondientes a los centiles 98 y 99, o las de los centiles 2 y 3. Esto para las distribuciones simtricas, ya que para las asimtricas habr que matizar ms esta relacin.

Mtodos Cuantitativos de Anlisis de Datos I Reinaldo Zurita Z., Psiclogo.

MEDIDAS DE TENDENCIA CENTRAL: Medida de T. Central Media Descripcin Es el ndice de tendencia central ms utilizado. Comnmente conocida como el promedio. Se define como la suma de los valores observados, dividida por el nmero de ellas. Se representa con la misma letra que representa la variable, en maysculas, con una barra horizontal encima. Corresponde a aquella puntuacin que es superada por la mitad de las observaciones, pero no por la otra mitad. Es decir, es aquel que deja igual nmero de valores antes y despus de l en un conjunto de datos agrupados (creciente o decrecientemente). Para su clculo podemos encontrarnos con dos situaciones posibles 1) clculo de la mediana en una distribucin n par y 2) clculo de la mediana en una distribucin n impar. Una tercera forma de representar la tendencia central de un conjunto de valores consiste en informar el valor ms frecuentemente observado. Se define sencillamente como el valor de la variable con mayor frecuencia absoluta. Como norma, para obtener la Mo, ordenaremos los valores de menor a mayor para as facilitar la identificacin de aquel de mayor frecuencia. Smbolo

Mediana

Mdn

Moda

Mo

Con qu criterios elegimos uno sobre los dems para representar la magnitud general observada en unos valores o para comparar la de los dos o ms grupos de valores?: Si no hay ningn argumento de peso en contra, se preferir siempre la media. Hay dos razones para apoyar esta norma general. La primera es que en ella se basan otros estadsticos. La segunda es que es mejor estimador de su parmetro que la mediana y la moda. La segunda Razn implica que, en trminos generales, las medias halladas sobre muestras representativas se parecen ms a la media poblacional de lo que se parecen las medianas y modas muestrales a contrapartes poblacionales. Entonces, Cundo elegir la Mediana? Cuando la variable este en una escala ordinal. Cuando haya valores extremos que distorsionen la interpretacin de la media. Entonces, Cundo elegir la Moda? (Por Sobre la Mediana) Cuando la variable este medida en una escala nominal. Cuando haya Intervalos abiertos y la mediana pertenezca a uno de ellos. En algunos casos los tres ndices de tendencia central dan valores parecidos, o incluso pueden coincidir exactamente, pero no necesariamente ha de ser as. Por eso cuando hay valores extremos es preferible la mediana a la media. En cualquier caso, cuando estos ndices dan valores marcadamente distintos es conveniente informar de ms de uno, para poder entregar una idea ms completa. MEDIDAS DE DISPERSIN (VARIACIN) Se llaman medidas de dispersin aquellas que permiten retratar la distancia de los valores de la variable a un cierto valor central, o que permiten identificar la concentracin de los datos en un cierto sector del recorrido de la variable. Se trata de coeficiente para variables cuantitativas. Medida de Variacin Rango Descripcin El rango de la muestra es la medida de variabilidad ms sencilla entre todas las mencionadas; y se define como la diferencia entre la observacin ms grande y la ms pequea. Aunque es una muy fcil de calcular, ignora toda la informacin de la muestra entre las observaciones ms grande y ms pequea. Smbolo Ar

Mtodos Cuantitativos de Anlisis de Datos I Reinaldo Zurita Z., Psiclogo. Corresponde al cuadrado de la Desviacin Estndar. Ya que se calcula a partir del promedio de los cuadrados de tales desviaciones. Como S no tiene las mismas unidades que los datos, se define la desviacin estndar como la raz cuadrada (positiva) de la varianza a fin de tener una medida en las mismas unidades de los datos. La desviacin estndar es til para comparar dispersin entre dos poblaciones, pero tambin lo es para calcular el porcentaje de la poblacin que pueden localizarse a menos de una distancia especfica de la media. El rango intercuartil, sencillamente, la diferencia entre el tercer y el primer cuartil, es decir, Q3-Q1. Esto nos dice en cuntas unidades de los valores que toma la variable se concentra el cincuenta por ciento central de los casos.
2

Varianza

S2

Desviacin Estndar

Rango Intercuartil

RI

Medidas de Variacin: Grficos Diagrama de Caja y Bigote: Para su construccin se marcan seales de tal forma que las distancias entre ellas sean proporcionales a las distancias entre la puntuacin mxima y mnima y los 3 cuartiles. Con los 3 cuartiles se forma una especie de ficha de domin, mientras que la puntuacin mxima y mnima se unen mediante lneas rectas a los bordes de esta forma geomtrica. Se puede comparar la variabilidad de dos distribuciones haciendo representaciones paralelas de caja y bigotes.

En otros casos se quiere representar la evolucin de los valores medios, se pueden unir mediante un trazo los puntos correspondientes y aadir unos bigotes verticales que indiquen los valores correspondientes a una desviacin tpica.