Está en la página 1de 16

Parte I.- Estadstica Descriptiva.

La Estadstica Descriptiva adems de organizar y reducir los datos, nos va a permitir establecer una serie de comparaciones de gran inters. De forma general se podrn establecer tres tipos de comparaciones: a).- Comparaciones entre grupos Ejemplo: Comparacin de los salarios de distintos sectores laborales, de los resultados de dos tipos de fertilizantes diferentes, de dos tratamientos mdicos, etc. b) .- Comparaciones entre un grupo y un caso individual de dicho grupo. Ejemplo: Comparacin entre los resultados acadmicos de un curso y los de un alumno, o los sueldos medios de una empresa respecto a los de su sector. c) .- Comparaciones entre los resultados de un estudio y los estandarizados. Ejemplo: Comparar la evolucin de las alturas de un nio, respecto a unas tablas estandarizadas de estudios hechos a nivel regional o nacional.,(lo utilizan mucho los pediatras). 1.1.-Variables Estadsticas Univariantes .Una Variable Estadstica Univariante es una caracterstica de la poblacin que, al menos en teora, admite distintos valores en el conjunto de la poblacin: Sexo, edad, status social, religiosidad, simpata, afinidad poltica, rendimiento por hectrea, calificaciones, coeficiente de inteligencia, etc. Una primera clasificacin de las variables viene dada por el tipo de medida que utiliza. Fundamentalmente consideraremos tres tipos de variables: - Variables nominales: Cuando la propiedad a medir nicamente permite hacer clasificaciones, sin que se puedan establecer ningn tipo de ordenaciones ni comparaciones, as: el sexo, la provincia de residencia, la nacionalidad, la raza, el estado civil, la carrera cursada, etc. sern algunos ejemplos de variables nominales. - Variables ordinales: Cuando la propiedad a medir permite hacer clasificaciones y stas se pueden ordenar, es decir, podremos establecer una ordenacin A<B<C, si bien, la distancia entre A y B no necesariamente tiene porqu ser la misma que entre B y C. Como ejemplos citaremos: la clase social, la ubicacin poltica o religiosa, el grado de simpata, el nivel de estudios, etc.. Con estas variables no se pueden realizar operaciones aritmticas tales como sumas, restas, multiplicaciones o divisiones. - Variables cuantitativas o de intervalo: Cuando la propiedad a medir permite asignar un nmero real a cada elemento de la poblacin. Ello hace que estas variables, adems de disfrutar de las propiedades de las variables nominales y ordinales, se pueda realizar con ellas las operaciones corrientes de clculo. Como ejemplo mencionaremos: la altura, la edad, el salario, la renta per cpita, el nmero de votos, el rendimiento por Ha, etc. Estas variables son, sin duda, las variables ms importantes y para las que se han desarrollado las mejores herramientas estadsticas; sin embargo, no siempre se puede asociar un nmero a una caracterstica de la poblacin.

- Existen otros tipos de variables que tambin tienen su tratamiento estadstico, como rangos, porcentajes, etc., pero se utilizan menos. Las variables cuantitativas, segn el conjunto numrico en el que toma los valores, se clasifican en: - Variables discretas cuando toman valores en un conjunto finito o infinito- numerable de nmeros reales, como la edad en aos, el n de hermanos - Variables continuas cuando pueden tomar los valores en un conjunto infinito- no numerable de nmeros reales. Citaremos: la altura de las personas o de una montaa, donde todos los valores dentro de un cierto intervalo, son posibles; el tiempo de vida de una bombilla, el tiempo que pasa entre la llegada de un autobs urbano y el siguiente, etc. Otros trminos utilizados cuando estudiamos varias variables de una misma poblacin, y para cualquier tipo de variables, son los trminos variable independiente o causal y variable dependiente o efecto. Por ejemplo, si queremos establecer si existe relacin entre el sexo y la ubicacin poltica, parece natural pensar que la variable sexo es la independiente y la ubicacin poltica la dependiente. La estadstica no podr, en ningn caso, averiguar cul es la variable independiente o anterior y cul la dependiente o posterior .En algunos tratamientos estadsticos, hay que determinarlo. Lo nico, y no es poco, que la estadstica podr estudiar, es el grado de dependencia entre ambas variables. A veces para determinar cul es la variable independiente, nos puede servir el observar cul de las dos es la anterior. Si observamos una sola caracterstica de la poblacin, hablaremos de variables univariantes. Caso que se observen dos o ms caractersticas, diremos que la variable estadstica es multivariante.

1.1.2.- Tcnicas para el resumen de los datos 1.1.2.1.-Organizacin de los datos Las primeras operaciones que se deben hacer son: a) Recogida de los datos, elaborarlos y tabularlos. b) Depurarlos y resumirlos en unas pocos valores llamados estadsticos, que contienen la informacin til suministrada por stos. c) Interpretarlos . Con el fin de obtener una informacin ms resumida, se utilizan distintas distribuciones de frecuencias. Estas herramientas de agrupacin estn especialmente indicadas cuando tenemos muchos datos, pero que corresponden a un nmero pequeo de valores diferentes, hecho que ocurre, especialmente, en variables cualitativas y escasamente en variables cuantitativas, donde los datos suelen ser muy diferentes; pensemos por ejemplo en las distintas mediciones expresando los datos en mm que puede dar de longitud de determinadas piezas; en este caso, se procede a agrupar los datos primero por intervalos y despus por frecuencias. Distribucin de frecuencias absolutas.- Llamaremos frecuencia absoluta, correspondiente al valor de la variable xi; al nmero de veces que aparece la variable en los datos; se suele representar por ni.

Distribucin de frecuencias absolutas acumuladas.- Llamaremos frecuencia absoluta acumulada, correspondiente al valor de la variable xi; al n de elementos de la poblacin cuyo valor de la variable es igual o inferior a xi; se suele representar por Ni =

N
j i

Distribucin de frecuencias relativas.- Llamaremos frecuencia relativa, correspondiente al valor de la variable xi, al cociente entre el valor correspondiente a la N frecuencia absoluta y el n total de datos; se suele representar por fi = i . N Distribucin de frecuencias relativas acumulada.- Llamaremos frecuencia relativa acumulada, correspondiente al valor de la variable xi al cociente entre el valor de la frecuencia absoluta acumulada y el n total de datos, se suele representar por Fi = f j .
j i

Como mencionbamos antes, en variables cuantitativas, la agrupacin directa por frecuencias no ayuda apenas a su resumen; para estas variables es conveniente agruparlos por intervalos antes de hacerlo por frecuencias. Aunque no hay una norma de obligado cumplimiento, si que es conveniente seguir una serie de recomendaciones a la hora de construir los intervalos: El nmero de intervalos debera estar entre 5 y 20 La anchura de los mismos convendr que sea igual, con el fin de facilitar la construccin de su grfica asociada que es el Histograma El n de intervalos deber ser un nmero prximo a N , siendo N el nmero total de datos. Para una mejor comprensin, los lmites del intervalo debern ser mltiplos de 0,25

1.1.2.2.- Representaciones grficas Para una mejor comprensin de los datos, sern de gran ayuda las distintas Representaciones Grficas que nos pone a disposicin la estadstica Las representaciones grficas son una manera de presentar los datos para que, de una forma rpida y sencilla, el lector se pueda hacer una idea de la globalidad de stos. Por lo tanto, hay que buscar las grficas ms sencillas que mejor se adecen a la naturaleza de los mismos. Las Grficas ms utilizadas son: - Diagramas de Barras. - Histogramas - Polgonos de frecuencias. - Diagramas por sectores - Pictogramas. - Cartogramas. - Pirmides de poblaciones. - Diagrama de Paretto. - Diagrama de tallo y hojas. - Diagrama de Caja o de Caja y Bigotes. - Diagrama de puntos. Vamos a comentar los ms importantes y presentar un ejemplo de las obtenidas como Resultados en SPSS. mismas

a) Diagrama de Barras: Est especialmente indicado para variables cualitativas. Los datos corresponden a los resultados de una encuesta, donde a los encuestados se les interrogaba con la siguiente pregunta: Con qu respuesta de las presentadas aqu est usted ms de acuerdo para comentar la frase: De todas las religiones del mundo, solo una es la verdadera?:
500

400

300

200

Frecuencia

100 0
do iti m O M uy de sa cu er do M s bi en de sa cu er do M s bi en ac ue rd o uy M de o rd ue ac

Religin

b) Diagrama de Sectores: Est especialmente indicado para variables cualitativas. Reparte el crculo en sectores proporcionales a las frecuencias de cada clase. El grfico representa la distribucin de una serie de vehculos segn el n de plazas de ocupantes.

Nmero de plazas
2 4 5 6 7 8 9 Los sectores muestran frecuencias

10

c) Diagrama de Paretto; Est especialmente indicado para variables cualitativas. Es similar al diagrama de barras, pero aqu las clases van de mayor a menor frecuencia. Los datos son los mismos que en el diagrama de barras:

1400 1200 1000 800 600 50 100

Porcentaje

Frecuencia

400 200

410

387 177 170 0

do iti m O do er cu sa de

uy M

s M

uy M

Religin

C) Diagrama de Caja y Bigotes (Lo veremos en detalle en pginas posteriores) D) Histograma El histograma es el grfico ms utilizado. Conviene notar que: - Somos libres de elegir los intervalos de clase que agrupan las observaciones. Con ello, podemos hacer que con los mismos datos, el histograma cambie de aspecto y trasmita impresiones diferentes, por lo que hay que ser muy cuidadosos en ello. - Las observaciones que caen dentro de un intervalo determinado se confunden, es decir, hay informacin que no es recuperable. Este es un dilema muy habitual en la Estadstica Descriptiva al tratar la informacin. - En Diagramas de puntos, Diagramas de Barras, Polgonos de frecuencias y otros, cada observacin se representa por un punto diferenciado y, en teora, no se confunden las observaciones. En la prctica, la resolucin grfica hace esto imposible, por lo que solo se utilizan cuando el nmero de datos no es muy grande. En los histogramas siguientes, que corresponden a los mismos datos, vemos el distinto aspecto que presentan al considerar un nmero diferente de intervalos de agrupacin:

s M en bi

de

en bi

o rd ue ac

o rd ue ac

do er cu sa de

11

15
20

Recuento

15

10

Re 10 cu ent o
5

0 1000 1500 2000

0 100 0 150 0 200 0

peso

peso

1.1.2.3.- Caractersticas de una distribucin univariante de frecuencias El estudio de una distribucin univariante se basa en el estudio de: - La posicin. - La dispersin. - La forma. : Simetra y Apuntamiento o Curtosis 1.1.2.3.1.- Medidas de Posicin. Los estadsticos asociados a estas medidas los clasificaremos en los tres grupos siguientes: Grupo n 1: Medidas de posicin que solamente son vlidas para variables de intervalo, tomando como xi la Marca de Clase - punto medio del intervalo correspondiente -, o para variables simplemente cuantitativas. Media aritmtica o promedio. Se define como la suma de todos los valores de la variable, dividido por el n de elementos de la poblacin o muestra. Su frmula es: =

x
N

y si los datos estn agrupados.

nx
i

12

Se utiliza mucho y, en algunos casos, con interpretaciones errneas, por ejemplo: Renta per capita, Temperatura media, etc. A veces no es la medida ms til, sobre todo en distribuciones en forma de U, y es muy sensible a la presencia de datos anmalos.1 Media Recortada.- Es la media resultante de eliminar los valores extremos, (generalmente el 20% de ellos). Media Geomtrica G.- La frmula es: G = Media Cuadrtica C.- La frmula es: C=.
N

x1 . x2..... xN
2 i

N pi x i Media Ponderada P .- La frmula es: P= pi En general pi = 1 o pi = 100 y a las pi se les llaman ponderaciones o pesos. Ejemplo el IPC.

Grupo n 2. Medidas de posicin vlidas para cualquier tipo de variable La Moda.- Es el valor que ms se repite - mayor frecuencia absoluta -. En el ejemplo siguiente, la media corresponde a los valores de la variable 3 y 5. En caso de intervalos, se habla de intervalo modal. Grupo n 3: Las medidas de este grupo son vlidas slo para variables de intervalo , cuantitativas y ordinales. Mediana: Es el valor terico o real de la variable tal que, ordenados los datos, la mitad de ellos se alcanza en ese valor. Si son intervalos, se asigna un intervalo mediano. Cuartiles: El primer cuartil Q1 Es el valor terico o real de la variable tal que, ordenados los datos, la primera cuarta parte de ellos se alcanza en ese valor. Si son intervalos se asigna un intervalo cuartlico. El tercer cuartil Q3 Es el valor terico o real de la variable tal que, ordenados los datos, las tres primeras cuartas partes de ellos se alcanzan en ese valor. Si son intervalos se asigna un intervalo cuartlico. El segundo cuartil coincide con la mediana. Percentiles: El percentil k (Pk) es el valor terico o real de la variable tal que, ordenados los datos, los primeros k % de ellos se alcanzan en ese valor. Si son intervalos, se asigna un intervalo percentlico. Deciles: El Decil a coincide con el percentil 10*a, as D2= P20.
1

Esto caracterstica de la media es lo que en Estadstica se llama falta de Robustez ente la aparicin de datos anmalos

13

Los clculos son muy sencillos a partir de la columna % de frecuencia acumulada. Este tipo de medidas son muy importantes, sobre todo los percentiles, con los que se pueden hacer dos tipos de clculos: a) Dado un percentil hallar el valor correspondiente de la variable. b) Dado un valor de la variable hallar el percentil correspondiente, que es lo que se conoce como escala percetlica . Muchas variables psico-pedaggicas, sociolgicas y mdicas vienen expresadas en percentiles; pensemos en el peso y la altura de los nios pequeos, donde ms que el valor absoluto de los mismos, lo que interesa a los pediatras es el valor percentlico correspondiente. Todas las medidas de posicin cambian al cambiar la escala de medicin. Ejemplo: percentiles.
Notas 0 1 2 3 4 5 6 7 ni 1 2 3 8 7 8 4 3 Ni 1 3 6 14 21 29 33 36

Calificaciones de Matemticas. Tabla de frecuencias para el clculo de


fi 0,025 0,05 0,075 0,2 0,175 0,2 0,1 0,075 Fi 0,025 0,075 0,15 0,35 0,525 0,725 0,825 0,9 %Ni=Ni*100/N 2,5 7,5 15 35 52,5 72,5 82,5 90 Interv.Per (0 a 2.5) (2.5 a 7.5) (7.5 a 15) (15 a 35) (35 a 52.5) (52.5 a 72.5) (72.5 a 82.5) (82.5 a 90) Per.Medio 1.25 5 11.25 25 43.75 62.5 77.5 86.25

8 9

2 2

38 40

0,05 0,05

0,95 1

95 100

(90 a 95) 95 a 100)

92.5 97.5

Con esta tabla es muy fcil de calcular las medidas del Grupo n 3. a) Se pueden calcular la mediana, deciles y percentiles con la columna Intervalo Percentlico, as: Me=4 ; Q1= P25 = 3 ; P70 = 5. Cmo se ve en la tabla, ya estn explicitados la mayora de los percentiles. Para aquellos que estn en el limite de dos valores de la variable, se puede tomar un valor terico entre ambos, como: 2+3 7 +8 = 2.5 o D9 = P90= = 7.5 2 2 Observacin: Si los percentiles hay que expresarlos en valores reales que toma la variable, el percentil k , Pk es el valor ms pequeo de la variable tal que su frecuencia K relativa acumulada Fi es mayor que 100 b) Tambin se puede utilizar esta columna y la siguientes para estudiar la posicin de un individuo respecto del grupo as: P15 = De una persona que ha obtenido un 3 se puede decir que con respecto del total de la clase: - Tiene un 15 % de compaeros con nota inferior a l y un 100 -35 = 65% de compaeros con nota superior a l.

14

- En una escala de 0 a 100 ocupara el puesto 252. Veamos otro ejemplo de percentiles correspondiente a un conjunto de automviles todoterreno resuelto con SPSS. Percentiles 5 10 25 50 75 90 95 1709558.30 2017900.80 2707230.00 3730000.00 4687203.00 6520542.20 9356288.00 pvp Comentarios: - El 10% de los coches ms baratos no superan el precio de 2.017.900,80 pts. - Con precios menores de 3.730.000 pts. tenemos a la mitad de los coches. - El 5% de los coches todoterreno ms caros parten de 9.356.288 pts. En Variables de intervalo: - Se puede hablar del intervalo mediano. - Se puede utilizar la marca de clase y hallarlo de la manera cuantitativa vista antes. - Se puede suponer que los datos estn distribuidos uniformemente en el intervalo y buscar, geomtricamente, el valor de la medida a hallar. Comparacin entre la Media y la Mediana: Cuando una distribucin muestra varias modas o valores atpicos muy alejados del resto, se dice que es heterognea. La media aritmtica es, sin duda, la preferida entre las medidas de posicin al utilizar toda la informacin dada por los datos, pero es muy sensible a la aparicin de observaciones atpicas, datos anormales o a algn error de medida. Estos hechos pueden modificar totalmente la media; por el contrario, la mediana, utilizando menos informacin que la media, es menos sensible a estos hechos, y en los casos citados anteriormente es preferible utilizar la mediana que la media. Esta propiedad de la mediana es los que se denomina Robustez. Diremos, por tanto, que la mediana es un estadstico robusto y no as la media. Esta robustez de la mediana la hace especialmente indicada para tomar el valor ms representativo de un grupo de mediciones sobre un mismo objeto, donde el instrumento de medida es poco fiable; as, si tomamos cinco medidas, la mediana o valor central eliminara las cuatro extremas. La media recortada, definida antes, es ms robusta que la media aritmtica pero menos que la mediana Si la media y la mediana estn muy alejadas, es seal de heterogeneidad de los datos y, en este supuesto, conviene revisarlos porque es fcil que haya algn valor extrao, previsiblemente, errneo. Diagrama de Caja El Diagrama de Caja es una representacin semigrfica de una distribucin, construida para mostrar sus caractersticas principales y sealar posibles datos atpicos, es decir, aquellas observaciones que parecen ser distintas de las dems. Un diagrama de caja se construye como sigue: 1) Ordenar los datos de la muestra y obtener el valor mnimo, el mximo y los tres cuartiles Q1,Q2 y Q3 2) Dibujar un rectngulo cuyos extremos son Q1 y Q3 e indicar la posicin de la mediana (Q2) mediante una lnea.
2

Observemos que la escala percentlica es la medida de posicin ms genuina y clara.

15

3) Calcular unos lmites admisibles superior e inferior que van a servir para identificar los valores atpicos y los valores extraos. Estos lmites se calculan as: LI= Q1-1,5(Q3- Q1) LS= Q3+ 1,5 (Q3 Q1) y LEI= Q1-3(Q3- Q1) LES= Q3+ 3 (Q3 Q1). 4) Considerar como valores atpicos los situados en los intervalos (LEI , LI) y (LS, LES) y valores extraos los situados fuera del intervalo (LEI , LES) 5) Completar el rectngulo dibujado en 2) con una lnea que va por un lado hasta LI y por otro hasta LS. 6) Identificar todos los datos que estn fuera del intervalo (LI, LS), marcndolos como atpicos o extraos segn sea el caso. En el ejemplo que sigue se ve que existe un valor atpico, Lola y dos extraos, Lus y Pepe.

5000

Pepe

4000
S

Luis

peso

3000
A

lola

2000

1000

1.1.2.3.1._ Medidas de Dispersin: Las medidas de dispersin, como su nombre indica, nos miden el grado de separacin, en general respecto de la media y en algunas respecto de la mediana, que presentan los datos. Los estadsticos ms importantes son la varianza y sus asociados: Desviacin tpica y coeficiente de variacin de Pearson: ( x i x )2 Varianza V = . Si los datos estn agrupados la expresin de la varianza N ni ( x i x )2 es. V= N Observemos que la varianza exagera los extremos, lo cual es importante ya que estos valores extremos son los que ms interesa resaltar. Se puede desarrollar esta frmula y queda: ni x i2 V= - X 2 . La Varianza se mide en las mismas unidades que los datos pero al N cuadrado. Desviacin tpica S = que los datos. V . La desviacin tpica est medida en las mismas unidades

16

S multiplicado por 100. X El coeficiente de variacin en datos positivos de una poblacin homognea es menor que 100. Si este coeficiente es mayor de 100 conviene investigar posibles fuentes de heterogeneidad en los datos: medidas hechas con diferentes instrumentos, presencia en la poblacin o muestra de personas de distinto sexo, observaciones tomadas en diferentes momentos temporales o simples errores de transcripcin, por citar algunos. Al ser una medida adimensional, este coeficiente es especialmente til para comparar las dispersiones de poblaciones distintas. Observemos que todas las medidas de dispersin, salvo el coeficiente de variacin de Pearson, dependen de la escala de medida. Coeficiente de variacin de Pearson Cv= Recorrido R= Valor mximo - Valor mnimo. Recorrido intercuartilico = Q3-Q1. El Recorrido intercuartlico es interesante porque evita los efectos de los valores extremos. 1.1.2.3.3.- Medidas de forma de la distribucin Una primera caracterizacin de la forma de una distribucin de frecuencias, que se obtiene directamente de los histogramas de frecuencias, consiste en ver si es unimodal, bimodal o multimodal. As:

Unimodal a) Medidas de asimetra.

Bimodal

Trimodal

n (x
i i

x )3

El coeficiente de asimetra se define como g1 =

N 3 S

g1>0. Asimetra a la derecha

g1= 0 . Simtrica

g1< 0

Asimetra a la izquierda

b) Medidas de apuntamiento El coeficiente de apuntamiento o curtosis se define como

n (x
i i

x )4 -3

g2=

N 4 S

17

Si g2< 0 est menos apuntada que la Normal 3

g2= 0 igual apuntada que la Normal

g2>0 est ms apuntada que la Normal.

1.1.2.4.-Estudio de la Normalidad de los datos: La mayora de los estudios y tcnicas estadsticas necesitan que los datos provengan de una distribucin Normal. Existen pruebas para determinar si una distribucin se puede considerar Normal. Veamos algunas de ellas: A) Grficamente : Consiste en comparar el Diagrama de Frecuencias o Histograma con la curva Normal ( Campana de Gauss), lo hemos visto en el histograma de la izquierda.. B) Utilizando al coeficiente de Curtosis o el de Asimetra, en ambos casos vale 0 para la distribucin Normal. Cuanto ms se alejen de 0, ms se alejan de la Normal. C) Tambin, una manera de controlar la normalidad de una muestra es conociendo la propiedad que tienen todas las distribuciones Normales que es: - El 95,5% de los datos tiene que estar dentro del intervalo X 2S. - El 99,7% de los datos tiene que estar dentro del intervalo X 3S. Al final del captulo veremos las herramientas que ms se utilizan para probar la Normalidad de los datos y que son ms precisas que las enumeradas arriba, como el Grfico QQ o la Prueba de Kolmogorov-Smirnov-Lilliepov. 1.1.2.5.-Estudio de la existencia de valores atpicos o extraos.Disponemos de herramientas para detectar valores atpicos o extraos en variables ordinales o cuantitativas, las ms utilizadas son: El coeficiente de variacin de Pearson Cv. Si es mayor de 100 nos indica la previsible presencia de valores atpicos. Comparar la media con la mediana.- Una diferencia grande entre ellas sera indicio de la presencia de estos valores. El Diagrama de Caja y Bigotes.- Nos detecta y nos seala los valores atpicos o extraos existentes..

RESUMEN: En los anlisis exploratorios de datos, la estadstica nos proporciona herramientas para facilitar el resumen y la comprensin de los mismos, estas herramientas sern ms complejas y
3

Nos referimos a la Normal Estandarizada o Normal (0,1)

18

precisas a medida que aumenta la calidad de las variables Nominales < Ordinales < Cuantitativas. Como sntesis del tema, veamos un resumen de las herramientas bsicas en Estadstica Descriptiva de una variable:

Tipo de Variable Caractersticas de la variable Cualitativa en escala Solamente permiten clasificar y nominal distinguir los elementos de la poblacin Cualitativa ordinal Adems de las propiedades propias de la escala nominal, estas variables permiten establecer un orden. Cuantitativa en Toma valores numricos y, escala de intervalo o como tal, permite hacer las razn operaciones matemticas corrientes. Existen cuatro escalas posibles, segn que la variable sea: discreta, continua, de intervalo5 o de razn.

Estadsticos y Grficos Distribuciones de frecuencias relativas y absolutas. Moda. Diagrama de barras. Diagramas de Sectores Adems de las anteriores: - Mnimo y Mximo. - Percentiles - Diagrama de caja.4 Adems de las anteriores: Medias. Medidas de dispersin. Medidas de posicin y forma. Histograma Grfico de tallo y hojas Grfico de puntos

A partir de la base de Datos de la Encuesta USA, vamos a hacer un estudio resuelto con la aplicacin SPSS 10.A.- Anlisis descriptivo de una variable nominal.En el cuadro de dilogo :

Regin de los Estados Unidos Frecuencia 443 256 259 958 Porcentaje 46,2 26,7 27,0 100,0 Porcentaje vlido 46,2 26,7 27,0 100,0 Porcentaje acumulado 46,2 73,0 100,0

Vlidos

Nor-Este Sur-Este Oeste Total

Observemos que el nico estadstico que se puede hallar es la moda, pero no es necesario porque en la tabla de distribucin de frecuencias se observa que es la regin Nort-

Solo cuando tengamos bastantes datos En el caso de variables de intervalo, salvo para hallar el Histograma, para las cuentas se utilizar la marca de clase.
5

19

Este la que mayor nmero de personas aporta a la encuesta, asimismo, vemos que la ltima columna de la tabla no tiene ningn sentido.

Regin de los Estados Unidos


50

40

30

20

Porcentaje

10

0 Nor-Este Sur-Este Oeste

Regin de los Estados Unidos

B.- Anlisis descriptivo de una variable ordinal


Ayudar a otros es Frecuencia 121 307 326 172 32 958 Porcentaje 12,6 32,0 34,0 18,0 3,3 100,0 Porcentaje vlido 12,6 32,0 34,0 18,0 3,3 100,0 Porcentaje acumulado 12,6 44,7 78,7 96,7 100,0

Vlidos

Lo ms importante Lo 2 ms importante Lo 3 ms importante Lo 4 ms importante Poco importante Total

Observamos, fijndonos en la columna ltima, que la mediana est en el valor Lo 3 ms importante y el percentil 80 en el valor de la variable lo 4 ms importante. Los grficos seran los mismos que para las nominales. Se podra pensar en el diagrama de caja, pero dada la magnitud de la muestra y los pocos valores diferentes de la variable, no ha lugar hallarlo.

20

C) Anlisis descriptivo para una variable cuantitativa.Estadsticos Edad del encuestado N Vlidos Perdidos Media Mediana Moda Desv. tp. Percentiles 20 25 50 75 958 0 45,04 41,00 35 17,46 29,00 32,00 41,00 58,00

Comentario : Observamos, entre otras cosas, que la media de edad de los encuestados es de 45,04 aos, que el punto medio de las edades (Mediana) es 41 aos o que con 29 o menos aos tenemos al 20 % de los encuestados. A partir de la desviacin tpica, sera interesante hallar el Coeficiente de Variacin Desviacin.tpica 17,46 Cv= = x100 = 38,76 que al ser <100 se puede considerar la poblacin media 45,04 homognea.
Edad del encuestado
140 120 100 80 60 40 20 0 20,0 25,0 30,0 35,0 40,0 45,0 50,0 55,0 60,0 65,0 70,0 75,0 80,0 85,0 90,0 Desv. tp. = 17,46 Media = 45,0 N = 958,00

Frecuencia

Edad del encuestado

El histograma parece indicarnos normalidad de los datos, si bien, con una ligera asimetra a la derecha.

21

22

También podría gustarte