Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Libro de Estadistica 1
Libro de Estadistica 1
Estadstica Descriptiva y
Probabilidades
Estadstica Descriptiva
Introduccin
Cualquiera que sea la actividad que realiza una persona, siempre se enfrentar al reto de
tomar decisiones. Cada da, iniciamos un juego en decisiones que va de la mano con
nuestro trabajo diario. Del mismo modo, para la gestin diaria de una empresa, de un
sector, de un pas, etc. se requiere tomar continuamente decisiones; por ejemplo, para dar
una medida econmica sobre modificacin de aranceles a los productos importados se
pueden tener algunas interrogantes como: De qu manera afectaran las medidas a otros
sectores productivos? Generarn condiciones favorables para una mejora en la
tecnologa? Permitirn generar una mayor oferta de trabajo?, etc. Para tomar una decisin
al respecto es necesario tener informacin sobre el comportamiento de los diferentes
sectores econmicos y de la forma como se relacionan entre s. Obviamente, para esto se
requiere disponer de datos apropiados (suficientes, oportunos y de buena calidad), de
metodologas y procesos que permitan alcanzar el conocimiento deseado de la realidad
sobre la cual se tomaran decisiones. La estadstica tambin brinda apoyo a otras ciencias
mediante el desarrollo de procesos dirigidos a la aceptacin y anlisis de datos; de esta
manera, se pueden asociar ciertos niveles de confiabilidad con los procesos de toma de
decisiones.
Estadstica Descriptiva
I.
PRINCIPALES DEFINICIONES
1. ESTADSTICA
Ciencia que proporciona un conjunto de mtodos y tcnicas que se utilizan para
recolectar, organizar, presentar, analizar e interpretar el comportamiento de los
datos con respecto a una caracterstica materia de estudio e investigacin. En
primer lugar se encarga de obtener informacin, describirla y luego en base a esta
informacin, realizar predicciones y una ptima toma de decisiones frente a la
incertidumbre.
El objeto de estudio de la Estadstica ES EL ESTUDIO DE LOS DATOS: Hacer una
inferencia ptima a partir de los datos, para la toma de decisiones.
1.1. QUIN UTILIZA LA ESTADSTICA?
Las tcnicas estadsticas se aplican de manera muy general en mercadotecnia,
contabilidad, control de calidad, estudio de consumidores, administradores de
instituciones, en la educacin, rganos polticos, en la medicina y por diferentes
profesionales que intervienen en la toma de decisiones.
1.2. DIVISIN DE LA ESTADSTICA: El campo de la estadstica generalmente
est divido en dos grandes reas: Estadstica Descriptiva o Deductiva y
Estadstica Inferencial o Inductiva.
1.2.1. ESTADSTICA DESCRIPTIVA:
Es el conjunto de mtodos que implican la recoleccin, presentacin y
caracterizacin de un conjunto de datos a fin de describir en forma
apropiada las diversas caractersticas de estas. Es decir, un estudio
estadstico se considera descriptivo cuando slo se analiza y describe
un conjunto datos de una muestra o de una poblacin sin sacar
conclusiones de tipo general.
1.2.2. ESTADSTICA INFERENCIAL:
La inferencia estadstica es un conjunto de mtodos o tcnicas que
posibilitan la generalizacin o toma de decisiones en base a una informacin
parcial obtenida mediante tcnicas descriptivas.
En este aspecto es inferir o predecir conclusiones que ataen a toda fuente
de informacin de donde provienen los datos. Ahora bien esta prediccin se
hace con un cierto grado de confianza; este grado de confianza se mide por
la probabilidad.
2. OBJETIVOS GENERALES DE LA ESTADSTICA:
La estadstica tiene tres objetivos:
2.1 Describir colecciones de datos empricos
2.2 Inferir las propiedades de una poblacin.
2.3 Realizar predicciones sobre el comportamiento de fenmenos.
Estadstica Descriptiva
2.1. DESCRIBIR COLECCIONES DE DATOS EMPRICOS: Para lograr este
objetivo general de la estadstica es necesario realizar algunos procesos bsicos,
tales como:
-
El muestreo estadstico.
La estimacin estadstica.
El clculo de probabilidades.
Las pruebas estadsticas.
Estadstica Descriptiva
POBLACIN (N)
POBLACIN
OBJETIVO
POBLACIN
MUESTREADA
MUESTRA (n)
UNIDAD DE
ANLISIS
UNIDAD DE
MUESTREO
MARCO DE
MUESTREO
DOMINIOS
CENSO
CARACTERES
Estadstica Descriptiva
Un carcter puede mostrar distintas modalidades o valores, es decir, son
distintas manifestaciones o situaciones posibles que puede presentar un
carcter estadstico. Las modalidades o valores son incompatibles y
exhaustivos.
MODALIDAD
VALOR
VARIABLE
ESTADSTICA
OBSERVACIONES
PARMETROS.
ESTADGRA
FOS.
Estadstica Descriptiva
4. ETAPAS EN LA INVESTIGACIN ESTADSTICA
El mtodo estadstico, parte de la observacin de un fenmeno, y como no puede
siempre mantener las mismas condiciones predeterminadas o a voluntad del
investigador, deja que acten libremente, pero se registran las diferentes observaciones
y se analizan sus variaciones.
Para el planeamiento de una investigacin, por norma general, se siguen las
siguientes etapas:
4.1. Planteamiento del problema.
4.2. Fijacin de los objetivos.
4.3. Formulacin de la hiptesis.
4.4. Definicin de la unidad de observacin y de la unidad de medida
4.5. Determinacin de la poblacin y de la muestra.
4.6. La recoleccin.
4.7. Crtica, clasificacin y ordenacin.
4.8. Tabulacin.
4.9. Presentacin.
4.10. Anlisis.
4.11. Publicacin.
4.1.PLANTEAMIENTO DEL PROBLEMA
Al abordar una investigacin se debe tener bien definido qu se va a investigar y
por qu se pretende estudiar algo. Es decir, se debe establecer una delimitacin
clara, concreta e inteligible sobre el o los fenmenos que se pretenden estudiar,
para lo cual se deben tener en cuenta, entre otras cosas, la revisin bibliogrfica
del tema, para ver su accesibilidad y consultar los resultados obtenidos por
investigaciones similares, someter nuestras proposiciones bsicas a un anlisis
lgico; es decir, se debe hacer una ubicacin histrica y terica del problema.
4.2.FIJACIN DE LOS OBJETIVOS
Luego de tener claro lo que se pretende investigar, Debemos presupuestar hasta
dnde queremos llegar; en otras palabras, debemos fijar cules son nuestras metas
y objetivos.
Estos deben plantearse de tal forma que no haya lugar a confusiones o
ambigedades y debe, adems, establecerse diferenciacin entre lo de corto,
mediano y largo plazo, as como entre los objetivos generales y los especficos.
4.3. FORMULACIN DE LAS HIPTESIS
Una hiptesis es ante todo, una explicacin provisional de los hechos objeto de
estudio, y su formulacin depende del conocimiento que el investigador posea
sobre la poblacin investigada. Una hiptesis estadstica debe ser susceptible de
docimar, esto es, debe poderse probar para su aceptacin o rechazo.
Una hiptesis que se formula acerca de un parmetro (media, proporcin,
varianza, etc.), con el propsito de rechazarla, se llama Hiptesis de Nulidad y se
representa por Ho; a su hiptesis contraria se le llama Hiptesis Alternativa (H1).
4.4. DEFINICIN DE LA UNIDAD DE OBSERVACIN Y DE LA UNIDAD
DE MEDIDA
La Unidad de Observacin, entendida como cada uno de los elementos
constituyentes de la poblacin estudiada, debe definirse previamente, resaltando
6
Estadstica Descriptiva
todas sus caractersticas; pues, al fin de cuentas, es a ellas a las que se les har la
medicin.
La unidad de observacin puede estar constituida por uno o varios individuos u
objetos y denominarse respectivamente simple o compleja.
El criterio sobre la unidad de medicin debe ser previamente definido y unificado
por todo el equipo de investigacin. Si se trata de medidas de longitud, volumen,
peso, etc., debe establecerse bajo qu unidad se tomarn las observaciones ya sea
en metros, pulgadas, libras, kilogramos, etc.
Asociado a la unidad de medida, deben establecerse los criterios sobre las
condiciones en las cuales se ha de efectuar la toma de la informacin.
4.5. DETERMINACIN DE LA POBLACIN Y DE LA MUESTRA.
Estadsticamente, la poblacin se define como un conjunto de individuos o de
objetos que poseen una o varias caractersticas comunes. No se refiere esta
definicin nicamente a los seres vivientes; una poblacin puede estar constituida
por los habitantes de un pas o por los peces de un estanque, as como por los
establecimientos comerciales o las unidades de vivienda de una ciudad.
Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas.
Muestra es un subconjunto de la poblacin a la cual se le efecta la medicin con
el fin de estudiar las propiedades del conjunto del cual es obtenida.
En la prctica, estudiar todos y cada uno de los elementos que conforman la
poblacin no es aconsejable, ya sea por la poca disponibilidad de recursos, por la
homogeneidad de sus elementos, porque a veces es necesario destruir lo que se
est midiendo, por ser demasiado grande el nmero de sus componentes o no se
pueden controlar; por eso se recurre al anlisis de los elementos de una muestra
con el fin de hacer inferencias respecto al total de la poblacin. Existen diversos
mtodos para calcular el tamao de la muestra y tambin para tomar los elementos
que la conforman, pero no es el objetivo de este curso estudiarlos. Diremos
solamente que la muestra debe ser representativa de la poblacin y sus elementos
escogidos al azar para asegurar la objetividad de la investigacin.
4.6. LA RECOLECCIN
Una de las etapas ms importantes de la investigacin es la recoleccin de la
informacin, la cual ha de partir, a menos que se tenga experiencia con muestras
anlogas, de una o varias muestras piloto en las cuales se pondrn a prueba los
cuestionarios y se obtendr una aproximacin de la variabilidad de la poblacin,
con el fin de calcular el tamao exacto de la muestra que conduzca a una
estimacin de los parmetros con la precisin establecida.
El establecimiento de las fuentes y cauces de informacin, as como la cantidad y
complejidad de las preguntas, de acuerdo con los objetivos de la investigacin son
decisiones que se han de tomar teniendo en cuenta la disponibilidad de los
recursos financieros, humanos y de tiempo y las limitaciones que se tengan en la
zona geogrfica, el grado de desarrollo, la ausencia de tcnica, etc.
Es, entonces, descubrir dnde est la informacin y cmo y a qu "costo" se
puede conseguir; es determinar si la encuesta se debe aplicar por telfono, por
correo, o si se necesitan agentes directos que recojan la informacin; establecer su
nmero ptimo y preparar su entrenamiento y/o capacitacin adecuada.
Estadstica Descriptiva
4.7. CRITICA, CLASIFICACIN Y ORDENACIN
Despus de haber reunido toda la informacin pertinente, se necesita la
depuracin de los datos recogidos. Para hacer la crtica de una informacin, es
fundamental el conocimiento de la poblacin por parte de quien depura para poder
detectar falsedades en las respuestas, incomprensin a las preguntas, respuestas al
margen, adems de todas las posibles causas de nulidad de una pregunta o nulidad
de todo un cuestionario.
Separado el material de "desecho" con la informacin depurada se procede a
establecer las clasificaciones respectivas y con la ayuda de hojas de trabajo, en las
que se establecen los cruces necesarios entre las preguntas, se ordenan las
respuestas y se preparan los modelos de tabulacin de las diferentes variables que
intervienen en la investigacin.
El avance tecnolgico y la popularizacin de los computadores hacen que estas
tareas, manualmente dispendiosas, puedan ser realizadas en corto tiempo.
4.8. LA TABULACIN.
Una tabla es un resumen de informacin respecto a una o ms variables, que
ofrece claridad al lector sobre lo que se pretende describir; para su fcil
interpretacin una tabla debe tener por lo menos: Un ttulo adecuado el cual debe
ser claro y conciso. La Tabla propiamente dicha con los correspondientes
subttulos internos y la cuantificacin de los diferentes tems de las variables, y las
notas de pie de cuadro que hagan claridad sobre situaciones especiales de la tabla,
u otorguen los crditos a la fuente de la informacin.
4.9. LA PRESENTACIN
Una informacin estadstica adquiere ms claridad cuando se presenta en la forma
adecuada. Los cuadros, tablas y grficos facilitan el anlisis, pero se debe tener
cuidado con las variables que se van a presentar y la forma de hacerlo. No es
aconsejable saturar un informe con tablas y grficos redundantes que, antes que
claridad, crean confusin.
Adems la eleccin de determinada tabla o grfico para mostrar los resultados,
debe hacerse no slo en funcin de las variables que relaciona, sino del lector a
quien va dirigido el informe.
4.10. EL ANLISIS
La tcnica estadstica ofrece mtodos y procedimientos objetivos que convierten
las especulaciones de primera mano en aseveraciones cuya confiabilidad puede
ser evaluada y ofrecer una premisa medible en la toma de una decisin.
Es el anlisis donde se cristaliza la investigacin. Esta es la fase de la
determinacin de los parmetros y estadsticos muestrales para las estimaciones e
inferencias respecto a la poblacin, el ajuste de modelos y las pruebas de las
hiptesis planteadas, con el fin de establecer y redactar las conclusiones
definitivas.
4.11. PUBLICACIN
Toda conclusin es digna de ser comunicada a un auditorio. Es ms, hay otros
estudiosos del mismo problema a quienes se les puede aportar informacin,
conocimientos y otros puntos de vista acerca de l.
8
Estadstica Descriptiva
5. MTODOS PARA RECOLECTAR DATOS:
Existen tres principales mtodos con los cuales el investigador puede obtener los datos:
5.1. El investigador puede recurrir a datos ya publicados por fuentes gubernamentales,
industrias, compaas o individuales.
5.2. El investigador puede disear un experimento para obtener los datos necesarios.
5.3. Puede efectuar una encuesta.
5.1. FUENTES DE INFORMACIN: Es el lugar, la institucin, la persona, donde
estn los datos que se necesitan para cada una de las variables o aspectos de la
investigacin. Las fuentes de datos pueden ser:
5.1.1. FUENTES DE DATOS INTERNOS. Es la informacin recopilada por la
empresa de los resultados de una propia gestin.
Ejemplo:
reportes financieros
Reportes de operaciones, que estn dadas por la informacin de la
produccin, compras, ventas, estados de prdida y ganancias.
Reportes especiales, es la informacin adicional para el anlisis estadstico.
Estadstica Descriptiva
MTODOS DE RECOLECCIN. Cuando es utilizada una fuente primaria para
recolectar informacin se distinguen dos procedimientos fundamentales: La observacin y
el interrogatorio.
MTODOS DE INTERROGATORIOS.
El interrogatorio puede hacerse mediante dos mtodos:
Mtodo directo (se efecta por medio de entrevistas)
Mtodo indirecto (se efecta por medio de cuestionarios)
SISTEMAS DE RECOLECCIN.
Son procedimientos que se utilizan para recoger informacin.
Pueden ser:
a) Los Registros: son libros, padrones en donde se anotan en forma regular,
permanente y obligatoria los hechos ocurridos.
Ejemplo: Registros Civiles, RENIEC, Registros Pblicos, etc.
b) Las Encuestas:son procedimientos de obtencin de informacin estructurada
segn criteriosprevios de sistematizacin que se efecta con un propsito especfico
en la poblacin o en un sector de ella. Pueden ser:
b.1) Encuesta Censal:Cuando abarca toda la poblacin en estudio.
Ejemplo: censos de poblacin y vivienda en una localidad o pas
b.2) Encuesta Muestral:Cuando abarca una parte de la poblacin en estudio.
Ejemplo: llevar a cabo una encuesta de preferencia electoral.
TCNICAS DE RECOLECCIN
Son procedimientos que se utilizan para recolectar informacin segn la naturaleza del
trabajo de investigacin. Pueden ser:
a) La observacin: Es la accin de mirar con rigor, en forma sistemtica y profunda,
con el inters de descubrir la importancia de aquello que se observa.
b) El cuestionario: En un instrumento constituido por un conjunto de preguntas
sistemticamente elaboradas que se formulan al encuestado o entrevistado con el
propsito de obtener datos de las variables consideras en estudio.
c) La entrevista: Es un dialogo entre personas, es una tcnica donde una persona
llamada entrevistador, encuestador o empadronador solicita al entrevistado le
proporcione algunos datos e informacin.
d) Anlisis de contenido: El fin o propsito del anlisis de contenido consiste en
determinar los puntos ms importantes de un documento para observar y reconocer
el significado de los mismos en sus elementos, como palabras, frases, etc., y en
clasificarlos adecuadamente para su anlisis y explicacin.
DATO: Es el valor que toma una variable en cada unidad de anlisis. Los datos estn
clasificados en:
10
Estadstica Descriptiva
SEGN EL NMERO DE VARIABLES.
1.
VARIABLE.
Es una caracterstica de la poblacin que se va investigar y que puede tomar diferentes
valores.
Ejemplo.
Las horas extras trabajadas por los trabajadores de una empresa y los valores de esta
variable vendran dadas por las diferentes horas trabajados por cada trabajador fuera de
la jornada normal: ninguna, una, dos, tres, .
Notacin. Las variables se denotaran por X, Y, etc.
Las variables se clasifican en: cualitativas y cuantitativas.
VARIABLE CUALITATIVA.
Se llama as, cuando la variable est asociada a una caracterstica cualitativa. Es decir,
son variables cuyos valores son cualidades que presenta la poblacin.
Ejemplos.
La variable profesin puede adoptar las modalidades: Ingeniero, Mdico, Bilogo,
Contador, Economista, etc.
Calidad de servicio del supermercado (Malo, Bueno, Muy Bueno, Excelente)
Estado civil o conyugal (Soltero, Casado, Viudo, Divorciado, Conviviente)
Rgimen de tenencia de la vivienda (Propia, Alquilada)
Estos datos a su vez se clasifican en: Nominales y ordinales
VARIABLE CUALITATIVA NOMINAL: Son aquellos que establecen distincin de
los elementos en las categoras sin implicar orden entre ellos.
Ejemplo:
Clasificar un grupo de individuos por sexo: masculino, femenino.
Por estado civil: soltero, casado, viudo. Etc.
11
Estadstica Descriptiva
VARIABLE CUALITATIVA ORDINAL.
Son aquellos datos que agrupan a los objetos, individuos, en categoras ordenadas, para
establecer relaciones comparativas. Es decir, se puede establecer un orden entre sus
atributos.
Ejemplo.
Calidad de servicio del supermercado (Malo, Bueno, Muy Bueno, Excelente)
Nivel de educacin (primaria, secundaria, superior).
VARIABLE CUANTITATIVA: Es el resultado de un proceso que cuantifica, es
decir, estas surgen cuando se puede establecer cuanto o en qu cantidad se posee una
determinada caracterstica.
Ejemplo:
Ingreso por familia
Nmero de ventas diarias de cierto establecimiento.
Nmero total de habitaciones que tiene la vivienda.
Longitud, tiempo, etc.
Las variables cuantitativas se dividen en discretas y continuas.
VARIABLE CUANTITATIVA DISCRETA. Son aquellas que surgen por el
procedimiento de conteo, suelen tomar valores enteros (positivos).
Ejemplo.
El nmero de hijos por familia.
Nmero de estudiantes por colegio, universidad.
VARIABLE CUANTITATIVA CONTINUA. Cuando el valor de la variable puede
tomar cualquier valor dentro de un rango dado, por tanto se expresa por cualquier
nmero real.
Ejemplo.
El peso, la estatura, la tensin arterial de las personas, los ingresos, el tiempo de
servicio, precio en soles, etc.
En general, todas las magnitudes relacionadas con el tiempo (edad, duracin de un
fenmeno,...), la masa (volumen; peso,.), el espacio (longitud, superficie,) o una
combinacin de estos (velocidad, densidad, capacidad,) son variables continuas.
MUESTREO
Para estudiar, analizar y evaluar una poblacin con el fin de efectuar un diagnostico
requerir de contar con informacin cuantitativa y cualitativa:
Representativa,
Oportuna,
Confiable y
Suficiente
Esto se lograr a travs de observaciones y mediciones sobre una muestra de elementos
adecuadamente elegidos de la poblacin bajo en estudio.
1) Poblacin y muestra.
Poblacin.
Conjuntos formado por todas las unidades de anlisis (elementos) que son
cobertura de la investigacin planteada.
12
Estadstica Descriptiva
2) Muestra. Es una parte o subconjunto representativo de la poblacin y al proceso de
obtener la muestra se le llama muestreo.
Motivos para la realizacin de un muestreo. Consideraciones necesarias
Imagine que va a realizar estudios para conocer la siguiente informacin:
El porcentaje de peruanos que tiene acceso a internet.
La duracin media de una determinada marca de pilas.
Para el primer caso, la poblacin a la que debes preguntar es de ms de 30 millones de
personas. Es obvio que entrevistar a ms de 30 millones de personas supone un gran
esfuerzo en varios sentidos.
Primero, de tiempo, y segundo de dinero, puesto que es necesario contratar a muchos
encuestadores, pagarles viajes para que lleguen a todos los pueblos, etc. Adems, hay una
dificultad aadida: es difcil llegar a todos y cada uno de los ciudadanos peruanos, ya que
cuando vayamos a entrevistar, habr personas que est de viaje fuera del pas, habr gente
que est enferma en el hospital, etc. En este caso, por motivos econmicos, de tiempo y de
dificultad de acceso a toda la poblacin, sera conveniente entrevistar a una cierta parte de
la poblacin, una muestra, elegida convenientemente para poder extraer despus
conclusiones a toda la poblacin.
En el segundo caso tenemos una problemtica diferente. Para poder estudiar la duracin de
una pila, debemos usarla hasta que se gaste, lo que nos impide volver a usar la pila. Es
decir, de alguna manera destruimos este elemento de la poblacin. Si quisiramos probar
todas y cada una de las pilas, nos quedaramos sin ellas. En este caso, de nuevo sera
conveniente estudiar slo un conjunto de esas pilas y luego extraer conclusiones ms
generales a partir del conjunto que hemos estudiado.
Por las razones anteriores, en muchos casos es conveniente el uso de muestras, pero para
que podamos extraer conclusiones, es importante que elijamos bien las muestras para
nuestros estudios.
Por ejemplo, para el caso del acceso a internet de los peruanos, elegir a 10 personas de 30
millones es insuficiente, no es representativo. Tampoco lo sera preguntarle, por ejemplo a
100 personas de Lima, o elegir a todos sus amigos y su familia. Hay cuestiones que
debemos especificar a la hora de elegir una muestra:
1. El mtodo de seleccin de los individuos de la poblacin (tipo de muestreo que se
va a utilizar).
2. El tamao de la muestra.
3. El grado de fiabilidad de las conclusiones que vamos a presentar, es decir, una
estimacin del error que vamos a cometer (en trminos de probabilidad).
Como ya hemos mencionado, la seleccin no adecuada de los elementos de la muestra
provoca errores posteriores a la hora de estimar las correspondientes medidas en la
poblacin. Pero podemos encontrar ms errores: el entrevistador podra no ser imparcial, es
decir, favorecer que se den unas respuestas ms que otras. Puede ocurrir tambin que, por
ejemplo, la persona que vayamos a entrevistar no quiera contestar a ciertas preguntas (o no
sepa contestar). Clasificamos todos estos posibles errores de la siguiente manera:
1. Error de sesgo o de seleccin: si alguno de los miembros de la poblacin tiene ms
probabilidad que otros de ser seleccionados. Imagine que queremos conocer el
grado de satisfaccin de los clientes de un gimnasio y para ello vamos a entrevistar
a algunos de 10 a 12 de la maana. Esto quiere decir que las personas que vayan
13
Estadstica Descriptiva
por la tarde no se vern representadas por lo que la muestra no representar a todos
los clientes del gimnasio. Una forma de evitar este tipo de error es tomar la muestra
de manera que todos los clientes tengan la misma probabilidad de ser
seleccionados.
2. Error o sesgo por no respuesta: Es posible que algunos elementos de la poblacin
no quieran o no puedan responder a determinadas cuestiones. O tambin puede
ocurrir, cuando tenemos cuestionarios de tipo personal, que algunos miembros de la
poblacin no contesten sinceramente. Estos errores son, en general, difciles de
evitar, pero en el caso de la sinceridad, se suelen incorporar cuestiones (preguntas
filtro) para detectar si se est contestando sinceramente.
Despus de lo que se acaba de ver, podemos decir que una muestra es sesgada
cuando no es representativa de la poblacin.
MTODOS DE MUESTREO.
Ya hemos hecho referencia a la importancia de la correcta eleccin de la muestra para que
sea representativa para nuestra poblacin pero cmo clasificamos las diferentes formas de
elegir una muestra? Podemos decir que hay dos tipos de muestreo:
Muestreo probabilstico: Es aquel en el que cada muestra tiene la misma
probabilidad de ser elegida de la poblacin en estudio.
Muestreo no probabilstico: Corresponden a las muestras en las cuales no hay
forma de conocer la probabilidad de los elementos de la poblacin y ser incluidos
como parte de la muestra.
Fortalezas y debilidades de los mtodos de muestreo:
MUESTREO PROBABILSTICO
FORTALEZAS
DEBILIDADES
Es aceptado con facilidad
Requiere de costos, marcos de muestreo
Asegura representatividad
Requiere de trabajos de campo costosos
Asegura muestras insesgadas
Requiere de supervisin rigurosa
Los resultados son generalizables
Permite calcular el error de muestreo
Permite hacer inferencias estadsticas
Probabilidad conocida de elegir a la
unidad como parte de la muestra
MUESTREO NO PROBABILSTICO
FORTALEZAS
Bajo costo y requiere menor tiempo
Elige solo a las unidades queridas
Permite entrar informacin inesperada
Diseo y cobertura flexible e informal
DEBILIDADES
No permite calcular errores de muestreo
Sus resultados no son generalizables
Pueden ser rechazadas por los usuarios
Puede haber sesgo en la seleccin
No permite hacer inferencia estadstica
Requiere de personal muy especializado
La supervisin es difcil de realizar
Probabilidad no conocida de elegir a la
unidad como parte de la muestra.
14
Estadstica Descriptiva
Seleccin de muestras bajo un enfoque cuantitativo.
Ante la necesidad de generar informacin cuantitativa representativa y confiable, el
mtodo a seguir para la seleccin del subconjunto de unidades de anlisis como muestra,
deber asegurar la representatividad de los elementos elegidos a fin de permitir al
investigador efectuar inferencias, extrapolaciones y generalizaciones de los resultados
encontrados hacia toda la poblacin objetivo; en este enfoque, se deber asegurar que la
muestra ser estadsticamente representativa con el fin de permitir:
15
Estadstica Descriptiva
Estimacin del total poblacional
Ejemplo.
Poblacin de alumnos matriculados en 5to. Ao de secundaria (N). N = 7 154 alumnos1.
Conociendo la poblacin de alumnos matriculados en 5to. Ao de secundaria.
La muestra inicial estara dado por:
Muestra inicial:
0 =
2
2 ( 1) + 2
Donde:
N = tamao de la poblacin.
Entonces: N = 7 154
16
Estadstica Descriptiva
p = probabilidad de xito. p = 0.5
q = probabilidad de fracaso. (1 p) = (1 0.5) = 0.5
e = precisin (Error mximo admisible) = 5%
Reemplazando:
1.962 0.5 0.5 7 154
0 =
= 365
0.052 (7 154 1) + 1.962 0.5 0.5
Muestra final corregida a encuestar:
=
365
1+
365
0
1+
= 347 .
7154
Se requerira encuestar a no menos de 347 estudiantes del 5to ao de secundaria para poder
tener una seguridad del 95%.
8. DISEO O ELABORACIN DE FORMULARIOS.
En toda actividad de carcter cientfico, lo que se hace en ltima instancia, es dar repuestas
a ciertas preguntas. De acuerdo con esto, necesitamos un documento donde plantear
preguntas y registrar sus respuestas, resultando as que una de las primeras y realmente
ms decisiva etapa en cualquier investigacin es la confeccin de formularios.
Antes de elaborar un formulario debe considerarse:
1. El propsito para el cual ser utilizado.
2. Circunstancias bajo las cuales se recogern la informacin.
Lo primero tiene importancia para decidir sobre los datos que se recogern y lo segundo
para la determinacin del tamao de muestra y del material ms conveniente.
9. PRINCIPIOS BSICOS QUE SE DEBEN TENER EN CUENTA EN LA
CONFECCIN DE FORMULARIOS.
En todo formulario se debe recoger slo los datos tiles y adecuados al estudio.
Formularios muy extensos conspiran contar la exacta recoleccin de los datos. Es pues,
entonces conveniente:
a. Hacer una lista de todos los datos que sean necesario recoger de acuerdo a la
finalidad del estudio.
b. Considerar cuales datos son factibles de recoger y exacta.
c. Limitar a aquellos datos prcticos a recoger y que se usar.
DECIDIR SOBRE EL ORDEN QUE SE ACEPTARAN LOS DATOS. Las preguntas
deben hacerse de manera lgica y ordenada. Por ejemplo, preguntas sobre ocupacin,
17
Estadstica Descriptiva
educacin, vivienda, y otras referentes a condiciones econmicas y sociales no deben estar
separadas.
CONSIDERAR COMO SE HARN LAS PREGUNTAS.
a. Considerar si hay alguna ambigedad en la pregunta como consecuencia de la
respuesta recibida.
b. Toda pregunta debe tener respuesta.
c. Debe usarse un leguaje claro y poco tcnico.
d. Evitar respuestas inducidas. Por ejemplo, Ud., nunca ha padecido de tuberculosis?
con esta pregunta estamos induciendo a la persona a que su respuesta sea negativa.
18
Estadstica Descriptiva
CASO PRCTICO DE DISEO DE ENCUESTA
Proyecto Gimnasio Sport Time
Un grupo de inversionistas ha formado una mediana empresa llamada Sport Time, cuyo
negocio es el servicio de preparacin y mantenimiento fsico de las personas. De acuerdo
con sus experiencias empresariales, este gimnasio ser dirigido a los integrantes del nivel
socio econmico A y B de la ciudad de Tingo Mara, teniendo como rea de influencia a la
ciudad. Sin embargo les gustara poder contar con mayor informacin del mercado con la
finalidad de crear y ofrecer un centro deportivo de calidad, incorporando los gustos y
preferencia del futuro cliente.
Frente a esta necesidad, uno de los socios propuso realizar una investigacin de mercado,
propuesta que fue aceptada por todos para tal efecto se procedi a determinar los
parmetros que definen correctivamente las caractersticas de la poblacin que conforma
su mercado:
1.- El segmento estar compuesto por hombres y mujeres con edades entre 18 y 60 aos.
2.- El gimnasio estar orientado al segmento A y B de la ciudad de Tingo Mara.
Una vez determinado estos parmetros se considero que los ms convenientes para realizar
esta investigacin era aplicar una encuesta cuyo proceso de elaboracin implica seguir los
siguientes pasos:
A.- Definir el propsito y los objetivos especficos.
B.- Disear la encuesta.
19
Estadstica Descriptiva
Solucin
A.- Propsito y Objetivos especficos de la encuesta.
Propsito: Sera evaluar las actitudes y preferencias de las personas respecto a los
gimnasios.
Objetivo Especfico: Se desea obtener informacin sobre caractersticas del consumidor
que permitan tipificarlo, determinar sus expectativas en cuanto al servicio:
Adems identificar la competencia y los niveles de precio vigente en el mercado.
OBJETIVOS ESPECIFICOS
CONSUMIDOR
Identificacin de hbitos
Intencin de compra
SERVICIO
COMPETENCIA
Identificacin de competidores
PRECIO
PREGUNTAS DE INVESTIGACIN
PREGUNTAS DE INVESTIGACIN
Acudes al gimnasio?
Por qu acudes al gimnasio?
Con que frecuencia vas al gimnasio?
Qu instalaciones utilizas con ms
frecuencia en el gimnasio?
A qu gimnasio acudes?
Desde cundo acude al gimnasio?
Asistiras a un gimnasio ubicado en
el centro de la ciudad?
PREGUNTAS DE INVESTIGACIN
Qu servicio te gustara encontrar
en el gimnasio?
Qu tipo de decoracin te
gustara encontrar?
PREGUNTAS DE INVESTIGACIN
Qu gimnasios conoces?
PREGUNTAS DE INVESTIGACIN
Cunto estara dispuesto a pagar
mensualmente por el servicio?
20
Estadstica Descriptiva
B). Diseo de Encuesta.
1. Asiste Ud. a gimnasios?
a. Si (pasar a la pregunta 3)
b. No (pasar a la pregunta 2)
2. Le gustara asistir a un gimnasio?
a. Si (pasar a la pregunta 3)
b. No (fin de la encuesta)
3. Con que frecuencia asiste y/o le
gustara asistir gimnasio?
a. Diariamente.
b. Una vez por semana.
c. Dos veces por semana.
d. Tres veces por semana.
4. Qu tipo de servicios prefieres
utilizar en el gimnasio?
a. Aerbicos.
b. Pesas.
c. Baile.
d. Masajes.
e. Otros. (Especifique).
5. Con quien acude al gimnasio?
a. Solo.
b. Amigo(a).
c. Pareja.
d. Familia.
e. Otros (Especifique).
6. A qu gimnasio asiste?
.
7. Qu gimnasio conoce?
a. Benavides
b. Universal Gym
c. Shape spa
d. Alan Wong Spa
f. Otros (Especifique).
6 : 00 am a 8 : 00 am
8 : 00 am a 10 : 00 am
10 : 00 am a 12 : 00 am
12 : 00 am a 2 : 00m
12 : 00 m a 4 : 00 pm
4 : 00 pm a 6 : 00 pm
6 : 00 pm a 8 : 00 pm
8 : 00 pm a 10 : 00 pm.
21
Estadstica Descriptiva
VALIDEZ Y CONFIABILIDAD DE LOS INSTRUMENTOS DE MEDICIN
(ENCUESTAS):
Estos procesos se aplican en el desarrollo de una investigacin, con la finalidad de evaluar
la consistencia del diseo de la estructura de los instrumentos de recoleccin que se usaran
para el acopio y recoleccin de la informacin necesaria para la ejecucin de una
investigacin.
II.- CONFIABLIDAD DE LOS INSTRUMENTOS (Encuestas):
La confiabilidad de un instrumento de medicin, se refiere al grado en que su
aplicacin repetida al mismo sujeto u objeto produce resultados iguales.
La confiabilidad de un instrumento se refiere a la constitucin interna de las personas, a la
mayor o menor acescencia de errores de medida. Un instrumento confiable significa que si
lo aplicamos por ms de una vez a un mismo elemento entonces obtendramos
iguales resultados.
METODOS PARA CALCULAR LA CONFIABILIDAD DE UN INSTRUMENTO
DE MEDICIN:
Hay diversos mtodos para determinar la confiabilidad de un instrumento de medicin.
Todos utilizan frmulas que producen coeficientes de confiabilidad estos coeficientes
pueden oscilar entre 0 y 1, donde un coeficiente de o significa nulo confiabilidad y 1
representa un mximo de confiabilidad (confiabilidad total).
CONFIABILIDAD
Muy Baja
Baja
Regular
Aceptada
0
0%
Elevada
1
100%
=1 (=1 )(=1 )
2
[ =1 2 (=1 ) ] [ =1 2 (=1 ) ]
Donde:
n = Nmero de parejas.
Xi : valores obtenidos en el momento 1
Yi : valores obtenidos en el momento 2
22
Estadstica Descriptiva
2.2.- METODO DE DIVIDIR EN MITADES (Ver Ejemplo en el presente mdulo)
Consiste en calcular el coeficiente de correlacin de Pearson entre las dos mitades de cada
factor (pares o impares) de los elementos y luego corregir los resultados segn la frmula
de Sperman Brown, que es una frmula de correccin, que da como resultado un
estmulo corregido de confiabilidad. Este mtodo requiere solo una aplicacin de la
medicin. Especficamente el conjunto total de tems (o componentes) se divide en
dos mitades y se comparan las puntuaciones o los resultados de ambas. Si el
instrumento es confiable, las puntuaciones de ambas mitades deben estas muy
correlacionadas.
Procedimiento de dos mitades (divisn de items en pares e impares)
Primero : Se calcula el ndice de Correlacin (Pearson)
=1 (=1 )(=1 )
[ =1 2 (=1 ) ] [ =1 2 (=1 ) ]
Alumnos
Items
II
5
4
4
5
2
3
I
3
5
4
4
1
4
Campos (1)
Gmez (2)
Linares (3)
Rodas (4)
Saavedra (5)
Tafur (6)
III
5
5
5
3
2
3
=
Impar Par
Xi
Yi Xi*Yi Xi2
8
5
40
64
10
4
40 100
9
4
36
81
7
5
35
49
3
2
6
9
7
3
21
49
44
23 178 352
Yi2
25
16
16
25
4
9
95
Reemplazando:
= 0.66
2r
1 r
= 0.79
R
Coeficiente de fiabilidad
23
Estadstica Descriptiva
CLCULO DEL COEFICIENTE:
2
[1
]
=
1
2
Donde:
K
: Es el nmero de tems.
2 : Sumatoria de varianzas de los tems.
2 : Varianza de la suma de los tems.
I
3
5
4
4
1
4
Items
II
5
4
4
5
2
3
III
5
5
5
3
2
3
PROCEDIMIENTO:
Paso 1: Calcular las varianzas de cada uno de los tems; en el cuadro de clculo.
Alumnos
Campos (1)
Gmez (2)
Linares (3)
Rodas (4)
Saavedra (5)
Tafur (6)
VAR. ( 2 )
I
3
5
4
4
1
4
1.90
Items
II
5
4
4
5
2
3
1.37
III
5
5
5
3
2
3
1.77
Suma de Items
13
14
13
12
5
10
= 10.97
5.03
Estadstica Descriptiva
Ejercicio 1. Con el fin de medir los niveles de actitud adversa hacia la fauna silvestre en
una comunidad rural, se propone aplicar la escala de medicin siguiente:
Asignando los puntajes de medicin a cada tem de ponderaciones iguales y partiendo de 1
tenemos:
[1 = Nunca (N), 2 = Pocas Veces (PV), 3 = A veces (AV), 4 = Muchas Veces (MV), 5 = Siempre
(S)]
=
Fuente: Elaboracin propia.
I3
I4
1
1
1
1
2
1
2
1
3
3
3
3
4
3
4
3
4
5
5
5
1.878
2.489
12.833
I5
2
2
2
2
3
3
5
5
5
5
2.044
I6
1
1
2
3
3
4
4
4
5
4
1.878
Total
8
7
10
12
18
18
24
24
29
29
= 70.54
= (
= 61 (1
12.833
70.54
) = 0.982
Donde:
n: Es el nmero items incluidos en la escala de medicin =6
S2j: Variancia del j-simo item de la escala =12.833
S2x: Variancia del puntaje total obtenido a travs de la escala de medicin = 70.54
Comentario:
De 10 agricultores entrevistados la fiabilidad de las respuestas de los 6 items segn el
coeficiente alfa de Cronbach ( = 0.982), indica que las respuestas o resultados de los
individuos entrevistados son muy consistentes, es decir presenta una confiabilidad
aceptable.
[1 = Nunca (N), 2 = Pocas Veces (PV), 3 = A veces (AV), 4 = Muchas Veces (MV),
5 = Siempre (S)]
25
Estadstica Descriptiva
Salida de SPSS vs 20.0:
Estadsticos de fiabilidad
Alfa de Cronbach
,982
I1
I1
I2
I3
I4
I5
I6
N de elementos
6
1,000
,929
,899
,906
,938
,803
,929
1,000
,979
,945
,938
,925
,899
,979
1,000
,905
,930
,893
,906
,945
,905
1,000
,867
,843
I5
I6
,938
,938
,930
,867
1,000
,828
,803
,925
,893
,843
,828
1,000
2,139
1,878
2,489
,611
1,325
N de
elementos
,062
Ejercicio 2. Estime el ndice de fiabilidad del cuestionario con base en la correlacin par
impar.
El coeficiente de fiabilidad par impar se calcula con base en la correlacin entre los
puntajes totales obtenidos con los tems pares e impares utilizando la funcin EXCEL:
Suma de puntos de Items
Impares
Pares
5
3
4
3
5
5
6
6
9
9
8
10
13
11
13
11
14
15
15
14
0.949
rPI =
COEF.DE.CORREL (Impares; Pares) = rPI = 0.949
2
Coeficiente de fiabilidad: = 1 =
2(0.949)
1+ 0.949
= 0.974
Comentario: se registra un alto ndice de fiabilidad para la alta consistencia interna que se
registra entre los tems pares e impares del instrumento.
26
Estadstica Descriptiva
Ejercicio 3. Encuentre los ndices de homogeneidad corregidos para cada tem.
Cuadro N 02: Distribucin de Agricultores entrevistados segn los niveles de actitud
adversa hacia la fauna silvestre en una comunidad rural Junio de 2012.
Encuesta
I1
I2
I3
I4
I5
I6
6
7
7
7
6
7
E1
6
6
6
6
5
6
E2
9
8
8
9
8
8
E3
10
10
10
11
10
9
E4
15
15
15
15
15
15
E5
16
15
15
15
15
14
E6
20
20
20
21
19
20
E7
20
20
20
21
19
20
E8
24
24
25
24
24
24
E9
24
24
24
24
24
25
E10
ndices de homogeneidad
0.932
0.991
0.963
0.929
0.938
0.885
corregidos para cada tem
Fuente: Elaboracin propia.
Interpretacin: El tem 6 es el menos relacionado con la prueba general.
Ejercicio 4. Un ndice de validez del cuestionario previsto.
En base la valoracin global efectuada por los entrevistados, estime:
Entrevista
1
2
3
4
5
6
7
8
9
10
Puntaje Calificativo
Total
Global
8
5
7
7
10
7
12
7
18
14
18
14
24
17
24
17
29
20
29
20
27
Estadstica Descriptiva
Cuestionario A
Encuesta I1 I2 I3 I4 I5 I6 Total
2 1 1 1 2 1
8
E1
1 1 1 1 2 1
7
E2
1 2 2 1 2 2 10
E3
2 2 2 1 2 3 12
E4
3 3 3 3 3 3 18
E5
2 3 3 3 3 4 18
E6
4 4 4 3 5 4 24
E7
4 4 4 3 5 4 24
E8
5 5 4 5 5 5 29
E9
5 5 5 5 5 4 29
E10
Encuesta
E1
E2
E3
E4
E5
E6
E7
E8
E9
E10
I1
2
4
4
4
1
3
2
4
4
4
Cuestionario B
I2 I3 I4 I5 I6 I7
1 2 2 3 1 1
5 5 3 4 3 1
3 4 4 3 4 3
4 4 4 4 4 5
1 2 2 3 2 2
3 4 4 4 5 5
2 2 2 1 1 1
4 5 4 3 5 3
3 1 3 3 3 2
5 4 5 4 4 3
I8 Total
3 15
2 27
3 28
4 33
1 14
4 32
1 12
1 29
1 20
2 31
28
Estadstica Descriptiva
II. ORGANIZACIN DE DATOS
1. DISTRIBUCIN DE FRECUENCIAS
Despus de recoger toda la informacin correspondiente a la investigacin, es decir, al
agotar todo el trabajo de campo, nuestro escritorio se llena de un cmulo de datos y cifras
desordenadas los cuales, al ser tomados como observaciones individuales, dicen muy poco
sobre la poblacin estudiada; es, entonces, tarea del investigador hacer hablar las cifras,
comenzando por la clasificacin y ordenacin, consignando la informacin en tablas
inteligibles que denominamos distribuciones de frecuencias.
ORDENACIN DE DATOS
CARACTERES CUALITATIVOS
FRECUENCIA
ABSOLUTA
SIMPLE
fi
= ; 0 ; = 1, 2, 3, .
=1
FRECUENCIA
RELATIVA
SIMPLE
hi
= ; = 1 ; 0 1 ; = 1, 2, 3, .
=1
a1
a2
f1
f2
hi
h1
h2
..
..
..
ak
fk
hk
Modalidades de carcter A
Total.
fi
= = 1
29
Estadstica Descriptiva
CARACTERES CUANTITATIVOS
Tamao de la
muestra
= 1 + 2 + + =
=1
Frecuencia
Absoluta
fi
= ; 0 ; = 1, 2, 3, .
=1
Frecuencia
Absoluta
Acumulada
Fi
Frecuencia
Relativa
= ; = 1 ; 0 1.
=1
Frecuencia
Relativa
Acumulada
Hi
; = 1
30
Estadstica Descriptiva
fi
f1
f2
hi
h1
h2
..
..
..
..
..
xk
Fk
hk
Fk=n
Hk=1
Total.
Fi
F1
F2
Hi
H1
H2
= = 1
En el segundo caso por tratarse de variable continua o discreta, con un nmero de datos
muy grande, es aconsejable AGRUPAR LOS DATOS EN CLASES.
Rango (R).
=
Nmero de clases (m).
Determinamos a travs de la regla de sturges.
= 1 + 3.322 Log()
Amplitud de clases (C).
Marcas
de clase
fi
hi
Fi
Hi
Xi
x1
x2
f1
f2
h1
h2
F1
F2
H1
H2
..
..
..
..
..
..
Tabla de frecuencias de
una variable estadstica
agrupada en intervalos.
[ak ak+1]
xk
fk
hk
Fk=n
Hk=1
Intervalos
de clase
[a0 a1)
[a1 a2)
Total.
= = 1
31
Estadstica Descriptiva
MEDIDAS DE TENDENCIA CENTRAL.
Son estadgrafos de posicin que son interpretados como valores que permiten a un
conjunto de datos dispersos, podra asumirse que estas medidas equivalen a un centro de
gravedad que adoptan un valor representativo para todo un conjunto de datos
predeterminados.
Estas medidas son:
1.
2.
3.
4.
5.
6.
7.
8.
Amplitud o rango.
Varianza.
Desviacin estndar.
Coeficiente de variabilidad.
MEDIDAS DE FORMA
32
Estadstica Descriptiva
1. LA MEDIA ARITMTICA.
Para Datos no Agrupados.
=1 1 + 2 + 3 + +
=
n
Ejemplo:
Durante los ltimos 32 das el valor de las compras (soles) en peridicos fue:
5.2 10.2 7.0 7.1 10.2 8.3 9.4 9.2 6.5 7.1 8.2
6.6 7.8 6.8 7.2 8.4 9.6 8.5 5.7 6.4 10.1 9.1
9.0 7.8 8.2 5.3 6.2 8.6 7.0 7.7 8.3 7.5
El promedio aritmtico del valor de las compras en peridicos es:
=1 250.2
=
=
= 7.82
n
32
Para Datos Agrupados.
Rango (R).
= = 10.2 5.2 = 5
Nmero de clases (m).
Determinamos atreves de la regla de sturges.
= 1 + 3.3 Log() = 1 + 3.3 (32) = 5.97 6
Amplitud de clases (C).
5
= = = 0.83
6
=1
Ejemplo.
Intervalo Xi fi hi
[5.2 - 6.0) 5.62 3 0.09
[6.0 - 6.9) 6.45 5 0.16
[6.9 - 7.7) 7.28 6 0.19
[7.7 - 8.5) 8.12 8 0.25
[8.5 - 9.4) 8.95 5 0.16
[9.4 - 10.2] 9.78 5 0.16
Total
32 1
El promedio aritmtico es:
=
Fi
3
8
14
22
27
32
Hi
0.09
0.25
0.44
0.69
0.84
1.00
fi
Para los gastos diarios en peridicos del hotel agrupados en una tabla de frecuencia:
10
8
6
4
2
0
5.62 6.45 7.28 8.12 8.95 9.78 Xi
32
32
Durante los 32 das el hotel tuvo un gasto promedio en peridicos de 7.86 soles
33
Estadstica Descriptiva
2. LA MEDIANA.
Es al valor que ocupa la posicin central de un conjunto de observaciones ordenadas. El
50% de las observaciones son mayores que este valor y el otro 50% son menores.
Para Datos no Agrupados.
= 5.5
= +
( 2 1 )
32
2
( 14)
8
0.83 = 7.9
El 50% de los das el hotel gast menos de 7.9 soles en la compra de peridicos.
34
Estadstica Descriptiva
3. LA MODA.
Es el valor; clase o categora que ocurre con mayor frecuencia y sus caractersticas son:
Mo = 7 y 9 Serie bimodal
Mo = 6
Serie Unimodal
No tiene Moda o se dice que
cada dato es una moda
1
]
1 + 2
2 = ( +1 )
Xi
5.62
6.45
7.28
8.12
8.95
9.78
fi
3
5
6
8
5
5
32
= 7.7 + [
hi
0.09
0.16
0.19
0.25
0.16
0.16
1
Fi
3
8
14
22
27
32
Hi
0.09
0.25
0.44
0.69
0.84
1.00
2
] 0.83 = 8.03
2+3
Donde:
= 7.7
1 = (8 6) = 2
2 = (8 5) = 3
El gasto diario en peridicos ms frecuente es 8.03soles.
35
Estadstica Descriptiva
4. MEDIA GEOMTRICA.
La media geomtrica simple de n observaciones X1, X2, X3,..,Xn positivos, est dado
por la raz ensima del producto de los n valores observados. El promedio geomtrico de
los valores: (X1, X2, X3,..,Xn) es :
Para Datos no Agrupados.
= .
Ejemplo.
Hallar la media geomtrica de los nmeros 3, 5, 8, 3, 5, 2.
Solucin.
En este caso n = 6, entonces la media geomtrica es:
= = 3.915
= (1) 1 (2 ) 2 ( )
Donde: =
=1 , Xi = Marca de clase, fi = Frecuencia absoluta simple,
m = nmero de clases.
Aplicando logaritmo a ambos lados miembros de la ecuacin anterior se tiene:
[ 1 + 2 2 +, , + ]
1
1
= =1
; Luego.
=
Log
= [
=1
]
Ejemplo.
Intervalo
[5.2 - 6.0)
[6.0 - 6.9)
[6.9 - 7.7)
[7.7 - 8.5)
[8.5 - 9.4)
[9.4 - 10.2]
Total ( ):
Xi
5.62
6.45
7.28
8.12
8.95
9.78
fi
3
5
6
8
5
5
32
log (Xi)
0.749
0.81
0.862
0.909
0.952
0.99
fi * log(Xi)
2.248
4.048
5.174
7.275
4.759
4.952
28.46
= [28.46]= 7.749
32
36
Estadstica Descriptiva
Desventajas de la media geomtrica.
Est limitado para valores positivos para que pueda ser interpretado.
Si algn valor de la variable es cero, la media geomtrica ser cero.
Si aparece algn valor negativo, el estadgrafo toma un valor imaginario.
5. PROMEDIO PONDERADO
Cuando se desea encontrar el promedio de valores (X1, X2, X3,..,Xn) que ocurren con
frecuencias (f1,f2,.fn)diferentes se debern ponderar los valores observados con pesos
diferentes:
Ponderacin
Wi
0.30
0.50
0.20
1
Xi*Wi
3.60
7.00
3.20
= 13.8
6. PROMEDIO TOTAL
Corresponde al valor promedio representativo de grupos de observaciones separadas o
diferentes y que podran estar consolidadas en tablas de frecuencia independientes, por
tanto:
+ + . +
37
Estadstica Descriptiva
Ejemplo.
GUPO A
Nota
Xi
5 10 7.5
10 15 12.5
15 20 17.5
Total
GUPO B
Nota
Xi
fi
0 5 2.5 8
5 10 2.5 10
10 15 12.5 16
15 20 17.5 6
Total
40
Promedio del grupo B:
fi
4
16
5
25
XA =
Promedio
Total
Grupo
A
B
Total
Xi
fi
25
40
65
12.7
10
T =
X
25(12.7) + 40(10)
= 11.04
65
7. MEDIA ARMNICA.
H de n trminos no nulos X1, X2, X3,..,Xn, es el reciproco de
La media armnica Mh o X
la media aritmtica de los recprocos de esos trminos. Es decir.
Para Datos no Agrupados.
XH =
n
1
x1
+ x + .+x
XH =
3
1
50
+ 62.4 + 77.6
A
50
B
62.4
C
77.6
3
Km
= 61.334
0.0489121
galn
Verificacin.
Auto
A
B
C
Total
Km Rendimiento
500
50
500
62.4
500
77.6
1500
Total de galones
10
8.0128
6.4433
24.4561
H =
X
1500
= 61.334
24.4561
Para Datos Agrupados. La media armnica para datos tabulados (media armnica
ponderada) se define por:
n
XH = Mh =
fi
m
i=1
Xi
Donde:
m = nmero de clases, Xi = marca de clase, fi = frecuencia absoluta de cada clase.
38
Estadstica Descriptiva
MEDIDAS DE POSICIN.
Las medidas de posicin equivalen a los valores que puede tomar una variable
caracterizados por agrupar a cierto porcentaje de observaciones en la muestra o poblacin.
Las medidas de posicin son ideales para obtener informacin adicional a partir de datos
resumidos, es decir, que presentan perdida de informacin por agrupamiento en intervalos
de clase.
PERCENTILES.
Son 99 valores que dividen a un conjunto de datos en 100 partes iguales.
Para Datos Agrupados.
= +
C
k
100
1 ]
Ejemplo.
El percentil 80% de los gastos diarios en peridicos es.
1. Se determina 80*n/100.
2. De la tabla, la frecuencia absoluta acumulada inmediatamente superior a 80*n/100 = 25.6 es F5 =
27, luego F5-1 = 22. Por tanto en intervalo de clase que contienen a80% es [8.5 9.4)
80
80% = + (100
) = 8.5 +
(. 22)
0.83 = 9.09
5
El 80% de los datos analizados sern menores de 9.09 y el 20% restante sern superiores.
39
Estadstica Descriptiva
CUARTILES.
Son tres valores Q1, Q2, Q3 que dividen a los datos en cuatro partes iguales.
25% Q1 25%
Q2
25%
1 = + (
Q3
25%
3
) ; 2 = ; 3 = + ( 4
Ejemplo.
Calcular el tercer cuartil (Percentil 75%) de los gastos diarios en peridicos de la tabla
anterior.
Solucin.
1. Se determina n/4.
2. De la tabla, la frecuencia absoluta acumulada inmediatamente superior a 3n/4 = 24 es F5 = 27,
luego F5-1 = 22. Por tanto en intervalo de clase que contienen a3 es [8.5 9.4)
3
3 = + ( 4
) = 8.5 +
( 22)
0.83 = 8.8
5
El 75% de los datos analizados sern menores a 8.8 y el 25% restante sern superiores.
DECILES.
Son nueve valores D1, D2, D3, D4, D5, D6, D7, D8, y D9, que dividen a un conjunto de datos
en 10 partes iguales.
1. Se construye la tabla de frecuencias absolutas acumuladas.
2. Se determina k*n/10.
3. Se identifica a la clase que contiene a Dk, identificado a la frecuencia absoluta
acumulada Fi inmediatamente superior a k*n/10.
Ejemplo.
Calcular el decil siete (Percentil 70%) de los gastos diarios en peridicos de la tabla de
frecuencia anterior.
10
= + (
) = 8.5 +
(. 17)
0.83 = 9.396
5
70% de los datos sern menores a 9.396 y el 30% restante sern superiores a 9.396.
40
Estadstica Descriptiva
Para Datos no Agrupados.
El lugar o posicin donde se encuentran los cuartiles para n datos ordenados es:
Cuartil
Q1 = P25%
25(n + 1)
100
Posicin
Q2 = P50%
50(n + 1)
100
Q3 = P75%
75(n + 1)
100
Ejemplo.
Supngase que los siguientes datos representan los salarios por da de 12 trabajadores de
una compaa muy grande seleccionados aleatoriamente (en soles)
9 10 12 3 5 7 15 10 9 11 13 11
Determinar el primer cuartil de la muestra.
Solucin.
1. Los datos ordenados en forma ascendente son:
3 5 7 9 9 10 10 11 11 12 13 15
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
+1
12+1
Posicin
0.25(13+1) = 3.5
0.50(13+1) = 7
0.75(13+1) = 10.5
0.80(13+1) = 11.2
Incremento %
50%
0%
50%
20%
41
Estadstica Descriptiva
MEDIDAS DE VARIABILIDAD.
1. AMPLITUD O RANGO
Sean los valores:x1, x2, x3,..,xnla amplitudo rango de estos datos es
R = (Xmax - Xmin).
2. VARIANZA Y DESVIACIN TPICA.
Estas medidas son las ms utilizadas en el estudio de la dispersin. La varianza
mide la dispersin de los datos con respecto a su media aritmtica y la desviacin
tpica o desviacin estndar es simplemente la raz cuadrada positiva de la varianza.
(x
i 1
)2
s2
( xi X ) 2
i 1
i 1
i 1
( xi x) 2 xi2 n x
Por lo tanto,
n
s2
x
i 1
2
i
( )
( )
La diferencia entre =1
=11
es grande para muestras pequeas, y es
mnima para muestras grande, prcticamente son iguales. Entonces, para muestras
grandes 60, puede usarse cualquiera de las formulas. Para muestras pequeas
( )
se usa =11
, lo cual es llamada varianza muestral o tambin varianza
corregida, y se acostumbra denotar por 2 . Es decir la varianza muestral estar
definida por:
=1( )2
=1 2 2
2
2
=
=
1
1
42
Estadstica Descriptiva
Ejemplo.
Calcular la varianza de los cuatro datos siguientes: (Xi: 3, 4, 6 y 7)
=
=1 3 + 4 + 6 + 7 20
=
=
=5
n
4
4
=1 2 2 32 + 42 + 62 + 72 10
=
=
= 3.333
1
41
3
s2
2 =
=1(
Ejemplo.
)2
(x
i 1
X )2 * fi
n
=1
2
=
1
2 =
( Xi -)2*fi
15.10
9.94
2.00
0.53
5.94
18.50
= 52.00
=1( 2 )2 52
=
= 1.68
1
31
3. DESVIACIN ESTNDAR.
Es una medida de variabilidad que corresponde a la raz cuadrada de la varianza.
Este indicador tiene la misma unidad de medida en la que se expresa el promedio.
( )2
= 2 = =1
1
Entonces, = 1.68 = 1.3 soles.
Estadstica Descriptiva
( ) 0
La varianza de una constante es cero.
( ) = 0
Si a cada observacin x1, x2, x3,..,xn, se adiciona o resta una constante
k>0, la varianza del nuevo conjunto de valores y1, y2, y3,..,yn, donde
yi=xi K, i=1, 2,.,n, coincide con la varianza del conjunto original. Es
decir
( ) = 2 ( ).
1
() = ( ) = 2 ( ) ( ) = 2 (), donde a y b son
constantes.
4. COEFICIENTE DE VARIACIN.
Es una medida de variabilidad de los datos que se expresa en porcentaje, igual a la
desviacin estndar dividida entre la media aritmtica. Debido a que se trata de un nmero
sin dimensiones, es til para comparar la dispersin de poblaciones con medias
significativamente diferentes.
. . = ( )
Coeficiente de variabilidad
Menos de 10%
De 10% a 30%
Ms de 30%
.
) = . %
.
Recipiente pequeo
CV %= 100 * 0.08 tazas / 1 taza = 8
44
Estadstica Descriptiva
MEDIDAS DE FORMA.
1. ASIMETRA O SEGO.
Evala el grado de distorsin o inclinacin que adopta la distribucin de los datos
respecto a su valor promedio tomando como centro de gravedad. El coeficiente de
asimetra de pearson es:
3( )
=
Asimetra Positiva
(Promedio > Mediana)
Simtrica
Promedio = Mediana
Asimetra Negativa
Promedio < Mediana
CURTOSIS.
Evala el grado de apuntamiento de la distribucin, el coeficiente es:
=
Grado de Apuntamiento
Mesocrtica (distribucin normal)
Leptocrtica (Elevada)
Platicrtica (Aplanada)
Ku =0.263
Mesocurtica
(Normal)
( )
Valor de Curtosis
0.263
Mayor a 0.263 se aproxima a 0.5
Menor a 0.263 se aproxima a 0.
Ku > 0.263
Ku < 0.263
Leptocrtica
Platicrtica
45
Estadstica Descriptiva
REPRESENTACIN GRFICA.
GRFICOS DE CAJAS.
Existe una gran variedad de graficas estadsticas para extraer informacin acerca de las
propiedades de un conjunto de datos.
Una grafica til para reflejar propiedades de los datos es la grafica de caja (box plots)
que se basa en la medida(o en la media), los cuartiles y valores extremos. La caja
representa el rango intercuartil que encierra el 50% de los valores y tiene la mediana (Me)
dibujada dentro. El rango intercuartil tiene como extremos el percentil 75, P75 (cuartil
superior) y el percentil 25, P25 (cuartil inferior).
Adems de la caja se incluya la extensin de los datos mediante segmentos que se
extienden de la caja hacia el valor mximo (U) y hacia el valor mnimo (L) de los datos. Es
te recuadro se dibuja con el eje de la variable en forma horizontal o vertical como se indica
en la figura que sigue.
46
Estadstica Descriptiva
Diagrama de Causa-Efecto
1.- El espesor de recubrimiento de un material de acero es evaluado en una sesin de tormenta
de ideas. El problema de variacin del espesor (la cual es del 10%) que se seala es por una
serie de causas, que fueron clasificadas en: equipos sin calibracin, personal sin
entrenamiento, especificaciones mal estructuradas, mal diseo de la maquina, variacin del
material, antigedad de la maquina, personal mal seleccionado, sin procedimientos, velocidad
sin control, alta temperatura, ambiente de trabajo contaminado, material defectuoso,
personal sin experiencia, sin instrumentos de control.
Las causas fueron clasificadas segn se muestra en el cuadro 1:
CUADRO 1
Material
Maquinaria
Antigedad de la maquinaria
Mal diseo de la maquina
Equipos sin calibracin
Sin procedimientos
Especificaciones mal estructuradas
Alta temperatura
Ambiente de trabajo contaminado
Personal sin entrenamiento
Personal sin experiencia
Personal mal seleccionado
Sin instrumentos de control
Velocidad sin control
Mtodo
Medio Ambiente
Mano de Obra
Medicin
Material
Pr
er
at
pr
d
ee
ov
ia
or
a
im
es
e
ad
a
al
m
no
de
Variacin del
material
Sin instrumentos de
control
Personal
s
do
a
id
a
cu
l
ca
Variacion del
espesor en
10%
Material defectuoso
Especificaciones mal
estructuradas
Mal diseo de la maquina
Alta temperatura
Sin procedimientos
Antigedad de la maquinaria
Entorno
Mtodos
Mquinas
47
Estadstica Descriptiva
Diagrama de Pareto
1.- En la empresa Las Malvinas el ensamblaje de mangueras ha sido criticado debido a que
presenta muchos defectos. De 14993 ensamblajes inspeccionados en un ao, un total de 1509,
el 10.1% estaban defectuosos. El reporte de inspeccin se muestra en el cuadro 2:
CUADRO 2
Defectos
Muy corto
Muy largo
Sin roscas
Fugas
Daadas
Retrabajado
Total
Turno 1
30
44
70
330
8
22
504
Turno 2
35
44
69
321
11
20
500
Turno 3
26
44
70
347
5
13
505
Total
91
132
209
998
24
55
1509
La gerencia expres su preocupacin por que los tres turnos no cuentan con igual supervisin, lo
que puede contribuir al problema. Desarrolle un Diagrama de Pareto para el total de defectos en
los tres turnos y un Diagrama de Pareto para cada turno.
100
1400
Total
1000
60
800
600
40
Porcentaje
80
1200
400
20
200
0
Defectos
Total
Porcentaje
% acumulado
Fugas
998
66.1
66.1
Sin roscas
209
13.9
80.0
Muy largo
132
8.7
88.7
Otro
24
1.6
100.0
48
Estadstica Descriptiva
Diagrama de Pareto para cada turno.
500
100
400
80
300
60
200
40
100
20
Defectos
Turno 1
Porcentaje
% acumulado
Fugas
330
65.5
65.5
Sin roscas
70
13.9
79.4
Muy largo
44
8.7
88.1
Otro
8
1.6
100.0
Porcentaje
Turno 1
Diagrama de Dispersin
1.- En un equipo de mejora se obtienen los siguientes datos, que recogen el nmero de
defectos por lote e conjuntos de 10 000 piezas en funcin del tiempo de tratamiento al
que se someten:
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#
Defectos
48
52
54
50
48
51
52
59
54
54
44
54
48
47
58
57
54
Tiempo
(Seg)
809
834
838
854
822
842
851
868
841
844
811
819
830
836
850
857
863
Materia
Prima
B
B
B
A
A
A
A
B
B
B
A
B
A
A
B
B
A
Obs
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
#
Defectos
47
53
58
54
43
54
52
56
55
55
58
57
52
58
57
51
51
Tiempo Materia
(seg)
Prima
837
A
840
A
850
B
843
A
819
A
856
A
862
A
835
B
844
B
852
A
858
B
843
B
825
B
867
B
851
B
812
B
821
B
49
Estadstica Descriptiva
18
19
20
21
22
23
24
25
49
49
48
52
50
49
54
56
811
820
826
832
837
839
839
842
B
A
A
B
A
A
B
B
43
44
45
46
47
48
49
50
50
56
50
49
52
50
46
49
831
841
843
850
841
855
829
838
B
B
A
A
B
A
A
A
Diagrama de dispersin.
a) Realice un diagrama de dispersin entre la variable nmero de defectos por lote y la
variable tiempo de tratamiento al que se someten. Que comentarios puede hacer al
respecto.
60
y = 0.164x - 85.576
R = 0.3991
58
56
54
52
50
48
46
44
42
40
800
810
820
830
840
850
860
870
880
2.- Fiber Borrad fabrica forros interiores de techo para la industria automotriz. La gerente
de manufactura est preocupada por la calidad de este producto. Sospecha que un
defecto en particular, las rasgaduras de la tela, est relacionado con el tamao de las
actuales partidas de produccin. Un asistente ha recopilado los datos que se
encuentran en la tabla, basndose en los registros de produccin:
Partida
1
2
3
4
5
6
7
8
9
10
Tamao
1000
4100
2000
6000
6800
3000
2000
1200
5000
3800
Defecto (%)
3.5
3.8
5.5
1.9
2.0
3.2
3.8
4.2
3.8
3.0
Partida
1
2
3
4
5
6
7
8
9
10
Tamao
6500
1000
7000
3000
2200
1800
5400
5800
1000
1500
Defecto (%)
1.5
5.5
1.0
4.5
4.2
6.0
2.0
2.0
6.2
7.0
Estadstica Descriptiva
b) Existe alguna relacin entre el tamao de la partida y el porcentaje de defectos? Qu
consecuencias tiene esto para los negocios de Fiber Borrad?
Grfica de dispersin de Defecto (%) vs. Tamao
7
Defecto (%)
6
5
4
3
2
1
1000
2000
3000
4000
Tamao
5000
6000
7000
GRFICO DE BARRAS
Grupos
1 14 18.0
2 18.0 22.0
3 22.0 26.0
4 26.0 30.0
16
20
24
17.0
21.0
25.0
28
5 30.0 34.0
mi
6
7
8
9
Li
34.0
38.0
42.0
46.0
Ls
38.0
42.0
46.0
50.0
Frecuencia
(fi)
(Fi)
(hi)
(Hi)
(hi%)
(Hi%)
29.0
29
24
27
30
32
33.0
34
36
40
44
48
37.0
41.0
45.0
50.0
24
24
26
22
240
Total
70.0%
80.0%
90.8%
100.0%
51
Estadstica Descriptiva
Grfico N 01. Distribucin porcentual de plntulas de tornillo segn su altura (en
milmetros). Brunas-UNAS/Tingo Mara. Mayo 2011
14.2%
16.0%
12.1%
14.0%
12.0%
10.0%
11.3%
12.5%
10.0% 10.0%
10.8%
9.2%
10.0%
8.0%
6.0%
4.0%
2.0%
0.0%
[14 - 18> [18- 22> [22 - 26> [26 - 30> [30 - 34> [34 - 38> [38 - 42> [42 - 46> [46 - 50]
Regular
Regular
Malo
Malo
Malo
Bueno
Regular
Regular
Excelente
Bueno
Malo
Bueno
Bueno
Bueno
Bueno
Malo
Excelente Malo
Regular
Malo
Malo
Malo
Excelente Malo
Malo
Bueno
Bueno
Malo
Regular
Malo
Malo
Malo
Malo
Excelente Bueno
Malo
Regular
Malo
Regular
Bueno
Regular
Bueno
Malo
Excelente Malo
Regular
Excelente Malo
Malo
Malo
Malo
Malo
Excelente Bueno
Malo
Regular
Malo
Malo
Excelente
Solucin
Cuadro N 02: Distribucin de personas segn su opinin sobre la calidad de una nueva
conserva que se desea introducir en el mercado. Tingo Mara. Julio Agosto del 2012.
Opinin sobre la conserva
fi
Fi
hi
Hi
hi%
Hi%
Bueno
13
13
0.15
0.15
15%
15%
Regular
14
27
0.17
0.32
17%
32%
Malo
33
60
0.39
0.71
39%
71%
Excelente
24
84
0.29
1.00
29%
100%
Total
84
1.00
100%
Fuente: Elaboracin Propia
52
Estadstica Descriptiva
Grfico N 02: Distribucin de personas segn su opinin sobre la calidad de una nueva
conserva que se desea introducir en el mercado. Tingo Mara. Julio Agosto del 2012.
Bueno
15%
Excelente
29%
Regular
17%
Malo
39%
1. La Biomasa de los recursos hidrobiolgicos del Per en los aos de 2004 a 2009 se
da en la siguiente tabla:
Recurso
2004
2005
2006
2007
2008
2009
Jurel
5300
5000
4330
7000
2800
4303
Caballa
1511
450
1700
1900
1300
1052
Sardina
4200
2500
2700
1750
4500
3680
Anchoveta 1500
6500
6000
4500
5900
3060
a) Construya su grafico correspondiente para los recursos hidrobiolgicos del Per en
los aos 2005, 2008 y 2009 e interprete. (2 pts)
Grafico N 03. Biomasa de los recursos hidrobiolgicos: 2005 2009.
7000
6000
5000
4000
3000
2000
1000
0
2005
JUREL
2008
ANCHOVETA
2009
SARDINA
CABALLA
53
Estadstica Descriptiva
PROBLEMAS RESUELTOS.
1. Los siguientes datos corresponden a un muestra aleatoria de la altura en milmetros
(mm) de plantulas de tornillo (cedrelingacatenaeformis) perteneciente a la familia de las
Fabaceae en una parcela de 50x10 mts2, realizada en el Brunas-UNAS de la ciudad de
Tingo Mara en mayo 2011.
32 26 26 44 32 15 48 22 22 39 15 26 21 45 16 23
46 26 44 42 36 43 19 29 35 42 37 44 32 41 33 21
17 29 32 29 50 14 24 14 49 35 17 32 33 26 30 16
32 32 26 35 32 41 20 32 47 18 28 17 29 50 26 28
21 28 44 14 39 27 17 15 28 14 37 32 34 27 40 32
17 45 28 31 17 33 41 18 36 26 17 31 38 31 44 36
22 26 33 39 19 49 50 33 22 33 50 31 42 27 21 23
38 48 34 22 48 36 29 23 33 41 32 17 20 18 24 25
43 15 17 31 27 22 39 28 31 19 23 37 32 19 39 43
33 40 22 44 23 15 14 44 23 25 14 35 41 50 21 20
35 41 38 30 29 40 22 39 41 18 42 37 34 46 39 30
50 46 35 44 42 27 18 15 37 39 16 50 20 50 34 29
41 20 36 25 42 19 36 39 21 17 43 44 36 23 30 23
41 23 45 15 37 27 18 23 14 22 35 33 15 30 49 49
33 45 45 22 15 46 49 45 29 24 19 25 45 27 49 21
La informacin fue obtenida de la Facultad de Recursos de la UNAS.
a)
b)
c)
d)
Solucin
PASOS PARA AGRUPAR DATOS
Funcin en Excel
Tamao de muestra: ( n ) =
CONTAR(Seleccionar BD3)
Valor Mximo =
MAX()
Valor Mnimo =
MIN()
Rango (R)=
Valor Mximo - Valor Mnimo
Aplicando la regla de STURGES:
N de intervalos (m) =
1+3.3*log (n)
m redondeado =
REDONDEAR()
Amplitud (C ) =
R/[m = redondeado]
Del
Ejemplo
240
50
14
36
8.855
9
4
54
Estadstica Descriptiva
Cuadro N 01: Distribucin de plntulas de tornillo segn su altura (en milmetros).
Brunas-UNAS/Tingo Mara. Mayo 2011
mi
Li
Ls
Marca de Clase
(Xi)
Grupos
Frecuencia
(fi)
14
18.0
16
17.0
29
2 18.0 22.0
3 22.0 26.0
4 26.0 30.0
20
24
28
21.0
25.0
29.0
24
27
30
5 30.0 34.0
32
33.0
34
6 34.0
7 38.0
8 42.0
9 46.0
38.0
36
37.0
24
42.0
46.0
50.0
40
44
48
41.0
45.0
50.0
24
26
22
240
Total
(Fi)
(hi)
(Hi)
(hi%)
(Hi%)
=1( )
464
=
480
Promedio muestral = 31.4333333
29
24
27 648
30 840
34 1088
24 864
24 960
26 1144
22 1056
( ) = 7544
= +
( 2 1 )
1
]
1 + 2
Donde: 1 = ( 1 )
2 = ( +1 )
= + [
Varianza muestral ( 2 )
2 =
=1( )
= =
1
55
Estadstica Descriptiva
Coeficiente de Variacin muestral porcentual:
. . = ( )
14.2%
12.1%
10.0%
11.3%
12.5%
10.0% 10.0%
10.8%
10.0%
9.2%
5.0%
0.0%
[14 - 18> [18- 22> [22 - 26> [26 - 30> [30 - 34> [34 - 38> [38 - 42> [42 - 46> [46 - 50]
Del
Ejemplo
Tamao de muestra: ( n ) =
CONTAR(Seleccionar BD)
108
Valor Mximo =
MAX()
40
Valor Mnimo =
MIN()
8
Rango (R)=
Valor Mximo - Valor Mnimo
32
Aplicando la regla de STURGES:
N de intervalos (m) =
1+3.3*log (n)
7.71029
m redondeado =
REDONDEAR()
8
Amplitud (C ) =
R/[m = redondeado]
4
56
Estadstica Descriptiva
Cuadro N 02: Distribucin de turistas, segn sus gastos semanales (dlares).
hotel Sheraton Lima. Julio de 2013.
N clases
[ Li
o intervalos
1
[8
2
[12
3
[16
4
[20
5
[24
6
[28
7
[32
8
[36
Total
- Ls > Xi
-
12>
16>
20>
24>
28>
32>
36>
40]
10
14
18
22
26
30
34
38
fi
Fi
hi
Hi
hi%
Hi%
12
12
20
10
13
14
12
15
108
12
24
44
54
67
81
93
108
0.11
0.11
0.19
0.09
0.12
0.13
0.11
0.14
1.00
0.11
0.22
0.41
0.50
0.62
0.75
0.86
1.00
11%
11%
19%
9%
12%
13%
11%
14%
100%
11%
22%
41%
50%
62%
75%
86%
100%
N de
intervalos
1
2
3
4
5
6
7
8
[ Li - Ls >
[8
[12
[16
[20
[24
[28
[32
[36
12>
16>
20>
24>
28>
32>
36>
40]
N de
intervalos
1
2
3
4
5
6
7
8
[ Li - Ls ]
[8 [12 [16 [20 [24 [28 [32 [36 -
11]
15]
19]
23]
27]
31]
35]
40]
57
Estadstica Descriptiva
Grfico N 02: Distribucin de turistas, segn sus gastos semanales (dlares).
25
20
20
15
12
13
12
15
14
12
10
10
5
0
58
Estadstica Descriptiva
MEDIDAS DE TENDENCIA CENTRAL
PARA DATOS AGRUPADOS
PARA DATOS SIN AGRUPAR
Interpretacin:
El 50% de los turistas gastaron como
mximo 24 dlares semanales en
hotel Sheraton Lima y el otro
50% superaron dicho monto.
3) Moda muestral (Mo):
Mo = 17.78
Interpretacin:
El gasto ms frecuente semanal de
los turistas es de 17.78 dlares
semanales.
= 22.21
Interpretacin:
El gasto promedio geomtrico
semanal de los turistas es de 22.21
dlares.
5) Media armnica muestral (Mh):
Mh = 20.24
Interpretacin:
El gasto promedio armnico
semanal de los turistas es de 20.24
dlares.
= 21.68
Interpretacin:
El gasto promedio geomtrico
semanal de los turistas es de
21.68dlares.
5) Media armonica muestral (Mh):
Mh = 19.55
Interpretacin:
El gasto promedio armnico semanal
de los turistas es de 19.55 dlares.
59
Estadstica Descriptiva
MEDIDAS DE DISPERSIN
PARA DATOS AGRUPADOS
PARA DATOS SIN AGRUPAR
1) Varianza muestral ( ):
= . dlares2
Interpretacin:
La variabilidad promedio de los
gastos es de 84.17 dlares2.
2) Desviacin estndar (S):
S = 9.17 dlares.
Interpretacin:
Los gastos semanales de los turistas
varan con respecto a su valor
central en 9.17 dlares.
3) Coeficiente de variacin
porcentual (C.V%):
C.V.% = 38.05
Interpretacin:
Los datos de la muestra de gastos
semanales de los turistas son
heterogneos, por lo tanto presentan
un alto grado de variabilidad.
1) Varianza muestral ( ):
= .
Interpretacin:
La variabilidad promedio de los
gastos es de 85.87dlares2.
2) Desviacin estndar (S):
S = 9.27
Interpretacin:
Los gastos semanales de los turistas
varan con respecto a su valor central
en 9.27 dlares.
3) Coeficiente de variacin
porcentual (C.V%):
CV% = 39.14%
Interpretacin:
Los datos de la muestra de gastos
semanales de los turistas son
heterogneos, por lo tanto presentan
un alto grado de variabilidad.
ACTIVIDAD DE APRENDIZAJE I
1. Identifique las siguientes variables segn su clasificacin, ya sea cuantitativa (discreta o
continua) y cualitativa (nominal u ordinal).
a) Tipos de crdito: Cualitativa Ordinal
b) Nmero de das no laborados: Cuantitativa Discreta
c) Nivel de acuerdo: Cualitativa Nominal
d) Ganancias en dlares: Cuantitativa Continua
2. Los siguientes datos corresponden a una muestra aleatoria de 20 trabajadores del banco
de crdito del Per segn sus retenciones al sistema privado de pensiones en febrero del
2011.
100 200 150 160 179 130 135 150 155 158
180 190 170 175 120 115 140 139 145 144
Los datos fueron brindados por el departamento de personal de dicha institucin.
Se pide:
a) Identificar la unidad de anlisis y la variable en estudio.
b) Construya una distribucin de frecuencias absolutas
c) Construya un cuadro de distribucin de frecuencias ampliada. Utilice la regla
de Sturges.
d) Interprete f3, h3%, F3 y H3%.
e) Determinar qu porcentaje de trabajadores tienen una retencin de 140 soles o
ms, pero menos de 180 soles.
f) Determinar cuntos trabajadores tienen una retencin de 160 a 200 soles.
g) Construir un histograma de frecuencias porcentuales y comente.
60
Estadstica Descriptiva
Solucin.
a)
Unidad de observacin: El trabajador del BCP.
Variable en estudio: Retenciones al Sistema Privado de Pensiones (SPP).
b)
Retenciones al SPP.(Xi) N de trabajadores (fi)
100
1
115
1
120
1
130
1
135
1
139
1
140
1
144
1
145
1
150
2
155
1
158
1
160
1
170
1
175
1
Total:
20
c) Procedimiento para la construccin de cuadros de frecuencia, cuando la variable
Cuantitativa Continua.
Paso 1: Determinamos el Rango.
Rango (R) = Valor Mximo Valor Mnimo R = 200 100 = 100
Paso 2: Determinamos el Nmero de intervalos (m), Aplicando la regla de Sturges:
N de intervalos (m) = 1 + 3.322*log(n) m = 1+ 3.322*log(20) = 5.293 5
Paso 3: Determinamos la Amplitud (C).
Amplitud (C) = R/m C = 100/5 = 20
Cuadro N 01: Distribucin de los trabajadores segn sus Retenciones al Sistema Privado
de Pensiones (SPP). Banco de Crdito del Per. Febrero de 2006.
[Li Ls>
Xi
fi
Fi
hi
Hi
hi%
Hi%
[100 120>
110
2
2
0.10
0.10
10%
10%
[120 140>
130
4
6
0.20
0.30
20%
30%
[140 160>
150
7
13
0.35
0.65
35%
65%
[160 180>
170
4
17
0.20
0.85
20%
85%
[180 200]
190
3
20
0.15
1.0
15%
100%
Total:
20
1.0
100%
Fuente: Departamento de personal del BCP.
d) Interpretacin:
f3 = 7: Existen 7 trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 140 soles a ms y a menos de 160 nuevos soles.
h3% = 35%: Existe un 35% de los trabajadores que sus retenciones al Sistema Privado de
Pensiones se encuentra de 140 soles a ms y a menos de 160 soles.
61
Estadstica Descriptiva
F3 = 13: Existen 13 trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 100 soles a ms y a menos de 160 soles.
H3% = 65%: Existe un 65% de los trabajadores que sus retenciones al Sistema Privado de
Pensiones se encuentra de 100 soles a ms y a menos de 160 soles.
e) [ 140 180>: Entonces el porcentaje de trabajadores = 35% + 20% = 55%.
f) [ 160 200]: Entonces el N de trabajadores = 4 + 3 = 7 Trabajadores.
g) Histograma.
Grafico N 01: Distribucin porcentual de los trabajadores segn sus Retenciones al
Sistema Privado de Pensiones (SPP). Banco de Crdito del Per. Febrero de 2006.
35%
40%
20%
20%
20%
30%
15%
10%
10%
0%
[100 120>
[120 140>
[140 160>
[160 180>
[180 200]
62
Estadstica Descriptiva
Grfico N02: Evolucin del comercio electrnico de empresas tursticas por ventas al
consumidor final en millones de pesetas. Espaa: 1997 2001.
40
Ventas
30
20
10
0
1997
1998
1999
Aos
2000
2001
Estadstica Descriptiva
c) Interpretacin:
f3 = 12: Existen 12 de cibernautas de la ciudad de Chimbote que acceden al internet por el
modo de conexin a travs de un Cibercaf.
h4% = 17%: Existe un 17% de los cibernautas de la ciudad de Chimbote que acceden al
internet por el modo de conexin a travs de otras modalidades.
d)
Grafico N03: Distribucin de cibernautas segn el modo de conexin al chat a travs de
internet. Ciudad de Chimbote. Enero de 2007.
14
12
12
10
8
2
0
Casa (C)
Trabajo (T)
Cibercaf (Cl)
Otros (O)
Cibercaf
Trabajo
(Cl)
(T)
40%
20%
Fuente: Encuesta Comunidad Virtual Profesional de Marketing.
Comentario:
Del grfico se puede observar que existe un 40% de los cibernautas que acceden por el
modo de conexin al chat a travs de internet desde un cibercaf y un 17% a travs de
Otros medios en la Ciudad de Chimbote.
ACTIVIDAD DE APRENDIZAJE II
1. Los siguientes datos corresponden a 10 cibernautas segn el tiempo en minutos que
pasan navegando en internet:
Xi: 35, 45, 50, 55, 35, 40, 55, 60, 42, 45.
Calcular e interpretar:
a) La media
b) La mediana
64
Estadstica Descriptiva
c) La moda
d) La desviacin estndar
e) El coeficiente de variacin.
f) El coeficiente de asimetra.
Solucin:
a) Media = media aritmtica = promedio, (muestral).
=1 35 + 45 + 50 + 55 + 35 + 40 + 55 + 60 + 42 + 45 462
=
=
= 46.2
n
10
10
Interpretacin:
El tiempo promedio que pasan navegando en internet los cibernautas es de 46 minutos
aproximadamente.
b) Mediana muestral (cuando n es par).
La ubicacin de la mediana de n datos ordenados en forma ascendente, se determina por:
(n+1)/2 = (10+1)/2 =5.5
Xi: 35 35 40 42 45 45 50 55 55 60
Luego la mediana se encuentra en el 5to y 6ta lugar de los datos ordenados, entonces:
Mediana = (45+45)/2 = 45.
Interpretacin:
El 50% de los cibernautas pasan navegando en internet como mximo 45 minutos,
mientras que el otro 50% supera dicho tiempo.
=
c) La Moda.
Observamos el valor que se repite con mayor frecuencia, que son 35, 45, 55.
Por lo tanto existen tres modas (trimodal). Entonces:
Md1 = 35, Md2 = 45, Md3 = 55
Interpretacin:
El mayor tiempo de cibernautas pasan navegando en internet so de 35, 45 y 55 minutos.
d) Desviacin estndar.
=1( )2
2
=
1
(4246.2)2 +(4546.2)2
669
2 =
= 74.4
9
Estadstica Descriptiva
e) Coeficiente de variacin:
.
. . = ( ) = (
) = .
f) Coeficiente de asimetra.
=
3( ) 3(46.2 45)
=
= 0.42
8.6
Interpretacin:
Este valor indica que la distribucin es asimtrica positiva.
Estadstica Descriptiva
Solucin.
a) SA = 70.71 soles.
b) SB = 37.10 soles.
c) CVA = =
d) CVB =
70.71
= 0.1179.
600
37.1024
= 451.667 = 0.0821.
=
=
= 16.967
n
300
Interpretacin:
El Tiempo de servicio promedio de los trabajadores de una empresa X es de 16.967
aos.
67
Estadstica Descriptiva
b)
Determinamos la Mediana (Me).
Como la variable es continua y los datos estn agrupados en intervalos, la frmula a
utilizar ser:
( 1 )
= + 2
Procedimiento.
Determinamos las frecuencias absolutas acumuladas Fi.
Luego buscamos en que intervalo se encuentra ubicado la mediana a travs de
n/2.
300
2
100)
100
5 = 17.5 .
Interpretacin:
El 50% de los trabajadores de la empresa X tiene un tiempo de servicio mximo de 17.5
aos, mientras que el otro 50% de los trabajadores de la empresa X supera dichos aos
de tiempo de servicio.
c) Moda
Como la variable es continua y los datos estn agrupados en intervalos, la frmula a
utilizar ser:
1
= + [
]
1 + 2
Donde: 1 = ( 1 )
2 = ( +1 )
68
Estadstica Descriptiva
Procedimiento.
Determinamos las frecuencias absolutas simples fi.
Posteriormente buscamos el valor ms frecuente en fi, que es 100, entonces el
intervalos que contiene a la moda es [15 20>, es el tercer intervalo, es decir i
= 3.
Reemplazamos en la Formula.
= 15 +
1 = 100 60 = 40
2 = 100 92 = 8
40
5 = 19.167
(40 + 8)
Interpretacin:
El tiempo de servicio ms frecuente de los trabajadores de la empresa X es de 19.167
aos.
5. El dueo de una fbrica considera que si la produccin de una mquina que tiene
muchos aos de vida tiene una produccin heterognea por lo que en estos ltimos 5
das tendr que darle de baja. Los resultados se muestran a continuacin, en nmero de
unidades.
Xi: 140, 127, 125, 148, 146.
Qu decisin tomar el dueo?
Solucin.
Desviacin estndar: S = 10.663 unidades.
Promedio: = 137.2
Coeficiente de variacin: . . = ( ) = ( . ) = . . %
El coeficiente de variacin es bajo de un 7.77%, por lo que se puede afirmar que la
produccin de la mquina es homogneo mas no heterogneo. Es decir no existe una
variabilidad alta. Por lo tanto la mquina no se debe dar de baja.
69
Estadstica Descriptiva
Problemas Propuestos
b)
tipo.
a) Desde hace dos aos las compaas gastan en proteccin de la informacin. Estos
gastos incluyen los costos de personal, hardware, software, servicios externos y
seguridad fsica. Se eligieron dos empresas transnacionales y se registraron sus gatos
mensuales, en miles de dlares, correspondientes a la proteccin de la informacin de
los ltimos seis meses.
b) La oficina de gestin de calidad de la UNAS est realizando un estudio para conocer,
segn el criterio de los profesores, que tan importante es la aplicacin de un modelo de
planeamiento de largo plazo en la mejora de la calidad en las instituciones de
educacin superior. De los 200 profesores consultados, el 30% lo consider poco
importante, el 50% importante y el 20% muy importante.
4. Los siguientes datos corresponden a una muestra aleatoria de 20 trabajadores del banco de
crdito del Per segn sus retenciones al sistema privado de pensiones en febrero del 2011.
100 200 150 160 179 130 135 150 155 158
180 190 170 175 120 115 140 139 145 144
Los datos fueron brindados por el departamento de personal de dicha institucin.
70
Estadstica Descriptiva
Se pide:
a. Identificar la unidad de anlisis y la variable en estudio.
b. Construya un cuadro de distribucin de frecuencias en intervalos de clase o
datos agrupados. Utilice la regla de Sturges.
c. Interprete f3, h3%, F3 y H3%.
d. Determinar qu porcentaje de trabajadores tienen una retencin de 140 soles o
ms, pero menos de 180 soles.
e. Determinar cuntos trabajadores tienen una retencin de 160 a 200 soles.
f. Construir un histograma de frecuencias porcentuales y comente.
5. La siguiente tabla muestra la cantidad de clientes que entran en el horario de 14 a 15 horas
en 60 importantes locales de ventas de automviles de cierta ciudad:
0 2 5 0 1 4 1 0 2 1 5 0 1 3 0 0 2 1 3 1
1 4 0 2 4 1 2 4 0 4 3 5 0 1 3 6 4 2 0 2
0 2 3 0 4 2 5 1 1 2 2 1 6 5 0 3 3 0 0 4
a) Determinar la variable a analizar e indicar cul es su tipo.
b) Construir una distribucin de frecuencias absolutas y representarla mediante un
diagrama de lneas.
c) Construir una distribucin de frecuencias relativas y relativas porcentuales e
interpretar el significado de la cuarta frecuencia.
d) Construir una distribucin de frecuencias acumuladas crecientes y
decrecientes, representarlas grficamente e interpretar el significado de la
segunda y quinta frecuencia.
e) Si en el 80% o ms de los locales entran como mximo 4 personas, se decidir
no atender al pblico en ese horario (de 14 a 15 horas) y comenzar a atender a
partir de las 15 horas. En base a los datos, qu decisin se tomar? Justificar.
6. A fin de decidir cuntos mostradores de servicio se necesitarn en tiendas que sern
construidas en el futuro, una cadena de supermercados quiso obtener informacin acerca
del tiempo (en minutos) requerido para atender a los clientes. Se registr la duracin de 60
casos:
3,6 1,9 2,1 0,3 0,8 0,2 1,0 1,4 1,8 1,6 0,6 2,8 2,5 1,1 0,4 1,2 0,4 1,3 0,8 1,3
1,1 1,8 0,3 1,1 0,5 1,2 0,6 1,1 0,8 1,7 1,1 1,2 0,8 1,0 0,9 0,7 3,1 1,7 1,1 2,2
1,4 0,2 1,3 3,1 0,4 2,3 1,8 4,5 0,9 0,7 1,6 1,9 5,2 0,5 1,8 0,3 1,1 0,6 0,7 0,6
Estadstica Descriptiva
23
19
23
26
27
34
31
32
36
26
21
39
40
38
24
41
38
34
21
32
42
41
25
39
37
35
26
28
22
39
32
24
29
33
32
36
27
30
35
24
27
30
22
32
35
20
33
24
28
26
Estadstica Descriptiva
12. Las notas de 50 alumnos de la UNAS Tingo Mara, se clasifican en una tabla de
distribucin de frecuencias con cuatro intervalos de clase de igual amplitud. Sabiendo
adems que: X2 = 50, f1 =4, F2 = 20, f3 = 25, = 62.4.
a. Calcular e interpretar la mediana (Me).
b. Determine la proporcin de estudiantes cuyos puntajes se encuentran por lo menos de
35 puntos pero a lo ms 65 puntos.
13. Sabiendo que la siguiente tabla de frecuencias, es simtrica, completar con los datos,
dados. Si adems se sabe que la mediana es igual a 27.5. Reconstruir la tabla de
frecuencias y calcular la media aritmtica.
[Li
Ls>
Xi
fi
Fi
hi
Hi
0.2
0.65
50
Total
0.95
60
73
Estadstica Descriptiva
17. La altura de dimetro de pecho de capirona se organizaron en una distribucin de
frecuencia, cuyos resultados incompletos se dan en la siguiente tabla:
Marca de clase Frecuencia relativa simple Frecuencia relativa
[Li
Ls>
Xi
Hi
acumulada Hi
0.15
6
0.45
0.70
13.5
0.10
Total
18. Los siguientes datos corresponden a la inversin real anual en miles de dlares de un grupo
de pequeas empresas. Completar la siguiente tabla de distribucin de frecuencia.
[ Li Ls >
Xi
fi
Fi
hi
Hi
[20 - 24 >
0.10
[24 - 28 >
0.25
[
- 32 >
11
0.55
[32 >
0.85
[
- 40]
1
Total
a) Identificar la unidad de anlisis y la variable en estudio.
b) Interpretar el f4 y el h4%.
19. En una tabla de distribucin simtrica con siete intervalos de clase de igual longitud, se
conocen los datos siguientes: C =10, f1=8 y X3 *f3=1260; f2 + f5 = 62; h3=0.21, H6 =
0.96.
Reconstruir la tabla de frecuencias y determinar la media geomtrica.
20. En base a la siguiente informacin que corresponden a la inversin real anual en miles de
dlares de un grupo de pequeas empresas. Construir la tabla de distribucin de
frecuencia.
X2=550; X5=850; h6 =2/50 = H1; m=6; h2=0.14; H4 = 0.76; h5=0.20; H3-h2 =0.26 y c =
constante
a) Interpretar el f4 y el h4%.
21. De las edades de cuatro personas, se sabe que la media es igual a 24 aos, la mediana es
23, y la moda es 22. Encuentre las edades de las cuatro personas.
22. La inversin real en miles de dlares anual de un grupo de pequeas empresas en el banco
de Crdito de la ciudad de Tingo Mara fueron:
807 811 620 650 817 732 747
900 753 1050 918 857 867 675
500 872 869 841 847 833 829
766 787 923 792 803 933 947
1056 1076 958 970 776 828 831
La informacin fue obtenida por el Instituto nacional de Estadstica e Informtica
en mayo de 2010.
Se pide:
a) Construir una tabla de distribucin de frecuencias, con intervalos (datos agrupados) y
hacer grfico correspondiente e interpretar.
b) Calcular e interpretar: La media, desviacin estndar, mediana y la moda.
74
Estadstica Descriptiva
TRABAJO PRCTICO: ESTADSTICA DESCRIPTIVA
(trabajo prctico a entregar de manera individual para ser calificado)
Ejercicio 23: (Se recomienda el uso del Software Estadstico Minitab 16 o SPSS 20.0)
Estudio sobre nutricin en el comedor de una Empresa
Fuente: Estadstica bsica en Administracin. Conceptos y Aplicaciones. Sexta Edicin.
Berenson, Mark L., Levine, David M. Prentice Hall Hispanoamericana, S. A. Pginas 166 168.
La vicepresidenta de los servicios al personal obrero de una empresa en las afueras
de la ciudad, sostuvo una reunin con la recin nombrada directora de los servicios de
comida, y con la profesora de nutricin, sobre una serie de quejas de los empleados
relacionadas con el men ofrecido en la cafetera de la empresa. Puesto que los obreros
transcurran la mayor parte del da dentro de la empresa, se vean obligados a comprar el
men que all se serva y que no siempre ofreca una comida barata, rpida y saludable.
Cuando la vicepresidenta pidi una respuesta sobre estos comentarios, la directora
de los servicios de comida asever que slo llevaba 3 semanas en la empresa y que haba
seguido preferentemente el men establecido por su predecesor, al mismo tiempo que
experimentaba con una seleccin de comida gastronmica cada da. Estableci, adems,
que a partir del llamado de atencin respecto a estas inquietudes, seguira otra pauta.
Considerando el hecho de que la empresa est situada en un rea rural y que, en particular,
se requiere el almacenamiento de productos alimenticios enlatados para los meses de
invierno en que las provisiones de la ciudad ms cercana pueden retrasarse, estudiara el
contenido nutricional de la sopa enlatada porque podra disponerse fcilmente de este
artculo en todos los almuerzos, e incluso podra proporcionar los nutrientes de la comida
saludable, barata y rpida que se solicita.
La profesora de nutricin estuvo de acuerdo en que tal estudio sera de utilidad y
proporcionara la informacin necesaria para tomar una decisin respecto a la
instrumentacin.
Los datos obtenidos fueron los siguientes:
MARC PRODUCT
CALORA
CALORAS SODI
TIPO COSTO
GRASA
A
O
S
DE GRASA
O
1
CN
CC
0,35
60
2
30
880
2
CN
CR
0,66
75
2
24
730
3
CN
CC
0,18
60
2
30
870
4
CN
DI
0,33
170
8
42
970
5
CN
CR
0,77
80
2
23
460
6
CN
DC
0,21
80
2
23
700
7
CN
DC
0,09
190
8
38
970
8
CN
DC
0,11
200
9
41
960
9
CN
DC
0,26
100
2
18
700
10
CN
CC
0,17
60
2
30
840
11
CN
CC
0,19
60
2
30
840
12
CN
DC
0,09
190
9
43
780
13
CN
CC
0,19
60
2
30
840
14
CN
CR
0,76
60
1
15
790
15
CN
DC
0,54
110
2
16
800
16
CN
CR
0,74
105
3
26
860
17
CN
CR
0,96
110
4
33
800
75
Estadstica Descriptiva
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
CN
CN
CN
CN
CN
CN
CN
CN
V
V
V
V
V
V
V
V
V
V
V
V
V
T
T
T
T
T
T
T
T
T
DC
DI
DI
CR
CR
CR
CR
CR
CR
CR
CR
CR
CR
CR
CR
CC
CR
CC
CR
CR
CR
CC
CC
CC
CC
CC
CC
CC
CR
CC
0,12
0,48
0,36
0,74
0,70
0,97
0,80
0,78
0,53
0,83
0,73
0,51
0,46
0,44
0,73
0,34
0,53
0,23
0,92
0,55
0,94
0,15
0,20
0,13
0,14
0,16
0,15
0,18
0,87
0,28
70
105
65
120
80
80
125
95
125
110
120
105
75
75
140
60
110
90
55
90
90
90
90
100
100
80
100
100
75
90
2
3
1
4
2
1
4
2
3
2
3
1
2
1
3
2
1
2
1
1
1
2
2
1
1
0
1
1
1
0
26
26
14
30
23
11
29
19
22
16
23
9
24
12
19
30
8
20
6
10
10
20
20
9
9
0
9
9
12
0
900
1190
890
810
470
180
65
580
670
680
800
600
940
680
540
880
640
830
280
480
160
670
410
710
630
700
630
710
300
740
Donde:
Producto: CN = Pollo. - V = Vegetales. - T = Tomate.
Tipo: CC = enlatada / condensada. - CR = enlatada / lista para servirse.
DC = deshidratada / cocinada. - DI = deshidratada / instantnea.
Costo en centavos.
Caloras por racin de 8 onzas.
Grasa en gramos por racin de 8 onzas.
Caloras de grasa como porcentaje de grasa por racin de 8 onzas.
Nivel de sodio en miligramos por racin de 8 onzas.
Se pide:
1.- En base a los datos de la tabla, indicar cules fueron las variables relevadas. Para cada
una de ellas indicar si es cualitativa o cuantitativa y especificar las categoras o valores.
2.- Realizar una tabla de distribucin de frecuencias (absolutas, relativas y porcentuales)
para las variables Producto y Tipo. Representar grficamente las frecuencias porcentuales
y obtener conclusiones.
76
Estadstica Descriptiva
3.- Realizar una tabla de distribucin de frecuencias (absolutas, relativas y acumuladas)
para las variables Costo y Sodio - en cada caso, decidir si es conveniente organizar los
datos de forma simple o en intervalos.
4.- Construir todos los grficos posibles para las distribuciones del tem anterior.
5.- Realizar un anlisis exploratorio para Caloras. Qu puede decirse de la distribucin?
Se observan outliers?
24. Acontinuacin se muestra una tabla con los datos acerca de la distribucin de
exportaciones e importaciones de diferentes pases (en millones de euros).
Pas
Exportaciones
Importaciones
EEUU
512
690
Alemania
425
380
Japn
390
275
Francia
235
230
Reino Unido
205
220
Italia
190
170
Canad
160
150
Holanda
155
140
Hong Kong
150
165
Blgica-Luxem
140
130
China
120
115
Singapur
95
100
Corea Sur
95
105
Taiwn
90
85
Espaa
75
90
a) Cules son las variables que intervienen en este anlisis? Cul es el tipo de las
mismas?
b) Realizar un diagrama de dispersin considerando las exportaciones como variable
dependiente. Puede observarse algn tipo de relacin entre ambas variables? En tal
caso, qu tipo de relacin se observa?
Ejercicio 25:
Objetivos:
1. Identificar la naturaleza de las variables contenidas en una base de datos.
2. Elaborar cuadros de resumen sobre la informacin de una base de datos.
3. Analizar la informacin de un cuadro de informacin.
Con el fin de evaluar las caractersticas de las unidades agropecuarias (UA) de un valle
donde existen 2000 unidades agropecuarias, se entrevist a una muestra aleatoria de 20
unidades solicitndoles la informacin siguiente:
Unidad
1
2
3
4
5
Zona
Norte
Norte
Norte
Norte
Norte
Edad del
productor
25
27
29
35
36
N parcelas
de la UA
1
1
1
1
2
N de cultivos
de la UA
De 1 a 2
De 1 a 2
De 1 a 2
De 1 a 2
De 5 a 6
rea de la
UA (has)
2.01
2.51
3.88
4.01
4.17
Nivel tecnolgico
de la UA
Baja
Baja
Baja
Baja
Baja
77
Estadstica Descriptiva
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Norte
Norte
Norte
Norte
Norte
Este
Este
Este
Este
Este
Sur
Sur
Oeste
Oeste
Oeste
39
38
45
56
68
25
24
30
35
38
25
30
32
40
45
2
2
2
2
3
2
2
2
2
2
3
3
3
3
3
De 5 a 6
De 5 a 6
De 5 a 6
De 5 a 6
De 5 a 6
De 1 a 2
De 1 a 2
De 7 a 8
De 7 a 8
De 7 a 8
De 7 a 8
De 5 a 6
De 7 a 8
De 7 a 8
De 7 a 8
4.84
4.59
4.84
5.18
6.7
2.8
3.05
7.49
6.79
6.95
7.5
5.8
8.75
9.48
7.8
Media
Media
Media
Media
Media
Baja
Baja
Media
Alta
Alta
Alta
Media
Alta
Alta
Alta
78
Estadstica Descriptiva
Cul es su opinin sobre la conformidad o no de cada componente del cuadro
Componente del cuadro
1. Nmero de cuadro
2. Ttulo
3. Encabezamiento
4. Cuerpo del cuadro
5. Notas de pie
6. Fuente
7. Responsable
8. Fecha
Opinin
Ejercicio 27. Para cada uno de los escenarios referidos a una encuesta de evaluacin sobre
el universo de proyectos realizados en el valle, entre una investigacin cuantitativa
cualitativa, elija la investigacin con que est ms relacionado
Escenario
Cuantitativa
1. Se requieren verificar 20 hiptesis sobre los cambios
ocurridos en la produccin de maz
2. Se requiere describir al sistema de produccin de y la
cadena productiva del maz
3. Se dispone de un cuestionario estructurado de
50 preguntas para la encuesta
4. Se requiere conocer en qu oportunidades y bajo qu
condiciones los hogares precisan de recurrir a
prstamos informales en la zona
5. Se debe evaluar los cambios registrados en la
produccin de maz
6. Se deben lograr mediciones objetivas sobre los
rendimientos obtenidos con el maz
7. Se requieren conocer todos los problemas que se
ocasionarn al prohibir el cultivo de tomate en el
valle
Cualitativa
Estadstica Descriptiva
CASO 1
Caso: Banco Pacfico.
Banco Pacfico es una entidad financiera que ha ingresado con fuerza al sistema financiero
peruano. Debido a su rpido crecimiento el Gerente de Operaciones desea hacer un estudio
descriptivo e Inferencial entre los clientes que cuentan con tarjeta de crdito. Para cumplir
con su objetivo se seleccionaron al azar muestras aleatorias e independientes de tres tipos
de clientes segn el tipo de tarjeta de crdito otorgada. Las variables de inters analizadas
fueron las siguientes:
Tipo de Tarjeta de Crdito: Clsica, Platino y Dorada.
Gnero del cliente: Masculino, Femenino.
Monto de crdito adeudado (en miles de soles) en enero del 2009.
Monto de crdito adeudado (en miles de soles) en mayo del 2009.
Nmero de retiros por cajero el da del cierre de cobro del mes de mayo.
Nmero de pagos en establecimientos comerciales el da del cierre de cobro
del mes de mayo.
Categora del cliente: A1 y A2.
Edad del cliente (en aos)
Ingreso mensual del cliente (en soles)
Nmero de hijos
Principal uso de crdito: vivienda, auto, otros.
80
Estadstica Descriptiva
Formulario:
Medidas de tendencia central muestral:
Para datos sin agrupar:
Promedio aritmtico o media.
Xi
i 1
Mediana (Me).
Es el valor central de un conjunto de
datos ordenados de menor a mayor.
La ubicacin de la mediana de n datos
ordenados en forma ascendente, se
determina por: (n)/2
Moda (Mo).
Es valor ms frecuente en el conjunto
de datos.
Media armnica ( X h ):
n
Xh
1 1
1
....
x1 x2
xn
Media geomtrica ( X G ):
de n
La media geomtrica simple
observaciones X1, X2, X3,..,Xn positivos,
est dado por la raz ensima del
producto de los n valores observados. El
promedio geomtrico de los valores: (X1,
X2, X3,..,Xn) es :
X G n x1 x2 .... xn
Xi fi
i 1
Mediana (Me).
n
Fi 1
2
C
Me Li
fi
Moda (Mo).
d1
Mo Li
C
d1 d 2
donde :
d1 fi f i 1
d 2 fi f i 1
Media armnica ( X h ):
n
n
Xh
m
f
f1 f 2
.... m f i
x1 x2
xm
i 1 xi
Media geomtrica ( X G ):
X G n x1 1 x2 2 .... xm m
f
= [ =1
]
Donde:
n = tamao de muestra.
Xi = marca de clase.
fi = frecuencia absoluta simple.
m = nmero de intervalos.
81
Estadstica Descriptiva
Medidas de variabilidad o de dispersin muestral:
Para datos sin agrupar:
Varianza ( S 2 ).
Varianza ( S 2 ).
X
n
S2
i 1
X
n
S2
i 1
n 1
Desviacin estndar (S):
n 1
Desviacin estndar (S):
S S2
S S2
CV %
X fi
2
S
*100
X
CV %
S
*100
X
Distribuciones bidimensionales
Supongamos que en una poblacin, y para un conjunto de n individuos, se miden dos
caracteres X e Y:
( x1 , y1 ), ( x2 , y2 ),. . ., ( xn , yn )
En este caso tenemos una variable estadstica bidimensional o distribucin bidimensional
de frecuencias, la cual representaremos por (X, Y). Cuando se cuenta con una gran
cantidad de datos, un modo de presentar la distribucin bidimensional es a travs de una
tabla de doble entrada de la forma:
Tabla de doble entrada
X/Y
y1
y2
. . . yj
...
yk
Total
x1
n11
n12
. . . n1 j
...
n1k
n1
x2
.
.
.
xi
.
.
.
xl
Total
n21
n22
. . . n2 j
...
n2k
.
.
.
.
.
.
n2
.
.
.
ni
.
.
.
nl
n
ni 1
ni 2
.
.
.
. . . nij
.
.
.
...
.
.
.
nik
.
.
.
.
.
.
.
.
.
nl 1
nl 2
. . . nlj
...
nlk
n1
n2
. . . n j
...
n k
Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de
una dimensin. En el caso de que las dos variables sean atributos, la tabla anterior recibe el
nombre de tabla de contingencia.
La representacin grfica ms utilizada en el caso bidimensional es la nube de puntos o
diagrama de dispersin. Consiste en representar cada pareja de datos como un punto sobre
unos ejes cartesianos.
82
Estadstica Descriptiva
n1
x2
.
.
.
xl
n2
.
.
.
y1
y2
.
.
.
yk
n1
n2
.
.
.
n k
nl
Las distribuciones condicionadas permiten estudiar el comportamiento de una de las
variables cuando la otra permanece constante. Vienen dadas por:
X/Y= y j
Distribuciones condicionadas de X e Y.
ni / j
n j /i
Y/X= xi
x1
n1 j
x2
.
.
.
n2 j
xl
.
.
.
nlj
y1
y2
.
.
.
yk
ni1
ni 2
.
.
.
nik
Ejemplo:
Se desea investigar el ganado caprino (cabras) y el ganado ovino (ovejas) de un pas. En la
tabla de doble entrada adjunta se presentan los resultados de un estudio de 100
explotaciones ganaderas, seleccionadas aleatoriamente del censo agropecuario. Se
proporcionan las frecuencias conjuntas del nmero de cabezas (en miles) de cabras (X) y
ovejas (Y) que poseen las explotaciones.
X\Y
0
1
2
3
4
0
4
6
9
4
1
1
5
10
7
4
2
2
7
8
5
3
1
3
5
5
3
2
1
4
2
3
2
1
0
a) Hallar las medias, varianzas y desviaciones tpicas marginales.
b) Hallar el nmero medio de cabras condicionado a que en la explotacin hay 2,000
ovejas.
c) Hallar el nmero medio de ovejas que tienen aquellas explotaciones que sabemos que
no tienen cabras.
Solucin:
Primero completar la tabla anterior con las distribuciones de frecuencias de X e Y.
83
Estadstica Descriptiva
X\Y
0
1
2
3
4
n j
4
5
7
5
2
23
6
10
8
5
3
32
9
7
5
3
2
26
4
4
3
2
1
14
1
2
1
1
0
5
ni
24
28
24
16
8
100
a) La media de X es:
La varianza de X es:
S
2
X
100
S X S X 2 =1.2355
Observe que la media muestral es un buen representante de los datos, ya que la desviacin
estndar no es demasiado alta.
Para completar el literal a) debe obtenerse la media, varianza y desviacin estndar para la
variable Y.
b) El nmero medio de ovejas condicionado a que en la explotacin hay 2,000 cabras, se
obtiene manteniendo fija la columna donde la variable Y es igual a 2. Esto es:
3*3 4*2
= 1.3077
X / Y 2 0*9 1*7 2*5
26
c) De forma anloga al literal b) (la media de Y es 1.46)
Ejemplo. Dada la siguiente distribucin de frecuencias conjunta:
Xi
1
1
2
3
3
4
4
4
Yi
2
6
2
2
4
2
4
6
nij
1
1
2
1
1
1
2
1
84
Estadstica Descriptiva
Solucin.
La tabla de correlacin pedida y sus distribuciones marginales estn dadas en la siguiente
tabla:
Y/X 1
2
3
4
n. j
La distribucin de Y/X=3
2
1
2
1
1
5
Y/X=3 2
4
6
4
0
0
1
2
3
1
1
0
n j / i 3
6
1
0
0
1
2
2
ni.
10=N
Cov( X , Y ) S XY
x
l
i 1
Y nij
85