Está en la página 1de 86

ESTADSTICA APLICADA

Estadstica Descriptiva y
Probabilidades

ING. WILMER JULIO BERMDEZ PINO


Docente de la Facultad de Ing. Informtica y Sistemas.
Universidad Nacional Agraria de la Selva.
Tingo Mara

Estadstica Descriptiva
Introduccin

El trmino estadstica es utilizado frecuentemente para hacer referencia a datos


individuales, un conjunto de datos o cualquier informacin derivada de ellos; sin embargo,
la estadstica es mucho ms que una simple coleccin o tabulacin de datos pues involucra
todo un conjunto de procesos que tienen como objetivo alcanzar un mayor conocimiento
de una realidad que es desconocida y sobre la cual se desea tomar decisiones confiables.

Cualquiera que sea la actividad que realiza una persona, siempre se enfrentar al reto de
tomar decisiones. Cada da, iniciamos un juego en decisiones que va de la mano con
nuestro trabajo diario. Del mismo modo, para la gestin diaria de una empresa, de un
sector, de un pas, etc. se requiere tomar continuamente decisiones; por ejemplo, para dar
una medida econmica sobre modificacin de aranceles a los productos importados se
pueden tener algunas interrogantes como: De qu manera afectaran las medidas a otros
sectores productivos? Generarn condiciones favorables para una mejora en la
tecnologa? Permitirn generar una mayor oferta de trabajo?, etc. Para tomar una decisin
al respecto es necesario tener informacin sobre el comportamiento de los diferentes
sectores econmicos y de la forma como se relacionan entre s. Obviamente, para esto se
requiere disponer de datos apropiados (suficientes, oportunos y de buena calidad), de
metodologas y procesos que permitan alcanzar el conocimiento deseado de la realidad
sobre la cual se tomaran decisiones. La estadstica tambin brinda apoyo a otras ciencias
mediante el desarrollo de procesos dirigidos a la aceptacin y anlisis de datos; de esta
manera, se pueden asociar ciertos niveles de confiabilidad con los procesos de toma de
decisiones.

Estadstica Descriptiva
I.

PRINCIPALES DEFINICIONES

1. ESTADSTICA
Ciencia que proporciona un conjunto de mtodos y tcnicas que se utilizan para
recolectar, organizar, presentar, analizar e interpretar el comportamiento de los
datos con respecto a una caracterstica materia de estudio e investigacin. En
primer lugar se encarga de obtener informacin, describirla y luego en base a esta
informacin, realizar predicciones y una ptima toma de decisiones frente a la
incertidumbre.
El objeto de estudio de la Estadstica ES EL ESTUDIO DE LOS DATOS: Hacer una
inferencia ptima a partir de los datos, para la toma de decisiones.
1.1. QUIN UTILIZA LA ESTADSTICA?
Las tcnicas estadsticas se aplican de manera muy general en mercadotecnia,
contabilidad, control de calidad, estudio de consumidores, administradores de
instituciones, en la educacin, rganos polticos, en la medicina y por diferentes
profesionales que intervienen en la toma de decisiones.
1.2. DIVISIN DE LA ESTADSTICA: El campo de la estadstica generalmente
est divido en dos grandes reas: Estadstica Descriptiva o Deductiva y
Estadstica Inferencial o Inductiva.
1.2.1. ESTADSTICA DESCRIPTIVA:
Es el conjunto de mtodos que implican la recoleccin, presentacin y
caracterizacin de un conjunto de datos a fin de describir en forma
apropiada las diversas caractersticas de estas. Es decir, un estudio
estadstico se considera descriptivo cuando slo se analiza y describe
un conjunto datos de una muestra o de una poblacin sin sacar
conclusiones de tipo general.
1.2.2. ESTADSTICA INFERENCIAL:
La inferencia estadstica es un conjunto de mtodos o tcnicas que
posibilitan la generalizacin o toma de decisiones en base a una informacin
parcial obtenida mediante tcnicas descriptivas.
En este aspecto es inferir o predecir conclusiones que ataen a toda fuente
de informacin de donde provienen los datos. Ahora bien esta prediccin se
hace con un cierto grado de confianza; este grado de confianza se mide por
la probabilidad.
2. OBJETIVOS GENERALES DE LA ESTADSTICA:
La estadstica tiene tres objetivos:
2.1 Describir colecciones de datos empricos
2.2 Inferir las propiedades de una poblacin.
2.3 Realizar predicciones sobre el comportamiento de fenmenos.

Estadstica Descriptiva
2.1. DESCRIBIR COLECCIONES DE DATOS EMPRICOS: Para lograr este
objetivo general de la estadstica es necesario realizar algunos procesos bsicos,
tales como:
-

Evaluar y corregir los datos.


Clasificar los datos en categoras adecuadas.
Tabular los datos clasificados.
Representar los datos adecuadamente, ya sea en forma de tablas o grficos.
Obtener medidas de resumen.

2.2. INFERIR LAS PROPIEDADES DE UNA POBLACIN: Esta ciencia pretende


inferir las propiedades de toda una poblacin en estudio a partir del anlisis e
interpretacin de los datos conocidos de una muestra de dicha poblacin. Para
lograr este segundo gran objetivo general de la estadstica se han desarrollado
conceptos, mtodos y tcnicas relacionadas con:
-

El muestreo estadstico.
La estimacin estadstica.
El clculo de probabilidades.
Las pruebas estadsticas.

2.3. REALIZAR PREDICCIONES SOBRE EL COMPORTAMIENTO DE


FENMENOS: El comportamiento de los fenmenos en el futuro constituye la
mxima aspiracin prctica de toda ciencia, puesto que el inters fundamental en
este caso es la toma de decisiones con vigencia y efecto en el futuro. Esta ciencia
ha desarrollado y sigue creando conceptos, mtodos y tcnicas para tal fin; los
mismos que la convierten en poderosa ciencia auxiliar para el progreso de otras
ciencias.
3. TRMINOS DE ESTADSTICA.
La estadstica usa diversos trminos con un significado especial. Para ello es
conveniente especificar el significado de algunos de los ms importantes y frecuentes.
A continuacin se incluyen algunos trminos.
ESTADSTICAS. Es cualquier conjunto sistemtico de datos estadsticos referentes a
un determinado fenmeno o asunto. Por ejemplo: estadsticas econmicas, estadsticas
policiales, nmero de enfermos segn causas en un hospital, etc.
Estadstica: Es Ciencia, y siempre se escribe con mayscula la primera letra
Estadstico: Profesional que se dedica al estudio de la Estadstica.
Estadista: Es el hombre de estado, ejemplo el presidente de la repblica, ministros,
congresistas, etc.

Estadstica Descriptiva

POBLACIN (N)

Es el conjunto de todos los individuos, objetos u observaciones que


poseen alguna caracterstica observable en comn. Conjunto formado
por todas las unidades de anlisis (elementos) que son cobertura de la
investigacin planteada

POBLACIN
OBJETIVO

Conjunto formado por todas las unidades de anlisis para el


cual se deben hacer las extrapolaciones e inferencias a manera
de generalizacin de los hallazgos realizados.

POBLACIN
MUESTREADA

Conjunto formado por todas las unidades de anlisis (elementos) que


integran al directorio o marco de muestreo que permite ver su
identificacin y forma de acceder a ella para efectuar las mediciones
respectivas.
Es una parte o subconjunto representativo de la poblacin y al proceso de
obtener la muestra se le llama muestreo.

MUESTRA (n)

UNIDAD DE
ANLISIS

Subconjunto de elementos elegidos de la poblacin muestreada a travs


mtodos de seleccin determinados y del cual se obtendr la informacin
primaria cualitativa o cuantitativa que permitir estudiar, analizar y
evaluar a dicha poblacin
Es el elemento u objeto de la poblacin que ser analizado y sobre los
cuales se obtendrn los datos.
Es la unidad bsica en la que se genera la informacin primaria
que es objeto de estudio.

UNIDAD DE
MUESTREO

Agrupaciones de unidades de anlisis claramente delimitadas no solapadas


o disjuntas que cubren completamente al arco de muestreo. En ciertas
investigaciones la unidad de muestreo coincide con la unidad de anlisis,
sin embargo, con frecuencia la unidad de muestreo es un conglomerado que
comprende a un conjunto de unidades de anlisis

MARCO DE
MUESTREO

Conjunto conformado por el listado de unidades de muestreo que:


Permite su identificacin y localizacin de cada unidad de muestreo.
Dispone de informacin suficiente para su estratificacin respectiva.
Permite establecer la probabilidad de incluir cada unidad en la muestra
respectiva.

DOMINIOS

Subdivisiones de la poblacin para las cuales se prev elegir muestras


independientes y representativas con el fin de generar estimaciones de
confiabilidad predeterminada.

CENSO

Decimos que realizamos un censo cuando se observan todos los


elementos de la poblacin estadstica.
La observacin del individuo la describimos mediante uno o ms
caracteres. El carcter es, por tanto una cualidad o propiedad inherente
en el individuo.
TIPOS DE CARACTERES:

CARACTERES

Cualitativos: Aquellos que son categricos, pero no son numricos.


p. ej. <Color de los ojos>, <profesin>, <marca de automvil>,...
Ordinales: Aquellos que pueden ordenarse, pero no son numricos.
p. ej. <Grado de instruccin: primaria, secundaria, superior>.
Cuantitativos: son numricos.
p. ej. <Peso>, <talla>, <nm. de hijos>,...

Estadstica Descriptiva
Un carcter puede mostrar distintas modalidades o valores, es decir, son
distintas manifestaciones o situaciones posibles que puede presentar un
carcter estadstico. Las modalidades o valores son incompatibles y
exhaustivos.
MODALIDAD
VALOR

Generalmente se utiliza el trmino modalidad cuando hablamos de


caracteres cualitativos y el trmino valor cuando estudiamos caracteres
cuantitativos.
p. ej. El carcter cualitativo <Estado Civil> puede adoptar las
modalidades: casado, soltero, viudo. El carcter cuantitativo <Edad>
puede tomar los valores: diez, once, doce aos,
Al conjunto de los distintos valores numricos que adopta un carcter
cuantitativo se llama variable estadstica.
TIPOS DE VARIABLES ESTADSTICAS:

VARIABLE
ESTADSTICA

Discretas: Aquellas que toman valores aislados (nmeros naturales), y


que no pueden tomar ningn valor intermedio entre dos nmeros
consecutivos fijados.
p. ej. <nm. de goles marcados>, <nm. de hijos>, <nm., de discos
comprados>, <nm. de pulsaciones>,...
Continuas: Aquellas que toman infinitos valores (nmeros reales) en un
intervalo dado, de forma que pueden tomar cualquier valor intermedio, al
menos tericamente, en su rango de variacin.
p. ej. <talla>, <peso>, <presin sangunea>, <temperatura>, ...
Una observacin es el conjunto de modalidades o valores de cada
variable estadstica medidos en un mismo individuo.

OBSERVACIONES

p. ej. En una poblacin de 100 individuos podemos estudiar, de forma


individual, tres caracteres: <edad: 18, 19, ...>, <sexo : Hombre, Mujer> y
<si ha votado en las elecciones : Si, No>.
Son aquellas medidas que describen numricamente las caractersticas de
una poblacin. Una poblacin puede tener varias caractersticas y, por
tanto, varios parmetros.

PARMETROS.

ESTADGRA
FOS.

Ejemplo: La media poblacional (), la desviacin estndar poblacional


(), la varianza poblacional ( )
Son aquellas medidas que describen numricamente las caractersticas de
una muestra. Tambin conocido como estimador puntual. Por ejemplo:
La media aritmtica, la mediana (Me), la moda (Mo).
Son aquellas medidas que describen numricamente las caractersticas de
una muestra. Tambin conocido como estimador puntual. Por ejemplo:
La media aritmtica, la mediana (Me), la moda (Mo).

Estadstica Descriptiva
4. ETAPAS EN LA INVESTIGACIN ESTADSTICA
El mtodo estadstico, parte de la observacin de un fenmeno, y como no puede
siempre mantener las mismas condiciones predeterminadas o a voluntad del
investigador, deja que acten libremente, pero se registran las diferentes observaciones
y se analizan sus variaciones.
Para el planeamiento de una investigacin, por norma general, se siguen las
siguientes etapas:
4.1. Planteamiento del problema.
4.2. Fijacin de los objetivos.
4.3. Formulacin de la hiptesis.
4.4. Definicin de la unidad de observacin y de la unidad de medida
4.5. Determinacin de la poblacin y de la muestra.
4.6. La recoleccin.
4.7. Crtica, clasificacin y ordenacin.
4.8. Tabulacin.
4.9. Presentacin.
4.10. Anlisis.
4.11. Publicacin.
4.1.PLANTEAMIENTO DEL PROBLEMA
Al abordar una investigacin se debe tener bien definido qu se va a investigar y
por qu se pretende estudiar algo. Es decir, se debe establecer una delimitacin
clara, concreta e inteligible sobre el o los fenmenos que se pretenden estudiar,
para lo cual se deben tener en cuenta, entre otras cosas, la revisin bibliogrfica
del tema, para ver su accesibilidad y consultar los resultados obtenidos por
investigaciones similares, someter nuestras proposiciones bsicas a un anlisis
lgico; es decir, se debe hacer una ubicacin histrica y terica del problema.
4.2.FIJACIN DE LOS OBJETIVOS
Luego de tener claro lo que se pretende investigar, Debemos presupuestar hasta
dnde queremos llegar; en otras palabras, debemos fijar cules son nuestras metas
y objetivos.
Estos deben plantearse de tal forma que no haya lugar a confusiones o
ambigedades y debe, adems, establecerse diferenciacin entre lo de corto,
mediano y largo plazo, as como entre los objetivos generales y los especficos.
4.3. FORMULACIN DE LAS HIPTESIS
Una hiptesis es ante todo, una explicacin provisional de los hechos objeto de
estudio, y su formulacin depende del conocimiento que el investigador posea
sobre la poblacin investigada. Una hiptesis estadstica debe ser susceptible de
docimar, esto es, debe poderse probar para su aceptacin o rechazo.
Una hiptesis que se formula acerca de un parmetro (media, proporcin,
varianza, etc.), con el propsito de rechazarla, se llama Hiptesis de Nulidad y se
representa por Ho; a su hiptesis contraria se le llama Hiptesis Alternativa (H1).
4.4. DEFINICIN DE LA UNIDAD DE OBSERVACIN Y DE LA UNIDAD
DE MEDIDA
La Unidad de Observacin, entendida como cada uno de los elementos
constituyentes de la poblacin estudiada, debe definirse previamente, resaltando
6

Estadstica Descriptiva
todas sus caractersticas; pues, al fin de cuentas, es a ellas a las que se les har la
medicin.
La unidad de observacin puede estar constituida por uno o varios individuos u
objetos y denominarse respectivamente simple o compleja.
El criterio sobre la unidad de medicin debe ser previamente definido y unificado
por todo el equipo de investigacin. Si se trata de medidas de longitud, volumen,
peso, etc., debe establecerse bajo qu unidad se tomarn las observaciones ya sea
en metros, pulgadas, libras, kilogramos, etc.
Asociado a la unidad de medida, deben establecerse los criterios sobre las
condiciones en las cuales se ha de efectuar la toma de la informacin.
4.5. DETERMINACIN DE LA POBLACIN Y DE LA MUESTRA.
Estadsticamente, la poblacin se define como un conjunto de individuos o de
objetos que poseen una o varias caractersticas comunes. No se refiere esta
definicin nicamente a los seres vivientes; una poblacin puede estar constituida
por los habitantes de un pas o por los peces de un estanque, as como por los
establecimientos comerciales o las unidades de vivienda de una ciudad.
Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas.
Muestra es un subconjunto de la poblacin a la cual se le efecta la medicin con
el fin de estudiar las propiedades del conjunto del cual es obtenida.
En la prctica, estudiar todos y cada uno de los elementos que conforman la
poblacin no es aconsejable, ya sea por la poca disponibilidad de recursos, por la
homogeneidad de sus elementos, porque a veces es necesario destruir lo que se
est midiendo, por ser demasiado grande el nmero de sus componentes o no se
pueden controlar; por eso se recurre al anlisis de los elementos de una muestra
con el fin de hacer inferencias respecto al total de la poblacin. Existen diversos
mtodos para calcular el tamao de la muestra y tambin para tomar los elementos
que la conforman, pero no es el objetivo de este curso estudiarlos. Diremos
solamente que la muestra debe ser representativa de la poblacin y sus elementos
escogidos al azar para asegurar la objetividad de la investigacin.
4.6. LA RECOLECCIN
Una de las etapas ms importantes de la investigacin es la recoleccin de la
informacin, la cual ha de partir, a menos que se tenga experiencia con muestras
anlogas, de una o varias muestras piloto en las cuales se pondrn a prueba los
cuestionarios y se obtendr una aproximacin de la variabilidad de la poblacin,
con el fin de calcular el tamao exacto de la muestra que conduzca a una
estimacin de los parmetros con la precisin establecida.
El establecimiento de las fuentes y cauces de informacin, as como la cantidad y
complejidad de las preguntas, de acuerdo con los objetivos de la investigacin son
decisiones que se han de tomar teniendo en cuenta la disponibilidad de los
recursos financieros, humanos y de tiempo y las limitaciones que se tengan en la
zona geogrfica, el grado de desarrollo, la ausencia de tcnica, etc.
Es, entonces, descubrir dnde est la informacin y cmo y a qu "costo" se
puede conseguir; es determinar si la encuesta se debe aplicar por telfono, por
correo, o si se necesitan agentes directos que recojan la informacin; establecer su
nmero ptimo y preparar su entrenamiento y/o capacitacin adecuada.

Estadstica Descriptiva
4.7. CRITICA, CLASIFICACIN Y ORDENACIN
Despus de haber reunido toda la informacin pertinente, se necesita la
depuracin de los datos recogidos. Para hacer la crtica de una informacin, es
fundamental el conocimiento de la poblacin por parte de quien depura para poder
detectar falsedades en las respuestas, incomprensin a las preguntas, respuestas al
margen, adems de todas las posibles causas de nulidad de una pregunta o nulidad
de todo un cuestionario.
Separado el material de "desecho" con la informacin depurada se procede a
establecer las clasificaciones respectivas y con la ayuda de hojas de trabajo, en las
que se establecen los cruces necesarios entre las preguntas, se ordenan las
respuestas y se preparan los modelos de tabulacin de las diferentes variables que
intervienen en la investigacin.
El avance tecnolgico y la popularizacin de los computadores hacen que estas
tareas, manualmente dispendiosas, puedan ser realizadas en corto tiempo.
4.8. LA TABULACIN.
Una tabla es un resumen de informacin respecto a una o ms variables, que
ofrece claridad al lector sobre lo que se pretende describir; para su fcil
interpretacin una tabla debe tener por lo menos: Un ttulo adecuado el cual debe
ser claro y conciso. La Tabla propiamente dicha con los correspondientes
subttulos internos y la cuantificacin de los diferentes tems de las variables, y las
notas de pie de cuadro que hagan claridad sobre situaciones especiales de la tabla,
u otorguen los crditos a la fuente de la informacin.
4.9. LA PRESENTACIN
Una informacin estadstica adquiere ms claridad cuando se presenta en la forma
adecuada. Los cuadros, tablas y grficos facilitan el anlisis, pero se debe tener
cuidado con las variables que se van a presentar y la forma de hacerlo. No es
aconsejable saturar un informe con tablas y grficos redundantes que, antes que
claridad, crean confusin.
Adems la eleccin de determinada tabla o grfico para mostrar los resultados,
debe hacerse no slo en funcin de las variables que relaciona, sino del lector a
quien va dirigido el informe.
4.10. EL ANLISIS
La tcnica estadstica ofrece mtodos y procedimientos objetivos que convierten
las especulaciones de primera mano en aseveraciones cuya confiabilidad puede
ser evaluada y ofrecer una premisa medible en la toma de una decisin.
Es el anlisis donde se cristaliza la investigacin. Esta es la fase de la
determinacin de los parmetros y estadsticos muestrales para las estimaciones e
inferencias respecto a la poblacin, el ajuste de modelos y las pruebas de las
hiptesis planteadas, con el fin de establecer y redactar las conclusiones
definitivas.
4.11. PUBLICACIN
Toda conclusin es digna de ser comunicada a un auditorio. Es ms, hay otros
estudiosos del mismo problema a quienes se les puede aportar informacin,
conocimientos y otros puntos de vista acerca de l.
8

Estadstica Descriptiva
5. MTODOS PARA RECOLECTAR DATOS:
Existen tres principales mtodos con los cuales el investigador puede obtener los datos:
5.1. El investigador puede recurrir a datos ya publicados por fuentes gubernamentales,
industrias, compaas o individuales.
5.2. El investigador puede disear un experimento para obtener los datos necesarios.
5.3. Puede efectuar una encuesta.
5.1. FUENTES DE INFORMACIN: Es el lugar, la institucin, la persona, donde
estn los datos que se necesitan para cada una de las variables o aspectos de la
investigacin. Las fuentes de datos pueden ser:
5.1.1. FUENTES DE DATOS INTERNOS. Es la informacin recopilada por la
empresa de los resultados de una propia gestin.

Ejemplo:
reportes financieros
Reportes de operaciones, que estn dadas por la informacin de la
produccin, compras, ventas, estados de prdida y ganancias.
Reportes especiales, es la informacin adicional para el anlisis estadstico.

5.1.2. FUENTES DE DATOS EXTERNOS. Son informaciones estadsticas


elaboradas por instituciones de investigacin, que pueden ser pblicas o
privadas.
5.1.3. FUENTES PRIMARIAS. Cuando la informacin estadstica es obtenida
directamente de la unidad de observacin.
Por ejemplo: los resultados de los censos de poblacin y vivienda, la
inflacin, la tasa de inters bancaria, ndice de precios al consumidor, etc.
5.1.4. FUENTES SECUNDARIAS. Cuando la informacin estadstica es
elaborada a base de los datos de fuentes primarias.
El organismo oficial fundamental de datos estadsticos es el Instituto
Nacional de Estadstica e Informtica (INEI).
5.2. DISEO DE EXPERIMENTO: Es un segundo mtodo de recoleccin de la
informacin. Los diseos experimentales deben utilizarse siempre que sea posible
cuando se desee construir modelos explicativos.
5.3. ENCUESTAS: Proceso de recopilar la informacin a travs de una muestra.
6. PRINCIPALES PROCEDIMIENTOS PARA RECOLECTAR INFORMACIN.
Toda informacin tiene dos aspectos fundamentales: Fuente de obtencin y mtodos
para su recoleccin.
FUENTE DE OBTENCIN. La fuente de obtencin puede ser primaria y secundaria.
Primarios. Cuando se recogen directamente de su origen.
Secundarios. Cuando no se recogen directamente de su origen.
9

Estadstica Descriptiva
MTODOS DE RECOLECCIN. Cuando es utilizada una fuente primaria para
recolectar informacin se distinguen dos procedimientos fundamentales: La observacin y
el interrogatorio.
MTODOS DE INTERROGATORIOS.
El interrogatorio puede hacerse mediante dos mtodos:
Mtodo directo (se efecta por medio de entrevistas)
Mtodo indirecto (se efecta por medio de cuestionarios)
SISTEMAS DE RECOLECCIN.
Son procedimientos que se utilizan para recoger informacin.
Pueden ser:
a) Los Registros: son libros, padrones en donde se anotan en forma regular,
permanente y obligatoria los hechos ocurridos.
Ejemplo: Registros Civiles, RENIEC, Registros Pblicos, etc.
b) Las Encuestas:son procedimientos de obtencin de informacin estructurada
segn criteriosprevios de sistematizacin que se efecta con un propsito especfico
en la poblacin o en un sector de ella. Pueden ser:
b.1) Encuesta Censal:Cuando abarca toda la poblacin en estudio.
Ejemplo: censos de poblacin y vivienda en una localidad o pas
b.2) Encuesta Muestral:Cuando abarca una parte de la poblacin en estudio.
Ejemplo: llevar a cabo una encuesta de preferencia electoral.
TCNICAS DE RECOLECCIN
Son procedimientos que se utilizan para recolectar informacin segn la naturaleza del
trabajo de investigacin. Pueden ser:
a) La observacin: Es la accin de mirar con rigor, en forma sistemtica y profunda,
con el inters de descubrir la importancia de aquello que se observa.
b) El cuestionario: En un instrumento constituido por un conjunto de preguntas
sistemticamente elaboradas que se formulan al encuestado o entrevistado con el
propsito de obtener datos de las variables consideras en estudio.
c) La entrevista: Es un dialogo entre personas, es una tcnica donde una persona
llamada entrevistador, encuestador o empadronador solicita al entrevistado le
proporcione algunos datos e informacin.
d) Anlisis de contenido: El fin o propsito del anlisis de contenido consiste en
determinar los puntos ms importantes de un documento para observar y reconocer
el significado de los mismos en sus elementos, como palabras, frases, etc., y en
clasificarlos adecuadamente para su anlisis y explicacin.
DATO: Es el valor que toma una variable en cada unidad de anlisis. Los datos estn
clasificados en:

10

Estadstica Descriptiva
SEGN EL NMERO DE VARIABLES.
1.

DATOS UNIDIMENSIONALES: Cuando el registro es de una sola variable de


inters. Por ejemplo: El promedio semestral de los estudiantes del tercer ao
del FIIS-UNAS.2009 - II

2. DATOS BIDIMENSIONALES: Cuando el registro es de dos variables de


inters. Por ejemplo: La edad y el promedio semestral de los estudiantes del
tercer ao del FIIS-UNAS.2009 - II
3. DATOS TRIDIMENSIONALES: Cuando el registro es de tres variables de
inters. Por ejemplo: La edad, el ingreso mensual y el promedio semestral de
los estudiantes del tercer ao del FIIS-UNAS.2009 - II
7. TIPOS DE DATOS.
Sea cual fuere la fuente de la que obtenemos la informacin, esta puede estar referida a
caractersticas cualitativas o cuantitativas.

VARIABLE.
Es una caracterstica de la poblacin que se va investigar y que puede tomar diferentes
valores.
Ejemplo.
Las horas extras trabajadas por los trabajadores de una empresa y los valores de esta
variable vendran dadas por las diferentes horas trabajados por cada trabajador fuera de
la jornada normal: ninguna, una, dos, tres, .
Notacin. Las variables se denotaran por X, Y, etc.
Las variables se clasifican en: cualitativas y cuantitativas.
VARIABLE CUALITATIVA.
Se llama as, cuando la variable est asociada a una caracterstica cualitativa. Es decir,
son variables cuyos valores son cualidades que presenta la poblacin.
Ejemplos.
La variable profesin puede adoptar las modalidades: Ingeniero, Mdico, Bilogo,
Contador, Economista, etc.
Calidad de servicio del supermercado (Malo, Bueno, Muy Bueno, Excelente)
Estado civil o conyugal (Soltero, Casado, Viudo, Divorciado, Conviviente)
Rgimen de tenencia de la vivienda (Propia, Alquilada)
Estos datos a su vez se clasifican en: Nominales y ordinales
VARIABLE CUALITATIVA NOMINAL: Son aquellos que establecen distincin de
los elementos en las categoras sin implicar orden entre ellos.
Ejemplo:
Clasificar un grupo de individuos por sexo: masculino, femenino.
Por estado civil: soltero, casado, viudo. Etc.

11

Estadstica Descriptiva
VARIABLE CUALITATIVA ORDINAL.
Son aquellos datos que agrupan a los objetos, individuos, en categoras ordenadas, para
establecer relaciones comparativas. Es decir, se puede establecer un orden entre sus
atributos.
Ejemplo.
Calidad de servicio del supermercado (Malo, Bueno, Muy Bueno, Excelente)
Nivel de educacin (primaria, secundaria, superior).
VARIABLE CUANTITATIVA: Es el resultado de un proceso que cuantifica, es
decir, estas surgen cuando se puede establecer cuanto o en qu cantidad se posee una
determinada caracterstica.
Ejemplo:
Ingreso por familia
Nmero de ventas diarias de cierto establecimiento.
Nmero total de habitaciones que tiene la vivienda.
Longitud, tiempo, etc.
Las variables cuantitativas se dividen en discretas y continuas.
VARIABLE CUANTITATIVA DISCRETA. Son aquellas que surgen por el
procedimiento de conteo, suelen tomar valores enteros (positivos).
Ejemplo.
El nmero de hijos por familia.
Nmero de estudiantes por colegio, universidad.
VARIABLE CUANTITATIVA CONTINUA. Cuando el valor de la variable puede
tomar cualquier valor dentro de un rango dado, por tanto se expresa por cualquier
nmero real.
Ejemplo.
El peso, la estatura, la tensin arterial de las personas, los ingresos, el tiempo de
servicio, precio en soles, etc.
En general, todas las magnitudes relacionadas con el tiempo (edad, duracin de un
fenmeno,...), la masa (volumen; peso,.), el espacio (longitud, superficie,) o una
combinacin de estos (velocidad, densidad, capacidad,) son variables continuas.
MUESTREO
Para estudiar, analizar y evaluar una poblacin con el fin de efectuar un diagnostico
requerir de contar con informacin cuantitativa y cualitativa:
Representativa,
Oportuna,
Confiable y
Suficiente
Esto se lograr a travs de observaciones y mediciones sobre una muestra de elementos
adecuadamente elegidos de la poblacin bajo en estudio.
1) Poblacin y muestra.
Poblacin.
Conjuntos formado por todas las unidades de anlisis (elementos) que son
cobertura de la investigacin planteada.

12

Estadstica Descriptiva
2) Muestra. Es una parte o subconjunto representativo de la poblacin y al proceso de
obtener la muestra se le llama muestreo.
Motivos para la realizacin de un muestreo. Consideraciones necesarias
Imagine que va a realizar estudios para conocer la siguiente informacin:
El porcentaje de peruanos que tiene acceso a internet.
La duracin media de una determinada marca de pilas.
Para el primer caso, la poblacin a la que debes preguntar es de ms de 30 millones de
personas. Es obvio que entrevistar a ms de 30 millones de personas supone un gran
esfuerzo en varios sentidos.
Primero, de tiempo, y segundo de dinero, puesto que es necesario contratar a muchos
encuestadores, pagarles viajes para que lleguen a todos los pueblos, etc. Adems, hay una
dificultad aadida: es difcil llegar a todos y cada uno de los ciudadanos peruanos, ya que
cuando vayamos a entrevistar, habr personas que est de viaje fuera del pas, habr gente
que est enferma en el hospital, etc. En este caso, por motivos econmicos, de tiempo y de
dificultad de acceso a toda la poblacin, sera conveniente entrevistar a una cierta parte de
la poblacin, una muestra, elegida convenientemente para poder extraer despus
conclusiones a toda la poblacin.
En el segundo caso tenemos una problemtica diferente. Para poder estudiar la duracin de
una pila, debemos usarla hasta que se gaste, lo que nos impide volver a usar la pila. Es
decir, de alguna manera destruimos este elemento de la poblacin. Si quisiramos probar
todas y cada una de las pilas, nos quedaramos sin ellas. En este caso, de nuevo sera
conveniente estudiar slo un conjunto de esas pilas y luego extraer conclusiones ms
generales a partir del conjunto que hemos estudiado.
Por las razones anteriores, en muchos casos es conveniente el uso de muestras, pero para
que podamos extraer conclusiones, es importante que elijamos bien las muestras para
nuestros estudios.
Por ejemplo, para el caso del acceso a internet de los peruanos, elegir a 10 personas de 30
millones es insuficiente, no es representativo. Tampoco lo sera preguntarle, por ejemplo a
100 personas de Lima, o elegir a todos sus amigos y su familia. Hay cuestiones que
debemos especificar a la hora de elegir una muestra:
1. El mtodo de seleccin de los individuos de la poblacin (tipo de muestreo que se
va a utilizar).
2. El tamao de la muestra.
3. El grado de fiabilidad de las conclusiones que vamos a presentar, es decir, una
estimacin del error que vamos a cometer (en trminos de probabilidad).
Como ya hemos mencionado, la seleccin no adecuada de los elementos de la muestra
provoca errores posteriores a la hora de estimar las correspondientes medidas en la
poblacin. Pero podemos encontrar ms errores: el entrevistador podra no ser imparcial, es
decir, favorecer que se den unas respuestas ms que otras. Puede ocurrir tambin que, por
ejemplo, la persona que vayamos a entrevistar no quiera contestar a ciertas preguntas (o no
sepa contestar). Clasificamos todos estos posibles errores de la siguiente manera:
1. Error de sesgo o de seleccin: si alguno de los miembros de la poblacin tiene ms
probabilidad que otros de ser seleccionados. Imagine que queremos conocer el
grado de satisfaccin de los clientes de un gimnasio y para ello vamos a entrevistar
a algunos de 10 a 12 de la maana. Esto quiere decir que las personas que vayan
13

Estadstica Descriptiva
por la tarde no se vern representadas por lo que la muestra no representar a todos
los clientes del gimnasio. Una forma de evitar este tipo de error es tomar la muestra
de manera que todos los clientes tengan la misma probabilidad de ser
seleccionados.
2. Error o sesgo por no respuesta: Es posible que algunos elementos de la poblacin
no quieran o no puedan responder a determinadas cuestiones. O tambin puede
ocurrir, cuando tenemos cuestionarios de tipo personal, que algunos miembros de la
poblacin no contesten sinceramente. Estos errores son, en general, difciles de
evitar, pero en el caso de la sinceridad, se suelen incorporar cuestiones (preguntas
filtro) para detectar si se est contestando sinceramente.
Despus de lo que se acaba de ver, podemos decir que una muestra es sesgada
cuando no es representativa de la poblacin.
MTODOS DE MUESTREO.
Ya hemos hecho referencia a la importancia de la correcta eleccin de la muestra para que
sea representativa para nuestra poblacin pero cmo clasificamos las diferentes formas de
elegir una muestra? Podemos decir que hay dos tipos de muestreo:
Muestreo probabilstico: Es aquel en el que cada muestra tiene la misma
probabilidad de ser elegida de la poblacin en estudio.
Muestreo no probabilstico: Corresponden a las muestras en las cuales no hay
forma de conocer la probabilidad de los elementos de la poblacin y ser incluidos
como parte de la muestra.
Fortalezas y debilidades de los mtodos de muestreo:
MUESTREO PROBABILSTICO
FORTALEZAS
DEBILIDADES
Es aceptado con facilidad
Requiere de costos, marcos de muestreo
Asegura representatividad
Requiere de trabajos de campo costosos
Asegura muestras insesgadas
Requiere de supervisin rigurosa
Los resultados son generalizables
Permite calcular el error de muestreo
Permite hacer inferencias estadsticas
Probabilidad conocida de elegir a la
unidad como parte de la muestra
MUESTREO NO PROBABILSTICO
FORTALEZAS
Bajo costo y requiere menor tiempo
Elige solo a las unidades queridas
Permite entrar informacin inesperada
Diseo y cobertura flexible e informal

DEBILIDADES
No permite calcular errores de muestreo
Sus resultados no son generalizables
Pueden ser rechazadas por los usuarios
Puede haber sesgo en la seleccin
No permite hacer inferencia estadstica
Requiere de personal muy especializado
La supervisin es difcil de realizar
Probabilidad no conocida de elegir a la
unidad como parte de la muestra.
14

Estadstica Descriptiva
Seleccin de muestras bajo un enfoque cuantitativo.
Ante la necesidad de generar informacin cuantitativa representativa y confiable, el
mtodo a seguir para la seleccin del subconjunto de unidades de anlisis como muestra,
deber asegurar la representatividad de los elementos elegidos a fin de permitir al
investigador efectuar inferencias, extrapolaciones y generalizaciones de los resultados
encontrados hacia toda la poblacin objetivo; en este enfoque, se deber asegurar que la
muestra ser estadsticamente representativa con el fin de permitir:

Calcular el error de muestreo que afectan a las estimaciones resultantes.


Conocer el nivel de confianza con el cual se realizan las estimaciones resultantes.
Generalizar los resultados observados en la muestra a toda la poblacin.
Utilizar pruebas estadsticas para verificar hiptesis planteadas en la investigacin.

En caso que el investigador requiera de presentar resultados estadsticamente


representativos, deber asegurar selecciones de muestras imparciales e insesgadas lo cual
se lograra eligiendo las unidades con base a las leyes de la probabilidad.
Diseos de Muestreo:
MUESTREO ALEATORIO SIMPLE.
Es el mtodo de muestreo que asegura que cada una de las unidades de anlisis tiene igual
probabilidad de ser incluida en la muestra, igualmente, cada una de las muestras posibles
tendr la misma probabilidad de ser elegida; esta caracterstica asegura la representatividad
e imparcialidad de la muestra elegida para el estudio.
Procedimiento:

Elabore el marco de muestreo.


Determine un tamao de muestra n.
Seleccione n nmeros aleatorios sin reemplazo de la tabla de nmeros aleatorios o
generados por un computador.
Recopile la informacin de cada una de las unidades de anlisis seleccionadas.
Estimar: Promedios, totales o porcentajes y su error estndar respectivo.

Estimacin del promedio

15

Estadstica Descriptiva
Estimacin del total poblacional

Estimacin de la proporcin de elementos que tienen un determinado atributo.

Donde a es total de elementos de la muestra que tienen el atributo.

Ejemplo.
Poblacin de alumnos matriculados en 5to. Ao de secundaria (N). N = 7 154 alumnos1.
Conociendo la poblacin de alumnos matriculados en 5to. Ao de secundaria.
La muestra inicial estara dado por:
Muestra inicial:
0 =

2
2 ( 1) + 2

Donde:
N = tamao de la poblacin.

Entonces: N = 7 154

Z = Valor tabular de una distribucin normal estandarizado con probabilidad (1 ). Para


95% de confianza Z = 1.96
Como se desconoce la probabilidad de xito esperada, se tendra que utilizar el
criterio conservador (p = q = 0.5), lo cual maximiza el tamao de muestra.
1

[Fuente: MINISTERIO DE EDUCACIN - Censo Escolar./ http://escale.minedu.gob.pe/magnitudes]

16

Estadstica Descriptiva
p = probabilidad de xito. p = 0.5
q = probabilidad de fracaso. (1 p) = (1 0.5) = 0.5
e = precisin (Error mximo admisible) = 5%
Reemplazando:
1.962 0.5 0.5 7 154
0 =
= 365
0.052 (7 154 1) + 1.962 0.5 0.5
Muestra final corregida a encuestar:
=

365
1+

365

0
1+

= 347 .

7154

Se requerira encuestar a no menos de 347 estudiantes del 5to ao de secundaria para poder
tener una seguridad del 95%.
8. DISEO O ELABORACIN DE FORMULARIOS.
En toda actividad de carcter cientfico, lo que se hace en ltima instancia, es dar repuestas
a ciertas preguntas. De acuerdo con esto, necesitamos un documento donde plantear
preguntas y registrar sus respuestas, resultando as que una de las primeras y realmente
ms decisiva etapa en cualquier investigacin es la confeccin de formularios.
Antes de elaborar un formulario debe considerarse:
1. El propsito para el cual ser utilizado.
2. Circunstancias bajo las cuales se recogern la informacin.
Lo primero tiene importancia para decidir sobre los datos que se recogern y lo segundo
para la determinacin del tamao de muestra y del material ms conveniente.
9. PRINCIPIOS BSICOS QUE SE DEBEN TENER EN CUENTA EN LA
CONFECCIN DE FORMULARIOS.
En todo formulario se debe recoger slo los datos tiles y adecuados al estudio.
Formularios muy extensos conspiran contar la exacta recoleccin de los datos. Es pues,
entonces conveniente:
a. Hacer una lista de todos los datos que sean necesario recoger de acuerdo a la
finalidad del estudio.
b. Considerar cuales datos son factibles de recoger y exacta.
c. Limitar a aquellos datos prcticos a recoger y que se usar.
DECIDIR SOBRE EL ORDEN QUE SE ACEPTARAN LOS DATOS. Las preguntas
deben hacerse de manera lgica y ordenada. Por ejemplo, preguntas sobre ocupacin,

17

Estadstica Descriptiva
educacin, vivienda, y otras referentes a condiciones econmicas y sociales no deben estar
separadas.
CONSIDERAR COMO SE HARN LAS PREGUNTAS.
a. Considerar si hay alguna ambigedad en la pregunta como consecuencia de la
respuesta recibida.
b. Toda pregunta debe tener respuesta.
c. Debe usarse un leguaje claro y poco tcnico.
d. Evitar respuestas inducidas. Por ejemplo, Ud., nunca ha padecido de tuberculosis?
con esta pregunta estamos induciendo a la persona a que su respuesta sea negativa.

PLANEAR COMO SE ANOTARAN LAS RESPUESTAS.


El espacio que se deja debe ser adecuado para las respuestas que se esperan y siempre que
sea posible se adoptar el sistema que exige el menor esfuerzo.
Ejemplo.
a. Sexo:; b.Sexo:..Femenino
..Masculino.
En el inciso (a), se pone nombre y en el (b), se marca con una cruz, este ltimo es de
menor esfuerzo.
Puede usarse otro mtodo que sea la utilizacin de un cdigo, por ejemplo, Debe existir
una revisin peridica de salario mnimo?
1 Si
2 No
0 No sabe o no opina.
ELECCIN DE VARIAS RESPUESTAS.
Debe procurarse que se puede elegir varias respuestas, evitando la ambigedad u omisin
de datos.
Ejemplo.
Enfermedades que Ud. Ha padecido?
Sarampin___________________
Bronquitis___________________
Asma
___________________
REALIZAR ESTUDIO PILOTO.
Debe realizarse un estudio piloto antes que el formulario sea impreso de manera definitiva,
con el fin de probarlo y ver la operatividad del formulario y para darse cuenta de las fallas
que pueda tener y hacer las correcciones necesarias.
Se debe redactar las instrucciones de como anotar las respuestas.
Ver la validez y confiabilidad del instrumento de medicin (Encuesta).

18

Estadstica Descriptiva
CASO PRCTICO DE DISEO DE ENCUESTA
Proyecto Gimnasio Sport Time
Un grupo de inversionistas ha formado una mediana empresa llamada Sport Time, cuyo
negocio es el servicio de preparacin y mantenimiento fsico de las personas. De acuerdo
con sus experiencias empresariales, este gimnasio ser dirigido a los integrantes del nivel
socio econmico A y B de la ciudad de Tingo Mara, teniendo como rea de influencia a la
ciudad. Sin embargo les gustara poder contar con mayor informacin del mercado con la
finalidad de crear y ofrecer un centro deportivo de calidad, incorporando los gustos y
preferencia del futuro cliente.
Frente a esta necesidad, uno de los socios propuso realizar una investigacin de mercado,
propuesta que fue aceptada por todos para tal efecto se procedi a determinar los
parmetros que definen correctivamente las caractersticas de la poblacin que conforma
su mercado:
1.- El segmento estar compuesto por hombres y mujeres con edades entre 18 y 60 aos.
2.- El gimnasio estar orientado al segmento A y B de la ciudad de Tingo Mara.
Una vez determinado estos parmetros se considero que los ms convenientes para realizar
esta investigacin era aplicar una encuesta cuyo proceso de elaboracin implica seguir los
siguientes pasos:
A.- Definir el propsito y los objetivos especficos.
B.- Disear la encuesta.

19

Estadstica Descriptiva
Solucin
A.- Propsito y Objetivos especficos de la encuesta.
Propsito: Sera evaluar las actitudes y preferencias de las personas respecto a los
gimnasios.
Objetivo Especfico: Se desea obtener informacin sobre caractersticas del consumidor
que permitan tipificarlo, determinar sus expectativas en cuanto al servicio:
Adems identificar la competencia y los niveles de precio vigente en el mercado.

OBJETIVOS ESPECIFICOS
CONSUMIDOR

Identificacin de hbitos

Intencin de compra

SERVICIO

Caractersticas del servicio

COMPETENCIA
Identificacin de competidores
PRECIO

Precio mximo y mnimo

PREGUNTAS DE INVESTIGACIN
PREGUNTAS DE INVESTIGACIN

Acudes al gimnasio?
Por qu acudes al gimnasio?
Con que frecuencia vas al gimnasio?
Qu instalaciones utilizas con ms
frecuencia en el gimnasio?
A qu gimnasio acudes?
Desde cundo acude al gimnasio?
Asistiras a un gimnasio ubicado en
el centro de la ciudad?

PREGUNTAS DE INVESTIGACIN
Qu servicio te gustara encontrar
en el gimnasio?
Qu tipo de decoracin te
gustara encontrar?
PREGUNTAS DE INVESTIGACIN
Qu gimnasios conoces?
PREGUNTAS DE INVESTIGACIN
Cunto estara dispuesto a pagar
mensualmente por el servicio?

20

Estadstica Descriptiva
B). Diseo de Encuesta.
1. Asiste Ud. a gimnasios?
a. Si (pasar a la pregunta 3)
b. No (pasar a la pregunta 2)
2. Le gustara asistir a un gimnasio?
a. Si (pasar a la pregunta 3)
b. No (fin de la encuesta)
3. Con que frecuencia asiste y/o le
gustara asistir gimnasio?
a. Diariamente.
b. Una vez por semana.
c. Dos veces por semana.
d. Tres veces por semana.
4. Qu tipo de servicios prefieres
utilizar en el gimnasio?
a. Aerbicos.
b. Pesas.
c. Baile.
d. Masajes.
e. Otros. (Especifique).
5. Con quien acude al gimnasio?
a. Solo.
b. Amigo(a).
c. Pareja.
d. Familia.
e. Otros (Especifique).
6. A qu gimnasio asiste?
.
7. Qu gimnasio conoce?
a. Benavides
b. Universal Gym
c. Shape spa
d. Alan Wong Spa
f. Otros (Especifique).

9. A qu hora prefieres asistir?


a.
b.
c.
d.
e.
f.
g.
h.

6 : 00 am a 8 : 00 am
8 : 00 am a 10 : 00 am
10 : 00 am a 12 : 00 am
12 : 00 am a 2 : 00m
12 : 00 m a 4 : 00 pm
4 : 00 pm a 6 : 00 pm
6 : 00 pm a 8 : 00 pm
8 : 00 pm a 10 : 00 pm.

10. Cunto estara dispuesto a pagar


mensualmente por el servicio?
a. Menos de S/. 30.00
b. Entre S/. 30.00 y S/. 39.00
c. Entre S/. 40.00 y S/. 49.00
d. Mas de S/. 50.00.
DATOS DE CONTROL
11. Sexo: Femenino..
Masculino.
12. Edad.
a. 18 a 25 aos.
b. 26 a 33 aos.
c. 34 a 41 aos.
d. 42 a 49 aos.
e. 50 a 60 aos.
f.
13. Ingreso promedio mensual familiar
a. Menos de S/. 700.00.
b. Entre S/. 701.00 y S/. 1000.00
c. Entre S/. 1001.00 y S/. 1300.00
d. Mas de S/. 1301.

8. Si contara con un gimnasio


ubicado en la ciudad de tingo
DATOS DE IDENTIFICACIN DEL
mara, el cual le ofreciera los
ENTREVISTADO
servicios que usted desea:
a. Definitivamente asistira.
Nombre:
b. Probablemente asistira.
c. Indeciso.
Direccin:.
d. Probablemente no asistira.
e. No asistira.
Telfono:..

21

Estadstica Descriptiva
VALIDEZ Y CONFIABILIDAD DE LOS INSTRUMENTOS DE MEDICIN
(ENCUESTAS):
Estos procesos se aplican en el desarrollo de una investigacin, con la finalidad de evaluar
la consistencia del diseo de la estructura de los instrumentos de recoleccin que se usaran
para el acopio y recoleccin de la informacin necesaria para la ejecucin de una
investigacin.
II.- CONFIABLIDAD DE LOS INSTRUMENTOS (Encuestas):
La confiabilidad de un instrumento de medicin, se refiere al grado en que su
aplicacin repetida al mismo sujeto u objeto produce resultados iguales.
La confiabilidad de un instrumento se refiere a la constitucin interna de las personas, a la
mayor o menor acescencia de errores de medida. Un instrumento confiable significa que si
lo aplicamos por ms de una vez a un mismo elemento entonces obtendramos
iguales resultados.
METODOS PARA CALCULAR LA CONFIABILIDAD DE UN INSTRUMENTO
DE MEDICIN:
Hay diversos mtodos para determinar la confiabilidad de un instrumento de medicin.
Todos utilizan frmulas que producen coeficientes de confiabilidad estos coeficientes
pueden oscilar entre 0 y 1, donde un coeficiente de o significa nulo confiabilidad y 1
representa un mximo de confiabilidad (confiabilidad total).
CONFIABILIDAD
Muy Baja

Baja

Regular

Aceptada

0
0%

Elevada
1
100%

Confiabilidad del instrumento debe ser: Mayor al 50 %


2.1.- METODO DE LA MEDIDA DE ESTABILIDAD: METODO DE TEST RETEST.
Consiste en la aplicacin de dos veces o ms veces un mismo instrumento de medicin a un mismo
grupo de personas, despus de cierto perodo. Si la correlacin entre los resultados de las
diferentes aplicaciones es altamente positiva, el instrumento se considera confiable. Se
determinar mediante el clculo de Coeficiente de Correlacin de Pearson (r).

=1 (=1 )(=1 )
2

[ =1 2 (=1 ) ] [ =1 2 (=1 ) ]
Donde:
n = Nmero de parejas.
Xi : valores obtenidos en el momento 1
Yi : valores obtenidos en el momento 2

22

Estadstica Descriptiva
2.2.- METODO DE DIVIDIR EN MITADES (Ver Ejemplo en el presente mdulo)
Consiste en calcular el coeficiente de correlacin de Pearson entre las dos mitades de cada
factor (pares o impares) de los elementos y luego corregir los resultados segn la frmula
de Sperman Brown, que es una frmula de correccin, que da como resultado un
estmulo corregido de confiabilidad. Este mtodo requiere solo una aplicacin de la
medicin. Especficamente el conjunto total de tems (o componentes) se divide en
dos mitades y se comparan las puntuaciones o los resultados de ambas. Si el
instrumento es confiable, las puntuaciones de ambas mitades deben estas muy
correlacionadas.
Procedimiento de dos mitades (divisn de items en pares e impares)
Primero : Se calcula el ndice de Correlacin (Pearson)

=1 (=1 )(=1 )

[ =1 2 (=1 ) ] [ =1 2 (=1 ) ]
Alumnos

Items
II
5
4
4
5
2
3

I
3
5
4
4
1
4

Campos (1)
Gmez (2)
Linares (3)
Rodas (4)
Saavedra (5)
Tafur (6)

III
5
5
5
3
2
3
=

Impar Par
Xi
Yi Xi*Yi Xi2
8
5
40
64
10
4
40 100
9
4
36
81
7
5
35
49
3
2
6
9
7
3
21
49
44
23 178 352

Yi2
25
16
16
25
4
9
95

Reemplazando:

6 178 (44 23)


[6 352 (44)2 ] [6 95 (23)2 ]

= 0.66

Indice de correlacin de Pearson ( r ) = 0.66.


Segundo: Correccin de r con la ecuacin de Spearman Brown ( R ) :

2r
1 r
= 0.79
R

Coeficiente de fiabilidad

2.3.- MTODO COEFICIENTE ALFA DE CRONBACH:


Requiere de una sola administracin del instrumento de medicin y se basa en la medicin
de la respuesta del sujeto con respecto a los tems del instrumento.
Su ventaja reside en que no es necesario dividir en dos mitades a los tems del instrumento
de medicin; simplemente se aplica la medicin y se calcula el coeficiente.

23

Estadstica Descriptiva
CLCULO DEL COEFICIENTE:
2

[1
]
=
1
2
Donde:
K
: Es el nmero de tems.
2 : Sumatoria de varianzas de los tems.
2 : Varianza de la suma de los tems.

: Coeficiente de Alfa de cronbach.


EJEMPLO:
Se tienen los resultados referidos a la opinin de 06 alumnos respecto a los tems
formulados en un cuestionario
Alumnos
Campos (1)
Gmez (2)
Linares (3)
Rodas (4)
Saavedra (5)
Tafur (6)

I
3
5
4
4
1
4

Items
II
5
4
4
5
2
3

III
5
5
5
3
2
3

PROCEDIMIENTO:
Paso 1: Calcular las varianzas de cada uno de los tems; en el cuadro de clculo.
Alumnos
Campos (1)
Gmez (2)
Linares (3)
Rodas (4)
Saavedra (5)
Tafur (6)
VAR. ( 2 )

I
3
5
4
4
1
4
1.90

Items
II
5
4
4
5
2
3
1.37

III
5
5
5
3
2
3
1.77

Suma de Items
13
14
13
12
5
10

= 10.97

Paso 2: Calcular la sumatoria de varianzas de los tems.


2 =

5.03

Paso 3: Calcular la varianza de la suma de los tems.


= 10.97
Paso 4: Calcular el coeficiente de Alfa de Cronbach. = 0.81
Paso 5: Interpretacin de la significancia de = 0.81; lo que significa que los resultados de
opinin de los 06 alumnos respeto a los tems considerados se encuentran correlacionado
de manera altamente confiable y muy aceptable.
24

Estadstica Descriptiva
Ejercicio 1. Con el fin de medir los niveles de actitud adversa hacia la fauna silvestre en
una comunidad rural, se propone aplicar la escala de medicin siguiente:
Asignando los puntajes de medicin a cada tem de ponderaciones iguales y partiendo de 1
tenemos:
[1 = Nunca (N), 2 = Pocas Veces (PV), 3 = A veces (AV), 4 = Muchas Veces (MV), 5 = Siempre
(S)]

Solucin: Para probar la escala se entrevista a 10 agricultores y se obtienen las respuestas:


Cuadro N 01: Distribucin de Agricultores entrevistados segn los niveles de actitud2
adversa hacia la fauna silvestre en una comunidad rural Junio de 2012.
Encuesta
I1
I2
E1
2
1
E2
1
1
E3
1
2
E4
2
2
E5
3
3
E6
2
3
E7
4
4
E8
4
4
E9
5
5
E10
5
5
2.222
Variancia 2.322

=
Fuente: Elaboracin propia.

I3
I4
1
1
1
1
2
1
2
1
3
3
3
3
4
3
4
3
4
5
5
5
1.878
2.489
12.833

I5
2
2
2
2
3
3
5
5
5
5
2.044

I6
1
1
2
3
3
4
4
4
5
4
1.878

Total
8
7
10
12
18
18
24
24
29
29
= 70.54

Determinacin del Coeficiente Alfa de Cronbach ():

= (

= 61 (1

12.833
70.54

) = 0.982

Donde:
n: Es el nmero items incluidos en la escala de medicin =6
S2j: Variancia del j-simo item de la escala =12.833
S2x: Variancia del puntaje total obtenido a travs de la escala de medicin = 70.54
Comentario:
De 10 agricultores entrevistados la fiabilidad de las respuestas de los 6 items segn el
coeficiente alfa de Cronbach ( = 0.982), indica que las respuestas o resultados de los
individuos entrevistados son muy consistentes, es decir presenta una confiabilidad
aceptable.

[1 = Nunca (N), 2 = Pocas Veces (PV), 3 = A veces (AV), 4 = Muchas Veces (MV),

5 = Siempre (S)]

25

Estadstica Descriptiva
Salida de SPSS vs 20.0:
Estadsticos de fiabilidad

Alfa de Cronbach basada en


los elementos tipificados
,982

Alfa de Cronbach
,982

I1
I1
I2
I3
I4
I5
I6

N de elementos
6

Matriz de correlaciones inter-elementos


I2
I3
I4

1,000
,929
,899
,906
,938
,803

,929
1,000
,979
,945
,938
,925

,899
,979
1,000
,905
,930
,893

,906
,945
,905
1,000
,867
,843

I5

I6

,938
,938
,930
,867
1,000
,828

,803
,925
,893
,843
,828
1,000

Estadsticos de resumen de los elementos


Media Mnimo Mximo Rango Mximo/mnimo Varianza
Varianzas de los
elementos

2,139

1,878

2,489

,611

1,325

N de
elementos

,062

Ejercicio 2. Estime el ndice de fiabilidad del cuestionario con base en la correlacin par
impar.
El coeficiente de fiabilidad par impar se calcula con base en la correlacin entre los
puntajes totales obtenidos con los tems pares e impares utilizando la funcin EXCEL:
Suma de puntos de Items
Impares
Pares
5
3
4
3
5
5
6
6
9
9
8
10
13
11
13
11
14
15
15
14
0.949
rPI =
COEF.DE.CORREL (Impares; Pares) = rPI = 0.949
2

Coeficiente de fiabilidad: = 1 =

2(0.949)
1+ 0.949

= 0.974

Comentario: se registra un alto ndice de fiabilidad para la alta consistencia interna que se
registra entre los tems pares e impares del instrumento.
26

Estadstica Descriptiva
Ejercicio 3. Encuentre los ndices de homogeneidad corregidos para cada tem.
Cuadro N 02: Distribucin de Agricultores entrevistados segn los niveles de actitud
adversa hacia la fauna silvestre en una comunidad rural Junio de 2012.
Encuesta
I1
I2
I3
I4
I5
I6
6
7
7
7
6
7
E1
6
6
6
6
5
6
E2
9
8
8
9
8
8
E3
10
10
10
11
10
9
E4
15
15
15
15
15
15
E5
16
15
15
15
15
14
E6
20
20
20
21
19
20
E7
20
20
20
21
19
20
E8
24
24
25
24
24
24
E9
24
24
24
24
24
25
E10
ndices de homogeneidad
0.932
0.991
0.963
0.929
0.938
0.885
corregidos para cada tem
Fuente: Elaboracin propia.
Interpretacin: El tem 6 es el menos relacionado con la prueba general.
Ejercicio 4. Un ndice de validez del cuestionario previsto.
En base la valoracin global efectuada por los entrevistados, estime:
Entrevista
1
2
3
4
5
6
7
8
9
10

Puntaje Calificativo
Total
Global
8
5
7
7
10
7
12
7
18
14
18
14
24
17
24
17
29
20
29
20

Correlacin entre puntajes


COEF.DE.CORREL (total; global) = rxx = 0.984
Interpretacin: Este coeficiente alto indica una aceptable validez de constructo
5. Calcule el coeficiente de fiabilidad de pruebas paralelas.

27

Estadstica Descriptiva
Cuestionario A
Encuesta I1 I2 I3 I4 I5 I6 Total
2 1 1 1 2 1
8
E1
1 1 1 1 2 1
7
E2
1 2 2 1 2 2 10
E3
2 2 2 1 2 3 12
E4
3 3 3 3 3 3 18
E5
2 3 3 3 3 4 18
E6
4 4 4 3 5 4 24
E7
4 4 4 3 5 4 24
E8
5 5 4 5 5 5 29
E9
5 5 5 5 5 4 29
E10

Encuesta
E1
E2
E3
E4
E5
E6
E7
E8
E9
E10

I1
2
4
4
4
1
3
2
4
4
4

Cuestionario B
I2 I3 I4 I5 I6 I7
1 2 2 3 1 1
5 5 3 4 3 1
3 4 4 3 4 3
4 4 4 4 4 5
1 2 2 3 2 2
3 4 4 4 5 5
2 2 2 1 1 1
4 5 4 3 5 3
3 1 3 3 3 2
5 4 5 4 4 3

I8 Total
3 15
2 27
3 28
4 33
1 14
4 32
1 12
1 29
1 20
2 31

Coeficiente de Fiabilidad = COEF.DE.CORREL (A; B) = -0.062


Interpretacin: El Coeficiente de Fiabilidad es bajo por lo tanto no indica una aceptable
validez de constructo.

28

Estadstica Descriptiva
II. ORGANIZACIN DE DATOS
1. DISTRIBUCIN DE FRECUENCIAS
Despus de recoger toda la informacin correspondiente a la investigacin, es decir, al
agotar todo el trabajo de campo, nuestro escritorio se llena de un cmulo de datos y cifras
desordenadas los cuales, al ser tomados como observaciones individuales, dicen muy poco
sobre la poblacin estudiada; es, entonces, tarea del investigador hacer hablar las cifras,
comenzando por la clasificacin y ordenacin, consignando la informacin en tablas
inteligibles que denominamos distribuciones de frecuencias.
ORDENACIN DE DATOS

CARACTERES CUALITATIVOS

Consideremos una muestra de tamao n sacada de una poblacin estadstica de la que


observamos un carcter cualitativo A que presenta las modalidades siguientes: a1, a2, a3,...,
ak, llamamos

FRECUENCIA
ABSOLUTA
SIMPLE

fi

De la modalidad ai, es el nmero de veces que aparece


repetida dicha modalidad en el conjunto de las observaciones
realizadas.

= ; 0 ; = 1, 2, 3, .
=1

FRECUENCIA
RELATIVA
SIMPLE

De la modalidad ai al cociente entre la frecuencia absoluta y


el nmero de datos (= tamao de la muestra n).

hi

= ; = 1 ; 0 1 ; = 1, 2, 3, .

=1

a1
a2

f1
f2

hi
h1
h2

..

..

..

Los datos de las observaciones se


pueden recoger en la siguiente tabla
de distribucin :

ak

fk

hk

Modalidades de carcter A

Total.

fi

= = 1

29

Estadstica Descriptiva

CARACTERES CUANTITATIVOS

Consideramos una variable estadstica X que, en una muestra de tamao n extrada de


una poblacin estadstica, toma los valores x1<x2<x3< ...<xk , definimos los siguientes
conceptos :

Tamao de la
muestra

Llamamos tamao muestral al nmero de observaciones


realizadas, es decir, al nmero total de datos.

= 1 + 2 + + =
=1

Frecuencia
Absoluta

fi

Llamamos frecuencia absoluta de un valor xi de la variable


estadstica X al nmero de veces que aparece repetido dicho
valor en el conjunto de las observaciones realizadas.

= ; 0 ; = 1, 2, 3, .
=1

Frecuencia
Absoluta
Acumulada

Fi

Llamamos frecuencia absoluta acumulada en el valor xi a la


suma de las frecuencias absolutas de los valores inferiores o
iguales a l.
Evidentemente, los valores xi han de estar ordenados de
forma creciente, como ya se ha indicado, y la frecuencia
absoluta acumulada del ltimo valor ser igual a n.

Frecuencia
Relativa

Llamamos frecuencia relativa de un valor xi de la variable


estadstica X al cociente entre la frecuencia absoluta simple y
el nmero de observaciones realizadas.
hi

= ; = 1 ; 0 1.

=1

Frecuencia
Relativa
Acumulada

Hi

Llamamos frecuencia relativa acumulada en el punto xi al


cociente entre la frecuencia absoluta acumulada y el nmero
de observaciones realizadas.

; = 1

En las observaciones realizadas en una muestra o poblacin, puede ocurrir:


1. Que la variable estadstica tome pocos valores diferentes (ya sea grande o pequeo
el tamao de la muestra).
2. Que, en una muestra de gran tamao, la variable estadstica tome muchos valores
diferentes, ya se trate de variable estadstica discreta como de variable estadstica
continua (este ltimo caso es el ms habitual).

30

Estadstica Descriptiva
fi
f1
f2

hi
h1
h2

..

..

..

..

..

En este primer caso (Si la variable Xi


es cuantitativa Discreta), no es
x1
necesario agrupar los datos, y la
x2
tabla de distribucin presenta el
siguiente aspecto (ordenando los
datos de menor a mayor):

xk

Fk

hk

Fk=n

Hk=1

Total.

Fi
F1
F2

Hi
H1
H2

= = 1

En el segundo caso por tratarse de variable continua o discreta, con un nmero de datos
muy grande, es aconsejable AGRUPAR LOS DATOS EN CLASES.
Rango (R).
=
Nmero de clases (m).
Determinamos a travs de la regla de sturges.
= 1 + 3.322 Log()
Amplitud de clases (C).

Marcas
de clase

fi

hi

Fi

Hi

Xi
x1
x2

f1
f2

h1
h2

F1
F2

H1
H2

..

..

..

..

..

..

Tabla de frecuencias de
una variable estadstica
agrupada en intervalos.

[ak ak+1]

xk

fk

hk

Fk=n

Hk=1

Intervalos
de clase

[a0 a1)
[a1 a2)

Total.

= = 1

31

Estadstica Descriptiva
MEDIDAS DE TENDENCIA CENTRAL.
Son estadgrafos de posicin que son interpretados como valores que permiten a un
conjunto de datos dispersos, podra asumirse que estas medidas equivalen a un centro de
gravedad que adoptan un valor representativo para todo un conjunto de datos
predeterminados.
Estas medidas son:
1.
2.
3.
4.
5.
6.
7.
8.

Promedio Aritmtico (Media Aritmtica).


Mediana.
Moda.
Promedio Geomtrico.
Promedio Total.
Media armnica
Media global.
Media ponderada.
MEDIDAS DE POSICIN
Percentiles.
Cuartiles
Deciles
MEDIDAS DE VARIABILIDAD (dispersin)
Son estadgrafos de dispersin que permiten evaluar el grado de homogeneidad,
dispersin o variabilidad de un conjunto de datos. Estas medidas son:
1.
2.
3.
4.

Amplitud o rango.
Varianza.
Desviacin estndar.
Coeficiente de variabilidad.
MEDIDAS DE FORMA

Evala la forma que adopta la distribucin de frecuencias respecto al grado de


distorsin (inclinacin) que registra respecto al valor promedio tomado como
centro de gravedad, el grado de apuntamiento (elevamiento) de la distribucin de
frecuencias. A mayor elevamiento de la distribucin de frecuencia significar
mayor concentracin de los datos en torno al promedio, por tanto, una menor
dispersin de los datos. Estas medidas son:
1. Asimetra o sesgo.
2. Curtosis.

32

Estadstica Descriptiva
1. LA MEDIA ARITMTICA.
Para Datos no Agrupados.

El promedio aritmtico de un conjunto de valores (X1, X2, X3,.., Xn) es:


=

=1 1 + 2 + 3 + +
=
n

Ejemplo:
Durante los ltimos 32 das el valor de las compras (soles) en peridicos fue:
5.2 10.2 7.0 7.1 10.2 8.3 9.4 9.2 6.5 7.1 8.2
6.6 7.8 6.8 7.2 8.4 9.6 8.5 5.7 6.4 10.1 9.1
9.0 7.8 8.2 5.3 6.2 8.6 7.0 7.7 8.3 7.5
El promedio aritmtico del valor de las compras en peridicos es:
=1 250.2
=
=
= 7.82
n
32
Para Datos Agrupados.
Rango (R).
= = 10.2 5.2 = 5
Nmero de clases (m).
Determinamos atreves de la regla de sturges.
= 1 + 3.3 Log() = 1 + 3.3 (32) = 5.97 6
Amplitud de clases (C).
5
= = = 0.83
6
=1

Donde: fi = frecuencia en la clase K sima.


Xi = marca de clase en el intervalo K imo.
=

Ejemplo.

Intervalo Xi fi hi
[5.2 - 6.0) 5.62 3 0.09
[6.0 - 6.9) 6.45 5 0.16
[6.9 - 7.7) 7.28 6 0.19
[7.7 - 8.5) 8.12 8 0.25
[8.5 - 9.4) 8.95 5 0.16
[9.4 - 10.2] 9.78 5 0.16
Total
32 1
El promedio aritmtico es:
=

Fi
3
8
14
22
27
32

Hi
0.09
0.25
0.44
0.69
0.84
1.00

fi

Para los gastos diarios en peridicos del hotel agrupados en una tabla de frecuencia:
10
8
6
4
2
0
5.62 6.45 7.28 8.12 8.95 9.78 Xi

=1 5.62 3 + 6.45 5 + + 9.78 5 251.40


=
=
= .

32
32

Durante los 32 das el hotel tuvo un gasto promedio en peridicos de 7.86 soles
33

Estadstica Descriptiva
2. LA MEDIANA.
Es al valor que ocupa la posicin central de un conjunto de observaciones ordenadas. El
50% de las observaciones son mayores que este valor y el otro 50% son menores.
Para Datos no Agrupados.

La ubicacin de la mediana de n datos ordenados se determina por: (n+1)/2.


Ejemplos.
En los 7 datos ordenados: {4, 5, 5, 6, 7, 8, 9}.
(7+1)

La ubicacin de la mediana es: 2 = 4, Luego el valor de la mediana: Me = 6.


En los 8 datos ordenados: {3, 4, 5, 5, 6, 7, 8, 9}.
(8+1)
La mediana se ubica en el lugar 2 = 4.5, Luego el valor de la mediana es: =
(5+6)
2

= 5.5

Para Datos Agrupados.

= +

( 2 1 )

Li : Lmite inferior del intervalo que contiene a la mediana.


Fi-1 : Frecuencia acumulada en la clase anterior i sima.
Fi : Frecuencia en la clase que contiene a la mediana.
Hi-1 : Frecuencia relativa acumulada en la clase anteriori sima.
hi : Frecuencia relativa en la clase que contiene a la mediana.
Ci : Amplitud del intervalo de clase
Ejemplo. Para los gastos diarios en peridicos del hotel en una tabla de frecuencias.

Marca Frecuencia Frecuencia Frec. Acum. Frec. Acum.


de clase Absoluta
Relativa
Absoluta
Relativa
Xi
fi
hi
Fi
Hi
[5.2 - 6.0)
5.62
3
0.09
3
0.09
[6.0 - 6.9)
6.45
5
0.16
8
0.25
[6.9 - 7.7)
7.28
6
0.19
14
0.44
[7.7 - 8.5)
8.12
8
0.25
22
0.69
[8.5 - 9.4)
8.95
5
0.16
27
0.84
[9.4 - 10.2]
9.78
5
0.16
32
1.00
32
1
L Total
Intervalo
De clase

a mediana es: = 7.7 +

32
2

( 14)
8

0.83 = 7.9

El 50% de los das el hotel gast menos de 7.9 soles en la compra de peridicos.

34

Estadstica Descriptiva
3. LA MODA.
Es el valor; clase o categora que ocurre con mayor frecuencia y sus caractersticas son:

Puede no existir o existir ms de una moda.


Su valor no se ve afectado por los valores extremos en los datos.
Se utiliza para analizar tanto la informacin cualitativa como la cuantitativa.
Es una medida inestable cuando en nmero de datos es reducido.

Para Datos no Agrupados.


Por ejemplo, Durante los ltimos 32 das el valor de las compras en peridicos fue:
5.2 10.2 7 7.1 10.2 8.3 9.4 9.2
6.6
7.8 6.8 7.1 8.4 9.6 7.1 5.7
Moda =Mo= 7.1; es el valor ms frecuente, ocurre tres veces.
Ejemplo: 2, 2, 5, 5, 7, 7, 7, 7, 9, 9, 9, 10;
Ejemplo: 6, 5, 6, 6, 3, 4, 6, 6, 7
Ejemplo: 13, 15, 12, 11, 20, 22

Para Datos Agrupados.


= + [
Donde: 1 = ( 1 )

Mo = 7 y 9 Serie bimodal
Mo = 6
Serie Unimodal
No tiene Moda o se dice que
cada dato es una moda

1
]
1 + 2

2 = ( +1 )

fi= valor de mayor frecuencia.


Ejemplo.
El gasto diario en peridicos del hotel *** agrupados en una tabla de frecuencias.
Intervalo
[5.2 - 6.0)
[6.0 - 6.9)
[6.9 - 7.7)
[7.7 - 8.5)
[8.5 - 9.4)
[9.4 - 10.2]
Total

Xi
5.62
6.45
7.28
8.12
8.95
9.78

fi
3
5
6
8
5
5
32

= 7.7 + [

hi
0.09
0.16
0.19
0.25
0.16
0.16
1

Fi
3
8
14
22
27
32

Hi
0.09
0.25
0.44
0.69
0.84
1.00

2
] 0.83 = 8.03
2+3

Donde:
= 7.7
1 = (8 6) = 2
2 = (8 5) = 3
El gasto diario en peridicos ms frecuente es 8.03soles.

35

Estadstica Descriptiva
4. MEDIA GEOMTRICA.
La media geomtrica simple de n observaciones X1, X2, X3,..,Xn positivos, est dado
por la raz ensima del producto de los n valores observados. El promedio geomtrico de
los valores: (X1, X2, X3,..,Xn) es :
Para Datos no Agrupados.

= .

Ejemplo.
Hallar la media geomtrica de los nmeros 3, 5, 8, 3, 5, 2.
Solucin.
En este caso n = 6, entonces la media geomtrica es:
= = 3.915

Para Datos Agrupados.


Si los datos estn agrupados en clases, la media geomtrica ponderada, es la raz
ensima del producto de las marcas de clases elevadas a sus respectivas
frecuencias, es decir.

= (1) 1 (2 ) 2 ( )

Donde: =
=1 , Xi = Marca de clase, fi = Frecuencia absoluta simple,
m = nmero de clases.
Aplicando logaritmo a ambos lados miembros de la ecuacin anterior se tiene:

[ 1 + 2 2 +, , + ]
1
1
= =1
; Luego.

=
Log

= [

=1
]

Ejemplo.
Intervalo
[5.2 - 6.0)
[6.0 - 6.9)
[6.9 - 7.7)
[7.7 - 8.5)
[8.5 - 9.4)
[9.4 - 10.2]
Total ( ):

Xi
5.62
6.45
7.28
8.12
8.95
9.78

fi
3
5
6
8
5
5
32

log (Xi)
0.749
0.81
0.862
0.909
0.952
0.99

fi * log(Xi)
2.248
4.048
5.174
7.275
4.759
4.952
28.46

= [28.46]= 7.749

32

36

Estadstica Descriptiva
Desventajas de la media geomtrica.

Est limitado para valores positivos para que pueda ser interpretado.
Si algn valor de la variable es cero, la media geomtrica ser cero.
Si aparece algn valor negativo, el estadgrafo toma un valor imaginario.

5. PROMEDIO PONDERADO
Cuando se desea encontrar el promedio de valores (X1, X2, X3,..,Xn) que ocurren con
frecuencias (f1,f2,.fn)diferentes se debern ponderar los valores observados con pesos
diferentes:

Donde Wi = fi/n se denominan ponderaciones o pesos.


Ejemplo.
En una agencia de viajes se han vendido 200 pasajes a los precios siguientes:
Precio de venta (soles) Numero de pasajes
Xi
fi
12
60
14
100
16
40
Total
200

Ponderacin
Wi
0.30
0.50
0.20
1

Xi*Wi
3.60
7.00
3.20
= 13.8

El precio promedio de venta de los 200 pasajes es de 13.8 soles

6. PROMEDIO TOTAL
Corresponde al valor promedio representativo de grupos de observaciones separadas o
diferentes y que podran estar consolidadas en tablas de frecuencia independientes, por
tanto:


+ + . +

ni: Numero de observaciones en el grupo i-simo.


: Promedio correspondiente el grupo i-simo

37

Estadstica Descriptiva
Ejemplo.
GUPO A
Nota
Xi
5 10 7.5
10 15 12.5
15 20 17.5
Total

GUPO B
Nota
Xi
fi
0 5 2.5 8
5 10 2.5 10
10 15 12.5 16
15 20 17.5 6
Total
40
Promedio del grupo B:

fi
4
16
5
25

Promedio del grupo A:

XA =

4(7.5) + 16(12.5) + 5(17.5)


8(2.5) + 10(7.5) + 16(12.5) + 6(17.5)
= 12.7
XB =
= 10
25
40

Promedio
Total

Grupo
A
B
Total

Xi

fi
25
40
65

12.7
10

T =
X

25(12.7) + 40(10)
= 11.04
65

7. MEDIA ARMNICA.
H de n trminos no nulos X1, X2, X3,..,Xn, es el reciproco de
La media armnica Mh o X
la media aritmtica de los recprocos de esos trminos. Es decir.
Para Datos no Agrupados.

XH =

n
1
x1

+ x + .+x

Ejemplo. Calcular el rendimiento promedio para el caso de tres automviles que


recorrieron 500 kilmetros y cada auto tuvo el rendimiento siguiente:
Auto
Rendimiento(Km/galn)

XH =

3
1
50

+ 62.4 + 77.6

A
50

B
62.4

C
77.6

3
Km
= 61.334
0.0489121
galn

Verificacin.
Auto
A
B
C
Total

Km Rendimiento
500
50
500
62.4
500
77.6
1500

Total de galones
10
8.0128
6.4433
24.4561

H =
X

1500
= 61.334
24.4561

Para Datos Agrupados. La media armnica para datos tabulados (media armnica
ponderada) se define por:
n

XH = Mh =
fi
m
i=1
Xi

Donde:
m = nmero de clases, Xi = marca de clase, fi = frecuencia absoluta de cada clase.

38

Estadstica Descriptiva
MEDIDAS DE POSICIN.
Las medidas de posicin equivalen a los valores que puede tomar una variable
caracterizados por agrupar a cierto porcentaje de observaciones en la muestra o poblacin.
Las medidas de posicin son ideales para obtener informacin adicional a partir de datos
resumidos, es decir, que presentan perdida de informacin por agrupamiento en intervalos
de clase.
PERCENTILES.
Son 99 valores que dividen a un conjunto de datos en 100 partes iguales.
Para Datos Agrupados.
= +

C
k

100

1 ]

= Lmite inferior del intervalo que contiene al percentil


= Frecuencia acumulada en la clase anterior K-sima
= Frecuencia en la clase que contiene al percentil
=Amplitud del intervalo de clase
= 1%, 2%, 3%,..,97%, 98%, 99% Percentiles.

Marca Frecuencia Frecuencia Frec. Acum. Frec. Acum.


de clase Absoluta
Relativa
Absoluta
Relativa
Xi
fi
hi
Fi
Hi
[5.2 - 6.0)
5.62
3
0.09
3
0.09
[6.0 - 6.9)
6.45
5
0.16
8
0.25
[6.9 - 7.7)
7.28
6
0.19
14
0.44
[7.7 - 8.5)
8.12
8
0.25
22
0.69
[8.5 - 9.4)
8.95
5
0.16
27
0.84
[9.4 - 10.2]
9.78
5
0.16
32
1.00
32
1
Total
Intervalo
De clase

Ejemplo.
El percentil 80% de los gastos diarios en peridicos es.
1. Se determina 80*n/100.
2. De la tabla, la frecuencia absoluta acumulada inmediatamente superior a 80*n/100 = 25.6 es F5 =
27, luego F5-1 = 22. Por tanto en intervalo de clase que contienen a80% es [8.5 9.4)
80

80% = + (100

) = 8.5 +

(. 22)
0.83 = 9.09
5

El 80% de los datos analizados sern menores de 9.09 y el 20% restante sern superiores.

39

Estadstica Descriptiva
CUARTILES.
Son tres valores Q1, Q2, Q3 que dividen a los datos en cuatro partes iguales.

25% Q1 25%

Q2

25%

1 = + (

Q3

25%
3

) ; 2 = ; 3 = + ( 4

Ejemplo.
Calcular el tercer cuartil (Percentil 75%) de los gastos diarios en peridicos de la tabla
anterior.
Solucin.
1. Se determina n/4.
2. De la tabla, la frecuencia absoluta acumulada inmediatamente superior a 3n/4 = 24 es F5 = 27,
luego F5-1 = 22. Por tanto en intervalo de clase que contienen a3 es [8.5 9.4)
3

3 = + ( 4

) = 8.5 +

( 22)
0.83 = 8.8
5

El 75% de los datos analizados sern menores a 8.8 y el 25% restante sern superiores.

DECILES.
Son nueve valores D1, D2, D3, D4, D5, D6, D7, D8, y D9, que dividen a un conjunto de datos
en 10 partes iguales.
1. Se construye la tabla de frecuencias absolutas acumuladas.
2. Se determina k*n/10.
3. Se identifica a la clase que contiene a Dk, identificado a la frecuencia absoluta
acumulada Fi inmediatamente superior a k*n/10.
Ejemplo.
Calcular el decil siete (Percentil 70%) de los gastos diarios en peridicos de la tabla de
frecuencia anterior.

10

= + (

) = 8.5 +

(. 17)
0.83 = 9.396
5

70% de los datos sern menores a 9.396 y el 30% restante sern superiores a 9.396.

40

Estadstica Descriptiva
Para Datos no Agrupados.
El lugar o posicin donde se encuentran los cuartiles para n datos ordenados es:
Cuartil

Q1 = P25%
25(n + 1)
100

Posicin

Q2 = P50%
50(n + 1)
100

Q3 = P75%
75(n + 1)
100

Ejemplo.
Supngase que los siguientes datos representan los salarios por da de 12 trabajadores de
una compaa muy grande seleccionados aleatoriamente (en soles)
9 10 12 3 5 7 15 10 9 11 13 11
Determinar el primer cuartil de la muestra.
Solucin.
1. Los datos ordenados en forma ascendente son:
3 5 7 9 9 10 10 11 11 12 13 15
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
+1

12+1

2. Como n = 12, 4 = 4 = 3.25. Esto significa que el valor de Q1 es el tercer dato


ms 25% de la diferencia entre los valores de las observaciones tercero y cuarto.
As, el valor de la tercera observacin es 7 y el del cuarto es 9, entonces
Q1 = 7 + (9-7)*0.25 =7.5 soles.
Ejemplo:
Determine los cuartiles y decil 8 de los 13 datos ordenados siguientes:
10 11 11 12 12 13 13 13 14 15 17 18 20
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13
Percentil
Q1 = P25
Q2 = P50
Q3 = P75
Q8 = P80

Posicin
0.25(13+1) = 3.5
0.50(13+1) = 7
0.75(13+1) = 10.5
0.80(13+1) = 11.2

Incremento %
50%
0%
50%
20%

Valor del cuartil


Q1 = 11+(12-11)*0.50 =11.5
Q2 = 13
Q3 = 15+(17-15)*0.50 = 16
P80 = 17+(18-17)* 0.20 = 17.2

41

Estadstica Descriptiva
MEDIDAS DE VARIABILIDAD.
1. AMPLITUD O RANGO
Sean los valores:x1, x2, x3,..,xnla amplitudo rango de estos datos es
R = (Xmax - Xmin).
2. VARIANZA Y DESVIACIN TPICA.
Estas medidas son las ms utilizadas en el estudio de la dispersin. La varianza
mide la dispersin de los datos con respecto a su media aritmtica y la desviacin
tpica o desviacin estndar es simplemente la raz cuadrada positiva de la varianza.

Para Datos no Agrupados.


Definicin de de varianza poblacional. La varianza poblacional finita de N
elementos X1, X2, X3,..,Xn, se define como la media aritmtica del cuadrado de
las desviaciones de las observaciones con respecto a su media , y se denota por 2
es decir.
n

(x
i 1

)2

Definicin de de varianza de una muestra. La varianza de una muestra, x1, x2,


x3,..,xn, de una variable o una caracterstica x (que abreviadamente escribimos
V(x)), se define como la media del cuadrado de las desviaciones de las
observaciones con respecto de la media aritmtica de esos datos. Si denotamos por
S2.
n

s2

Es fcil verificar que:

( xi X ) 2
i 1

i 1

i 1

( xi x) 2 xi2 n x

Por lo tanto,
n

s2

x
i 1

2
i

( )

( )

La diferencia entre =1
=11
es grande para muestras pequeas, y es
mnima para muestras grande, prcticamente son iguales. Entonces, para muestras
grandes 60, puede usarse cualquiera de las formulas. Para muestras pequeas
( )

se usa =11
, lo cual es llamada varianza muestral o tambin varianza
corregida, y se acostumbra denotar por 2 . Es decir la varianza muestral estar
definida por:
=1( )2
=1 2 2
2
2
=
=
1
1

42

Estadstica Descriptiva
Ejemplo.
Calcular la varianza de los cuatro datos siguientes: (Xi: 3, 4, 6 y 7)
=

=1 3 + 4 + 6 + 7 20
=
=
=5
n
4
4

=1 2 2 32 + 42 + 62 + 72 10
=
=
= 3.333
1
41
3

Para datos Agrupados.


n

s2

2 =

=1(

Ejemplo.

)2

(x
i 1

X )2 * fi
n

=1
2
=
1

Los gastos diarios en peridicos del hotel agrupados en la tabla de frecuencias.


Marca Frecuencia
de clase Absoluta
Xi*fi
Xi
fi
[5.2 - 6.0)
5.62
3
16.85
[6.0 - 6.9)
6.45
5
32.25
[6.9 - 7.7)
7.28
6
43.70
[7.7 - 8.5)
8.12
8
64.93
[8.5 - 9.4)
8.95
5
44.75
[9.4 - 10.2]
9.78
5
48.92
= 32
Total
= 251.40
= .
Intervalo
De clase

2 =

( Xi -)2*fi
15.10
9.94
2.00
0.53
5.94
18.50
= 52.00

=1( 2 )2 52
=
= 1.68
1
31

3. DESVIACIN ESTNDAR.
Es una medida de variabilidad que corresponde a la raz cuadrada de la varianza.
Este indicador tiene la misma unidad de medida en la que se expresa el promedio.
( )2
= 2 = =1
1
Entonces, = 1.68 = 1.3 soles.

Propiedades dela varianza.

La varianza de un conjunto de observaciones x1, x2, x3,..,xn, siempre


es un nmero no negativo. Esto es
43

Estadstica Descriptiva

( ) 0
La varianza de una constante es cero.
( ) = 0
Si a cada observacin x1, x2, x3,..,xn, se adiciona o resta una constante
k>0, la varianza del nuevo conjunto de valores y1, y2, y3,..,yn, donde
yi=xi K, i=1, 2,.,n, coincide con la varianza del conjunto original. Es
decir
( ) = 2 ( ).
1
() = ( ) = 2 ( ) ( ) = 2 (), donde a y b son
constantes.

4. COEFICIENTE DE VARIACIN.
Es una medida de variabilidad de los datos que se expresa en porcentaje, igual a la
desviacin estndar dividida entre la media aritmtica. Debido a que se trata de un nmero
sin dimensiones, es til para comparar la dispersin de poblaciones con medias
significativamente diferentes.

. . = ( )

Grado de variabilidad de los datos


Con variabilidad baja
Con variabilidad moderada
Con variabilidad alta

Coeficiente de variabilidad
Menos de 10%
De 10% a 30%
Ms de 30%

En el ejemplo anterior el coeficiente de variabilidad es:


. . = (

.
) = . %
.

Por ejemplo, Usted es el inspector de control de calidad de una planta embotelladora de


leche, la cual embotella el producto en recipientes pequeos y grandes. Usted toma una
muestra de cada producto y observa que el volumen medio de los recipientes pequeos es
de una 1 taza, con una desviacin estndar de 0.08 tazas, y el volumen medio de los
recipientes grandes es de 1 galn (16 tazas) con una desviacin estndar de 0.4 tazas.
Aunque la desviacin estndar del recipiente de un galn es cinco veces mayor que la
desviacin estndar del recipiente pequeo, sus coeficientes de variacin apoyan una
conclusin diferente:
Recipiente grande
CV% = 100 * 0.4 tazas / 16 tazas = 2.5

Recipiente pequeo
CV %= 100 * 0.08 tazas / 1 taza = 8

El coeficiente de variacin del recipiente pequeo es ms de tres veces mayor que el


coeficiente de variacin del recipiente grande. En otras palabras, aunque el recipiente
grande presenta una mayor desviacin estndar, el recipiente pequeo presenta una
variabilidad mucho mayor con respecto a su media.

44

Estadstica Descriptiva
MEDIDAS DE FORMA.
1. ASIMETRA O SEGO.
Evala el grado de distorsin o inclinacin que adopta la distribucin de los datos
respecto a su valor promedio tomando como centro de gravedad. El coeficiente de
asimetra de pearson es:
3( )
=

Grado de asimetra Valor del sesgo


Simetra perfecta
Cero: El promedio es igual a la mediana
Sesgo positivo
Positivo: Promedio mayor que la mediana
Sesgo negativo
Negativo: Promedio menor que la mediana

Asimetra Positiva
(Promedio > Mediana)

Simtrica
Promedio = Mediana

Asimetra Negativa
Promedio < Mediana

En el ejemplo anterior los gastos diarios en peridicos el promedio es 7.8, la


mediana es 7.90 y la desviacin estndar 1.3, por lo tanto es sesgo es ligeramente
negativo -0.23.

CURTOSIS.
Evala el grado de apuntamiento de la distribucin, el coeficiente es:
=
Grado de Apuntamiento
Mesocrtica (distribucin normal)
Leptocrtica (Elevada)
Platicrtica (Aplanada)

Ku =0.263
Mesocurtica
(Normal)


( )
Valor de Curtosis
0.263
Mayor a 0.263 se aproxima a 0.5
Menor a 0.263 se aproxima a 0.

Ku > 0.263

Ku < 0.263

Leptocrtica

Platicrtica

45

Estadstica Descriptiva

REPRESENTACIN GRFICA.
GRFICOS DE CAJAS.
Existe una gran variedad de graficas estadsticas para extraer informacin acerca de las
propiedades de un conjunto de datos.
Una grafica til para reflejar propiedades de los datos es la grafica de caja (box plots)
que se basa en la medida(o en la media), los cuartiles y valores extremos. La caja
representa el rango intercuartil que encierra el 50% de los valores y tiene la mediana (Me)
dibujada dentro. El rango intercuartil tiene como extremos el percentil 75, P75 (cuartil
superior) y el percentil 25, P25 (cuartil inferior).
Adems de la caja se incluya la extensin de los datos mediante segmentos que se
extienden de la caja hacia el valor mximo (U) y hacia el valor mnimo (L) de los datos. Es
te recuadro se dibuja con el eje de la variable en forma horizontal o vertical como se indica
en la figura que sigue.

De un grafico de caja, se obtiene informacin de los datos acerca de:


La centralizacin (observado la ubicacin de la mediana)
La dispersin o variabilidad (mediante en rango intercuartil: RI=P75-P25)
La asimetra (comparado: Me - P25con P75 - Me)
Las colas (por la longitud de los segmentos que salen de los lados de la caja)
Los datos atpicos o discordantes o raros llamados outliers (aislados) son aquellos
que se ubican fuera del intervalo.

46

Estadstica Descriptiva
Diagrama de Causa-Efecto
1.- El espesor de recubrimiento de un material de acero es evaluado en una sesin de tormenta
de ideas. El problema de variacin del espesor (la cual es del 10%) que se seala es por una
serie de causas, que fueron clasificadas en: equipos sin calibracin, personal sin
entrenamiento, especificaciones mal estructuradas, mal diseo de la maquina, variacin del
material, antigedad de la maquina, personal mal seleccionado, sin procedimientos, velocidad
sin control, alta temperatura, ambiente de trabajo contaminado, material defectuoso,
personal sin experiencia, sin instrumentos de control.
Las causas fueron clasificadas segn se muestra en el cuadro 1:
CUADRO 1
Material

Variacin del material


Material defectuoso

Maquinaria

Materia prima de mala calidad


Proveedores no adecuados

Antigedad de la maquinaria
Mal diseo de la maquina
Equipos sin calibracin
Sin procedimientos
Especificaciones mal estructuradas
Alta temperatura
Ambiente de trabajo contaminado
Personal sin entrenamiento
Personal sin experiencia
Personal mal seleccionado
Sin instrumentos de control
Velocidad sin control

Mtodo
Medio Ambiente
Mano de Obra

Medicin

diagrama de causa efecto


Mediciones

Material

Pr

er
at
pr

d
ee
ov

ia

Personal sin experiencia

or

a
im

es
e
ad

a
al
m

no

de

Velocidad sin control

Personal sin entrenamiento

Variacin del
material

Sin instrumentos de
control

Personal

s
do

a
id

a
cu

l
ca

Personal mal seleccionado

Variacion del
espesor en
10%

Material defectuoso

Equipos sin calibracin


Ambiente de trabajo
contaminado

Especificaciones mal
estructuradas
Mal diseo de la maquina

Alta temperatura

Sin procedimientos
Antigedad de la maquinaria

Entorno

Mtodos

Mquinas

47

Estadstica Descriptiva
Diagrama de Pareto
1.- En la empresa Las Malvinas el ensamblaje de mangueras ha sido criticado debido a que
presenta muchos defectos. De 14993 ensamblajes inspeccionados en un ao, un total de 1509,
el 10.1% estaban defectuosos. El reporte de inspeccin se muestra en el cuadro 2:
CUADRO 2
Defectos
Muy corto
Muy largo
Sin roscas
Fugas
Daadas
Retrabajado
Total

Turno 1
30
44
70
330
8
22
504

Turno 2
35
44
69
321
11
20
500

Turno 3
26
44
70
347
5
13
505

Total
91
132
209
998
24
55
1509

La gerencia expres su preocupacin por que los tres turnos no cuentan con igual supervisin, lo
que puede contribuir al problema. Desarrolle un Diagrama de Pareto para el total de defectos en
los tres turnos y un Diagrama de Pareto para cada turno.

Diagrama de Pareto para el total de defectos en los tres turnos.

Diagrama de Pareto de Defectos


1600

100

1400

Total

1000

60

800
600

40

Porcentaje

80

1200

400
20
200
0

Defectos
Total
Porcentaje
% acumulado

Fugas
998
66.1
66.1

Sin roscas
209
13.9
80.0

Muy largo
132
8.7
88.7

Muy corto Retrabajado


91
55
6.0
3.6
94.8
98.4

Otro
24
1.6
100.0

48

Estadstica Descriptiva
Diagrama de Pareto para cada turno.

500

100

400

80

300

60

200

40

100

20

Defectos
Turno 1
Porcentaje
% acumulado

Fugas
330
65.5
65.5

Sin roscas
70
13.9
79.4

Muy largo
44
8.7
88.1

Muy corto Retrabajado


30
22
6.0
4.4
94.0
98.4

Otro
8
1.6
100.0

Porcentaje

Turno 1

Diagrama de Pareto de Defectos

Diagrama de Dispersin

1.- En un equipo de mejora se obtienen los siguientes datos, que recogen el nmero de
defectos por lote e conjuntos de 10 000 piezas en funcin del tiempo de tratamiento al
que se someten:
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

#
Defectos
48
52
54
50
48
51
52
59
54
54
44
54
48
47
58
57
54

Tiempo
(Seg)
809
834
838
854
822
842
851
868
841
844
811
819
830
836
850
857
863

Materia
Prima
B
B
B
A
A
A
A
B
B
B
A
B
A
A
B
B
A

Obs
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42

#
Defectos
47
53
58
54
43
54
52
56
55
55
58
57
52
58
57
51
51

Tiempo Materia
(seg)
Prima
837
A
840
A
850
B
843
A
819
A
856
A
862
A
835
B
844
B
852
A
858
B
843
B
825
B
867
B
851
B
812
B
821
B
49

Estadstica Descriptiva
18
19
20
21
22
23
24
25

49
49
48
52
50
49
54
56

811
820
826
832
837
839
839
842

B
A
A
B
A
A
B
B

43
44
45
46
47
48
49
50

50
56
50
49
52
50
46
49

831
841
843
850
841
855
829
838

B
B
A
A
B
A
A
A

Diagrama de dispersin.
a) Realice un diagrama de dispersin entre la variable nmero de defectos por lote y la
variable tiempo de tratamiento al que se someten. Que comentarios puede hacer al
respecto.
60

y = 0.164x - 85.576
R = 0.3991

58
56
54
52
50
48

46
44
42
40
800

810

820

830

840

850

860

870

880

2.- Fiber Borrad fabrica forros interiores de techo para la industria automotriz. La gerente
de manufactura est preocupada por la calidad de este producto. Sospecha que un
defecto en particular, las rasgaduras de la tela, est relacionado con el tamao de las
actuales partidas de produccin. Un asistente ha recopilado los datos que se
encuentran en la tabla, basndose en los registros de produccin:
Partida
1
2
3
4
5
6
7
8
9
10

Tamao
1000
4100
2000
6000
6800
3000
2000
1200
5000
3800

Defecto (%)
3.5
3.8
5.5
1.9
2.0
3.2
3.8
4.2
3.8
3.0

Partida
1
2
3
4
5
6
7
8
9
10

Tamao
6500
1000
7000
3000
2200
1800
5400
5800
1000
1500

Defecto (%)
1.5
5.5
1.0
4.5
4.2
6.0
2.0
2.0
6.2
7.0

a) Dibuje un diagrama de dispersin para estos datos


50

Estadstica Descriptiva
b) Existe alguna relacin entre el tamao de la partida y el porcentaje de defectos? Qu
consecuencias tiene esto para los negocios de Fiber Borrad?
Grfica de dispersin de Defecto (%) vs. Tamao
7

Defecto (%)

6
5
4
3
2
1
1000

2000

3000

4000
Tamao

5000

6000

7000

GRFICO DE BARRAS

Cuadro N 01: Distribucin de plntulas de tornillo segn su altura (en milmetros).


Brunas-UNAS/Tingo Mara. Mayo 2011
Marca de Clase
(Xi)

Grupos

1 14 18.0
2 18.0 22.0
3 22.0 26.0
4 26.0 30.0

16
20
24

17.0
21.0
25.0

28

5 30.0 34.0

mi

6
7
8
9

Li

34.0
38.0
42.0
46.0

Ls

38.0
42.0
46.0
50.0

Frecuencia
(fi)

(Fi)

(hi)

(Hi)

(hi%)

(Hi%)

29.0

29
24
27
30

110 0.125 0.458 12.5% 45.8%

32

33.0

34

144 0.142 0.600 14.2% 60.0%

36
40
44
48

37.0
41.0
45.0
50.0

24
24
26
22
240

168 0.100 0.700 10.0%


192 0.100 0.800 10.0%
218 0.108 0.908 10.8%
240 0.092 1.000 9.2%
1.000
100%

Total

29 0.121 0.121 12.1% 12.1%


53 0.100 0.221 10.0% 22.1%
80 0.113 0.333 11.3% 33.3%

70.0%
80.0%
90.8%
100.0%

Fuente: Facultad de Recursos de la UNAS.


Del cuadro anterior realice el grafico de barras.

51

Estadstica Descriptiva
Grfico N 01. Distribucin porcentual de plntulas de tornillo segn su altura (en
milmetros). Brunas-UNAS/Tingo Mara. Mayo 2011
14.2%

16.0%

12.1%

14.0%
12.0%

10.0%

11.3%

12.5%
10.0% 10.0%

10.8%
9.2%

10.0%
8.0%
6.0%
4.0%
2.0%
0.0%

[14 - 18> [18- 22> [22 - 26> [26 - 30> [30 - 34> [34 - 38> [38 - 42> [42 - 46> [46 - 50]

Fuente: Facultad de Recursos de la UNAS.


GRFICO DE SECTORES.

1. Se ha llevado a cabo una encuesta a personas elegidas al azar de la ciudad de


Tingo Mara en Julio Agosto del 2012 para analizar su opinin sobre la calidad de
una nueva conserva que se desea introducir en el mercado. Los resultados
observados fueron los siguientes:
Bueno

Regular

Regular
Malo

Malo

Malo

Bueno

Regular

Excelente Excelente Regular

Regular

Excelente Excelente Regular

Excelente Excelente Regular

Excelente

Bueno

Malo

Bueno

Bueno

Bueno

Bueno

Malo

Excelente Malo

Regular

Malo

Malo

Malo

Excelente Malo
Malo

Bueno

Bueno

Malo

Excelente Excelente Malo

Regular

Malo

Malo

Malo

Malo

Excelente Excelente Excelente Malo

Excelente Bueno

Malo

Regular

Malo

Regular

Bueno

Regular

Bueno

Malo

Excelente Malo

Regular

Excelente Malo

Malo

Malo

Malo

Malo

Excelente Excelente Malo

Excelente Bueno

Malo

Regular

Malo

Malo

Excelente Excelente Malo


Excelente Malo

Excelente

Solucin
Cuadro N 02: Distribucin de personas segn su opinin sobre la calidad de una nueva
conserva que se desea introducir en el mercado. Tingo Mara. Julio Agosto del 2012.
Opinin sobre la conserva
fi
Fi
hi
Hi
hi%
Hi%
Bueno
13
13
0.15
0.15
15%
15%
Regular
14
27
0.17
0.32
17%
32%
Malo
33
60
0.39
0.71
39%
71%
Excelente
24
84
0.29
1.00
29%
100%
Total
84
1.00
100%
Fuente: Elaboracin Propia

52

Estadstica Descriptiva
Grfico N 02: Distribucin de personas segn su opinin sobre la calidad de una nueva
conserva que se desea introducir en el mercado. Tingo Mara. Julio Agosto del 2012.
Bueno
15%

Excelente
29%

Regular
17%

Malo
39%

Fuente: Elaboracin Propia


HISTOGRAMA.

1. La Biomasa de los recursos hidrobiolgicos del Per en los aos de 2004 a 2009 se
da en la siguiente tabla:
Recurso
2004
2005
2006
2007
2008
2009
Jurel
5300
5000
4330
7000
2800
4303
Caballa
1511
450
1700
1900
1300
1052
Sardina
4200
2500
2700
1750
4500
3680
Anchoveta 1500
6500
6000
4500
5900
3060
a) Construya su grafico correspondiente para los recursos hidrobiolgicos del Per en
los aos 2005, 2008 y 2009 e interprete. (2 pts)
Grafico N 03. Biomasa de los recursos hidrobiolgicos: 2005 2009.
7000
6000
5000
4000
3000
2000
1000
0

2005
JUREL

2008
ANCHOVETA

2009
SARDINA

CABALLA

Fuente: INSTITUTO DEL MAR PERUANO (IMARPE)


GRFICO DE LINEAS.

53

Estadstica Descriptiva
PROBLEMAS RESUELTOS.
1. Los siguientes datos corresponden a un muestra aleatoria de la altura en milmetros
(mm) de plantulas de tornillo (cedrelingacatenaeformis) perteneciente a la familia de las
Fabaceae en una parcela de 50x10 mts2, realizada en el Brunas-UNAS de la ciudad de
Tingo Mara en mayo 2011.
32 26 26 44 32 15 48 22 22 39 15 26 21 45 16 23
46 26 44 42 36 43 19 29 35 42 37 44 32 41 33 21
17 29 32 29 50 14 24 14 49 35 17 32 33 26 30 16
32 32 26 35 32 41 20 32 47 18 28 17 29 50 26 28
21 28 44 14 39 27 17 15 28 14 37 32 34 27 40 32
17 45 28 31 17 33 41 18 36 26 17 31 38 31 44 36
22 26 33 39 19 49 50 33 22 33 50 31 42 27 21 23
38 48 34 22 48 36 29 23 33 41 32 17 20 18 24 25
43 15 17 31 27 22 39 28 31 19 23 37 32 19 39 43
33 40 22 44 23 15 14 44 23 25 14 35 41 50 21 20
35 41 38 30 29 40 22 39 41 18 42 37 34 46 39 30
50 46 35 44 42 27 18 15 37 39 16 50 20 50 34 29
41 20 36 25 42 19 36 39 21 17 43 44 36 23 30 23
41 23 45 15 37 27 18 23 14 22 35 33 15 30 49 49
33 45 45 22 15 46 49 45 29 24 19 25 45 27 49 21
La informacin fue obtenida de la Facultad de Recursos de la UNAS.
a)
b)
c)
d)

Construya un cuadro de distribucin de frecuencias adecuado. (3pts)


Determine las medidas de tendencia central e interprete. (6pts)
Determine las medidas de dispersin e interprete. (4pts)
Construya su grfico correspondiente e interprete. (3pts)

Solucin
PASOS PARA AGRUPAR DATOS

Funcin en Excel

Tamao de muestra: ( n ) =
CONTAR(Seleccionar BD3)
Valor Mximo =
MAX()
Valor Mnimo =
MIN()
Rango (R)=
Valor Mximo - Valor Mnimo
Aplicando la regla de STURGES:
N de intervalos (m) =
1+3.3*log (n)
m redondeado =
REDONDEAR()
Amplitud (C ) =
R/[m = redondeado]

Del
Ejemplo

240
50
14
36
8.855
9
4

BD: base de datos.

54

Estadstica Descriptiva
Cuadro N 01: Distribucin de plntulas de tornillo segn su altura (en milmetros).
Brunas-UNAS/Tingo Mara. Mayo 2011
mi

Li

Ls

Marca de Clase
(Xi)

Grupos

Frecuencia
(fi)

14

18.0

16

17.0

29

29 0.121 0.121 12.1% 12.1%

2 18.0 22.0
3 22.0 26.0
4 26.0 30.0

20
24
28

21.0
25.0
29.0

24
27
30

53 0.100 0.221 10.0% 22.1%


80 0.113 0.333 11.3% 33.3%
110 0.125 0.458 12.5% 45.8%

5 30.0 34.0

32

33.0

34

144 0.142 0.600 14.2% 60.0%

6 34.0
7 38.0
8 42.0
9 46.0

38.0

36

37.0

24

168 0.100 0.700 10.0% 70.0%

42.0
46.0
50.0

40
44
48

41.0
45.0
50.0

24
26
22
240

192 0.100 0.800 10.0% 80.0%


218 0.108 0.908 10.8% 90.8%
240 0.092 1.000 9.2% 100.0%
1.000
100%

Total

(Fi)

(hi)

(Hi)

(hi%)

(Hi%)

Fuente: Facultad de Recursos de la UNAS.


).
~ Promedio muestral (X

=1( )
464
=

480
Promedio muestral = 31.4333333

Marca de Clase (Xi) Frecuencia (fi) Xi*fi


16
20
24
28
32
36
40
44
48

29
24
27 648
30 840
34 1088
24 864
24 960
26 1144
22 1056

( ) = 7544

Moda muestral = 31.1428571


)
(
6907.446
3137.307
1491.870
353.633
10.918
500.507
1761.307
4105.949
6037.998
) = 24306.933
91(

Mediana muestral (Me).

= +

( 2 1 )

Mediana muestral = 31.1764706


Moda muestral (Mo).

1
]
1 + 2
Donde: 1 = ( 1 )
2 = ( +1 )

= + [

Varianza muestral ( 2 )

2 =

=1( )

Varianza muestral = 101.70265


Desviacin estndar.
=1( )2
2

= =
1

Desviacin estndar muestral =10.0847732

55

Estadstica Descriptiva
Coeficiente de Variacin muestral porcentual:

. . = ( )

Coeficiente de Variacin muestral = 32.083%


Grfico N 01. Distribucin porcentual de plntulas de tornillo segn su altura (en
milmetros). Brunas-UNAS/Tingo Mara. Mayo 201.
15.0%

14.2%
12.1%
10.0%

11.3%

12.5%
10.0% 10.0%

10.8%

10.0%

9.2%

5.0%

0.0%
[14 - 18> [18- 22> [22 - 26> [26 - 30> [30 - 34> [34 - 38> [38 - 42> [42 - 46> [46 - 50]

Fuente: Facultad de Recursos de la UNAS.

2. Construccin de cuadros de frecuencias PARA DATOS AGRUPADOS


Ejemplo 02:
Los siguientes datos corresponden a una muestra aleatoria de los gastos semanales en
dlares de turistas que se alojaron en el hotel Sheraton la ciudad de Lima en julio del
2013.
17 18 9 8 18 14 18 31 32 9 21 33 34 31 33 19 18 20
27 26 15 38 20 32 14 14 17 15 19 36 33 39 31 27 26 17
40 14 25 27 33 20 17 10 33 18 12 25 18 24 19 30 26 14
25 29 40 8 11 23 35 11 39 37 25 28 36 37 10 18 14 10
26 16 36 8 37 31 40 17 10 15 19 31 38 30 37 32 29 34
20 26 21 29 34 28 37 29 8 12 16 20 21 13 30 19 20 18
La informacin fue obtenida de los registros de clientes de dicho hotel.
Solucin:
PASOS PARA AGRUPAR DATOS

Funcin en Excel 2007

Del
Ejemplo

Tamao de muestra: ( n ) =
CONTAR(Seleccionar BD)
108
Valor Mximo =
MAX()
40
Valor Mnimo =
MIN()
8
Rango (R)=
Valor Mximo - Valor Mnimo
32
Aplicando la regla de STURGES:
N de intervalos (m) =
1+3.3*log (n)
7.71029
m redondeado =
REDONDEAR()
8
Amplitud (C ) =
R/[m = redondeado]
4
56

Estadstica Descriptiva
Cuadro N 02: Distribucin de turistas, segn sus gastos semanales (dlares).
hotel Sheraton Lima. Julio de 2013.

N clases
[ Li
o intervalos
1
[8
2
[12
3
[16
4
[20
5
[24
6
[28
7
[32
8
[36
Total

- Ls > Xi
-

12>
16>
20>
24>
28>
32>
36>
40]

10
14
18
22
26
30
34
38

fi

Fi

hi

Hi

hi%

Hi%

12
12
20
10
13
14
12
15
108

12
24
44
54
67
81
93
108

0.11
0.11
0.19
0.09
0.12
0.13
0.11
0.14
1.00

0.11
0.22
0.41
0.50
0.62
0.75
0.86
1.00

11%
11%
19%
9%
12%
13%
11%
14%
100%

11%
22%
41%
50%
62%
75%
86%
100%

Fuente: Registros de clientes - hotel Sheraton Lima.

Determinacin de las frecuencias absolutas simples en cada intervalo de clase.

El conteo de la base de datos se realiza


dentro de los intervalos cerrados

N de
intervalos
1
2
3
4
5
6
7
8

[ Li - Ls >
[8
[12
[16
[20
[24
[28
[32
[36

12>
16>
20>
24>
28>
32>
36>
40]

N de
intervalos
1
2
3
4
5
6
7
8

[ Li - Ls ]
[8 [12 [16 [20 [24 [28 [32 [36 -

11]
15]
19]
23]
27]
31]
35]
40]

57

Estadstica Descriptiva
Grfico N 02: Distribucin de turistas, segn sus gastos semanales (dlares).

hotel Sheraton Lima. Julio de 2013.

25
20

20
15

12

13

12

15

14

12

10

10
5
0

[ 8 - 12>[12 - 16>[16 - 20>[20 - 24>[24 - 28>[28 - 32>[32 - 36>[36 - 40]

Fuente: Registros de clientes - hotel Sheraton Lima.


Interpretacin:
Del grfico se puede observar que existen 20 turistas que gastan de 16 dlares a ms y a
menos de 20 dlares semanales y 10 turistas que gastan de 20 dlares a ms y a menos de
24 dlares semanales en hospedaje en la ciudad de Lima.
La tendencia de los gastos semanales de los turistas en es inestable.

58

Estadstica Descriptiva
MEDIDAS DE TENDENCIA CENTRAL
PARA DATOS AGRUPADOS
PARA DATOS SIN AGRUPAR

1) Media aritmtica Muestral ():


1) Media aritmtica Muestral ():
= 24.11
= 23.68
Interpretacin:
Interpretacin:
El gasto promedio semanal de los
El gasto promedio semanal de los
turistas que se alojaron en hotel
turistas que se alojaron en hotel
Sheraton Lima es de 24.11
Sheraton Lima es de 23.68
dlares
dlares
2) Mediana muestral (Me):
Me = 24

Interpretacin:
El 50% de los turistas gastaron como
mximo 24 dlares semanales en
hotel Sheraton Lima y el otro
50% superaron dicho monto.
3) Moda muestral (Mo):
Mo = 17.78
Interpretacin:
El gasto ms frecuente semanal de
los turistas es de 17.78 dlares
semanales.

4) Media geomtrica muestral (


):

= 22.21

Interpretacin:
El gasto promedio geomtrico
semanal de los turistas es de 22.21
dlares.
5) Media armnica muestral (Mh):
Mh = 20.24
Interpretacin:
El gasto promedio armnico
semanal de los turistas es de 20.24
dlares.

2) Mediana muestral (Me):


Me = 23.5
Interpretacin:
El 50% de los turistas gastaron como
mximo 23.5 dlares semanales en
hotel Sheraton Lima y el otro
50% superaron dicho monto.
3) Moda muestral (Mo):
Mo = 18.0
Interpretacin:
El gasto ms frecuente semanal de
los turistas es de 18 dlares
semanales.

4) Media geomtrica muestral (


):

= 21.68

Interpretacin:
El gasto promedio geomtrico
semanal de los turistas es de
21.68dlares.
5) Media armonica muestral (Mh):
Mh = 19.55
Interpretacin:
El gasto promedio armnico semanal
de los turistas es de 19.55 dlares.

59

Estadstica Descriptiva
MEDIDAS DE DISPERSIN
PARA DATOS AGRUPADOS
PARA DATOS SIN AGRUPAR
1) Varianza muestral ( ):
= . dlares2

Interpretacin:
La variabilidad promedio de los
gastos es de 84.17 dlares2.
2) Desviacin estndar (S):
S = 9.17 dlares.
Interpretacin:
Los gastos semanales de los turistas
varan con respecto a su valor
central en 9.17 dlares.

3) Coeficiente de variacin
porcentual (C.V%):
C.V.% = 38.05
Interpretacin:
Los datos de la muestra de gastos
semanales de los turistas son
heterogneos, por lo tanto presentan
un alto grado de variabilidad.

1) Varianza muestral ( ):
= .

Interpretacin:
La variabilidad promedio de los
gastos es de 85.87dlares2.
2) Desviacin estndar (S):
S = 9.27

Interpretacin:
Los gastos semanales de los turistas
varan con respecto a su valor central
en 9.27 dlares.

3) Coeficiente de variacin
porcentual (C.V%):
CV% = 39.14%

Interpretacin:
Los datos de la muestra de gastos
semanales de los turistas son
heterogneos, por lo tanto presentan
un alto grado de variabilidad.

ACTIVIDAD DE APRENDIZAJE I
1. Identifique las siguientes variables segn su clasificacin, ya sea cuantitativa (discreta o
continua) y cualitativa (nominal u ordinal).
a) Tipos de crdito: Cualitativa Ordinal
b) Nmero de das no laborados: Cuantitativa Discreta
c) Nivel de acuerdo: Cualitativa Nominal
d) Ganancias en dlares: Cuantitativa Continua
2. Los siguientes datos corresponden a una muestra aleatoria de 20 trabajadores del banco
de crdito del Per segn sus retenciones al sistema privado de pensiones en febrero del
2011.
100 200 150 160 179 130 135 150 155 158
180 190 170 175 120 115 140 139 145 144
Los datos fueron brindados por el departamento de personal de dicha institucin.
Se pide:
a) Identificar la unidad de anlisis y la variable en estudio.
b) Construya una distribucin de frecuencias absolutas
c) Construya un cuadro de distribucin de frecuencias ampliada. Utilice la regla
de Sturges.
d) Interprete f3, h3%, F3 y H3%.
e) Determinar qu porcentaje de trabajadores tienen una retencin de 140 soles o
ms, pero menos de 180 soles.
f) Determinar cuntos trabajadores tienen una retencin de 160 a 200 soles.
g) Construir un histograma de frecuencias porcentuales y comente.
60

Estadstica Descriptiva
Solucin.
a)
Unidad de observacin: El trabajador del BCP.
Variable en estudio: Retenciones al Sistema Privado de Pensiones (SPP).
b)
Retenciones al SPP.(Xi) N de trabajadores (fi)
100
1
115
1
120
1
130
1
135
1
139
1
140
1
144
1
145
1
150
2
155
1
158
1
160
1
170
1
175
1
Total:
20
c) Procedimiento para la construccin de cuadros de frecuencia, cuando la variable
Cuantitativa Continua.
Paso 1: Determinamos el Rango.
Rango (R) = Valor Mximo Valor Mnimo R = 200 100 = 100
Paso 2: Determinamos el Nmero de intervalos (m), Aplicando la regla de Sturges:
N de intervalos (m) = 1 + 3.322*log(n) m = 1+ 3.322*log(20) = 5.293 5
Paso 3: Determinamos la Amplitud (C).
Amplitud (C) = R/m C = 100/5 = 20
Cuadro N 01: Distribucin de los trabajadores segn sus Retenciones al Sistema Privado
de Pensiones (SPP). Banco de Crdito del Per. Febrero de 2006.
[Li Ls>
Xi
fi
Fi
hi
Hi
hi%
Hi%
[100 120>
110
2
2
0.10
0.10
10%
10%
[120 140>
130
4
6
0.20
0.30
20%
30%
[140 160>
150
7
13
0.35
0.65
35%
65%
[160 180>
170
4
17
0.20
0.85
20%
85%
[180 200]
190
3
20
0.15
1.0
15%
100%
Total:
20
1.0
100%
Fuente: Departamento de personal del BCP.

d) Interpretacin:
f3 = 7: Existen 7 trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 140 soles a ms y a menos de 160 nuevos soles.
h3% = 35%: Existe un 35% de los trabajadores que sus retenciones al Sistema Privado de
Pensiones se encuentra de 140 soles a ms y a menos de 160 soles.
61

Estadstica Descriptiva
F3 = 13: Existen 13 trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 100 soles a ms y a menos de 160 soles.
H3% = 65%: Existe un 65% de los trabajadores que sus retenciones al Sistema Privado de
Pensiones se encuentra de 100 soles a ms y a menos de 160 soles.
e) [ 140 180>: Entonces el porcentaje de trabajadores = 35% + 20% = 55%.
f) [ 160 200]: Entonces el N de trabajadores = 4 + 3 = 7 Trabajadores.
g) Histograma.
Grafico N 01: Distribucin porcentual de los trabajadores segn sus Retenciones al
Sistema Privado de Pensiones (SPP). Banco de Crdito del Per. Febrero de 2006.
35%
40%

20%

20%

20%

30%

15%

10%

10%
0%
[100 120>

[120 140>

[140 160>

[160 180>

[180 200]

Fuente: Departamento de personal del BCP.


Comentario:
Del grfico se puede observar que existe un 35% de los trabajadores que sus retenciones al
Sistema Privado de Pensiones se encuentra de 140 soles a ms y a menos de 160 soles y
existe un 10% de los trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 100 soles a ms y a menos de 120 soles.
3. Dado el siguiente cuadro:
Evolucin del comercio electrnico de empresas tursticas por ventas al consumidor final
en millones de pesetas. Espaa: 1997 2001.
Ao
1997 1998 1999 2000 2001
Ventas en millones de pesetas
5
10
12
30
30
Fuente: Asociacin espaola del comercio electrnico. @ECE.
Se pide:
Construir un grfico lineal y comentar.

62

Estadstica Descriptiva
Grfico N02: Evolucin del comercio electrnico de empresas tursticas por ventas al
consumidor final en millones de pesetas. Espaa: 1997 2001.
40

Ventas

30
20
10
0
1997

1998

1999
Aos

2000

2001

Fuente: Asociacin espaola del comercio electrnico. @ECE.


Comentario:
Del grfico se puede observar que existe una tendencia ascendente del comercio
electrnico de empresas tursticas por ventas al consumidor final en los aos 1997 a 1999,
y a partir del ao 2000 al 2001 el comercio electrnico de empresas tursticas por ventas al
consumidor final permanece constante.
4. Los siguientes datos pertenecen a una muestra aleatoria de 30 cibernautas de la ciudad
de Chimbote, segn modo de conexin al chat a travs de internet mediante una
encuesta realizada por la comunidad virtual Profesional de Marketing en enero del
2007.
C
C
T
T
T
C
C
Cl
O
Cl
T
T
O
Cl
Cl
Cl
C
Cl
O
Cl
C
C
Cl
T
O
O
Cl
Cl
Cl
Cl
Donde:
C: Casa
T: Trabajo
Cl: Cibercaf
O: Otros
a) Identificar la unidad de observacin y la variable en estudio.
b) Construir una distribucin de frecuencias absolutas y porcentuales.
c) Interpretar f3 y h4%
d) Construir un grfico de barras simples para frecuencias absolutas.
e) Construir un grfico de sectores y comentar.
Solucin:
a)
Unidad de observacin: El cibernauta.
Variable en estudio: modo de conexin al al chat a travs de internet
b)
Distribucin de cibernautas segn el modo de conexin al chat a travs de internet. Ciudad
de Chimbote. Enero de 2007.
Modo de conexin N de cibernautas
hi
hi%
(Xi)
fi
Casa (C)
7
0.23
23%
Trabajo (T)
6
0.20
20%
Cibercaf (Cl)
12
0.40
40%
Otros (O)
5
0.17
17%
Total:
30
1.0
100%
Fuente: Encuesta Comunidad Virtual Profesional de Marketing
63

Estadstica Descriptiva
c) Interpretacin:
f3 = 12: Existen 12 de cibernautas de la ciudad de Chimbote que acceden al internet por el
modo de conexin a travs de un Cibercaf.
h4% = 17%: Existe un 17% de los cibernautas de la ciudad de Chimbote que acceden al
internet por el modo de conexin a travs de otras modalidades.
d)
Grafico N03: Distribucin de cibernautas segn el modo de conexin al chat a travs de
internet. Ciudad de Chimbote. Enero de 2007.
14

12

12
10
8

2
0

Casa (C)

Trabajo (T)

Cibercaf (Cl)

Otros (O)

Fuente: Encuesta Comunidad Virtual Profesional de Marketing.


e)
Grafico N04: Distribucin de cibernautas segn el modo de conexin al chat a travs de
internet. Ciudad de Chimbote. Enero de 2007.
Casa (C)
Otros (O)
23%
17%

Cibercaf
Trabajo
(Cl)
(T)
40%
20%
Fuente: Encuesta Comunidad Virtual Profesional de Marketing.
Comentario:
Del grfico se puede observar que existe un 40% de los cibernautas que acceden por el
modo de conexin al chat a travs de internet desde un cibercaf y un 17% a travs de
Otros medios en la Ciudad de Chimbote.
ACTIVIDAD DE APRENDIZAJE II
1. Los siguientes datos corresponden a 10 cibernautas segn el tiempo en minutos que
pasan navegando en internet:
Xi: 35, 45, 50, 55, 35, 40, 55, 60, 42, 45.
Calcular e interpretar:
a) La media
b) La mediana
64

Estadstica Descriptiva
c) La moda
d) La desviacin estndar
e) El coeficiente de variacin.
f) El coeficiente de asimetra.
Solucin:
a) Media = media aritmtica = promedio, (muestral).
=1 35 + 45 + 50 + 55 + 35 + 40 + 55 + 60 + 42 + 45 462
=
=
= 46.2
n
10
10
Interpretacin:
El tiempo promedio que pasan navegando en internet los cibernautas es de 46 minutos
aproximadamente.
b) Mediana muestral (cuando n es par).
La ubicacin de la mediana de n datos ordenados en forma ascendente, se determina por:
(n+1)/2 = (10+1)/2 =5.5
Xi: 35 35 40 42 45 45 50 55 55 60
Luego la mediana se encuentra en el 5to y 6ta lugar de los datos ordenados, entonces:
Mediana = (45+45)/2 = 45.
Interpretacin:
El 50% de los cibernautas pasan navegando en internet como mximo 45 minutos,
mientras que el otro 50% supera dicho tiempo.
=

c) La Moda.
Observamos el valor que se repite con mayor frecuencia, que son 35, 45, 55.
Por lo tanto existen tres modas (trimodal). Entonces:
Md1 = 35, Md2 = 45, Md3 = 55
Interpretacin:
El mayor tiempo de cibernautas pasan navegando en internet so de 35, 45 y 55 minutos.

d) Desviacin estndar.
=1( )2
2
=
1

(3546.2)2+ (4546.2)2 +(5046.2)2+(5546.2)2 +(3546.2)2+(4046.2)2 +(5546.2)2+(6046.2)2 +

(4246.2)2 +(4546.2)2

669
2 =
= 74.4
9

Entonces la desviacin estandar es:


= 2 = 74.4 = 8.625
Interpretacin:
El tiempo en minutos que pasan navegando en internet los cibernautas se dispersan en
promedio de su valor central en 8.6 minutos aproximadamente.
65

Estadstica Descriptiva
e) Coeficiente de variacin:

.
. . = ( ) = (
) = .

f) Coeficiente de asimetra.
=

3( ) 3(46.2 45)
=
= 0.42

8.6

Interpretacin:
Este valor indica que la distribucin es asimtrica positiva.

2. Los siguientes datos corresponden a las ventas mensuales en dlares realizadas en el


ao 2006 por una empresa de productos hidrobiolgicos:
Xi: 2000, 2500, 2500, 4000, 2700, 3000, 4200, 2500, 5000, 2800, 2500.
a) Calcular la venta mensual mxima en el 50% de los meses.
b) Calcular la venta mensual promedio.
c) Calcular la venta mensual del mayor nmero de los meses.
Solucin.
Xi: 2000 2500 2500 2500 2500 2700 2800 3000 4000 4200 5000
a) Mediana = 2700 dlares.
En el 50% de los meses, la venta mensual mxima por una empresa de productos
hidrobiolgicos es de 2700 dlares.
b) Promedio = 3063.636 dlares.
La venta mensual promedio por una empresa de productos hidrobiolgicos es de 3063.636
dlares.
c) Moda = 2500 dlares.
La venta mensual del mayor nmero de los meses es de 2500 dlares.

3. En dos empresas de telecomunicaciones se dan los siguientes gastos mensuales en soles


(de los ltimos 6 meses) en material y mantenimiento informtico:
MESES Octubre Noviembre Diciembre Enero Febrero Marzo
EMP. A 500
550
600
700
650
600
EMP. B 450
480
500
460
420
400
Se pide:
a)
b)
c)
d)
e)

Calcular la desviacin estndar para la zona A.


Calcular la desviacin estndar para la zona B.
Calcular el coeficiente de variacin para la zona A.
Calcular el coeficiente de variacin para la zona B.
En qu empresa los gastos presentan baja variabilidad?
66

Estadstica Descriptiva
Solucin.
a) SA = 70.71 soles.
b) SB = 37.10 soles.

c) CVA = =

d) CVB =

70.71

= 0.1179.

600
37.1024

= 451.667 = 0.0821.

e) En empresa B los gastos presentan baja variabilidad de un 8.21%


4. La siguiente tabla corresponde a 300 trabajadores de una empresa X segn su tiempo
de servicio en aos:
tiempo de servicio
(en aos)
N de trabajadores
[Li Ls>
[5 10>
40
[10 15>
60
[15 20>
100
[20 25>
92
[25 30]
8
Total:
300
Se pide:
a) Calcular el promedio e interpretar.
b) Calcular la mediana e interpretar.
c) Calcular la moda e interpretar.
Solucin:
a)
tiempo de servicio (en aos) N de trabajadores
Xi Xi*fi
[Li Ls>
fi
[5 10>
40
7.5 300
[10 15>
60
12.5 750
[15 20>
100
17.5 1750
[20 25>
92
22.5 2070
[25 30]
8
27.5 220
Suma :
300
5090
Promedio:
=1( )
5090

=
=
= 16.967
n
300
Interpretacin:
El Tiempo de servicio promedio de los trabajadores de una empresa X es de 16.967
aos.

67

Estadstica Descriptiva
b)
Determinamos la Mediana (Me).
Como la variable es continua y los datos estn agrupados en intervalos, la frmula a
utilizar ser:

( 1 )
= + 2

Procedimiento.
Determinamos las frecuencias absolutas acumuladas Fi.
Luego buscamos en que intervalo se encuentra ubicado la mediana a travs de
n/2.

(i = subndice y es la ubicacin del intervalo).


Como n = 300, entonces: n/2 = 300/2 = 150, luego buscamos en la frecuencia absoluta
acumulada (Fi) el dato 150, como no se encuentra, buscamos el valor superior a este dato.
(Observamos que se encuentra comprendido entre 100 y 200 de Fi). Por lo tanto el valor
superior a 150 es 200, luego el intervalo donde se encuentra la mediana es [15 20> que es
el tercer intervalo, es decir i = 3.
tiempo de servicio
Frecuencia
N de trabajadores
(en aos)
absoluta
fi
[Li Ls>
acumulada. Fi
[5 10>
40
40
[10 15>
60
100
[15 20>
100
200
[20 25>
92
292
[25 30]
8
300
Total:
300
Reemplazando en la Formula:
= 15 +

300
2

100)

100

5 = 17.5 .

Interpretacin:
El 50% de los trabajadores de la empresa X tiene un tiempo de servicio mximo de 17.5
aos, mientras que el otro 50% de los trabajadores de la empresa X supera dichos aos
de tiempo de servicio.

c) Moda
Como la variable es continua y los datos estn agrupados en intervalos, la frmula a
utilizar ser:
1
= + [
]
1 + 2
Donde: 1 = ( 1 )
2 = ( +1 )

68

Estadstica Descriptiva
Procedimiento.
Determinamos las frecuencias absolutas simples fi.
Posteriormente buscamos el valor ms frecuente en fi, que es 100, entonces el
intervalos que contiene a la moda es [15 20>, es el tercer intervalo, es decir i
= 3.
Reemplazamos en la Formula.
= 15 +
1 = 100 60 = 40
2 = 100 92 = 8

40
5 = 19.167
(40 + 8)

Interpretacin:
El tiempo de servicio ms frecuente de los trabajadores de la empresa X es de 19.167
aos.
5. El dueo de una fbrica considera que si la produccin de una mquina que tiene
muchos aos de vida tiene una produccin heterognea por lo que en estos ltimos 5
das tendr que darle de baja. Los resultados se muestran a continuacin, en nmero de
unidades.
Xi: 140, 127, 125, 148, 146.
Qu decisin tomar el dueo?
Solucin.
Desviacin estndar: S = 10.663 unidades.
Promedio: = 137.2

Coeficiente de variacin: . . = ( ) = ( . ) = . . %
El coeficiente de variacin es bajo de un 7.77%, por lo que se puede afirmar que la
produccin de la mquina es homogneo mas no heterogneo. Es decir no existe una
variabilidad alta. Por lo tanto la mquina no se debe dar de baja.

69

Estadstica Descriptiva
Problemas Propuestos

1. Identifique las siguientes variables segn su clasificacin, ya sea cuantitativa (discreta o


continua) y cualitativa (nominal u ordinal).
a)

Ficha de productos que elabora una fbrica:


Nombre del producto: ...............................................................................................
Tipo de envase: .................................... ....................................................................
Peso por unidad: ................................... ....................................................................
Tiempo de procesamiento: ................... ....................................................................
Costo por unidad: ................................. ....................................................................
Precio de venta por unidad: ................... ..................................................................

b)

Ficha del personal que entra a trabajar en una empresa:


Nombre y Apellido: .................................... .............................................................
Edad (en aos): .......................................... ...............................................................
Estado Civil: ............................................... ..............................................................
Estudios: ................................................... ................................................................
Seccin en la que ingresa: .......................... ..............................................................
Sueldo bsico: ............................................ ..............................................................
Estatura: ................................................... .................................................................
Peso: .......................................................... ...............................................................

2. El tiempo diario (en horas) de permanencia en la Universidad Nacional Agraria de la Selva


de la ciudad de Tingo Mara de 200 estudiantes matriculados en el semestre acadmico en
estudio.
Identifique:
a. Poblacin, muestra, parmetro, estimador, unidad de anlisis, variable, tipo de variable.
3. En cada uno de los siguientes enunciados identifique la unidad de anlisis, la variable y su

tipo.
a) Desde hace dos aos las compaas gastan en proteccin de la informacin. Estos
gastos incluyen los costos de personal, hardware, software, servicios externos y
seguridad fsica. Se eligieron dos empresas transnacionales y se registraron sus gatos
mensuales, en miles de dlares, correspondientes a la proteccin de la informacin de
los ltimos seis meses.
b) La oficina de gestin de calidad de la UNAS est realizando un estudio para conocer,
segn el criterio de los profesores, que tan importante es la aplicacin de un modelo de
planeamiento de largo plazo en la mejora de la calidad en las instituciones de
educacin superior. De los 200 profesores consultados, el 30% lo consider poco
importante, el 50% importante y el 20% muy importante.
4. Los siguientes datos corresponden a una muestra aleatoria de 20 trabajadores del banco de
crdito del Per segn sus retenciones al sistema privado de pensiones en febrero del 2011.
100 200 150 160 179 130 135 150 155 158
180 190 170 175 120 115 140 139 145 144
Los datos fueron brindados por el departamento de personal de dicha institucin.
70

Estadstica Descriptiva
Se pide:
a. Identificar la unidad de anlisis y la variable en estudio.
b. Construya un cuadro de distribucin de frecuencias en intervalos de clase o
datos agrupados. Utilice la regla de Sturges.
c. Interprete f3, h3%, F3 y H3%.
d. Determinar qu porcentaje de trabajadores tienen una retencin de 140 soles o
ms, pero menos de 180 soles.
e. Determinar cuntos trabajadores tienen una retencin de 160 a 200 soles.
f. Construir un histograma de frecuencias porcentuales y comente.
5. La siguiente tabla muestra la cantidad de clientes que entran en el horario de 14 a 15 horas
en 60 importantes locales de ventas de automviles de cierta ciudad:
0 2 5 0 1 4 1 0 2 1 5 0 1 3 0 0 2 1 3 1
1 4 0 2 4 1 2 4 0 4 3 5 0 1 3 6 4 2 0 2
0 2 3 0 4 2 5 1 1 2 2 1 6 5 0 3 3 0 0 4
a) Determinar la variable a analizar e indicar cul es su tipo.
b) Construir una distribucin de frecuencias absolutas y representarla mediante un
diagrama de lneas.
c) Construir una distribucin de frecuencias relativas y relativas porcentuales e
interpretar el significado de la cuarta frecuencia.
d) Construir una distribucin de frecuencias acumuladas crecientes y
decrecientes, representarlas grficamente e interpretar el significado de la
segunda y quinta frecuencia.
e) Si en el 80% o ms de los locales entran como mximo 4 personas, se decidir
no atender al pblico en ese horario (de 14 a 15 horas) y comenzar a atender a
partir de las 15 horas. En base a los datos, qu decisin se tomar? Justificar.
6. A fin de decidir cuntos mostradores de servicio se necesitarn en tiendas que sern
construidas en el futuro, una cadena de supermercados quiso obtener informacin acerca
del tiempo (en minutos) requerido para atender a los clientes. Se registr la duracin de 60
casos:
3,6 1,9 2,1 0,3 0,8 0,2 1,0 1,4 1,8 1,6 0,6 2,8 2,5 1,1 0,4 1,2 0,4 1,3 0,8 1,3
1,1 1,8 0,3 1,1 0,5 1,2 0,6 1,1 0,8 1,7 1,1 1,2 0,8 1,0 0,9 0,7 3,1 1,7 1,1 2,2
1,4 0,2 1,3 3,1 0,4 2,3 1,8 4,5 0,9 0,7 1,6 1,9 5,2 0,5 1,8 0,3 1,1 0,6 0,7 0,6

a) Cul es la variable a analizar? Es cuantitativa o cualitativa?


b) Elaborar un diagrama de tallos y hojas con esos datos.
c) Organizarlos de la manera que le resulte ms conveniente (de forma simple o
en intervalos) y justificar la organizacin elegida.
d) Construir una distribucin de frecuencias absolutas y relativas.
e) Representar grficamente las frecuencias anteriores mediante un histograma y
un polgono de frecuencias.
f) Construir las frecuencias acumuladas crecientes y decrecientes y graficarlas
mediante una ojiva.
g) Interpretar en cada caso el significado de la cuarta frecuencia.
h) Qu proporcin de los tiempos de servicio es menor a un minuto?
7. Una empresa consultora ha entrevistado un grupo de 50 personas a las cuales les han
preguntado la edad. Se obtuvieron los siguientes datos:
71

Estadstica Descriptiva
23
19
23
26
27

34
31
32
36
26

21
39
40
38
24

41
38
34
21
32

42
41
25
39
37

35
26
28
22
39

32
24
29
33
32

36
27
30
35
24

27
30
22
32
35

20
33
24
28
26

Se ha decidido organizar los datos en intervalos de clase.


a) Construir una distribucin de frecuencias absolutas, porcentuales y
acumuladas.
b) Representar grficamente las frecuencias porcentuales y las acumuladas.
c) Obtener conclusiones.
8. Un ingeniero agrnomo visita 25 cooperativas agrarias de naranjas en la ciudad de Tingo
Mara y en cada uno anot el nmero de plantas atacadas por cierto hongo de la cual
resultaron los siguientes datos:
15 20 25 15 16 18 18 18 16 19 17 17 18
19 18 15 18 17 20 18 19 17 16 17 19
a. Identifique la variable en estudio y el tipo de variable.
b. Construya un cuadro de distribucin de frecuencia adecuada a este conjunto de
datos.
c. Cuntas cooperativas agrarias tiene a lo ms 20 plantas atacadas por hongos?
d. Cuntas cooperativas agrarias tienen por lo menos 17 plantas atacadas por
hongos?
e. Qu proporcin de cooperativas bajo estudio tienen 18 plantas atacadas por
hongos?
f. Qu proporcin de cooperativas tienen 18 o menos plantas atacadas por
hongos?
g. Qu porcentaje de cooperativas tienen 18 o menos plantas atacadas por
hongos?
9. El ministerio de educacin realiz un estudio para determinar los indicadores sobre las
condiciones en las que operan los institutos dedicados a la enseanza de carreras
profesionales en computacin. El estudio se realiz en todo el pas con la seleccin al azar
de 40 de estos institutos. Los directores o promotores de los institutos seleccionados fueron
entrevistados, encontrndose la siguiente informacin:
El nmero promedio de computadoras para la enseanza es 40.
En promedio, el pago mensual por enseanza es de 120 nuevos soles.
El 60% de los institutos utiliza el software pirata.
Utilice esta informacin para identificar: poblacin, muestra, unidad de
anlisis, variables y tipos de variables.
10. El consumo mensual de agua de 150 hogares, se tabularon en una distribucin de
frecuencias simtrica de 6 intervalos, siendo las frecuencias: f2 = 25, F3 = 75, F5 = 130. Si
el lmite inferior del sexto intervalo igual a 60, y si el 75% de los consumos son mayores
de 43.5m3, completar la distribucin de frecuencias.
11. En una investigacin agrcola en Tulumayo- Tingo Mara, en Julio de 2011, se determin
la produccin total (en kilogramos) de un cierto cultivo, el cual fue sembrado en parcelas
experimentales. Los datos se tabularon en una distribucin de frecuencias simtrica de
cinco intervalos de igual amplitud, siendo las frecuencias: f4 f5 = 10, f4 f3 f1 = 0, el
lmite superior en el cuarto intervalo por f4 es igual a 975, el lmite inferior en el primer
intervalo es igual a 12.5 y n = 110.
a. Reconstruir el cuadro de frecuencias.
b. Calcular e interpretar la mediana (Me), moda (Mo).
72

Estadstica Descriptiva
12. Las notas de 50 alumnos de la UNAS Tingo Mara, se clasifican en una tabla de
distribucin de frecuencias con cuatro intervalos de clase de igual amplitud. Sabiendo
adems que: X2 = 50, f1 =4, F2 = 20, f3 = 25, = 62.4.
a. Calcular e interpretar la mediana (Me).
b. Determine la proporcin de estudiantes cuyos puntajes se encuentran por lo menos de
35 puntos pero a lo ms 65 puntos.
13. Sabiendo que la siguiente tabla de frecuencias, es simtrica, completar con los datos,
dados. Si adems se sabe que la mediana es igual a 27.5. Reconstruir la tabla de
frecuencias y calcular la media aritmtica.
[Li
Ls>
Xi
fi
Fi
hi
Hi

0.2
0.65
50
Total

0.95
60

14. En base a la siguiente informacin que corresponde a la visita de cooperativas agrarias en


la ciudad de Tingo Mara en mayo de 2010 y en cada una de ellas se anot el nmero de
rboles atacadas por cierto hongo.
X2 = 550; X5 = 850; h6 = 2/50 = H1; m = 6; h2 = 0.14; H4 = 0.76; h5 = 0.20; H3
h2 = 0.26 y C = constante.
a) Reconstruir la tabla de frecuencias e intrprete los puntos ms importantes.
b) Calcule e interprete la desviacin estndar, mediana y moda.
15. Al agrupar 400 datos en intervalos, la mediana resulta 58.833 y el lmite inferior del
intervalo que la contiene es 50.5. Si el intervalo tiene por encima al 47.5% de los datos y
por debajo al 37.5% de los datos.
a) Qu amplitud tienen los intervalos de la distribucin sabiendo que esta es constante?
b) Cul es lmite superior del intervalo que contiene a la mediana?
16. Los intervalos y las frecuencias absolutas de los salarios quincenales de 45 empleados
desarrollan en el cuadro siguiente:
Frecuencias
Intervalos
de salarios ($) Absolutas Relativas Porcentual
[Li - Ls>
fi
hi
Hi%
[26 - 34>
1
0.022
2.2%
[34 - 42>
2
0.044
4.4%
[42 - 50>
4
0.089
8.9%
[50 - 58>
10
0.222
22.2%
[58 - 66>
16
0.356
35.6%
[66 - 74>
8
0.178
17.8%
[74 - 82]
4
0.089
8.9%
Total:
45
1.000
100.0%
a. Calcule el porcentaje de empleados que tienen salarios entre $52 y $75.
b. Obtenga el salario que divide en dos partes iguales.

73

Estadstica Descriptiva
17. La altura de dimetro de pecho de capirona se organizaron en una distribucin de
frecuencia, cuyos resultados incompletos se dan en la siguiente tabla:
Marca de clase Frecuencia relativa simple Frecuencia relativa
[Li
Ls>
Xi
Hi
acumulada Hi
0.15
6
0.45
0.70
13.5
0.10
Total
18. Los siguientes datos corresponden a la inversin real anual en miles de dlares de un grupo
de pequeas empresas. Completar la siguiente tabla de distribucin de frecuencia.
[ Li Ls >
Xi
fi
Fi
hi
Hi
[20 - 24 >
0.10
[24 - 28 >
0.25
[
- 32 >
11
0.55
[32 >
0.85
[
- 40]
1
Total
a) Identificar la unidad de anlisis y la variable en estudio.
b) Interpretar el f4 y el h4%.
19. En una tabla de distribucin simtrica con siete intervalos de clase de igual longitud, se
conocen los datos siguientes: C =10, f1=8 y X3 *f3=1260; f2 + f5 = 62; h3=0.21, H6 =
0.96.
Reconstruir la tabla de frecuencias y determinar la media geomtrica.
20. En base a la siguiente informacin que corresponden a la inversin real anual en miles de
dlares de un grupo de pequeas empresas. Construir la tabla de distribucin de
frecuencia.
X2=550; X5=850; h6 =2/50 = H1; m=6; h2=0.14; H4 = 0.76; h5=0.20; H3-h2 =0.26 y c =
constante
a) Interpretar el f4 y el h4%.
21. De las edades de cuatro personas, se sabe que la media es igual a 24 aos, la mediana es
23, y la moda es 22. Encuentre las edades de las cuatro personas.
22. La inversin real en miles de dlares anual de un grupo de pequeas empresas en el banco
de Crdito de la ciudad de Tingo Mara fueron:
807 811 620 650 817 732 747
900 753 1050 918 857 867 675
500 872 869 841 847 833 829
766 787 923 792 803 933 947
1056 1076 958 970 776 828 831
La informacin fue obtenida por el Instituto nacional de Estadstica e Informtica
en mayo de 2010.
Se pide:
a) Construir una tabla de distribucin de frecuencias, con intervalos (datos agrupados) y
hacer grfico correspondiente e interpretar.
b) Calcular e interpretar: La media, desviacin estndar, mediana y la moda.
74

Estadstica Descriptiva
TRABAJO PRCTICO: ESTADSTICA DESCRIPTIVA
(trabajo prctico a entregar de manera individual para ser calificado)
Ejercicio 23: (Se recomienda el uso del Software Estadstico Minitab 16 o SPSS 20.0)
Estudio sobre nutricin en el comedor de una Empresa
Fuente: Estadstica bsica en Administracin. Conceptos y Aplicaciones. Sexta Edicin.
Berenson, Mark L., Levine, David M. Prentice Hall Hispanoamericana, S. A. Pginas 166 168.
La vicepresidenta de los servicios al personal obrero de una empresa en las afueras
de la ciudad, sostuvo una reunin con la recin nombrada directora de los servicios de
comida, y con la profesora de nutricin, sobre una serie de quejas de los empleados
relacionadas con el men ofrecido en la cafetera de la empresa. Puesto que los obreros
transcurran la mayor parte del da dentro de la empresa, se vean obligados a comprar el
men que all se serva y que no siempre ofreca una comida barata, rpida y saludable.
Cuando la vicepresidenta pidi una respuesta sobre estos comentarios, la directora
de los servicios de comida asever que slo llevaba 3 semanas en la empresa y que haba
seguido preferentemente el men establecido por su predecesor, al mismo tiempo que
experimentaba con una seleccin de comida gastronmica cada da. Estableci, adems,
que a partir del llamado de atencin respecto a estas inquietudes, seguira otra pauta.
Considerando el hecho de que la empresa est situada en un rea rural y que, en particular,
se requiere el almacenamiento de productos alimenticios enlatados para los meses de
invierno en que las provisiones de la ciudad ms cercana pueden retrasarse, estudiara el
contenido nutricional de la sopa enlatada porque podra disponerse fcilmente de este
artculo en todos los almuerzos, e incluso podra proporcionar los nutrientes de la comida
saludable, barata y rpida que se solicita.
La profesora de nutricin estuvo de acuerdo en que tal estudio sera de utilidad y
proporcionara la informacin necesaria para tomar una decisin respecto a la
instrumentacin.
Los datos obtenidos fueron los siguientes:
MARC PRODUCT
CALORA
CALORAS SODI
TIPO COSTO
GRASA
A
O
S
DE GRASA
O
1
CN
CC
0,35
60
2
30
880
2
CN
CR
0,66
75
2
24
730
3
CN
CC
0,18
60
2
30
870
4
CN
DI
0,33
170
8
42
970
5
CN
CR
0,77
80
2
23
460
6
CN
DC
0,21
80
2
23
700
7
CN
DC
0,09
190
8
38
970
8
CN
DC
0,11
200
9
41
960
9
CN
DC
0,26
100
2
18
700
10
CN
CC
0,17
60
2
30
840
11
CN
CC
0,19
60
2
30
840
12
CN
DC
0,09
190
9
43
780
13
CN
CC
0,19
60
2
30
840
14
CN
CR
0,76
60
1
15
790
15
CN
DC
0,54
110
2
16
800
16
CN
CR
0,74
105
3
26
860
17
CN
CR
0,96
110
4
33
800
75

Estadstica Descriptiva
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47

CN
CN
CN
CN
CN
CN
CN
CN
V
V
V
V
V
V
V
V
V
V
V
V
V
T
T
T
T
T
T
T
T
T

DC
DI
DI
CR
CR
CR
CR
CR
CR
CR
CR
CR
CR
CR
CR
CC
CR
CC
CR
CR
CR
CC
CC
CC
CC
CC
CC
CC
CR
CC

0,12
0,48
0,36
0,74
0,70
0,97
0,80
0,78
0,53
0,83
0,73
0,51
0,46
0,44
0,73
0,34
0,53
0,23
0,92
0,55
0,94
0,15
0,20
0,13
0,14
0,16
0,15
0,18
0,87
0,28

70
105
65
120
80
80
125
95
125
110
120
105
75
75
140
60
110
90
55
90
90
90
90
100
100
80
100
100
75
90

2
3
1
4
2
1
4
2
3
2
3
1
2
1
3
2
1
2
1
1
1
2
2
1
1
0
1
1
1
0

26
26
14
30
23
11
29
19
22
16
23
9
24
12
19
30
8
20
6
10
10
20
20
9
9
0
9
9
12
0

900
1190
890
810
470
180
65
580
670
680
800
600
940
680
540
880
640
830
280
480
160
670
410
710
630
700
630
710
300
740

Donde:
Producto: CN = Pollo. - V = Vegetales. - T = Tomate.
Tipo: CC = enlatada / condensada. - CR = enlatada / lista para servirse.
DC = deshidratada / cocinada. - DI = deshidratada / instantnea.
Costo en centavos.
Caloras por racin de 8 onzas.
Grasa en gramos por racin de 8 onzas.
Caloras de grasa como porcentaje de grasa por racin de 8 onzas.
Nivel de sodio en miligramos por racin de 8 onzas.
Se pide:
1.- En base a los datos de la tabla, indicar cules fueron las variables relevadas. Para cada
una de ellas indicar si es cualitativa o cuantitativa y especificar las categoras o valores.
2.- Realizar una tabla de distribucin de frecuencias (absolutas, relativas y porcentuales)
para las variables Producto y Tipo. Representar grficamente las frecuencias porcentuales
y obtener conclusiones.

76

Estadstica Descriptiva
3.- Realizar una tabla de distribucin de frecuencias (absolutas, relativas y acumuladas)
para las variables Costo y Sodio - en cada caso, decidir si es conveniente organizar los
datos de forma simple o en intervalos.
4.- Construir todos los grficos posibles para las distribuciones del tem anterior.
5.- Realizar un anlisis exploratorio para Caloras. Qu puede decirse de la distribucin?
Se observan outliers?
24. Acontinuacin se muestra una tabla con los datos acerca de la distribucin de
exportaciones e importaciones de diferentes pases (en millones de euros).
Pas
Exportaciones
Importaciones
EEUU
512
690
Alemania
425
380
Japn
390
275
Francia
235
230
Reino Unido
205
220
Italia
190
170
Canad
160
150
Holanda
155
140
Hong Kong
150
165
Blgica-Luxem
140
130
China
120
115
Singapur
95
100
Corea Sur
95
105
Taiwn
90
85
Espaa
75
90
a) Cules son las variables que intervienen en este anlisis? Cul es el tipo de las
mismas?
b) Realizar un diagrama de dispersin considerando las exportaciones como variable
dependiente. Puede observarse algn tipo de relacin entre ambas variables? En tal
caso, qu tipo de relacin se observa?
Ejercicio 25:
Objetivos:
1. Identificar la naturaleza de las variables contenidas en una base de datos.
2. Elaborar cuadros de resumen sobre la informacin de una base de datos.
3. Analizar la informacin de un cuadro de informacin.
Con el fin de evaluar las caractersticas de las unidades agropecuarias (UA) de un valle
donde existen 2000 unidades agropecuarias, se entrevist a una muestra aleatoria de 20
unidades solicitndoles la informacin siguiente:
Unidad

1
2
3
4
5

Zona

Norte
Norte
Norte
Norte
Norte

Edad del
productor

25
27
29
35
36

N parcelas
de la UA

1
1
1
1
2

N de cultivos
de la UA

De 1 a 2
De 1 a 2
De 1 a 2
De 1 a 2
De 5 a 6

rea de la
UA (has)

2.01
2.51
3.88
4.01
4.17

Nivel tecnolgico
de la UA

Baja
Baja
Baja
Baja
Baja
77

Estadstica Descriptiva
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Norte
Norte
Norte
Norte
Norte
Este
Este
Este
Este
Este
Sur
Sur
Oeste
Oeste
Oeste

39
38
45
56
68
25
24
30
35
38
25
30
32
40
45

2
2
2
2
3
2
2
2
2
2
3
3
3
3
3

De 5 a 6
De 5 a 6
De 5 a 6
De 5 a 6
De 5 a 6
De 1 a 2
De 1 a 2
De 7 a 8
De 7 a 8
De 7 a 8
De 7 a 8
De 5 a 6
De 7 a 8
De 7 a 8
De 7 a 8

4.84
4.59
4.84
5.18
6.7
2.8
3.05
7.49
6.79
6.95
7.5
5.8
8.75
9.48
7.8

Media
Media
Media
Media
Media
Baja
Baja
Media
Alta
Alta
Alta
Media
Alta
Alta
Alta

1. Cul es la unidad de anlisis, la poblacin y la muestra en la investigacin?


2. Cul es la naturaleza y tipo de las variables investigadas?
3. Elabore un cuadro que muestre al nmero de unidades agropecuarias segn zona, por
el nivel tecnolgico de las unidades entrevistadas.
4. Elabore un cuadro que muestre al nmero de unidades agropecuarias segn zona de
ubicacin de las unidades entrevistadas.
5. Construya una tabla de frecuencias y el histograma respectivo para describir el nmero
de parcelas de las unidades entrevistadas.
6. Construya una tabla de frecuencias utilizando 4 intervalos de clase para describir el
rea de las unidades agropecuarias entrevistadas.
7. Utilizando la tabla de frecuencia construida en la pregunta 6 estime el porcentaje de
unidades que tienen reas entre 6 y menos de 8 hectreas.
8. Encuentre la mediana del rea de las unidades entrevistadas.
9. Encuentre las medidas estadsticas descriptivas sobre el rea de las unidades
agropecuarias entrevistadas.
Ejercicio 26: Para conocer el universo de beneficiarios de los proyectos de desarrollo
rural realizados en el valle Cauday durante el ao 2012, usted recibe el cuadro siguiente:
Cuadro N 01
Nmero de hogares beneficiarios de los proyectos de desarrollo segn finalidad del
proyecto por sexo del jefe del hogar beneficiario
Sexo del jefe del hogar
Numero de
Finalidad del
agricultores
Proyecto de
Masculino
Femenino
desarrollo
Numero
%
Numero
%
Numero
%
Agrcola
6000
50.0
3000
47.6
3000
52.6
Pecuaria
3000
25.0
2000
31.8
1000
17.6
Vivienda
1200
10.0
700
11.1
500
8.8
Educacin
1800
15.0
600
9.5
1200
21.0
Total
12000
100.0 6300
100.0 5700
100.0
Notas:
(1) Incluye a hogares con proyectos en ejecucin

78

Estadstica Descriptiva
Cul es su opinin sobre la conformidad o no de cada componente del cuadro
Componente del cuadro
1. Nmero de cuadro
2. Ttulo
3. Encabezamiento
4. Cuerpo del cuadro
5. Notas de pie
6. Fuente
7. Responsable
8. Fecha

Opinin

Ejercicio 27. Para cada uno de los escenarios referidos a una encuesta de evaluacin sobre
el universo de proyectos realizados en el valle, entre una investigacin cuantitativa
cualitativa, elija la investigacin con que est ms relacionado
Escenario
Cuantitativa
1. Se requieren verificar 20 hiptesis sobre los cambios
ocurridos en la produccin de maz
2. Se requiere describir al sistema de produccin de y la
cadena productiva del maz
3. Se dispone de un cuestionario estructurado de
50 preguntas para la encuesta
4. Se requiere conocer en qu oportunidades y bajo qu
condiciones los hogares precisan de recurrir a
prstamos informales en la zona
5. Se debe evaluar los cambios registrados en la
produccin de maz
6. Se deben lograr mediciones objetivas sobre los
rendimientos obtenidos con el maz
7. Se requieren conocer todos los problemas que se
ocasionarn al prohibir el cultivo de tomate en el
valle

Cualitativa

Ejercicio 28. Si el nmero de agricultores entrevistados en la encuesta de evaluacin


realizada segn la superficie de su finca es:
Superficie (Has) Nmero fi
Fi
hi
Hi
Xi
Xi*fi
De 2 a menos de 4
50
De 4 a menos de 6
70
De 6 a menos de 8
60
De 8 a 10
20
Total
200
1. A partir de qu superficie de finca se encuentra el 25% de los
entrevistados que tienen fincas con las superficies menores?
2. A partir de qu superficie de finca se encuentra el 25% de los
entrevistados que tienen fincas con las superficies mayores?
3. A partir de qu superficie de finca se encuentra la mitad de los
agricultores con las fincas de mayor superficie?
4. Cul es la superficie promedio de las fincas en los agricultores
entrevistados?
79

Estadstica Descriptiva
CASO 1
Caso: Banco Pacfico.
Banco Pacfico es una entidad financiera que ha ingresado con fuerza al sistema financiero
peruano. Debido a su rpido crecimiento el Gerente de Operaciones desea hacer un estudio
descriptivo e Inferencial entre los clientes que cuentan con tarjeta de crdito. Para cumplir
con su objetivo se seleccionaron al azar muestras aleatorias e independientes de tres tipos
de clientes segn el tipo de tarjeta de crdito otorgada. Las variables de inters analizadas
fueron las siguientes:
Tipo de Tarjeta de Crdito: Clsica, Platino y Dorada.
Gnero del cliente: Masculino, Femenino.
Monto de crdito adeudado (en miles de soles) en enero del 2009.
Monto de crdito adeudado (en miles de soles) en mayo del 2009.
Nmero de retiros por cajero el da del cierre de cobro del mes de mayo.
Nmero de pagos en establecimientos comerciales el da del cierre de cobro
del mes de mayo.
Categora del cliente: A1 y A2.
Edad del cliente (en aos)
Ingreso mensual del cliente (en soles)
Nmero de hijos
Principal uso de crdito: vivienda, auto, otros.

80

Estadstica Descriptiva
Formulario:
Medidas de tendencia central muestral:
Para datos sin agrupar:
Promedio aritmtico o media.

Para datos agrupados:


Promedio aritmtico o media.

Xi

i 1

Mediana (Me).
Es el valor central de un conjunto de
datos ordenados de menor a mayor.
La ubicacin de la mediana de n datos
ordenados en forma ascendente, se
determina por: (n)/2
Moda (Mo).
Es valor ms frecuente en el conjunto
de datos.

Media armnica ( X h ):
n
Xh
1 1
1
....
x1 x2
xn
Media geomtrica ( X G ):
de n
La media geomtrica simple
observaciones X1, X2, X3,..,Xn positivos,
est dado por la raz ensima del
producto de los n valores observados. El
promedio geomtrico de los valores: (X1,
X2, X3,..,Xn) es :
X G n x1 x2 .... xn

Xi fi
i 1

Mediana (Me).
n

Fi 1
2
C
Me Li
fi
Moda (Mo).
d1
Mo Li
C
d1 d 2
donde :
d1 fi f i 1

d 2 fi f i 1
Media armnica ( X h ):
n
n
Xh
m
f
f1 f 2
.... m f i

x1 x2
xm
i 1 xi

Media geomtrica ( X G ):
X G n x1 1 x2 2 .... xm m
f


= [ =1
]

Donde:
n = tamao de muestra.
Xi = marca de clase.
fi = frecuencia absoluta simple.
m = nmero de intervalos.

81

Estadstica Descriptiva
Medidas de variabilidad o de dispersin muestral:
Para datos sin agrupar:

Para datos agrupados:

Varianza ( S 2 ).

Varianza ( S 2 ).

X
n

S2

i 1

X
n

S2

i 1

n 1
Desviacin estndar (S):

n 1
Desviacin estndar (S):

S S2

S S2

Coeficiente de variacin porcentual


(CV%):

CV %

X fi
2

Coeficiente de variacin porcentual


(CV%):

S
*100
X

CV %

S
*100
X

Distribuciones bidimensionales
Supongamos que en una poblacin, y para un conjunto de n individuos, se miden dos
caracteres X e Y:

( x1 , y1 ), ( x2 , y2 ),. . ., ( xn , yn )
En este caso tenemos una variable estadstica bidimensional o distribucin bidimensional
de frecuencias, la cual representaremos por (X, Y). Cuando se cuenta con una gran
cantidad de datos, un modo de presentar la distribucin bidimensional es a travs de una
tabla de doble entrada de la forma:
Tabla de doble entrada
X/Y

y1

y2

. . . yj

...

yk

Total

x1

n11

n12

. . . n1 j

...

n1k

n1

x2
.
.
.
xi
.
.
.
xl
Total

n21

n22

. . . n2 j

...

n2k

.
.
.

.
.
.

n2
.
.
.
ni
.
.
.
nl
n

ni 1

ni 2

.
.
.
. . . nij

.
.
.
...

.
.
.

nik

.
.
.

.
.
.

.
.
.

nl 1

nl 2

. . . nlj

...

nlk

n1

n2

. . . n j

...

n k

Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de
una dimensin. En el caso de que las dos variables sean atributos, la tabla anterior recibe el
nombre de tabla de contingencia.
La representacin grfica ms utilizada en el caso bidimensional es la nube de puntos o
diagrama de dispersin. Consiste en representar cada pareja de datos como un punto sobre
unos ejes cartesianos.
82

Estadstica Descriptiva

Distribuciones marginales y condicionales.


Dada una variable estadstica bidimensional, las distribuciones marginales permiten
estudiar de un modo aislado cada una de las componentes. A partir de una tabla de doble
entrada, las distribuciones de frecuencias marginales se obtienen sumando las frecuencias
de la tabla por filas y por columnas.
Distribuciones marginales de X e Y.
X
Y n j
ni
x1

n1

x2
.
.
.
xl

n2
.
.
.

y1
y2
.
.
.

yk

n1
n2
.
.
.
n k

nl
Las distribuciones condicionadas permiten estudiar el comportamiento de una de las
variables cuando la otra permanece constante. Vienen dadas por:

X/Y= y j

Distribuciones condicionadas de X e Y.
ni / j
n j /i
Y/X= xi

x1

n1 j

x2
.
.
.

n2 j

xl

.
.
.
nlj

y1
y2
.
.
.
yk

ni1

ni 2
.
.
.
nik

Ejemplo:
Se desea investigar el ganado caprino (cabras) y el ganado ovino (ovejas) de un pas. En la
tabla de doble entrada adjunta se presentan los resultados de un estudio de 100
explotaciones ganaderas, seleccionadas aleatoriamente del censo agropecuario. Se
proporcionan las frecuencias conjuntas del nmero de cabezas (en miles) de cabras (X) y
ovejas (Y) que poseen las explotaciones.
X\Y
0
1
2
3
4
0
4
6
9
4
1
1
5
10
7
4
2
2
7
8
5
3
1
3
5
5
3
2
1
4
2
3
2
1
0
a) Hallar las medias, varianzas y desviaciones tpicas marginales.
b) Hallar el nmero medio de cabras condicionado a que en la explotacin hay 2,000
ovejas.
c) Hallar el nmero medio de ovejas que tienen aquellas explotaciones que sabemos que
no tienen cabras.
Solucin:
Primero completar la tabla anterior con las distribuciones de frecuencias de X e Y.
83

Estadstica Descriptiva
X\Y

0
1
2
3
4
n j

4
5
7
5
2
23

6
10
8
5
3
32

9
7
5
3
2
26

4
4
3
2
1
14

1
2
1
1
0
5

ni
24
28
24
16
8
100

a) La media de X es:

0*24 1*28 2*24 3*16 4*8


= 156/100= 1.56
100

La varianza de X es:
S

2
X

(0 1.56)2 *24 (1 1.56)2 *28 (2 1.56)2 *24 (3 1.56)2 *16 (4 1.56)2 *8


= 1.5264

100

La desviacin tpica (Estndar) es la raz cuadrada positiva de la varianza, es decir:

S X S X 2 =1.2355
Observe que la media muestral es un buen representante de los datos, ya que la desviacin
estndar no es demasiado alta.
Para completar el literal a) debe obtenerse la media, varianza y desviacin estndar para la
variable Y.
b) El nmero medio de ovejas condicionado a que en la explotacin hay 2,000 cabras, se
obtiene manteniendo fija la columna donde la variable Y es igual a 2. Esto es:

3*3 4*2
= 1.3077
X / Y 2 0*9 1*7 2*5
26
c) De forma anloga al literal b) (la media de Y es 1.46)
Ejemplo. Dada la siguiente distribucin de frecuencias conjunta:

Xi
1
1
2
3
3
4
4
4

Yi
2
6
2
2
4
2
4
6

nij

1
1
2
1
1
1
2
1

Construir una tabla de correlacin (doble entrada) y obtener:


Distribuciones marginales de X e Y.
Distribucin de Y condicionado a X=3
Covarianza

84

Estadstica Descriptiva
Solucin.
La tabla de correlacin pedida y sus distribuciones marginales estn dadas en la siguiente
tabla:
Y/X 1
2
3
4
n. j
La distribucin de Y/X=3
2
1
2
1
1
5
Y/X=3 2
4
6
4
0
0
1
2
3
1
1
0
n j / i 3
6
1
0
0
1
2
2

ni.

10=N

Hay que introducir el concepto de covarianza:


Cuando se observa el comportamiento conjunto de dos variables, el objetivo principal es
determinar si existe o no algn tipo de variacin conjunta o covariacin entre ellas. La
covarianza, ayuda a cuantificar la covariacin entre dos variables; as:

Si la Cov(X,Y)>0, existe una tendencia a que mayores observaciones de una de las


variables se correspondan con mayores observaciones de la otra variable.

Si Cov(X,Y)<0, existir una tendencia a que mayores observaciones de una


variable se correspondan con menores observaciones de la otra variable.

Si Cov(X,Y)=0, no se puede concluir que no exista relacin entra ambas variables.


Pero se puede decir que no existe relacin lineal entre las variables.

Matemticamente la covarianza se define como:

Cov( X , Y ) S XY

x
l

i 1

Y nij

85