Guia Del Curso Estadistica PDF

Estadstica
Profesores:
Lic. Jessica Oliva Gastulo

Lic. Rolando Romero Paredes
Chiclayo, Agosto 2012

P g i n a |2
INTRODUCCIN A LA ESTADISTICA
ETIMOLOGA DE LA PALABRA ESTADSTICA
La nocin de estadstica procedi primitivamente del vocablo estado, porque ha sido ocupacin
tradicional de todos los gobiernos de la civilizacin llevar registros de las poblaciones que dominaban o
gobernaban, entre eso registros se pueden mencionar: los nacimientos, las defunciones, los censos
poblacionales, cosechas, impuestos y muchas otras clases de cosas y actividades que eran y son de
importancia para un gobernante. Contar y medir estos hechos generan muchas clases de datos
numricos. Esta se ha convertido en un instrumento cotidiano de todos los tipos de profesionales que
se ponen en contacto con datos cuantitativos o extraen conclusiones de ellos. Tales tcnicos requieren
con urgencia familiarizarse con los principios bsicos de los mtodos estadsticos para poder evaluar los
informes numricos y otro gran cmulo de informacin para as evitar malos usos comunes de la
estadstica como lo es la generalizacin e inferencia que es bsica en el razonamiento estadstico. Los
estudiantes de diversas reas del conocimiento deberan tener un conocimiento prctico de los mtodos
estadsticos.
Son heterogneos los vocablos que se citan como antecedentes del trmino estadstica. Sin intentar
ser exhaustivos, pero si indagando para describir los de mayor mencin, se pueden nombrar los
siguientes:
STATUS (latn), que significa situacin, posicin, estado.
STATERA (griego), que quiere decir balanza, ya que la estadstica mide o pesa hechos.
STAAT (alemn), que se refiere a estado como expresin de unidad poltica superior.
DEFINICIN: La estadstica es una ciencia o mtodo cientfico que en la actualidad es considerada

como un poderoso auxiliar en las investigaciones cientficas, que le permite a sta aprovechar el
material cuantitativo. No existen ciencias cuyos fenmenos no puedan ser tratados estadsticamente;
por tal razn, la estadstica la denominan algunos investigadores (Rivas Gonzlez) como el lenguaje
cientfico. La misma es indispensable en la formacin de cualquier profesional universitario o tcnico
medio, ya que, por medio de esta se pueden realizar diagnsticos de cualquiera investigacin que se
desee realizar. Esta es indispensable para realizar cualquier trabajo de investigacin que requiera una
recoleccin de informacin. Ella permite resumir los resultados de una investigacin en una forma
significativa y cmoda. La misma permite deducir conclusiones generales y as afirmar hasta donde se
puede ampliar una generalizacin de una investigacin determinada. De la misma forma permite
predecir que suceder algo tomando en cuenta ciertas condiciones que se han analizado con datos
anteriores.
En las ciencias sociales, administrativas, polticas, medicas, en educacin y en otras ciencias permite
analizar algunos de los factores casuales en sucesos complejos y que de alguna manera confundiran a
un investigador determinado. De acuerdo a lo antes planteado los mtodos estadsticos son por lo tanto
los compaeros constantes de los que realizan investigacin. La estadstica y su aplicacin, ha
avanzado de tal forma en los ltimos aos, que hoy da se ha hecho imprescindible en todas las
investigaciones cientficas sea cual fuere el carcter de esta ultima.
Estadstica J. Oliva R. Romero

P g i n a |3
RAMAS DE LA ESTADSTICA
ESTADSTICA DESCRIPTIVA: Describe, analiza y representa un grupo de datos utilizando mtodos
numricos y grficos que resumen y presentan la informacin contenida en ellos. Se puede definirse
como aquel mtodo que contiene la recoleccin, organizacin, presentacin y resumen de una serie de
datos. El mencionado resumen puede ser tabular, grfico o numrico. El anlisis que se realiza se limita
en s mismo a los datos recolectados y no se puede realiza inferencia alguna o generalizaciones alguna,
acerca de la poblacin de donde provienen esos datos estadsticos.
Una de las ramas de la Estadstica ms accesible a la mayora de la poblacin es la Descriptiva. Esta

se dedica nica y exclusivamente al ordenamiento y tratamiento mecnico de la informacin para su
presentacin por medio de tablas y de representaciones grficas, as como de la obtencin de algunos
parmetros tiles para la explicacin de la informacin.
La Estadstica Descriptiva es la parte de la estadstica que conocemos desde los cursos de educacin
secundaria, que se ensea en los siguientes niveles y que, por lo general, no pasa a ser un anlisis ms
profundo de la informacin. Es un primer acercamiento a la informacin y, por esa misma razn, es la
manera de presentar la informacin ante cualquier lector, ya sea especialista o no. Sin embargo, lo
anterior no quiere decir que carezca de metodologa o algo similar, sino que, al contrario, por ser un
medio accesible a la mayora de la poblacin humana, resulta de suma importancia considerar para as
evitar malentendidos, tergiversaciones o errores.
La estadstica descriptiva analiza, estudia y describe a la totalidad de los individuos de una poblacin,
su finalidad es obtener informacin, analizarla, elaborarla y simplificarla lo necesario para que pueda ser
interpretada cmoda y rpidamente y, por tanto, pueda utilizarse eficazmente para el fin que se desee.
El proceso que sigue la estadstica descriptiva para el estudio de una cierta poblacin consta de los
siguientes pasos:
Seleccin de caracteres dignos de ser estudiados.
Mediante encuesta o medicin, obtencin del valor de cada individuo en los caracteres
seleccionados.
Elaboracin de tablas de frecuencias, mediante la adecuada clasificacin de los individuos dentro

de cada carcter.
Representacin grfica de los resultados (elaboracin de grficos estadsticos).
Obtencin de parmetros estadsticos, nmeros que sintetizan los aspectos ms relevantes de una
distribucin estadstica.
Por ejemplo: si un investigador aplica un test de aptitud a un grupo de graduados de un instituto superior
recientemente contratados por una empresa; entre lo que puede hacer con las puntuaciones que
resultan del test valindose de la estadstica descriptiva, estn los aspectos siguientes: arreglar las
puntuaciones o clasificarlas de manera que con solo dar un vistazo a los datos se pueda obtener una
imagen general de los mismos, construir tablas, grficas y cuadros estadsticos para visualizar el
comportamiento de los datos o bien convertir las puntuaciones brutas en rangos o en percentiles para
realizar comparaciones, etc.
ESTADSTICA INFERENCIAL: Es aquella rama de la estadstica que apoyndose en el clculo de

probabilidades y a partir de datos mustrales, efecta estimaciones, decisiones, predicciones u otras
generalizaciones sobre un conjunto mayor de datos. Puede definirse como aquella rama de la

P g i n a |4
estadstica que hace posible la estimacin de una caracterstica de una poblacin o la toma de una
decisin referente a una poblacin, fundamentndose slo en los resultados de la muestra.
La estadstica Inferencial, por otro lado, se refiere a la rama de la estadstica que trata de los procesos
inferenciales, la que a su vez vislumbra la teora de estimacin y prueba de hiptesis. Uno de los
primordiales aspectos de la inferencia estadstica es el proceso que radica en utilizar estadsticos
mustrales para adquirir conclusiones sobre los verdaderos parmetros de la poblacin.
Los requerimientos de los mtodos de la inferencia estadstica se originan de la necesidad del

muestreo. Al tornarse muy grande una poblacin, comnmente resulta demasiado costoso, prolongado
en el tiempo y complicado obtener informacin de la poblacin completa. Las decisiones con respecto a
las caractersticas de la poblacin se deben basar en la informacin contenida en una muestra de esa
poblacin. La teora de la probabilidad suministra l vnculo, determinando la probabilidad de que los
resultados provenientes de la muestra reflejen los resultados que se obtendran de la poblacin.
Se pueden observar con albor estas ideas en el ejemplo de una encuesta poltica. Si el encuestador
desea estimar el porcentaje de votos que un candidato obtendr en una eleccin especfica, no
entrevistara a cada uno de los millares (o inclusive millones) de votantes. Ms bien, seleccionara una
muestra de los votantes. Tomando como base el resultado de la muestra, obtendra conclusiones
acerca de la poblacin total de votantes. A estas conclusiones se les asociara un planteamiento de
probabilidad que especfica la esperanza o la confianza que se tiene de que los resultados de la
muestra reflejen la verdadera conducta de los votantes de toda la poblacin.
La fidelidad de cualquier estimacin tiene una importancia enorme. Esta precisin depende en gran
parte de la forma de tomar la muestra y de la atencin que se ponga en que esta muestra suministre
una imagen fiable de la poblacin, pero casi nunca la muestra representa la poblacin en toda su
plenitud, y de ello resultar un error muestral.
La estadstica inferencial complementa a la descriptiva y a travs de ella se puede inferir el

comportamiento de un grupo grande (poblacin) a partir del estudio de una pequea parte de esa
(muestra). La estadstica inferencial nos permite, entre otras cosas, analizar el comportamiento de los
mercados a partir de las tendencias de la oferta y de la demanda, y permite tambin visualizar el futuro
comportamiento de una empresa, permitiendo el anlisis de la eficiencia de las empresas. Tambin se
entiende por estadstica inferencial aquella que trata de los procesos inferenciales, la que a su vez
comprende la teora de estimacin y prueba de hiptesis. Esta, tambin provee conclusiones o
inferencia, en base a los datos simplificados y analizados; detectando las interrelaciones que puedan
unirlos, las leyes que los rigen y eliminando las influencias al azar; llegando ms all de las
verificaciones fsicas posibles. Basndose, en la muestra estudiada saca conclusiones, o sea, hace
inferencia o induccin, en cuanto al universo o poblacin, de donde se obtuvo dicha muestra. Para su
estudio son necesarios conocimientos ms profundos de la teora de probabilidades y anlisis
matemticos, ya que parte de los conocimientos resultantes en el proceso descriptivos, para deducir
nuevos hechos o relaciones del conjunto observado con otros conjuntos. Un ejemplo, en el cual se
aplica la estadstica inferencial es en la prediccin de los resultados de unas elecciones antes de que
haya concluido el recuento de votos.

P g i n a |5
LA ESTADSTICA EN NUESTROS DAS

Hoy en da, la estadstica se ha convertido en un mtodo efectivo para describir con exactitud los
valores de datos econmicos, polticos, sociales, psicolgicos, biolgicos o fsicos, y sirve como
herramienta para relacionar y analizar dichos datos. El trabajo del experto estadstico no consiste ya
slo en reunir y tabular los datos, sino sobre todo en el proceso de interpretacin de esa informacin.
El desarrollo de la teora de la probabilidad ha aumentado el alcance de las aplicaciones de la
estadstica. La Probabilidad, es una rama de las matemticas que se ocupa de medir o determinar
cuantitativamente la posibilidad de que ocurra un determinado suceso. La probabilidad est basada en
el estudio de la combinatoria y es fundamento necesario de la estadstica. Numerosas colecciones de
datos se pueden aproximar con gran exactitud, utilizando determinadas distribuciones probabilsticas;
los resultados de stas se pueden utilizar para analizar datos estadsticos. La probabilidad es til para
comprobar la fiabilidad de las inferencias estadsticas y para predecir el tipo y la cantidad de datos
necesarios en un determinado estudio estadstico. En la actualidad la estadstica ha alcanzado tal grado
de perfeccionamiento y especializacin, que podra decirse, que no existe disciplina cientfica en la cual
no se apliquen los mtodos estadsticos como herramienta indispensable para iniciar cualquiera
investigacin de envergadura.
Todo lo que hasta apartadamente tiene que ver con la recoleccin, procesamiento, anlisis e
interpretacin de datos numricos pertenece al dominio de la estadstica, comprende, por ejemplo, el
clculo del aumento, en promedio, de las utilidades de una importante compaa de ventas de artculos
por Internet los ltimos tres aos; la recoleccin y presentacin anual de la deuda a corto plazo de tres
compaas de electricidad, as como un porcentaje de su deuda a largo plazo; la evaluacin de la
eficacia de dos diferentes programas de computacin, destinado reducir el nmero de accidentes
personales en una empresa, el tiempo perdido en trabajo de alto riesgo; y el anlisis de las variaciones
que ocurren de cuando en cuando en serie de datos econmicos, ventas al menudeo, precios al
consumidor y al mayoristas, y distribucin de dinero, precios de productos comunes, productividad del
sector agrcola, etctera.
La palabra estadstica, por s sola se utiliza en varias formas. En un contexto, significa un conjunto de
datos como los que se pueden encontrar en las pginas financieras de los diarios o en los compendios
estadsticos. Pero, en otro mbito, se refiere a la totalidad de los mtodos que se aplican en la
recoleccin, organizacin, presentacin, anlisis e interpretacin de cualquier tipo de datos. En este
ltimo sentido, la estadstica es una rama de las matemticas aplicadas, y es este campo de las
matemticas el que constituye el tema central de este curso.
Una de las manifestaciones ms comentado en los ltimos aos del pasado siglo y del presente milenio,
ha sido el desarrollo de mtodos y conceptos estadsticos. Durante muchos aos, a la estadstica le
concernan principalmente la recoleccin de datos y su presentacin en tablas y grfica; hoy da ha
evolucionado hasta el punto en que su impacto se percibe en casi todas las reas de trabajo del ser
humano. Esto es debido a que la estadstica posmoderna est relacionada directamente con el
problema de la toma decisiones en condiciones de incertidumbre. Sin necesidad de entrar en detalles,
existen elementos de incertidumbre en casi todo lo que el ser humano realiza actualmente.
La caracterstica ms trascendental del reciente avance de la estadstica ha sido el cambio de los

mtodos meramente descriptivo por otros que sirven para hacer generalizaciones o, dicho lo otra
manera, un cambio de la estadstica descriptiva a la deductiva o inferencia estadstica. Por estadstica
descriptiva se entiende a cualquier tratamiento de datos que este diseado para ser resumido o
describir algunas de sus propiedades ms importantes sin intentar deducir nada que escape al alcance
de los datos. Por ejemplo, si un gobierno informa, con base a un censo, que la poblacin del pas fue
de 27 millones de habitantes, esto pertenece al campo de estadstica descriptiva. Este sera tambin el

P g i n a |6
caso si calculamos el crecimiento % correspondiente de una dcada a la siguiente. Sin embargo; ste
no sera el caso si empleramos tales datos para percibir la poblacin del pas en tres aos ms o el
crecimiento porcentual en una dcada.
La estadstica descriptiva es una rama importante de la estadstica y se siguen empleando ampliamente

en el rea comercial y en otras reas de la actividad administrativa. Sin embargo, en la mayor parte de
los casos, la informacin estadstica surge de muestras, de observaciones realizadas slo en algunos
elementos de un conjunto grande, o de la observacin de acontecimientos pasados. El tiempo, el costo
o la imposibilidad de hacer lo contrario suele requerir un procedimiento de este tipo, aunque nuestro
inters real yace en todo el conjunto de elementos de los cuales provino la muestra y los
acontecimientos futuros, no en el pasado. Las generalizaciones de cualquier tipo escapan al contenido
de la estadstica descriptiva; se nos induce al uso de la diferencia estadstica para resolver muchos
problemas de operaciones cotidianas y para la elaboracin de planes a corto y largo plazo. Por Ejemplo
los mtodos de la inferencia estadstica son necesarios para decidir si un lote grande de acumuladores
de nueve voltios para equipos de sonido cumplen en promedio con la vida til garantizada por el
fabricante; para determinar la dosis mnima eficaz y la mxima seguridad de un nuevo medicamento
anti-inflamatorio en el tratamiento de inflamaciones locales dolorosa, o bien para estimar la demanda de
nuevas cauchos para vehculos rsticos en la poca de lluvia.
No obstante, siempre que se haga una inferencia estadstica (una generalizacin que escape a los
lmites de nuestras observaciones) se debe proceder con mucha precaucin. De hecho, hay que
considerar concienzudamente si resulta posible hacer algunas generalizaciones vlidas del todo y, si lo
es, hasta donde se puede generalizar. Sin embargo, algunas veces aunque se actu cautelosamente al
generalizar, se puede errar por completo en las generalizaciones y encontrarse con algunas dificultades.
En realidad, uno de los problemas bsicos de la inferencia estadstica es el de la apreciacin de los

riesgos que representa hacer generalizaciones equivocadas y quizs hacer algo incorrecto, tomando
como base los datos analizados de una muestra. El hecho de que aqu se solicite que se preste
atencin a los errores estadsticos puede parecer una manera negativa de dar comienzo a un estudio
pero, en realidad, la constante advertencia de que existe la posibilidad de hacer conclusiones y
acciones equivocadas, y el deseo de controlarla, permiten dirigir correctamente el curso de la
investigacin en estadstica. La realidad es dura e inflexible y se debe enfrentar en sus propios
trminos. Se vive hoy, en un mundo lleno de incgnitas y no existe manera de eliminar por completo los
riesgos de tomar decisiones equivocadas. Siendo ste el caso, el verdadero problema no consiste ahora
en cmo eliminarlos, sino como vivir con ellos de manera inteligente. Cuanto ms pronto se comprenda
esto, ms seguros se estar y tanto mejo se entender por qu la estadstica es una disciplina que vale
la pena estudiarla. Una de las razones principales para estudiar estadstica es que se consagra en
forma directa al problema universal de cmo tomar decisiones inteligentes en condiciones de
incertidumbre o bien, en forma ms breve, al problema de la toma de decisiones con incertidumbre lo
cual es muy comn para aquel profesional de la contadura o administracin comercial.

P g i n a |7
CONCEPTO BSICOS
POBLACIN: En estadstica el concepto de poblacin va ms all de lo que comnmente se conoce
como tal. En trminos estadsticos, poblacin es un conjunto finito o infinito de personas, animales o
cosas que presentan caractersticas comunes, sobre los cuales se quiere efectuar un estudio
determinado. En otras palabras, la poblacin se define como la totalidad de los valores posibles
(mediciones o conteos) de una caracterstica particular de un grupo especificado de personas, animales
o cosas que se desean estudiar en un momento determinado. As, se puede hablar de la poblacin de
habitantes de un pas, de la poblacin de estudiantes universitarios del Departamento de Lambayeque,
de la poblacin de casas de la Urbanizacin Las Brisas de la ciudad de Chiclayo, el nmero de carros
marca Toyota de la ciudad de Lambayeque, la estatura de un grupo alumnos de la USAT, la talla, etc.
La poblacin es el conjunto formado por todos los valores posibles que puede asumir la variable objeto
de estudio, ya que constituye la totalidad del grupo que se quiere estudiar los que van a poseer una
caracterstica de ese grupo especfico de individuos, animales o cosas. Es la coleccin de todos los
elementos que se estn estudiando, acerca de los cuales se intenta sacar conclusiones, el cual puede
ser un conjunto finito o infinito de personas, animales o cosas que presentan caractersticas comunes.
As por ejemplo, en un estudio sobre la preferencia de los electores que participaran en una eleccin
presidencial, la poblacin consiste en todos los participantes registrados para votar en ese proceso.
Pero el trmino no slo est asociado a la coleccin de seres humanos y organismos, tambin pueden
ser cosas no vivientes tales como: el estudio de mercado que se realiza para determinar las ventas
anuales de los supermercados de una zona determinada de una ciudad, luego, las ventas anuales de
todos los supermercados constituyen as mismo la poblacin.
MUESTRA: La muestra es un subconjunto de la poblacin, seleccionado de tal forma, que sea

representativo de la poblacin en estudio, obtenindose con el fin de investigar alguna o algunas de las
propiedades de la poblacin de la cual procede. En otras palabras es una parte de la poblacin que
sirve para representarla. Es una parte o porcin extrada de un conjunto por mtodos que permiten
considerarla como representativa del mismo. Entonces, una muestra no es ms que una parte de la
poblacin que sirve para representarla. La muestra debe obtenerse de la poblacin que se desea
estudiar; una muestra debe ser definida sobre la base de la poblacin determinada, y las conclusiones
que se obtengan de dicha muestra slo podrn referirse a la poblacin en referencia.
La muestra debe ser representativa ya que debe contener las caractersticas relevantes de la poblacin
en las mismas proporciones en que estn incluidas en tal poblacin, es decir, contiene las
caractersticas ms importantes de esa coleccin de elementos que representan la poblacin bajo
estudio, a fin de investigar alguna o algunas de las propiedades de la poblacin de la cual procede; y las
conclusiones que se obtengan de dicha muestra slo podrn referirse a la poblacin en referencia.
La muestra es el elemento bsico sobre el cual se fundamenta la posterior inferencia acerca de la

poblacin de donde se ha tomado. Por ello, su escogencia y seleccin debe hacerse siguiendo ciertos
procedimientos o parmetros que son indispensables, es decir, se selecciona de acuerdo con una regla
o plan definido. En estadstica, en vez de estudiar las poblaciones en su totalidad, se acude al recurso
de considerar solamente una parte de ella, a la cual se le denomina muestra. Por lo tanto, una muestra
es una parte de la poblacin, seleccionada de acuerdo con una regla o plan definido.
MUESTREO: Es el procedimiento mediante el cual se obtiene una o ms muestras de una poblacin

determinada. Existen dos tipos de muestreos a saber:

P g i n a |8
Muestreo no Probabilstico: Es aquel en el cual se toma la muestra segn el criterio del

investigador, estos pueden ser: muestreo intencional u opintico y el muestreo sin norma o
circunstancial.
Muestreo Probabilstico: Es aquel que se selecciona utilizando mtodos aleatorios en los que se
utilizan las probabilidades matemticas. Entre estos se pueden mencionar: Muestreo aleatorio
simple, muestreo estratificado, muestreo por conglomerado o por rea y muestreo sistemtico.
PARMETROS.- Son cualquier caracterstica que se pueda medir y cuya medicin se lleve a cabo sobre
todos los elementos que integran una poblacin determinada, los mismos suelen representarse con letras
griegas. El valor de un parmetro poblacional es un valor fijo en un momento dado.
Ejemplo: La media Aritmtica = (mu), La desviacin Tpica = , (Sigma) etctera.
ESTADGRAFOS (Estadsticos o Estimadores).- Son aquellas caractersticas medibles, cuya medicin se

realiza sobre los componentes de una muestra, los mismos se representan con letras del alfabeto
castellano. Los estadgrafos no tienen un valor nico, sino que pueden tomar distintos valores al ser
calculados a partir de muestras diferentes.
Ejemplos: la media aritmtica = X , La desviacin Tpica = S.
UNIDAD DE ANLISIS: es el objeto o elemento indivisible que ser estudiado en una poblacin, sobre los
cuales se van a obtener datos. Es el que genera el fenmeno estudiado y proporciona datos concretos.
DATO: es el valor o respuesta que adquiere la variable en cada unidad de anlisis. Es el resultado de la
observacin, entrevista o recopilacin en general. Son la materia prima de la estadstica. Es el elemento
primario de toda observacin o bsqueda.
VARIABLE
La variable es una magnitud que puede tener un valor cualquiera de los comprendidos en un conjunto
de valores de un estudio o investigacin determinada. Son todos aquellos datos u observaciones que
pueden ser expresados mediante nmeros, es decir, son caractersticas de una poblacin determinada,
susceptible de medicin. Son caractersticas que pueden ser observadas en determinado fenmeno
natural, social, econmico, poltico etc. Las mismas son susceptibles de adoptar distintos valores o ser
expresadas en varias categoras.
En los estudios estadsticos que se realizan se busca investigar acerca de una o varias caractersticas
de la poblacin observada. Para un correcto manejo de la informacin, estas caractersticas deben ser
tomadas en cuenta de acuerdo a su tipo para poder aplicar algunas de las operaciones que son
necesarios llevar a cabo. Existen muchas definiciones de variables, entre las cuales tenemos:
Son aquellos datos u observaciones que pueden ser expresados cuantitativamente, es decir, son
caractersticas de una poblacin especfica, en las cuales se realiza una investigacin en un momento
dado. Las variables por lo general se representan con letras maysculas y sus valores particulares con
minsculas, es decir, si se hace referencia a los salarios devengados por un grupo de trabajadores la
variable salario estara representado por una letra mayscula, en este caso Xi y varios salarios de
diferentes trabajadores en particular, estaran representados con la letra minscula correspondiente,
as: x1 = 180.000, x2 = 190.000, x3 = 480.00, etctera.
Es aquella caracterstica de una poblacin que puede tomar diferentes valores en un estudio
determinado. Son smbolos tal como X, Y, Z, A, B, etc., que puede tomar un valor cualquiera de una

P g i n a |9
caracterstica especificada de un estudio determinado. Por lo tanto, son caractersticas que pueden ser
observadas en determinado fenmeno natural, social, poltico, econmico, etc. Las mismas son
susceptibles de adoptar distintos valores o ser expresadas en varias categoras.
Por ejemplo, la estatura de las personas, la talla de un grupo de trabajadores petroleros, la edad de un
conjunto de estudiantes universitarios, el ndice acadmico de los estudiantes de la USAT, son
variables. En otras palabras, una variable es una funcin que asocia a cada elemento de la poblacin la
medicin de una caracterstica, particularmente de aquella que se desea observar.
TIPO DE VARIABLES
Cualitativa o de Atributos: Cuando expresan una cualidad, caracterstica o atributo, tienen un

carcter cualitativo, sus datos se expresan mediante una palabra, es no numrico, por lo tanto las
operaciones aritmticas, como sumar y obtener promedios, no son significativas. Cuando la
informacin es cualitativa, generalmente interesa saber cuntas o qu proporcin entra en cada
categora.
Ejemplos: sexo, nacionalidad, marcas de auto, grado de satisfaccin con la universidad, causas de
accidentes, lugar de nacimiento, estado civil, etc.
Cuantitativa o Numrica: Cuando el valor de la variable se expresa por una cantidad, es de

carcter numrico. El dato o valor puede resultar de la operacin de contar o medir, por lo tanto las
operaciones aritmticas, como sumar y obtener promedios, son significativas.
Ejemplos: Nmero de hijos, kilmetros recorridos, tiempo de vuelo, la velocidad de las

embarcaciones, etc.
Las variables cuantitativas se pueden clasificar a su vez en discretas o continuas.
Cuantitativas Discretas: cuando el valor de la variable resulta de la operacin de contar, su

valor est dado slo por nmeros (enteros positivos).
Ejemplos: cantidad de materias aprobadas, nmero hijos, nmero de computadoras, etc.
Cuantitativas Continuas: cuando la variable es susceptible de medirse, es toda variable cuyo

valor se obtiene por medicin o comparacin con una unidad o patrn de medida. Puede
asumir cualquier valor dentro del rango de medicin, por tanto se expresa en cualquier nmero
real. Normalmente se miden magnitudes como ser longitud, superficie, volumen, peso, tiempo,
dinero.
Ejemplos: peso al nacer, tiempo de servicios, horas trabajadas, ingreso mensual, temperatura,
etc.
ESCALAS DE MEDICIN DE LAS VARIABLES
MEDICIN: La asignacin o magnitud que se aplica a las categoras o clases de acuerdo a ciertas
reglas o smbolos. Consiste en la recopilacin de datos y su utilizacin mediante el empleo de una serie
de normas de tipo estadstico; es la representacin simblica de un dato o serie de datos obtenidos por
algn tipo de observacin.
ESCALA DE MEDICIN: Una escala de medicin es una asignacin de valores numricos a las
caractersticas de una muestra o una poblacin, se mide bsicamente en proporcin de escala. Las

P g i n a | 10
escalas de medicin son el conjunto de los posibles valores que determinada variable puede tomar. Por
tal razn, los tipos de escala de medicin estn ntimamente ligados con los tipos de variables a
estudiar. Las magnitudes de las observaciones cuantitativas se conocen como los valores que una
variable puede asumir. Consiste entonces, en una serie de graduaciones que permiten darle un valor
numrico a las caractersticas que estamos midiendo; para hacer ms comprensible y que adquiera un
significado mediante un arreglo ordenado para establecer un anlisis estadstico. Son denominaciones
o clasificaciones de individuos o caractersticas. Las escalas de medicin es el alma fundamental de
toda investigacin Cientfica, puesto que, slo a travs de ellas es como se pueden calibrar los
fenmenos, sus relaciones, entre otros.
Se refieren habitualmente a las asignaciones de nmeros a observaciones, de una forma tal que los
nmeros sean susceptibles de anlisis por medio de manipulaciones u operaciones; estas escalas
permiten asignarle un valor numrico a las caractersticas que se estn midiendo. Por lo general
proceden de las medidas de una o ms variables. Dependiendo de la medicin y de la esencia de las
variables, se obtienen diversas clases de datos que originan diferentes escalas. Resulta intensamente
conocer el tipo de escala que representan los datos, debido a que, de su esencia dependen las tcnicas
estadsticas que se debern aplicar para su anlisis. Para lograr estadsticas confiables hay que
manipular cuantiosos datos estadsticos, los cuales poseen determinadas caractersticas.
Por ejemplo, si los datos son alumnos, entre algunas de ellos se puede sealar el peso, la estatura, el
sexo, el rendimiento acadmico, entre otros. Al elaborar estadsticas con datos y su caracterstica es
necesario contarlas, jerarquizarlas y medirlas, es por ello que, se utilizan las escalas de medicin como
el proceso de asignar nmeros o establecer una correspondencia uno a uno entre objetivos y
observaciones.
Las escalas de medicin s clasifican de la siguiente forma: Escala Nominal, Escala Ordinal, Escala de
Intervalos y Escalas de razn o Proporcin.
Escala de Medicin Nominal: Es aquella en la que los nmeros slo se emplean para diferenciar
los objetos de distintas categoras o cuando se emplean nombres. Se dice que los datos que se
obtienen para una variable cualitativa se miden en una escala nominal. Si los datos observados
simplemente se clasifican en distintas categoras que no implican orden, se tiene un nivel de
medicin nominal. Ejemplos de nmeros, esta caracterstica son las que usan los jugadores de
bisbol, los nmeros telefnicos, los nmeros de las Cedulas de Identidad, etctera. Se usa una
escala nominal cuando se distribuyen conjuntos de objetos, personas o caractersticas entre dos o
ms categoras. La Escala Nominal se utiliza como medida de identidad. Los nmeros pueden servir
como indicativos o etiquetas para identificar objetos o clases, pues se usa cuando un objeto se
diferencia de otro solamente por la nominacin con que se conoce. La escala nominal es la forma
ms dbil de medicin porque no se puede intentar el conteo de las diferencias dentro de una
categora determinada o especificar cualquier orden o direccin a lo largo de las diversas
categoras. Sin embargo, no se intenta medir diferencias entre los valores clasificados dentro de una
categora determinada.
Propiedades de la escala Nominal
1. No intervienen mediciones, ni escala, en vez de esto solo hay cuentas o conteos.

2. Esta escala es considerada excluyente, es decir que la persona u objeto se incluye solamente en
una categora.
3. No existe un orden especfico para esta categora.
4. No presentan el cero.
5. No se basa en diferencia cuantitativa.
6. Los elementos de una categora deben de ser equivalentes, idnticos.

P g i n a | 11
Ejemplos:
Una muestra de personas puede clasificarse con base en la religin profesada:
(1) Cristianos;
(2) Judos;
(3) Musulmanes;
(4) Otros; y
(5) Sin Creencia alguna.
O bien podran clasificarse segn el sexo, el color de los ojos, algn partido poltico, etctera.
Otros ejemplos de escala nominal puede ser el nmero de placa de los vehculos, los nmeros de
los telfonos de una ciudad, la Cedula de Identidad de los habitantes de un pas, etctera.
El tipo de operacin estadstica ms utilizada en la escala nominal es el conteo de las frecuencias

con que se presentan las caractersticas en las unidades del las respectivas subclases. Estas
frecuencias pueden ser presentadas con nmeros absolutos, porcentajes y proporciones. Adems,
puede calcularse razones, tasas de incremento, y el coeficiente de contingencia.
Escala de Medicin Ordinal: Es aquella en la que los nmeros se utilizan para diferenciar en orden
de supremaca de acuerdo con cierto criterio jerrquico, como son los nmeros que se emplean
para clasificar los distintos estratos socio-econmicos o para designar preferencias. Si los datos
observados se clasifican en categoras distintas en las que existe algn orden, se obtiene un nivel
de medicin ordinal Cuando los objetos son medidos en escala ordinal los que tengan la misma
asignacin se consideran iguales; pero los que tengan asignaciones diferentes pertenecen a
categoras distintas. La diferencia entre dos nmeros ordinales no tiene significado cuantitativo, slo
expresan, por ejemplo, que una situacin es mejor que otra, pero no cuanto. La escala ordinal es
una forma un tanto ms fuerte de medicin que la nominal, porque se dice que un valor observado
que se clasifica en una categora posee ms la propiedad que se mide que algn valor observado
que se clasifica en otra categora.
Tambin, la escala ordinal siegue siendo una forma de medicin dbil porque no se pueden hacer
planteamientos numricos significativos con respecto a las diferencias entre las categoras. Es decir,
la ordenacin establece slo cul categora es mayor, mejor o preferida; y no se habla cunto
es mayor, mejor o ms preferida. Esta escala se emplea, cuando un estudio esta basado en
ciertas normas que se asignan a un conjunto de objetos, personas o caractersticas o a un conjunto
de categoras ordenadas. Las categoras de la escala se ordenan d acuerdo con la cantidad de
rasgos o caractersticas que representan cada una de ellas ya que la escala ordinal distingue los
diferentes valores de la variable, ubicando las caractersticas en orden, desde la ms alta hasta la
ms baja.
Propiedades de la escala Ordinal
1. Las observaciones o elementos se les ordena en rangos o categoras diferentes.

2. Cada categora o rango mantiene una relacin entre si, estas relaciones se expresan en trminos
algebraicos de desigualdades (mayor que o menor que).
3. No es posible definir unidades de mediciones iguales en todos los puntos de la escala.
4. Las categoras son mayores o menores que otras categoras, es decir, que existe una
clasificacin de mayor a menor (jerarqua).
5. Las categoras son mutuamente excluyentes y exhaustivas.
6. No presentan el cero.

P g i n a | 12
Se pueden clasificar los habitantes de una ciudad de acuerdo a su situacin econmica, a los
estudiantes tomando en cuenta a su rendimiento acadmico, etctera. Aunque la escala ordinal
resulta en cierta forma ms precisa que la nominal, no alcanza el grado de precisin deseado en
una investigacin.
Otro ejemplo, el orden jerrquico de los militares (Subteniente, Teniente, Capitn, Mayor, Teniente
Coronel, Coronel, General) y la clasificacin acadmica de los profesores universitarios (Instructor,
Asistente, Agregado, Asociado, Titular) son ejemplos de escala ordinal.
En la escala ordinal las unidades de las subclases guardan una cierta relacin entre s, esto se pone
de manifiesto cuando existe la posibilidad de establecer la relacin menor que o mayor que,
respecto a las caractersticas de las unidades escaladas. Por ejemplo, El grado militar de A es el de
Subteniente y el de B es el de Teniente, luego el grado de B es mayor que el de A (BA)
Otro ejemplo de medicin con la escala ordinal es el referido al de la escala de dureza de los
minerales, es decir, la resistencia que oponen los minerales al ser rayados, los cuales van del uno al
diez. El talco se asocia con el valor uno porque no raya a ninguno, el diamante se asocia con el
valor diez porque no es raya por ningn otro, pero si puede rayar al resto de los minerales, etctera.
Escala de Medicin de Intervalos: Es una escala ms especializada que las dos anteriores,
puesto que es posible ordenar las mediciones y expresar adems en cunto difiere una situacin
de la otra. Por Ejemplo, en las mediciones de temperatura ambiental no slo se puede afirmar hoy
hace ms calor que ayer, si no que de la misma forma se puede expresar hoy la temperatura es
cuatro grados Centgrados ms alta que la de ayer a la misma hora. Esta escala se caracteriza por
tener una unidad de medida y un origen (cero) arbitrario. La distancia entre dos mediciones tiene un
significado preciso. La escala de intervalos a diferencia de la nominal y ordinal, es una escala
efectivamente cuantitativamente. Una escala de intervalo es una escala ordenada en la cual la
diferencia entre las mediciones es una cantidad significativa.
La escala de intervalos posee adems, de las caractersticas de la escala nominal y ordinal, la

propiedad de que la distancia entre dos valores es de una magnitud conocida, lo que le permite a
esta escala un mayor grado de perfeccin, ya que proporciona nmeros que manifiestan diferencias
palpables entre individuos, objetos o cosas. Por tal razn, la escala de intervalo revela que un
individuo u objeto es tantas unidades ms grandes o ms pequeo, ms pesado ms ligero, ms
rpido o ms lento que otro, es decir, muestra la cantidad en la que un objeto se diferencia de otro
cuantitativamente. En esta escala el punto cero y la unidad de medicin son arbitrarios. La razn
entre dos intervalos es siempre independiente del punto cero y de la unidad que se emplee en la
medicin. En el caso de las escalas de intervalos las unidades de medicin son iguales.
Propiedades de la escala de Intervalo:
1. Esta escala implica la cuantificacin de los datos

2. En ests medidas se utilizan unidades constantes de medicin (capacidad, peso, Cntimos,
grados Fahrenheit o centgrados) los cuales producen intervalos iguales entre puntos de la
escala.
3. Proporcionan nmeros que manifiestan diferencias palpables entre individuos, objetos o cosas.
4. En esta escala de intervalos el punto cero (0) y la unidad de medida es arbitrario.
5. Se pueden aplicar todas las medidas estadsticas ms conocidas, con excepcin del coeficiente
de variacin.
6. Son mutuamente exclusivas y exhaustivas.

P g i n a | 13
Un ejemplo de esta escala lo constituyen las escalas utilizadas para medir temperatura, bien sea en
grados Centgrados o Fahrenheit. En estas escalas la diferencia entre 80 y 85 es igual a la que
existe entre 90 y 95 o entre dos puntos cualesquiera de la escala. La escala de intervalo tiene
carcter cuantitativo y esto le permite el clculo de las medidas estadsticas ms comunes (medias,
desviaciones tpicas o estndar, coeficientes de correlacin de Pearson, entre otros), esto confirma
l por que muchos valores estadsticos se utilizan con las escalas de intervalos.
Escala de Medicin de Razn o Proporcin: Esta constituye el nivel ms alto de medicin, posee
todas las caractersticas de las escalas nominales, ordinales y de intervalos; adems tiene un cero
absoluto o natural que tiene significado fsico. Si en ella la medicin es cero, significa ausencia o
inexistencia total de la propiedad considerada. Son posibles todas las operaciones aritmticas. Los
nmeros indican los valores concretos de la propiedad que s esta midiendo; peso, estatura,
ingresos monetarios y gastos directos, son ejemplos de medidas con una escala de razn.
La distancia entre dos valores de la escala es conocida en el sentido cuantitativo y su razn es

independiente de las unidades empleadas. Por ejemplo, en las unidades de longitud, peso y
capacidad el valor cero indica ausencia de medida, mientras que en la escala de intervalo si se tiene
cero grado centgrado no se puede afirmar que hay ausencia de temperatura. La escala de razn
permite establecer ciertas comparaciones entre los valores que no son permitidos en la escala de
intervalo. Por lo tanto, la proporcin de un punto cualquiera de la escala a otro es independiente de
la unidad de medida. Si una persona mide 2.00 m puede afirmarse que duplica en estatura a otro
que mide 1.00 m Las escalas de razn ms comunes corresponden a medidas de longitud, peso,
capacidad, sonido, entre otros. Al medir la temperatura absoluta la escala de Kelvin, que es de este
tipo, tiene su punto cero a 273, este valor es l ms bajo posible. Cuando se emplea este tipo de
escala, los nmeros indican razones o cocientes entre ciertas magnitudes de los objetos, y los datos
obtenidos con tales escalas pueden ser sometidos a los tratamientos ms elaborados.
Propiedades de la escala a razn:
1. La distancia entre los nmeros es un tamao conocido y constante.

2. Los datos tienen un punto cero significativo.
3. Puede utilizarse cualquier prueba de tipo estadstico, incluyendo el coeficiente de variacin.
4. Permite hacer comparaciones entre los nmeros verdaderos con un cero aritmtico siendo
arbitrario nicamente la unidad de medida.
Ejemplo de escala a razn:
Nmero de televisores vendidos en el ltimo trimestre del ao 2007
Meses N de televisores
Octubre 4.000
Noviembre 6.000
Diciembre 15.000
Generalmente, se supone que los datos que se obtienen para una variable cuantitativa se miden en
escalas de intervalo o de razn. Estas escalas constituyen los niveles ms elevados de medicin.
Son formas ms fuertes de medicin que la escala nominal y ordinal, porque permiten comprender
no slo cul de los valores de un estudio es mayor o menor, sino por cuntas unidades de medida.

P g i n a | 14
Las escalas de razn son medidas de Longitud, peso, capacidad, etc., los nmeros reflejan razones
entre particularidades y los datos obtenidos segn tales escalas pueden ser sometidos a cualquier
tratamiento estadstico
FUENTES DE DATOS
Es el lugar, la institucin, las personas o elementos donde estn o poseen los datos que se necesitan
para cada una de las variables o aspectos de la investigacin o estudio.
FUENTES PRIMARIAS
Informacin que se recoge especficamente para un proyecto concreto de investigacin de mercado,

a travs del procedimiento de encuestacin, a diferencia de la informacin secundaria, que es
aquella que, aun siendo de utilidad en el estudio, ha sido recogida con anterioridad para servir a
otros propsitos.
Ejemplos: Encuestas, censos, elementos o sujetos.
FUENTES SECUNDARIAS
Informacin recogida con anterioridad a una investigacin en curso, pero que es de utilidad por su
contenido en el desarrollo de sta. Las fuentes de informacin pueden ser externas a la empresa
(publicaciones de todo tipo, estudios de instituto de investigacin, bancos de datos, etc.) o internas
(estudios anteriores, registros internos, etc.).
EL PAPEL DE LOS DATOS SECUNDARIOS.
El primer paso en el proceso de recoleccin de datos es determinar si stos ya existen.
Los datos secundarios son aquellos datos publicados que se recolectaron con propsitos diferentes
de las necesidades especficas de la investigacin que se est desarrollando. Los datos
secundarios internos se encuentran disponibles dentro de la organizacin, mientras que los datos
secundarios externos se han obtenido de fuentes externas a la organizacin.
Deben buscarse las fuentes de datos secundarios internos antes de requerir las fuentes externas.
Los datos secundarios externos se pueden obtener de dos fuentes principales:
Fuentes sindicalizadas. Son servicios que recolectan datos tipificados para satisfacer las
necesidades de un grupo de clientes. Estos datos son costosos y su disponibilidad puede estar
restringida a ciertos clientes.
Fuentes bibliogrficas. Incluyen un conjunto de divulgaciones que circulan pblicamente.
Muy pocas veces los datos secundarios llenarn los requisitos de datos de un proyecto de
investigacin.
Ventajas de los datos secundarios.
La principal ventaja es el ahorro en costos y tiempo en comparacin con las fuentes de datos
primarios. Aunque es raro que los datos secundarios satisfagan completamente las exigencias de
datos de un proyecto de investigacin, usualmente pueden:
a. Ayudar en la formulacin del problema de decisin.

P g i n a | 15
b. Sugerir mtodos y tipos de datos para satisfacer las necesidades de informacin.
c. Servir como fuente de datos comparativos mediante la cual pueden interpretarse y evaluarse
los datos primarios.
Otra ventaja de los datos secundarios es que la recoleccin de datos puede estar ms all de los
medios de una organizacin tpica.
Desventajas de los datos secundarios.
Estn relacionadas con:
a. El grado en que se ajustan a las necesidades de informacin del proyecto. Puesto que los
datos secundarios se recolectan con propsitos diferentes a los del proyecto de investigacin,
rara vez satisfacen completamente las necesidades de informacin del proyecto. El grado de
ajuste puede oscilar desde completamente inadecuado hasta muy cercano. Este grado de
ajuste est influenciado por: las unidades de medicin, la definicin de las clases sociales y la
actualidad de la publicacin.
b. La exactitud de los datos. Una seria limitacin de los datos secundarios es la dificultad para
evaluar su exactitud. Existen numerosas fuentes de error en las etapas de muestreo,
recoleccin de datos, anlisis de los datos e informes del proceso de investigacin que influyen
en la exactitud de los datos. La falta de participacin en el proceso de investigacin de ninguna
manera reduce la responsabilidad del investigador en la evaluacin de la exactitud de los datos
empleados. Se pueden utilizar los siguientes criterios para evaluar la citada exactitud:
Fuente. Los datos secundarios pueden estar aseverados por la fuente original o por una
fuente adquirida. La fuente original es la que origin los datos, mientras que la fuente
adquirida es aquella que obtuvo los datos de una fuente original. Una regla fundamental en
la utilizacin de los datos secundarios es la obtencin de los datos directamente de la
fuente original. Esto es as porque la fuente original es en muchos casos el nico lugar
donde se describen los detalles del proceso de recoleccin y anlisis de datos; y porque la
fuente original generalmente es ms detallada y de mayor exactitud que la fuente adquirida
(errores de trascripcin, falta de reproduccin de los pies de pgina y otros comentarios
textuales).
Propsito de la publicacin. Son sospechosas las fuentes publicadas para promover las
ventas y hacer nfasis en los intereses de un grupo industrial. Usualmente son
sospechosos los datos publicados en forma annima o por una organizacin que est a la
defensiva o bajo condiciones que sugieren una controversia.
Evidencia relacionada con la calidad. Se debe tener cautela si la fuente primaria no revela
los detalles del diseo de investigacin. Cuando se revelan los detalles del diseo de
investigacin, se deben evaluar reas como: el plan de muestreo, el procedimiento de
recoleccin de datos, la calidad del entrenamiento de campo, las tcnicas de elaboracin
de cuestionarios y los procedimientos de anlisis de datos. Se debe incluir una seccin
sobre las limitaciones del diseo y de los datos de investigacin. El investigador an puede
evaluar la calidad del informe, si faltan estos datos. En estos casos, son importantes
algunos elementos como los ttulos de tablas y figuras, la consistencia interna de los datos
y su apoyo a las conclusiones del informe.

P g i n a | 16
Fuentes bibliogrficas de datos secundarios.
Incluyen una amplia gama de material que circula pblicamente:
Documentos gubernamentales. La mayor fuente de datos estadsticos es el gobierno. Dentro

del gobierno, la oficina de censos es la fuente de datos ms importante. Usualmente, los
datos son lo suficientemente detallados como para satisfacer la mayor parte de las
necesidades de informacin de mercadeo. Se recolectan y publican diferentes tipos de datos,
entre ellos el censo de poblacin, de vivienda, de manufactura, de comercio minorista, de
comercio mayorista, de transporte, de agricultura y comercial. Los datos de censos no estn
totalmente exentos de defectos. Como sucede con todos los datos secundarios, tienen la
limitacin de no ser recolectados para satisfacer las necesidades especficas de informacin
de un proyecto de investigacin de mercados.
Libros.
Peridicos.
Informes de investigacin.
Publicaciones de asociaciones comerciales.
Al evaluar la calidad de los datos identificados, el investigador debe estar consciente del origen de
los datos y del diseo de la investigacin. A veces, esto puede ser difcil de determinar. Los datos
bibliogrficos se originan de un conjunto de fuentes, como gobiernos, provinciales y locales,
escuelas superiores universitarias y universidades, asociaciones comerciales, cmaras de
comercio, organizaciones comerciales, fundaciones y empresas editoriales. Algunas publicaciones
presentan los resultados de la investigacin original, otras resumen los hallazgos de la
investigacin de terceros y algunas presentan, en su mayor parte, interpretaciones y conclusiones
relacionadas con los hallazgos de la investigacin de otros.
TECNICAS DE RECOLECCIN DE DATOS

LA OBSERVACIN
Es la tcnica de recoleccin de informacin por excelencia y se utiliza en todas las ramas de la

ciencia. Su uso est regido por alguna teora y stas determinan los aspectos que se van a
observar. Hay que tener presente que para que sea vlido este instrumento de observacin, se
deben cumplir las siguientes sugerencias:
1. Con respecto a las condiciones previas a la observacin:
El observador debe estar familiarizado con el medio.
Se deben realizar ensayos de la observacin, previos a la observacin definitiva.
El observador debe memorizar lo que se va a observar.
2. Con respecto al procedimiento en la observacin:
Las notas deben ser registradas con prontitud (en minutos).
Las notas deben incluir las acciones realizadas por el observador.
3. Con respecto al contenido de las notas:

P g i n a | 17
Las notas deben contener todos los datos que permitan identificar el da, el lugar y la hora
de la observacin, as como las circunstancias, los actores, etctera, que estuvieron
involucrados.
Se deben eliminar apreciaciones subjetivas sobre el carcter o personalidad de los sujetos.

En su lugar se debe incluir la descripcin de los hechos.
Las conversaciones van transcritas en estilo directo.
Las opiniones y deducciones del observador se deben hacer aparte, de preferencia al

margen para as no perder la relacin entre la opinin del observador y la parte de las notas
a que le corresponde.
4. Con respecto a la ordenacin de las notas:
Las notas deben ser revisadas y corregidas a la brevedad posible.
Asimismo, las notas deben ser clasificadas y ordenadas para permitir su manejo ms gil,
adems de evitar que se pierdan, se confundan con otras partes de la observacin, se
traspapelen, etctera.
LA ENCUESTA
Esta es un de las herramientas ms utilizada en la investigacin de ciencias sociales. Para su

implementacin, la encuesta utiliza los cuestionarios como medio principal para obtener
informacin. De esta manera, las encuestas pueden realizarse para que el individuo encuestado
procese por s mismo las respuestas en el papel.
Es trascendente que el investigador en los cuestionarios slo solicite la informacin indispensable,

la mnima para que sean comprendidas las preguntas. Ms informacin, o informacin
innecesaria, puede derivar en respuestas no veraces.
De lo misma forma, al disear la encuesta y confeccionar el cuestionario hay que tomar en cuenta
los recursos (tanto humanos como materiales) de los que se disponen, tanto para la recopilacin
como para la lectura de la informacin, para as lograr un diseo funcionalmente eficaz.
La encuesta es el mtodo que ms se usa pero requiere una planeacin minuciosa puesto que
debe tenerse especial cuidado al preparar el cuestionario, as tenemos:
a) ENCUESTA POR TELFONO: Consiste en hacer un nmero de llamadas a personas

especficas en determinado tiempo para obtener informacin. Generalmente se usa para
estudios de audicin radio y televisin.
VENTAJAS
Son menos costosas y requieren de corto tiempo
Se obtiene rpida informacin
Se contacta a personas importantes y difciles de encontrar.
Fcil de llegar
DESVENTAJAS
Difcil obtener informacin precisa y completa

P g i n a | 18
En ocasiones existe poca colaboracin. Rechazo

No se conoce a la persona, es decir, no puede clasificarse ni calificarse
Conversacin breve, pocas preguntas
b) ENCUESTA POR CORREO: Consiste en seleccionar a un grupo de personas y enviarles por

correo un cuestionario para que lo tramite y lo devuelva.
VENTAJAS
Fcil llegar a todas las personas por el sistema postal econmico
No hay presin del encuestador
DESVENTAJAS
Poca colaboracin
Influencia de terceros
Muy bajo nivel de respuestas
No puede calificarse ni clasificarse al encuestado
Debe darse premios o recompensas para motivar a cooperar.
Es necesario determinar la fecha de entrega
c) ENCUESTA PERSONAL: Consiste en preguntar directamente a los consumidores

previamente determinados. Es el mtodo ms popular.
VENTAJAS
La principal es la flexibilidad que se obtiene.
Suele obtenerse ms informacin.
Se obtiene un mayor grado de cooperacin con relacin a los otros mtodos.
Se obtiene informacin sobre los hogares participantes, los niveles de vida aparentes
Puede calificarse y clasificarse al encuestado.
Puede ayudarse de imgenes y muestras
Las respuestas son espontneas
Existe poca influencia de terceros
Permite profundizar y aclarar
DESVENTAJAS
Muy costoso y requiere mucho tiempo
En ocasiones hay reducida colaboracin
Puede alterarse la informacin frecuentemente
La presencia del encuestador muchas veces impulsa a dar una informacin errada.
Es difcil de supervisar

P g i n a | 19
d) ENCUESTA ONLINE: Las encuestas online son una excelente opcin para conocer las
opiniones y actitudes de un mercado meta.
VENTAJAS
Bajo costo: Se prescinde de todo personal encuestador y de la utilizacin de papel para
respaldar la data, siendo ms econmicas que mediante los mtodos tradicionales.
Es posible incrementar el tamao de la muestra, sin que el precio se incremente
proporcionalmente
Rapidez: La entrada y procesamiento de la data es casi inmediata.
Exactitud: Se eliminan los errores asociados a la introduccin de la data gracias a
encuestas inteligentes.
Naturaleza interactiva: Permite la inclusin de elementos multimedia como imgenes,
sonidos y videos
Respuestas Honestas: Al eliminar la presencia del encuestador los usuarios son ms
honestos y abiertos cuando estn en frente de una computadora, y se expresa sin
temores.
Largo y diverso grupo de entrevistados: La inmensidad de Internet hace posible llegar a

personas que sera imposible contactar de otras maneras
DESVENTAJAS
Dificultad de obtener muestras probabilsticas: La inexistencia de una lista de usuarios de

Internet complica la preparacin de una muestra totalmente aleatoria.
Autenticidad: Una misma persona puede hacerse pasar por otra para poder llenar ms
encuestas.
Respuestas duplicadas: Algunas personas podran intentar llenar una encuesta ms de

una vez.
LA ENTREVISTA
La entrevista es muy utilizada en investigacin social, y sus caractersticas son similares a las del
cuestionario, siendo la principal diferencia el hecho de que es el encuestador u observador quien
anota las respuestas a las preguntas.
La utilizacin de este instrumento requiere de una mayor habilidad por parte del encuestador u
observador para llevar el tema de la entrevista, debido a que las respuestas son por lo general
abiertas y admiten implementar nuevas preguntas no vislumbradas por el encuestador
inicialmente. Esto facilita la ventaja de explotar temas no contemplados inicialmente o ahondar en
algunos de los contemplados. No obstante, tiene la desventaja de que, si no se tiene la suficiente
habilidad para mantener el tema, la entrevista se "pierde" e, incluso, puede invalidarse; por lo
tanto, el entrevistador debe poseer aptitudes especficas para utilizar el arte de la entrevista
Las recomendaciones y caractersticas sugeridas, son las mismas que se utilizan para el caso del
cuestionario, sin embargo, se debe utilizar una grabadora (de audio o de vdeo) para la posterior
copia de los dilogos.

P g i n a | 20
Los tipos fundamentales son:
La entrevista cerrada: Es aquel tipo en la que las alternativas de contestacin a que debe
someterse el encuestado estn predeterminadas.
La entrevista con profundidad: Es aquella que se hace conscientes los contenidos

mentales transformndolos en profundos.
La entrevista semiestruturada: Es aquella en la que, si bien hay una gua para las
preguntas, las respuestas son libres, y su ventaja radica en que permiten obtener informacin
complementaria.
La entrevista es una de las tcnicas ms utilizada en la investigacin. Mediante sta, una persona,
el entrevistador solicita informacin a otra, el entrevistado. La entrevista puede ser uno de los
instrumentos ms valiosos para obtener informacin y aunque aparentemente no necesita estar
muy preparada, es posible definirla como el arte de escuchar y captar informacin, esta habilidad
requiere de capacitacin, ya que no toda persona puede ser un buen entrevistador. Adems, es
una manera de interactuar socialmente puesto que es a travs del dilogo como el investigador
obtiene los datos que requiere para su estudio.
ELABORACIN DEL CUESTIONARIO

El cuestionario es un formato redactado en forma de interrogatorio con el mismo se obtiene informacin
relacionada con las variables objeto de la investigacin. Pueden ser aplicados personalmente o por
correo y en forma individual o colectiva. Esta formado por un conjunto de preguntas elaboradas
cuidadosamente sobre los hechos y aspectos que se desean conocer sobre una poblacin o parte de
ella; este instrumento es respondido por el participante sin la intervencin directa del entrevistador. En el
cuestionario simple el encuestado contesta, previa lectura del escrito, sin intervencin directa de
ninguna de las personas que participa en la investigacin.
En la entrevista, el cuestionario es aplicado a los sujetos investigados, por personas especializadas en

esa tarea. Estas hacen a los encuestados las preguntas del cuestionario y anotan en el las respuestas.
Las escalas son una forma especial de cuestionario; se caracteriza porque las preguntas y sus
diferentes respuestas tienen atribuido un valor numrico, lo que permite cifrar cuantitativamente y en
cierta forma medir el nivel que alcanza en cada caso la actitud o aspecto investigado.
El diseo del cuestionario habr de fundamentarse en el marco terico, la hiptesis, sus variables y los
objetivos de la investigacin. Cada pregunta que se incluya deber estar relacionada con las variables
indicadoras. Es muy conveniente que cuando se elabore el cuestionario se tenga a la mano la
operatividad de las variables, para asegurarse de que todos los indicadores estn siendo investigados.
PASOS A SEGUIR PARA ELABORAR UN CUESTIONARIO
1 Determinar a informacin requerida

2 Determinar el contenido de las preguntas
3 Decidir el tipo de preguntas a formular
4 Tomar en cuenta la redaccin
5 Establecer la secuencia de las preguntas

P g i n a | 21
ESTO ES
CLAVE Y
6 Determinar las caractersticas fsicas TENGO QUE
ANOTARLO
7 Someterlo a la prueba piloto
1 Determinar la informacin requerida
Definicin clara de la poblacin objetivo

Mientras ms heterogneo ms difcil disear un cuestionario apropiado para todos.
2 Determinar el contenido de las preguntas
Podr y querr el
encuestado
Es realmente aportar la Abarca
necesaria la informacin que adecuadamente la
pregunta? pregunta el rea de
contenido de la cual
es responsable?
3 Decidir el tipo de preguntas a formular
Tipos de preguntas
No estructuradas
(Abiertas)
Tipos Mixtas
Dicotmicas
Estructuradas
(Cerradas) Simples
(100%)
De opcin
mltiple
Respuestas
mltiples
No Estructuradas/ Abiertas
ESO ES FCIL
Libertad al encuestado para responder con sus propias palabras
Fciles de formular pero difciles de codificar
Expresan actitudes y opiniones
Tienen menor influencia de tendencias aunque hay potencial influencia del entrevistador
No deben usarse en autoadministradas

P g i n a | 22
Preguntas mixtas
Son aquellas que incluyen tanto las preguntas estructuradas como las no estructuradas
Podra decirme qu diarios lee habitualmente?
1. El Comercio 2. Liberacin 3. Repblica 4. Ojo 5. Otros (especificar)
Estructuradas/ Cerradas
Exige que el encuestado seleccione una o ms respuestas de una lista de alternativas que se le
presentan
Tener en cuenta:
El nmero de alternativas
El Sesgo de posicin
Estructuradas/dicotmicas
Permite polarizar
Ocasionalmente pueden aceptar opciones espontneas (no s, ambos, ninguno)
Incluir una opcin neutral, si es que se espera una proporcin importante que tenga esa posicin
Aprueba o desaprueba la gestin del alcalde de Chiclayo?
1. Aprueba 2. Desaprueba 3. No sabe, no opina
Estructuradas /de opcin mltiple
Tiene 3 o ms opciones.
Tomar en cuenta el nmero de alternativas a incluir y la tendencia por el orden o la posicin
Normalmente las categoras de respuesta deben ser colectivamente exhaustivas
Si son simples -slo aceptan una respuesta- las alternativas deben ser mutuamente excluyentes
Si son mltiples aceptan ms de una respuesta
Pregunta estructurada de opcin mltiple simple
A qu tipo de lugar asisti la ltima vez a bailar?
1. Pea 2. Salsdromo 3.Discoteca 4. Pollada 5. Pub 6. Otro __________
Pregunta estructurada de opcin mltiple con respuestas mltiples
En cuales de los siguientes lugares consume Ud. cerveza?
1. Discotecas 2. Pubs 3. Cevichera 4. Restaurantes 5. Hogar 6. Bodegas otros lugares

P g i n a | 23
4 Redaccin de las preguntas

Est casi lista
Definicin clara
Emplear palabras comunes y sencillas
Palabras claras. No ambigedad
Evitar las tendencias (sesgos)
No alternativas implcitas
No suposiciones implcitas
No generalizar/ no calcular estimados
Respetar la intimidad del encuestado
Utilizar preguntas corroborativas
5 Establecer la secuencia de las preguntas
Es imposible fijar un conjunto inalterable de normas que automticamente nos den secuencia
ptima de las preguntas.
Formular primero las preguntas de ndole general para pasar luego a las ms especficas.
Agrupar las preguntas por temas o cuestiones afines.
Las preguntas ms delicadas o difciles van al final del cuestionario.
6 Determinar las caractersticas fsicas (diagramacin)
7 Someterlo a la prueba piloto
Simular lo mejor posible las condiciones en que se aplicar
Identificar los cambios necesarios en:
Redaccin de preguntas
Orden de las preguntas

P g i n a | 24
Instrucciones escritas
Material de apoyo
Alternativas de respuestas
Castaeda Jimnez sugiere que se tomen en cuenta las siguientes previsiones en la elaboracin de un
cuestionario:
Decisiones sobre el contenido de las preguntas:
1. Es necesaria la pregunta? Ser til?
2. Se necesitan varias preguntas sobre esta cuestin?
3. Cuentan los informantes con los datos necesarios para contestar la pregunta?
4. Necesita la pregunta ser ms concreta, especfica e ntimamente ligada con la experiencia personal
del informante?
5. Es el contenido de la pregunta lo suficientemente general y est libre de concreciones y

especificidades falsas?
6. Expresan las preguntas actitudes generales y son tan especficas como suenan?
7. Est el contenido de la pregunta polarizado o cargado en una direccin sin preguntas acompaantes
que equilibren el nfasis?
8. Darn los informantes la informacin que se les pide?
Decisiones sobre la redaccin de las preguntas:
9. Se puede malinterpretar la pregunta? Contiene fraseologa difcil o poco clara?
10. Expresa la pregunta adecuadamente la alternativa con respecto al punto?}
11. Es engaosa la pregunta por culpa de asunciones no establecidas o de implicaciones que no se ven?
12. Est polarizada la redaccin? Est cargada emocionalmente o inclinada hacia un tipo particular de
contestacin?
13. Puede ser objetable por el informante la redaccin de la pregunta?
14. Producira mejores resultados una redaccin ms personalizada de la pregunta?
15. Puede preguntarse mejor la cuestin, de manera ms directa o ms indirecta?
Decisiones sobre la forma de respuesta de la pregunta:
16. Puede contestarse mejor la pregunta con un impreso que exija la contestacin por una marca (o
contestacin corta de una o dos palabras, o un nmero), de respuesta libre o por una marca con
contestacin ampliatoria?
17. Si se usa la contestacin por una marca, cul es el mejor tipo de cuestin: dicotmica, de eleccin
mltiple, o de escala?

P g i n a | 25
18. Si se usa una lista de comprobacin, cubre adecuadamente todas las alternativas significativas sin
solaparse y en un orden definible? Es de una longitud razonable? Es la redaccin de los tems
imparcial y equilibrada?
19. Es fcil, definida, uniforme y adecuada para la finalidad, la forma de respuesta?
Decisiones sobre la ubicacin de la pregunta en la secuencia:
20. Puede verse influida por el contenido de las cuestiones precedentes la contestacin a la pregunta?
21. Est dirigida la pregunta en una forma natural? Est en correcto orden psicolgico?
22. Aparece la pregunta demasiado pronto o demasiado tarde desde el punto de vista de despertar inters
y recibir la atencin suficiente?

P g i n a | 26
ORGANIZACIN Y PRESENTACIN DE DATOS

Cuando se realiza la recopilacin de antecedentes con fines estadsticos, se obtiene una gran cantidad de
datos, algunas veces estos estn en su forma natural o emprica (fuentes primarias) y otras ya estn
organizadas en tablas, cuadros y grficos (fuentes secundarias). Los datos pueden estar incompletos,
incorrectos, desordenados, pero en todos los casos constituyen los datos bsicos para iniciar un estudio,
conocer y analizar el comportamiento y las caractersticas de los elementos de una poblacin.
En el trabajo estadstico, siempre se dispone de muchos datos que, definitivamente tienen que ser
clasificados, ordenados y presentados adecuadamente, de tal manera que facilite la comprensin,
descripcin y anlisis del fenmeno estudiado, y obtener conclusiones vlidas para la toma de decisiones.
En general, la organizacin y presentacin de los datos estadsticos, supone realizar los siguientes pasos:
a) Evaluacin y crtica: consiste en inspeccionar la validez y confiabilidad de los datos, para corregir
los errores y omisiones de acuerdo a ciertas reglas fijas. A partir de datos incorrectos no se pueden
obtener buenos resultados.
b) Codificacin: es una tcnica mediante la cual los datos o respuestas (numrica o verbal) se
convierte en un nmero, smbolo o lenguaje que permita su procesamiento o tabulacin.
c) Clasificacin: consiste en establecer las categoras de las variables.
d) Procesamiento o tabulacin de datos: es el registro de nmero de casos (frecuencia o repeticin) en

cada una de las categoras de la variable de acuerdo al plan de tabulacin previamente
establecido.
e) Presentacin de los datos: los resultados de la tabulacin se presentan en tablas y grficos. La

presentacin de datos implica tener la informacin estadstica organizada para proceder al anlisis e
interpretacin de los resultados.
En el trabajo estadstico, lo que se tiene disponible en un primer momento es un material numrico,

producto de la observacin o recopilacin de datos, que son categorizados, ordenados, procesados y
presentados en tablas y grficos; hay proceso de resumen estadstico que se concreta con el clculo de
indicadores.
Hay dos formas de presentar ordenadamente los datos estadsticos:
i) En forma de tablas estadsticas
ii) Mediante grficos y diagramas
Fundamentalmente se usa la forma tabular, los grficos se utilizan complementariamente para ilustrar
mediante figuras el comportamiento de las variables y facilitar la comprensin de los fenmenos estudiados.
TABLAS ESTADSTICAS
Presentan ordenadamente los datos estadsticos en filas y columnas, clasificados y agrupados de acuerdo a
un criterio especfico. Los datos presentados en tablas constituyen la informacin estadstica. Esta
informacin no slo es un valor numrico sino que adems merece una interpretacin de tipo cualitativo
segn el contexto que lo origin. Una tabla estadstica es el resultado de trabajos previos (planeamiento,
recopilacin, tabulacin, clculos, etc.), son las que se incluyen frecuentemente en el cuerpo de los estudios
de las investigaciones o de los informes.

P g i n a | 27
Son esquemas organizados en los que se registran los datos estadsticos en forma organizada con la
frecuencia de cada uno de estos, los mismos se observan en columnas y filas con la finalidad de presentar
la informacin recopilada de una investigacin o estudio determinado. Por lo tanto, las tablas estadsticas
es una ordenacin de datos numricos en filas y columnas con las especificaciones correspondientes
acerca de la naturaleza de los datos. Constituye una forma til de presentar los datos estadsticos obtenidos
en una investigacin a travs de cuadros, tablas y grficos. Esta puede presentar la informacin para
referencias generales o para un uso especfico o particular.
La ordenacin de datos en tablas estadsticas, denominada forma tabular o tabulacin, estn constituidos
por datos cuantitativos y stos a su vez estn en filas y columnas de acuerdo con las especificaciones de
los datos. La tabulacin es una presentacin sistemtica de los datos estadsticos de una investigacin
determinada, estos se presentan en forma resumida a travs de las tablas o cuadros estadsticos.
Las tablas estadsticas estn compuestas por las siguientes partes:
1. Ttulo.
2. Encabezamiento.
3. Columna Matriz. o Concepto
4. Cuerpo.
5. Notas de Encabezado
6. Nota de Pie
7. Fuente de Datos
1. Ttulo: Es una descripcin del contenido de la tabla. Debe ser compacta y completa. Este comprende las
siguientes partes:
Numeracin de la tabla: cuando las tablas forman parte de un texto o de un grupo deben ser
numerados en la parte superior central de la hoja.
Titulo Propiamente Dicho: se debe seguir los siguientes puntos:
- Se debe ubicar centrado en la parte superior de la tabla, y usando letras maysculas para todo el
enunciado.
- Se debe redactarse con precisin y que exprese brevemente los datos que se presentan en el
cuadro.
- Un ttulo completo indica:
Qu son los datos incluidos en el cuerpo de la tabla?
Dnde est el rea representada por los datos?
Cmo estn los datos clasificados?
Cundo ocurrieron los datos?
2. Encabezado: Es el ttulo de la parte de una columna o columnas. Las tablas ms simples pueden
consistir solamente de dos columnas y dos encabezados: Una para los conceptos y otra para los datos.

P g i n a | 28
Debe disponerse en la parte superior del cuadro y las designaciones que comprenden debern escribirse
en lo posible horizontalmente, debiendo ser preciso y breves, as mismos se dispondr en un orden
lgico de izquierda a derecha. Otra observacin para la elaboracin del encabezamiento, es que tanto l
como las diversas columnas deben separarse con rayas, cerrando el cuadrado por la parte superior e
inferior con una raya gruesa o una doble raya, en la actualidad existe la preferencia de no rayar
verticalmente el encabezamiento.
3. Concepto o Columnas Matriz: La descripcin en hilera de la tabla son llamados conceptos; y estos son
colocados al lado izquierdo de la tabla. La naturaleza de las clasificaciones es indicada por los
encabezados de las columnas, incluyendo la columna matriz. Es bueno Recordar que los datos
estadsticos pueden referirse a clasificaciones cualitativas, cuantitativas, cronolgicas o geogrficas;
recordar esto es importante puesto que la naturaleza de los datos tomando en cuenta esta clasificacin
determinar en parte el arreglo en que se lleven stos a la columna matriz. Existen variadas formas de
arreglo de los datos en la columna matriz. Es permisible disponerlos en orden alfabtico, mtodo que se
usa habitualmente cuando los datos se clasifican geogrfica o cualitativamente. Pueden ordenarse
tambin segn clases fijadas por la costumbre: casado, soltero, divorciado, viudo. Es factible observar
que si las diferentes nominaciones son ordenadas alfabticamente, se hace muy sencillo localizarlas.
Cuando se trata de clasificaciones cuantitativas, el arreglo puede hacerse en orden ascendente o
descendente. Cuando se refiere a clasificaciones cronolgicas, se ordenan los aos en sentido
ascendente: 1995, 1996, 1997, 1998, y cuando se trate de meses se comienza por el mes de Enero.
4. Cuerpo del cuadro: El cuerpo del cuadro es la parte que contiene los datos estadsticos presentados en
ste. Cada dato individual ocupa en el cuadro un lugar que corresponde a la interseccin de una fila y
una columna dada; por tanto, el significado de los datos en un lugar est indicado por las
especificaciones o partidas combinadas de la columna y la fila que se interceptan. Cuando el valor de uno
de los lugares del cuerpo del cuadro sea cero es conveniente marcar ese lugar con un guin, si no existe
el dato, si es estimado, o si la cifra indica alguna consideracin distinta a la del resto de los otros, debe
indicarse con una llamada y su respectiva aclaratoria al pie del cuadro. La representacin efectiva de los
datos en la tabla depende de los arreglos de las columnas en hileras.
5. Nota de Encabezado: Son usualmente escritas justamente arriba de los encabezados y debajo de los
ttulos. Son usados para explicar ciertos puntos relacionados con la tabla completa que no han sido
incluidos en el ttulo ni en los encabezados ni en los conceptos.
6. Nota de Pie: Las notas de pie son usualmente colocadas debajo de los conceptos. Son usados para
clarificar algunas partes incluidas en la tabla que no son explicadas en otras partes, tal como las notas de
pie en la tabla. Las notas al pie de los cuadros se utilizan para hacer aclaratorias sobre uno o varios
elementos en particular. La nota sobre la fuente de los datos debe indicar el origen de la informacin
presentada en el cuadro.
7. Fuentes: Las fuentes de datos o simplemente fuentes, es usualmente escrita debajo de las notas de pie.
Si los datos fueron recopilados y presentados por la misma persona, es costumbre no establecer la
fuente en la tabla. El objeto de la indicacin de las fuentes de los datos es el de proporcionar el debido
reconocimiento a la persona u organismo que recopil y /o public los datos, adems de indicar, a
quienes deseen ampliar la informacin, el origen de la misma
Uso de porcentajes: En las tablas estadsticas, normalmente se utilizan porcentajes. Existen cuadros que
slo poseen datos en forma de porcentajes, mientras que otros vienen expresados tanto en valores
absolutos como en porcentajes. La finalidad del uso de los porcentajes en los cuadros es facilitar la
comparacin, de tal manera que las relaciones que puedan existir se perciban. Cuando se usan estos es

P g i n a | 29
necesario recalcar las bases sobre las cuales se han establecido dichos porcentajes; esto tiene como
propsito indicar al lector cual es la base que s esta utilizando para determinar el mismo.
PROPIEDADES DE LAS TABLAS ESTADSTICAS
o Deben simplificar la presentacin de los datos
o Tratar un solo tema
o Elaborar un arreglo apropiado de clasificacin.
o El tamao de la tabla debe crearse de tal manera que no sea ni muy largo y angosto, ni muy ancho o
corto.
o Cada signo de presentacin que se va a utilizar debe estar plenamente identificado.
o Las notas que se encuentran al pie de los cuadros deben incluir las descripciones en forma precisa.
Ejemplo de tabla:
Nmero de cuadro
Tabla N 1
Razn de falla en el sistema de cajeros automticos del Banco UAW

Ttulo
durante los ltimos 6 meses en la ciudad de Chiclayo
Encabezamiento Razn de la falla N veces %
Servidor sin memoria disponible 32 43.2
Software del servidor 30 40.5

C
U
E Falla elctrica 6 8.1
R
P Hardware del servidor 4 5.4
O
Conexin fsica 2 2.7
Total 74 100.0
Fuente Fuente: Banco UAW

P g i n a | 30
DISTRIBUCIONES DE FRECUENCIA
Despus de la recopilacin de los datos, es necesario resumirlos y presentarlos en forma tal, que faciliten su
comprensin y su posterior anlisis y utilizacin. Para ello, se ordenan en cuadros numricos y luego se
presentan en grficos.
DISTRIBUCIN DE FRECUENCIAS PARA VARIABLE CUALITATIVA:
Supongamos que en una muestra de n unidades estadsticas se observan k categoras o modalidades

diferentes C1, C2,..., Ck de alguna variable cualitativa X. La tabulacin de estos n datos, es la distribucin de
frecuencias por categoras.
Categoras de la Frecuencias Frecuencias Frecuencia

variable X
Absoluta ni Relativas hi Porcentajes Pi
C1 n1 h1 p1
C2 n2 h2 p2
Ck nk hk pk
Total N 1.00 100.00
La frecuencia absoluta ni, es el nmero de datos observados en cada categora o modalidad. La suma de
todas las frecuencias absolutas es igual al total n de datos observados.
La frecuencia relativa hi, se define en cada categora por hi = ni / n. La suma de todas las frecuencias
relativas es igual a uno.
La frecuencia relativa porcentual se define en cada fila por hi %= hi x 100%. El total de las frecuencias
porcentajes es igual a cien.
Ejemplo:
Razn de la falla ni hi hi%
Servidor sin memoria disponible 32 0.432 43.2
Software del servidor 30 0.405 40.5
Falla elctrica 6 0.081 8.1
Hardware del servidor 4 0.054 5.4
Conexin fsica 2 0.027 2.7
Total 74 1.000 100.0

P g i n a | 31
DISTRIBUCIN DE FRECUENCIAS PARA VARIABLES CUANTITATIVAS DISCRETAS
Sea x1, x2,..., xn un conjunto de n observaciones discretas y sean y1, y2, ..., ym el conjunto de valores
diferentes que toman las observaciones originales (m n).
En general para construir una tabla de distribucin de frecuencias requiere realizar las siguientes
operaciones:
Clasificacin: que consiste en determinar las categoras, que son los distintos valores que toman las
variables o los intervalos de clase.
Tabulacin: que consiste en distribuir las observaciones en las respectivas categoras de la variable. Aqu
se contabiliza cuantos elementos hay en cada categora, es decir, determinar cuantas veces se repite
(frecuencia) cada valor distinto o categora de la variable.
Cuando es grande el nmero de datos observados de una variable discreta, su organizacin es muy
engorrosa. En este caso para resumir los datos y poder calcular las medidas descriptivas, es conveniente
seguir el mtodo de organizacin de variable continua por intervalos.
Se llama frecuencia absoluta, al nmero de veces que aparece este valor en el conjunto de observaciones
y se representa por ni, i= 1, 2, ..., m.
La suma de todas las frecuencias absolutas simple es igual al nmero total de observaciones.
Valores Frecuencias Frecuencias Frecuencias

Relativas
diferentes absolutas Relativas
Porcentuales
observados ni hi hi%
y1 n1 h1 h1%
y2 n2 h2 h2%
... ... ... ...
ym nm hm hm%
Total Nm 1 100
Se llama frecuencia relativa, al cociente de la frecuencia absoluta entre el nmero de observaciones.
ni
hi
n
La suma de todas las frecuencias relativas es igual a la unidad.
Se llama frecuencia relativa porcentual, a la frecuencia relativa multiplicada por cien.
Ejemplo:

P g i n a | 32
Cantidad de Artculos
N Lotes hi hi%
defectuosos
1 5 0.05 5
2 14 0.14 14
3 18 0.18 18
4 25 0.25 25
5 20 0.20 20
6 10 0.10 10
7 5 0.05 5
8 3 0.03 3
Total 100 1.00 100
DISTRIBUCIN DE FRECUENCIAS PARA VARIABLES CONTINUAS
Sea x1, x2,..., xn un conjunto de n observaciones continuas, siendo n el tamao de la muestra.
En general para construir una tabla de distribucin de frecuencias requiere realizar los siguientes pasos:
1. Determinar la amplitud o recorrido(R): es la longitud del recorrido de los datos. O sea:
R = xmx xmin
2. Determinar el nmero de intervalos(m): Haciendo uso de la formula de STURGES
m = 1 + 3.32 log(n)
Se recomienda que el nmero de clases est entre 5 y 15
3. Determinemos la amplitud de clase (C):
C=R/m
4. Construir los intervalos de clase partiendo de x min luego se va sumando la amplitud de clase. Los
extremos de un intervalo deben estar preferentemente definidos, de modo que no exista duda o
ambigedad en el momento de la tabulacin. Un valor x i slo puede pertenecer a un intervalo y
slo uno. En este caso denominaremos el intervalo Li-Ls que significa que es cerrado por la
izquierda y abierto por la derecha.
5. Luego se calcula la marca de clase, que es el punto medio del intervalo denotado por yi.
Li Ls
yi Donde: Li es el lmite inferior del intervalo
2
Ls es el lmite superior del intervalo
6. Luego obtener la frecuencia absoluta (ni ) que es el procedimiento que consiste en distribuir las
observaciones en los diferentes intervalos.

P g i n a | 33
7. Calcular las frecuencias absolutas acumuladas (N i), que es la suma de las frecuencias absolutas
hasta la i-sima frecuencia absoluta.
i
N i n1 n 2 ... n i n
j1
j
8. Calcular la frecuencia relativa, que es el cociente de la frecuencia absoluta entre el nmero de

observaciones.
ni
hi
n
La suma de todas las frecuencias relativas es igual a la unidad.
9. Calcular la frecuencia relativa acumulada, que es la suma de las frecuencias absolutas hasta la i-
sima frecuencia relativa.
i
H i h1 h 2 ... h n h j
j1
tambin:
Ni
Hi
n
Intervalos de Marcas Frecuencias Frecuencias Frecuencias Frecuencias Frecuencias

clase de clase Absolutas Absolutas Relativas Relativas Relativas
Acumuladas Acumuladas Porcentuales
Li-Ls yi ni Ni hi Hi hi%
Y0 y1 y1 n1 N1 h1 H1 h1%
y1 y2 y2 n2 N2 h2 H2 h2%
.... ... ... ... ... ... ...
ym-1 ym ym nm Nm=n hm Hm=1 hm%
Totales n 1 100

P g i n a | 34
Ejemplo:
Ingresos
yi ni Ni hi Hi %
($)
36 45 40.5 6 6 0.13 0.13 13
45 54 49.5 5 11 0.11 0.24 11
54 63 58.5 16 27 0.36 0.60 36
63 72 67.5 12 39 0.27 0.87 27
72 81 76.5 4 43 0.09 0.96 9
81 90 85.5 2 45 0.04 1.00 4
Total 45 1.00 100
REPRESENTACIN GRFICA DE INFORMACIN ESTADSTICA
El fin que persigue todo grfico es el de dar una idea rpida de la situacin que en ese momento se est
investigando. Por tal motivo, la presentacin de los datos por medio de grficos debe ser de una forma
simple y de una compresin fcil. Es preferible construir un conjunto de grficos en donde cada uno de
ellos presente un aspecto sencillo de una situacin determinada, que presentar un solo grfico en el cual se
observen demasiadas relaciones que se haga difcil estudiar de una forma efectiva. Por lo tanto, no debe
sobrecargarse un grfico para tratar de mostrar demasiadas categoras, ya que, la simplicidad es una de la
caracterstica bsica de estos.
Existe una gran variedad de tipos de grficos entre los que se pueden mencionar los pictogramas,
cartogramas, de cuadrados, de tringulos y crculos proporcionales, de sectores circulares, de barras,
lineales, estereogramas, polares, etc., pero los ms utilizados y de interpretacin sencilla son los: Los
grficos de barras, los de sectores circulares y los lineales. En esta asignatura solo se estudiaran las
siguientes grficas:
1. Diagrama de Barras.
2. Diagrama Circular o de Pastel.
3. Histograma.
4. Polgono de Frecuencia.
5. Diagrama de Lneas.
Los diagramas de lneas, el histogramas, el polgono de frecuencia y la ojiva son grficos cartesianos por
que para su construccin requieren del plano cartesiano, a estos se le denominan en trminos generales
grficos de lneas. El diagrama de barras y el de pastel se les denomina grficos de sectores, puesto que,
no requieren del plano cartesiano para su construccin.

P g i n a | 35
Diagrama de Barras
Los diagramas de barras son grficas que se utilizan con mucha frecuencia para representar datos de
una investigacin determinada, son de fcil interpretacin para cualquier lector. Estos grficos estn
constituidos por una serie de rectngulos o barras. La longitud y anchura de cada barra representa un
fenmeno.
La forma de elaborar los mismos es la siguiente: se utiliza un sistema de coordenadas rectangulares y

se llevan al eje de las x los valores que toma la variable en estudio y en el eje de las y se colocan
las frecuencias de cada barra. Luego se construyen los rectngulos, tomando como base al eje de las
abscisas, cuya altura ser igual a cada una de las diferentes frecuencias que presentan las variables
en estudio. La magnitud con que viene expresada la variable se observa en la longitud de las barras
(rectngulos). Es importante destacar que solamente la longitud de las barras y no su anchura es lo que
denota la diferencia de magnitud entre los valores de la variable. Todas las barras tienen que tener una
anchura igual, separadas entre s, preferiblemente por una longitud igual a la mitad del ancho de estas
Diagrama de barras correspondiente a los aos de servicio de
los empleados de la Empresa
18
16
14
12
Frecuencias
10
8 16
6 12
4 9
7
2 4 4 5
3
0
3 4 5 6 7 8 9 10 11 12
Aos de servicio
o distancias iguales entre barras. Es recomendable, que las barras no sean ni excesivamente cortas y
anchas, ni demasiado largas y angostas, esto es con el objeto de dar una visin objetiva de la
investigacin en estudio. Las barras se pueden graficar tanto verticalmente como horizontalmente. Se
pueden elaborar barras compuestas y barras agrupadas. Ejemplo:
Grfico Circular o de Pastel
La grfica de pastel (grfico de sectores) es un tipo de grfica que consiste en representar por medio de
la circunferencia o un crculo las magnitudes que expresan los datos de un estudio determinado. Este
tipo de grfica considera la circunferencia como representante de los datos estadsticos de una
investigacin cualquiera. Por tal motivo, se dividir en tantos sectores como variables tenga la
investigacin en estudio; la magnitud de cada sector se encontrar en relacin directa con la magnitud
de la variable a representar, tomando en cuenta que toda la investigacin se representa con 360. En
general, los datos que se representan por medio de este diagrama son partes componentes de un total.
Para su elaboracin se procede de la siguiente forma: se considera la circunferencia como

representacin del total de la investigacin en estudio, por tal motivo, se dividir toda su superficie en
tantas secciones como variables tenga la investigacin en estudio, las superficies de las sesiones de la

P g i n a | 36
circunferencia deben ser proporcionales a la magnitud de cada componente representado por las
variables.
Ejemplo: Sea la siguiente tabla sobre la Razn de falla en el sistema de cajeros automticos del Banco
UAW
Razn de la falla N veces %
Servidor sin memoria disponible 32 43.2
Software del servidor 30 40.5
Falla elctrica 6 8.1
Hardware del servidor 4 5.4
Conexin fsica 2 2.7
Total 74 100.0
En la grfica de pastel se observa la variable y el % correspondiente de la misma.
Conexin fsica
2.7%
Servidor sin Software del
memoria servidor
disponible 40.5%
43.2%
Falla elctrica Hardware del

8.1% servidor
5.4%
Histograma
El histograma es un diagrama en forma de columna, muy parecido a los grficos de barras. Se define
como un conjunto de rectngulos paralelos, en el que la base representa la clase de la distribucin y su
altura la magnitud que alcanza la frecuencia de la clase correspondiente. Son barras rectangulares
levantadas sobre el eje de las abscisas del plano cartesiano utilizando escalas adecuadas para los
valores que asume la variable en la distribucin de frecuencia. El ancho de la base de los rectngulos
es proporcional a cada clase de la distribucin, de tal manera que, cuando la distribucin tiene clases de
igual el tamao de todos los rectngulos tendr bases iguales. Los lados del rectngulo se levantan
sobre los puntos del eje de las x que corresponden a los limites de cada clase y la longitud de los
mismos ser igual a la frecuencia que tenga esa clase, los lados por lo tanto corresponden a la
frecuencia de cada clase de la distribucin de frecuencia.
Cuando se elaboran grficas estadsticas en el plano cartesiano es recomendable que en el eje de las
ordenadas se representen las frecuencias y en el eje de las abscisas las variables independiente. El eje
de las y que representa las frecuencias debe empezar siempre en cero. Es importante sealar que la
longitud del eje de las y que representa la altura tenga el 75 % de la longitud del eje de las x, es decir, si

P g i n a | 37
las variable independientes ocupan en el eje x 8 cm, la mxima altura que ocuparan las frecuencias en
el eje y tendr que ser de 6 cm.
Pasos para construir un histograma
1. Se trazan dos ejes de coordenadas, el de abscisas y el de ordenada. Se coloca sobre el eje de las
x los limites inferiores de cada clase y el ultimo limite superior de la distribucin, y sobre el eje de
las y se coloca la magnitud de la frecuencia de cada clase.
Marca de
Clases N
clase (yi)
20 24 8 22
25 29 15 27
30 34 16 32
35 39 21 37
40 44 16 42
45 49 4 47
50 54 6 52
55 59 11 57
60 64 3 62
Total 100
2. Se trazan perpendiculares por los limites de cada clase, la altura de las perpendiculares ser igual a
la frecuencia de cada clase; y para finalizar se unen las dos perpendiculares que representan a
cada clase, el resultado final ser el histograma.
Histograma correspondiente a las horas extras laboradas

por un grupo de obreros petroleros.
25
21
20
16 16
15
Frecuencias
15
11
10 8
6
5 4
3
0
0
15 20 25 30 35 40 45 50 55 60 65
Horas extras laboradas

P g i n a | 38
Polgono de frecuencia
Es un diagrama de lneas que representa los puntos medios y las respectivas frecuencias de una
distribucin de frecuencia de clase. Es una representacin grfica cerrada de una distribucin de
frecuencia. Es otra de las formas de graficar los valores de una distribucin de frecuencia de clase.
No existe ninguna razn estadstica para seleccionar los polgonos de frecuencia en vez de los
histogramas o viceversa, los histogramas simplemente representan una manera de graficar y los
polgonos de frecuencia otra; la diferencia entre ambos radica en que una barra vertical rectangular
representa una clase y su frecuencia en el histograma y un punto cumple la misma funcin en el
polgono de frecuencia.
Pasos para elaborar un polgono de frecuencia
1. Se dibuja un plano cartesiano.
2. Se traza sobre el eje de las abscisas, a distancias iguales, los puntos medios de las diferentes
clases de la distribucin de frecuencia.
3. Se levantan perpendiculares por cada una de las marcas de clase, con una longitud igual a la
frecuencia de cada una de las clases que integran la distribucin de frecuencia. Al final de cada
perpendicular se marca un punto.
4. Los puntos resultantes se unen por medio de una lnea recta obtenindose una lnea poligonal.
5. Con la finalidad de cerrar la lnea poligonal se agrega una clase imaginaria con frecuencia cero a
cada extremo de la distribucin de frecuencia, por tal motivo ambos extremos del polgono se cortan
con el eje de las abscisas.
Tambin se puede elaborar un polgono de frecuencia despus de haber graficado un histograma; si se

determina el punto medio de cada rectngulo de un histograma y esos puntos medios se unen por
medio de segmentos de recta dan como resultado el polgono de frecuencia.
Observe que los puntos medios, 17 y 67 del polgono son imaginarios, se utilizan para cerrar la lnea
poligonal, lo que da origen al polgono de frecuencia.
Poligono de frecuenca relacionado con las horas extras laboradas

por un grupo de obreros petroleros de la zona
25
21
20
Frecuencias
16 16
15 15
11
10
8
6
5
4
3
0 0 0 0 0
17 22 27 32 37 42 47 52 57 62 67
Puntos Medios

P g i n a | 39
Diagrama de Lnea
El diagrama de lnea es una grfica que se representa en el plano cartesiano, con los datos de un
fenmeno determinado para el cual se ha elaborado un cuadro estadstico. En trminos generales se
puede decir que so aquellas lneas que se dibujan en los ejes cartesianos, siguiendo algunos criterios.
Criterios para elaborar un diagrama de Lneas
1. La utilizacin de la escala que se utilizar en el plano cartesiano puede variar tomando en cuenta el
fenmeno que se va graficar. No es necesario que las abscisas (ejes x) y las ordenadas (eje y) del
plano cartesiano lleven la misma escala; sin embargo, cuando las magnitudes de las variables no se
diferencian sustancialmente, es recomendable utilizar escalas iguales para obtener un grfico de
mayor precisin.
2. Cuando un a de las variables en estudio se inicia con valores muy altos es recomendable no
comenzar el eje por el origen cartesiano sino por un valor prximo o por el mismo valor por donde
comienza la variable.
3. Es costumbre representar en el eje de las x del plano cartesiano la variable independiente del
estudio que se realiza y en el eje de las y la variable dependiente. En aquellos casos que se dificulta
distinguir el tipo de variable se recomienda colocar en la ordenada del plano cartesiano las
frecuencias de las variables en estudio y sobre la abscisa la variable cronolgica (aos, meses,
semanas, das, horas, etc.).
Ejemplo: Los datos que se presenta a continuacin corresponden a los aos de servicios de 60
empleados de una empresa
4 3 4 5 6 7 8 9 10 8 4 8 6 3 8 10 7 10 9 10
8 3 5 7 8 6 10 9 7 8 5 3 8 7 8 10 8 10 8 7
7 9 8 7 6 5 7 10 8 9 8 10 7 6 7 8 6 7 6 8
Procedimiento.- Con los datos se procedi a elaborar una tabla estadstica:
Aos de servicio de los Empleados de una Empresa
Aos de Servicio N de Empleados

3 4
4 3
5 4
6 7
7 12
8 16
9 5
10 9
TOTAL 60

P g i n a | 40
Luego se marc en el eje de las x los aos de servicio con la frecuencia correspondiente en el
eje de las y. Luego, esos puntos se unieron mediante lneas y el resultado fue la grfica de
lnea de los aos de servicio de los empleados de la empresa
Grfica de Lnea correspondiente a los aos de servicio de los empleados de la

empresa
20
18
16
14
Frecuencias
12
10
0
3 4 5 6 7 8 9 10
Aos de servicio

P g i n a | 41
MEDIDAS DESCRIPTIVAS.
INTRODUCCIN
La naturaleza de los datos permite, en muchos casos, cierto tipo de anlisis a partir de los grficos de la
distribucin. Sin embargo, tambin es necesario considerar resmenes numricos que permitan tener una
mejor idea de la manera como los datos estn distribuidos a lo largo de la recta. Estas caractersticas
numricas se llaman estadgrafos.
Algunas de estas medidas dependen de todas las observaciones y son muy sensibles a las fluctuaciones de
stas; otras sin embargo, no dependen de todas las observaciones, siendo resistentes ante los cambios de
los valores extremos.
La mayor parte de los conjuntos de datos muestran a agruparse alrededor de un valor central. Estos
valores, que de alguna manera tipifican al conjunto, se llaman medidas de posicin. Entre estas medidas se
tiene: la media aritmtica, la mediana, la moda y los percentiles
Adems de las medidas de tendencia central estn las medidas que indican la dispersin que se produce en
torno de la media de los datos. Entre estas medidas se tiene: la varianza, la desviacin estndar, el
coeficiente de variacin.
La manera como estn distribuidos los datos de un conjunto puede resumirse en lo que se llama la
asimetra y el apuntamiento de la curva que los describe.
MEDIDAS DE TENDENCIA CENTRAL

MEDIA ARITMTICA O PROMEDIO:
La medida de tendencia central con la cual probablemente est usted ms familiarizado es la media
aritmtica; se conoce tambin como media o promedio; se representa como x y se conoce como "x barra".
Aunque la media es una excelente medida de resumen de una serie de datos, stos deben seguir una
distribucin aproximadamente normal.
A la media se le llama "el centro de gravedad" de una distribucin de frecuencias. Esto significa que la
media acta como el punto de apoyo en una balanza, como se ve en la figura.
Fig: La media es el centro de gravedad de la distribucin
Simbologa:
Tamao
Media aritmtica
(nmero de datos)
Muestra n x : media muestral
Poblacin N : media poblacional

P g i n a | 42
Calculo de la media para datos no agrupados
x x2 ... xn x i
x 1 i 1
n n
Se lee as: la media es igual a la suma de las xs dividido por n.
Ejemplo: La siguiente tabla muestra el nmero de reclamos y quejas presentadas por clientes de una tienda
a lo largo de una semana. Si se elige al azar un da de la semana cuntos reclamos se espera tener?
Da de la semana Lun Mar Mier Jue Vier Sab
Reclamos / da 8 10 5 12 10 15
x i
8 10 5 12 10 15 60
x i 1
10 reclamos
n 6 6
Interpretacin: Se espera que los clientes de esta tienda realicen 10 reclamos por da.
Calculo de la media para datos agrupados

m
y n y 2 n 2 ... y m n m y n
i 1
i i
y 1 1 ; yi : marca de clase i
n n
Ejemplo: La distribucin de frecuencias siguiente, representa los puntajes obtenidos en una evaluacin del
desempeo, aplicado al personal tcnico de una empresa. Si se elige al azar un tcnico Qu puntaje se
espera que tenga en su evaluacin de desempeo?
Desempeo Marca de clase Nmero de

(puntos) yi =(li + ls)/2 tcnicos (ni)
11 - 16 (11+16)/2 = 13.5 4
16 - 21 18.5 8
21 - 26 23.5 15
26 - 31 28.5 23
31 - 36 33.5 10
Total 60
13.5(4) 18.5(8) 23.5(15) 28.5(23) 33.5(10) 1545

y 25.7
60 60
Interpretacin: Se espera que el tcnico elegido al azar tenga un puntaje de 25.7 en su evaluacin de
desempeo.

P g i n a | 43
Ventajas y desventajas de la media aritmtica

Ventajas:
Es un concepto familiar a la mayora de las personas e intuitivamente claro.
Es nica para cada conjunto de datos.
Es posible comparar medias de diferentes muestras.
Desventajas:
Puede verse afectada por los valores extremos.
Si la muestra es grande y los datos no estn agrupados, su clculo es tedioso.
Si los datos estn agrupados en clases con extremos abiertos, no es posible calcular la media
Nota: La media aritmtica como estadgrafo de posicin de una distribucin, proporciona una idea de la
posicin de los valores alrededor de la media, La media es un promedio, por tanto no significa:
Que todos los valores observados resultan ahora ser iguales.
Que la media se ubica exactamente en el centro de la distribucin, excepto si la distribucin es
simtrica. Entonces, la media aritmtica en general no divide a la distribucin.
Ejercicio: En una pequea empresa de 10 trabajadores se hizo una prueba de razonamiento y otra de
habilidad. Se obtuvieron las siguientes calificaciones.
Razonamiento 48 38 65 56 16 55 28 62 32 48
Habilidad 36 18 54 47 21 56 68 70 72 38
En cul prueba se espera que tengan mayores resultados los trabajadores?
LA MEDIANA O EL VALOR MEDIANO: Me
Es la medida que divide en dos subconjuntos a los datos, de tal manera que 50% de los datos es menor a la
mediana y el otro 50% es mayor a la mediana.
La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o
decreciente, el valor que divide en dos partes la muestra.
Clculo de la mediana para datos no agrupados
Cuando el nmero de datos es impar, la mediana es el valor del elemento intermedio: Me = xn 1 / 2
Ejemplo: Los siguientes datos se refieren al nmero de clientes atendidos durante los ltimos 9 das en una
tienda. 14, 12, 7, 17, 10, 13, 15, 10, 12
Primero se ordenan los datos:
7, 10, 10, 12, 12 13, 14, 15, 17

P g i n a | 44
Interpretacin: Durante 5 das se atendieron a menos de 12 clientes y durante 5 das se atendieron a ms

de 12 clientes.
Cuando el nmero de datos es par, la mediana es igual al promedio de los valores centrales
xn / 2 xn / 2 1
Me =
2
Ejemplo: Se tienen los siguientes datos 14, 26, 12, 20, 25, 26, 34, 36, 10
Primero se ordenan los datos
10 12 14 20 25 26 34 36
Me: (20+25)/2 = 22.5
Calculo de la mediana para datos agrupados
n
2 N i 1
Me l i c
ni

Donde:
Li : lmite inferior del intervalo mediano
c : amplitud del intervalo mediano
ni : frecuencia del intervalo mediano
Ni-1 : frecuencia acumulada antes del intervalo mediano
Para determinar el intervalo mediano se debe calcular el valor de n/2 y ubicar en la columna de frecuencias
acumuladas la frecuencia que supera al valor de n/2, en ese lugar se ubicar el intervalo mediano.
Ejemplo: La tabla siguiente muestra la experiencia profesional (aos) del personal tcnico que labora en una
empresa.
Experiencia
N de tcnicos
profesional Ni
(ni)
(aos)
0 - 3 4 4
3 - 7 12 16 35 16
Me 7 4 10.2
aos
7 - 11 24 40 IMe 24
11 - 15 16 56
15 - 19 10 66
19 - 23 4 70
Total 70

P g i n a | 45
Interpretacin: El 50% de los profesionales tcnicos que laboran en esta empresa tienen una experiencia
laboral igual o menor a 10 aos 2 meses. El otro 50% de los profesionales tiene una experiencia laboral
igual o mayor a 10 aos y 2 meses.
Ventajas y desventajas de la mediana
Ventajas
La mediana es ms recomendable que la media aritmtica, cuando:
La mediana no est afectada por los valores extremos como sucede con la media.
Se puede determinar para datos cualitativos, susceptibles de ordenarse de acuerdo a rangos,
calificaciones o categoras.
Desventajas
Como valor central, se debe ordenar primero la serie de datos.
Para una serie amplia de datos no agrupados, el proceso de ordenamiento de los datos demanda
tiempo y usualmente provoca equivocaciones.
LA MODA O VALOR MODAL: Mo
La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que ms se repite, es la nica
medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la
realizacin de ningn clculo.
Por su propia definicin, la moda no es nica, pues puede haber dos o ms valores de la variable que
tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos una distribucin bimodal o
polimodal segn el caso
Calculo de la moda para datos no agrupados
Se observa en el conjunto de datos el valor que se repite con mayor frecuencia.

- El conjunto: 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 13 tiene la moda Mo = 9.
- El conjunto: 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos modas, 4 y 7; es una distribucin bimodal
- El conjunto: 3, 5, 8, 10, 12, 16, 18 no tiene moda.
Calculo de la moda para datos agrupados
1
Mo l i c
1 2
Donde:
1 : frecuencia de la clase modal menos la frecuencia de la clase anterior
2 : frecuencia de la clase modal menos la frecuencia de la clase siguiente

P g i n a | 46
Ejemplo: La tabla siguiente muestra los errores de facturacin durante un mes, en una empresa
comercializadora.
Errores de
Das
facturacin
6
Mo 3 4 5.4
03 6 6 4
37 12
7 11 8 Interpretacin: Durante un mes, el nmero ms frecuente de

11 15 3 errores de facturacin en esta empresa comercializadora es de 5.
15 19 1
Total 30
Ventajas y desventajas de la moda

Ventajas
Se puede utilizar tanto para datos cualitativos como cuantitativos.

No se ve afectada por los valores externos.
Desventajas
No tiene un uso tan frecuente como la media.

Muchas veces no existe moda (distribucin amodal)
En otros casos la distribucin tiene varias modas, lo que dificulta su interpretacin.
RELACIN ENTRE LA MEDIA, MEDIANA Y MODA
En una distribucin de frecuencias simtricas cuya representacin grfica

es acampanada y adems unimodal: coinciden exactamente en el mismo
valor; media, mediana y moda.
= Me = Mo
Si la distribucin es ms alargada para valores grandes de la variable

(asimetra a la derecha o positiva)
Mo < Me <

P g i n a | 47
Si la distribucin es ms alargada para valores pequeos de la variable

(asimetra a la izquierda o negativa)
< Me < Mo
LOS CUANTILES
Cuando los valores ordenados de una variable han de ser divididos en grupos homogneos en cuanto al
tamao, se suelen utilizar los cuantiles.
Los cuantiles ms usados en el anlisis estadstico son: cuartiles, deciles y percentiles. Los cuantiles se
usan frecuentemente para describir el comportamiento de una poblacin. Los valores se dan a menudo en
tanto por ciento.
Clculo para datos no agrupados
Trabajaremos con lo percentiles por lo que da informacin acerca de cmo se distribuyen los valores sobre
el intervalo, desde el menor hasta el mayor. El percentil se define como sigue:
El p-simo percentil es un valor tal que por lo menos p por ciento de las
observaciones son menores o iguales que este valor y por lo menos (100 p) por
ciento de las observaciones son mayores o iguales que este valor.
Para calcular del p-simo percentil se aplica el siguiente mtodo:
1 Ordenar los datos de manera ascendente
p
2 Calcule un ndice i n , en donde p es el percentil de inters y n es la cantidad de observaciones.
100
3 Si i no es entero, se redondea. El valor entero inmediato mayor que i indica la posicin del p-simo
percentil.
Si i es entero, el p-simo percentil es el promedio de los valores de los datos ubicados en los lugares i e i+1
Ejemplo: Se tienen los siguientes valores 27, 25, 20, 15, 30, 34, 28 y 25.
Encuentre el percentil 50 y 85
Se ordena: 15 20 25 25 27 28 30 34
Para calcular el percentil 50
p 50
Se calcula i n = 8 4
100 100
15 20 25 25 27 28 30 34
P50

P g i n a | 48
P50 = (25 + 27) / 2 = 26
Para calcular el percentil 85
p 85
Se calcula i n = 8 6.8 7
100 100
P85
15 20 25 25 27 28 30 34
P85 = 30
Clculo para datos agrupados

Se realiza de modo similar al clculo de la mediana. Si queremos encontrar el p-simo percentil de orden p,
p
procedemos a localizar el intervalo que contiene el dato n .
100
( p / 100)n N i 1
Pp li c
ni
Donde:
[li ls) : el intervalo que contiene dicho percentil
c : la amplitud del intervalo
ni : frecuencia del intervalo
Ni-1 : frecuencia acumulada antes del intervalo
Ejemplo: Los siguientes datos es el nmero de piezas fabricadas por 110 de trabajadores en una semana.
a. Cul es la cantidad de piezas como mximo que fabrica el 25% de trabajadores con menor produccin?
b. Cul es la cantidad de piezas como mnimo que fabrica el 25% de trabajadores con mayor produccin?
N de piezas N de
Ni
fabricadas trabajadores
20 25 5 5
25 30 7 12
30 35 9 21
35 40 14 35 P25
40 45 20 55
45 50 26 81
50 55 18 99 P75
55 60 11 110
Total 110
a. Se calcular el primer cuartil, tomamos P = 25

P g i n a | 49
p 25
Calculamos n = 110 27.5
100 100
27.5 21
P25 35 5 43.1
14
El 25% de trabajadores con menor produccin fabrican como mximo 43.1 piezas.
b. Se calcular el tercer cuartil, tomamos P = 75
p 75
Calculamos n = 110 82.5
100 100
82.5 81
P75 50 5 50.4
18
El 25% de trabajadores con mayor produccin fabrican como mnimo 43.1 piezas.
MEDIDAS DE DISPERSIN
Las medidas de posicin central son los valores que de una manera condensada representan una serie de
datos, pero realmente no son suficientes para caracterizar una distribucin de frecuencia. Para describir una
distribucin de frecuencia o serie de datos es necesario, por lo menos otra medida que indique la dispersin
o variabilidad de los datos, es decir, su alejamiento de las medidas de posicin central. Estas medidas de
posicin central no tienen ningn valor si no se conoce como se acercan o se alejan esos valores con
respecto al promedio, en otras palabras es conocer como se dispersan o varan esos valores con respecto
al promedio de una distribucin de frecuencia.
La dispersin o variabilidad se entiende como el hecho de que los valores de una serie difieran uno de otro,
es decir, como se estn dispersando o distribuyendo en la distribucin. De acuerdo con esto es necesario
encontrar una medida que indique hasta que punto los valores de una variable estn dispersos en relacin
con el valor tpico. Las medidas de variabilidad son nmeros que expresan la forma en que los valores de
una serie de datos cambian alrededor de una medida de posicin central la cual por lo general es la media
aritmtica.
Se llama Variacin o Dispersin de los datos, el grado en que los valores de una distribucin o serie
numrica tienden a acercarse o alejarse alrededor de un promedio. Cuando la dispersin es baja indica
que la serie de valores es relativamente homognea mientras que una variabilidad alta indica una serie de
valores heterognea.
Cuando los valores observados de una serie estn muy concentrados alrededor del promedio, se dice que
ese promedio es o ser muy representativo; pero si estn muy dispersos con relacin al promedio, es decir
muy esparcidos con respecto al promedio, entonces ese promedio es poco representativo de la serie o
distribucin, puesto que no representan adecuadamente los datos individuales de esa distribucin. Es
importante obtener una medida que indique hasta qu punto las observaciones de una serie de valores
estn variando en relacin con el valor tpico de la serie.

P g i n a | 50
Las medidas de dispersin se clasifican en dos grandes grupos:

Las Medidas de Dispersin Absolutas
Las Medidas de Dispersin Relativas
MEDIDAS DE DISPERSIN ABSOLUTAS

RANGO O RECORRIDO (R)
Algo que responde a la identificacin de la dispersin de los datos de una muestra es el rango, el cual se
define como la diferencia entre el dato mayor menos el dato menor de un conjunto de datos. Su obtencin
es sumamente sencilla, sin embargo se considera que no es una medida muy significativa, su aplicacin es
ms til en la llamada estadstica no paramtrica. Una expresin para el rango puede ser vista como:
Rango xmax xmin
LA DESVIACIN TPICA O ESTNDAR
Es la medida de dispersin ms utilizada en las investigaciones por ser la ms estable de todas, ya que
para su clculo se utilizan todos los desvos con respecto a la media aritmtica de las observaciones, y
adems, se toman en cuenta los signos de esos desvos. Se le designa con la letra castellana S cuando se
trabaja con una muestra y con la letra griega minscula (Sigma) cuando se trabaja con una poblacin. Es
importante destacar que cuando se hace referencia a la poblacin l nmero de datos se expresa con N y
cuando se refiere a la muestra l nmero de datos se expresa con n. La desviacin tpica se define como:
La raz cuadrada positiva del promedio aritmtico de los cuadrados de los desvos de las observaciones
con respecto a su media aritmtica.
Es una medida de bastante precisin, que se encarga de medir el promedio de la dispersin de las
observaciones de una muestra estadstica. Las influencias de las fluctuaciones del azar, al momento de
seleccionar la muestra la afectan muy poco. Le da gran significacin a la media aritmtica de la serie de
valores. Es siempre una cantidad positiva.
Para datos no agrupados
(x i x) 2
n xi2 xi
2
s i 1
s
n 1 n(n 1)
Es importante recordar que cuando se trabaja con la frmula para datos no agrupados y se trata de
una muestra se utilizar como denominador n1, para corregir el sesgo, pero si en la muestra n
50, entonces se utilizar n, simplemente.
Para gatos agrupados
Para calcular la desviacin tpica en datos agrupados existen varios criterios en relacin a la
correccin del sesgo que se produce al tomar una muestra, en este estudio se considerar la

P g i n a | 51
formula que corrige el sesgo de aquellas muestras en estudio; sin embargo, cuando n sea mayor
que 50, no es necesario tal correccin. Existen muchas frmulas matemticas para calcular la
desviacin tpica, queda a juicio del estudiante utilizar la formula que l considere ms fcil,
siempre y cuando su aplicacin sea valedera.
( y i y ) 2 ni y n 2
s y 2
i ni
i i
n 1 s n
n 1
VARIANZA
Es otra de las variaciones absolutas y la misma se define como el cuadrado de la desviacin tpica; viene
expresada con las mismas letras de la desviacin tpica pero elevada al cuadrado, as S y . Las frmulas
2 2
para calcular la varianza son las mismas utilizadas por la desviacin tpica, exceptuando las respectivas
races, las cuales desaparecen al estar elevados el primer miembro al cuadrado.
yn
y n
2
2 i i
i i
s2 n
n 1
Ejemplo: El tcnico responsable del funcionamiento de una empaquetadora automtica, la ajust en

principio, para 450 gr. Media hora despus del principio de la produccin se apartaron 10 paquetes para
verificar su peso. Los resultados son:
Peso (gr) 448 450 453 451 447 449 446
Calcular la desviacin tpica

Para calcular la desviacin tpica utilizaremos la siguiente frmula:
n xi2 xi
2
s
n(n 1)
n = 7; x i 3144 ; x 2
i 1412140
Reemplazando:
71412140 3144
2
s 2.41gr
7(7 1)
Ejemplo: Calcular la varianza y la desviacin estndar de la resistencia a la tensin, en libras por pulgada
cuadrada (psi), de 80 muestras de una nueva aleacin de aluminio y litio.
Como el tamao de muestra es mayor a 50 no es necesario utilizar la correccin n-1
Entonces reemplazando en la frmula tenemos:
y n 2
13080 2
y 2
i ni
n
i i
2226400
80
s 33.13 psi
n 80

P g i n a | 52
Resistencia a la
2 2
tensin yi ni yi ni yi yi ni
(psi)
70 90 80 2 160 6400 12800
90 110 100 3 300 10000 30000
110 130 120 6 720 14400 86400
130 150 140 14 1960 19600 274400
150 170 160 22 3520 25600 563200
170 190 180 17 3060 32400 550800
190 - 210 200 10 2000 40000 400000
210 230 220 4 880 48400 193600
230 250 240 2 480 57600 115200
Total 80 13080 254400 2226400
MEDIDAS DE DISPERSIN RELATIVAS
Las medidas de variabilidad, estudiadas hasta ahora, solo permitan medir las dispersiones absolutas de los
trminos de la muestra. Las medidas, tomadas en esas condiciones, sern de utilidad, slo cuando se trata
de analizar una sola muestra; pero, cuando hay que establecer comparaciones entre distintas muestras,
ser necesario expresar tales medidas en valores relativos, que pueden ser proporciones o porcentajes.
Las medidas de dispersin relativas permiten comparar grupos de series distintas en cuanto a su variacin,
independientemente de las unidades en que se midan las diferentes caractersticas en consideracin.
Generalmente las medidas de dispersin relativas se expresan en porcentajes, facilitando as el estudio con
medidas procedentes de otras series de valores. La dispersin relativa viene a ser igual a la dispersin
absoluta dividida entre el promedio.
Existen varias medidas de dispersin relativa, pero, la ms usada es el coeficiente de variacin de Pearson,
este es un ndice de variabilidad sin dimensiones, lo que permite la comparacin entre diferentes
distribuciones de frecuencias, medidas en diferentes unidades. El coeficiente de variacin de Pearson se
designa con las letras CV. La formula matemtica es:
s
CV 100
x
Ejemplo: Un fabricante de tubos de televisin dispone de dos tipos de tubos, A y B. Los tubos tienen una
duracin media de 1495 h. y 1875 h. respectivamente. Las desviaciones tpicas son 280 para A y 310 para
B. Determinar qu tubo presenta mayor dispersin absoluta y cul presente mayor dispersin relativa.
Podemos decir directamente que el tipo B presenta mayor dispersin absoluta, ya que la desviacin tpica
es una medida de dispersin.
Para ver la dispersin relativa debemos calcular el Coeficiente de Variacin de Pearson (CV):
Tipo de Tubo x s CV CV (%)

A 1495 280 0.187 18.7
B 1875 310 0.165 16.5
Por tanto, ser el tubo A el que presente mayor dispersin relativa en su duracin.

P g i n a | 53
ESTADIGRAFOS DE ASIMETRA Y KURTOSIS:

COEFICIENTE DE ASIMETRA
En estadstica se dice que una distribucin de datos es simtrica si se le puede doblar a lo largo de un eje
vertical de una manera tal que coincidan los dos lados de la distribucin. Las distribuciones que no tienen
simetra con respecto al eje vertical se les llama sesgada o asimtrica. Una distribucin sesgada a la
derecha tiene una cola prolongada del lado derecho de la distribucin y una cola ms corta del lado
izquierdo de la misma; esta asimetra se le denomina positiva, cuando la cola de la distribucin del lado
izquierdo es ms larga que la del lado derecho, entonces la asimetra es negativa.
En una distribucin simtrica la media, la mediana y la moda son iguales. La simetra se mide por medio del
coeficiente de asimetra. Una distribucin simtrica tiene un coeficiente de asimetra igual a cero.
Cuando una distribucin de frecuencia es asimtrica, la media, la mediana y la moda se alejan una de otra,
es decir, las tres medidas de posicin son diferente; mientras ms se separe la media de la moda, mayor es
la asimetra. Si la distribucin de frecuencia es asimtricamente negativa, la cola de la curva de distribucin
se encuentra hacia los valores ms pequeos de la escala de las X y si la distribucin es asimtricamente
positiva la cola de la distribucin se ubica hacia los valores ms grandes de la escala de las X.
Karl Pearson un estudioso de la estadstica designo el coeficiente de asimetra con las letras SK y determin
la formula para su clculo, al cual se le denomin primer coeficiente de asimetra de Pearson
( X Mo)
SK1
S
Se tiene otro coeficiente de asimetra utilizando la mediana que se le denomina segundo coeficiente de
asimetra de Pearson, este es ms preciso que el primero
3( X Md )
SK 2
S
Si en una serie de valores la X Me Mo, entonces la distribucin de frecuencia presenta una curva
X =Me = Mo = 0, la curva de la distribucin es simtrica; y si la distribucin
asimtrica positiva; si la
presenta una curva en la que el Mo Me X , entonces se dice que la curva de la distribucin asimtrica
negativa.
Si la curva de una distribucin de frecuencia es sesgada, la media tratar de ubicarse hacia el extremo o
lado opuesto, de la serie de valores, donde se concentran los datos. Es bueno hacer referencia que en una
asimetra positiva la X Me y en una asimetra negativa la X Me.
Mo < Me < = Me = Mo < Me < Mo

P g i n a | 54
Considerar la asimetra de una curva de frecuencia marcadamente o ligeramente asimtrica, es un

asunto de criterio del investigador, puesto que no existen reglas rgidas establecidas que determinen las
lneas divisorias o parmetros entre ligeramente o marcadamente asimtrica; sin embargo cuando la
mayora de los datos de una distribucin de frecuencia se ubican en los extremos mayores o menores de
las variables se puede afirmar con certeza que la curva de la distribucin es marcadamente asimtrica.
Sin embargo, en este estudio se considerar que un coeficiente de asimetra segn los momentos
comprendido entre 0.30 SK 0.30, seria un buen limite para considerar una curva de distribucin
como ligeramente asimtrica, de lo contrario seria marcadamente asimtrica. El SK es el coeficiente de
asimetra de mayor precisin y confiabilidad, puesto que este, utiliza para su clculo todos los valores de
la serie de datos.
Es bueno afirmar que cuando el coeficiente de asimetra de una curva de distribucin es marcadamente
asimtrico no se puede utilizar la media aritmtica como medida de tendencia central, puesto que esta es
afectada altamente por los valores extremos de una serie de datos, en su lugar es recomendable utilizar
la mediana como medida de posicin.
COEFICIENTE DE KURTOSIS
Es el grado de apuntamiento o altura de la curva de una distribucin de frecuencia. La finalidad de la

Kurtosis es determinar si la distribucin de los trminos de una serie de valores responde a una curva
normal o no. Se utiliza para observar el promedio o posicin de la distribucin, as como la media, la
mediana y la moda, se puede en esta observar la asimetra, el grado de concentracin de los datos, en
fin, para observar en forma general el comportamiento de una serie de datos en una distribucin de
frecuencia. Por medio de la Kurtosis se determinar si la distribucin de frecuencia es demasiado
puntiaguda, normal o muy achatada.
El grado de apuntamiento o altura de una curva de distribucin se determina por medio del coeficiente de
Kurtosis, el cual se calcula utilizando el momento cuatro de una serie de valores con respecto a su media
aritmtica. La Kurtosis se designa con la letra K y la formula de clculo es:
0.5( P75 P25 )

K
P90 P10
Tomando en cuenta la Kurtosis el K de una curva de distribucin puede ser: Mesocrtica, Platicrtica y
Leptocrtica.
Mesocrticas.- Es aquella curva de una distribucin de frecuencia que no es ni muy alta ni muy
achatada, es la llamada curva normal.
La curva Mesocrtica tiene un coeficiente de Kurtosis igual a tres, es decir, K = 0.263
Leptocrtica.- Es aquella curva de la distribucin que presenta un apuntamiento o altura relativamente
ms alta que la curva Mesocrtica, en esta los datos se encuentran ms concentrados alrededor del
mximo valor. El coeficiente de Kurtosis para curva Leptocrtica es mayor de tres, es decir, K 0.263
Platicrtica.- Es la curva de una distribucin de frecuencia que presenta un achatamiento ms
pronunciado que la Mesocrtica, encontrndose los datos ms dispersos alrededor del mximo valor de
la distribucin. En esta curva el coeficiente de Kurtosis es menor de tres, es decir, K 0.263

P g i n a | 55
1 PLATIKURTICA 2 MESOKURTICA 3 LEPTOKURTICA
Ejemplo: El jefe en control industrial de una empresa somete a un test de fiabilidad 100 dispositivos
electrnicos idnticos y anota su duracin (tiempo hasta el fallo en horas). La recogida de datos lleva a la
distribucin de frecuencias siguiente:
N de El jefe de control de calidad desea saber si la duracin de los

Duracin (horas)
dispositivos dispositivos se encuentra por debajo de la duracin esperada,
0 200 34 adems desea tener la informacin si la duracin de los
200 400 18
dispositivos est alrededor de la duracin promedio para
400 600 16
600 800 13 informar al jefe de fabricacin de los dispositivos que realice
800 1000 10 una inspeccin.
1000 1200 6
1200 1400 2
1400 1600 1
Total 100
Calculamos el coeficiente de asimetra (puede utilizarse cualquier frmula) y el coeficiente Kurtosis.
x 456 Me = 377.778 Mo = 136 s = 353.927
( X Mo) (456 136)

SK1 0.904
S 353.927
3( X Md ) 3(456 377.778)
SK 2 0.663
S 353.927
El coeficiente de asimetra nos indica que el tiempo de duracin de los dispositivos sigue una distribucin
marcadamente positiva; es decir que el tiempo de duracin de los dispositivos est por debajo del tiempo
esperado.

P g i n a | 56
P10 = 58.824 P25 = 147.059 P75 = 707.692 P90 = 980
0.5( P75 P25 ) 0.5(707.692 147.059)

K 0.304
P90 P10 980 58.824
El coeficiente de Kurtosis nos indica que el tiempo de duracin de los dispositivos sigue una distribucin
leptocrtica o apuntada; es decir que el tiempo de duracin de los dispositivos estn muy cerca del tiempo
promedio.

P g i n a | 57
PROBABILIDAD
INTRODUCCIN.
Como ya se ha visto, la Estadstica es una Ciencia con la que se pretende buscar las regularidades
existentes en el comportamiento de los datos. Sabemos que la Estadstica se puede clasificar en dos
grandes bloques: Estadstica Descriptiva e Inferencia Estadstica. Con el primero lo que se hace es dar un
conjunto de mtodos y herramientas que permiten estudiar esas regularidades cuando lo que observamos
es toda la poblacin. Es decir admitimos que es posible realizar esa operacin de recuento exhaustivo. En
tal caso lo que realizamos con la estadstica es estudiar, describir, el comportamiento de una variable
determinada. Esa observacin exhaustiva nos permite realizar afirmaciones categricas sobre las distintas
caractersticas de la variable, tales como cual es su media, su dispersin, la forma de la distribucin, etc.
Pero esa posibilidad de observacin exhaustiva no siempre es posible. En la gran mayora de los casos nos
vemos limitados a realizar una observacin parcial de la variable. Con ese conjunto limitado de datos
intentaremos conocer las caractersticas de toda la poblacin, es decir, intentaremos inferir su
comportamiento. As una empresa antes de lanzar un nuevo producto estar interesada en conocer cual
puede ser su cuota de mercado, para lo cual realizar un sondeo de opinin entre algunos de sus
potenciales clientes. Pero el resultado de ese sondeo, basado en una muestra (observacin parcial), no le
permite concluir cual ser su verdadera cuota de mercado. La decisin que tome respecto a ese producto
estar marcada por un cierto grado de incertidumbre.
Pero que duda cabe que, en esas situaciones, nuestras afirmaciones ya no pueden ser categricas y las
decisiones que se tomen puede que no sean las ms acertadas como consecuencia de la informacin no
contenida en la muestra. Ms bien al contrario debemos admitir que nuestras conclusiones estn sujetas a
un margen de incertidumbre que es la consecuencia de nuestra observacin parcial de la realidad.
Ante tales circunstancias nuestro objetivo ser doble: por un lado estudiar el comportamiento de la variable
y de otro reducir en la medida de lo posible ese margen de incertidumbre o, al menos, intentar cuantificar
esa falta de certeza en relacin a las caractersticas de las variables. Una forma de cuantificar esa
incertidumbre es haciendo uso del concepto de probabilidad. De hecho la probabilidad es un concepto con
el que convivimos de forma diaria, incluso sin percatarnos de l. Cada vez que hacemos uso de las
expresiones quizs, tal vez, es probable, puede que, etc. estamos implcitamente hablando en trminos
probabilsticos. La incertidumbre es una acompaante inseparable de todas las ciencias sociales e incluso
de las fsicas como seal Heisenberg con el enunciado del principio de incertidumbre de la mecnica
cuntica.
La aficin al juego fue lo que impuls el desarrollo de la probabilidad. En un esfuerzo por aumentar sus
ganancias pidieron a los matemticos que les proporcionaran las estrategias ptimas para varios juegos de
azar. Como resultado de este primer desarrollo de la teora de la probabilidad, se extiende junto con la
estadstica a muchos campos, como la poltica, los negocios, la prediccin del clima, y la investigacin
cientfica.

P g i n a | 58
TRMINOS BSICO DE PROBABILIDAD

Las probabilidades son de gran importancia en la estadstica. Para iniciar el estudio de las probabilidades es
necesario definir una serie de trminos bsicos para su mejor comprensin.
Experimento Determinstico: Es aquel experimento en el que es posible predecir el resultado final de ese
proceso aun sin haberlo realizado. Ej. Cuando los qumicos combinan oxigeno ms hidrgeno el resultado
es agua; este experimento no es necesario realizarlo para conocer el resultado.
Experimento aleatorio: Es todo proceso que consiste de la ejecucin de un acto (o prueba) uno o ms
veces, cuyo resultado en cada prueba depende del azar y en consecuencia no se puede predecir con
certeza.
Ejemplo: lanzar un dado y observar su resultado, contar objetos defectuosos producidos diariamente por
cierto proceso, etc.
Espacio muestral: se denomina espacio muestral al conjunto de todos los resultados posibles de un
experimento dado. Este conjunto se denotara por . Cada resultado posible de un experimento aleatorio es
un elemento del espacio muestral, que se le conoce como punto muestral.
Ejemplo:
Experimento aleatorio: lanzar un dado y observar el resultado obtenido: = 1, 2, 3, 4, 5, 6.
Experimento aleatorio: lanzar una moneda dos veces: = CC, CS, SC, SS.
Experimento aleatorio: lanzar una moneda tres veces: = CCC, CCS, CSC, CSS, SCC, SCS, SSC,
CSS.
Experimento aleatorio: tomar un examen: = aprobar, desaprobar}
Experimento aleatorio: seleccionar un alumno de acuerdo a su rendimiento acadmico
= sobresaliente, bueno, regular, malo}
Evento o suceso: Es cada resultado del experimento aleatorio o una combinacin de resultados. Tambin
se dice que es un subconjunto del espacio muestral. Los eventos se denotan por letras maysculas:
Ejemplos:
Experimento Aleatorio: se hace rodar un dado y se observa el nmero que aparece en la cara superior.
= 1, 2, 3, 4, 5, 6
Evento: A: obtener un nmero par A = 2, 4, 6

P g i n a | 59
Experimento aleatorio: lanzar una moneda dos veces: = CC, CS, SC, SS.
Evento: B: obtener dos caras B = CC
Experimento aleatorio: arrojar una moneda cuatro veces y contar el nmero de sellos obtenidos
= 0, 1, 2, 3, 4, 5, 6.
Evento: C: Obtener ms de dos sellos C = 3, 4
Experimento aleatorio: lanzar dos dados y se observa los puntos obtenidos
= (1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6),
(3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6),
(5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)
Evento: D: obtener la suma de puntos igual o mayor que 10
= (4,6), (5,5), (5,6), (6,4), (6,5), (6,6)
Evento: E: el nmero del primer dado sea mayor que el segundo
= (2,1), (3,1), (3,2), (4,1), (4,2), (4,3) (5,1), (5,2), (5,3), (5,4), (6,1), (6,2), (6,3), (6,4), (6,5)
Eventos Mutuamente Excluyentes: Son aquellos eventos que no pueden ocurrir simultneamente al
realizar una sola vez un experimento. Se dice que dos eventos A y B son mutuamente excluyentes si y solo
si, su interseccin es el conjunto vaco, es decir AB = . Ej. El resultado obtenido al lanzar un dado, si
sale una cara con un 3, no puede salir otro nmero en este mismo lanzamiento.
Eventos Dependientes: Son aquellos sucesos en los que el conocimiento de la verificacin de uno de ellos
altera la probabilidad de verificacin del otro. Se dice que dos o ms eventos son dependientes si la
ocurrencia de uno cualquiera de ellos afecta la probabilidad de la ocurrencia de alguno de los otros eventos.
Ej. Consideremos la probabilidad de obtener 2 cartas de basto al sacar sucesivamente 2 cartas de una
baraja de 40 cartas. Al sacar la primera carta la probabilidad de obtener basto es de 10/40 y al no sustituirla
quedaran en el paquete 39 cartas de las cuales 9 son de basto, en la segunda extraccin la probabilidad de
obtener basto es de 9/39, en este caso la segunda extraccin depende de la primera que tena como
probabilidad 10/40 y la segunda extraccin tendr ahora 9/39 como se puede observar la probabilidad de la
segunda extraccin es afectada por la primera.
Eventos Independientes: Se dice que dos ms eventos son independientes si la ocurrencia de uno
cualquiera de ellos no afecta la probabilidad de la ocurrencia de ninguno de los otros sucesos. Ej. El evento
de obtener simultneamente un 2 al lanzar un dado y sello al tirar una moneda, esta compuesto de 2
sucesos independientes, puesto que la ocurrencia de un 2 en el dado no afecta la probabilidad de la
aparicin de sello en la moneda y viceversa.

P g i n a | 60
Eventos complementarios: Dos eventos A y son complementarios si y solo si, se cumple que: P(A) +
P() = P(), es decir, son eventos mutuamente excluyentes y su unin es el espacio muestral, entonces
tenemos, P(A) + P() = P(S), pero P() = 1, entonces,
P(A)+ P() = 1 P(A) = 1- P(), donde P(), se lee probabilidad de A complemento.
Eventos no Mutuamente Excluyentes.- Son aquellos eventos que pueden verificarse simultneamente. A
estos eventos tambin se les llaman Sucesos Compatibles.
REGLAS DE CONTEO
La capacidad de identificar y contar los puntos muestrales de un experimento es un paso importante para
comprender lo que puede suceder en l. Veamos un experimento que consiste en lanzar dos monedas,
donde los resultados experimentales se definen en funcin de comportamiento de casa y sellos que dan
hacia arriba de las monedas. Cuntos resultados experimentales (o puntos muestrales) son posibles en
este experimento?
Podemos considerar que el experimento de lanzar dos monedas se lleva a cabo en dos etapas: la etapa 1
corresponde a lanzar la primera moneda, y la etapa 2 a lanzar la segunda. El diagrama de rbol es un
dispositivo grfico til para visualizar un experimento de varias etapas y enumerar los resultados
experimentales.
C CC
C
S CS
C SC
S
S SS
Se observa que hay cuatro resultados experimentales del hecho de lanzar dos monedas, y el espacio
muestral del mismo se puede presentar mediante:
= CC, CS, SC, SS.
Regla de conteo para experimentos de etapas mltiples: Una regla til para determinar la cantidad de
puntos muestrales para un experimento de varias etapas es la siguiente:
Si un experimento se puede describir como una sucesin de k etapas, en las que hay n1 resultados en la
primera etapa, n2 en la segunda, etc., la cantidad total de resultados experimentales es igual a (n 1)(n2)(nk).
Esto es, la cantidad de resultados del experimento total es el producto de las cantidades de resultados en
cada etapa.

P g i n a | 61
Regla de conteo para combinaciones: La cantidad de combinaciones de N objetos tomando n a la vez es:
N!
CnN
n!( N n)!
Ejercicios:
1. Un experimento consiste en hacer tres llamadas de venta. En cada una habr compra o no compra.
a. Trace un diagrama de rbol de este experimento.
b. Identifique cada punto muestral y el espacio muestral. cuntos puntos muestrales hay?
c. Cuntos puntos muestrales habra si el experimento consistiera en cuatro llamadas?
2. En la ciudad de Milford, las aplicaciones de cambio de zonificacin siguen un proceso de dos etapas:
una revisin por la comisin de planeacin, y una decisin final por el consejo ciudadano. En el paso 1
la comisin de planeacin revisa la peticin de cambio de zonificacin y emite una recomendacin
positiva o negativa acerca del cambio. En el paso 2 en consejo ciudadano revisa la recomendacin de la
comisin de planeacin y vota aprobndola o rechazndola. En algunos casos el voto del consejo
ciudadano concord con la recomendacin de dicha comisin. El constructor de un complejo de
viviendas acaba de presentar una solicitud de cambio de zonificacin. Considere que el procesamiento
de la solicitud es un experimento.
a. Cuntos puntos muestrales hay para este experimento? Haga una lista de ellos.
b. Trace un diagrama de rbol de este experimento.
3. Un experimento consiste en seleccionar al azar 4 alumnos y conocer si practican deporte o no.

a. Cuntos puntos muestrales hay para este experimento? Haga una lista de ellos.
b. Trace un diagrama de rbol de este experimento.
4. Un inversionista que revisa el desempeo de seis acciones seleccionar dos de ellas para invertir
Cuntas combinaciones alternativas de dos acciones debe tomar en cuenta el inversionista.
5. Prez y Compaa formar un comit de planeacin a largo plazo, con el encargo de desarrollar un plan
quinquenal estratgico para que la empresa ingrese al mercado de un nuevo producto. El presidente ha
identificado a siete gerentes capaces como candidatos para el comit. De cuntas maneras se puede
formar el comit de tres miembros?
6. Un inspector de control de calidad eligi una pieza fabricada para probarla. Posteriormente se establece
si la parte se acepta, se repara, o se desecha. Despus se prueba otra. Mencione todos los posibles
resultados de este experimento.
7. Un joven tiene cuatro camisas de los siguientes colores: roja (R), blanca (B), negra (N) y verde

P g i n a | 62
(V),tambin posee dos pantalones, gris(G) y azul (A).

a. Trace un diagrama de rbol de este experimento.
b. De cuntas maneras pueden combinarse los pantalones con las camisas o viceversa?
8. Un restaurante de la localidad ofrece un men de tres componentes:

1.- Aperitivo: Sopa (S), o Ensalada (E).
2.- Plato Principal: Bist (B), Carite (C), o Pavo (P).
3.- Postre: Torta (T), o Helado (H).
Construya un diagrama de rbol, indicando el nmero posible de comidas completas (aperitivo, plato
principal y postre) que se pueden consumir.
OPERACIONES CON EVENTOS
Los eventos o sucesos son conjuntos, en consecuencia se pueden combinar eventos para formar nuevos
eventos, para el efecto se realizan diferentes operaciones con conjuntos.
i. AB (A unin B), es el evento que ocurre si y slo si A o B o ambos ocurren
ii. AB (A interseccin B), es el evento que ocurre si y slo si A y B suceden simultneamente

iii. A (Complemento de A), es el evento que ocurre si y slo si A no ocurre.
AB AB A
Ejemplo:
En el experimento de lanzar dos monedas y un dado
= CC1, CC2, CC3, CC4, CC5, CC6, CS1, CS2, CS3, CS4, CS5, CS6,
SC1, SC2, SC3, SC4, SC5, SC6, SS1, SS2, SS3, SS4, SS5, SS6
Se define los siguientes eventos:
F = que aparezca dos caras y un nmero par
G = que aparezca un dos
Es decir:

P g i n a | 63
F = CC2, CC4, CC6
G = CC2, CS2, SC2, SS2
Ahora podemos definir:
a) F y G sucedan, es decir FG = CC2
b) Sucede F G , es decir FG = CC2, CS2, SC2, SS2, CC4, CC6

c) Que no ocurra F, es decir F (elementos que no pertenecen a F)
F = CC1, CC3, CC5, CS1, CS2, CS3, CS4, CS5, CS6, SC1, SC2
SC3, SC4, SC5, SC6, SS1, SS2, SS3, SS4, SS5, SS6
PROBABILIDAD DE UN EVENTO
Diariamente se escuchan afirmaciones que llevan implcito el concepto de probabilidad como por ejemplo
los pronsticos del tiempo que indican las probabilidades de lluvia; los galenos indican la probabilidad que
tiene un enfermo de curarse si realiza al pie de la letra sus tratamientos farmacolgicos, los docentes
especulan sobre las posibilidades de xito del estudiantado si dedican ms tiempo al estudio, las compaas
encuestadoras predicen las oportunidades que tienen los polticos de ganar una eleccin determinada, etc.
La Teora de la Probabilidad es una rama de las matemticas que se encarga de los eventos que se
realizan al azar o fenmenos aleatorios, como a menudo se les denominan. Se define la probabilidad como
un nmero comprendido entre 0 y 1, que se le asigna a un evento para sealar su posibilidad de ocurrencia.
Por lo general las probabilidades se expresan en porcentajes, tambin se pueden expresar con nmeros
decimales. Es una condicin de esta ctedra que siempre s resuelvan las fracciones con que se expresan
las probabilidades de un problema dado; los resultados de esos cocientes deben tener por lo menos 4
decimales y el mismo se representa en porcentaje. La probabilidad de cualquier evento se representa con la
letra P.
Se le asigna la probabilidad de 1 al evento que con certeza ocurrir y se le asigna la probabilidad de 0 a un
suceso que no puede ocurrir; se le asigna una probabilidad de 0.5 a un fenmeno que tenga la misma
posibilidad de suceder o de no suceder. Se le asigna una probabilidad 0 P 0.5, a un fenmeno que
tenga ms posibilidades de no suceder que de suceder; y se le asigna una probabilidad 0.5 P 1 a un
evento que tenga ms posibilidades de suceder que de no suceder.
La probabilidad es una caracterstica que interviene en todos los trabajos experimentales. Es necesario
obtener un procedimiento lgicamente slido para que dichos enunciados tengan validez cientfica. En otras
palabras, en virtud de que la probabilidad en definitiva, es un cuantificador o medida de la posibilidad de
ocurrencia de un suceso al que se le asocia un grado de incertidumbre, se debe estudiar la forma en que
esta medida puede ser obtenida.
Sea el espacio muestral asociado a un experimento aleatorio. La probabilidad de cualquier evento A de ,

es el nmero real P(A) que satisface los siguientes axiomas de probabilidad:
a. 0 P(A) 1, para todo evento A

P g i n a | 64
b. P() = 1
c. P() = 0
Existen tres enfoques para el estudio de la probabilidad.
Probabilidad Clsica:
Llamada tambin probabilidad a priori debido a que es posible conocer el resultado con anterioridad, es
decir sin llevar a cabo el experimento y slo basado en un razonamiento lgico.
Se calcula a travs de
P(A) = Casos favorables de ocurrencia del evento A

Total de casos posibles
Esta definicin se basa en el supuesto de que todos los resultados probables de un experimento aleatorio
son igualmente probables; es decir, cada uno de los elementos del espacio muestral tiene la misma
probabilidad de salir.
As por ejemplo; si lanzamos un dado normal, debe considerarse que hay igual posibilidad que salga
cualquiera de los nmeros del espacio muestral = {1, 2, 3, 4, 5, 6} entonces la probabilidad de que salga
cualquier nmero ser 1/6.
En general si un experimento aleatorio tiene n resultados posibles, los n elementos del espacio muestral
tendran la misma probabilidad de salir. En consecuencia la probabilidad de que salga cualquiera de ellos es
1/n.
Probabilidad de Frecuencia Relativa de la ocurrencia
Este enfoque surge por la necesidad de asignar probabilidades a aquellos eventos considerados no
simtricos. Los seguidores de esta corriente afirman que solo a partir de experimentos realizados varias
veces en las mismas condiciones, es posible asignar probabilidades a los eventos de un experimento
aleatorio. En trminos generales el empeo de esta teora es destacar que cuando el nmero de
experimentos aumenta, la frecuencia relativa del evento se estabiliza y se acerca bastante a un valor
determinado que podra ser prcticamente igual a la probabilidad del evento con un elevado grado de
certeza. Se halla a travs de:
N ( A) n A
P( A) Nmero de veces que ocurri el evento A ____
N () n
Nmero total de veces que se repiti el experimento

P g i n a | 65
La probabilidad de frecuencia relativa, es llamada tambin probabilidad emprica o a posteriori, debido a que
se obtiene el resultado despus de llevar a cabo el experimento un gran nmero de veces.
Ejemplo: En una encuesta realizada a 500 profesores de la ciudad de Chiclayo, se encontr que 320 de
ellos se encuentran trabajando en escuelas no estatales. Hallar la probabilidad que al seleccionar
aleatoriamente un profesor, est trabajando en una escuela no estatal.
Sea el evento A: profesor que trabaja en una escuela no estatal
# Veces que ocurri A = 320
# Total de veces que se repiti el experimento = 500
Luego: N ( A) 320
P( A) 0.64 64.0%
N () 500
Probabilidad subjetiva
Existen varios sucesos de sumo inters cuyas probabilidades no se pueden calcular tomando en cuenta los
mtodos de frecuencia relativa ni con la teora de la probabilidad clsica. Surge entonces, el punto de vista
subjetivo el cual hace hincapi en la probabilidad que resulta de una opinin, creencia, o juicio personal
sobre una situacin determinada. El enfoque subjetivo denominado tambin probabilidad personal, asigna a
los eventos probabilidades, aun cuando los datos experimentales sean escasos o imposibles de obtener.
Los que toman decisiones utilizando este tipo de probabilidad se fundamentan en sus propias experiencias
personales y en muchos casos en presentimientos. Este enfoque de la probabilidad personal se aplica a
problemas de toma de decisiones tales como construcciones de plantas, compras de equipos, licitaciones
de contratos, etc. La probabilidad personal se ha vuelto sistemticamente popular entre los tericos de la
toma de decisiones. Los defensores de esta corriente tratan de buscar soluciones a la asignacin de
probabilidades de aquellos eventos que solo ocurren una vez o que no pueden estar sometidos a
experimentos repetidos. La asignacin de probabilidades a un evento en estas condiciones, ms que un
juicio arbitrario, es un juicio de valor.
Ejercicios:
9. Una en un grupo de 34 estudiantes de una escuela de administracin, revel la siguiente seleccin de
carrera profesionales:
Contadura 10 Suponga que se selecciona un estudiante y se considera su eleccin

profesional.
Finanzas 5
a) cul es la probabilidad de que estudie la carrera de
Sistemas de informacin 3
administracin?
Administracin 6
b) qu concepto de probabilidad utiliz para hacer tal estimacin?
Mercadotecnia 10
10. Se venden 500 billetes para realizar una lotera. Los talones de los billetes se mezclan bien y el ganador
es quien tiene el boleto del taln elegido aleatoriamente al efectuar el sorteo. Si alguien compr 25
billetes, Cul es la probabilidad de que gane?

P g i n a | 66
11. Sea x el nivel de xito de un nuevo programa de televisin. En la tabla siguiente se observan las
probabilidades subjetivas asignadas a cada x para un nuevo programa particular, segn fueron
otorgadas por personas que laboran en tres distintos medios de difusin. cules de estos conjuntos de
probabilidades son inapropiadas? Explique su respuesta.
Juez
Grado de xito (x)
A B C
Muy exitoso 0.5 0.6 0.4

Exitoso 0.4 0.5 0.3
Nada exitoso 0.3 -0.1 0.3
REGLAS DE LA PROBABILIDAD
REGLA DE LA SUMA DE PROBABILIDADES
Se usa cuando se desea averiguar la probabilidad de ocurrencia de uno u otro evento.
Si los eventos A y B son mutuamente excluyentes, la probabilidad de ocurrencia de A o de B es:
P (AB) = P (A) + P (B)
Ejemplo: De 100 alumnos de la especialidad de ingeniera, 20 desaprobaron matemtica, 32 desaprobaron

estadstica y 18 desaprobaron teologa, estos alumnos slo desaprobaron un solo curso. Cul es la
probabilidad de seleccionar un alumno que haya desaprobado matemtica o estadstica o teologa?
n (A) n (B) n (C) 20 32 18

P(A B C) = P(A) + P(B) + P(C) = 0.7
n () n () n () 100 100 100
Si los eventos A y B no son mutuamente excluyentes, la probabilidad de ocurrencia de A o de B es:
P(AB) = P(A) + P(B) P(AB)
Donde:
P(AB): Probabilidad de ocurrencia de que el evento A o B ocurran
P(AB): Probabilidad de que ocurran simultneamente los eventos A y B
Eventos Mutuamente excluyente: La ocurrencia de un evento implica que ninguno de los otros
eventos pueden ocurrir al mismo tiempo
Ejemplo: De 100 alumnos de la especialidad de ingeniera, 20 desaprobaron matemtica, 32 desaprobaron

estadstica y 18 desaprobaron teologa, 5 desaprobaron matemtica y estadstica, 9 desaprobaron
matemtica y teologa, 10 desaprobaron estadstica y teologa

P g i n a | 67
a. Cul es la probabilidad de seleccionar un alumno que haya desaprobado matemtica o estadstica?

b. Cul es la probabilidad de seleccionar un alumno que haya desaprobado matemtica o teologa?
c. Cul es la probabilidad de seleccionar un alumno que haya desaprobado estadstica o teologa?
Solucin:
A: Alumno desaprob Matemtica P(A) = 20/100 = 0.20
B: Alumno desaprob Estadstica P(B) = 32/100 = 0.32
C: Alumno desaprob Teologa P(C) = 18/100 =0.18
P(A B) = 5/100 = 0.05, P(A C) = 9/100 = 0.09, P(B C) = 10/100 = 0.10
a. P(A B) = P(A) + P(B) P(AB) = 0.20 + 0.32 - 0.05 = 0.47
b. P(A C) = P(A) + P(C) P(AC) = 0.20 + 0.18 - 0.09 = 0.29
c. P(B C) = P(B) + P(C) P(BC) = 0.32 + 0.18 0.10 =0.40
REGLA DE LA MULTIPLICACIN
Se utiliza para calcular la probabilidad de ocurrencia simultnea de dos o ms eventos
Si los eventos A y B son dependientes, entonces la ocurrencia de un evento tiene efecto sobre la
probabilidad de ocurrencia del otro evento, por lo tanto la ocurrencia simultnea de los eventos es:
P(AB) = P(A) P(B/A)
Ejemplo: Suponga que se extrae dos cartas, una a la vez sin reemplazo, de una baraja ordinaria. Cul
es la probabilidad de que ambas cartas sean ases?
A: un as en la primera extraccin
B: un as en la segunda extraccin
P(AB) = P(A).P(B/A) = (4/52).(3/51) = 0.0045
Ejemplo: Supongamos que se extrae al azar dos frutas, de una bolsa que contiene 4 manzanas, 6 naranjas
y 5 duraznos. Se obtiene una muestra sin reemplazo. Cul es la probabilidad de que se obtenga una
naranja y una manzana, en ese orden?
A: Extraer una naranja en la primera extraccin
B: Extraer una manzana en la segunda extraccin dada una naranja en la primera extraccin

P g i n a | 68
P(AB) = P(A) P(B/A) = (6/15).(4/14) = 0.1143
Si los eventos A y B son independientes, entonces la ocurrencia de un evento no tiene efecto sobre la
probabilidad de ocurrencia del otro, por lo tanto la ocurrencia simultnea de los eventos es
P(A B) = P(A) P(B)
Ejemplos: Supongamos que lanzamos un par de dados legales una sola vez. Cul es la probabilidad de
obtener un 2 en el primer dado y un 4 en el segundo?
A: Obtener 2 en el primer dado
B: Obtener 4 en el segundo dado
P(AB) = P(A) P(B) = 1/6 x 1/6 = 1/36
Ejemplos: Supongamos que se extrae una muestra aleatoria de una bolsa de frutas. La bolsa contiene 4
manzanas, 6 naranjas y 5 duraznos. Si se selecciona 2 frutas, una a la vez, con reemplazo. Cul es la
probabilidad de que se obtenga una naranja y una manzana en ese orden?
A: Obtener una naranja
B: Obtener una manzana
P(AB) = 6/15 * 4/15 = 24/225
PROBABILIDAD CONDICIONAL
La probabilidad de que ocurra un evento B cuando se sabe que ha ocurrido algn otro evento A, se
denomina PROBABILIDAD CONDICIONADA y se designa como P(B/A). l smbolo P(B/A) se lee como la
probabilidad de que ocurra B sabiendo que ocurri A o sencillamente probabilidad de B dado A Las
probabilidades condicionadas estn relacionadas a probabilidades asociadas a los eventos definidos en
subpoblaciones o espacios mustrales reducidos.
Se dice que la probabilidad de ocurrencia de un evento dado es condicionada, si esta se afecta por la
ocurrencia de otro evento presente.
P( B A) P( BA)
P(B/A) = , si P(A) 0
P( A) P( A)
Ejemplo: Un profesor de matemticas da clases en una seccin matutina y una vespertina de introduccin
al clculo.
Sea A = {el profesor da una mala conferencia matutina} y
B = {el profesor da una mala conferencia vespertina}.
Si P(A) = 0.3, P(B) = 0.2 y P(AB) = 0.1, calcule las siguientes probabilidades.

P g i n a | 69
c c
a) P(B/A) b) P(B /A) c) P(B/A )
P( BA) 0.1
a) P( B / A) 0.33
P( A) 0.3
P( B c A) P( A) P( AB ) 0.3 0.1
b) P( B c / A) 0.67
P( A) P( A) 0.3
P( BA c ) P( B) P( AB ) 0.2 0.1
c) P( B / Ac ) 0.14
P ( Ac ) P( Ac ) 0.7
TEOREMA DE BAYES
Es un mtodo que nos permite calcular la probabilidad de que un evento que ya ocurri (o efecto) sea
resultante de alguna causa.
Si A1, A2, , An son sucesos n mutuamente excluyentes, de los cuales al menos unos de los A i (i = 1, 2, ...,
n) debe ocurrir, y sea B un suceso cualesquiera en , la probabilidad condicional de la ocurrencia de Ai
cuando el evento B ha ocurrido es:
P( Ai ) P( B / Ai ) P(A )P(B / Ai )
P(Ai/B) = = n i
P ( A1 ) P( B / A1 ) P( A 2 ) P( B / A 2 ) ... P( A n ) P( B / A n ) P(Ai )P(B / Ai )
i 1
Ejemplo:
En una empresa del total de trabajadores, se tiene que el 50% son ingenieros, el 30% son abogados y el
20% son administrativos; adems se tiene que el 8% de los ingenieros, el 9% de los abogados y el 10% de
los administrativos son provincianos (nacidos fuera de la capital).
a. Supongamos que se selecciona un trabajador al azar y resulta ser provinciano. Hallar la probabilidad
de que el trabajador sea ingeniero.
b. Supongamos que se selecciona un trabajador al azar y resulta ser provinciano. Hallar la probabilidad
de que el trabajador sea abogado.
c. Supongamos que se selecciona un trabajador al azar y resulta ser provinciano. Hallar la probabilidad
de que el trabajador sea abogado.
d. Supongamos que se selecciona un trabajador al azar y resulta ser no provinciano. Hallar la
probabilidad de que el trabajador sea ingeniero.

P g i n a | 70
P(B/A1) = 0.08
Solucin:
A1 = Trabajador ingeniero
P(A1)=0.50
A2 = Trabajador abogado P(B/A1) = 0.92
A3 = Trabajador administrativo P(B/A2) = 0.09
B = Trabajador provinciano
P(A2)=0.30
B = Trabajador no provinciano P(B/A2) = 0.91
P(A1) = 0.50 , P(A2) = 0.30, P(A3) = 0.20

P(B/A3) = 0.10
P(A3)=0.20
P(B/A3) = 0.90
a. P(A1/B) =
P ( A1 ) P ( B / A1 )
=
P ( A1 ) P ( B / A1 ) P ( A 2 ) P ( B / A 2 ) P ( A 3 ) P ( B / A 3 )
0.50(0.08)
0.4798
0.50(0.08) 0.30(0.09) 0.20(0.10)
P( A 2 ) P( B / A 2 )
b. P(A2/B) =
0.30(0.09)
0.3103
0.50(0.08) 0.30(0.09) 0.20(0.10)
P( A 3 ) P( B / A 3 )
c. P(A3/B) =
0.20(0.10)
0.2299
0.50(0.08) 0.30(0.09) 0.20(0.10)
P ( A2 ) P ( B ' / A2 )
d. P(A2/B) =
P ( A1 ) P ( B ' / A1 ) P ( A2 ) P ( B ' / A2 ) P ( A3 ) P ( B ' / A3 )
0.30(0.91)
0.2990
0.50(0.92) 0.30(0.91) 0.20(0.90)

P g i n a | 71
DISTRIBUCIONES DE PROBABILIDAD
INTRODUCCIN
Cuando se habla de los tipos de probabilidad, decimos que esta se clasifica en tres:
1. Probabilidad clsica
2. Probabilidad de frecuencia relativa
3. Probabilidad subjetiva
La distribucin de probabilidades esta muy relacionado con el tipo de variables. Nosotros conocemos dos
tipos de variables:
a. Variable discreta, y
b. Variable contina.
Estudiaremos las principales distribuciones de variables discretas. Una distribucin de probabilidades para
una variable aleatoria discreta es un listado mutuamente excluyente de todos los resultados numricos
posibles para esa variable aleatoria tal que una probabilidad especfica de ocurrencia se asocia con cada
resultado.
El valor esperado de una variable aleatoria discreta es un promedio ponderado de todos los posibles
resultados, donde las ponderaciones son las probabilidades asociadas con cada uno de los resultados.
N
E ( X ) X i P( X i)
i 1
Donde: Xi = i-simo resultado de X, la variable discreta de inters.

P(Xi) = probabilidad de ocurrencia del i-simo resultado de X
2
La varianza de una variable aleatoria discreta (s ) se define como el promedio ponderado de los cuadros de
las diferencias entre cada resultado posible y su media (los pesos son las probabilidades de los resultados
posibles).
N 2
X i E ( X ) P( X i )
2
i 1
Donde: Xi = i-simo resultado de X, la variable discreta de inters.

P(Xi) = probabilidad de ocurrencia del i-simo resultado de X

P g i n a | 72
Las distribuciones de probabilidades discretas ms importantes son:

1. Distribucin Binomial,
2. Distribucin de Poisson
3. Distribucin Hipergeomtrica
DISTRIBUCIN BINOMIAL
La distribucin Binomial se utiliza para calcular probabilidades de variables discretas. Se aplica en aquellos
experimentos aleatorios que tienen slo dos resultados mutuamente excluyentes. Ejemplo:
EXPERIMENTO ALEATORIO RESULTADOS POSIBLES
Lanzamiento de una moneda al aire Cara o sello
Nacimiento de un ser humano con respecto al sexo Hombre o Mujer
Estado de salud de una persona Sano o enfermo
Situacin ocupacional de una persona Ocupado o desocupado
Situacin del alumno al terminar el ao escolar Aprobado o desaprobado
Al llevar a cabo un experimento aleatorio, siempre estamos interesados en que suceda uno de los dos
resultados, si el resultado que esperbamos efectivamente sucede, diremos que hubo XITO. Si el
resultado que esperbamos efectivamente no sucede, entonces diremos que hubo FRACASO. Es decir:
Resultados Probabilidad Notacin
XITO p Probabilidad de xito Se debe cumplir: p + q = 1
FRACASO q=1p Probabilidad de fracaso
Frmula general para calcular las probabilidades binomiales
La distribucin Binomial es una distribucin de probabilidades que surge al cumplirse cinco condiciones:
1. Existe una serie de N ensayos,

2. En cada ensayo hay slo dos posibles resultados,
3. En cada ensayo, los dos resultados posibles son mutuamente excluyentes,
4. Los resultados de cada ensayo son independientes entre si, y
5. La probabilidad de cada resultado posible en cualquier ensayo es la misma de un ensayo a otro.
Cuando se cumple estas condiciones, la distribucin Binomial proporciona cada resultado posible de los N
ensayos y la probabilidad de obtener cada uno de estos resultados.

P g i n a | 73
Para este tipo de distribucin de probabilidad, la funcin matemtica es la siguiente:
n!
P( x) cx . p x .(1 p) n x p x (1 p) n x
n
x!(n x)!
Donde:
P(X) = probabilidad de X xitos dados los parmetros n y p
n = tamao de la muestra / nmero de ensayos
p = probabilidad de xito
1 p = probabilidad de fracaso
X = numero de xitos en la muestra ( X = 0, 1, 2, .. n)
n x
El trmino p (1 p)
x
indica la probabilidad de obtener X xitos de n observaciones en una secuencia
n!
especfica. En trmino indica cuantas combinaciones de los X xitos entre n observaciones son
x!(n x)!
posibles.
Entonces dado el nmero de observaciones n y la probabilidad de xito p, la probabilidad de X xitos es:

P(X) = (nmero de secuencia posibles) x (probabilidad de un secuencia especifica)
Por eso que llegamos a la funcin matemtica que representa esta distribucin.
Propiedades
El valor esperado o media de la distribucin Binomial es : E(x) = np
: V(x) = = npq
2
La varianza de la distribucin Binomial es
Desviacin estndar de la distribucin Binomial es := npq
Ejemplo: Cul es la probabilidad de obtener 6 caras al lanzar una moneda 10 veces?

x es el nmero de aciertos.
En este ejemplo x igual a 6 (en cada acierto decamos que la variable toma el valor 1: como son 6
aciertos, entonces x = 6)
n es el nmero de ensayos. En nuestro ejemplo son 10
p es la probabilidad de xito, es decir, que salga cara al lanzar la moneda. Por lo tanto p = 0,5
La frmula quedara:

P g i n a | 74
10!
p( x 6) c6 (0,5) 6 (1 0,5) 106 (0,5) 6 (1 0,5) 106
10
6! (10 6)!
Luego,
P (x = 6) = 0,205
Es decir, se tiene una probabilidad del 20,5% de obtener 6 caras al lanzar 10 veces una moneda.
Uso de tabla Binomial
La tabla contiene probabilidades binomiales acumulativas, es decir, cada valor de la tabla es la probabilidad
desde un valor X = x hasta inclusive (X x).
Ejemplo: Generalmente el 40% de los alumnos aprueban un examen de Estadstica. Cul es la

probabilidad de que en un grupo de 20, aprueben:
a) 5 o ms alumnos?
b) Ms de 10 alumnos?
c) Exactamente 10 alumnos?
d) Menos de 10 alumnos?
e) 10 menos alumnos?
f) Entre 6 y 10 alumnos?
a) 5 o ms alumnos aprueben: x 5
Aqu nos piden hallar la probabilidad desde 5 hasta 20
P (x 5) n = 20 p = 0,40 q = 1- 0,40 = 0,60
P (x 5) = 1 P(x < 5) = 1 [p(x = 0) + p(x = 1) + p(x = 2) + p(x = 3) + p(x = 4)]

= 1 (0.0+0.0005+0.0031+0.0123+0.0350)
= p (x 5) = 0.9490 = 94.90%
Respuesta: La probabilidad de que aprueben 5 o ms alumnos es de 94.9%
b) ms de 10 alumnos aprueban: x > 10

n = 20 p = 0.40 q = 0.60
P(x > 10) = p(x 11) = p(x = 11) + p(x = 12) + p(x = 13) ++ p(x = 20) =0.1275 = 12.75%

P g i n a | 75
Ejercicios:
1. Un experimento Binomial contiene n = 5, p = 2/5. Hallar
a. La distribucin de probabilidad para este experimento
b. La media aritmtica y desviacin estndar de esta distribucin Binomial.
2. En general, el 45% de los postulantes fallan en una prueba de seleccin de personal.cul es la

probabilidad de que en una muestra de 15:
a. Fallen por lo menos 8
b. Fallen ms de 4
c. Fallen exactamente 4
3. Aproximadamente 2/5 de las familias de una cierta comunidad, viven en extrema pobreza. cul es la
probabilidad de que en una muestra aleatoria de 5 personas:
a. 3 de ellos vivan en extrema pobreza?
b. Ninguno viva en extrema pobreza?
c. 3 o ms vivan en extrema pobreza?
4. Un vendedor de seguros vende plizas a 5 personas, todas de la misma edad y con buena salud.
De acuerdo con tablas actuariales, la probabilidad de que una persona de sta viva 30 aos ms es 2/3.
Hallar la probabilidad de que al cabo de 30 aos vivan:
a. Las 5 personas
b. Al menos 3 personas
c. Solamente 2 personas
d. Al menos una persona
5. El 75% de la mercadera que recibe un comerciante del fabricante A es de calidad excepcional, mientras
que el 80% de la mercadera que recibe del fabricante B es de calidad excepcional. El 60% del total de
la mercadera lo adquiere de A y el resto de B. Si se selecciona 4 unidades de la mercadera, qu
probabilidad hay que se encuentren 2 unidades que sean de calidad excepcional?
6. El American Almanac of Jobs and Salaries, 1994-95 informa que el 25% de los contadores tienen
empleo en contadura pblica. Suponga que este porcentaje se aplica a un grupo de 15 egresados de
universidades que van a ejercer la profesin de contador. Cul es la probabilidad de que cuando
menos tres egresados tengan empleo en contadura pblica?

P g i n a | 76
DISTRIBUCIN DE POISSON
La Distribucin de Poisson mide la probabilidad de un evento aleatorio sobre algn intervalo de
tiempo. Son necesarios dos supuestos para la aplicacin de la distribucin de Poisson:
La probabilidad de ocurrencia del evento es constante para dos intervalos cualesquiera de tiempo o
espacio.
La ocurrencia del evento en un intervalo es independiente de la ocurrencia de otro intervalocualquiera.

Dados estos supuestos, la funcin de probabilidad de Poisson puede expresarse como:
e x
p(x; ) = x = 0, 1, 2, ......
x!
Donde: = nmero promedio de ocurrencia por unidad de tiempo o espacio x = nmero de veces que
ocurre el evento e = 2.71828, la base del logaritmo natural
Nota: La media y la varianza de esta distribucin toman el mismo valor.

E(X) = V ar(X) =
Ejemplo: En una gran empresa el nmero de accidentes de trabajo sigue un promedio de tres por semana.
Calcular:
1. La probabilidad de que no haya accidentes en una semana

2. La probabilidad de que haya exactamente 3 accidentes en una semana
3. La probabilidad de que no se superen los cuatro accidentes en una semana
4. La probabilidad de que haya ms de 5 accidentes
Si usamos la distribucin de Poisson, obtenemos:
e 3 30 e 3 33
1. P(x=0) = P(0) = 0.0498 2. P(x = 3) = P(3) = 0.224
0! 3!
e x
x0 x! P(0) P(1) P(2) P(3) P(4) 0.8152
4
3. P(x 4) = F(4) =
e x
4. P(x > 5) = 1 F(5) = 1 - 1 P(0) P(1) P(2) P(3) P(4) P(5) 0.084
5
x 0
x!

P g i n a | 77
Ejercicios:
7. Se tiene una distribucin de p probabilidades de Poisson con =3
a. Escriba la funcin correcta de probabilidades de Poisson
b. Calcule:
P(x = 2) P(x 2)
P(x = 4) P(3 x 6)
8. El tablero conmutador de cierta universidad indica un promedio de 2 llamadas cada 3 minutos.

Asumiendo un proceso de Poisson.
a. Cul es la probabilidad que ocurran 5 ms llamadas en un perodo de 9 minutos?
b. Cul es la probabilidad que ocurran a lo ms 3 llamadas en un perodo de 6 minutos?
c. Cul es la probabilidad que no hayan llamadas en un perodo de 5 minutos?
9. El profesor Bradley anima a sus estudiantes de estadstica a actuar de forma prudente consultando al
tutor si tienen alguna pregunta mientras se preparan par el examen final. Parece que la llegada de los
estudiantes a la oficina del tutor se ajusta a una distribucin de Poisson, con un promedio de 5.2
estudiantes cada 20 minutos. El profesor Bradley est preocupado porque si muchos estudiantes
necesitan los servicios del tutor, puede resultar un problema de congestin.
a. El tutor debe determinar la probabilidad de que cuatro estudiantes lleguen durante cualquier
intervalo de 20 minutos, lo cual podra causar el problema de congestin que tiene el profesor
Bradley. Si la probabilidad excede del 20%, se contratar un segundo tutor.
b. El tutor debe calcular la probabilidad de que ms de cuatro estudiantes lleguen durante algn
perodo de 20 minutos. Si es mayor que el 50%, las horas de oficina del tutor se aumentarn,
permitiendo a los estudiantes extender el horario en las que vienen a ver el tutor.
c. Si la probabilidad de que ms de siete estudiantes lleguen durante un perodo cualquiera de 30
minutos excede 50%, el mismo profesor Bradley ofrecer tutora adicional.
10. A una garita de peaje llegan aleatoriamente 30 autos por hora.

a. Calcular la probabilidad de que un auto llegue durante un perodo de 1 minuto
b. Calcular la probabilidad de que por lo menos 8 autos llegan durante media hora.
c. Calcular la probabilidad de que lleguen entre 10 y 15 autos durante 20 minutos.
11. Al departamento de Aerolneas Regionales llegan en promedio 48 llamadas por hora.

a. Calcular la probabilidad de recibir tres llamadas en un intervalo de 5 minutos
b. Calcular la probabilidad de recibir exactamente 10 llamadas en 15 minutos
c. Calcular la probabilidad de que no haya llamadas en un perodo de 5 minutos

P g i n a | 78
12. Durante la poca de reservaciones telefnicas en una universidad local, las llamadas entran con una
frecuencia de una cada dos minutos.
a. Cul es la cantidad esperada de llamadas en una hora?
b. Cul es la probabilidad de tres llamadas en cinco minutos?
c. Cul es la probabilidad de que no hay llamadas en un periodo de cinco minutos?
13. Los pasajeros de las aerolneas llegan a l azar e independiente a la seccin de documentacin en una
gran aeropuerto internacional. La frecuencia promedio de llegada es de 10 pasajeros por minuto.
a. Cul es la probabilidad de no llegadas en un intervalo de un minuto?
b. Cul es la probabilidad de que lleguen tres pasajeros o menos en un intervalo de un minuto?
c. Cul es la probabilidad de no llegada en un perodo de 15 segundos?
d. Cul es la probabilidad de al menos una llegada en un perodo de 15 segundos?
14. La compaa Aritmos ha observado que sus calculadoras fallan y necesitan reemplazarlas con una
frecuencia de tres cada 25 das.
a. Cul es la cantidad esperada de calculadoras que fallan en 30 das?
b. Cul es la probabilidad de que fallen al menos dos en 50 das?
c. Cul es la probabilidad de que fallen exactamente tres en 10 das?
15. Un banco atiende todos los das de 8 a.m. a 4 p.m. y se sabe que el nmero de clientes por da que van
a solicitar un prstamo por ms de $10000 tiene una media de 3.
a. Cul es la probabilidad de que hasta el medioda no se haya producido una solicitud de prstamo
por ms de $10000?
b. Cul es la probabilidad de que hasta en dos das se hayan producido ms de 3 solicitudes de
prstamo por ms de $10000?
16. Los pasajeros de las aerolneas llegan al azar e independientemente a la seccin de documentacin en
un gran aeropuerto internacional. La frecuencia promedio de llegadas es de 10 pasajeros por minuto.
cul es la probabilidad de:
a. No llegadas en un intervalo de un minuto?
b. Que lleguen tres pasajeros o menos en un intervalo de un minuto?
c. No llegadas en un intervalo de 15 segundos?
d. Al menos una llegada en un periodo de 15 segundos?

P g i n a | 79
DISTRIBUCIN HIPERGEOMTRICA
Los experimentos que tienen este tipo de distribucin tienen las siguientes caractersticas:
a) Al realizar un experimento con este tipo de distribucin, se esperan dos tipos de resultados.
b) Las probabilidades asociadas a cada uno de los resultados no son constantes.
c) Cada ensayo o repeticin del experimento no es independiente de los dems.
d) El nmero de repeticiones del experimento (n) es constante.
DEFINICIN: Un conjunto de N objetos contiene K objetos clasificados como xitos y N K objetos

clasificados como fallas
Se toma una muestra de tamao n, al azar (sin reemplazo) de entre N objetos, donde K K yn N. Sea
la variable aleatoria X el nmero de xitos en la muestra. Entonces, X tiene una distribucin
Hipergeomtrica y
C xK .CnNxk
p( x; N , K , n)
CnN
Nota: La media y la varianza de la distribucin hipergeomtrica son:
N n
E(X) = np, V ar(X) = npq
N 1
Ejemplo: De un grupo de 20 empleados, 15 hombres y 5 mujeres, se desean seleccionar 6 personas

para realizar un trabajo.
a) Cul es la probabilidad de que haya dos mujeres en el grupo?
b) Cul es la probabilidad de que no haya ninguna mujer?
c) Da una expresin de la funcin de probabilidad y de la funcin de distribucin asociada a este
experimento aleatorio si se toma como variable aleatoria el nmero de mujeres.
d) Representa grficamente esta funcin de probabilidad
Si llamamos X a la variable aleatoria que representa el nmero de mujeres seleccionadas, esta variable
sigue una distribucin hipergeomtrica donde N = 20, K = 5, N K = 15, n = 6.
a) La probabilidad de que haya 2 mujeres en el grupo es:
C25 .C415
P(X = 2) = 0.35217
C620

P g i n a | 80
b) La probabilidad de que no haya ninguna mujer en el grupo es:
C05 .C615
P(X = 0) = 0.12913
C620
c) Si x es la variable aleatoria que da el nmero de mujeres seleccionadas en un grupo de 6 personas,

la funcin de probabilidad es:
C x5 .C615 x
P(x) = , x 0,1,2,3,4,5
C620
Ejercicios:
17. Entre las 20 celdas solares que se presentan en una expresin comercial, 12 son celdas planas y las
otras son celdas de concentracin. Si una persona que visita la exposicin selecciona al azar 6 de las
salas solares para revisarlas. Cul es la probabilidad de que 3 de estas sean planas?
18. Entre 12 hombres que soliciten un trabajo en el servicio postal, las esposas de los 9 trabajan. Si se
seleccionan aleatoria mente a 2 de los solicitantes para una consideracin adicional, cuales son las
probabilidades de que
a) La esposa de ninguno trabaje
b) Solo la esposa de uno trabaje
c) Las esposas de ambos trabajen
19. Un inspector de aduanas decide revisar 3 de 16 embarques provenientes de Madrid por la va area. Si
la seleccin es aleatoria y 5 de los embarques contienen contrabando encuentre las probabilidades de
que el inspector de aduanas
a) No encuentre ningn embarque con contrabando
b) Encuentre uno de los embarques con contrabando
c) Encuentre dos de los embarques con contrabando
d) Encuentre tres de los embarques con contrabando
20. Para pasar una inspeccin de control de calidad, se seleccionan al azar 2 piezas de cada lote de 12
acumuladores para automvil, y se acepta el lote solo si ningn acumulador tienen ningn defecto; de
otra manera se revisan todos los acumuladores del lote. Si la seleccin de los acumuladores es
aleatoria, obtenga las probabilidades de que un lote
a) Pase la instruccin con uno de los 12 acumuladores defectuoso
b) No pase la inspeccin con 3 de los acumuladores con defectosc) No pase la inspeccin con 6 de los
acumuladores con defectos
21. Entre las 12 casas que hay para venta en un fraccionamiento, 9 tienen aire condicionado, si se

P g i n a | 81
seleccionan 4 de las casas para un desplegado en un peridico Cul es la probabilidad de que 3 de

estas tengan aire acondicionado?
22. El encargado de una oficina de correos debe enviar 6 de 15 paquetes a Europa por correo areo, pero
los revuelve y pone por correo al azar de los seis paquetes. Cul es la probabilidad de que solo tres de
los paquetes que se supone que se deben de enviar por correo areo se enven por esta clase de
correo?
23. Entre16 camiones de entrega de una tienda departamental, 5 emiten cantidades excesivas de
contaminantes. Si se seleccionan al azar 8 de los camiones para una inspeccin Cul es la
probabilidad de que esta muestra incluya por lo menos 3 de los camiones que emiten cantidades
excesivas de contaminantes?
24. En una prisin federal, 120 de 300 internos estn purgando condenas por delitos contra la salud. Si se
selecciona aleatoria mente a 8 de los internos para comparecer ante un comit legislativo Cul es la
probabilidad de que 3 de los 8 estn purgando condenas por delitos contra la salud?

P g i n a | 82
DISTRIBUCIN NORMAL
Abordaremos ahora el estudio de la ms importante de las distribuciones de tipo contnuo, la
distribucin normal, cuya funcin de probabilidad tiene una representacin grfica (denominada para
variables contnuas, curva de densidad) que se caracteriza por la forma de campana invertida (Fig).
Hemos hablado con anterioridad de lo importantes que son
y de la frecuencia con que aparecen en estadstica este tipo
de distribuciones. Corresponde a fenmenos en los que
existen unos pocos datos en los extremos, y estos
aumentan paulatinamente hasta la parte central donde est
la mayora de ellos. Se presenta en fenmenos tan
dispares, como la longitud de una pieza fabricada por una mquina o el efecto que una misma dosis de
un frmaco produce en diferentes individuos. Son de este tipo, la mayora de los caracteres
morfolgicos de las poblaciones (tallas, pesos,...), sociolgicos (consumo de productos, valoracin de
un mismo fenmeno,...), psicolgicos (coeficiente de inteligencia, grado de adaptacin al medio,...)
fsicos (resistencia a la rotura de una pieza, duracin de una pila,.....) y en general todas aquellas
caractersticas que se obtengan como suma de muchos factores.
Ante este tipo de fenmenos, existe un modelo matemtico que nos permite el tratamiento de todos
ellos, la curva o campana de Gauss. Veremos ahora las caractersticas ms importantes de este
modelo, y como usarlo para calcular probabilidades. Diremos que una variable aleatoria tiene una
distribucin normal si su curva de densidad es simtrica, con forma de campana invertida (fig. 1).
Cada distribucin normal tiene dos parmetros que son los que la determinan: su media y su desviacin
tpica. Por ello, se suele denotar por N( m,s). En la siguiente figura, vemos diferentes distribuciones
normales
Como se puede observar, la media indica el eje de simetra de la distribucin, mientras la desviacin
tpica es la que determina el recorrido de la misma. Ya dijimos que para distribuciones de tipo discreto,
la suma de todos los valores de la probabilidad deba ser 1. Para el caso de las distribuciones de tipo
contnuo esta condicin se transforma en que el rea total
bajo la curva ha de ser 1. La clave de este tipo de
distribuciones est en que existe una correspondencia entre
rea y probabilidad, de forma que la probabilidad de que la
variable est entre dos valores a y b es exactamente el rea
marcada en la figura.
La distribucin normal es en forma de campana,
habitualmente llamada distribucin de Gauss. Es simtrica en torno a su media (); la media, mediana y
modo son iguales; el rea total de la curva por encima del eje basal x es la unidad del rea = 1, por lo

P g i n a | 83
tanto cada sector de derecha e izquierda tiene un valor de 0,5. Si se trazan lneas perpendiculares a un
desvo estndar () de distancia de la media, se obtiene un 68% del rea de la curva. Dos desvos
estndar encierran un 95% y tres un 99,7% de la curva.
Esta distribucin es frecuentemente utilizada en las aplicaciones estadsticas. Es propio que ciertos
fenmenos tienden a parecerse en su comportamiento a esta distribucin. Muchas variables aleatorias
continuas presentan una funcin de densidad cuya grfica tiene forma de campana.
En resumen, la importancia de la distribucin normal se debe principalmente a que hay muchas variables
asociadas a fenmenos naturales que siguen el modelo de la normal.
Caracteres morfolgicos de individuos (personas, animales, plantas,...) de una especie, p.ejm. tallas,
pesos, envergaduras, dimetros, permetros,...
Caracteres fisiolgicos, por ejemplo: efecto de una misma dosis de un frmaco, o de una misma
cantidad de abono.
Caracteres sociolgicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos,
puntuaciones de examen.
Caracteres psicolgicos, por ejemplo: cociente intelectual, grado de adaptacin a un medio,...
Errores cometidos al medir ciertas magnitudes.
Valores estadsticos muestrales, por ejemplo: la media.
Otras distribuciones como la binomial o la de Poisson son aproximaciones normales, ...
Y en general cualquier caracterstica que se obtenga como suma de muchos factores.

En el grfico se observa la campana de Gauss, representante de la distribucin normal y sus desvos
estndares.

P g i n a | 84
LA DISTRIBUCIN NORMAL ESTANDARIZADA O TIPIFICACIN
La Distribucin Normal Estndar es una Distribucin Normal terica que utiliza un sistema numrico comn.
Cuando se estudia la variable de peso de los nios al nacer, o el grueso de tornillos, o el nmero de frutos
daados en un rbol, aun cuando las distribuciones de datos muestren la misma forma, las unidades
mtricas son variables, por tanto, para poderlas comparar con una distribucin patrn es necesario referirlas
en la misma unidad de medida. Esta unidad de medida es la desviacin estndar (se ver ms adelante), de
esta manera, sean pesos de bebes, grueso de tornillos o frutos de rboles, transformados a una unidad
estndar, estaremos hablando en la misma escala. Cuando se diga por ejemplo, entre el punto A y el punto
B hay k desviaciones estndar, sin importar las unidades en que fueron medidos los datos, kilos, micras o
unidades para el ejemplo. Por tanto, al comparar las magnitudes entre el punto A y el punto B en los tres
anlisis con las unidades de la Distribucin Normal Estndar, se podr deducir entre otras cosas, la
magnitud relativa entre el punto A y el punto B. Debe quedar claro que las comparaciones nicamente son
posibles en poblaciones similares, nios con nios, tornillos con tornillos, etc.
Puesto que hay un nmero infinito de combinaciones para los dos parmetros, hay un nmero infinito de
curvas normales diferentes. Este problema se ha resuelto prcticamente al transformar los valores de todas
las distribuciones normales a los valores de una distribucin normal estandarizada (tipificada) representada
por la curva normal estandarizada.
Las puntuaciones estandarizadas (tipificadas) se logran restando la media a cada observacin y dividiendo
entre la desviacin estndar. La unidad estndar o tipificada se llama Z y se obtiene mediante la
x
formula: Z . Donde es la media de la distribucin y su desviacin estndar.

En muchas ocasiones se quieren comparar puntuaciones que pertenecen a dos distribuciones normales
diferentes. La diferencia entre las dos distribuciones radica en que las medias y las desviaciones estndar
no son iguales. Sin embargo la comparacin se hace posible si se convierten las puntuaciones de ambas
distribuciones a puntuaciones z que corresponden a la distribucin normal estandarizada o tipificada.
x
Z
Si la variable X es N(,) entonces la variable tipificada de X es y
sigue tambin una distribucin normal pero de = 0 y = 1, es decir, N(0,1)
Por tanto su:

Funcin de densidad:
1
1 2 z
2
N (0,1) e ; - < z < +

2
Funcin de distribucin:
t2
1 z
F ( z ) P( Z z ) ( z )
2 e

2
dt
Siendo la representacin grfica de esta funcin la siguiente:

P g i n a | 85
A la variable Z se la denomina variable tipificada de X, y a la curva de su funcin de densidad curva normal

tipificada.
Caracterstica de la distribucin normal tipificada (reducida o estndar)
No depende de ningn parmetro
Su media es 0, su varianza es 1 y su desviacin tpica es 1.
La curva f(x) es simtrica respecto del eje 0Y
Tiene un mximo en el eje Y
Tiene dos puntos de inflexin en z =1 y z = -1
La curva normal estndar tiene = 0 y = 1. Recordamos que la probabilidad equivale al rea bajo la
curva, que el rea bajo toda la curva es 1 y que el rea bajo cada mitad de la curva es 0.5. Para calcular
probabilidades en una curva normal no estndar, usamos la frmula de conversin z. Cuando la media de la
distribucin normal es 0 y la varianza es 1 se denomina "normal tipificada", y su ventaja reside en que hay
tablas donde se recoge la probabilidad acumulada para cada punto de la curva de esta distribucin.

P g i n a | 86
CALCULO DE PROBABILIDADES CON MANEJO DE TABLAS

Tabla de reas bajo la curva normal estndar. Los valores de la tabla que no se muestran en negrita
representan la probabilidad de observar un valor menor o igual a z. La cifra entera y el primer
decimal de z se buscan en la primera columna, y el segundo decimal en la cabecera de la tabla.
TABLA DE LA DISTRIBUCIN N(0, 1): F(z) = P(Z z)
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
La tabla contiene valores de la funcin de distribucin de una variable aleatoria N(0,1) desde 0 a 3.99 en
intervalos de una centsima. Por ejemplo si queremos hallar: F(2.34) = P(z 2.34) usamos la tabla. Como
2.34 = 2.3 + 0.04, localizamos el valor que aparece en la fila que comienza en 2.3 y en la columna

P g i n a | 87
encabezada con 0.04. Este valor resulta ser 0.9904, por lo que concluimos que: F(2.34) = P(z 2.34) = P(z
< 2.34) = 0.9904.
P(Z a) Tablas P(Z > a) = 1 - P(Z a)
P(Z -a) = 1- P(Z a) P(-a < Z b) = P(Z b) P(Z > a)
P(a < Z b) = P(Z b) P(Z a)

P(-b < Z -a) = P(a < Z b)
Los casos ms frecuentes tenemos:
Ejemplo: La duracin media de un televisor de una determinada marca es de 8 aos con una desviacin
tpica de medio ao y se distribuye normalmente.
Si quisiramos calcular la proporcin de ellos que durarn ms de 9 aos, tendramos:
9 8
p(X > 9) = p Z = p(Z > 2) = 1 - p(Z < 2) = 1 - 0,9772 = 0,0228 ~ 22, 8%
0,5
Ejemplo: Una mquina produce ejes de acero con una longitud media de 1.005 m y una desviacin tpica
de 0.01 m = 1 cm. Slo son vlidos los ejes que midan 1 0.02 m. Suponiendo que la longitud de los ejes
producidos se distribuye de acuerdo con una distribucin normal, qu porcentaje de ejes de acero se
espera que haya que desechar?
Hay que calcular: P(0.98 < x < 1.02) con una N(1.005, 0.01)

P g i n a | 88
P(0.98 < x < 1.02) = F(1.02) F(0.98)
Entonces:
F(1.02) = P(x 1.02) = P(z (1.021.005)/0.01) = P(z 1. 5) = 0.9332
F(0.98) = P(x 0.98) = P(z (0.981.005)/0.01) = P(z 2.5) =1 P(z 2.5) =1 0.9938 = 0.0062
Por lo tanto
P(0.98 < x < 1.02) = F(1.02) F(0.98) = 0.9332 0.0062 = 0.9270
Se espera que el 92.7 % sern vlidos y el 7.3 % sern desechables.

P g i n a | 89
TEMA 5: MUESTREO Y ESTIMACIN
TEORA DEL MUESTREO

La teora del muestreo tiene especial utilidad para determinar si las diferencias que se pueden observar
entre dos muestras son debidas a la aleatoriedad de las mismas o si por el contrario son realmente
significativas; lo que nos lleva a los procesos denominados ensayos e hiptesis de significacin,
fundamental para comprensin de la teora de la decisin, en el rea de la inferencia estadstica. Abarca el
estudio de las relaciones que existen entre una poblacin y las muestras extradas de la misma. Permite
estimar los parmetros poblacionales (media, varianza, etc.) a partir de los correspondientes valores
muestrales, denominados estadsticos. La teora del muestreo tambin permite determinar si las diferencias
observadas entre dos muestras son significativas o, por el contrario, debidas al azar, lo que supone la
realizacin de ensayos e hiptesis de significacin.
Pues bien, la teora del muestreo estudia las tcnicas y procedimientos que debemos emplear para que las
muestras sean representativas de la poblacin que pretendemos estudiar, de forma que los errores en la
determinacin de los parmetros de la poblacin objeto de estudio sean mnimos. Para conseguirlo, la
muestra tiene que ser representativa de la poblacin. Para que la extraccin de la muestra sea
representativa se deben cumplir dos principios bsicos:
Que haya independencia en la seleccin de los individuos que forman la muestra.
Que todos los individuos tengan la misma probabilidad de ser incluidos en la muestra.
El propsito de un estudio estadstico suele ser, extraer conclusiones acerca de la naturaleza de una
poblacin. Al ser la poblacin grande y no poder ser estudiada en su integridad en la mayora de los casos,
las conclusiones obtenidas deben basarse en el examen de solamente una parte de sta, lo que lleva, en
primer lugar a la justificacin, necesidad y definicin de las diferentes tcnicas de muestreo.
Los primeros trminos obligados a los que se debe hacer referencia, sern los de estadstico y estimador.
Dentro de este contexto, ser necesario asumir un estadstico o estimador como una variable aleatoria con
una determinada distribucin, y que ser la pieza clave en las dos amplias categoras de la inferencia
estadstica: la estimacin y el contraste de hiptesis.
El concepto de estimador, como herramienta fundamental, se caracteriza mediante una serie de
propiedades que servirn para elegir el mejor para un determinado parmetro de una poblacin, as como
algunos mtodos para la obtencin de ellos, tanto en la estimacin puntual como por intervalos.
La tarea fundamental de la estadstica inferencial, es hacer inferencias acerca de la poblacin a partir de
una muestra extrada de la misma.
Las tcnicas estadsticas para ser utilizados requieren datos, cuya adquisicin es un compromiso difcil. La
teora de muestras o muestreo tiene por objeto proporcionar una metodologa que gue los problemas de
recogida de datos, es decir, cmo se hace para recoger esos datos. Por lo tanto, El muestreo es una
herramienta de la investigacin cientfica. Su funcin bsica es determinar que parte de una realidad en
estudio (poblacin o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha poblacin.
El error que se comete debido a hecho de que se obtienen conclusiones sobre cierta realidad a partir de la
observacin de slo una parte de ella, se denomina error de muestreo. Obtener una muestra adecuada
significa lograr una versin simplificada de la poblacin, que reproduzca de algn modo sus rasgos bsicos.
En el muestreo se utilizan por lo general las siguientes Terminologas:

P g i n a | 90
UNIVERSO: Es un conjunto finito o infinito de elementos, seres o cosas que presentan caractersticas
comunes entre si.
POBLACIN: Est constituida por el conjunto de medidas de las variables en estudio, en cada una de las
unidades que conforman el universo. Es decir, cada una de las variables en estudio constituye una
poblacin que viene dada por el conjunto de valores que ella toma de la realidad que conforman el universo.
MUESTRA: Es un subconjunto del universo o de la poblacin, dependiendo de que se haya seleccionado a
un grupo de elementos o a un grupo de mediciones. Es el conjunto de unidades o elementos de anlisis
sacados del marco.
UNIDAD DE ANLISIS: Est definida como el elemento que se examina y del que se busca la informacin
dentro de la unidad de investigacin. Es por lo tanto el objeto o individuo del que hay que obtener la
informacin.
UNIDAD DE OBSERVACIN: Se denomina a la unidad a travs de la cual se obtiene la informacin, esta
puede o no coincidir con el elemento. Tambin se denomina unidad respondiente.
UNIDADES DE MUESTREO: Son aquellas que contienen las unidades de anlisis de la poblacin y que se
utilizarn para confeccionar o seleccionar la muestra. En general, es la seleccin de los conjuntos que sern
tomados en cuenta para la conformar la muestra final en la investigacin. En otras palabras es un nmero
de elementos de la poblacin, no reservados, que se van a estudiar. Todo miembro de la poblacin
pertenecer a una y slo una unidad de muestreo.
MUESTREO: Es la tcnica empleada para la seleccin de elementos (unidades de investigacin)
representativos de la calidad y condiciones medias de un todo que conformarn una muestra. Este
muestreo puede ser: No Probabilstico y Probabilstico.
MARCO MUESTRAL: Es el proceso de definir y enumerar los elementos sobre los cuales se realizan las
inferencias estadsticas en el muestreo probabilstica. Es importante la construccin de un marco muestral lo
ms perfecto posible a fin de que exista una correspondencia biunvoca entre las unidades muestrales
poblacionales y las listas fsicas que lo conforman. Entre los factores que contribuyen a distorsionar la
calidad de un buen marco muestral estn:
a) Elementos faltantes
b) Unidades ocultas por estar pareadas con otras
c) Unidades muestrales repetidas y
d) Elementos extraos.
Parmetro: Son las medidas o datos que se obtienen sobre la poblacin.
Estadstico: Son los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimacin de
los parmetros.
Error Muestral, de Estimacin o Estndar. Es la diferencia entre un estadstico y su parmetro
correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al
valor de la poblacin, nos da una nocin clara de hasta dnde y con qu probabilidad una estimacin
basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo.
Siempre se comete un error, pero la naturaleza de la investigacin nos indicar hasta qu medida podemos
cometerlo (los resultados se someten a error muestral e intervalos de confianza que varan muestra a
muestra). Vara segn se calcule al principio o al final. Un estadstico ser ms preciso en cuanto y tanto su

P g i n a | 91
error es ms pequeo. Podramos decir que es la desviacin de la distribucin muestral de un estadstico y

su fiabilidad.
Nivel de Confianza. Probabilidad de que la estimacin efectuada se ajuste a la realidad. Cualquier
informacin que queremos recoger est distribuida segn una ley de probabilidad (Gauss o Student), as
llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un estadstico capte
el verdadero valor del parmetro.
Varianza Poblacional. Cuando una poblacin es ms homognea la varianza es menor y el nmero de
entrevistas necesarias para construir un modelo reducido del universo, o de la poblacin, ser ms
pequeo. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos.
SIGNIFICANCIA ESTADSTICA.- Este concepto es una forma de expresar matemticamente si dos grupos
son o no diferentes dentro de una muestra o si dos variables tienen diferencias dentro de un mismo grupo y
esas diferencias no son debidas a factores aleatorios. El mtodo utilizado para hallar la significacin
estadstica, es un tipo especial de mtodo matemtico que se llama anlisis estadstico. Es necesario crear
una unidad de medida para lo cual se usa el valor de p, al estudiar distribucin de frecuencias, o el estudio
de las colas de las distribuciones, o el rea bajo una determinada curva, etc.
Por lo tanto p es la probabilidad de error al comparar dos o ms muestras o grupos cuando aseguramos que
ambos son diferentes. O sea que p es la probabilidad en el sentido de la significacin estadstica. Obtener
una p < 0.05 significa que tenemos un 5% de probabilidades de error en las conclusiones, por lo cual la
probabilidad de equivocarnos es baja. En otras palabras, en la estadstica, se dice que un evento, suceso o
valor, es significativo, cuando es poco probable y por lo tanto, seguramente no se debe al azar, sino a
factores especficos.
De forma ms estricta, significacin estadstica, hace referencia a la cuestin de determinar
estadsticamente, si un valor o resultado obtenido de una muestra, es poco probable, de modo que no
puede explicarse por las fluctuaciones propias de esa muestra en cuestin.
El diseo de muestras tiene dos procesos fundamentales:
Proceso de seleccin: Reglas y operaciones mediante las cuales se incluyen algunas unidades de la
muestra.
Proceso de estimacin: A partir de los datos seleccionados se estiman ciertos valores desconocidos de la
muestra.
El uso de una encuesta por muestreo tiene una serie de ventajas, como que su coste es mucho menor, es
ms rpida de realizar y los datos se obtienen con mayor exactitud debido al poco volumen de encuestados.
VENTAJAS DEL MUESTREO:
a) Costos reducidos.
b) Mayor rapidez para obtener resultados.
c) Mayor exactitud o mejor calidad de la informacin: debido a los siguientes factores
1.- Volumen de trabajo reducido.
2.- Puede existir mayor supervisin en el trabajo.
3.- Se puede dar ms entrenamiento al personal.
4.- Menor probabilidad de cometer errores durante el procesamiento de la informacin.

P g i n a | 92
d) Factibilidad de hacer el estudio cuando la toma de datos implica tcnicas destructivas, por ejemplo:
- Pruebas de germinacin.
- Anlisis de sangre.
- Control de calidad.

P g i n a | 93
TIPOS DE MUESTREO
Los investigadores proponen diversos criterios de clasificacin para los diferentes tipos de muestreo,
aunque en general pueden dividirse en dos grandes grupos: mtodos de muestreo probabilsticas y
mtodos de muestreo no probabilsticas.
MTODOS DE MUESTREO PROBABILSTICAS

Los mtodos de muestreo probabilsticos son aquellos que se basan en el principio de equiprobabilidad. El
mtodo otorga una probabilidad conocida de integrar la muestra a cada elemento de la poblacin, y dicha
probabilidad no es nula para ningn elemento.
Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar
parte de una muestra y, consiguientemente, todas las posibles muestras de tamao n tienen la misma
probabilidad de ser elegidas. Slo estos mtodos de muestreo probabilsticos nos aseguran la
representatividad de la muestra extrada y son, por tanto, los ms recomendables. Dentro de los mtodos de
muestreo probabilsticos encontramos los siguientes tipos:
Muestreo aleotorio simple
Muestreo aleatorio estratificado
Muestreo aleatorio sistemtico
Muestreo por conglomerados
PRINCIPALES ETAPAS DE UN ESTUDIO POR MUESTREO:
Definicin de objetivos: Esta etapa comprende la identificacin del problema y el establecimiento de las metas
del estudio.
Definicin del marco de muestreo: El marco de muestreo es el conjunto de las unidades de muestreo que
constituyen una poblacin. Este generalmente puede ser de dos tipos:
a) Marco lista: Es una lista depurada (sin traslapes o duplicaciones) que permite identificar a cada unidad de
muestreo. Por ejemplo, una lista que contenga el nombre de todos los proveedores de caa de azcar de un
ingenio. Es recomendable que adems de identificar a cada unidad muestral, incluya algunas otras
caractersticas de inters, por ejemplo, tamao de la finca de cada proveedor.
b) Es un plano o mapa que permite identificar pequeas reas usadas como unidades de muestreo en las que
se ha dividido el rea total.
Variables a medir y Mtodos de medicin: Es importante considerar el tipo de variable a medir, por ejemplo:
si se va a estudiar el rendimiento de caa de azcar, la variable es de tipo continuo, si interesa estimar la
proporcin de agricultores que utilizan herbicidas para el control de malezas, se medir una variable de tipo
binomial. El tipo de variable a medir ayuda a definir el esquema o tipo de muestreo. Los mtodos de medicin
deben de tener las siguientes caractersticas:
a) uniformidad.

P g i n a | 94
b) practicabilidad.
c) deber ser comprensibles para el grupo de trabajo.
Tipo o Esquema de Muestreo: Existen actualmente una gran variedad de tipos o esquemas de muestreo que
han sido desarrollados para diferentes situaciones, entre los ms usados estn: muestreo simple aleatorio,
muestreo aleatorio estratificado, muestreo sistemtico.
Determinacin del tamao de muestra (n): Este punto depende de que es lo que se desea estimar y el
esquema o tipo de muestreo seleccionado.
Seleccin de las unidades de muestreo: Consiste en extraer un nmero n de unidades muestrales de una
poblacin de tamao N.
Premuestreo y pruebas de campo: En un estudio, es conveniente someter el mtodo a una prueba previa por
las siguientes razones:
a) Algunas veces es imprescindible realizar un Premuestreo para tener una estimacin preliminar de la
variabilidad de la poblacin.
b) Verificar la funcionalidad de un mtodo de muestreo.
c) Estimar costos.
d) Conocer la eficiencia de la organizacin del trabajo de campo.
e) Captar la aceptacin, rechazo o dificultad para obtener la informacin.
Organizacin del trabajo de campo: Incluye la capacitacin de personal y todas las operaciones necesarias
para obtener la informacin buscada.
Anlisis y Edicin de resultados: Puede consistir slo en la presentacin e interpretacin de distribuciones

simples, tabulaciones, grficas o puede considerar un anlisis estadstico ms complejo (Estimacin, pruebas
de hiptesis, etc.) esto depende bsicamente de los objetivos del trabajo.
Muestreo aleatorio simple: Cada elemento de la poblacin tiene la misma probabilidad de ser elegido, las
observaciones se realizan con reemplazamiento, de manera que la poblacin es idntica en todas las
extracciones, o sea, que la seleccin de un individuo no debe afectar a la probabilidad de que sea
seleccionado otro cualquiera aunque ello comporte que algn individuo pueda ser elegido ms de una vez
(se hacen tantas papeletas numeradas como individuos hay, se coge una y se devuelve, se vuelve a coger
otra y se devuelve, etc.) En el muestreo sistemtico los elementos de la poblacin estn ordenados por
listas. Se elige un individuo al azar y a continuacin a intervalos constantes se eligen todos los dems hasta
completar la muestra. Si el orden de los elementos es tal que los individuos prximos tienden a ser ms
semejantes que los alejados, el muestreo sistemtico tiende a ser ms preciso que el aleatorio simple, al
cubrir ms homogneamente toda la poblacin.
El procedimiento empleado es el siguiente:

P g i n a | 95
1) se asigna un nmero a cada individuo de la poblacin

2) a travs de algn medio mecnico (bolas dentro de una bolsa, tablas de nmeros aleatorios, nmeros
aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario
para completar el tamao de muestra requerido.
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad prctica cuando la poblacin que
estamos manejando es muy grande.
COMO SE SELECCIONA UNA MUESTRA ALEATORIO

El procedimiento o sistema utilizado para la seleccin de las unidades de la muestra reviste vital
importancia, ya que de dicha mtodo depende bsica y fundamentalmente el carcter representativo de la
misma y la validez de la induccin estadstica.
Si el mtodo de seleccin, no est suficientemente ajustado a la condicin casual de las unidades, la
muestra estara expuesta a una inclinacin viciada, perjuicio o preferencia que desvirtuara sus resultados.
En la seleccin no pueden intervenir fuerzas especiales que efecten la composicin de la muestra, ya que
la extraccin de las unidades deben ser resultado de una combinacin de factores entremezclados y
exentos de propensin es decir, que la seleccin antes que todo debe hacerse de acuerdo al conjunto de
causas fluctuantes conocidas como azar. Es necesario recalcar que la seleccin final de los elementos de la
muestra habr de estar basada en un mtodo de azar, sea cual fuere el tipo de muestreo probabilstica que
se piensa utilizar.
En relacin con la pregunta, cmo tomamos una muestra aleatoria en la prctica, por suerte podemos
tomarla sin recurrir en realidad al tedioso proceso de citar todas las muestras posibles. En cambio podemos
citar los N elementos individuales de una poblacin finita y despus tomar una muestra aleatoria mediante la
seleccin de los elementos que se incluirn en la muestra, uno a la vez sin sustitucin, asegurndonos que
en cada una de las elecciones sucesivas, cada uno de los elementos restantes de la poblacin tenga la
misma oportunidad de ser seleccionado. Esto nos conduce a la misma probabilidad de cada muestra
posible. Por ejemplo, para tomar una muestra aleatoria de 20 cuentas vencidas de un archivo de 257
cuenta de este tipo, se pudiese escribir cada nmero de cuenta en un pedazo de papel, colocar los papeles
en una caja y mezclarlos vigorosamente; luego tomaramos (sin ver) 20 papeles, uno tras otro, sin
sustitucin.
En la prctica, a menudo este procedimiento relativamente simple resulta innecesario, ya que la manera
ms simple de tomar una muestra aleatoria consiste en utilizar una tabla de cifras aleatorias (o nmeros
aleatorios). Las tablas publicadas de nmeros aleatorios constan de pginas en las cuales se colocan los
nmeros 0, 1, 2, .y 9 casi de la misma manera en que podran figurar si hubiesen sido generadas por
un dispositivo o juego de oportunidad que d a cada cifra la misma probabilidad de figurar en cualquier sitio
dado de la tabla. Hoy en da, estas tablas se elaboran mediante uso de computadoras.
Existen diferentes mtodos de seleccin al azar de uso frecuente, entre 1os que se pueden considerar los
siguientes:
a) Seleccin por sorteo

P g i n a | 96
b) Uso de tablas de nmeros aleatorios.
a).- Seleccin por Sorteo

Bajo este mtodo se enumera correlativamente la totalidad del universo y se procede ms o menos
similarmente a como se realiza un sorteo de lotera preparndose bolitas o similares que representan
el universo y que son introducidas en una bolsa, bombo, globo, etc., las cuales deben ser mezcladas y
extradas al azar tal como se efecta un sorteo cualquiera. Los numeras extrados en esa forma se
confrontan con las unidades cuyos nmeros concuerdan en la lista previamente elaborada,
constituyendo los elementos de la muestra.
b).- Uso de la Tabla de Nmeros Aleatorios
El objeto de las tablas de nmeros aleatorios es facilitar la obtencin de los elementos que han de
constituir la muestra, sin tener que usar bombos, cajas para bolas u otros utensilios ms o menos
complicados, pero consiguiendo que el procedimiento de seleccin no est influenciado por la
caracterstica en estudio.
Las tablas de numeras al azar son tablas con miles de nmeros obtenidos por un procedimiento como
el de la lotera, es decir, por un procedimiento al azar. La tabla puede empezarse a leer en cualquier
parte, pero debe escogerse al azar la columna y fila de comienzo para lo cual es suficiente colocar a
ciegas un dedo sobre el cuerpo de la tabla y empezar desde ese sitio la lectura.
El procedimiento para seleccionar una muestra al azar de tamao n de una poblacin de N

elementos ( n < N) es el siguiente:
1).- Se obtiene un listado de todos los N elementos (unidades de muestreo) que componen a la
poblacin.
2).- Se numeran todos los elementos de la poblacin del 1 al N.
3).- En una tabla de nmeros aleatorios, se elige al azar una columna (o fila) comenzando en cualquier
lugar. Se recomienda no comenzar en el mismo sitio si hay que tomar varias muestras.
4).- Una vez elegida la columna se procede a seleccionar los nmeros que estn comprendidos entre 1
y N. Desechando aquellos que estn fuera de este intervalo y los nmeros que aparezcan repetidos
se consideran slo una vez.
OBSERVACIONES: Si el tamao de la poblacin es un nmero de un digito, como por ejemplo, N = 8,

la numeracin seria as: 1, 2, 3, 4, 5, 6, 7, 8. Si fueran de dos dgitos como por ejemplo, N = 20, la
numeracin sera: 01, 02, 03, 04, .19, 20. Si la muestra fuese de N = 250, es decir de tres dgitos la
numeracin sera: 001, 002, 003, 004,.012,099, 100,250; y as sucesivamente se procede con
los diferentes caso que se presenten.

P g i n a | 97
EJEMPLO: Supongamos que tenemos una poblacin hipottica de 12 personas y queremos tomar una
muestra aleatoria de 4 individuos, mediante el uso de una tabla de nmeros aleatorios.
Para realizar este problema, se siguen los pasos dados anteriormente.

1).- Obtencin del listado de los individuo de la poblacin. Los nombres de los electos son:
Juan Rojas
Luis Mata
Pedro Rodrguez
Miguel Jurez
Nicols Mata
Juan Marn
Jos Mota
Maria Pea
Carlos Mata
Ligia Larez
Ral Ron
Magdalys Medas
2).- Se enumeran los elementos de la poblacin as:
01- Juan Rojas

02- Luis Mata
03- Pedro Rodrguez
04- Miguel Jurez
05- Nicols Mata
06- Juan Marn
07- Jos Mota
08- Maria Pea
09- Carlos Mata
10- Ligia Larez
11- Ral Ron
12- Magdalys Medas
Aplicando la tabla de nmeros aleatorios se seleccionan las n = 4 personas. Elegimos por ejemplo la
primera y segunda columna (aqu se tienen que tomarse dos columnas, ya que la numeracin de los

P g i n a | 98
elementos est hecha con dos dgitos) y comenzando en la primera fila se tiene que las personas
seleccionadas son las siguientes:
04- Miguel Jurez

02- Luis Mata
03- Pedro Rodrguez
12- Magdalys Mejias
Si sucediera que el nmero de individuos a seleccionar no se alcance con las dos primeras columnas
seleccionadas, se contina con las dos siguientes columnas hasta completar el tamao de la muestra
requerida.

P g i n a | 99
TABLA DE NMEROS ALEATORIOS
04433 80674 24520 18222 l0610 05794 37515

60298 47829 72648 37414 75755 04717 29899
67884 5965l 67533 68123 17730 95862 08034
32653 01895 12506 88535 36553 23757 34209
95913 15405 13772 76638 48423 25018 99041
55864 21694 13122 44115 01601 50541 00147
35334 49810 91601 40617 72876 33967 73830
57729 32196 76487 11622 96297 24160 09903
86648 13697 63677 70119 94739 25875 38829
30574 47609 07967 32422 76791 39725 53711
8l307 43694 83580 79974 45929 85113 26872
02410 54905 79007 54939 21410 86980 91772
18969 75274 52233 62319 08598 09066 95288
87863 82384 66860 62297 80198 19347 73234
68397 7l708 15438 62311 72844 60203 46412
28529 54447 58729 10854 99058 l8260 38765
44285 06372 l5867 70418 57012 72122 36634
86299 83430 33571 23309 57040 29285 67870
84842 68668 90894 61658 15001 94055 36308
56970 83609 52098 04184 54967 72938 56834
83125 71257 60490 44369 66130 72936 69848
55503 52423 02464 26141 68779 66388 75242
47019 76273 33203 29608 54553 25971 69573
84828 32592 79526 29554 84580 37859 28504
68921 08141 79227 05748 51276 57143 31926
36458 96045 30424 98420 72925 40729 22337
95752 59445 36847 87729 81679 59126 59437
26768 47323 58454 56958 20575 76746 49878
42613 37056 43636 58085 06766 60227 96414
95457 30566 65482 25596 02678 54592 63607
95276 17894 63564 95958 39150 64379 46059
66954 52324 64776 92345 95110 59448 77249

P g i n a | 100
17457 18481 14113 62462 02798 54977 48349

03704 36872 83214 59337 01695 60666 97410
21538 86497 33210 60337 27976 70661 08250
57178 67619 98310 70348 11317 71623 55510
31048 97558 94953 55866 96283 46620 52087
69799 55380 16498 80733 96422 58078 99643
90595 61867 59231 17772 67831 33317 00520
33570 04981 98939 78784 09977 29398 93896
15340 93460 57477 13898 48431 72936 78160
64079 42483 36512 56186 99098 48850 72521
63491 05546 67118 62063 74958 20946 28147
92003 63868 41034 28260 79708 00770 88643
52360 46658 66511 04172 73085 11795 52594
74622 12142 68355 65635 21828 39539 18988
04157 50079 61343 64315 70836 82857 35335
86003 60070 66241 32836 27573 11479 94114
41268 80187 20351 09636 84668 42486 71303

P g i n a | 101
TAMAO DE LA MUESTRA PARA ESTIMAR LA MEDIA CON MUESTREO SIMPLE ALEATORIO

Para estimar la media poblacional utilizando una variable aleatoria continua se utiliza la siguiente relacin:
N .S 2 Z12 2
n
N .d 2 S 2 Z12 2
Donde:
n = tamao de la muestra.
N = tamao de la poblacin.
Z1 2 = variable estandarizada de distribucin normal.
S = varianza de la muestra.
d(e) = precisin del muestreo.
= Nivel de significancia.
Generalmente es necesario hacer un premuestreo de 30 elementos, con el objetivo de hacer una primera
estimacin de S.
Ejemplo: En un lote de frascos, con una poblacin de 8000 unidades, se desea estimar la media de la
capacidad en centmetros cbicos de los mismos.
A travs de un premuestreo de tamao 35 se ha estimado que la desviacin estndar es de 2 centmetros
3
cbicos. Si queremos tener una precisin 0.25 cms , y un nivel de significancia del 5%. De que tamao debe
de ser la muestra?
DATOS:
3
S = 2 cms ; N = 8000; d = 0.25 cms ;
3
= 0.05 (5%)
Z 2 = 1.96
N .S 2 Z12 2 8000(2) 2 (1.96) 2 122931.2

n 239 Frascos.
Nd S 2 Z12 2 8000(0.25) (2) (1.96)
2 2 2
515.37
Solo faltara muestrear 204 frascos, pues los datos de los 35 frascos del premuestreo siguen siendo vlidos.
TAMAO DE LA MUESTRA PARA ESTIMAR PROPORCIONES CON MUESTREO SIMPLE ALEATORIO

P g i n a | 102
En bastantes ocasiones, la variable bajo estudio es de tipo binomial, en ese caso para calcular el tamao de
muestra bajo el muestreo simple aleatorio, se hara de la siguiente manera:
N . p.q.Z12 2
n
N .d 2 p.q.Z12 2
De donde:
p = probabilidad de xito.
q = probabilidad de fracaso.
d = precisin expresada en porcentaje.
En este caso para la estimacin de la varianza, tenemos dos opciones:

a) hacer un premuestreo.
b) asumir varianza mxima.
Ejemplo: En una investigacin, se desea determinar en que proporcin los nios de una regin toman leche en
el desayuno. Si se sabe que existen 1500 nios y deseamos tener una precisin del 10 %, con un nivel de
significancia del 5 %. De que tamao debe de ser la muestra?
DATOS:
N = 1500; d = 10 % = 0.1; = 5 %
p = 0.5 y q = 0.5 (asumiendo varianza mxima).
Z1-/2 =1.96
N . p.q.Z12 2 1500(0.5)(0.5)(1.96) 2 1440.6

n 90
N .d 2 p.q.Z12 2 1500(0.1) (0.5)(0.5) / 1.96)
2 2
15,96
Se deben de muestrear 90 nios.
Muestreo aleatorio sistemtico: Es cuando los elementos de la poblacin estn ordenados por listas. Se
elige un individuo al azar y a continuacin a intervalos constantes se eligen todos los dems hasta
completar la muestra. Si el orden de los elementos es tal que los individuos prximos tienden a ser ms
semejantes que los alejados, el muestreo sistemtico tiende a ser ms preciso que el aleatorio simple, al
cubrir ms homogneamente toda la poblacin.
Este procedimiento exige, como el anterior, numerar todos los elementos de la poblacin, pero en lugar de
extraer n nmeros aleatorios slo se extrae uno. Se parte de ese nmero aleatorio i, que es un nmero
elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i + k, i + 2k, i +
3k,...,i + (n-1) k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamao de la

P g i n a | 103
poblacin entre el tamao de la muestra: k = N/n. El nmero i que empleamos como punto de partida ser
un nmero al azar entre 1 y k.
El riesgo se este tipo de muestreo est en los casos en que se dan periodicidades en la poblacin ya que al
elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una
homogeneidad que no se da en la poblacin. Imaginemos que estamos seleccionando una muestra sobre
listas de 10 individuos en los que los 5 primeros son varones y los 5 ltimos mujeres, si empleamos un
muestreo aleatorio sistemtico con k =10 siempre seleccionaramos o slo hombres o slo mujeres, no
podra haber una representacin de los dos sexos.
Muestreo aleatorio estratificado: Es aquel que se utiliza cuando se est interesado en que la muestra
tenga la misma composicin a la de la poblacin la cual se divide en clases o estratos. Si por ejemplo en la
poblacin el 20% son mujeres y el 80% hombres, se mantendr la misma proporcin en la muestra. Trata de
obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error
muestral para un tamao dado de la muestra. Consiste en considerar categoras tpicas diferentes entre s
(estratos) que poseen gran homogeneidad respecto a alguna caracterstica (se puede estratificar, por
ejemplo, segn la profesin, el municipio de residencia, el sexo, el estado civil, etc.). Una muestra aleatoria
estratificada es la obtenida mediante la separacin de los elementos de la poblacin en grupos que no se
oculten maliciosamente (traslapen), llamados estratos y la seleccin posterior de una muestra irrestrictamente
aleatoria simple en cada estrato. En resumen, los motivos principales para utilizar un muestreo aleatorio
estratificado son los siguientes:
a) La estratificacin puede producir un error de estimacin ms pequeo que el que generara una muestras del
mismo tamao. Este resultado es particularmente cierto si las mediciones dentro de los estratos son
homogneas.
b) El costo por observacin en la encuesta puede ser reducido mediante la estratificacin de los elementos de la
poblacin en grupos convenientes.
c) Se pueden obtener estimaciones de parmetros poblacionales para subgrupos de la poblacin. Los
subgrupos deben de ser entonces estratos identificables.
Lo anterior debe de tomarse en cuenta cuando se est planeando estratificar o no una poblacin o decidiendo
en que forma se definirn los estratos.
Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de inters estarn
representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo
aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos
que formarn parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues
exige un conocimiento detallado de la poblacin (tamao geogrfico, sexos, edades,...).
La distribucin de la muestra en funcin de los diferentes estratos se denomina afijacin, y puede ser de
diferentes tipos:
Afijacin Simple: A cada estrato le corresponde igual nmero de elementos muestrales.
Afijacin Proporcional: La distribucin se hace de acuerdo con el peso (tamao) de la poblacin en cada
estrato.

P g i n a | 104
Afijacin ptima: Se tiene en cuenta la previsible dispersin de los resultados, de modo que se considera
la proporcin y la desviacin tpica. Tiene poca aplicacin ya que no se suele conocer la desviacin.
Supongamos que estamos interesados en estudiar el grado de aceptacin que la implantacin de la reforma
educativa ha tenido entre los padres de una determinada provincia. A tal efecto seleccionamos una muestra
de 600 sujetos. Conocemos por los datos del ministerio que de los 10000 nios escolarizados en las edades
que nos interesan, 6000 acuden a colegios pblicos, 3000 a colegios semiprivados y 1000 a colegios
privados. Como estamos interesados en que en nuestra muestra estn representados todos los tipos de
colegio, realizamos un muestreo estratificado empleando como variable de estratificacin el tipo de centro.
Si empleamos una afijacin simple elegiramos 200 nios de cada tipo de centro, pero en este caso parece
ms razonable utilizar una afijacin proporcional pues hay bastante diferencia en el tamao de los estratos.
Por consiguiente, calculamos que proporcin supone cada uno de los estratos respecto de la poblacin para
poder reflejarlo en la muestra.
Colegios pblicos: 6000/10000 = 0.60

Colegios semiprivados: 3000/10000 = 0.30
Colegios privados: 1000/10000 = 0.10
Para conocer el tamao de cada estrato en la muestra no tenemos ms que multiplicar esa proporcin por el
tamao muestral.
Colegios pblicos: 0.60x600 = 360 sujetos
Colegios semiprivados: 0.30x600 =180 sujetos
Colegios privados: 0.10x600 = 60 sujetos
TAMAO DE MUESTRA PARA ESTIMAR LA MEDIA CON MUESTREO ALEATORIO ESTRATIFICADO

Para estimar la media poblacional utilizando una variable aleatoria continua se utiliza la siguiente relacin:
N i2 Si2
wi
n
N D
2
N i Si2
De donde:
Ni = tamao del i simo estrato.
N = tamao de la poblacin.
Si = varianza del i simo estrato.
wi = importancia o peso del i simo estrato.

P g i n a | 105
B2
D , Donde B = Precisin
4
Ejemplo: En un Ingenio, se desea hacer una estimacin del promedio de grados Brix con que llega la caa a la
fbrica. Para tal el efecto, se desea realizar un muestreo aleatorio estratificado, puesto que la caa proviene de
tres tipos de proveedores. Proveedor tipo A (estrato 1) la caa proviene de lotes de la misma finca. Proveedor
tipo B (estrato 2) la caa proviene de fincas de particulares en donde el ingenio ha prestado servicios.
Proveedor tipo C (estrato 3) la caa proviene de fincas de particulares en donde el ingenio no ha tenido ningn
servicio. De estudios anteriores, se conoce el tamao y desviacin estndar de cada estrato y adems se desea
tener una precisin de un grado brix en el estudio. De que tamao debe de ser la muestra total y de cada
estrato? En es siguiente cuadro se presentan los datos de Ni, Si, y Wi de los diferentes estratos.
DATOS:
*
ESTRATO Ni Si wi
1 558 3.5 558/998 = 0.56
2 190 5.4 190/998 = 0.19
3 250 6.2 250/998 = 0.25
Total 998
* Con distribucin proporcional.
N = Ni = 998
N12 Si2
wi
n
N D
2
N i Si2

P g i n a | 106
N i
2
Si2

N12 S12 N 22 S 22 N 32 S32

wi w1 w2 w3
N i
2
Si2

(558) 2 (3.5) 2 (190) 2 (5.4) 2 (250) 2 (6.2) 2

wi 0.56 0.19 0.25
N i
2
Si2

3814209 1052676 2402500

wi 0.56 0.19 0.25
N i
2
Si2
6811087,5 5540400 9610000
wi
N i
2
Si2
21961487.5
wi
N S i i
2
N 1 S12 N 2 S 22 N 3 S 32
N S i i
2
558(3.5) 2 190(5.4) 2 250(6.2) 2
N S i i
2
6835.5 5540.4 9610
N S i i
2
21985.9
La.. Pr esision..B..es..1.
B 2 12
D 0.25
4 4
N 2 D (998) 2 (0.25) 249001.
N i
2
S i2
wi 21961487.5 21961487.5
n 81,..es..el ..tamao..de.
N D Ni Si
2 2
249001 21986 270987
.la..muestra..total .
Como se utiliz distribucin proporcional, a cada estrato le tocara el siguiente tamao de muestra:
n1 = 81(558/998) = 45 ; n2 = 81(190/998) = 15; n3 = 81(250/998) = 20.

TAMAO DE MUESTRA PARA ESTIMAR LA PROPORCIN CON MUESTREO ALEATORIO
ESTRATIFICADO
Para estimar la proporcin poblacional utilizando una variable aleatoria se utiliza la siguiente relacin:

P g i n a | 107
n
w h p h .q h
2
V
w 2
h ph qh
N
2
d
Donde V = varianza deseada = , d = precisin z = desvo normal
z
Muestreo polietpico o por conglomerados: Los mtodos presentados hasta ahora estn pensados para
seleccionar directamente los elementos de la poblacin, es decir, que las unidades muestrales son los
elementos de la poblacin. En el muestreo por conglomerados la unidad muestral es un grupo de elementos
de la poblacin que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los
departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales.
En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales.
Cuando los conglomerados son rea geogrfica suele hablarse de "muestreo por reas". El muestreo por
conglomerados consiste en seleccionar aleatoriamente un cierto numero de conglomerados (el necesario
para alcanzar el tamao muestral establecido) y en investigar despus todos los elementos pertenecientes a
los conglomerados elegidos. En una investigacin en la que se trata de conocer el grado de satisfaccin
laboral los profesores de instituto necesitamos una muestra de 700 sujetos. Ante la dificultad de acceder
individualmente a estos sujetos se decide hacer una muestra por conglomerados. Sabiendo que el nmero
de profesores por instituto es aproximadamente de 35, los pasos a seguir seran los siguientes:
1. Recoger un listado de todos los institutos.

2. Asignar un nmero a cada uno de ellos.
3. Elegir por muestreo aleatorio simple o sistemtico los 20 institutos (700/35=20) que nos proporcionarn
los 700 profesores que necesitamos.
VENTAJAS E INCONVENIENTES DE LOS DISTINTOS TIPOS DE MUESTREO PROBABILSTICO
TIPO CARACTERSTICAS VENTAJAS INCONVENIENTES
Se selecciona una Sencillo y de fcil Requiere que se posea de

Aleatorio muestra de tamao n comprensin. Clculo antemano un listado
simple de una poblacin de N rpido de medias y completo de toda la
unidades, cada varianzas. Se basa en la poblacin. Cuando se
elemento tiene una teora estadstica, y por trabaja con muestras

P g i n a | 108
probabilidad de tanto existen paquetes pequeas es posible que

inclusin igual y informticos para analizar no represente a la
conocida de n/N. los datos poblacin adecuadamente.
Conseguir un listado de
los N elementos de la
Fcil de aplicar. No siempre
poblacin. Determinar Si la constante de
es necesario tener un
tamao muestral n. muestreo est asociada
listado de toda la poblacin.
Definir un intervalo con el fenmeno de inters,
Cuando la poblacin est
Sistemtico k=N/n. Elegir un las estimaciones obtenidas
ordenada siguiendo una
nmero aleatorio, r, a partir de la muestra
tendencia conocida,
entre 1 y k (r =arranque pueden contener sesgo de
asegura una cobertura de
aleatorio). Seleccionar seleccin
unidades de todos los tipos.
los elementos de la
lista.
En ciertas ocasiones
resultar conveniente
estratificar la muestra
Tiende a asegurar que la
segn ciertas variables
muestra represente
de inters. Para ello
adecuadamente a la
debemos conocer la
poblacin en funcin de
composicin Se ha de conocer la
unas variables
estratificada de la distribucin en la poblacin
seleccionadas. Se obtienen
poblacin objetivo a de las variables utilizadas
Estratificado estimaciones ms
muestrear. Una vez para la estratificacin.
precisa Su objetivo es
calculado el tamao
conseguir una muestra lo
muestral apropiado,
mas semejante posible a la
este se reparte de
poblacin en lo que a la o
manera proporcional
las variables
entre los distintos
estratificadoras se refiere.
estratos definidos en la
poblacin usando una
simple regla de tres.
Es muy eficiente cuando la

Se realizan varias fases poblacin es muy grande y El error estndar es mayor
de muestreo sucesivas dispersa. No es preciso que en el muestreo
Conglomerado
(polietpico) La tener un listado de toda la aleatorio simple o
s
necesidad de listados poblacin, slo de las estratificado. El clculo del
de las unidades de una unidades primarias de error estndar es complejo.
etapa se limita a muestreo.
aquellas unidades de

P g i n a | 109
muestreo
seleccionadas en la
etapa anterior.
PLANES DE MUESTREO ALEATORIO
TIPO CARACTERSTICAS OBSERVACIONES
Es el muestreo ms sencillo desde el

Cada elemento de la poblacin tiene la
punto de vista matemtico. Es costoso y
SIMPLE misma probabilidad "a priori" de ser
no provee informacin respecto a
incluido en la muestra
subpoblaciones
La poblacin se divide en Se usa cuando se desea informacin

subpoblaciones (estratos) identificados precisa para cada estrato o cuando
ESTRATIFICADO
por niveles en los factores. En cada razones administrativas lo hacen
estrato se realiza MAS conveniente
La poblacin se divide en
subpoblaciones (conglomerados) que se Se usa cuando es imposible o muy caro
POR consideran " a priori " similares en los construir un marco de muestreo o cuando
CONGLOMERADO factores. Se seleccionan conglomerados los elementos estn conglomerados en
y dentro de stos, unidades forma natural (p.ej. cercana geogrfica)
secundarias.
La poblacin se ordena con algn

criterio (puede ser aleatorio). Se sortea Es fcil de realizar cuando no se dispone
un elemento primero para ser de identificacin de los elementos. Puede
SISTEMTICO
muestreado y se contina muestreando introducir variaciones cclicas en los
uno cada tantos. ( Por ejemplo 5, 15, resultados
25,...,85)
TCNICAS DE MUESTREO SOBRE UNA POBLACIN

La teora del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribucin de un
carcter en dicha poblacin y las distribuciones de dicho carcter en todas sus muestras.
Las ventajas de estudiar una poblacin a partir de sus muestras son principalmente:
Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequea parte del total de la poblacin, los
gastos de recogida y tratamiento de los datos sern menores. Por ejemplo, cuando se realizan encuestas
previas a un referndum, es ms barato preguntar a 4.000 personas su intencin de voto, que a 30.000.000;
Mayor rapidez:
Estamos acostumbrados a ver cmo con los resultados del escrutinio de las primeras mesas electorales, se
obtiene una aproximacin bastante buena del resultado final de unas elecciones, muchas horas antes de
que el recuento final de votos haya finalizado;

P g i n a | 110
Ms posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duracin de cierto tipo de bombillas, no es posible en la
prctica destruirlas todas para conocer su vida media, ya que no quedara nada que vender. Es mejor
destruir slo una pequea parte de ellas y sacar conclusiones sobre las dems.
De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos con dos problemas:
Eleccin de la muestra (muestreo).
Extrapolacin de las conclusiones obtenidas sobre la muestra, al resto de la poblacin (inferencia).

El tipo de muestreo ms importante es el muestreo aleatorio, en el que todos los elementos de la poblacin
tienen la misma probabilidad de ser extrados; Aunque dependiendo del problema y con el objetivo de
reducir los costes o aumentar la precisin, otros tipos de muestreo pueden ser considerados.
MTODOS DE MUESTREO NO PROBABILSTICAS
En los muestreos no probabilsticos no se usa el azar, sino el criterio del investigador, suele presentar
grandes sesgos y es poco fiable; no garantizan la representatividad de la muestra y por lo tanto no permiten
realizar estimaciones inferenciales sobre la poblacin.
Se utilizan a veces, para estudios exploratorios, ya que el muestreo Probabilstico resulta excesivamente
costoso y se acude a mtodos no probabilsticos, aun estando conscientes de que no sirven para realizar
generalizaciones, pues no se tiene certeza de que la muestra extrada sea representativa, ya que no todos
los sujetos de la poblacin tienen la misma probabilidad de se elegidos. En general se seleccionan a los
sujetos siguiendo determinados criterios procurando que la muestra sea representativa. Estos muestreos
pueden ser:
Muestreo por cuotas: Tambin denominado en ocasiones "accidental". Se asienta generalmente sobre la
base de un buen conocimiento de los estratos de la poblacin y/o de los individuos ms "representativos" o
"adecuados" para los fines de la investigacin. Mantiene, por tanto, semejanzas con el muestreo aleatorio
estratificado, pero no tiene el carcter de aleatoriedad de aqul.
En este tipo de muestreo se fijan unas "cuotas" que consisten en un nmero de individuos que renen unas
determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 aos, de sexo femenino y residentes en
Chiclayo. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas
caractersticas. Este mtodo se utiliza mucho en las encuestas de opinin.
Por ejemplo, la Oficina de Sanidad desea estudiar la incidencia de las drogas en la adolescencia. Lo que
deberamos hacer sera: conocer por los informes de la Consejera de Educacin cuales son los centros
ms afectados por el problema, fijar un nmero de sujetos a entrevistar proporcional a cada uno de los
estratos (cuotas) y finalmente dejar en manos de los responsables del trabajo de campo a que sujetos
concretos se deber entrevistar
Muestreo opintico o intencional: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de
obtener muestras "representativas" mediante la inclusin en la muestra de grupos supuestamente tpicos.
Es muy frecuente su utilizacin en sondeos preelectorales de zonas que en anteriores votaciones han
marcado tendencias de voto.

P g i n a | 111
Muestreo casual o incidental: Se trata de un proceso en el que el investigador selecciona directa e

intencionadamente los individuos de la poblacin. El caso ms frecuente de este procedimiento el utilizar
como muestra los individuos a los que se tiene fcil acceso (los profesores de universidad emplean con
mucha frecuencia a sus propios alumnos). Un caso particular es el de los voluntarios.
Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y as hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con
poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc.
SELECCIN ALEATORIA DE LAS MUESTRAS
A veces no es fcil lograr una muestra aleatoria. Si la poblacin de que se trata es pequea, uno de los
mtodos ms sencillos para obtenerla es formular una lista de integrantes (en pequeas tiras de papel) y
escoger la muestra al azar.
Cuando se trata de poblaciones ms grandes, se puede asignar un nmero entero a cada miembro y usar
una tabla de nmeros aleatorios, integrada por dgitos escogidos al azar. Para lograr la muestra aleatoria, se
comienzan a leer los nmeros de la tabla en un lugar tambin escogido al azar, as, para cada nmero
seleccionado el miembro de la poblacin consta de 100 miembros, se pueden asignar los nmeros de 10 al
99. Si en la tabla se leen los nmeros 2, 7, 22, 34, etc., se incluan dichos nmeros en la muestra aleatoria.
La muestra en estudio en cualquier investigacin debe ser representativa del universo estadstico (poblacin
ideal que abarca a todos los individuos que posean las mismas caractersticas y en la misma proporcin del
colectivo). Cuando ms grande sea la muestra, ms representativa resultar; sin embargo, no necesita ser
ms grande cuando es suficiente representativa. Esta es la prueba de estabilidad de la muestra.
TAMAO DE LA MUESTRA
A la hora de determinar el tamao que debe alcanzar una muestra hay que tomar en cuenta varios factores:
Tipo de muestreo
Parmetro a estimar
Error muestral admisible
Varianza poblacional y
Nivel de confianza.
Por ello antes de presentar algunos casos sencillos de clculo del tamao muestral delimitemos estos
factores.
Para calcular el tamao de una muestra hay que tomar en cuenta tres factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la
poblacin total.
2. El porcentaje de error que se pretende aceptar al momento de hacer la generalizacin.
3. El nivel de variabilidad que se calcula para comprobar la hiptesis.

P g i n a | 112
La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los
resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe ninguna
duda para generalizar tales resultados, pero tambin implica estudiar a la totalidad de los casos de la
poblacin. Para evitar un costo muy alto para el estudio o debido a que en ocasiones llega a ser
prcticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza
menor. Comnmente en las investigaciones se busca un 95%.
El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hiptesis que sea falsa
como si fuera verdadera, o la inversa: rechazar a hiptesis verdadera por considerarla falsa. Al igual que en
el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra
es del mismo tamao que la poblacin, por lo que conviene correr un cierto riesgo de equivocarse.
Comnmente se aceptan entre el 3% y el 7% como error, tomando en cuenta de que no son
complementarios la confianza y el error.
La variabilidad es la probabilidad (o porcentaje) con el que se acept y se rechaz la hiptesis que se quiere
investigar en alguna investigacin anterior o en un ensayo previo a la investigacin actual.
El muestreo es el proceso de tomar una proporcin o parte de un universo de elementos, con la finalidad
de analizar en dichos elementos, caractersticas sujetas a estudio o fenmenos factibles de observacin y
en base al anlisis de la muestra o proporcin tomada obtener conclusiones que se refieran no slo a la
muestra sino a todo el universo. Para fines estadsticos, el universo puede considerarse finito o infinito.
Se considera finito si el nmero de elementos que lo constituyen es menor a 500,000 e infinito si es igual o
mayor a este nmero. Siempre que hagamos la eleccin de una muestra, debemos tener cuidado de que
sta rena las siguientes caractersticas:
Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que se requiere para
que el nivel de confiabilidad sea el que se ha establecido previamente.
Que sea representativa: esto quiere decir que los elementos seleccionados debern presentar
caractersticas similares a las de la poblacin o universo.
Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las ms importantes son:
El costo se reduce, pues los gastos sern nicamente los ocasionados por una parte del universo
(muestra tomada) y no por la totalidad de l.
Si la muestra es representativa, las deducciones resultantes sobre el universo sern confiables.
Como solamente se estudia una parte del universo, la informacin obtenida se realiza en menor
tiempo.
Cmo obtener el tamao de la muestra a utilizar?
Una de las preguntas planteadas con mayor frecuencia al iniciar una investigacin y difcil de contestar,
sobre todo por falta de informacin del problema, es: cuntas observaciones se deben obtener para que el
tamao de la muestra sea realmente representativo del universo estadstico? En este sentido -la decisin
del tamao de la muestra de una poblacin -, es necesario considerar que las muestras varan en su
composicin de una a otra. La magnitud de la variacin depende del tamao de la muestra y de la

P g i n a | 113
variabilidad original de la poblacin. As, el tamao de la muestra queda determinado por el grado de
precisin que se desea obtener y por variabilidad inicial de la poblacin.
La respuesta a la pregunta planteada se puede considerar tomando como base lo siguientes:
a. Determinar el nivel de confianza con el cual vamos a trabajar y buscamos el valor de z asociado a dicho
nivel de confianza, un nivel de confianza igual o mayor al 92% es aceptable estadsticamente.
b. Evaluar la probabilidad a favor de que suceda un evento o situacin esperada (esta probabilidad se le
denomina p).
c. Evaluar la probabilidad en contra de que suceda en un evento o situacin esperada (esta probabilidad
se le denomina q=1-p).
d. Determinar el error (e) mximo para el nivel de precisin que vayamos a permitir en los resultados (error
mximo de estimacin), comnmente se trabaja con errores de estimacin entre el 3% y el 7%, ya que
la validez de la informacin se reduce demasiado para valores mayores del 7%.
e. Determinamos el tamao de la poblacin o universo.
f. Se elige la frmula a utilizar para calcular el tamao de la muestra; dependiendo de si la poblacin o
universo sujeto a estudio se va a considerar infinito infinito. (Una poblacin o universo se considera
infinito si el nmero de elementos de los que consta es igual o mayor a 500,000 y es considerado finito
si el nmero de elementos es menor a esta cantidad).
Diferentes niveles de confianza utilizados en la prctica
99.73 95.45 68.27

Nivel de Confianza 99% 98% 96% 95% 90% 80% 50%
% % %
Valores de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28 1.00 0.675
TAMAO DE LA MUESTRA
Una de las primeras preguntas que debe realizarse antes de emprender cualquier encuesta o estudio es:
qu tamao de muestra necesito? La respuesta depender del diseo del estudio; es decir, de los
objetivos, naturaleza y alcance del mismo, y del resultado previsto del mismo. Todo esto deber tenerse en
cuenta en la fase de planificacin del estudio.
El tamao de la Muestra es importante porque tiene relacin estrecha con el costo de la Muestra. Para
reducir Costos se procura tomar una Muestra menor pero representativa y significativa.
La cuestin de que tan grande tomar una muestra surge inmediatamente en la planificacin de cualquier
investigacin o experimento. Esto es muy importante y no debe tratarse con ligereza. Tomar una muestra
ms grande de lo necesario para alcanzar los resultados deseados, es un desperdicio de recursos y tiempo,
mientras que muestras muy pequeas pueden conducir a conclusiones errneas. El tamao de la muestra
depende de la desviacin estndar (S), del grado de confiabilidad (Z) y del ancho del intervalo de confianza
(e), o precisin.
El tamao de la Muestra se calcula mediante procedimientos estadsticos. Vamos a presentar la Frmula

que se aplican en el caso de que no se conozca con precisin el tamao de la poblacin, o universos

P g i n a | 114
considerados infinitos o desconocido o Cuando se trata de medir una variable binomial (acierto-error), es
decir una proporcin y que el tamao de la poblacin estudiada es grande, se puede emplear la frmula
siguiente:
Z 2 pq
2
Z Z2
n , Si p = q = 50 %, entonces: n n 2
e2 2e 4e
Donde n nmero de puntos de muestreo, p y q son la confiabilidad, e = error (medio intervalo de confianza)
y Z1 = 1.96 para = 0.05.
2
Cuando se requiere determinar el tamao de la muestra para estimar una proporcin se tienen que definir
tres incgnitas:
1.- El nivel de confianza (Z) deseado.

2.- El error muestral permitido, e.
3.-La proporcin real de xito, p y la proporcin de fracaso q = 1 p.
En la prctica con frecuencia resulta difcil seleccionar estas tres cantidades. Una vez que se determina el
nivel de confianza deseado se estar en posibilidad de obtener el valor Z de la distribucin normal
apropiado. El error muestral e seala la cantidad de error qu se est dispuesto a aceptar al estimar la
proporcin de la poblacin. La tercera cantidad, la proporcin real de xito, p, en realidad es el parmetro de
la poblacin que se esta intentando determinar. Para ello hay dos alternativas:
1.-En muchas situaciones se cuenta con informacin anterior o con experiencias relevantes que permiten
obtener un estimado o informacin de p.
2.- Si no se cuenta con informacin anterior o con experiencias relevantes se intenta proporcionar un valor
para p que nunca subestime el tamao de la muestra necesaria Es conveniente determinar el valor de p de
una forma tal que el producto p.q sea lo mayor posible, alcanzndose el mximo producto cuando p = q =
0.50, entonces p.q = 0.25. Por lo tanto cuando se desconoce o no hay un estimado previo de la proporcin
real de p se debe utilizar un p = 0.5 como la forma ms conservadora para determinar el tamao de la
muestra. Sin embargo, la utilizacin de p puede dar como resultado una sobrestimacin en el tamao de la
muestra, pero es un riego que se debe asumir.
PROBLEMA.- Un investigador social pretende que al investigar la proporcin de deportistas existentes

actualmente en una universidad no se cometa un error mayor del 15 %. Cul deber ser el tamao de la
muestra para poder tener la certeza, con un grado de confianza del 99 %, de que la estimacin sea
correcta?

P g i n a | 115
SOLUCIN: Se puede observar que ante el desconocimiento, por cualquier medio, del parmetro p,
debemos obtener el tamao de la muestra requerida para satisfacer las exigencias del investigador por
medio de la expresin:
2
Z Z2
n n 2
2e 4e
Donde se tendr que sustituir tanto el valor de Z correspondiente a un coeficiente de confianza de 99 % que
no es otro que 2,58 como el error mximo admitido que es 0.15 y como no se conoce un valor estimado
para p y q se tomara el mximo valor para este producto, es decir, p = q = 0.5. Luego se aplica la formula:
2
Z Z2 (2.58) 2 6.66
n n 2 70.0 . Por lo tanto el tamao de la muestra ser de 74.
2e
2
4e 4(0.15) 4(0..023)
2.- Supngase que por estudios anteriores se tenga el conocimiento de que la proporcin de deportistas
entre los estudiantes de una universidad es de 0.65. Se pregunta Qu tamao de muestra deber tomarse
si se quiere que el error no exceda del 15 % Y con un grado de confianza del 99 %?
SOLUCIN: Tomando en cuenta que se tiene conocimiento de que la proporcin de estudiantes que
practican algn deporte, en esa universidad, es de 0.65, se puede utilizar este valor como una estimacin
de la proporcin verdadera, en cuyo caso nos valdremos de la siguiente formula matemtica para obtener el
tamao de la muestra necesaria. Entonces, p 0.65,.q 0.35,.e 0.15.. y..Z1 2.58.
2
Z12 2 pq
n , Sustituyendo los datos conocidos en esa formula se tiene:
e2
(2.58) 2 (0.65)(0.35) 6.66 x0.23

n 67. El tamao de la muestra es entonces, 67.
(0.15) 2 0.23
Puede observarse como el conocimiento de alguna estimacin del parmetro p ha hecho disminuir el
tamao de la muestra necesaria para satisfacer la misma precisin. Esto demuestra que el valor que tiene la
informacin de experiencias pasadas sobre el hecho que se estudia.
En el caso de que s se conozca el tamao de la poblacin, cuando la variable crtica es dicotomica o

Binomial, para la estimacin de proporciones poblacionales o Universos considerados finitos
entonces el tamao de la muestra se determina con la siguiente formula:
Z12 2 N . p.q
n , esta.. formula..se..usa.. para..N 30.
e 2 N Z12 2 p.q

P g i n a | 116
Cuando N<30 la frmula que se tiene que utilizar es:
Z12 2 N . p.q
n .
e 2 ( N 1) Z12 2 p.q
Donde
n es el tamao de la muestra;
Z es el nivel de confianza;
p es la variabilidad positiva;
q es la variabilidad negativa;
N es el tamao de la poblacin;
e es la precisin o el error.
Al conocer exactamente el tamao de la poblacin, el tamao de la muestra resulta con mayor precisin y
se pueden incluso ahorrarse recursos y tiempo para la aplicacin y desarrollo de una investigacin.
Ejemplo: En los Colegios de Curas extendido por todo Amrica del sur, se desea realizar una investigacin
sobre los alumnos inscritos en primer y segundo aos, para lo cual se aplicar un cuestionario de manera
aleatoria a una muestra, pues los recursos econmicos y el tiempo para procesar la informacin resultara
insuficiente en el caso de aplicrsele a la poblacin estudiantil completa.
En primera instancia, suponiendo que no se conoce el tamao exacto de la poblacin pero con la seguridad
Z12 pq
de que sta se encuentra cerca de los diez millardo, se aplicar la formula n 2
2
.
e
Se considerar una confianza del 95 %, un porcentaje de error del 5% y la mxima variabilidad (p.q) por no
existir antecedentes en la institucin sobre la investigacin y porque no se puede aplicar una prueba previa.
Utilizando las tablas resulta que Z = 1.96.
Z12 pq
De esta manera se aplica la formula n 2
2
, se realiza la sustitucin y se obtiene n as:
e
(1.96) 2 (0.5)(0.5) (3,8416)(0.25) 0.9604

n 384. Esto quiere decir que el tamao de la muestra es de 384
0.05 2 0.0025 0.0025
alumnos.

P g i n a | 117
Supongamos ahora que s se conoce el tamao de la poblacin estudiantil y es de 9,750, entonces se

Z12 2 Np.q
aplicar la frmula n . Utilizando los mismos parmetros la sustitucin queda
Ne 2 Z1 2 pq
como:
(1.96) 2 (0.5)(0.5)(9750) 9363.9

n 369.5 370.0
(9750)(0.05) (1.96) (0.5)(0.5) 25.34
2 2
Con lo que se tiene una cota mnima de 370 alumnos para la muestra y as poder realizar la investigacin
sin ms costo del necesario, pero con la seguridad de que las condiciones aceptadas para la generalizacin
(confiabilidad, variabilidad y error) se mantienen. Es importante destacar que el resultado que se obtiene
cuando no se conoce N (384) es muy similar al que se obtiene cuando N es conocida (370).
Cuando el muestreo es sin reemplazo a partir de una poblacin finita, SUPONIENDO UNA DISTRIBUCIN
NORMAL, se requiere la correccin por poblacin finita, entonces la ecuacin para obtener el TAMAO DE
LA MUESTRA para la estimacin de la media poblacional, queda as:
ZS N n
e
n N 1
N 2 Z12 2
n
e 2 ( N 1) 2 Z12 2
Los investigadores consideran que esta formula solo se utiliza cuando N<30.
N 2 Z12 2
n
e 2 N 2 Z12 2
, Se utiliza para N>30..
Donde
n = es el tamao de la muestra;
Z = es el nivel de confianza o valor critico correspondiente al nivel de confianza elegido
Varianza poblacional o en su defecto la desviacin tpica muestral (S).
N = es el tamao de la poblacin o universo muestral
e es la precisin o el error.
El grado de confiabilidad se toma de la tabla de t de Student si n 30..o..de..Z ..si..n 30.

P g i n a | 118
La formula para el tamao de la muestra requiere que se conozca pero, generalmente este parmetro no
2
se conoce; entonces hay que estimarla. Las fuentes de estimacin para la varianza poblacional son:
Se puede extraer una muestra piloto para usarse la varianza calculada a partir de la muestra como una
estimacin de 2.
Puede contarse con estimaciones de 2 , obtenidas de estudios previos o semejantes.
EJEMPLO: Se desea determinar el tamao de una muestra apropiada para medir la longitud de una serie
de tubos para hacer un gasoducto, con una precisin de 5 cm. en la longitud de cada tubo y un nivel de
confianza de 95 %. Para tal efecto se tomo una muestra piloto de 10 tubos que arrojo una varianza de 30.
DATOS:
N = 20
2
= 30
Z = 1.96
e=5
SOLUCIN: Como se sabe que nmero de tubos por lotes es de 20, se requiere la correccin por
poblacin finita; luego se aplica la formula as:
N 2 Z12 2 20(30)(1.96) 2 2304.96

n 4.0
e 2 ( N 1) 2 Z12 2 5 (19) 30(1.96)
2 2
590.25
Se concluye que con
la variacin observada y la precisin escogida, el tamao de muestra adecuada es 4 tubos por lote.
EJEMPLO: Sea una poblacin de obreros de tamao N = 2000, de la que nos proponemos obtener una
muestra mediante un muestreo aleatorio, para estimar el sueldo promedio. Se quiere que la estimacin
muestral no se aparte en ms de 0.5 puntos (error mximo admisible) del promedio verdadero, con un
nivel de confianza de 95 %. La varianza poblacional es de 2.5 puntos.
DATOS:
N = 2000
e = 0.5
Z al 95 % = 1.96
2
= 2.5
n =?
SOLUCIN: Como se trata de la estimacin de la media poblacional mediante muestreo aleatorio, se

aplicara la siguiente formula:

P g i n a | 119
N 2 Z12 2 2000(2.5)(1.96) 2 19208 19208

n 37.69 38.0
Ento
e 2 N 2 Z12 2 (0.5) 2000 2.5(1.96)
2 2
500 9,604 509,604 nces
el nmero de obreros que hay que seleccionar para que la estimacin est en el intervalo ( 0.5;.. 0.5)
con un nivel de confianza del 95 % es de n = 38 obreros.

P g i n a | 120
INTRODUCCIN A LA INFERENCIA ESTADSTICA
La palabra inferir significa extraer consecuencias, o deducir un conocimiento a partir de otro. La Inferencia
Estadstica es la parte de la estadstica que se encarga de deducir caractersticas de la poblacin a partir de
los resultados obtenidos en muestras de esta poblacin. Las decisiones se basan en la informacin
contenida en muestras extradas de ella.
En muchas circunstancias hay que tomar decisiones basndose slo en la informacin contenida en una
muestra: Un gerente de Control de Calidad debe determinar si un proceso funciona correctamente. Para
ello, cada cierto tiempo, analiza la calidad de una pequea cantidad de productos fabricados por este
proceso. Con esta informacin debe decidir si contina fabricando nuevas piezas, o si debe realizar algn
ajuste o reparacin de la maquinaria de la fbrica antes de continuar el proceso de fabricacin. Un gerente
de Marketing debe determinar si una nueva estrategia de mercado aumentar las ventas. Para ello se
basar fundamentalmente en encuestas realizadas a unos cuantos clientes potenciales, etc. Para adoptar
estas decisiones se toma toda la informacin posible de la muestra seleccionada y se estudia, en trminos
de probabilidad, el grado de fiabilidad de las decisiones adoptadas. Podemos distinguir de modo general
dos grandes mtodos dentro de la Inferencia Estadstica:
Mtodos Paramtricos.- Se supone que los datos provienen de una familia de distribuciones conocida
(Normal, Poisson,. . .) y que lo nico que se desconoce es el valor concreto de alguno de los parmetros
que la definen ( y para la Normal, para la Poisson,. . .).
Se pueden hacer inferencias acerca de los parmetros poblacionales de dos maneras. Dando valores
aproximados para los parmetros (Estimacin) o tomando decisiones con respecto a ellos (Contrastes de
Hiptesis).
Mtodos No Paramtricos.- No suponen conocida la distribucin, y solamente suponen hiptesis muy

generales respecto a las mismas. Estos mtodos se aplican en los tests de bondad de ajuste, que prueban
la adecuacin de los datos a ciertos modelos de distribuciones tericas, los test de independencia, etc.
Evidentemente, las conclusiones que obtengamos y que generalizaremos para toda la poblacin
dependern de los valores concretos que se hayan observado en la muestra. Muchas personas manifiestan
su desconfianza y su recelo sobre las conclusiones obtenidas con mtodos estadsticos, debido, entre otras
causas, a que estas conclusiones dependen de la muestra extrada, y que las muestras presentan
fluctuaciones aleatorias. Sin embargo, en la vida cotidiana, nuestras opiniones y nuestros comportamientos
se basan en generalizaciones que hacemos a partir de muestras. As, es muy frecuente que manifestemos
que los productos de una determinada marca son mejores que los de la competencia. Dicha afirmacin no la
hacemos, evidentemente, tras un anlisis exhaustivo de todos los productos de una y otra marca, sino
basndonos en nuestra propia experiencia personal, que es claramente muy limitada. Es decir,
generalizamos a partir de observaciones realizadas en muestras pequeas.
TIPOS DE ESTIMACIN
Cuando se desean estimar los parmetros de la poblacin a partir de los de la muestra se consideran dos
formas de realizar dicha estimacin.

P g i n a | 121
Estimacin puntual.- En la estimacin puntual damos un solo punto como valor estimado del parmetro.
Por ejemplo, si queremos estimar la altura media, , de los varones espaoles de 20 aos, obtendremos
una muestra aleatoria de cierto tamao de esta poblacin, hallaremos la altura media de las personas
seleccionadas en esta muestra y diremos que este valor, el de la media muestral, es una estimacin puntual
de la altura media de la poblacin de varones de 20 aos.
Estimacin por intervalos.- En realidad, cuando realizamos una estimacin puntual, nos damos cuenta
que es muy difcil que sta estimacin sea realmente el verdadero valor del parmetro desconocido.
Tendremos ms oportunidades de acertar si indicamos que el parmetro desconocido pertenece a un cierto
intervalo. En el ejemplo de la altura media de los varones de 20 aos, si la media muestral resultara 1.75 m.,
podramos decidir manifestar que la media verdadera pertenece al intervalo (1.75 0.05, 1.75 + 0.05). El
intervalo en el que se afirma que se encuentra el parmetro poblacional se denomina intervalo de confianza.
Tampoco en este caso podemos estar seguros de que el valor real pertenezca a dicho intervalo. Por este
motivo suele decirse que el valor real del parmetro pertenece a dicho intervalo con un cierto grado de
confianza. La cuantificacin de la confianza que se tiene en que el parmetro desconocido est
verdaderamente en el intervalo dado se denomina grado de confianza y es una medida relacionada con la
funcin de distribucin de probabilidad del parmetro en estudio.
Estadsticos y Estimadores
Un estadstico es una funcin de los elementos de la muestra. Si tenemos una poblacin en la que
estamos observando una caracterstica que se distribuye segn una variable aleatoria X, y consideramos
una muestra aleatoria simple de tamao n
x1, x2, . . . , xn
podemos calcular el siguiente estadstico x:

x1 x2 ... xn
x
n
Evidentemente, el valor del estadstico depender de los valores que hayan tomado los elementos de la
muestra. Si repetimos el experimento de tomar una muestra y calculamos de nuevo el valor del mismo
estadstico, obtendremos, por lo general, otro valor distinto. Tenemos por tanto que el estadstico es una
variable aleatoria. La distribucin que seguir dicha variable aleatoria depender de la distribucin de la
variable X. En determinados casos podremos calcular la distribucin del estadstico.
Un estimador de un parmetro poblacional es un estadstico que se utiliza para obtener un valor

aproximado de ese determinado parmetro de la poblacin. Por ejemplo, la media muestral es el estadstico
que suele usarse ms frecuentemente para estimar la media poblacional. Entonces, la media muestral es un
estimador de la media poblacional. La mediana y la moda son tambin estimadores de la media poblacional.
Para indicar que T es un estimador del parmetro poblacional se indicar

T=
El valor que toma este estimador en la muestra concreta que estamos considerando es una estimacin del
parmetro desconocido.

P g i n a | 122
Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona
informacin sobre el valor del parmetro. Por ejemplo la media muestral es un estimador de la media
poblacional, la proporcin observada en la muestra es un estimador de la proporcin en la poblacin.
Una estimacin es puntual cuando se obtiene un slo valor para el parmetro. Los estimadores ms
probables en este caso son los estadsticos obtenidos en la muestra, aunque es necesario cuantificar el
riesgo que se asume al considerarlos. Recordemos que la distribucin muestral indica la distribucin de
los valores que tomar el estimador al seleccionar distintas muestras de la poblacin. Las dos medidas
fundamentales de esta distribucin son la media que indica el valor promedio del estimador y la desviacin
tpica, tambin denominada error tpico de estimacin, que indica la desviacin promedio que podemos
esperar entre el estimador y el valor del parmetro.
Ms til es la estimacin por intervalos en la que calculamos dos valores entre los que se encontrar el
parmetro, con un nivel de confianza fijado de antemano.
Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al parmetro
que se est estimando.
Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del
parmetro. Se indica por 1- habitualmente se da en porcentaje (1-)100%. Hablamos de nivel de confianza
y no de probabilidad ya que una vez extrada la muestra, el intervalo de confianza contendr al verdadero
valor del parmetro o no, lo que sabemos es que si repitisemos el proceso con muchas muestras
podramos afirmar que el (1-)% de los intervalos as construidos contendra al verdadero valor del
parmetro. Por lo general los niveles de confianza ms utilizados son: 99, 95 y 90%, a estos se les
denominan coeficientes de confianza: es el nivel de confianza que se tiene en el que el intervalo contenga
el valor desconocido del parmetro; estos son simplemente convencionales.
Un intervalo de confianza tiene un lmite inferior de confianza (LIC) y un lmite superior de confianza (LSC).
Esos limites se encuentran calculando primero la media muestral, X . Luego se suma una cierta cantidad a
X para obtener el LSC y la misma cantidad se resta a X para obtener el LIC, estos valores que se suman
y restan a la media muestral se les denominan errores de estimacin.
ESTIMACIN POR INTERVALOS DE CONFIANZA
Lo dicho hasta ahora se refiere a una estimacin puntual, es decir, estimar un parmetro a travs de un
nico valor. Esta estimacin no es muy conveniente pues con ella no se puede determinar el error de
muestreo, ni la precisin de la estimacin, ni la confianza que merece tal estimacin. Existen otros mtodos
para estimar parmetros poblacionales que son mucho ms precisos. Por ejemplo:
* Mtodo de los mnimos cuadrados.
* Mtodo de los momentos.
* Mtodo de la mxima verosimilitud se basa en el principio de que generalmente ocurre lo ms probable.
* Mtodo de estimacin por intervalos de confianza, este ser el que desarrollaremos en este curso.
El procedimiento de determinar un intervalo (a, b) que comprenda un parmetro de poblacin con cierta
probabilidad 1-, se llama estimacin por intervalos. Se vern los casos paramtricos, es decir, aquellos en
los que se tiene conocimiento del tipo de distribucin de la poblacin (Binomial, Normal, etc.).

P g i n a | 123
DISTRIBUCIN DE MUESTREO DE MEDIAS

Es una distribucin probabilstica que consta de una lista de todas las medias muestrales posibles de un
tamao dado de una poblacin y la probabilidad de ocurrencia asociada con cada media muestral. Si
tomamos varias muestras de una poblacin con el objetivo de obtener la media poblacional, observaramos
que cada una de ellas posiblemente nos da diferentes valores de dicha media. Si se organizaran las medias
de todas las muestras posibles de un tamao especfico tomadas de una poblacin se obtendra lo que se
conoce como una distribucin muestral de medias.
Para muestras de tamao N, sin reposicin, de una poblacin finita de tamao Np>N tenemos,
NP N
X y X
n NP 1
Si la poblacin es infinita o si el muestreo es con reposicin, los resultados anteriores se reducen a:

X y X
n
Para valores grandes de N (N30), la distribucin de muestreo de medias, es aproximadamente normal con
media X y desviacin tpica X , independientemente de la poblacin (en tanto en cuanto la media
poblacional y la varianza sean finitas y el tamao de la poblacin sea al menos doble que el de la muestra).
Este resultado para una poblacin infinita es un caso especial del teorema del lmite central de teora
avanzada de probabilidades, que afirma que la precisin de la aproximacin mejora al crecer N. Esto se
indica en ocasiones diciendo que la distribucin de muestreo es asintticamente normal.
Debemos anotar que las caractersticas de la poblacin sern las mismas que tendrn las diferentes
muestras de la misma:
Si la poblacin no tiene distribucin normal, la distribucin muestral de medias de cualquier manera tender
a aproximarse a la forma normal.
La dispersin en la distribucin de las medias muestrales es siempre menor que la dispersin de la
poblacin y ser mucho ms pequea mientras ms grande sea el tamao de la muestra.
INTERVALO DE CONFIANZA PARA LA MEDIA
1) PRIMER CASO: Varianza supuesta conocida y no se conoce el tamao de la poblacin N:

2
Si x es el valor de la media para una muestra aleatoria de tamao n escogida de una poblacin con
varianza supuesta conocida, el intervalo de confianza del (1 - ) x100% para es:
2

[ x z1 / 2 x z1 / 2 ] = [ x z1 / 2 E.S ]
n n
= media poblacional

Error estndar de la muestra (E.S): x
n = media muestral
= desviacin estndar poblacional
Estadstica s = desviacin estndar R. Romero

muestral
J. Oliva
2 = varianza poblacional
P g i n a | 124

Error mximo de estimacin de : e z1 / 2
n
Tamao de muestra para estimar ,
Si se utiliza x como una estimacin de , se tiene una confianza del (1 - ) x100% de que el error no
ser mayor que el valor dado e se tiene un tamao de muestra de:
( z1 / 2 ) 2
n
e2
NOTA: Cuando menor sea el error de la estimacin mayor es el tamao de la muestra requerida.

P g i n a | 125
2) SEGUNDO CASO: Varianza supuesta conocida, se conoce el tamao de la poblacin N y n

2
30:
Si x es el valor de la media para una muestra aleatoria de tamao n escogida de una poblacin con
varianza supuesta conocida, e intervalo de confianza del (1 - ) x100% para es:
2
N n N n
[ x z1 / 2 x z1 / 2 ] = [ x z1 / 2 E.S ]
n N 1 n N 1
N n
Error estndar de la muestra (E.S): x
n N 1
N n
Error mximo de estimacin de : e z1 / 2
n N 1
Tamao de muestra para estimar :
Si se utiliza x como una estimacin de , y se conoce N y se tiene una confianza del (1 - ) x100% de
que el error no ser mayor que el valor dado e se tiene un tamao de muestra de:
z 2 1 / 2 2 N
n
z 2 1 / 2 2 e 2 ( N 1)
3) TERCER CASO: Varianza supuesta desconocida y n 30:

2
Cuando no se conoce la desviacin estndar de la poblacin (), se utiliza la desviacin estndar de la

muestra (s) como su estimador. = s
s s
[ x z1 / 2 x z1 / 2 ]
n n
4) CUARTO CASO: Varianza supuesta desconocida , n 30 y se conoce N:

2
s N n s N n
[ x z1 / 2 x z1 / 2 ]
n N 1 n N 1
5) QUINTO CASO: Varianza supuesta desconocida , n < 30:

2

P g i n a | 126
Si x y s son la media y la desviacin estndar respectivamente para una muestra aleatoria n < 30
escogida de una poblacin normal con varianza supuesta desconocida, entonces el intervalo de
2
confianza de (1 - ) x100% para es:
s s
[ x t1 / 2, n 1 x t1 / 2, n 1 ]
n n
El valor t1 / 2,n1 se encuentra en la tabla t-student con n-1 grados de libertad

Ejercicios:
1. Una muestra aleatoria de 250 empresarios indic que la media de los ingresos mensuales era de
$1800. Asuma que la desviacin estndar de esta poblacin es $250.
a) Estime la media de la poblacin que consiste de los ingresos de todos los empresarios
mediante un intervalo de confianza del 95%.
b) Qu tamao de muestra se debe tomar para estimar la media de esta poblacin si el error de
estimacin no ser mayor de $15, con un nivel de confianza del 97%?
2. Un analista de investigacin de mercados escogi una muestra aleatoria de 200 clientes de una
poblacin de 1500 clientes de una gran tienda que declaran ingresos mayores a $180. El encontr que
los clientes de la muestra gastaban en la tienda un promedio de $1000 por ao. Si con este valor de la
muestra estim que el gasto promedio por ao de esta poblacin finita vara de $1040 a $1060.
suponga que la desviacin estndar de tal poblacin es $300
a) Qu nivel de confianza utiliz?
b) Qu tamao de muestra se debe tomar para estimar la media de esta poblacin si el error de
estimacin no ser mayor de $50, con un nivel de confianza del 96%?
3. Un fabricante produce focos cuya duracin tiene distribucin normal. Si una muestra aleatoria de 9
focos da las siguientes vidas tiles en horas:
775, 780, 800, 795, 790, 785, 795, 795, 780, 810
a) Estimar la duracin media de todos los focos del fabricante mediante un intervalo confianza del
95%.
b) Si la media poblacional se estima en 790 horas con un confianza del 98%, cunto es el error
mximo de la estimacin si se quiere una confianza del 98%?
4. Los contenidos de una muestra aleatoria de 5 latas de caf instantneo de un productor han dado los
siguientes pesos netos en gramos: 280, 290, 285, 275, 284:
a) Encuentre un I.C. del 95% para la media de los contenidos de todas las latas de caf del
productor.

P g i n a | 127
b) Con que nivel de confianza se estima que el contenido promedio de caf tenga los lmites
confianza 277.432 y 288.168?

P g i n a | 128
INTERVALO DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS MEDIAS (1 - 2):
CASO: Varianzas 1 y 2 supuestamente conocidas:

2 2
Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamao n 1 y n2
escogidas aleatoriamente con varianzas 1 y 2 supuestamente conocidas, entonces el intervalo de
2 2
confianza de (1 - ) x100% de 1 - 2 es:
12 22 12 22
[( x1 x 2 ) z1 / 2 1 2 ( x1 x 2 ) z1 / 2 ]
n1 n2 n1 n2
CASO: Varianzas 1 y 2 supuestamente desconocidas:

2 2
Varianzas supuestas iguales 1 = 2 =

2 2 2
escogidas aleatoriamente con varianzas 1 y 2 supuestamente desconocidas e iguales, entonces el
2 2
intervalo de confianza de (1 - ) x100% de 1 - 2 es:
2 2 2 2
sc s sc s
[( x1 x 2 ) t(1 / 2;n1 n2 2) c 1 2 ( x1 x 2 ) t(1 / 2;n1 n2 2) c ]
n1 n2 n1 n2
2
Donde Sc es la varianza comn definida por:
(n1 1) S12 (n2 1) S 22

S c2
n1 n2 2
Varianzas supuestas distintas 1 2

2 2
escogidas aleatoriamente con varianzas 1 y 2 supuestamente desconocidas y diferentes, entonces el
2 2
intervalo de confianza de (1 - ) x100% de 1 - 2 es:
2 2 2 2
s1 s s1 s
[( x1 x 2 ) t(1 / 2;r ) 2 1 2 ( x1 x 2 ) t(1 / 2;r ) 2 ]
n1 n2 n1 n2
Donde r son los grados de libertad de la distribucin t student, siendo:

P g i n a | 129
2
S12 S 22

r n1 n2
2 2
S12 S 22

n1 n2
n1 1 n2 1
Dado que r rara vez es un entero, se redondea al entero ms cercano.
Ejercicios:
5. En COMPUTRONIC S.A. Se quiere estimar la diferencia entre los promedios de tiempos (en minutos)
que utilizan dos tcnicos para ensamblar una PC. Suponga que las poblaciones de los dos tiempos se
distribuyen normalmente con varianza comn. Estime la diferencia entre los dos promedios
poblacionales mediante un I.C. del 95% si el registro de 16 tiempos de cada tcnico han dado 38 y 35
de promedio respectivamente, con desviaciones estndar respectivas de 6 y 4.
6. El director de presupuesto de una compaa quiere comparar el gasto de transporte diarios entre
personal de ventas y de verificacin contable. Para esto recopil una muestra de 200 ventas y a otra
muestra de 250 verificaciones contables, resultando medias respectivas de 13 y 15 soles. Suponga que
las desviaciones estndares poblacionales respectivas son de 3 y 4 soles. Utilizando un intervalo de
confianza del 95% para la diferencia de las medias, podemos concluir que la media de gastos diarios
por transportacin es mayor para el personal de verificacin contable?
7. Un inversionista hace un estudio para elegir una de dos ciudades del interior del pas para abrir un
casino. Escoge 25 personas de la ciudad 1 con un promedio de ingresos de $400, y una desviacin
estndar de $120 y Escoge 20 personas de la ciudad 2 con un promedio de ingresos de $380, y una
desviacin estndar de $60. Suponga poblaciones normales con varianzas diferentes. Mediante un I.C.
del 95%, se puede afirmar que son iguales los ingresos promedios de las dos ciudades?
8. El encargado de compras de una cadena de restaurantes tiene que escoger entre dos variedades de
arroz A y B. Selecciona dos muestra aleatorias independientes de 10 bolsas de arroz de un kilo de cada
tipo de arroz y encuentra los siguientes porcentajes de granos quebrados por kilo:
A: 6, 5, 6, 7, 4, 7, 6, 4, 3, 6
B: 7, 6, 7, 9, 5, 8, 7, 6, 10, 8
Estimar mediante un IC. Del 95% la diferencia promedio de porcentajes de granos quebrados por kilos
de arroz de las dos variedades. Se puede aceptar que no hay diferencias significativas entre las dos
medias poblacionales? Suponga que los porcentajes de granos quebrados por kilo en cada variedad se
distribuyen normalmente con la misma varianza.
DISTRIBUCIN DEL MUESTREO DE PROPORCIONES

P g i n a | 130
Supongamos que una poblacin es infinita y que la probabilidad de ocurrencia de un suceso (su xito) es p,
mientras la probabilidad de que no ocurra es q = 1 p. Por ejemplo, la poblacin puede ser la de todas las
posibles tiradas de una moneda, en la que la probabilidad del suceso <<cara>> es p = . Consideremos
todas las posibles muestras de tamao N de tal poblacin, y para cada una de ellas determinemos la
proporcin de xitos P. En el caso de una moneda, P sera la proporcin de caras en N tiradas. Obtenemos
as una distribucin de muestreo de proporciones cuya media p y cuya desviacin tpica p viene dada por:
pq p(1 p)
p p y p
n n
Para valores grandes de N (N30), la distribucin de muestreo est, muy aproximadamente, normalmente
distribuida, Ntese que la poblacin est binomialmente distribuida. Las ecuaciones anteriores son vlidas
tambin para una poblacin en la que se hace muestreo con reposicin. Para poblaciones finitas en que se
haga muestreo sin reposicin, dichas ecuaciones quedan sustituidas por = p y = pq .
INTERVALO DE CONFIANZA PARA UNA PROPORCION
El estimador puntual de p es la estadstica proporcin de xitos en la muestra definida por:
x
p ; Donde x es el nmero de xitos en la muestra.
n
1) PRIMER CASO: Si p es la proporcin de xitos en una muestra aleatoria de tamao n, entonces, el

intervalo de confianza (1 - ) x100% para p es:
p(1 p) p(1 p)
[ p z1 / 2 p p z1 / 2 ] = [ p z1 / 2 E.S ]
n n
p(1 p)
Error estndar de p (E.S): p
n
p(1 p)
Error mximo de estimacin de p: e z1 / 2
n
Tamao de muestra para estimar p:
( z1 / 2 ) 2 p(1 p)
n
e2

P g i n a | 131
2) SEGUNDO CASO: Si p es la proporcin de xitos en una muestra aleatoria de tamao n, y se conoce el

tamao de la poblacin N , entonces, el intervalo de confianza es:
p(1 p) N n p(1 p) N n
[ p z1 / 2 . p p z1 / 2 ]
n N 1 n N 1
p(1 p) N n
Error estndar de p (E.S): P
n N 1
Tamao de muestra para estimar p:
Si se utiliza p como una estimacin de P, y se conoce N y se tiene una confianza del (1 - ) x100% de
que el error no ser mayor que el valor dado e se tiene un tamao de muestra de:
z 21 / 2 p(1 p) N
n
z 21 / 2 p(1 p) e 2 ( N 1)
Si no se tiene el dato p, se puede utilizar el valor p = 0.5
Ejercicios:
9. En un estudio socioeconmico se tomo una muestra aleatoria de 100 comerciantes informales y se

encontr entre otros datos los siguientes: un ingreso promedio de $600, una desviacin estndar de $50
y slo el 30% tienen ingresos superiores a $800.
a) Estimar la proporcin de todos los comerciantes con ingresos superiores a $800, mediante un
intervalo de confianza del 98%.
b) Si la proporcin de todos los comerciantes con ingresos superiores a $800 se estima entre
20.06% y 39.94% qu grado de confianza se utiliz?
10. Los datos sobre el perfil de la audiencia del de la Red ESPN indicaron que 26% de los usuarios eran
mujeres. Suponga que este porcentaje se bas en una muestra de 400 usuarios.
a) Con un 95% de nivel de confianza, cul es el mximo error de estimacin asociado con la
proporcin estimada de mujeres?
b) Cul es el intervalo de confianza de 95% de la proporcin poblacional de usuarios mujeres?
Qu tamao debe tener la muestra para un margen de error de 3%?

P g i n a | 132
INTERVALO DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES

Si p1 y p2 son las proporciones de xitos en dos muestras aleatorias independientes n1 y n2 respectivamente,
entonces, el intervalo de confianza del (1 - ) x100% del parmetro p1 - p2 es
[( p1 p 2 ) z1 / 2 P1P2 p1 p2 ( p1 p 2 ) z1 / 2 P1P2 ]
p 1 (1 p 1 ) p 2 (1 p 2 )
Error estndar de la estadstica (p1 p2) (E.S): P P
1 2
n1 n2
Ejercicios:
11. Dos muestras aleatorias de 250 mujeres y 200 hombres indican que 75 mujeres y 80 hombres
consumiran un nuevo producto unisex que acaba de salir al mercado. Utilizando un I. C. del 97%, se
puede aceptar que es igual la proporcin de preferencias de mujeres y hombres en toda la poblacin?
Si no es as, cul es la relacin?
12. Una agencia de publicidad realiz un estudio para comparar la efectividad de un anuncio en la radio de
dos segmentos socioeconmicos (C1 y C2). Despus de difundir el aviso, se realiz una encuesta con
500 personas seleccionadas al azar, en cada uno de los segmentos, resultando las proporciones 20% y
18% respectivamente. Con un 97% de confianza estime un intervalo de confianza e interprete.
CONCEPTOS BSICOS
Estimacin: valor especfico de un estimador, calculado en base a una muestra dada.
Estimacin puntual: un solo nmero que se utiliza para estimar un parmetro de poblacin
desconocido.
Estimacin de intervalo: intervalo de valores utilizado para estimar un parmetro de poblacin

desconocido.
Estimacin de parmetros: Aproximacin del valor de parmetros poblacionales desconocidos

mediante el empleo de estadsticos muestrales.
Estimador: estadstico de muestra utilizada para estimar un parmetro de poblacin. Conceptualmente

es una variable aleatoria.
Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que incluya el
valor real del parmetro de la poblacin.
Lmites de confianza: lmites inferior y superior de un intervalo de confianza.
Nivel de confianza: probabilidad que los estadsticos asocian con una estimacin de intervalo de un
parmetro de poblacin, sta indica qu tan seguros estn de que la estimacin de intervalo incluir el

P g i n a | 133
parmetro de la poblacin. Probabilidad, designada de antemano, de que un intervalo de confianza

incluya al valor del parmetro desconocido.

P g i n a | 134
TEMA 6: PRUEBA DE HIPTESIS
INTRODUCCIN
Un Contraste o Test de Hiptesis es una tcnica de Inferencia Estadstica que permite comprobar si la
informacin que proporciona una muestra observada concuerda (o no) con la hiptesis estadstica
formulada sobre el modelo de probabilidad en estudio y, por tanto, se puede aceptar (o no) la hiptesis
formulada. Llamaremos hiptesis estadstica a una afirmacin respecto a una caracterstica de una
poblacin. Contrastar una hiptesis es comparar las predicciones que se deducen de ella con la realidad
que observamos: si hay coincidencia, dentro del margen de error admisible, mantendremos la hiptesis; en
caso contrario, la rechazaremos. La hiptesis estadstica puede ser:
Paramtrica: es una afirmacin sobre los valores de los parmetros poblacionales desconocidos. Las
hiptesis paramtricas se clasifican en:
Simple: si la hiptesis asigna valores nicos a los parmetros
Compuesta: si la hiptesis asigna un rango de valores a los parmetros poblacionales desconocidos
No Paramtrica: es una afirmacin sobre alguna caracterstica estadstica de la poblacin en estudio. Por
ejemplo, las observaciones son independientes, la distribucin de la variable en estudio es normal, la
distribucin es simtrica.
La hiptesis que se contrasta se denomina hiptesis nula y, normalmente, se denota por H0. Si se rechaza
la hiptesis nula es porque se asume como correcta una hiptesis complementaria que se denomina
hiptesis alternativa y se denota por H1 o Ha.
Rechazar una hiptesis implica sustituirla por otra capaz de explicar los datos observados.
Es interesante tener en cuenta que la veracidad de una hiptesis no puede ser probada nunca
Lo que se puede hacer es afirmar que tiene tal o cual probabilidad de ser falsa
Si esa probabilidad es muy alta (95% o 99%) por ejemplo, se concluye que la hiptesis es poco creble y se
califica provisoriamente como falsa. Si no se consigue "falsar" (rechazar) la hiptesis, se acepta

P g i n a | 135
provisionalmente como verdadera. Esta calidad de provisorias de las conclusiones estadsticas no debera
sorprender a nadie: toda la ciencia es un constructo provisorio. La verificacin de hiptesis es el proceso
que lleva a juzgar la credibilidad de afirmaciones (hiptesis) relativas a las poblaciones (habitualmente a sus
parmetros) de las que fueron extradas las muestras.
Ejemplificando
La Hiptesis nula puede ser: un parmetro que tiene un valor k y la Hiptesis alternativa ser su
negacin. Es decir:
Ho: = k
H1: k

Si se toma una muestra y en ella se calcula un estadstico cuya distribucin en el muestreo en el caso de
que Ho sea verdadera se conoce, se puede determinar qu Probabilidad (P) hay de que si el verdadero

valor del parmetro es k se obtenga un valor observado del estadstico , tan alejado (o ms) de k. Ver
grafica siguiente:
Si P es muy baja la probabilidad de que la muestra no

pertenezca a una poblacin con = k es muy alta, por lo tanto se
rechaza Ho. Consecuentemente se acepta H1.
Una hiptesis es una afirmacin acerca de algo. En estadstica, puede ser una suposicin acerca del valor
de un parmetro desconocido. Una hiptesis estadstica es una afirmacin respecto a alguna
caracterstica de una poblacin. Contrastar una hiptesis es comparar las predicciones con la realidad que
observamos. Si dentro del margen de error que nos permitimos admitir, hay coincidencia, aceptaremos la
hiptesis y en caso contrario la rechazaremos.
La prueba de hiptesis comienza con una suposicin, llamada hiptesis, que hacemos con respecto a un
parmetro de poblacin. Despus recolectamos datos de muestra, producimos estadsticos de muestra y
usamos esta informacin para decidir qu tan probable es que sea correcto nuestro parmetro de poblacin
acerca del cual hicimos la hiptesis. Debemos establecer el valor supuesto o hipotetizado del parmetro de
poblacin antes de comenzar a tomar la muestra. La suposicin que deseamos probar se conoce como
hiptesis nula, y se simboliza H0. Siempre que rechazamos la hiptesis, la conclusin que s aceptamos se
llama hiptesis alternativa y se simboliza H1.
La hiptesis emitida se suele designar por H0 y se llama Hiptesis nula porque parte del supuesto que
la diferencia entre el valor verdadero del parmetro y su valor hipottico es debida al azar, es decir no
hay diferencia.
La hiptesis contraria se designa por H1 y se llama Hiptesis alternativa.

P g i n a | 136
Los contrastes pueden ser unilaterales o bilaterales (tambin llamados de una o dos colas) segn
establezcamos las hiptesis, si las definimos en trminos de igual y distinto estamos ante una hiptesis
unilateral, si suponemos una direccin (en trminos de mayor o menor) estamos ante uno bilateral.

P g i n a | 137
PASOS A SEGUIR EN UNA PRUEBA DE HIPTESIS:

Se trata, de extraer conclusiones a partir de una muestra aleatoria y significativa, que permitan aceptar o
rechazar una hiptesis previamente emitida, sobre el valor de un parmetro desconocido de la poblacin. El
mtodo que seguiremos es el siguiente:
1. Definir la hiptesis nula: suponer una hiptesis acerca de una poblacin. Se determina si es una prueba
de una o dos cola.
2. Formular una hiptesis alternativa: es una contra-hiptesis.
3. Elegir un nivel de significacin y construir la zona de aceptacin, intervalo fuera del cual slo se
encuentran el 100% de los casos ms raros. A la zona de rechazo la llamaremos Regin Crtica, y su
rea es el nivel de significacin o aceptacin.
4. Verificar la hiptesis extrayendo una muestra cuyo tamao se ha decidido en el paso anterior y
obteniendo de ella el correspondiente estadstico. Decida que distribucin (t o z) es la ms apropiada y
encuentre los valores crticos adecuados para el nivel de significancia escogido de la tabla adecuada.
5. Recabar datos de la muestra.
6. Calcule el error estndar del estadstico de la muestra y utilice el error estndar para convertir el valor
observado del estadstico de la muestra a un valor estandarizado. Determine si el valor calculado en la
muestra cae dentro de la zona de aceptacin de ser as se acepta la hiptesis y si no se rechaza.
7. Utilice el estadstico de la muestra para evaluar la hiptesis.
Hiptesis nula y alternativa

Llamaremos hiptesis nula, y la representaremos por H0, a la hiptesis que se desea contrastar. La
hiptesis nula es en general un supuesto simple que permite hacer predicciones sin ambigedad. La
hiptesis alternativa (H1 o Ha) da una suposicin opuesta a aquella presentada en la hiptesis nula. El
experimento se lleva a cabo para conocer si la hiptesis alternativa puede ser sustentada.
La hiptesis H0 nunca se considera probada, aunque puede ser rechazada por los datos. Por ejemplo, la
hiptesis de que todos los elementos de una poblacin tienen el mismo valor de una variable puede ser
rechazada encontrando un elemento que no lo contenga, pero no puede ser demostrada ms que
estudiando todos los elementos de la poblacin, tarea que puede ser imposible. De igual manera, la
hiptesis de que la media de una poblacin es diez puede ser rechazada fcilmente si la media
verdadera est muy lejos de diez analizando una muestra suficientemente grande. Sin embargo, no
puede ser demostrada mediante muestreo, ya que es posible que la media difiera de diez en un valor
pequeo imperceptible en el muestreo). Por esta razn no afirmamos que aceptamos H0, sino que no
podemos rechazarla.
Los tests ( o pruebas) asociados con las hiptesis pueden ser uni o bi laterales,
segn las hiptesis planteadas

P g i n a | 138
Ho : = k Ho : k Ho : k
H1 : k H1 : < k H1 : > k
Estadstico de la prueba
Los datos se deben sintetizar en un estadstico de la prueba. Dicho estadstico se calcula para ver si es
razonablemente compatible con la hiptesis nula. En las pruebas de hiptesis es necesario trazar una
lnea entre los valores del estadstico de la prueba que son relativamente probables dada la hiptesis
nula y los valores que no lo son. En qu valor del estadstico de la prueba comenzamos a decir que los
datos apoyan a la hiptesis alternativa? Para contestar a esta pregunta se requiere conocer la
distribucin muestral del estadstico de la prueba. Los valores del estadstico de la prueba que son
sumamente improbables bajo la hiptesis nula (tal como los determina la distribucin muestral) forman
una regin de rechazo para la prueba estadstica.
Interpretacin del nivel de significancia.

El propsito de la prueba de hiptesis no es cuestionar el valor calculado del estadstico de la muestra,
sino hacer un juicio respecto a la diferencia entre ese estadstico de muestra y un parmetro de
poblacin hipotetizado. El siguiente paso despus de establecer la hiptesis nula y alternativa consiste
en decidir qu criterio utilizar para decidir si aceptar o rechazar la hiptesis nula. Si suponemos que la
hiptesis es correcta, entonces el nivel de significancia indicar el porcentaje de medias de muestra que
est fuera de ciertos lmites. Siempre que afirmemos que aceptamos la hiptesis nula, en realidad lo
que queremos decir es que no hay suficiente evidencia estadstica para rechazarla. El empleo del
trmino aceptar, en lugar de rechazar, se ha vuelto de uso comn. Significa simplemente que cuando
los datos de la muestra n hacen que rechacemos una hiptesis nula, nos comportamos como si fuera
cierta.
Seleccin del nivel de significancia.

Nuestra eleccin del estndar mnimo para una probabilidad aceptable, o el nivel de significancia, es
tambin el riesgo que asumimos al rechazar una hiptesis nula cuando es cierta. Mientras ms alto sea
el nivel de significancia que utilizamos para probar una hiptesis, mayor ser la probabilidad de
rechazar una hiptesis nula cuando es cierta.
Los valores ms comunes para niveles de significacin

P g i n a | 139
Nivel de significacin () 0.10 0.05 0.01 0.005 0.002
Nivel de confianza 90% 95% 99% 99.5% 99.8%
Valores crticos de z para una cola 1.2817 1.645 2.327 2.575 2.88
Valores crticos de z para dos colas 1.645 1.96 2.575 2.81 3.08
Error tipo I y tipo II en contraste de hiptesis
Error tipo I: Llamado tambin nivel de significacin, denotado por , es la probabilidad de

rechazar la Ho cuando sta es cierta. Es la probabilidad de que le valor de la
Estadstica caiga en la Regin de Rechazo.
Error tipo II: Denotado por , es la probabilidad de aceptar la Ho cuando sta es falsa.
Donde (1 - ) se conoce como la potencia de la prueba.
Minimizar los errores no es una cuestin sencilla, un tipo suele ser ms grave que otro y los intentos de
disminuir uno suelen producir el aumento del otro. La nica forma de disminuir ambos a la vez es
aumentar el tamao de la muestra.
Decisin Ho Cierta Ho Falsa
Decisin correcta Error tipo II

Aceptar Ho
(1 - ) ()
Error tipo I Decisin correcta

Rechazar Ho
() (1 - )
El rechazo de una hiptesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que es
tambin el nivel de significancia) se simboliza como .
El hecho de que P sea muy bajo no califica el acontecimiento como
imposible. Simplemente que tiene poca probabilidad de ocurrir al azar.
A la probabilidad de cometer error tipo I se la denomina nivel de
significacin . Habitualmente el investigador fija a priori el nivel de
significacin crtico para rechazar Ho (). Si P es menor que , se
rechaza. En caso contrario, se acepta Ho.
El hecho de aceptar una hiptesis nula cuando es falsa se denomina
error de tipo II, y su probabilidad se simboliza como . La probabilidad de cometer un tipo de error
puede reducirse slo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el
propsito de obtener una baja, tendremos que tolerar una alta. Los responsables de la toma de
decisiones deciden el nivel de significancia adecuado, al examinar los costos o desventajas vinculadas
con ambos tipos de errores
Las hiptesis nula y alternativa son aseveraciones sobre la poblacin que compiten entre s. O la
hiptesis nula H0 es verdadera, o lo es la hiptesis alternativa H1, pero no ambas. En el caso ideal, el

P g i n a | 140
procedimiento de prueba de hiptesis debe conducir a la aceptacin de H0 cuando sea verdadera y al

rechazo de H0 cuando H1 sea verdadera. Desafortunadamente no siempre son posibles las
conclusiones correctas. Como las pruebas de hiptesis se basan en informacin de muestra, debemos
considerar la posibilidad de errores.
Debe tenerse en cuenta que slo se puede cometer uno de los dos tipos de error y, en la mayora de las
situaciones, se desea controlar la probabilidad de cometer un error de tipo I. Fijar el nivel de
significacin equivale a decidir de antemano la probabilidad mxima que se est dispuesto a asumir
para rechazar la hiptesis nula cuando es cierta. El nivel de significacin lo elige el experimentador y
tiene por ello la ventaja de tomarlo tan pequeo como desee (normalmente se toma = 0.10, 0.05 o
0.01)
TIPOS DE PRUEBAS:
Prueba de cola derecha: Si la regin de rechazo est a la derecha del puntaje crtico
Prueba de cola izquierda: Si la regin de rechazo est a la izquierda del puntaje crtico
Prueba de dos colas o bilateral: Si la regin de aceptacin es un intervalo abierto entre dos puntajes
crticos.
OBSERVACIN IMPORTANTE
En ocasiones pueden surgir dudas en el planteamiento de cul debe ser la hiptesis H0 y
cul la hiptesis H1, en estos casos debemos tener presente las siguientes reglas:
Cuando el problema de manera expresa pide que se contraste una hiptesis con
determinado nivel de significacin, la hiptesis que contrastamos es la hiptesis H0.
Cuando el problema pide explcitamente que seamos nosotros quienes planteemos las
hiptesis, para decidir qu poner en H0 y qu en H1, se pueden tener en cuenta las
siguientes indicaciones:
En H1 siempre debemos colocar lo que realmente queremos investigar con seguridad, pues
el error , el que fijamos de antemano, se comete cuando optamos por H1 y nos
equivocamos.
En caso de duda, siempre elegir un contraste de hiptesis con dos colas.
PRUEBA DE HIPTESIS ACERCA DE LA MEDIA POBLACIONAL ()
El estadstico de prueba se basa en la media muestral X , por lo que tambin se supondr que la
poblacin esta distribuida de manera normal o que se aplican las condiciones del teorema del limite
central. Esto significa que la distribucin de X es aproximadamente normal con una media y una
2
varianza /n.
Cuadro resumen

P g i n a | 141
Reglas de decisin (o regiones ptimas) para docimar
Ho: = o. Para un nivel de significancia
Tipos de prueba Hiptesis alternante Se rechaza Ho, si
Cola izquierda Ha : < o Zc < -Z1- tc < -t1-,n-1
Cola derecha Ha : > o Zc > Z1- tc > t1-,n-1
Dos colas Ha : o |Zc| > Z1-/2 |tc| > t1-/2,n-1
x 0 x 0
Estadsticas: Zc tc , n-1 grados de libertad
/ n s/ n
Se usa la Estadstica Z, si:

a) La muestra es grande, varianza poblacional conocida y poblacin normal o no.
b) La muestra es grande, varianza poblacional desconocida (s ) y poblacin normal o no.

c) La muestra es pequea, varianza poblacional conocida y poblacional normal.
Se usa la estadstica t, si:

a) La muestra es pequea
b) Varianza poblacional desconocida
c) Poblacional Normal
Ejemplo: Se pretende disear una prueba de hiptesis con una muestra de 74 automviles para comprobar
su capacidad de frenado. Para ello se medir en todos ellos la distancia de frenado si el automvil parte de
una velocidad inicial de 100 Km/h. Se quiere saber si, tras un frenazo brusco, la distancia media recorrida
antes de pararse es de 110 metros. Se supone que la distancia de frenado sigue una distribucin normal
con desviacin tpica conocida = 3 m y al realizar efectivamente la prueba a los 74 automviles se ha
obtenido una distancia promedio de frenado de 111.62 m
Lo primero que se debe realizar es plantearse las hiptesis:
Ho: La media de la distribucin es 110 m. ( = 100m)
H1: La media de la distribucin no es 110 m. ( 100m)

El nivel de significancia de 0.05 por tabla se sabe que
Z1-/2 = 1.96; n = 74; x =111.62; 0 = 110.0; = 3.0 ahora se aplica la frmula:
Regla de Decisin: Se rechaza la hiptesis Nula H0, si los valores de:
|Zc| > Z1-/2 = Z c Z1 2 ..o..Z c Z1 2 es decir, Z c 1.96..o..Z c 1.96 .

P g i n a | 142
X 0 111.62 110
Zc Zc 4.65
n 3 74
Conclusin: Como este valor no entra dentro de la regin de aceptacin (1.96, 1.96) nos decidimos por la
hiptesis alternativa H1. Concluimos que la media de frenado no es 110 m.
EJEMPLO: Los sistemas de escape de emergencia para aviones son impulsados por un combustible slido.
Una de las caractersticas importantes de este producto es la rapidez de combustin. Las especificaciones
requieren que la rapidez promedio de combustin sea de 50 cm/s. Se sabe que la desviacin estndar de
esa rapidez es de = 2 cm/s. El experimentador decide especificar un nivel de significancia, de = 0.05.
Selecciona una muestra aleatoria de n = 25 y obtiene una rapidez promedio muestral de combustin de x
=51.3 cm/s. A qu conclusin debe llegarse?
El parmetro de inters es , la rapidez promedio de combustin.
Ho: = 50 cm/s
H1: > 50 cm/s
Por tabla se sabe que para pruebas de una sola cola Z1 1,645 ;
n = 25; = 2 cm/s; x =51.3 cm/s; 0 = 50 cm/s;
Regla de Decisin: Se rechaza la hiptesis Nula H0, si el valor de Z c Z1 , es decir, Z c 1,645 .
Ahora se aplica la frmula para estandarizar los valores as:

P g i n a | 143
X 0 51.3 50 1.3
Z 3.25
n 2 25 25
Conclusin: Como Z c es mayor que Z1 , es decir, Z c 3.25 1,645 , se rechaza H 0 : 50 con

un nivel de significancia de 0.05. De hecho, se observa una evidencia fuerte de que la rapidez promedio de
combustin es mayor que 50 cm/s.
EJEMPLO: La vida til promedio de los focos marca general electric especial para vehculos es cuando
menos de 4200 horas. La vida til promedio para una muestra aleatoria de n = 10 focos es de X 4000
horas, con una desviacin tpica muestral de S = 200 horas. Se supone que la vida til de los focos sigue
una distribucin normal. El fabricante desea hacer un contraste de hiptesis con un nivel de significancia de
5 %. Cul seria la conclusin?
SOLUCIN: Se ordenan los datos: X 4000,..0 4200,..S 200,..n 10. Para un contraste de
hiptesis de una sola cola por la izquierda con 7 grados de libertad y un nivel de de significancia de 0.05, la
tabla de t , gl 9 1,833 .
Hiptesis:
H 0 : 4200
H1 : 4200
Regla de decisin o Regin crtica:
Se rechaza la Hiptesis nula si: t c t , gl 9 , es decir, t c 1,833 .
Aplicando la frmula siguiente se tiene:
X 0 4000 4200
tc t c 3.16.
S n 200 10

P g i n a | 144
Conclusin: Como t c calculado es menor que t , gl 9 , es decir, t c 3.16 1,833 , se rechaza

H 0 : 4200 con un nivel de significancia de 0.05. De hecho, se observa que t c 3.16 1,833 se
encuentra en el rea de rechaza (ver grfico). Se concluye que la vida til de los focos tiene un promedio
inferior a 4200 horas.
PRUEBA DE HIPTESIS ACERCA DE LA DIFERENCIA DE DOS MEDIAS (1-2)
Ho: 1 - 2 = 0. Para un nivel de significancia
Cola izquierda Ha : 1 - 2 < 0 Zc < -Z1- tc < t1 / 2; n1 n2 2
Cola derecha Ha : 1 - 2 > 0 Zc > Z1- tc > t1 / 2; n1 n2 2
Dos colas Ha : 1 - 2 0 |Zc| > Z1-/2 |tc| > t1 / 2; n1 n2 2

P g i n a | 145
Estadsticas:
Varianzas conocidas, muestras grandes
X1 X 2
z
2 2
s1 s
2
n1 n2
Varianzas desconocidas,
Varianzas supuestas iguales 1 = 2 =

- 2 2 2
X1 X 2 (n1 1) S12 (n2 1) S 22

t , S
2
, (n1+ n2 2) grados de
n1 n2 2
2 2 c
sc s
c
n1 n2
libertad
Varianzas supuestas distintas 1 2

- 2 2
2
S12 S 22
X1 X 2
r 12
n n2
t 2 2
,
2
grados de libertad
s1 s S12 S 22
2
n1 n2 n1 n2
n1 1 n2 1
Se usa la Estadstica Z, si:

a) La muestra es grande, varianza poblacional conocida y poblacin normal o no.
b) La muestra es grande, varianza poblacional desconocida (s ) y poblacin normal o no.

c) La muestra es pequea, varianza poblacional conocida y poblacional normal.
Se usa la estadstica t, si:

a) La muestra es pequea
b) Varianza poblacional desconocida
c) Poblacional Normal
EJEMPLO: El salario promedio semanal para una muestra de n1 30 empleados de la empresa petrolera
Lasmo es de X 1 280000 Bs., con una desviacin tpica muestral de S1 14000 Bs. En otra empresa
petrolera grande, una muestra aleatoria de n2 40 empleados tiene un salario promedio semanal de

P g i n a | 146
X 2 270000 Bs., con una desviacin estndar muestral de S 2 10000 Bs. Se prueba la hiptesis de
que no existe diferencia entre los salarios promedio semanal de las dos empresas, utilizando un nivel de
significancia de 5 %.
Lo primero que se har ser ordenar los datos y luego determinar el valor Z1 2 al 5%, de la tabla.
Datos:
Muestra..1...........................................Muestra..2
n1 30.................................................n2 40
X 1 280000...................................... X 2 270000
S1 14000..........................................S 2 10000
El ..valor..segun..tabla ..de..Z 1 2 1.96
Hiptesis:
H 0 : 1 2
H1 : 1 2
Regla de decisin o Regin crtica: Se rechaza la Hiptesis nula si:
Z c Z1 2 ...o...Z c Z1 2 , es decir, Z c 1.96....o....Z c 1.96 .
Aplicando la frmula siguiente se tiene:
( X1 X 2 ) ( X1 X 2 ) 280000 270000 10000

Zc Z c 3.33
12 2
S12 S 22 (14000) 2 (10000) 2 3005.56
2
n1 n2 n1 n2 30 40
Conclusin: Como Z c es mayor que Z1 2 , es decir, Z c 3.33 1.96 , se rechaza H 0 : 1 2 con

un nivel de significancia de 0.05. Por lo tanto, los salarios promedios semanales de las dos empresas
petroleras son diferentes.
PRUEBA DE HIPTESIS DE DOS MUESTRAS EMPAREJADAS
Ho: d = 0. Para un nivel de significancia

P g i n a | 147
Cola izquierda Ha : d < 0 tc < -t,n-1
Cola derecha Ha : d > 0 tc > t,n-1
Dos colas Ha : d 0 |tc| > t/2,n-1
Estadstica de prueba
d d nd
2 2
d
t d sd
i i
, , , n-1 grados de libertad
sd n n 1
n
Ejemplo: La tabla incluye cinco temperaturas mnimas reales y las correspondientes temperaturas mnimas
que se pronosticaron cinco das antes. Se trata de datos apareados puesto que cada par de valores
representa al mismo da. Las temperaturas pronosticadas parecen ser muy diferentes de las temperaturas
reales, pero existe suficiente evidencia para concluir que la diferencia media no es de cero? Utilice un nivel
de significancia de 0.05 para probar la aseveracin de que existe diferencia entre las temperaturas mnimas
reales y las temperaturas mnimas pronosticadas cinco das antes.
Temperatura real 1 -5 -5 23 9
Temperatura pronosticada 16 16 20 22 15
d = real - pronosticada -15 -21 -25 1 -6
La aseveracin de que existe una diferencia entre las temperaturas mnimas reales y las temperaturas
mnimas pronosticadas para cinco das se expresa como d = 0
Si la aseveracin original no es verdadera, tenemos d 0

Hiptesis:
Ho: d = 0
H1 : d 0
Regla de decisin o Regin crtica:
Se rechaza la Hiptesis nula si: tc t / 2, gl4 , es decir, t c 2.776
Antes de calcular el estadstico de prueba, debemos calcular los valores de s d y d . Utilizando las frmulas
ya conocidas anteriormente se tiene que d = -13.2 y sd = 10.7; luego se reemplaza en la frmula:

P g i n a | 148
d 13.2
t 2.759
sd 10.7
n 5
Conclusin: Como | t c | calculado es menor que t / 2, gl4 , es decir, tc 2.759 2.776 , no se rechaza Ho:
d = 0 con un nivel de significancia de 0.05.. Se concluye que los datos muestrales no proporcioana
evidencia para sustentar la aseveracin de que las temperaturas mnimas y pronosticadas para cicno das
son diferentes. Esto no establece que las temperaturas reales y pronosticadas sean iguales.
PRUEBA DE HIPTESIS ACERCA DE LA PROPORCIN POBLACIONAL (p)
Las pruebas de hiptesis con proporciones son necesarias en muchas reas del conocimiento. Se
considerar el problema de probar la hiptesis de que la proporcin de xito en un experimento binomial
sea igual a un cierto valor especifico. Es decir, se probar la hiptesis nula de que p = p0, donde p es el
parmetro de la distribucin binomial. La informacin de que suele disponerse para la estimacin de una
x
porcin real o verdadera (porcentaje o probabilidad) es una proporcin muestral , donde x es el
n
nmero de veces que ha ocurrido un evento en n ensayos. Por ejemplo, si una muestra aleatoria de
600 compras realizadas en una tienda y 300 se realizan con tarjeta de crdito, entonces
x 300
0.50 se puede utilizar esa cifra como estimacin de punto de la proporcin real de compras
n 600
realizadas en ese negocio que se abonaron a tarjetas de crdito. De la misma forma muchas
compaas podran estimar las proporciones de muchas transacciones. La hiptesis alterna puede ser
una de las alternativas usuales unilateral o bilateral tales como: p p0 , p p0 ,..o.. p p0 .
CUADRO RESUMEN
Ho: p = po. Para un nivel de significancia
Cola izquierda Ha : p < p o Zc < -Z1-
Cola derecha Ha : p > p o Zc > Z1-
Dos colas Ha : p po |Zc| > Z1-/2

P g i n a | 149
p p0 p p0
Estadsticas: Zc Zc
p o (1 p o ) po (1 po ) N n

n n N 1
Cuando se conoce el tamao de la poblacin
EJEMPLO: Un fabricante de semiconductores produce controladores que se emplean en el sistema

elctrico de vehculos. El cliente requiere que la proporcin de controladores defectuosos no sea mayor de
0.05, y que el fabricante demuestre estas caractersticas del proceso de fabricacin con este nivel de
calidad, con un nivel de significancia del 5 %. El fabricante de semiconductores toma una muestra aleatoria
de 200 dispositivos y encuentra que 4 de ellos son defectuosos. El fabricante puede demostrar al cliente la
calidad exigida? Saque sus conclusiones.
Para resolver el problema hay que plantear una hiptesis alternativa unilateral de una cola por la izquierda
es decir, p< 0.05 y para ello se busca en la tabla el valor de Z1 ,..que..es..Z1 1,645 .
Datos: p0 0.05, q 0.95, p 4 200 0.02, n 200.
Hiptesis:
H 0 : p 0.05
H1 : p 0.05
Z c Z1 ,es decir, Z c 1,645
Aplicando frmula se tiene:
p p0 0.02 0.05
Zc Z c 1.95
p0 (1 p0 ) 0.05 x0.95
n 200
Conclusin: Como Z c es menor que Z1 , es decir, Z c 1.95 1,645 , se rechaza H 0 : p 0.05

con un nivel de significancia de 0.05. Se concluye que la proporcin de artculos defectuosos es menor del
5 %, como quera el cliente.

P g i n a | 150

P g i n a | 151
PRUEBA DE HIPTESIS ACERCA DE LA DIFERENCIA ENTRE PROPOCIONES (p 1-p2)
Ho: p1 p2 = 0. Para un nivel de significancia
Cola izquierda Ha : p 1 p 2 < 0 Zc < -Z1-
Cola derecha Ha : p 1 p 2 > 0 Zc > Z1-
Dos colas Ha : p 1 p 2 0 |Zc| > Z1-/2
p1 p 2 x1 x2
Estadsticas: Zc p1 , p2
1 1 n1 n2
p(1 p)
n1 n2
x1 x2 n1 p1 n2 p 2
p p
n1 n2 n1 n2
EJEMPLO: En un proceso de produccin de botellas de vidrio se tom una muestra de 400 de las cuales 28
estaban defectuosas, en otro proceso se tomaron 300 muestra de botellas de la cuales 15 estaban
defectuosas. Demuestre la hiptesis nula p1 p2 de que los dos procesos generan proporciones iguales
de unidades defectuosas, contra la hiptesis alternativa p1 p2 con un nivel de significancia de 0.05.
Pr oporcion..1......................................... Pr oporcion..2
n1 400..................................................n2 300
28 15
p1 0.07..................................... p 2 0.05
400 300
x1 28....................................................x2 15
28 15 43
p 0.061,......q 1 p 0.939
400 300 700
El ..valor..de..Z1 2 ..al..0.05... para..una..hipotesis ..alternativ a..bilateral ..es..Z1 2 1.96
Para resolver este problema se plantearn las hiptesis y luego se aplica la formula.
Hiptesis:
H 0 : p1 p 2
H1 : p1 p 2

P g i n a | 152
Z c Z1 2 ..o..Z c Z1 2 ,es decir, Z c 1.96...o...Z c 1.96 .
Aplicando frmula se tiene:
p1 p2 0.07 0.05
Zc Z c 1.09
1 1 1 1
pq (0.061)(0.939)
n1 n2 400 300
Conclusin: Como Z c es menor que Z1 2 , es decir, Z c 1.09 1.96 , no se rechaza H 0 : p1 p2

con un nivel de significancia de 0.05. Por lo tanto, no se puede concluir que existan diferencias reales entre
las dos proporciones verdaderas de unidades defectuosas.
APLICACIONES DE LA PRUEBA CHICUADRADO
CARACTERSTICAS DE LA DISTRIBUCIN
Las caractersticas principales de la distribucin chi-cuadrada son:

tiene sesgo positivo
es no negativa
est basada en los grados de liberad
cuando los grados de libertad cambian se crea una nueva distribucin
gl
gl
gl =
Valores de chi-cuadrado

P g i n a | 153
1. Gran parte de la informacin recolectada en investigaciones estadstica es nominal o categrica.
2. Cuando tenemos mas de dos poblaciones, utilizaremos la prueba ji cuadrado.

3. La distribucin ji cuadrada, es la distribucin de una variable aleatoria siempre positiva, con una
posicin oblicua hacia la derecha y unimodal.
4. Se utiliza para demostrar:
Prueba de bondad de ajuste.
Prueba de independencia
Prueba de homogeneidad

P g i n a | 154
PRUEBA DE BONDAD Y AJUSTE
Se utiliza cuando se quiere determinar si una distribucin particular (por ejemplo: Binomial, Poisson,
normal, etc.) es la distribucin apropiada.
Siempre en una investigacin estadstica, necesitamos escoger una cierta distribucin de

probabilidades para representar la distribucin de datos que tengamos que trabajar.
La prueba ji cuadrada nos responde esta inquietud y probar si existe diferencia significativa entre
una distribucin de frecuencias observadas y una distribucin de frecuencias tericas.
Se sigue la siguiente forma:
1. Sean f 0 f e las frecuencias observada y esperada respectivas.
H0 : no hay diferencia entre f0 fe
Ha : existe una diferencia entre f0 fe

2. El estadstico de prueba es:
f f 2
2 0 e
fe
3. El valor crtico es un valor de chi-cuadrada con (k - 1) grados de libertad, donde k es el nmero

de categoras es decir k21 . Las pruebas de hiptesis por bondad de ajuste siempre son de
cola derecha.
4. Se rechaza la hiptesis si c2 t2
Nota: Las frecuencias esperadas de las distintas modalidades deben ser superiores a cinco; en
caso de no ocurrir, se deben agrupar clases contiguas en una sola clase hasta lograr que la
nueva frecuencia sea mayor que cinco.
Ejemplo: Los siguientes datos de ausentismo se recolectaron en una planta manufacturera. Para 95%
de nivel de confianza, realice una prueba para determinar si existe diferencia en la tasa de ausentismo
por da de la semana.
Frecuencia
Da
Lunes 120
Martes 45
Mircoles 60
Jueves 90

P g i n a | 155
Viernes 130
Solucin:
H0 : no existe diferencia entre las frecuencias observadas y esperadas de ausencias.
Ha : existe una diferencia entre las frecuencias observadas y esperadas de ausencias.
Suponga frecuencias esperadas iguales: (120 + 45 + 60 + 90 + 130) / 5 = 89.
Los grados de libertad son (5 - 1) = 4, entonces, el valor crtico es t2 = 9.49

2 2
Da Frecuencia (fe) (fo - fe) (fo - fe) (fo - fe) / fe
Lunes 120 89 31 961 10.8
Martes 45 89 -44 1936 21.8
Mircoles 60 89 -29 841 9.4
Jueves 90 89 1 1 0.0
Viernes 130 89 41 1681 18.9
Total 445 445 0 c2 = 60.9
Estadstico de prueba: c2 = 60.9

Regla de decisin: rechazar H0 si el estadstico de prueba es mayor que el valor crtico.
Conclusin: rechazar H0 y concluir que existe una diferencia entre las frecuencias observadas y las
esperadas de ausencias.
En otras palabras, la diferencia entre las frecuencias observadas y esperadas no se debe a la

casualidad, sino que estas diferencias son lo suficientemente grandes para considerarlas
significativas. As concluimos que es muy improbable que la tasa de ausentismo sea igual en todos
los das de la semana.
Limitaciones de la chi cuadrado

La chi cuadrado puede llevara conclusiones errneas cuando en una celda (o en varias) se tiene una
frecuencia esperada demasiado pequea. Esto puede ocurrir porque las frecuencias esperadas
aparecen en el denominador de la frmula, y al dividir entre un nmero muy pequeo se obtiene un
cociente muy grande. Existen dos reglas generales en relacin con las celdas con frecuencias muy
pequeas:
a) Si slo hay dos celdas (tablas de 2 X 2), la frecuencia esperada en cada celda debe ser de 5 o ms.
De otro modo no se puede utilizar la chi cuadrado.

P g i n a | 156
b) Si hay ms de dos celdas, no se debe utilizar la chi cuadrado cuando ms del 20% de las celdas
tienen una frecuencia esperada menor a 5.
PRUEBA DE INDEPENDENCIA - ANLISIS DE TABLAS DE CONTINGENCIA
El anlisis de tablas de contingencia se usa para probar si dos caractersticas o variables estn
relacionadas.Las hiptesis a plantearse son:
Ho: Las variables son independientes. Ha: Las variables no son independientes.
Cada observacin se clasifica segn las dos variables.
Se usa el procedimiento de prueba de hiptesis normal.
Los grados de libertad son iguales a: (nmero de filas - 1)(nmero de columnas -1).
La frecuencia esperada se calcula como:

Frecuencia esperada = (total por fila) x (total por columna)/gran total
En una prueba de independencia de una tabla de contingencia la regin crtica se localiza slo en la
cola derecha.
f 0 f e 2
El estadstico de prueba es:
2

fe
Ejemplo: Un editor de peridicos, que trata de determinar con precisin las caractersticas de mercado
de su peridico, se pregunta si la costumbre de la gente de la comunidad de leer diarios est
relacionada con el nivel educativo de los lectores. Se aplica una encuesta a los adultos de rea
referente a su nivel educativo y a la frecuencia con que leen el peridico. Los resultados se muestran en
la siguiente tabla.
Nivel educativo
Frecuencia
Profesional Pasante de No termin la Total
con la que lee Preparatoria
o postgrado licenciatura preparatoria
Nunca 10 17 11 21 59
Algunas veces 12 23 8 5 48
Maana o
35 38 16 7 96
tarde
Total 57 78 35 33 203
Solucin:
Ho : La frecuencia con la que lee y el nivel educativo no estn relacionados.

Ha : La frecuencia con la que lee y el nivel educativo estn relacionados.

P g i n a | 157
Ho se rechaza si
c2 t2 , es decir si 2 12.59 con (4-1)x(3-1)=6 g.l. y =0.05
c
Nivel educativo
Frecuencia
con la que No termin
Profesional Pasante de Preparatori
lee la
o postgrado licenciatura a
preparatoria
fo 10 17 11 21
fe 16.57 22.67 10.17 9.59

Nunca
fo fe -6.57 -5.67 0.83 11.41
(fo - fe) / fe 2.60 1.42 0.07 13.57
fo 12 23 8 5
Algunas fe 13.48 18.44 8.28 7.80

veces fo fe -1.48 4.56 -0.28 -2.80
(fo - fe) / fe 0.16 1.13 0.01 1.01
fo 35 38 16 7
Maana o fe 26.96 36.89 16.55 15.61

tarde fo fe 8.04 1.11 -0.55 -8.61
(fo - fe) / fe 2.40 0.03 0.02 4.75
El estadstico de prueba es:

c2 =27.16
Ho se rechaza. Entonces la costumbre de la gente de la comunidad de leer diarios est relacionada
con el nivel educativo de los lectores.

P g i n a | 158
TEMA 7: ANALISIS DE REGRESIN LINEAL
INTRODUCCIN
En la investigacin estadstica es muy frecuente encontrar variables que estn relacionadas o asociadas
entre s de alguna manera por ejemplo, el gasto familiar depende del ingreso. Existen muchas variables, en
especial cuantitativas, que dependen en algn grado de otras, entonces es posible que una de las variables
pueda ser relacionada matemticamente en funcin de la otra. Por ejemplo el peso de las personas
depende en general de la estatura; el tiempo de servicio de trabajo activo tiene relacin con la edad, un
trabajador que ha acumulado por ejemplo 30 aos de servicio tendr mayor edad que otro con slo 14 aos
de servicio; el ingreso o salario depende frecuentemente del nivel educativo; el ahorro familiar tiene relacin
con los ingresos; la demanda depender de los precio, etc.
Aqu se trata de predecir o explicar el comportamiento o resultado de una variable (variable dependiente) en
funcin de otras variables (variables independientes), as como tambin investigar si ellas estn asociadas o
correlacionadas entre s.
El propsito es proporcionar las tcnicas para expresar y medir la relacin o afinidad entre dos variables X e
Y para n observaciones.
La regresin como una tcnica estadstica, una de ellas la regresin lineal simple y la regresin
multifactorial, analiza la relacin de dos o mas variables continuas, cuando analiza las dos variables a esta
se el conoce como variable bivariantes que pueden corresponder a variables cualitativas, la regresin nos
permite el cambio en una de las variables llamadas respuesta y que corresponde a otra conocida como
variable explicativa, la regresin es una tcnica utilizada para inferir datos a partir de otros y hallar una
respuesta de lo que puede suceder.
Siendo as la regresin una tcnica estadstica, por lo tanto para interpretar situaciones reales, pero a veces
se manipula de mala manera por lo que es necesario realizar una seleccin adecuada de las variables que
van a construir las formulas matemtica, que representen a la regresin, por eso hay que tomar en cuenta
variables que tiene relacin, de lo contraria se estara matematizando un galimatas.
Se pueden encontrar varios tipos de regresin, por ejemplo:
Regresin lineal simple
Regresin mltiple (varias variables)
Regresin logstica: Simple b) Mltiple, etc.
La regresin lineal simple es una tcnica que usa variables aleatorias, continuas se diferencia del otro
mtodo analtica que es la correlacin, porque esta ltima no distingue entre las variables respuesta y la
variable explicativa por que las trata en forma simtrica.
REGRESIN Y CORRELACIN: Cuando existe dependencia estadstica entre dos variables, el objetivo es
encontrar una medida de la relacin entre ambas. Se trata de buscar un modelo o funcin matemtica que
recoja, de la manera ms aceptada esta relacin entre las variables y una medida de la aproximacin del

P g i n a | 159
modelo a los datos reales. Por lo tanto, en el estudio de la dependencia estadstica de dos variables hay q
resolver dos problemas:
1. Determinar el grado de relacin o dependencia entre las variables.
2. Encontrar un modelo aproximado de la dependencia
La correlacin se encarga de solucionar el primer problema estableciendo la correspondencia en las pautas

de variacin de dos variables. La correlacin cuantifica esta dependencia entre las variables mediante el
clculo de coeficientes de correlacin
La regresin estudia la naturales estadstica de la relacin entre dos variables y nos proporciona un modelo
de dicha relacin. El modelo consiste en una funcin matemtica cuya forma se aproxima a los datos
observados. La funcin encontrada permitir obtener los valores aproximados de una las variables a partir
de los valores prefijados de la otra variable.
La representacin de los datos obtenidos en la muestra de una variable estadstica bidimensional (X,Y)
sobre el plano (diagrama de dispersin) constituye una nube de puntos. Se llama lnea o curva de regresin
a la funcin que mejor se ajusta a esa nube de puntos. Si todos los valores de la variable satisfacen la
ecuacin calculada, se dice que las variables estn perfectamente correlacionadas o que hay una
correlacin perfecta entre ellas.
DIAGRAMA DE DISPERSIN (Nube de puntos)
Dado n observaciones bidimensionales, cada par de valores (X,Y) en el plano cartesiano o rectangular
est representado por un punto, y habr tantos puntos como parejas de observaciones se tenga. Esta
representacin da origen a una nube de puntos que se denomina DIAGRAMA DE DISPERSIN, este
diagrama puede tomar diferentes formas.
La construccin del diagrama de dispersin constituye el primer paso para investigar la relacin existente
entre dos variables, la posicin y forma de esta nube proporciona una idea del tipo de relacin existente
entre ambas variables, de este modo se facilita la eleccin de la correspondiente funcin matemtica.
Algo de relacin positiva lineal Mucha relacin positiva lineal Poca relacin lineal negativa
Mucha relacin lineal negativa Ninguna relacin entre X e Y

P g i n a | 160
La forma y posicin del diagrama de dispersin tambin indica si existe una relacin positiva o directa, o si
la relacin es negativa o inversa. Una relacin es directa o positiva cuando el incremento en el valor de una
variable significa el incremento en el valor de la otra; y es negativa o inversa cuando un incremento en el
valor de una variable genera una disminucin en la otra variable.
Una vez graficada y visualizada la forma del diagrama de dispersin, interesa analizar y expresar
matemticamente la relacin entre las variables. El mtodo estadstico que investiga y define la relacin
funcional entre dos variables se llama REGRESIN, la que permitir estimar, explicar o predecir el valor de
una variable, dado el valor de la otra variable. El hecho de tener una buena estimacin depender del grado
de asociacin entre las variables, y que la funcin elegida se ajuste lo mejor posible a la nube de puntos. El
anlisis del grado asociacin o modelo de regresin, constituye la CORRELACIN
REGRESIN LINEAL SIMPLE

El propsito de la regresin simple es estimar la relacin que existe entre dos variables X e Y, que se
expresan:
Y = f(X) que se lee Y depende de X
Esto expresa que Y es un valor estimado a partir de valores reales de X, que sera una Lnea de regresin
de Y sobre X, donde:
Y = variable dependiente, predictando o explicada
X = variable independiente, predictor o explicada
La ecuacin general de la Regresin Lineal Simple es: y 0 1x

Las estimaciones de mnimos cuadrado del coeficiente 0 y 1 de la recta de regresin:
n xi yi xi yi y 1 xi
1 0 i
n xi2 xi
2
;
n

P g i n a | 161
Nota: En la ecuacin de la recta y 0 1x , el coeficiente 1 de la variable x, se llama coeficiente

angular o pendiente de la recta. Considerando el signo de este coeficiente se tiene:
i) Si 1 es positivo (1 > 0), entonces una relacin lineal positiva o directa, es decir que ante incrementos
en la variable independiente o predictor corresponde incrementos en la variable dependiente o
predictando.
ii) Si 1 es negativo (1 < 0), se tiene una relacin lineal negativa o inversa, es decir, que incremento de la
variable independiente origina decrementos o disminuciones en la variable dependiente.
Notacin para la ecuacin de regresin
Parmetro de Estadstica de
poblacin muestra
Ordenada al origen de la ecuacin de regresin 0 b0
Pendiente de la ecuacin de regresin 1 b1
Ecuacin de la lnea de regresin y 0 1x y* b0 b1 x
Coeficiente de Correlacin Lineal (r):

En particular, nos interesa cuantificar la intensidad de la relacin lineal entre dos variables. El parmetro
que nos da tal cuantificacin es el coeficiente de correlacin lineal de Pearson r, cuyo valor oscila entre
1 y +1 :
El coeficiente de correlacin lineal R mide el grado de afinidad o asociacin entre dos variables cuando
ellas estn relacionadas mediante una lnea recta y 0 1 x
n xi yi xi yi
R
n xi2 xi n yi2 yi
2 2
Es importante notar que la existencia de correlacin entre variables no implica causalidad.
Atencin!: Si no hay correlacin de ningn tipo entre dos v.a., entonces tampoco habr correlacin lineal,
por lo que r = 0. Sin embargo, el que ocurra r = 0 slo nos dice que no hay correlacin lineal, pero puede
que la haya de otro tipo.
Si 0 < r < 0.20, entonces Existe correlacin no significativa.

P g i n a | 162
Si -0.20 < r < 0.
Si 0.20 < r < 0.40 , entonces Existe correlacin baja.

Si -0.40 < r < -0.20
Si 0.40 < r < 0.70 , entonces Existe una significativa correlacin.

Si -0.70 < r < -0.40
Si 0.70 < r < 1 , entonces Existe alto grado de asociacin.

Si -1 < r < -0.70
2
Coeficiente de determinacin (R ):
2
Denominamos coeficiente de determinacin R como el coeficiente que nos indica el porcentaje del ajuste
que se ha conseguido con el modelo lineal, es decir el porcentaje de la variacin de Y que se explica a
travs del modelo lineal que se ha estimado, es decir a travs del comportamiento de X. A mayor porcentaje
mejor es nuestro modelo para predecir el comportamiento de la variable Y. Tambin se puede entender este
coeficiente de determinacin como el porcentaje de varianza explicada por la recta de regresin y su valor
siempre estar entre 0 y 1 y siempre es igual al cuadrado del coeficiente de correlacin (r).
2 2
R =r
Es una medida de la proximidad o de ajuste de la recta de regresin a la nube de puntos.

2
Tambin se le denomina bondad del ajuste. 1 R nos indica qu porcentaje de las variaciones no se
explica a travs del modelo de regresin, es como si fuera la varianza inexplicada que es la varianza de los
residuos.
Para interpretar el coeficiente de determinacin, es necesario multiplicar por 100 el valor obtenido.
Error estndar de estimacin (Syx):
En el diagrama de dispersin, cabe observar que no todos los puntos estn en la lnea de regresin. Si
todos lo estuvieran y, adems, si el nmero de observaciones fuera suficientemente grande, no habra
ningn error de estimacin. En ese caso, no habra ninguna diferencia entre el valor observado y el valor de
prediccin.
Como imaginamos, en los casos reales, las predicciones perfectas son prcticamente imposibles y lo que
necesitamos es una medida que describa cmo de precisa es la prediccin de Y en funcin de X o,
inversamente, qu inexacta puede ser la estimacin.
A esta medida se le llama error estndar de estimacin y se denota Syx. El error estndar de estimacin,
es el mismo concepto que la desviacin estndar, aunque sta mide la dispersin alrededor de la media y el
error estndar mide la dispersin alrededor de la lnea de regresin.
S yx
y 2
i bo yi b1 xi yi
n2

P g i n a | 163
Ejemplo: Una compaa que fabrica circuitos electrnicos aplica un riguroso control de calidad. La
produccin se lanza por lotes de 100 circuitos y luego se prueba cada circuito. Los circuitos defectuosos son
inmediatamente reparados. Para poder predecir adecuadamente esta labor es importante poder predecir el
tiempo requerido por este servicio. La empresa dispone de los siguientes datos.
Nmero de
1 2 3 4 4 5 6 6 7 8 9 9 10 10 11 11 12 12
defectuosos por lote
Tiempo de
10 11 14 14 15 16 16 17 18 17
reparacin en 23 29 49 64 74 87 96 97
9 9 9 5 4 6 2 4 0 6
minutos
a. Trace un diagrama de dispersin e indique que tipo de relacin observa.

b. Encuentre la ecuacin de regresin o estimacin y grafquela.
c. Si un lote cuenta con 14 circuitos defectuosos, Qu valor podra predecir para el tiempo de
reparacin?
d. Qu grado de asociacin existe entre el nmero de defectuosos y el tiempo de reparacin?
e. Cree Ud. que la ecuacin de regresin da una buena estimacin del tiempo de reparacin?
Solucin
a) Se puede observar que existe una relacin positiva o directa entre el nmero de defectuosos y el tiempo
de reparacin.
200
180
160
140
120
Tiempo
100
80
60
40
20
0
0 3 6 9 12 15
Nmero de defectuosos por lote
b) La ecuacin de regresin o estimacin es: y* b0 b1 x
Nmero de Tiempo de
2 2 *
N defectuosos reparacin xi yi xi yi yi
por lote en minutos

P g i n a | 164
(x) (y)
1 1 23 23 1 529 22.6
2 2 29 58 4 841 37.3
3 3 49 147 9 2401 52.0
4 4 64 256 16 4096 66.7
5 4 74 296 16 5476 66.7
6 5 87 435 25 7569 81.4
7 6 96 576 36 9216 96.1
8 6 97 582 36 9409 96.1
9 7 109 763 49 11881 110.8
10 8 119 952 64 14161 125.5
11 9 149 1341 81 22201 140.2
12 9 145 1305 81 21025 140.2
13 10 154 1540 100 23716 154.9
14 10 166 1660 100 27556 154.9
15 11 162 1782 121 26244 169.6
16 11 174 1914 121 30276 169.6
17 12 180 2160 144 32400 184.3
18 12 176 2112 144 30976 184.3
Total 130 2053 17902 1148 279973
Reemplazando en las formulas, tenemos la ecuacin de regresin es: y* = 7.8597 + 14.704 x
Para graficar esta ecuacin se deben calcular todos los valores estimados (yi*), reemplazando en la
ecuacin los valores reales de x. Por ejemplo:
Para y1* y* = 7.8597 + 14.704 (x1) = y* = 7.8597 + 14.704 (1) = 22.6

P g i n a | 165
200
180
160
140
120
Tiempo 100
80
60
40
20
0
0 3 6 9 12 15
Nmero de defectuosos por lote
c) Si un lote cuenta con 14 circuitos defectuosos, entonces el tiempo de reparacin ser de 213.7 minutos.
y* = 7.8597 + 14.704 (14) = 213.7 min
d) Para calcular el coeficiente de correlacin reemplazamos los valores en la siguiente frmula:
n x i y i x i y i
r 0.993
n x x i n y y i
2 2 2 2
i i
Por lo tanto existe una asociacin directa significativa entre el nmero de defectuosos y el tiempo de
reparacin., es decir, a mayor nmero de defectuosos se tendr mayor tiempo de reparacin.
2 2 2
e) R = (coeficiente de correlacin) x 100 = (0.993) x 100 = 98.7%
El tiempo de reparacin est siendo explicada en un 98.7% por el nmero de defectuosos; por lo tanto
la ecuacin de regresin da una buena estimacin.
Contrastes de Significacin
Del modelo: H0: 0=1=0, Ha: al menos uno de ellos es diferente de cero.
Se utiliza la prueba F, cuya frmula es la siguiente:
R2
Fc k 12
1 R
nk

P g i n a | 166
donde: n = nmero de observaciones

k = nmero de parmetros en el modelo.
k-1 = grados de libertad del numerador
n-k = grados de libertad del denominador
Comparar con el valor de la distribucin F de la tabla, Ft Fk1,n k , si Fc > Ft se rechaza H0
De 1: H0: 1=0, Ha: 1 0.
Para probar la significancia de 1 se utiliza la prueba t, cuya frmula es la siguiente:
1 1 1
tc , tc
1

1
en el caso se desconozcan algunos valores, se calcula con la siguiente frmula: t c Fc
Luego comparar con el valor de la distribucin t de la tabla, tt t n2 , si tc > tt se rechaza H0

Se determina el intervalo de confianza para el parmetro 1:
1 t n2 1 1 t n2
1 1

P g i n a | 167
CASO: CIRCUITOS S.A

Una compaa que fabrica circuitos electrnicos aplica un riguroso control de calidad. La produccin se
lanza por lotes de 100 circuitos y luego se prueba cada circuito. Los circuitos defectuosos son
inmediatamente reparados. Para poder predecir adecuadamente esta labor es importante poder predecir el
tiempo requerido por este servicio. La empresa dispone de los siguientes datos.
Nmero de defectuosos Tiempo de reparacin

por lote en minutos
1 23
2 29
3 49
4 64
4 74
5 87
6 96
6 97
7 109
8 119
9 149
9 145
10 154
10 166
11 162
11 174
12 180
12 176
Explique cmo el anlisis de regresin puede ayudar en este caso

P g i n a | 168
REGRESIN LINEAL MLTIPLE
El anlisis de regresin mltiple es el estudio de la forma en que una variable dependiente, , se relaciona
con dos o ms variables independientes. En el caso general emplearemos p para representar la cantidad de
variables independientes.
Los conceptos de un modelo de regresin y una ecuacin de regresin que presentamos en el tema anterior
se pueden aplicar al caso de la regresin mltiple. La ecuacin que describe la forma en que la variable
dependiente, , se relaciona con las variables independientes 1, 2 ,...,p y un trmino de error se llama
modelo de regresin. El modelo de regresin mltiple tiene la forma siguiente:
y 0 1 x1 2 x2 ... p x p
La ecuacin estimada de regresin mltiple:
y 0 1 x1 2 x2 ... p x p
Forma General de resultados presentado por MS Excel
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple R

2
Coeficiente de determinacin R^2 R
2
R^2 ajustado R ajust.
Error tpico Se
Observaciones n
ANLISIS DE VARIANZA H0: 0=1=...=p=0
Grados de Suma de Promedio de los Valor crtico de

F
libertad cuadrados cuadrados F
Regresin p SSR MSR = SSR / p MSR / MSE Probabilidad
MSE = SSE / (n p
Residuos np1 SSE 1)
Total n1 SST

P g i n a | 169
Estadstic
Error o
Coeficiente Probabilid
s tpico T ad Inferior 95% Superior 95%
Intercepcin 0 0 t0 p0 0 t nk 0
0 t nk 0
Variable
Independiente 1 1 1 t1 p1 1 t nk 1
1 t nk 1
Variable
Independiente 2 2 2 t2 p2 2 t nk 2
2 tnk 2
.... ... ... ... ... ... ...
Variable
Independiente k p p tp pp
p tnk p
p tnk p
n = n de observaciones;
k = n de parmetros,
p = n de variables independientes
SSR y i y
2
Suma de cuadrados debida a la regresin =
Suma de cuadrados debida al error = SSE yi y i

2

Suma de total de cuadrados = SST yi y 2
Ejemplo: Volumen de madera.
En ingeniera forestal existe la necesidad evidente de poder predecir el volumen de madera disponible de un
tronco de un rbol todava en pie. El mtodo ms sencillo consiste en medir el dimetro cerca del suelo y la
altura del tronco y estimar el volumen utilizando estas dos cantidades. En la tabla estn los datos de un
experimento realizado en un parque nacional donde se midi con cuidado el volumen despus de cortar el
tronco de (v: volumen, d: dimetro y a: altura)
Tronco 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Altura 21.3 19.8 19.2 21.9 24.7 25.3 20.1 22.9 24.4 22.9 24.1 23.2 23.2 21.0 22.9
Dimetr
o 0.21 0.22 0.22 0.27 0.27 0.27 0.28 0.28 0.28 0.28 0.29 0.29 0.29 0.30 0.30
Volume 0.29 0.29 0.28 0.46 0.53 0.55 0.44 0.51 0.64 0.56 0.68 0.59 0.60 0.60 0.54
n 2 2 9 4 2 8 2 5 0 4 5 5 6 3 1
Tronco 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 3
Altura 22.6 25.9 26.2 21.6 19.5 23.8 24.4 22.6 21.9 23.5 24.7 25.0 24.4 24.4 24.4 26

P g i n a | 170
Dimetro 0.33 0.33 0.34 0.35 0.35 0.36 0.36 0.37 0.41 0.41 0.44 0.44 0.45 0.46 0.46 0.
Volumen 0.629 0.957 0.776 0.728 0.705 0.977 0.898 1.028 1.085 1.206 1.569 1.577 1.651 1.458 1.444 2.1
Realizar el anlisis de regresin lineal del volumen (y) sobre la altura (x1) y el dimetro (x2)
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0.9711

Coeficiente de determinacin R^2 0.9431
R^2 ajustado 0.9390
Error tpico 0.1149
Observaciones 31
ANLISIS DE VARIANZA H0: 0=1=2=0
Grados de Suma de Promedio de los Valor crtico

F
libertad cuadrados cuadrados de F
Regresin 2 6.1275 3.0637 231.9268 0.0000

Residuos 28 0.3699 0.0132
Total 30 6.4973
Error Estadstico Inferior Superior

Coeficientes Probabilidad
tpico t 95% 95%
Intercepcin -1.6638 0.2545 -6.5379 0.0000 -2.1851 -1.1425

Altura 0.0329 0.0125 2.6226 0.0140 0.0072 0.0586
Dimetro 5.2181 0.3071 16.9902 0.0000 4.5890 5.8472
La ecuacin estimada de regresin mltiple:
y 1.6638 0.0329x 1 5.2181x 2
El coeficiente de correlacin mltiple (r = 0.9711) indica que existe una asociacin directa significativa entre
el volumen sobre la altura y el dimetro. Es decir, a mayor altura y dimetro se tendr mayor volumen.
2
El coeficiente de determinacin (r = 0.9431), indica que el volumen est siendo explicado en un 94.31% por
la altura y el dimetro.

P g i n a | 171
BIBLIOGRAFA
ANDERSON, David R./ SWEENEY, Dennis J./ WILLIAMS, Thomas A. (2004): Estadstica para
Administracin y Economa. Mxico. Editorial Internacional THOMSON. Octava edicin.
CORDOVA M. (2005). Estadstica: Descriptiva e Inferencial. Per. MOSHERA S.R.L.
DEVORE, J. (1998). Probabilidad y estadstica para ingeniera y ciencias. Mxico. International
Thomson Editores.
MASON R., LIND D., MARCHAL W. (2003). Estadstica para administracin y economa. Mxico.
Alfaomega Grupo Editor.
MENDENHALL W., TERRY S. (1997). Probabilidad y estadstica para ingeniera y ciencias. Mxico.
Prentice Hall Hispanoamericana.
WALPOLE R., MYERS R., MYERS. S. (1999). Probabilidad y estadstica para ingenieros. Mxico.
Prentice Hall Hispanoamericana

Guia Del Curso Estadistica PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guia Del Curso Estadistica PDF

Cargado por

Copyright:

Formatos disponibles

Estadstica

Lic. Jessica Oliva Gastulo

Chiclayo, Agosto 2012

ETIMOLOGA DE LA PALABRA ESTADSTICA

STATUS (latn), que significa situacin, posicin, estado.

DEFINICIN: La estadstica es una ciencia o mtodo cientfico que en la actualidad es considerada

Estadstica J. Oliva R. Romero

Una de las ramas de la Estadstica ms accesible a la mayora de la poblacin es la Descriptiva. Esta

Seleccin de caracteres dignos de ser estudiados.

Elaboracin de tablas de frecuencias, mediante la adecuada clasificacin de los individuos dentro

Representacin grfica de los resultados (elaboracin de grficos estadsticos).

ESTADSTICA INFERENCIAL: Es aquella rama de la estadstica que apoyndose en el clculo de

Estadstica J. Oliva R. Romero

Los requerimientos de los mtodos de la inferencia estadstica se originan de la necesidad del

La estadstica inferencial complementa a la descriptiva y a travs de ella se puede inferir el

Estadstica J. Oliva R. Romero

LA ESTADSTICA EN NUESTROS DAS

La caracterstica ms trascendental del reciente avance de la estadstica ha sido el cambio de los

Estadstica J. Oliva R. Romero

La estadstica descriptiva es una rama importante de la estadstica y se siguen empleando ampliamente

En realidad, uno de los problemas bsicos de la inferencia estadstica es el de la apreciacin de los

Estadstica J. Oliva R. Romero

MUESTRA: La muestra es un subconjunto de la poblacin, seleccionado de tal forma, que sea

La muestra es el elemento bsico sobre el cual se fundamenta la posterior inferencia acerca de la

MUESTREO: Es el procedimiento mediante el cual se obtiene una o ms muestras de una poblacin

Estadstica J. Oliva R. Romero

Muestreo no Probabilstico: Es aquel en el cual se toma la muestra segn el criterio del

Ejemplo: La media Aritmtica = (mu), La desviacin Tpica = , (Sigma) etctera.

ESTADGRAFOS (Estadsticos o Estimadores).- Son aquellas caractersticas medibles, cuya medicin se

Ejemplos: la media aritmtica = X , La desviacin Tpica = S.

Estadstica J. Oliva R. Romero

Cualitativa o de Atributos: Cuando expresan una cualidad, caracterstica o atributo, tienen un

Cuantitativa o Numrica: Cuando el valor de la variable se expresa por una cantidad, es de

Ejemplos: Nmero de hijos, kilmetros recorridos, tiempo de vuelo, la velocidad de las

Las variables cuantitativas se pueden clasificar a su vez en discretas o continuas.

Cuantitativas Discretas: cuando el valor de la variable resulta de la operacin de contar, su

Ejemplos: cantidad de materias aprobadas, nmero hijos, nmero de computadoras, etc.

Cuantitativas Continuas: cuando la variable es susceptible de medirse, es toda variable cuyo

ESCALAS DE MEDICIN DE LAS VARIABLES

Estadstica J. Oliva R. Romero

Propiedades de la escala Nominal

1. No intervienen mediciones, ni escala, en vez de esto solo hay cuentas o conteos.

Estadstica J. Oliva R. Romero

Una muestra de personas puede clasificarse con base en la religin profesada:

El tipo de operacin estadstica ms utilizada en la escala nominal es el conteo de las frecuencias

Propiedades de la escala Ordinal

1. Las observaciones o elementos se les ordena en rangos o categoras diferentes.

Estadstica J. Oliva R. Romero

La escala de intervalos posee adems, de las caractersticas de la escala nominal y ordinal, la

Propiedades de la escala de Intervalo:

1. Esta escala implica la cuantificacin de los datos

Estadstica J. Oliva R. Romero

La distancia entre dos valores de la escala es conocida en el sentido cuantitativo y su razn es

Propiedades de la escala a razn:

1. La distancia entre los nmeros es un tamao conocido y constante.

Ejemplo de escala a razn:

Nmero de televisores vendidos en el ltimo trimestre del ao 2007

Estadstica J. Oliva R. Romero

Informacin que se recoge especficamente para un proyecto concreto de investigacin de mercado,

Ejemplos: Encuestas, censos, elementos o sujetos.

EL PAPEL DE LOS DATOS SECUNDARIOS.

El primer paso en el proceso de recoleccin de datos es determinar si stos ya existen.