Está en la página 1de 48

UNIDAD I.

Que es Investigacin estadstica.


La investigacin estadstica es una actividad que apela a diversas tcnicas con
el propsito de llegar a la esencia de la realidad.
El proceso de la investigacin estadstica implica una serie de pasos; pues
lanzarse a investigar sin un criterio previo o preparacin adecuada puede
demandar ms tiempo del programado.
La formulacin del problema es el paso inicial del procedimiento de
investigacin que se extender por una serie de cursos hasta encontrar
respuestas al problema planteado. Es esencial un correcto planteamiento o
formulacin del problema ello establece los lmites de tiempo y espacio
parmetros en los que se efectuara la investigacin en consecuencia las
probabilidades del investigador a no extraviarse tiende a ser mayor.
Ninguna investigacin parte de cero para ello se debe informarse sobre el tema
a estudiar. Esto lleva al investigador a una bsqueda de referencias, consultas
bibliogrficas, recopilacin documental (informes realizados que nos
proporcionan informacin, datos o cifras). Esto es lo que se denomina la fase
exploratoria que tiene como fin la familiarizacin e interiorizacin entre el
investigador y el mbito que es objeto de investigacin.
TIPO DE INVESTIGACION
Se refiere al mtodo utilizado para conformar y obtener los datos primarios con
los que se elaboran las estadsticas.
DIRECTORIOS.
Contempla un conjunto de variables y/o datos objetos de estudio, que son
elaborados y actualizados peridicamente con la finalidad de ser utilizados en
la elaboracin de las operaciones estadsticas.
MARCOS MUESTRALES.
Es la estructura (en muchos casos es un listado) donde se concentran todos
los elementos de estudio, que servirn de base para la seleccin de muestras a
travs de la aplicacin de tcnicas de muestreo. El marco muestral es un
instrumento construido en la etapa de diseo de la investigacin estadstica.
Los Directorios y los Marcos Muestrales son mejor conocidas como
Estadsticas de Infraestructura porque sirven de insumo para la elaboracin
de posteriores operaciones estadsticas.
ESTADSTICAS PRIMARIAS.
Su idea principal se refiere a Estadsticas Bsicas. Contiene a las estadsticas
que se obtienen a travs de la formulacin, diseo y ejecucin de las
operaciones estadsticas de diferentes reas (social, econmico, ambiental,
etc.), y el organismo tiene potestad en la recogida directa de los datos.
Dentro de esta categora se incluye a las operaciones realizadas con base a
censos, investigaciones diseadas con tcnicas de muestreo (encuestas) y/o
registros administrativos:

CENSO.
Es la actividad que comprende el estudio de la totalidad de los elementos
(poblacin) que componen el suceso analizado para la obtencin de datos. Se
incluyen investigaciones en las que se obtienen datos mediante un listado o
enumeracin completa de diversas caractersticas de la poblacin en estudio.
Los Censos son el estudio en un momento determinado de todos los elementos
de un sector, comunidad o del total de la poblacin con fines estadsticos.
MUESTRA
Cuando se habla de muestra no se estudia toda la poblacin sino un fragmento
de ella, que contiene las caractersticas que se desean estudiar, su seleccin se
hace en forma aleatoria o probabilstica (aplicando tcnicas de muestreo) y
debe ser estadsticamente representativa de la poblacin.
Este tipo de investigacin tambin abarca a los casos de obtencin de datos a
travs de enumeracin por muestreo en datos administrativos.
REGISTRO ADMINISTRATIVO
A travs de los registros administrativos se obtienen datos de manera continua
de un suceso o actividad a medida que se va generando el mismo. Representa
la obtencin de datos de una fuente primaria. Aqu el formato administrativo
utilizado (registro / formulario) puede ser elaborado por el mismo Organismo
Responsable o por otras Instituciones.
ESTADSTICAS SECUNDARIAS
Por estadsticas secundarias se consideran todas las operaciones estadsticas
que generen resultados en funcin de indicadores / ndices, los datos son
provenientes de fuentes internas y/o externas del Organismo responsable.
Generalmente, tambin se les conoce como Estadsticas Derivadas (o de
sntesis): que parten de valores de varias estadsticas y mediante un
procedimiento tcnico de reelaboracin se obtienen otros resultados
(informacin) estadsticos diferentes.
RECOPILACIONES DE OTRAS FUENTES
Se refiere a la publicacin de resultados producidos a partir de otras
estadsticas, que no hayan sido objeto de reelaboracin o transformacin. Por
lo general no tienen formatos propios y no lo llena el personal del organismo,
en este caso es llenado por otra persona y solo se realizan presentaciones de
cuadros.
EL CONOCIMIENTO CIENTFICO: CARACTERSTICAS
A) OBJETIVO: independiente de opiniones o preferencias individuales,
imparciales y comprobables mediante rplica. Contraste intersubjetivo como
garante de la objetividad.
B) FCTICO: la experiencia como fuente de informacin y de respuesta a los
problemas.
Base emprica y experiencia.
C) RACIONAL: sistematizacin coherente de enunciados fundados y/o
contrastables, y logro de una teora o conjunto sistemtico y racional de ideas
sobre la realidad de que se trate.
D) CONTRASTABLE: fiabilidad por el conocimiento intersubjetivo.
E) SISTEMTICO: conocimiento ordenado, consistente y coherente en sus
elementos, totalidad interrelacionada e integrada en un sistema.
F) METDICO: fruto de una metodologa rigurosa.
G) COMUNICABLE: expresado en un lenguaje apropiado y preciso, en trminos
inequ-vocos y aceptados por la comunidad cientfica.
H) ANALTICO: seleccin de variables o cuestiones que "rompen" la unidad, la
complejidad y globalidad de los fenmenos humanos, actuando a distintos
niveles y con diversos grados de globalizacin. Seccionar la realidad.
CARACTERSTICAS DE LAS TEORAS
1) SISTEMA RELACIONAL de leyes que en mayor o menor grado tienden a ser
generales, necesarias y constantes, estando orientadas a describir, explicar y
predecir los fenmenos objeto de estudio.
2) DEDUCIBILIDAD: es posible deducir o derivar una serie de precisiones o
consecuencias de la teora.
3) CONTRASTABILIDAD: las consecuencias derivadas de la teora pueden
contrastarse con la realidad para ver si contradicen los hechos observados.
4) CONSISTENCIA: INTERNA: no pueden existir contradicciones entre las
explicaciones y predicciones que contiene una teora.
EXTERNA: no pueden entrar en contradiccin con otras teoras afines.
EL MTODO CIENTFICO
Consiste en formular cuestiones y/o problemas sobre la realidad de mundo y
de los hombres, con base en la observacin de la realidad y las teoras ya
existentes, en anticipar soluciones a estos problemas y en contrastarlos o
verificar con la misma realidad estas soluciones a los problemas, mediante la
observacin de los hechos que ofrezca, la clasificacin y el anlisis de los
mismos.
La investigacin es un proceso cclico con componentes deductivos e
inductivos.
Para ASIMOV el mtodo cientfico ideal consiste en:
1) Detectar la existencia de un problema
2) Separar y desechar los aspectos no esenciales
3) Reunir todos los datos posibles que incidan sobre el problema mediante la
observacin simple y experimental
4) Elaborar una generalizacin provisional que los describa de la manera ms
simple posible: un enunciado breve o una formulacin matemtica. Esto es una
hiptesis.
5) Con la hiptesis no se pueden predecir los resultados de experimentos no
realizados an. Ver con ellos si la hiptesis es vlida.
6) Si los experimentos funcionan, la hiptesis sale reforzada y puede
convertirse en una teora o en una ley natural.
Los Datos, Variables, Cualitativa, Cuantitativa, Discreto y Continuo.
En esta entrada se procura mostrar conceptos y diferencias entre una serie de
trminos bsicos para el anlisis estadstico.
Iniciando por los datos y sus tipos puede decirse que los datos son los valores
que adoptan las variables en cada caso particular, las variables no son ms
que aquello que estudiamos en cada individuo de la muestra, como por
ejemplo: estatura, edad, sexo, peso, antigedad en el puesto, etc. Ya habiendo
definido dato y variable, se pueden clasificar en dos grandes tipos segn lo que
se observe en ellos:
Cuantitativos: que se pueden expresar de forma numrica, los cuales a su
vez pueden ser de dos tipos: discretos: los cuales producen respuestas
numricas, pero en nmeros enteros, generalmente producto de un conteo, no
pueden tener valores intermedios en un rango, por ejemplo: nmero de
empleados o nmero de puestos que ha ocupado una persona en una
compaa, los cuales no pueden ser 450.3 empleados o 3 puestos y medio. El
otro tipo cuantitativo es el continuo: que si puede adoptar cualquier valor
numrico intermedio en un rango, generalmente producto de una medicin,
por ejemplo: edad de los empleados o sueldo de los ejecutivos, que puede ser
medido de manera precisa, como una edad de 38 aos, 6 meses y 18 das o un
sueldo de Q. 4,529.33.
Cualitativos: Tambin denominados como categricos por algunos autores, ya
que clasifican cada caso en una o varias categoras, como por ejemplo: Como
le parece la comida de la cafetera de la empresa? Que puede tener varias
categoras tales como: buena, regular y mala. En este grupo se encuentran
aquellos que producen respuestas con solo dos opciones probables como por
ejemplo: Tiene usted empleo actualmente? que solo admite s o no.

Presentacin de datos estadsticos.


La presentacin de datos estadsticos constituye en sus diferentes modalidades
uno de los aspectos de ms uso en la estadstica descriptiva. A partir podemos
visualizar a travs de los diferentes medios escritos y televisivos de
comunicacin masiva la presentacin de los datos estadsticos sobre el
comportamiento de las principales variables econmicas y sociales, nacionales
e internacionales.
1-Presentacin escrita: Esta forma de presentacin de informaciones se usa
cuando una serie de datos incluye pocos valores, por lo cual resulta ms
apropiada la palabra escrita como forma de escribir el comportamiento de los
datos; mediante la forma escrita, se resalta la importancia de las informaciones
principales.
2-Presentacin tabular: Cuando los datos estadsticos se presentan a travs de
un conjunto de filas y de columnas que responden a un ordenamiento lgico;
es de gran eso e importancia para el uso e importancia para el usuario ya que
constituye la forma ms exacta de presentar las informaciones. Una tabla
consta de varias partes, las principales son las siguientes:
Ttulo: Es la parte ms importante del cuadro y sirve para describir todo l
contenido de este.
Encabezados: Son los diferentes subttulos que se colocan en la parte superior
de cada columna.
Columna matriz: Es la columna principal del cuadro.
Cuerpo: El cuerpo contiene todas las informaciones numricas que aparecen en
la tabla.
Fuente: La fuente de los datos contenidos en la tabla indica la procedencia de
estos.
Notas al pie: Son usadas para hacer algunas aclaraciones sobre aspectos que
aparecen en la tabla o cuadro y que no han sido explicados en otras partes.
3-Presentacin grfica: Proporciona al lector o usuario mayor rapidez en la
comprensin de los datos, una grfica es una expresin artstica usada para
representar un conjunto de datos.
De acuerdo al tipo de variable que vamos a representar, las principales graficas
son las siguientes:
Histograma: Es un conjunto de barras o rectngulos unidos uno de otro, en
razn de que lo utilizamos para representar variables continuas.
Polgono de frecuencias: Esta grafica se usa para representar los puntos medios
de clase en una distribucin de frecuencias
Grfica de barras: Es un conjunto de rectngulos o barras separadas una de la
otra, en razn de que se usa para representar variables discretas; las barras
deben ser de igual base o ancho y separadas a igual distancia. Pueden
disponerse en forma vertical y horizontal.
Grfica lineal: Son usadas principalmente para representar datos clasificados
por cantidad o tiempo; o sea, se usan para representar series de tiempo o
cronolgicas.
Grfica de barra 100% y grfica circular: se usan especialmente para
representar las partes en que se divide una cantidad total.
La ojiva: Esta grafica consiste en la representacin de las frecuencias
acumuladas de una distribucin de frecuencias. Puede construirse de dos
maneras diferentes; sobre la base "menor que" o sobre la base "o ms". Puede
determinar el valor de la mediana de la distribucin.
En estadstica denominamos grficos a aquellas imgenes que, combinando la
utilizacin De sombreado, colores, puntos, lneas, smbolos, nmeros, texto y
un sistema De referencia (coordenadas), permiten presentar informacin
cuantitativa.
La utilidad De los grficos es doble, ya que pueden servir no slo como
sustituto a las tablas, sino que tambin constituyen por s mismos una
poderosa herramienta para el anlisis De los datos, siendo en ocasiones el
medio ms efectivo no slo para describir y resumir la informacin, sino
tambin para analizarla.
En este trabajo solo nos vamos a centrar nicamente en los grficos como
vehculo de presentacin de datos, sin abordar su otra faceta como
herramienta de anlisis.

Distribucin de frecuencia

Grficos estadsticos.
Los grficos son medios popularizados y a menudo los ms convenientes para
presentar datos, se emplean para tener una representacin visual de la
totalidad de la informacin. Los grficos estadsticos presentan los datos en
forma de dibujo de tal modo que se pueda percibir fcilmente los hechos
esenciales y compararlos con otros.

Grficos de barras horizontales


Representan valores discretos a base de trazos horizontales, aislados unos de
otros. Se utilizan cuando los textos correspondientes a cada categora son muy
extensos.
Para una serie
Para dos o ms series
Grficos de barras proporcionales.
Se usan cuando lo que se busca es resaltar la representacin de los
porcentajes de los datos que componen un total. Las barras pueden ser:
Verticales
Horizontales

UNIDAD II Y III.
Medidas descriptivas.
Las medidas descriptivas son valores numricos calculados a partir de la
muestra y que nos resumen la informacin contenida en ella.
Medidas de Posicin: Cuantiles.
Los cuantiles son valores de la distribucin que la dividen en partes iguales, es
decir, en intervalos, que comprenden el mismo nmero de valores. Los ms
usados son los cuartiles, los deciles y los percentiles.
PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto
de datos ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15%
de las observaciones, y por encima queda el 85%
CUARTILES: son los tres valores que dividen al conjunto de datos ordenados
en cuatro partes iguales, son un caso particular de los percentiles:
- El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte de
los datos
- El segundo cuartil Q 2 (la mediana), es el menor valor que es mayor que la
mitad de los datos
- El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas partes
de los datos
DECILES: son los nueve valores que dividen al conjunto de datos ordenados en
diez partes iguales, son tambin un caso particular de los percentiles.

Ejemplo: Dada la siguiente distribucin en el nmero de hijos (Xi) de cien


familias, calcular sus cuartiles.
Medidas de Centralizacin
Nos dan un centro de la distribucin de frecuencias, es un valor que se puede
tomar como representativo de todos los datos. Hay diferentes modos para
definir el "centro" de las observaciones en un conjunto de datos. Por orden de
importancia, son:
MEDIA: (media aritmtica o simplemente media). Es el promedio aritmtico de
las observaciones, es decir, el cociente entre la suma de todos los datos y el
nmero de ellos. Si xi es el valor de la variable y ni su frecuencia, tenemos que:
MEDIANA (Me): es
el valor que separa por la
mitad las observaciones ordenadas de menor a mayor, de tal forma que el 50%
de estas son menores que la mediana y el otro 50% son mayores. Si el nmero
de datos es impar la mediana
ser el valor central, si es par
tomaremos como mediana la
media aritmtica de los
dos valores centrales.

MODA (M0): es el valor de la variable que ms veces se repite, es decir,


aquella cuya frecuencia absoluta es mayor. No tiene por qu ser nica.

Medidas de Dispersin
Las medidas de tendencia central tienen como objetivo el sintetizar los datos
en un valor representativo, las medidas de dispersin nos dicen hasta qu
punto estas medidas de tendencia central son representativas como sntesis de
la informacin. Las medidas de dispersin cuantifican la separacin, la
dispersin, la variabilidad de los valores de la distribucin respecto al valor
central. Distinguimos entre medidas de dispersin absolutas, que no son
comparables entre diferentes muestras y las relativas que nos permitirn
comparar varias muestras.

MEDIDAS DE DISPERSIN ABSOLUTAS.


VARIANZA (s2): es el promedio del cuadrado de las distancias entre cada
observacin y la media aritmtica del conjunto de observaciones.

DESVIACIN TPICA (S): La varianza viene dada por las mismas unidades
que la variable pero al cuadrado, para evitar este problema podemos usar
como medida de dispersin la desviacin tpica que se define como la raz
cuadrada positiva de la varianza

Para estimar la desviacin tpica de una poblacin a partir de los datos de una
muestra se utiliza la frmula (cuasi desviacin tpica):

RECORRIDO O RANGO MUESTRAL (Re). Es la diferencia entre el valor de las


observaciones mayor y el menor. Re = xmax xmin.

RANGO: La formula del rando es R=valor maximo valor minimo, se ubica


dentro de los datos el valor maximo y el valor minimo, ambos valores se
restan. R=20-13=7. R=7
UNIDAD IV.
Introduccin a la Probabilidad.
En la vida cotidiana aparecen muchas situaciones en las que los resultados
observados son diferentes aunque las condiciones iniciales en las que se
produce la experiencia sean las mismas. Por ejemplo, al lanzar una moneda
unas veces resultar cara y otras cruz.. Estos fenmenos, denominados
aleatorios, se ven afectados por la incertidumbre.
En el lenguaje habitual, frases como "probablemente...", "es poco probable
que...", "hay muchas posibilidades de que..." hacen referencia a esta
incertidumbre.
La teora de la probabilidad pretende ser una herramienta para modelizar y
tratar con situaciones de este tipo; Por otra parte, cuando aplicamos las
tcnicas estadsticas a la recogida, anlisis e interpretacin de los datos, la
teora de la probabilidad proporciona una base para evaluar la fiabilidad de las
conclusiones alcanzadas y las inferencias realizadas. Debido al importante
papel desempeado por la probabilidad dentro de la estadstica, es necesario
familiarizarse con sus elementos bsicos, lo que constituye el objetivo del
presente tema.
Comenzamos con una motivacin sobre la incertidumbre y los distintos grados
de incertidumbre, relacionndolos de manera intuitiva con los enfoques ms
tradicionales para asignar probabilidades. Posteriormente, se introduce el
sentido de la probabilidad en trminos de experimentos aleatorios, espacio
muestral, sucesos, etc. , llegando a la formalizacin axiomtica de la
probabilidad y sus principales propiedades, junto con las expresiones de la
probabilidad condicionada y los teoremas de la probabilidad compuesta o del
producto, de la probabilidad total y de Bayes.
EXPERIMENTO Y ESPACIO MUETRAL
Experimento: es como cualquier proceso que pueda generar uno de un
conjunto de resultados bien definidos. Ejemplo: lanzar una moneda.
Espacio muetral: es el conjunto de todos los resultados que pueda suceder.
Ejemplo: cara o cruz
La probabilidad de un resultado experimental es resultado posible que ocurra.
Se deben satisfacer dos requerimientos de probabilidad:
1. Los valores de las probabilidades asignados. (0<=P(Ei) <=1)
2. La suma de los posibles resultados experimentales debe ser 1 .(P(Ei)
+P(E2)+.P(EK)=1)

PRINCIPIO FUNDAMENTAL DE CONTEO.


Si un evento A puede ocurrir de n1 maneras, y una vez que este ha ocurrido,
otro evento B puede ocurrir de n2 maneras diferentes, entonces el nmero
total de formas diferentes en que ambos eventos pueden ocurrir en el orden
indicado, es igual a n1 x n2.
De cuntas maneras pueden repartirse 3 premios a un conjunto de 10
personas, suponiendo que cada persona no puede obtener ms de un premio?
Aplicando el principio fundamental del conteo, tenemos 10 personas que
pueden recibir el primer premio. Una vez que ste ha sido entregado, restan 9
personas para recibir el segundo, y posteriormente quedarn 8 personas para
el tercer premio. De ah que el nmero de maneras distintas de repartir los tres
premios.
n1
x n2
x n3
10 x 9 x 8 = 720
Cuntas placas de automvil se pueden hacer utilizando dos letras seguidas
de tres cifras? No se admiten repeticiones.
26 x 25 x 10 x 9 x 8 = 468000
El smbolo ! se lee factorial y es el producto resultante de todos los enteros
positivos de 1 a n; es decir, sea n un nmero entero positivo, el producto n
(n-1) (n-2)3 x 2 x 1 se llama factorial de n.
n! = n
(n-1 ) (n -2 )3 x 2 x 1
5! = 5 x 4 x 3 x 2 x 1 = 120
Por definicin 0! = 1
PERMUTACIONES.
Una permutacin de un conjunto de elementos, es un ordenamiento especfico
de todos o algunos elementos del conjunto, facilita el recuento de las
ordenaciones diferentes que pueden hacerse con los elementos del conjunto.
Nota: En una permutacin el orden en que se disponen los elementos del
conjunto es importante.
PERMUTACIONES DE n ELEMENTOS.
Por el principio fundamental del conteo podemos enunciar que el nmero de
permutaciones de n objetos distintos tomados de n en n, es:
nPn= n!
Se quiere conocer el conjunto de todas las disposiciones posibles de tres
personas colocadas en hilera para tomar una fotografa.
3P3 = 3! = 6
Cinco personas desean nombrar un Comit Directivo compuesto de un
presidente, un vicepresidente, un secretario, un tesorero y un vocal. Cuntas
maneras hay de constituir el comit?
5P5 = 5! = 120
Hay seis banderas de distintos colores. Cuntas seales diferentes se pueden
enviar usando las seis banderas al mismo tiempo?
6P6 = 6! = 720
PERMUTACIONES DE n ELEMENTOS EN DIFERENTES GRUPOS DE r
ELEMENTOS.
Podemos calcular el nmero de permutaciones nPr, de n elementos, tomados
en grupos o subconjuntos de r elementos.
Si de un estante tomamos 2 de 3 libros Cuntas permutaciones pueden
realizarse?
Cuntas ternas pueden formarse con las 26 letras del alfabeto, si cada letra
slo puede utilizarse una sola vez?

Cinco personas entran a una sala en la que hay 8 sillas. De cuntas maneras
diferentes pueden ocupar las sillas?

PERMUTACIONES DONDE NO TODOS LOS ELEMENTOS SON


DIFERENTES.
Si los elementos de un conjunto no son todos diferentes entre s, es decir,
algunos de los elementos son idnticos, la frmula de las permutaciones
presenta un nuevo aspecto.
El nmero de permutaciones que se pueden formar en el caso de n elementos,
cuando hay n1elementos idnticos, n2 elementos de otro tipo idnticos,
etctera, es:

Definicin axiomtica de Probabilidad.


Un experimento se dice aleatorio si es posible conocer previamente todos los
posibles resultados asociados al experimento, si es imposible predecir el
resultado del mismo antes de realizarlo y si es posible repetirlo bajo las mismas
condiciones iniciales un nmero ilimitado de veces. Un ejemplo de experimento
aleatorio puede ser el lanzamiento de una moneda. Si disponemos de una
moneda (sin ningn tipo de sesgo) tenemos un espacio muestral definido por
dos casos posibles: Cara o Cruz. El espacio muestral matemticamente se
denota as = {"Cara", "Cruz"}. Si lanzamos la moneda n veces y se obtienen
nc caras, la frecuencia relativa del suceso C es:
fc = nc / n
Si esta experiencia la realizan varias personas, las frecuencias relativas
obtenidas no coinciden, pero oscilan alrededor de un nmero fijo. En el siglo
XVIII Buffon repiti el experimento del lanzamiento de una moneda 4.040 veces
y obtuvo una frecuencia de sucesos de cara fc = 0,5069. En el siglo XX Pearson
realiz el mismo experimento 24.000 veces, obteniendo un frecuencia de fc =
0,5005. Las probabilidades se ajustan a fc = 0,5, el lmite cuando se realiza
infinitas repeticiones del lanzamiento. Observamos que si se realiza un gran
nmero de repeticiones, las frecuencias relativas de aparicin de los sucesos
presentan regularidad estadstica (sta es la base emprica de la Teoria de la
Probabilidad).

Aunque la estabilidad de las frecuencias relativas y el valor alrededor del cual


oscilan slo se pueden determinar experimentalmente, parece que este
nmero puede darse como una medida de la posibilidad de ocurrencia de un
suceso, por lo que llamaremos "probabilidad" de tal suceso. As que obtenemos
como probabilidad de un determinado suceso el nmero en torno al cual oscila
su frecuencia relativa f, es decir, el valor lmite de f al repetir un nmero
infinito de veces un experimento.

La probabilidad es un valor, independiente del observador, que indica


aproximadamente con qu frecuencia se producir el suceso considerado en el
transcurso de una larga serie de pruebas. A principios del siglo XX, se realiz
una profunda revisin del concepto de probabilidad usando las herramientas
ms precisas del momento:
La teora de conjuntos (Borel)
La teora de la medida (Lebesgue)
La probabilidad pasa a entenderse como una medida de la incertidumbre, con
propiedades similares a las medidas de longitud, tiempo,...

Las propiedades de la probabilidad pueden estudiarse a partir de las


propiedades de la frecuencia relativa.
Si al repetir un experimento n veces, el suceso A se produce k veces:
0 k n => 0 k/n 1 => 0 fA 1
fA es un nmero comprendido entre 0 y 1, por lo que tambin deber serlo la
probabilidad de A
Si un suceso A ocurre siempre (sea cual sea el resultado del experimento), fA
ser 1. Si el suceso A no ocurre nunca (cualquiera que sea el resultado), fA ser
cero. Por tanto, la probabilidad del suceso seguro debe ser 1 y la del suceso
imposible 0.
Si tomamos dos sucesos posibles A y B, mutuamente excluyentes, y se
presentan, respectivamente, nA y nB veces al repetir la prueba n veces, el
suceso unin de ambos se habr producido nA + nB veces, por lo que:
fAUB = fA + fB
Por tanto, la probabilidad del suceso unin de dos sucesos incompatibles debe
ser la suma de las probabilidades de los sucesos individuales.
La axiomtica de Kolmogorov (1933) viene dada por los siguientes tres
axiomas:
Axioma 1: A todo suceso A le corresponde un nico nmero no negativo, P(A),
al que llamaremos probabilidad de A
Axioma 2: La probabilidad del suceso seguro es 1
Axioma 3: Sean A y B dos sucesos tales que la interseccin entre ambos es 0.
Entonces: P(AUB) = P(A) + P(B)
EVENTOS INDEPENDIENTES.
Algunas situaciones de probabilidad implican ms de un evento. Cuando los
eventos no se afectan entre s, se les conoce como eventos independientes.
Los eventos independientes pueden incluir la repeticin de una accin como
lanzar un dado ms de una vez, o usar dos elementos aleatorios diferentes,
como lanzar una moneda y girar una ruleta. Muchas otras situaciones tambin
pueden incluir eventos independientes. Para calcular correctamente las
probabilidades, necesitamos saber si un evento influye en el resultado de otros
eventos.
La principal caracterstica de una situacin con eventos independientes es que
el estado original de la situacin no cambia cuando ocurre un evento. Existen

dos maneras de que esto suceda:


Aqu hay ejemplos de cada caso:

Examinemos el segundo ejemplo. En el primer intento, la probabilidad de sacar


una canica roja es, porque hay 5 canicas y 2 de ellas son rojas. Si volvemos a
poner la canica roja dentro de la bolsa, la probabilidad de sacar una canica roja
en un segundo experimento sigue siendo, y eso significa que los dos eventos

son independientes. El resultado de un experimento no afecta el resultado del


otro.

Pero, qu hubiera pasado si no pones la primera canica de nuevo en la bolsa?


La probabilidad de sacar una canica roja ser diferente para el segundo
intento. Si una canica roja es eliminada, en el segundo intento la probabilidad
ser ahora de porque slo quedan 4 canicas y una es roja.
Ahora veamos el primer ejemplo. Supongamos que el dado se lanz 15 veces
sin sacar un 6. En el siguiente lanzamiento, es la probabilidad de sacar un
igual a, o es mayor? Algunas personas creen que en el siguiente lanzamiento
es ms probable que les salga un 6 porque "Ya me toca un 6!" el dado no
puede recordar qu fue lo que sac antes. Si bien es un poco inusual tirar un
dado 16 veces sin sacar un 6, la probabilidad de sacar un 6 en 15 tiradas ha
sido la misma en cualquiera de las tiradas.
Probabilidad de Eventos Independientes.
Veamos el espacio muestral y el espacio de eventos de los ejemplos de la
seccin anterior.
Lanzas un dado dos veces. Cul es la probabilidad de sacar un 6 en el
segundo tiro pero no en el primero?
En este ejemplo, el dado es lanzado dos veces.

Existen 6 resultados posibles para el primer tiro, y para cada uno de ellos, hay
6 resultados posibles para el segundo tiro. Hay 6 6, o 36, resultados posibles:
Espacio muestral: {(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4),
(2,5), (2,6), (3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5),
(4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)}
El espacio muestral consiste en todos los resultados para los cuales el primero
tiro no fue 6, y el segundo tiro fue 6. Para el primer lanzamiento existan 5
resultados posibles que no son 6. Para cada uno de ellos, exista slo un posible
resultado que era 6. Entonces hay 5 1 o 5 resultados en el espacio de
eventos:
Espacio de eventos: {(1,6), (2,6), (3,6), (4,6), (5,6)}
Nota que el tamao del espacio muestral para ambos lanzamientos es el
producto del tamao del espacio muestral para cada lanzamiento. De manera
similar, el tamao del espacio de eventos par dos lanzamientos es el producto
del tamao de los espacios de eventos de cada lanzamiento.
Veamos el escenario 2:
Sacas una canica de una bolsa que contiene 2 canicas rojas, 2 blancas, y una
verde. Anotas el color, regresas la canica a la bolsa, y sacas otra canica. Cul
es la probabilidad de sacar canica roja ambas veces?
Para ayudarnos a recordar que hay dos canicas rojas, las nombraremos R1 y
R2. Haremos lo mismo con las canicas blancas, W1 y W2.

El espacio muestral para la primera sacada tiene 5 resultados, {rojo, rojo,


blanco, blanco, verde}. Como la primera canica es devuelta a la bolsa, le
espacio muestral para la segunda sacada es el mismo. Por cada opcin de la
primera sacada, hay 5 opciones para la segunda, Existen 5 5 o 25 resultados
posibles:
Espacio muestral: {(R1,R1), (R1,R2), (R1,W1), (R1,W2), (R1,G), (R2,R1),
(R2,R2), (R2,W1), (R2,W2), (R2,G), (W1,R1), (W1,R2), (W1,W1), (W1,W2),
(W1,G), (W2,R1), (W2,R2), (W2,W1), (W2,W2), (W2,G), (G,R1), (G,R2), (G,W1),
(G,W2), (G,G)}
El espacio de eventos para la primera sacada consiste en las dos canicas rojas.
Para cada una de ellas, hay dos canicas rojas que pueden escoger en la
segunda sacada. Existen 2 2 o 4 resultados en el espacio de eventos:
Espacio de eventos: {(R1, R1), (R1, R2), (R2, R1), (R2, R2)}
De nuevo, nota que el tamao del espacio muestral para las dos sacadas es el
producto del tamao de los espacios muestrales de cada sacada. De manera
similar, le tamao del espacio de eventos para las sacadas combinadas es
igual al producto del tamao de los espacios de eventos de cada sacada.
Ahora, veamos las probabilidades para las tres situaciones, usando la razn
del tamao del espacio de eventos con el tamao del espacio muestral:

Podemos derivar la frmula a partir de estos datos. Como el espacio de


eventos para una situacin puede calcularse multiplicando los espacios de
eventos de cada evento independiente, y el espacio muestral de la situacin
puede encontrarse multiplicando los espacios muestrales de cada evento
independiente, tenemos:

Esto es vlido para todas las situaciones con eventos independientes. Tambin
puede extenderse a ms de dos eventos.
Teorema de Bayes.
El teorema de Bayes, en la teora de la probabilidad, es una proposicin
planteada por el filsofo ingls Thomas Bayes (1702-1761)1 en 1763,2 que
expresa la probabilidad condicional de un evento aleatorio A dado B en
trminos de la distribucin de probabilidad condicional del evento B dado A y la
distribucin de probabilidad marginal de slo A.
En trminos ms generales y menos matemticos, el teorema de Bayes es de
enorme relevancia puesto que vincula la probabilidad de A dado B con la
probabilidad de B dado A. Es decir, por ejemplo, que sabiendo la probabilidad
de tener un dolor de cabeza dado que se tiene gripe, se podra saber (si se
tiene algn dato ms), la probabilidad de tener gripe si se tiene un dolor de
cabeza. Muestra este sencillo ejemplo la alta relevancia del teorema en
cuestin para la ciencia en todas sus ramas, puesto que tiene vinculacin
ntima con la comprensin de la probabilidad de aspectos causales dados los
efectos observados.

Frmula de Bayes.
Con base en la definicin de Probabilidad condicionada se obtiene la Frmula
de Bayes, tambin conocida como la Regla de Bayes:

EJEMPLO 1 TEOREMA DE BAYES.


En la sala de pediatra de un hospital, el 60% de los pacientes son nias. De los
nios el 35% son menores de 24 meses. El 20% de las nias tienen menos de
24 meses. Un pediatra que ingresa a la sala selecciona un infante al azar.
a. Determine el valor de la probabilidad de que sea menor de 24 meses.
b. Si el infante resulta ser menor de 24 meses. Determine la probabilidad que
sea una nia.
SOLUCIN:
Se definen los sucesos:
Suceso H: seleccionar una nia.
Suceso V: seleccionar un nio.
Suceso M: infante menor de 24 meses.
En los ejercicios de probabilidad total y teorema de bayes, es importante
identificar los sucesos que forman la poblacin y cul es la caracterstica que
tienen en comn dichos sucesos. Estos sern los sucesos condicionados.
a. En este caso, la poblacin es de los infantes. Y la caracterstica en comn es
que sean menores de 24 meses. Por lo tanto, la probabilidad de seleccionar un
infante menor de 24 meses es un ejemplo de probabilidad total. Su
probabilidad ser:

b. Para identificar cuando en un ejercicio se hace referencia al teorema de


bayes, hay que partir de reconocer esta es una probabilidad condicionada y
que la caracterstica comn de los sucesos condicionantes ya ha ocurrido.
Entonces, la probabilidad de que sea nia una infante menor de 24 meses ser:
UNIDAD V.
DISTRIBUCIN DE PROBABILIDADES.
Una distribucin de probabilidad indica toda la gama de valores que pueden
representarse como resultado de un experimento si ste se llevase a cabo.
Es decir, describe la probabilidad de que un evento se realice en el futuro,
constituye una herramienta fundamental para la prospectiva, puesto que se
puede disear un escenario de acontecimientos futuros considerando las
tendencias actuales de diversos fenmenos naturales
Toda distribucin de probabilidad es generada por una variable (porque puede
tomar diferentes valores) aleatoria x (porque el valor tomado es totalmente al
azar), y puede ser de dos tipos:
VARIABLE ALEATORIA DISCRETA (x).
Porque solo puede tomar valores enteros y un nmero finito de ellos. Por
ejemplo:
X Variable que nos define el nmero de alumnos aprobados en la materia de
probabilidad en un grupo de 40 alumnos (1, 2 ,3 los 40).
PROPIEDADES DE UNA VARIABLE ALEATORIA DISCRETA (X)
p(xi)<1 Las probabilidades asociadas a cada uno de los valores que toma x
deben ser mayores o iguales a cero y menores o iguales a 1.
E p(xi) = 1 La sumatoria de las probabilidades asociadas a cada uno de los
valores que toma x debe ser igual a 1.
EJEMPLO:
Para variable aleatoria discreta
Tenemos una moneda que al lanzarla puede dar slo dos resultados: o cara
(50%), o cruz (50%). La siguiente tabla nos muestra los posibles resultados de
lanzar dos veces una moneda:

Al realizar la tabla de distribucin del nmero posible de caras que se obtiene


al lanzar una moneda dos veces, obtenemos:

VARIABLE ALEATORIA CONTINUA (x).


Porque puede tomar tanto valores enteros como fraccionarios y un nmero
infinito de ellos dentro de un mismo intervalo. Por ejemplo:
x es la Variable que nos define la concentracin en gramos de plata de algunas
muestras de mineral (14.8 gr, 12.1, 10.0, 42.3, 15.0, 18.4, 19.0, 21.0, 20.8, ,
n)
PROPIEDADES DE UNA VARIABLE ALEATORIA DISCRETA (X)
p(x) Las probabilidades asociadas a cada uno de los valores que toma x deben
ser mayores o iguales a cero. Dicho de otra forma, la funcin de densidad de
probabilidad deber tomar solo valores mayores o iguales a cero.
El rea definida bajo la funcin de densidad de probabilidad deber ser de 1.
ESPERANZA MATEMATICA O VALOR ESPERADO
El valor esperado de una Variable Aleatoria X es el promedio ponderado de
todos los valores posibles de la misma. DNode los pesos son las probabilidades
asociadas con los valores.
Para calcular el valor esperado de una variable aleatoria por su
correspondiente probabilidad y luego sumar los trminos resultante.
La esperanza matemtica o valor esperado de una variable aleatoria tiene sus
orgenes en los juegos de azar, debido a que los apostadores deseaban saber
cul era su esperanza de ganar repetidamente un juego, por lo tanto, el valor
esperado representa la cantidad de dinero promedio que el jugador est
dispuesto a ganar o perder despus de un nmero grande de apuestas.
E(x) = = E xf (x)

VARIANZA
Es un promedio ponderado de las de las desviaciones al cuadrado.
Varianza = E (x - ) f (x).

DISTRIBUCIN BINOMIAL
La distribucin Binomial es un caso particular de probabilidad de variable
aleatoria discreta, y por sus aplicaciones, es posiblemente la ms importante.
Esta distribucin corresponde a la realizacin de un experimento aleatorio que
cumple con las siguientes condiciones:
* Al realizar el experimento slo son posible dos resultados: el suceso A,
llamado xito, y el suceso B, llamado fracaso.
* Al repetir el experimento, el resultado obtenido es independiente de los
resultados obtenidos anteriormente.
* La probabilidad del suceso A es constante, es decir, no vara de una prueba
del experimento a otra.
* En cada experimento se realizan n pruebas idnticas.
Todo experimento que tenga estas caractersticas se dice que sigue el modelo
de la distribucin Binomial o distribucin de Bernoulli.
En general, si se tienen n ensayos Bernoulli con probabilidad de xito p y de
fracaso q, entonces la distribucin de probabilidad que la modela es la
distribucin de probabilidad binomial y su regla de correspondencia es:
Donde:
P(X)= es la probabilidad de ocurrencia del evento
p = es la probabilidad de xito del evento (en un intento)
q = es la probabilidad de fracaso del evento (en un intento) (se define como q
= 1 p)
X = ocurrencia del evento o xitos deseados
n = nmero de intentos
EJEMPLO:
Cul es la probabilidad de obtener exactamente 2 caras al lanzar una misma
moneda 6 veces?
Dnde:
P(X)= Probabilidad de que ocurra el evento
p = (0.5)
q = (se define como q = 1 p) (0.5)
X=2
n=6
Al sustituir los valores en la frmula obtenemos:

La posibilidad de obtener dos caras al lanzar una moneda 6 veces es de


0.234375
Como el clculo de estas probabilidades puede resultar algo tedioso se han
construido tablas para algunos valores de n y p que nos facilitan el trabajo (Ver
las tablas de la funcin de probabilidad Binomial).
Para una combinacin de n y p, la entrada indica una probabilidad de obtener
un valor especfico de r.
Para localizar la entrada, cuando p8804; 0.50, localice p a lo largo del
encabezado de la tabla, y en la columna correspondiente localice n y r en el
margen izquierdo; cuando p8805; 0.50, localice el valor de p en la parte inferior
de la tabla, y n y r arriba, en el margen derecho.
Tenemos p = 0.50, n = 6 y r = 2 obteniendo resultado directo de tablas
P (2 caras) = 0.2344

DISTRIBUCIN DE POISSON
La distribucin de POISSON es tambin un caso particular de probabilidad de
variable aleatoria discreta, el cual debe su nombre a Simon Denis Poisson
(1781-1840), un francs que la desarroll a partir de los estudios que realiz
durante la ltima etapa de su vida.
Es til cuando tratamos con cantidades de ocurrencia de un evento a lo largo
de un intervalo de tiempo o espacio especificado.
Esta distribucin se utiliza para describir ciertos procesos.
Caractersticas:
En este tipo de experimentos los xitos buscados son expresados por unidad
de rea, tiempo, pieza, etc:
- # de defectos de una tela por m2
- # de aviones que aterrizan en un aeropuerto por da, hora, minuto, etc.
- # de bacterias por cm2 de cultivo
- # de llamadas telefnicas a un conmutador por hora, minuto, etc, etc.
- # de llegadas de embarcaciones a un puerto por da, mes, etc, etc.
Para determinar la probabilidad de que ocurran x xitos por unidad de tiempo,
rea, o producto, la frmula a utilizar sera:

Donde:
p(X)= probabilidad de que ocurran x xitos, cuando el nmero promedio de
ocurrencia de ellos es /.
/= media o promedio de xitos por unidad de tiempo, rea o producto
e = 2.718 (base de logaritmo neperiano o natural)
X = variable que nos denota el nmero de xitos que se desea que ocurra
Hay que hacer notar que en esta distribucin el nmero de xitos que ocurren
por unidad de tiempo, rea o producto es totalmente al azar y que cada
intervalo de tiempo es independiente de otro intervalo dado, as como cada
rea es independiente de otra rea dada y cada producto es independiente de
otro producto dado.

EJEMPLO:
Si un banco recibe en promedio 6 cheques sin fondo por da, cules son las
probabilidades de que reciba, a) cuatro cheques sin fondo en un da dado, b)
10 cheques sin fondos en cualquiera de dos das consecutivos? (e=
2.718281828)
Resolviendo para:
a) x = 4; / = 6 cheques sin fondo por da
Comprobando (sustituyendo en la frmula):
Por lo tanto la probabilidad de que el banco reciba cuatro cheques sin fondo en
un da dado es de 0.133853 (13.39%)
Valores directos para determinar probabilidades de Poisson.
Para un valor dado de /, la entrada indica la probabilidad de obtener un valor
especfico de X

Para el

ejemplo, inciso a) que estamos viendo: Cul es la probabilidad de que el


banco reciba cuatro cheques sin fondo en un da dado?
Tenemos x = 4; / = 6 cheques sin fondo por da; obteniendo resultado directo
de tablas:
DISTRIBUCIN NORMAL
La distribucin normal es tambin un caso particular de probabilidad de
variable aleatoria continua, fue reconocida por primera vez por el francs
Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-
1855) elabor desarrollos ms profundos y formul la ecuacin de la curva; de
ah que tambin se le conozca, ms comnmente, como la "campana de
Gauss". La distribucin de una variable normal est completamente
determinada por dos parmetros, su media () y su desviacin estndar
(&#963;). Con esta notacin, la densidad de la normal viene dada por la
ecuacin:

Que determina la curva en forma de campana que tan bien conocemos.

Existen dos razones bsicas por las cuales la distribucin normal ocupa un
lugar tan prominente en la estadstica:
Tiene algunas propiedades que la hacen aplicable a un gran nmero de
situaciones en la que es necesario hacer inferencias mediante la toma de
muestras.
La distribucin normal casi se ajusta a las distribuciones de frecuencias reales
observadas en muchos fenmenos, incluyendo caractersticas humanas,
resultados de procesos fsicos y muchas otras medidas de inters para los
administradores, tanto en el sector pblico como en el privado.
Propiedad:
No importa cules sean los valores de y &#963; para un distribucin de
probabilidad normal, el rea total bajo la curva siempre es 1, de manera que
podemos pensar en reas bajo la curva como si fueran probabilidades.
Matemticamente es verdad que:
Aproximadamente el 68% de todos los valores de una poblacin normalmente
distribuida se encuentra dentro de 1 desviacin estndar de la media.
Aproximadamente el 95.5% de todos los valores de una poblacin
normalmente distribuida se encuentra dentro de 2 desviaciones estndar de
la media.
Aproximadamente el 99.7% de todos los valores de una poblacin
normalmente distribuida se encuentra dentro de 3 desviaciones estndar de
la media.

Relacin entre el rea bajo la curva de distribucin normal de probabilidad y la


distancia a la media medida en desviaciones estndar.
Estas grficas muestran tres formas diferentes de medir el rea bajo la curva
normal. Sin embargo, muy pocas de las aplicaciones que haremos de la
distribucin normal de probabilidad implican intervalos de exactamente (ms o
menos) 1, 2 o 3 desviaciones estndar a partir de la media. Para estos casos
existen tablas estadsticas que indican porciones del rea bajo la curva normal
que estn contenidas dentro de cualquier nmero de desviaciones estndar
(ms o menos) a partir de la media.
Afortunadamente tambin podemos utilizar una distribucin de probabilidad
normal estndar para encontrar reas bajo cualquier curva normal. Con esta
tabla podemos determinar el rea o la probabilidad de que la variable aleatoria
distribuida normalmente est dentro de ciertas distancias a partir de la media.
Estas distancias estn definidas en trminos de desviaciones estndar.
USO DE LA TABLA DE DISTRIBUCIN NORLAM DE PROBABILIDAD
NORMAL STANDAR
Para cualquier distribucin normal de probabilidad, todos los intervalos que
contienen el mismo nmero de desviaciones estndar a partir de la media
contendrn la misma fraccin del rea total bajo la curva para cualquier
distribucin de probabilidad normal. Esto hace que sea posible usar solamente

una tabla (Apndice Tabla 1) de la distribucin de probabilidad normal


estndar.
El valor de z
est derivado
de la frmula:

En la que:
x = valor de la variable aleatoria que nos preocupa.
= media de la distribucin de la variable aleatoria.
&#963; = desviacin estndar de la distribucin.
z = nmero de desviaciones estndar que hay desde x a la media de la
distribucin. (El uso de z es solamente un cambio de escala de medicin del eje
horizontal).
Distribucin normal que ilustra la comparacin de los valores de z y las
desviaciones estndar
EJEMPLO.
Partiendo de la misma premisa, = 500 y &#963; = 100. Cul es la
probabilidad de que un candidato elegido al azar se tome entre 500 y 650
horas en completar el programa de entrenamiento?

Si buscamos Z=1.5 (refirase a la tabla), encontramos una probabilidad de


0.4332.
Por lo tanto, la probabilidad de que un candidato escogido al azar requiera
entre 500 y 650 horas para terminar el programa de entrenamiento es de
0.4332.
UNIDAD VI.
INFERENCIA ESTADSTICA
La inferencia estadstica es el conjunto de mtodos y tcnicas que permiten
inducir, a partir de la informacin emprica proporcionada por una muestra,
cual es el comportamiento de una determinada poblacin con un riesgo de
error medible en trminos de probabilidad.
Los mtodos paramtricos de la inferencia estadstica se pueden dividir,
bsicamente, en dos: mtodos de estimacin de parmetros y mtodos de
contraste de hiptesis. Ambos mtodos se basan en el conocimiento terico de
la distribucin de probabilidad del estadstico muestral que se utiliza como
estimador de un parmetro.
La estimacin de parmetros consiste en asignar un valor concreto al
parmetro o parmetros que caracterizan la distribucin de probabilidad de la
poblacin. Cuando se estima un parmetro poblacional, aunque el estimador
que se utiliza posea todas las propiedades deseables, se comete un error de
estimacin que es la diferencia entre la estimacin y el verdadero valor del
parmetro. El error de estimacin es desconocido por lo cual es imposible
saber en cada caso cual ha sido la magnitud o el signo del error; para valorar el
grado de precisin asociado con una estimacin puntual se parte de dicha
estimacin para construir un intervalo de confianza. En sntesis, un intervalo de
confianza est formado por un conjunto de valores numricos tal que la
probabilidad de que ste contenga al verdadero valor del parmetro puede
fijarse tan grande como se quiera. Esta probabilidad se denomina grado de
confianza del intervalo, y la amplitud deste constituye una medida del grado
de precisin con el que se estima el parmetro.
Los mtodos de contraste de hiptesis tienen como objetivo comprobar si
determinado supuesto referido a un parmetro poblacional, o a parmetros
anlogos de dos o ms poblaciones, es compatible con la evidencia emprica
contenida en la muestra. Los supuestos que se establecen respecto a los
parmetros se llaman hiptesis paramtricas. Para cualquier hiptesis
paramtrica, el contraste se basa en establecer un criterio de decisin, que
depende en cada caso de la naturaleza de la poblacin, de la distribucin de
probabilidad del estimador de dicho parmetro y del control que se desea fijar
a priori sobre la probabilidad de rechazar la hiptesis contrastada en el caso de
ser sta cierta.
En todo contraste intervienen dos hiptesis. La hiptesis nula (Ho) es aquella
que recoge el supuesto de que el parmetro toma un valor determinado y es la
que soporta la carga de la prueba. La decisin de rechazar la hiptesis nula,
que en principio se considera cierta, est en funcin de que sea o no
compatible con la evidencia emprica contenida en la muestra. El contraste
clsico permite controlar a priori la probabilidad de cometer el error de
rechazar la hiptesis nula siendo sta cierta; dicha probabilidad se llama nivel
de significacin del contraste ( ) y suele fijarse en el 1%, 5% o 10%.
La proposicin contraria a la hiptesis nula recibe el nombre de hiptesis
alternativa (H1) y suele presentar un cierto grado de indefinicin: si la hiptesis
alternativa se formula simplemente como 'la hiptesis nula no es cierta', el
contraste es bilateral o a dos colas; por el contrario cuando se indica el sentido
de la diferencia, el contraste es unilateral o a una sola cola.
Cuando se realiza un contraste con el SPSS no se fija el nivel de significacin
deseado, el programa calcula el valor-p o significacin asinttica, que es la
probabilidad de que el estadstico de prueba tome un valor igual o superior al
muestral bajo el supuesto de que la hiptesis nula es cierta. Por tanto, si el
valor-p es menor o igual que el nivel de significacin deseado se rechazar
Ho.Un valor-p prximo a cero indica que se rechazar el Ho para cualquier nivel
de significacin.
Intervalo de confianza.
Un intervalo de confianza es un rango de valores, derivado de los estadsticos
de la muestra, que posiblemente incluya el valor de un parmetro de poblacin
desconocido. Debido a su naturaleza aleatoria, es poco probable que dos
muestras de una poblacin en particular generen intervalos de confianza
idnticos. Sin embargo, si usted repitiera muchas veces su muestra, un
determinado porcentaje de los intervalos de confianza resultantes incluira el
parmetro de poblacin desconocido.
En este caso, la lnea negra horizontal representa el valor fijo de la media
desconocida de la poblacin, . Los intervalos de confianza azules verticales
que se sobreponen a la lnea horizontal contienen el valor de la media de la
poblacin. El intervalo de confianza rojo que est completamente por debajo
de la lnea horizontal no lo contiene. Un intervalo de confianza de 95% indica
que 19 de 20 muestras (95%) de la misma poblacin generarn intervalos de
confianza que contendrn el parmetro de poblacin.
Utilice el intervalo de confianza para evaluar la estimacin del parmetro de
poblacin. Por ejemplo, un fabricante desea saber si la longitud media de los
lpices que produce es diferente de la longitud objetivo. El fabricante toma una
muestra aleatoria de lpices y determina que la longitud media de la muestra
es 52 milmetros y el intervalo de confianza de 95% es (50,54). Por lo tanto,
usted puede estar 95% seguro de que la longitud media de todos los lpices se
encuentra entre 50 y 54 milmetros.
El intervalo de confianza se determina calculando una estimacin de punto y
luego determinando su margen de error.
Estimacin de punto
Este valor individual estima un parmetro de poblacin usando los datos de su
muestra.
Margen de error
Cuando usted utiliza estadsticos para estimar un valor, es importante recordar
que sin importar lo bien que est diseado su estudio, su estimacin est
sujeta a error de muestreo aleatorio. El margen de error cuantifica este error e
indica la precisin de su estimacin.
Usted probablemente ya entiende el margen de error, porque est relacionado
con los resultados de las encuestas. Por ejemplo, una encuesta poltica podra
indicar que el nivel de popularidad de un candidato es de 55% con un margen
de error de 5%. Esto significa que el nivel de popularidad real es +/- 5% y, por
lo tanto, se ubica entre 50% y 60%.
Para un intervalo de confianza bilateral, el margen de error es la distancia
desde el estadstico estimado hasta el valor de cada intervalo de confianza.
Cuando un intervalo de confianza es simtrico, el margen de error es la mitad
del ancho del intervalo de confianza. Por ejemplo, la longitud media estimada
de un rbol de levas es 600 mm y el intervalo de confianza oscila entre 599 y
601. El margen de error es 1.
Mientras mayor sea el margen de error, ms ancho ser el intervalo y menos
seguro podr estar usted del valor de la estimacin de punto.
Prueba de hiptesis.
Una prueba de hiptesis es una prueba estadstica que se utiliza para
determinar si existe suficiente evidencia en una muestra de datos para inferir
que cierta condicin es vlida para toda la poblacin.
Una prueba de hiptesis examina dos hiptesis opuestas sobre una poblacin:
la hiptesis nula y la hiptesis alternativa. La hiptesis nula es el enunciado
que se probar. Por lo general, la hiptesis nula es un enunciado de que "no
hay efecto" o "no hay diferencia". La hiptesis alternativa es el enunciado que
se desea poder concluir que es verdadero.
Con base en los datos de la muestra, la prueba determina si se debe rechazar
la hiptesis nula. Para tomar la decisin se utiliza un valor p. Si el valor p es
menor que o igual al nivel de significancia, que es un punto de corte que usted
define, entonces puede rechazar la hiptesis nula.
Un error comn de percepcin es que las pruebas estadsticas de hiptesis
estn diseadas para seleccionar la ms probable de dos hiptesis. En realidad,
una prueba mantendr la validez de la hiptesis nula hasta que haya suficiente
evidencia (datos) en favor de la hiptesis alternativa.
Entre las preguntas que se pueden contestar con una prueba de hiptesis
estn las siguientes:
Tienen las estudiantes de pregrado una estatura media diferente de 66
pulgadas?
Es la desviacin estndar de su estatura igual a o menor que 5 pulgadas?
Es diferente la estatura de las estudiantes y los estudiantes de pregrado?
Prueba Z.
Una prueba Z es una prueba de hiptesis basada en el estadstico Z, el cual
sigue una distribucin normal segn la hiptesis nula.
La prueba Z ms simple es la prueba Z de 1 muestra, la cual evala la media
de una poblacin normalmente distribuida con una varianza conocida. Por
ejemplo, el gerente de una compaa productora de caramelos desea saber si
el peso medio de un lote de cajas de caramelos es igual al valor objetivo de 10
onzas. De los datos histricos, la compaa sabe que la mquina de llenado
tiene una desviacin estndar de 0.5 onzas, de modo que se utiliza este valor
como la desviacin estndar de la poblacin en una prueba Z de 1 muestra.
Tambin puede utilizar las pruebas Z para determinar si las variables
predictoras en los anlisis probit y en la regresin logstica tienen un efecto
significativo en la respuesta. La hiptesis nula establece que el predictor no es
significativo.
Tambin tiene la opcin de utilizar una prueba Z para realizar una aproximacin
a la normal para las pruebas de tasa de Poisson y las pruebas de proporciones.
Estas aproximaciones a la normal son vlidas cuando el tamao de la muestra
y el nmero de eventos son adecuadamente grandes.
Prueba t.
Para realizar esta prueba, seleccione Estadsticas > Estadsticas bsicas > t de
2 muestras.
Utilice este anlisis para:
Determine si las medias de dos grupos independientes difieren.
Calcular un rango de valores que probablemente incluya la diferencia entre las
medias de las poblaciones.
Por ejemplo, usted desea determinar si dos dispensadoras de granos dispensan
la misma cantidad de granos.
La prueba t de 2 muestras calcula un intervalo de confianza y realiza una
prueba de hiptesis de la diferencia entre las medias de dos poblaciones
cuando no se conocen las desviaciones estndar y las muestras se extraen de
manera independiente entre s. Este procedimiento se basa en la distribucin t
y, en el caso de muestras pequeas, funciona mejor si los datos se extraen de
distribuciones que son normales o estn cerca de la normalidad. A medida que
el tamao de la muestra aumenta, usted puede tener mayor confianza en los
resultados.
Para realizar una prueba t de 2 muestras, las dos poblaciones deben ser
independientes; en otras palabras, las observaciones de la primera muestra no
deben tener ninguna influencia en las observaciones de la segunda muestra.
Por ejemplo, las calificaciones de dos grupos diferentes de estudiantes son
independientes, pero las mediciones de antes y despus en el mismo grupo de
estudiantes no son independientes, aunque estos dos ejemplos tienen dos
muestras. Si usted no puede validar el supuesto de independencia de las
muestras, reconstruya su experimento para utilizar una prueba t pareada para
poblaciones dependientes.
La prueba t de 2 muestras tambin funciona adecuadamente cuando se viola el
supuesto de normalidad, pero solo si la distribucin subyacente no es muy
asimtrica. Con distribuciones no normales o muy asimtricas, podra ser ms
conveniente usar un procedimiento no paramtrico.
Para la prueba t de 2 muestras, las hiptesis son:

Prueba F.
El anlisis de Varianza contrasta la hiptesis de igualdad de las Medias de ms
de dos grupos, y tiene su fundamento en la relacin entre la variacin
explicada por las diferencias entre grupos y la variacin individual.
Consideremos la siguiente situacin: Queremos comparar la efectividad de
cuatro tratamientos de la depresin, para lo que aplicamos los tratamientos a
cuatro grupos de pacientes seleccionados aleatoriamente. A finales del
tratamiento recogemos los datos, que son:

Los valores del cuerpo central de la


tabla representan las puntuaciones obtenidas por el sujeto "i" en el grupo "j".
Por ejemplo, X32=14 simboliza que el sujeto nmero tres del grupo 2 ha
obtenido una puntuacin igual a 14.
Las puntuaciones de cada grupo son una muestra de la poblacin de pacientes
a los que se administra cada tratamiento (los del grupo 1, de la poblacin a la
que se administra el tratamiento 1, los del grupo 2, de la poblacin a la que se
administra el tratamiento 2, etc.). Las Medias de las poblaciones se simbolizan
m1, m2, m3, etc. Queremos saber si estas Medias son semejantes o diferentes
a la finalizacin del tratamiento, porque eso significara que los tratamientos
afectan de manera diferente a los pacientes. La Hiptesis Nula es:

El estadstico de contraste es:

Donde MCE y MCI son las Medias Cuadrticas "entre" e "intra"


respectivamente.
El fundamento del estadstico de contraste es:
a) El efecto del tratamiento en cada grupo es medido por la Media de las
medidas de depresin de cada grupo.
b) Si todos los tratamientos tuvieran el mismo efecto, esperaramos que las
Medias de los grupos fueran semejantes:

En cambio, cuanto ms diferentes sean los efectos de los tratamientos, ms


diferentes esperamos que sean las Medias.
c) La Media Cuadrtica "entre" mide la variacin explicada por las diferencias
entre las Medias de los grupos ms la variacin explicada por diferencias
individuales:

Donde:

Donde
glI: grados de libertad "intra"= J(n-1).
La Media Cuadrtica "intra" mide la variacin explicada por diferencias
individuales porque solo depende de las diferencias dentro de cada grupo. En
cambio, las diferencias entre grupos no explican la variacin "intra".
e) El estadstico F pone en relacin la variacin "entre" respeto de la variacin
"intra":

Cuanto mayor es la variacin "entre" en relacin a la variacin "intra", mayor


es el valor de F.
f) Para generalizar a la poblacin se opera con los valores esperados de la
Medias Cuadrticas:

El valor esperado de la Media Cuadrtica "entre" es igual a la Varianza


explicada (ocasionada) por las diferencias individuales ms una cantidad cuyo
valor depende de las diferencias entre los tratamientos (entre las muestras).

El valor esperado de la Media Cuadrtica "intra" es igual a la Varianza


explicada por diferencias individuales.
g) Si la Hiptesis Nula fuera verdadera, es decir, si NO hubiera diferencias entre
las Medias poblacionales, el valor del trmino de la derecha en la expresin del
valor esperado de la Media Cuadrtica "entre", que es:

Tomara el valor 0 (porque las diferencias dentro del parntesis siempre seran
0).
En consecuencia, el estadstico F sera una razn de dos estimadores de la
misma Varianza y seguira la distribucin F con J-1 y J(n-1) grados de libertad.
h) Si la Hiptesis Nula fuera falsa, es a decir, si hubiera diferencias entre las
Medias poblacionales, la expresin.
Tomara un valor superior a 0. En consecuencia, el estadstico F NO sera una
razn de dos estimadores de la misma Varianza y el cociente F NO seguira la
distribucin FJ-1,J(n-1).
En conclusin, si el estadstico F sigue la distribucin FJ-1,J(n-1) pensaremos
que no hay evidencia suficiente por rechazar la Hiptesis Nula. En cambio, si el
estadstico F NO sigue la distribucin FJ-1,J(n-1), pensaremos que es ms
razonable rechazar la Hiptesis Nula.

Prueba de chi-cuadrado.
Una prueba de chi-cuadrado es una prueba de hiptesis que compara la
distribucin observada de los datos con una distribucin esperada de los datos.
Existen varios tipos de pruebas de chi-cuadrado:
Prueba de chi-cuadrado de bondad de ajuste
Utilice este anlisis para probar qu tan bien una muestra de datos categricos
se ajusta a una distribucin terica.
Por ejemplo, usted puede comprobar si un dado es justo, lanzando el dado
muchas veces y utilizando una prueba de chi-cuadrado de bondad de ajuste
para determinar si los resultados siguen una distribucin uniforme. En este
caso, el estadstico chi-cuadrado cuantifica qu tanto vara la distribucin
observada de conteos con respecto a la distribucin hipottica.
Pruebas de chi-cuadrado de asociacin e independencia
Los clculos para estas pruebas son iguales, pero la pregunta que se est
tratando de contestar puede ser diferente.
Prueba de asociacin: utilice una prueba de asociacin para determinar si una
variable est asociada a otra variable. Por ejemplo, determine si las ventas de
diferentes colores de automviles dependen de la ciudad donde se venden.
Prueba de independencia: utilice una prueba de independencia para
determinar si el valor observado de una variable depende del valor observado
de otra variable. Por ejemplo, determine si el hecho de que una persona vote
por un candidato no depende del sexo del elector.

También podría gustarte