Teoría Estadística

TEMA 1
1. Estadística descriptiva y estadística inferencial.
Estadística Descriptiva: conjunto de técnicas destinadas a recoger, clasificar, resumir,

representar los datos proporcionados por un fenómeno.
Inferencia Estadística: se encarga de inducir propiedades de la población a partir de los

resultados proporcionados por la muestra, de forma que la verdad o bondad de estas
propiedades venga dada con un cierto grado de confianza, obtenido a través de los teoremas
de La Teoría de la Probabilidad.
Cálculo de Probabilidades: conjunto de herramientas matemáticas que apoyan la formulación

y el desarrollo de la Estadística Inferencial.
2. Variables aleatorias.
Una variable aleatoria es una función que asigna un valor numérico a cada suceso elemental
del espacio muestral.
● Discreta: Si puede tomar un número finito o infinito numerable de valores.

○ Función de probabilidad: La función de cuantía de una variable aleatoria
discreta X, llamada P(X), es una función que asigna las probabilidades con
que la variable toma los posibles valores de tal manera que se verifique. Se
puede representar gráficamente (barras).
○ Función de distribución: La función de distribución acumulativa de una
variable aleatoria discreta X, llamada F(X), es una función que asigna las
probabilidades acumuladas hasta los valores menores o iguales a x.
Propiedades: a) 0<F(x) <1 , Ax. b) Es no decreciente
● Continua: Si puede tomar un número infinito NO numerable de valores.

○ Función de densidad.
○ Función de distribución: La función de distribución acumulativa de una
variable aleatoria continua X, llamada F(X), es una función que asigna las
probabilidades acumuladas hasta los valores menores o iguales a x. Representa
el área limitada por la curva función de densidad y a la izquierda de la recta
X=x.
■ Propiedades:
● (1). F(-∞)=0 y F(+∞)=1.
● (2).P( a <X <b )=F ( b ) - F ( a ).
● (3). Es no decreciente.
● (4) La derivada de la función de distribución es la función de
densidad.F'(x) = f (x)
Varianza
Propiedades:
3. Modelos probabilísticos de variables aleatorias de tipo discreto: Bernouilli, binomial,

geométrico, binomial negativo, hipergeométrico, de Poisson.
Distribución de Poisson
Se define experimento de Poisson como aquel en el que se obtiene el número de sucesos que
ocurren de manera independiente y aleatoria durante un intervalo de tiempo dado o región
especificada. Así,una variable X se dice que sigue una distribución de Poisson cuando se
define como el número de sucesos en un experimento de Poisson conocida una tasa media de
ocurrencia.
4. Modelos probabilísticos de variables aleatorias de tipo continuo: distribución normal.
Distribución normal
Diremos que una variable aleatoria X, de tipo continuo, sigue una distribución normal de
parámetros (media) y (desviación típica).
5. Modelos probabilísticos asociados a la normal: ji-cuadrado de Pearson, t de Student y

F de Fisher-Snedecor.
Ji-cuadrado de Pearson
T de Student
F de Fisher-Snedecor
TEMA 2
1. Estimación Puntual e Intervalos de confianza.
Estimación puntual
Nos vamos a centrar en los valores de algunos parámetros poblacionales que caracterizan, en
cierta forma, la distribución.
Estimación puntual: obtener un único número, calculado a partir de las observaciones

muestrales y que es utilizado como aproximación al verdadero valor del parámetro
poblacional.
Para ello haremos uso de los estimadores. Un estimador será una función de las variables que
componen la m.a.s. (muestra aleatoria simple: conjunto de variables aleatorias independientes
e igualmente distribuidas).
Al valor obtenido mediante el estimador para una realización concreta de la muestra lo

llamaremos estimación del parámetro.
Inconveniente: No hay información sobre lo que la estimación difiere del verdadero valor del
parámetro desconocido.
Estimación por intervalos
La estimación del parámetro poblacional desconocido se realizará mediante un intervalo de la

recta real, y se acompañará la estimación con otra medida que recoja la confianza de que el
verdadero valor de dicho parámetro se encuentre entre los dos valores numéricos que
determinan el intervalo.
El intervalo va a depender de los elementos de la muestra. Es aleatorio.
Cada intervalo tendrá asociado un coeficiente de confianza, 1 − α, que indica la probabilidad

de que el parámetro desconocido se encuentre en el intervalo. Al número 100 · (1 − α)% se
le llama nivel de confianza.
En cuanto a la probabilidad de que el intervalo de confianza contenga al verdadero valor del
parámetro, supongamos que seleccionamos un nu ́mero elevado de muestras todas ellas del
mismo tamaño y obtenemos para cada una de ellas los límites del intervalo de confianza,
entonces se puede decir que el para ́metro desconocido que queremos estimar estará dentro
del intervalo construido en aproximadamente el 100 · (1 − α)% de los casos y no estara en el
resto.
La finalidad será construir un intervalo de poca amplitud y con una probabilidad lo más
elevada posible de que el verdadero valor del parámetro se encuentre entre los extremos del
intervalo.
Cuanto más pequeño sea el intervalo de confianza (menor amplitud) para un nivel de
confianza fijo, mejor será la estimación obtenida. Reciprocamente, dados dos intervalos de
confianza con la misma amplitud, uno constituye una estimación mejor que la que
proporciona el otro si su nivel de confianza es mayor.
Para el caso de intervalo de confianza para la media poblacional, cuando aumenta el tamaño
de la muestra, la amplitud del intervalo disminuye y cuando aumenta el nivel de confianza,
aumenta la amplitud del intervalo.
Para construir un intervalo de confianza se utiliza el método de la cantidad pivotal. Dada una
distribución F(x;θ), donde θ es un parámetro desconocido, una cantidad pivotal o pivote,
T(X1,...,Xn;θ), es una función del parámetro y de las observaciones de la muestra, cuya
distribución muestral no depende del parámetro.
El método consiste en obtener un pivote a partir del cual construir el intervalo de confianza.
2. Contrastes de Hipótesis.
Hipótesis estad́ ıstica: Afirmación o conjetura (verdadera o falsa) sobre una caracteŕıstica
desconocida de una o mas poblaciones.
Contraste o test de hipótesis: Se usa para tomar decisiones acerca de determinadas
caracteŕısticas poblacionales.
Contrastes paramétricos y contrastes no paramétricos.
Región de Aceptación y Región Crítica

RA, o región de aceptación (de la hipótesis nula), está constituida por el conjunto de muestras
para las cuales se acepta H0.
RC, o región crítica, es la región de rechazo de la hipótesis nula, es decir, es el conjunto
complementario de RA y está formado por las muestras para las cuales se rechaza la hipótesis
nula.
Tipos de errores
Fases a seguir en un contraste de hipótesis
1. Formulación de hipótesis.
2. Obtención del estadıstico adecuado para el contraste.
3. Selección del nivel de significación (α).
4. Determinación ́n de la región crítica
5. Selección aleatoria de la muestra y cálculo del estadístico de prueba o experimental.
6. Utilizar la regla de decisión.
P-valor o valor probabiĺıstico es el menor nivel de significacion para el cual la hipótesis nula
es rechazada.
• Si P-valor ≤ α, entonces se rechaza H0 (con igualdad, se recomienda aumentar el tamaño
muestral).
• Si P -valor > α, entonces no hay evidencias para rechazar H0.
Función de potencia del contraste

TEMA 3
1. Utilización de la técnicas cualitativas en Criminología
Se trata de información acerca de un determinado fenómeno cuyos resultados vienen

referidos a cualidades o características no medibles.
2. Contrastes de Bondad de Ajuste
Un contraste de bondad de ajuste se emplea para verificar si una muestra aleatoria procede de
una población con una cierta distribución de probabilidad. Existen diferentes test de bondad
de ajuste. Vemos aquí el test X de Pearson:
Se utiliza para contrastar si una muestra aleatoria procede o no de una población con una
determinada distribución. Si denotamos por F(x) a dicha distribución.
La distribución F0(x) se supone totalmente definida. Si alguno de sus parámetros fuera

desconocido, se utiliza el estimador de máxima verosimilitud.
Una vez distribuidos los datos muestrales en k categorías, se trata de ver la diferencia entre
las frecuencias observadas en cada categoría y las frecuencias que se esperan bajo H0.
Teóricamente, el estadístico χ2 tiene una distribución ji- cuadrado con k − h − 1 grados de

libertad, siendo h el número de parámetros poblacionales estimados por el método de máxima
verosimilitud. Esta distribución es asintótica, por lo que se exige en la aplicación del test que
np sea mayor que 5.
TEMA 4
1. Contraste de aleatoriedad
Rachas de Wald-Wolfowitz. Si el número total de rachas es muy pequeño o muy grande, no

es aleatorio. El n total de rachas se obtiene al sumar los n de rachas de tipo A y B. Racha es
cada uno de los subconjuntos maximales de la sucesión formada por símbolos consecutivos.
El número de símbolos de las rachas es su longitud. Dos tipos:
● ÉXITO
● FRACASO
2. Contraste de Normalidad
Test de Shaphiro-Wilky y Kolmogorov-Smirnov.
3. Contraste de homogeneidad de las varianzas
Sólo si existe normalidad, si no, NO.
4. Contrastes para la media de una población o dos poblaciones apareadas
Una población
Paramétrico: Distribución conocida. Es más potente pero no siempre puede usarse.

No paramétrico: Distribución desconocida.
Dos poblaciones
Cada uno tiene un homólogo en otra muestra. Son apareadas.
5. Contrastes para la media de dos poblaciones independientes
Tres tipos de contraste:

● Bilateral (=)
● Unilateral derecha (<)
● Unilateral izquierda (>)
TEMA 5
1. ANOVA de un factor
Los modelos de ANOVA (ANalysis Of VAriance), Ańalisis de la varianza, sirven para

analizar los datos provenientes de diseños con una o ḿas variables independientes o factores
(variables cateǵoricas nominales u ordinales) y una variable dependiente o respuesta (variable
cuantitativa medida con una escala de intervalo o de raźon).
Permiten, básicamente, comparar medias. En este sentido extiende el procedimiento de

contraste paraḿetrico entre dos poblaciones independientes al caso de k poblaciones.
Aunque existen muchos y muy diferentes modelos de ANOVA, puede obtenerse una
clasificación bastante simple de los mismos atendiendo a tres criterios: el número de factores,
el tipo de aleatorización utilizada y el tipo de muestreo efectuado sobre los niveles de los
factores.
Número de Factores
Se llama factor a una cualidad o propiedad según la cual se clasifican los datos objeto de
estudio.
Un nivel o tratamiento es cada uno de los diferentes estados posibles de un factor.
Tipo de aleatorización
Aleatorizacíon es el término utilizado para denominar el proceso consistente en asignar

aleatoriamente las unidades experimentales a cada uno de los niveles del factor. Con la
aleatorización se intenta garantizar que todos los individuos tengan la misma probabilidad de
pertenecer a cada uno de los niveles del factor.
Muestreo de niveles
Pueden considerarse dos formas de establecer los niveles en un factor:

● Fijando sólo aquellos niveles del factor que realmente interesa estudiar. En este caso
el modelo de ANOVA es de efectos fijos.Cuando se utiliza un factor de efectos fijos,
el propósito del análisis consiste en determinar si los niveles concretos que se están
utilizando difieren entre si. Las inferencias se limitan a esos niveles.
● Seleccionando aleatoriamente un conjunto de niveles entre todos los posibles niveles
del factor.
● El modelo ANOVA es de efectos aleatorios. Cuando se utiliza un factor de efectos
aleatorios ya no interesa comparar unos niveles concretos del factor, sino estudiar
cualquiera de sus posibles niveles.
Lógica de ANOVA
El objetivo del análisis de varianza es comparar las medias de varias distribuciones a partir
del estudio de la varianza.
Para poder aplicar ANOVA es necesario suponer que se verifican las hip ́otesis que se
enumeran a continuación:
1. Independencia: los individuos estudiados han de ser independientes unos de otros.
2. Aleatoriedad: las muestras de subpoblaciones o grupos estudiados deben haberse obtenido
de forma aleatoria.
3. Normalidad: las subpoblaciones o grupos que se contrastan deben seguir una distribución
Normal.
4. Homocedasticidad: igualdad de varianzas en las subpoblaciones o grupos estudiados.
ANOVA de un factor
El análisis de la varianza de un factor sirve para comparar varios grupos en una variable
cuantitativa. Se trata, por tanto, de una generalizacíon de la prueba T para dos muestras
independientes al caso de disen ̃os con ḿas de dos muestras. A la variable cateǵorica
(nominal u ordinal) que define los grupos que se desea comparar se le llama independiente
(VI) o factor. A la variable cuantitativa (de intervalo o razón) en la que se desea comparar los
grupos se le llama dependiente (VD).
2. Método de Scheffé de comparaciones múltiples
El ańalisis de varianza, ANOVA, únicamente permite contrastar la hiṕotesis general de que

los J promedios comparados son iguales. Rechazar esa hiṕotesis significa que las medias
poblacionales comparadas no son iguales, pero no permite precisar d́ onde en concreto se
encuentran las diferencias detectadas. Para saber que media difiere de que otra se debe
utilizar un tipo particular de contrastes denominados comparaciones múltiples post-hoc o
comparaciones a posteriori. Todas las opciones que ofrece SPSS ofrecen una informacíon
similar: permiten, una vez rechazada la hiṕotesis global de igualdad de medias, averiguar que
medias en concreto difieren de que otras.
Método de Scheffé
Supongamos que una vez aplicado el ańalisis de la varianza ha resultado que la hiṕotesis nula
H0 se ha rechazado, y por tanto se acepta la hiṕotesis alternativa. Pero el hecho de aceptar la
hipotesis alternativa lo unico que nos dice es que existen al menos dos medias diferentes
μi≠μj, pero no nos dice cúales son.
En esta situación podríamos pensar en analizar cada par de medias por separado para ver si
presentan diferencias significativas, utilizando para ello un test t-Student, pues σ es
desconocida, pero esto no es lo adecuado ya que nos podemos encontrar con un número
elevado de posibles contrastes y ademas se produce una acumulacion de errores de tipo I que
llega a ser bastante grande.
Para resolver esta situacion existen metodos espećıficos como por ejemplo, el metodo de
Tukey y el ḿetodo de Scheffe entre otros. El método de Tukey no es aplicable cuando los
tamaños muestrales no son iguales, por eso aqúı desarrollaremos el método de Scheffe que es
el que tiene menos restricciones.
3. Contraste de Kruskal-Wallis para ḿas de dos poblaciones independientes
Consideremos k muestras aleatorias independientes procedentes de k poblaciones continuas,

desconocidas pero con forma y dispersíon similares de manera que solo difieren, tal vez, en la
ubicación.
4. Test de comparaciones múltiples no paraḿetrico: test de Dunn
Cuando se rechaza la hipótesis nula por Kruskal-Wallis significa que no son idénticas. Puede
interesar la diferencia y por eso hacemos el Wilcoxon-Mann Whitney para cada par de
muestras.

Teoría Estadística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Teoría Estadística

Cargado por

Copyright:

Formatos disponibles

TEMA 1

1. Estadística descriptiva y estadística inferencial.

Estadística Descriptiva: conjunto de técnicas destinadas a recoger, clasificar, resumir,

Inferencia Estadística: se encarga de inducir propiedades de la población a partir de los

Cálculo de Probabilidades: conjunto de herramientas matemáticas que apoyan la formulación

● Discreta: Si puede tomar un número finito o infinito numerable de valores.

● Continua: Si puede tomar un número infinito NO numerable de valores.

3. Modelos probabilísticos de variables aleatorias de tipo discreto: Bernouilli, binomial,

4. Modelos probabilísticos de variables aleatorias de tipo continuo: distribución normal.

5. Modelos probabilísticos asociados a la normal: ji-cuadrado de Pearson, t de Student y

1. Estimación Puntual e Intervalos de confianza.

Estimación puntual: obtener un único número, calculado a partir de las observaciones

Al valor obtenido mediante el estimador para una realización concreta de la muestra lo

Estimación por intervalos

La estimación del parámetro poblacional desconocido se realizará mediante un intervalo de la

El intervalo va a depender de los elementos de la muestra. Es aleatorio.

Cada intervalo tendrá asociado un coeficiente de confianza, 1 − α, que indica la probabilidad

Región de Aceptación y Región Crítica

Función de potencia del contraste

1. Utilización de la técnicas cualitativas en Criminología

Se trata de información acerca de un determinado fenómeno cuyos resultados vienen

2. Contrastes de Bondad de Ajuste

La distribución F0(x) se supone totalmente definida. Si alguno de sus parámetros fuera

Teóricamente, el estadístico χ2 tiene una distribución ji- cuadrado con k − h − 1 grados de

Rachas de Wald-Wolfowitz. Si el número total de rachas es muy pequeño o muy grande, no

Test de Shaphiro-Wilky y Kolmogorov-Smirnov.

3. Contraste de homogeneidad de las varianzas

Sólo si existe normalidad, si no, NO.

4. Contrastes para la media de una población o dos poblaciones apareadas

Paramétrico: Distribución conocida. Es más potente pero no siempre puede usarse.

Cada uno tiene un homólogo en otra muestra. Son apareadas.

5. Contrastes para la media de dos poblaciones independientes

Tres tipos de contraste:

Los modelos de ANOVA (ANalysis Of VAriance), Ańalisis de la varianza, sirven para

Permiten, básicamente, comparar medias. En este sentido extiende el procedimiento de

Un nivel o tratamiento es cada uno de los diferentes estados posibles de un factor.

Aleatorizacíon es el término utilizado para denominar el proceso consistente en asignar

Pueden considerarse dos formas de establecer los niveles en un factor:

2. Método de Scheffé de comparaciones múltiples

El ańalisis de varianza, ANOVA, únicamente permite contrastar la hiṕotesis general de que

3. Contraste de Kruskal-Wallis para ḿas de dos poblaciones independientes

Consideremos k muestras aleatorias independientes procedentes de k poblaciones continuas,

4. Test de comparaciones múltiples no paraḿetrico: test de Dunn

También podría gustarte