Está en la página 1de 11

TEMA 1

1. Estadística descriptiva y estadística inferencial.

Estadística Descriptiva: conjunto de técnicas destinadas a recoger, clasificar, resumir,


representar los datos proporcionados por un fenómeno.

Inferencia Estadística: se encarga de inducir propiedades de la población a partir de los


resultados proporcionados por la muestra, de forma que la verdad o bondad de estas
propiedades venga dada con un cierto grado de confianza, obtenido a través de los teoremas
de La Teoría de la Probabilidad.

Cálculo de Probabilidades: conjunto de herramientas matemáticas que apoyan la formulación


y el desarrollo de la Estadística Inferencial.

2. Variables aleatorias.

Una variable aleatoria es una función que asigna un valor numérico a cada suceso elemental
del espacio muestral.

● Discreta: Si puede tomar un número finito o infinito numerable de valores.


○ Función de probabilidad: La función de cuantía de una variable aleatoria
discreta X, llamada P(X), es una función que asigna las probabilidades con
que la variable toma los posibles valores de tal manera que se verifique. Se
puede representar gráficamente (barras).
○ Función de distribución: La función de distribución acumulativa de una
variable aleatoria discreta X, llamada F(X), es una función que asigna las
probabilidades acumuladas hasta los valores menores o iguales a x.
Propiedades: a) 0<F(x) <1 , Ax. b) Es no decreciente

● Continua: Si puede tomar un número infinito NO numerable de valores.


○ Función de densidad.
○ Función de distribución: La función de distribución acumulativa de una
variable aleatoria continua X, llamada F(X), es una función que asigna las
probabilidades acumuladas hasta los valores menores o iguales a x. Representa
el área limitada por la curva función de densidad y a la izquierda de la recta
X=x.
■ Propiedades:
● (1). F(-∞)=0 y F(+∞)=1.
● (2).P( a <X <b )=F ( b ) - F ( a ).
● (3). Es no decreciente.
● (4) La derivada de la función de distribución es la función de
densidad.F'(x) = f (x)
Varianza

Propiedades:

3. Modelos probabilísticos de variables aleatorias de tipo discreto: Bernouilli, binomial,


geométrico, binomial negativo, hipergeométrico, de Poisson.

Distribución de Poisson

Se define experimento de Poisson como aquel en el que se obtiene el número de sucesos que
ocurren de manera independiente y aleatoria durante un intervalo de tiempo dado o región
especificada. Así,una variable X se dice que sigue una distribución de Poisson cuando se
define como el número de sucesos en un experimento de Poisson conocida una tasa media de
ocurrencia.

4. Modelos probabilísticos de variables aleatorias de tipo continuo: distribución normal.

Distribución normal

Diremos que una variable aleatoria X, de tipo continuo, sigue una distribución normal de
parámetros (media) y (desviación típica).

5. Modelos probabilísticos asociados a la normal: ji-cuadrado de Pearson, t de Student y


F de Fisher-Snedecor.

Ji-cuadrado de Pearson
T de Student

F de Fisher-Snedecor
TEMA 2

1. Estimación Puntual e Intervalos de confianza.

Estimación puntual

Nos vamos a centrar en los valores de algunos parámetros poblacionales que caracterizan, en
cierta forma, la distribución.

Estimación puntual: obtener un único número, calculado a partir de las observaciones


muestrales y que es utilizado como aproximación al verdadero valor del parámetro
poblacional.

Para ello haremos uso de los estimadores. Un estimador será una función de las variables que
componen la m.a.s. (muestra aleatoria simple: conjunto de variables aleatorias independientes
e igualmente distribuidas).

Al valor obtenido mediante el estimador para una realización concreta de la muestra lo


llamaremos estimación del parámetro.

Inconveniente: No hay información sobre lo que la estimación difiere del verdadero valor del
parámetro desconocido.

Estimación por intervalos

La estimación del parámetro poblacional desconocido se realizará mediante un intervalo de la


recta real, y se acompañará la estimación con otra medida que recoja la confianza de que el
verdadero valor de dicho parámetro se encuentre entre los dos valores numéricos que
determinan el intervalo.

El intervalo va a depender de los elementos de la muestra. Es aleatorio.

Cada intervalo tendrá asociado un coeficiente de confianza, 1 − α, que indica la probabilidad


de que el parámetro desconocido se encuentre en el intervalo. Al número 100 · (1 − α)% se
le llama nivel de confianza.
En cuanto a la probabilidad de que el intervalo de confianza contenga al verdadero valor del
parámetro, supongamos que seleccionamos un nu ́mero elevado de muestras todas ellas del
mismo tamaño y obtenemos para cada una de ellas los límites del intervalo de confianza,
entonces se puede decir que el para ́metro desconocido que queremos estimar estará dentro
del intervalo construido en aproximadamente el 100 · (1 − α)% de los casos y no estara en el
resto.
La finalidad será construir un intervalo de poca amplitud y con una probabilidad lo más
elevada posible de que el verdadero valor del parámetro se encuentre entre los extremos del
intervalo.

Cuanto más pequeño sea el intervalo de confianza (menor amplitud) para un nivel de
confianza fijo, mejor será la estimación obtenida. Reciprocamente, dados dos intervalos de
confianza con la misma amplitud, uno constituye una estimación mejor que la que
proporciona el otro si su nivel de confianza es mayor.

Para el caso de intervalo de confianza para la media poblacional, cuando aumenta el tamaño
de la muestra, la amplitud del intervalo disminuye y cuando aumenta el nivel de confianza,
aumenta la amplitud del intervalo.

Para construir un intervalo de confianza se utiliza el método de la cantidad pivotal. Dada una
distribución F(x;θ), donde θ es un parámetro desconocido, una cantidad pivotal o pivote,
T(X1,...,Xn;θ), es una función del parámetro y de las observaciones de la muestra, cuya
distribución muestral no depende del parámetro.
El método consiste en obtener un pivote a partir del cual construir el intervalo de confianza.

2. Contrastes de Hipótesis.

Hipótesis estad́ ıstica: Afirmación o conjetura (verdadera o falsa) sobre una caracteŕıstica
desconocida de una o mas poblaciones.
Contraste o test de hipótesis: Se usa para tomar decisiones acerca de determinadas
caracteŕısticas poblacionales.
Contrastes paramétricos y contrastes no paramétricos.

Región de Aceptación y Región Crítica


RA, o región de aceptación (de la hipótesis nula), está constituida por el conjunto de muestras
para las cuales se acepta H0.
RC, o región crítica, es la región de rechazo de la hipótesis nula, es decir, es el conjunto
complementario de RA y está formado por las muestras para las cuales se rechaza la hipótesis
nula.

Tipos de errores
Fases a seguir en un contraste de hipótesis

1. Formulación de hipótesis.
2. Obtención del estadıstico adecuado para el contraste.
3. Selección del nivel de significación (α).
4. Determinación ́n de la región crítica
5. Selección aleatoria de la muestra y cálculo del estadístico de prueba o experimental.
6. Utilizar la regla de decisión.

P-valor o valor probabiĺıstico es el menor nivel de significacion para el cual la hipótesis nula
es rechazada.
• Si P-valor ≤ α, entonces se rechaza H0 (con igualdad, se recomienda aumentar el tamaño
muestral).
• Si P -valor > α, entonces no hay evidencias para rechazar H0.

Función de potencia del contraste


TEMA 3

1. Utilización de la técnicas cualitativas en Criminología

Se trata de información acerca de un determinado fenómeno cuyos resultados vienen


referidos a cualidades o características no medibles.

2. Contrastes de Bondad de Ajuste

Un contraste de bondad de ajuste se emplea para verificar si una muestra aleatoria procede de
una población con una cierta distribución de probabilidad. Existen diferentes test de bondad
de ajuste. Vemos aquí el test X de Pearson:

Se utiliza para contrastar si una muestra aleatoria procede o no de una población con una
determinada distribución. Si denotamos por F(x) a dicha distribución.

La distribución F0(x) se supone totalmente definida. Si alguno de sus parámetros fuera


desconocido, se utiliza el estimador de máxima verosimilitud.

Una vez distribuidos los datos muestrales en k categorías, se trata de ver la diferencia entre
las frecuencias observadas en cada categoría y las frecuencias que se esperan bajo H0.

Teóricamente, el estadístico χ2 tiene una distribución ji- cuadrado con k − h − 1 grados de


libertad, siendo h el número de parámetros poblacionales estimados por el método de máxima
verosimilitud. Esta distribución es asintótica, por lo que se exige en la aplicación del test que
np sea mayor que 5.
TEMA 4

1. Contraste de aleatoriedad

Rachas de Wald-Wolfowitz. Si el número total de rachas es muy pequeño o muy grande, no


es aleatorio. El n total de rachas se obtiene al sumar los n de rachas de tipo A y B. Racha es
cada uno de los subconjuntos maximales de la sucesión formada por símbolos consecutivos.
El número de símbolos de las rachas es su longitud. Dos tipos:

● ÉXITO
● FRACASO

2. Contraste de Normalidad

Test de Shaphiro-Wilky y Kolmogorov-Smirnov.

3. Contraste de homogeneidad de las varianzas

Sólo si existe normalidad, si no, NO.

4. Contrastes para la media de una población o dos poblaciones apareadas

Una población

Paramétrico: Distribución conocida. Es más potente pero no siempre puede usarse.


No paramétrico: Distribución desconocida.

Dos poblaciones

Cada uno tiene un homólogo en otra muestra. Son apareadas.

5. Contrastes para la media de dos poblaciones independientes

Tres tipos de contraste:


● Bilateral (=)
● Unilateral derecha (<)
● Unilateral izquierda (>)
TEMA 5

1. ANOVA de un factor

Los modelos de ANOVA (ANalysis Of VAriance), Ańalisis de la varianza, sirven para


analizar los datos provenientes de diseños con una o ḿas variables independientes o factores
(variables cateǵoricas nominales u ordinales) y una variable dependiente o respuesta (variable
cuantitativa medida con una escala de intervalo o de raźon).

Permiten, básicamente, comparar medias. En este sentido extiende el procedimiento de


contraste paraḿetrico entre dos poblaciones independientes al caso de k poblaciones.

Aunque existen muchos y muy diferentes modelos de ANOVA, puede obtenerse una
clasificación bastante simple de los mismos atendiendo a tres criterios: el número de factores,
el tipo de aleatorización utilizada y el tipo de muestreo efectuado sobre los niveles de los
factores.

Número de Factores

Se llama factor a una cualidad o propiedad según la cual se clasifican los datos objeto de
estudio.

Un nivel o tratamiento es cada uno de los diferentes estados posibles de un factor.

Tipo de aleatorización

Aleatorizacíon es el término utilizado para denominar el proceso consistente en asignar


aleatoriamente las unidades experimentales a cada uno de los niveles del factor. Con la
aleatorización se intenta garantizar que todos los individuos tengan la misma probabilidad de
pertenecer a cada uno de los niveles del factor.

Muestreo de niveles

Pueden considerarse dos formas de establecer los niveles en un factor:


● Fijando sólo aquellos niveles del factor que realmente interesa estudiar. En este caso
el modelo de ANOVA es de efectos fijos.Cuando se utiliza un factor de efectos fijos,
el propósito del análisis consiste en determinar si los niveles concretos que se están
utilizando difieren entre si. Las inferencias se limitan a esos niveles.
● Seleccionando aleatoriamente un conjunto de niveles entre todos los posibles niveles
del factor.
● El modelo ANOVA es de efectos aleatorios. Cuando se utiliza un factor de efectos
aleatorios ya no interesa comparar unos niveles concretos del factor, sino estudiar
cualquiera de sus posibles niveles.
Lógica de ANOVA

El objetivo del análisis de varianza es comparar las medias de varias distribuciones a partir
del estudio de la varianza.

Para poder aplicar ANOVA es necesario suponer que se verifican las hip ́otesis que se
enumeran a continuación:
1. Independencia: los individuos estudiados han de ser independientes unos de otros.
2. Aleatoriedad: las muestras de subpoblaciones o grupos estudiados deben haberse obtenido
de forma aleatoria.
3. Normalidad: las subpoblaciones o grupos que se contrastan deben seguir una distribución
Normal.
4. Homocedasticidad: igualdad de varianzas en las subpoblaciones o grupos estudiados.

ANOVA de un factor

El análisis de la varianza de un factor sirve para comparar varios grupos en una variable
cuantitativa. Se trata, por tanto, de una generalizacíon de la prueba T para dos muestras
independientes al caso de disen ̃os con ḿas de dos muestras. A la variable cateǵorica
(nominal u ordinal) que define los grupos que se desea comparar se le llama independiente
(VI) o factor. A la variable cuantitativa (de intervalo o razón) en la que se desea comparar los
grupos se le llama dependiente (VD).

2. Método de Scheffé de comparaciones múltiples

El ańalisis de varianza, ANOVA, únicamente permite contrastar la hiṕotesis general de que


los J promedios comparados son iguales. Rechazar esa hiṕotesis significa que las medias
poblacionales comparadas no son iguales, pero no permite precisar d́ onde en concreto se
encuentran las diferencias detectadas. Para saber que media difiere de que otra se debe
utilizar un tipo particular de contrastes denominados comparaciones múltiples post-hoc o
comparaciones a posteriori. Todas las opciones que ofrece SPSS ofrecen una informacíon
similar: permiten, una vez rechazada la hiṕotesis global de igualdad de medias, averiguar que
medias en concreto difieren de que otras.

Método de Scheffé

Supongamos que una vez aplicado el ańalisis de la varianza ha resultado que la hiṕotesis nula
H0 se ha rechazado, y por tanto se acepta la hiṕotesis alternativa. Pero el hecho de aceptar la
hipotesis alternativa lo unico que nos dice es que existen al menos dos medias diferentes
μi≠μj, pero no nos dice cúales son.

En esta situación podríamos pensar en analizar cada par de medias por separado para ver si
presentan diferencias significativas, utilizando para ello un test t-Student, pues σ es
desconocida, pero esto no es lo adecuado ya que nos podemos encontrar con un número
elevado de posibles contrastes y ademas se produce una acumulacion de errores de tipo I que
llega a ser bastante grande.

Para resolver esta situacion existen metodos espećıficos como por ejemplo, el metodo de
Tukey y el ḿetodo de Scheffe entre otros. El método de Tukey no es aplicable cuando los
tamaños muestrales no son iguales, por eso aqúı desarrollaremos el método de Scheffe que es
el que tiene menos restricciones.

3. Contraste de Kruskal-Wallis para ḿas de dos poblaciones independientes

Consideremos k muestras aleatorias independientes procedentes de k poblaciones continuas,


desconocidas pero con forma y dispersíon similares de manera que solo difieren, tal vez, en la
ubicación.

4. Test de comparaciones múltiples no paraḿetrico: test de Dunn

Cuando se rechaza la hipótesis nula por Kruskal-Wallis significa que no son idénticas. Puede
interesar la diferencia y por eso hacemos el Wilcoxon-Mann Whitney para cada par de
muestras.

También podría gustarte