Está en la página 1de 13

1.

Probabilidades

Se refiere a la probabilidad que tiene la hipótesis nula de ocurrir en el análisis estadístico


que se realice.

Evento: es un resultado o conjunto de resultados de un experimento aleatorio.

Espacio muestral: es el conjunto de todos los posibles resultados de un experimento.

Tipos de probabilidad

Probabilidad frecuencial

Determina la frecuencia en que ocurre un evento específico. Se calcula de forma


experimental, por ende, se procede a tomar muestras de cuántas veces ocurre el evento,
registrando estos datos.

Probabilidad Binominal

Se enfoca en señalar las posibilidades de éxito o fracaso que tiene un evento, toda vez que
este sucede, o experimenta algún tipo de fenómeno dentro de él.

Probabilidad Poisson

aquella que busca estudiar cuál es el índice de ocurrencia o frecuencia de un evento, no


solamente en un espacio, sino también en el Tiempo. Por ende, este tipo de Probabilidad
busca determinar la frecuencia o posibilidad en dos dimensiones.

Probabilidad Condicionada

Se encarga de estudiar fenómenos específicos, cuya posibilidad de ocurrencia o frecuencia


siempre se encontrarán condicionadas a otro evento o posibilidad. Es decir, el evento
número 1 pasará siempre que ocurra el evento 2. En otras palabras, la probabilidad
condicionada de un evento A dado un evento B es la probabilidad de que ocurra A,
sabiendo que B ha ocurrido. Se denota como P(A|B).

Probabilidadmarginal
Es la probabilidad de que ocurra el evento sin tener en cuenta la ocurrencia de otros
eventos. Se calcula sumando las probabilidades condicionales del evento para todas las
posibles ocurrencias del otro evento.

Probabilidad de espacio muestral


Conoce al conjunto de eventos, constituido por todos los resultados probabilísticos, que
pueden ocurrir durante un experimento aleatorio. A los distintos elementos que constituyen
el muestreo de esta clase de experimentos se designan como sucesos elementales. Así
mismo, estos espacios muéstrales, pueden ser tanto discretos como continuos.

axiomas y propiedades de la probabilidad

La teoría de la probabilidad se basa en tres axiomas fundamentales:

● Axioma 1: La probabilidad de un evento es un número no negativo. Esto significa


que la probabilidad no puede ser menos que 0.
● Axioma 2: La probabilidad del espacio muestral (es decir, que ocurra algún
evento) es 1. Esto significa que algún evento del espacio muestral debe ocurrir.

● Axioma 3: Para cualquier secuencia de eventos mutuamente excluyentes (es


decir, eventos que no pueden ocurrir al mismo tiempo), la probabilidad de que
ocurra al menos uno de ellos es la suma de sus probabilidades individuales.

¿Cómo se calcula las probabilidades?

Ley de Laplace: establece la probabilidad de que suceda un suceso.

Probabilidad = casos favorables/ casos posibles x 100

Producto de probabilidades:

Si A y B son dos eventos independientes, la probabilidad que ambos eventos ocurran


simultáneamente es igual al producto de las probabilidades de que ocurra CADA UNO de
ellos.

P(A ∩ B) = P(A) x P(B)

Si A y B son 2 eventos dependientes, es decir, la probabilidad de que ocurra B depende de


A, entonces la P de que ambos ocurran de manera simultáneas es igual al producto entre la
P de que ocurra A y la P de que B dado A.

P(A ∩ B) = P(A) x P(B/A)

Suma de probabilidades:

Si A y B son dos eventos mutuamente excluyentes, la P de que ocurra alguno de ellos es


igual a la suma de las probabilidades de que ocurra cada uno de ellos.

P (A U B) = P(A) + P(B)

Si A y B son dos eventos no excluyentes, la P de que ocurra alguno de ellos es la suma


de que ocurra cada uno de ellos, menos la P de que ocurran ambos de manera simultánea.

P (A U B) = P(A) + P(B) - P(A ∩ B)

Probabilidad que no ocurra un evento:

La probabilidad de que no ocurra A es:

1 - P(A)

Inversión de las condiciones: teorema de Bayes (continuación)

Se utiliza para calcular la probabilidad condicional inversa: la probabilidad de que ocurra un


evento A, dado que ha ocurrido un evento B.

El teorema se enuncia matemáticamente de la siguiente manera:

P(A|B) = (P(B|A) * P(A)) / P(B)

donde:
● P(A|B) es la probabilidad condicional: la probabilidad del evento A ocurriendo
dado que B es verdadero. También se le llama la probabilidad a posteriori de A
dado B.

● P(B|A) es también una probabilidad condicional: la probabilidad del evento B


ocurriendo dado que A es verdadero. También puede interpretarse como la
verosimilitud de A dado un B fijo.

● P(A) y P(B) son las probabilidades de observar A y B respectivamente sin


ninguna condición dada; se conocen como la probabilidad a priori y la
probabilidad marginal.

El teorema de Bayes puede derivarse de la definición de probabilidad condicional. Dado que P(A|B) =
P(A ∩ B) / P(B) y P(B|A) = P(A ∩ B) / P(A), se puede resolver para P(A ∩ B) y sustituir en la
expresión de P(A|B) para obtener el teorema de Bayes.

2. Distribución normal

La distribución normal o distribución de Gauss, es un tipo de curva o distribución


donde todos los puntajes de su muestra están organizados de forma simétrica.

Para evaluar la normalidad tenemos 3 opciones, métodos gráficos, métodos


analíticos de asimetría y curtosis también están métodos de prueba de hipótesis

Métodos gráficos

En la distribución normal en donde la mayoría de los datos se ajustan a la


puntuación media

Se caracteriza por:

• Tener forma de campana.

• Ser simétrica (asimetría = 0).

• No ser excesivamente plana ni excesivamente picuda (mesocúrtica o leptocúrtica).

• Coincidir en ella la media, la mediana y la moda

métodos analíticos de asimetría y curtosis

Se puede evaluar a partir de datos analíticos, media mediana, moda, curtosis y asimetría.

Para asumir la normalidad de forma analítica la moda, media y moda de las variables tienen
que tener valores cercanos.

ASIMETRIA

Una distribución es simétrica cuando al trazar una vertical, en el diagrama de barras


o histograma de una variable, según sea esta discreta o continua, por el valor de la
media, esta vertical se transforma en eje de simetría y entonces decimos que la
distribución es simétrica.
Curtosis

Esta medida determina el grado de concetración que presentan los valores en la región
central de la distribución normal.

Para la distribución noral tenemos la Mesocúrtica va ha hacer referencia si la


distribución es igual a la normal, La mesocurtosis implica una curtosis igual a 0.

Métodos prueba de hipótesis

La hipótesis nula nos dice que los datos si provienen de una distribución normal, que se
cuantifican con un p valor mayor a 0,05. No habría evidencias para rechazar la hipótesis
nula y se podría asumir la normalidad

Hipótesis alterna nos dice que la distribución no proviene de una muestra normal y se
cuantifica con un valor p menor a 0,05. Existan dificultades para que pueda asumirse la
normalidad.

A diferencia de muchos de los análisis de la estadística inferencial aquí buscamos aceptar


la hipótesis nula.

Análisis “test diseñados para comprobar la normalidad “

• Test de Shapiro-Wilk W. se usa cuando se tiene muestras por debajo de 50 participantes.

• Test de Kolmogorov-Smirnov: se va a usar cuando se tiene una muestra mayor a 50


participantes.

Distribución anormal

una distribución es no normal cuando dentro de la distribución de todos los


números, existen muchos valores que son bajos o altos y por ello, el promedio no
está justo al medio de toda la distribución. Se los describo de manera distinta,
cuando la distribución es normal, la montaña o distribución es perfectamente
simétrica donde los valores más frecuentes, el promedio y la mediana están todas al
medio. Cuando no se da esto, entonces la cima de la montaña no está al centro.

Asimetría

En caso contrario que no se presente una simetría, dicha distribución será


asimétrica o diremos que presenta asimetría.

Se considera asimetría negativa cuando curva se inclina hacia la derecha, (SERÁ MENOR
QUE 0)

Se considera asimetría positiva cuando curva se inclina hacia la izquierda, (SERÁ MAYOR
QUE 0)

3. Pruebas paramétricas
Son un tipo de pruebas de connotación estadística, en supuestos de distribución que
cuantifican la asociación entre una variable cuantitativa y una categórica.
Se basan en medidas como la media, la desviación estándar, variación, etc., (parámetros), y
requieren el cumplimiento de unas condiciones de aplicación, ya que deben adoptar un
modelo matemático correspondiente a una distribución conocida de probabilidad, logrando
obtener más exactitud y conocer con mayor validez los resultados del rechazo o de
aceptación de la hipótesis.

Condiciones para aplicarlas


● Que la muestra se obtenga de observaciones independientes.
Es decir, que se seleccionen de manera aleatoria o que pertenezcan a dos conjuntos de
elementos distintos.

● La variable de estudio debe ser numérica


La variable dependiente debe estar medida en una escala que sea de intervalo o de razón.

● Normalidad
Los valores de la variable dependiente deben seguir una distribución normal, se caracteriza
por su forma de campana simétrica y por ser completamente descrita por dos parámetros:
su media y su desviación estándar.

● La n muestral tamaño de la población.


La muestra debe ser mayor de 30 casos permite tener mayor poder estadístico, en caso
contrario se utilizarán las pruebas no paramétricas, cuanto mayor sea la muestra, más
exacta será la estimación. Al contrario, cuanto más pequeña sea la muestra, más
distorsionada será la media de las muestras por los valores raros extremos.

● Homogeneidad de varianzas (entre los grupos a comparar)


Las varianzas de la variable dependiente en los grupos comparados deben ser más o
menos iguales, se determina si la hipótesis nula debe ser rechazada o no. Si el resultado de
la prueba indica que hay diferencias significativas entre las varianzas de los grupos,
entonces se rechaza la hipótesis nula y se concluye que los grupos no tienen la misma
varianza poblacional .Algunas pruebas que permiten comparar esta homogeneidad son:

• La prueba de Levene: Se basa en la hipótesis nula de que las varianzas de los


grupos son iguales. Si el valor p obtenido es menor que un nivel de significancia
especificado, se rechaza la hipótesis nula y se concluye que al menos una de las varianzas
es significativamente diferente de las demás.

• La F de Fisher: Utilizada para comparar la varianza de dos o más grupos de datos,


el valor F obtenido de la prueba se utiliza para evaluar si las varianzas de los grupos son
iguales o diferentes. Si se rechaza la hipótesis nula, se concluye que al menos una de las
medias difiere significativamente de las demás.

• Fmax de Hartley: Se basa en la relación entre la varianza máxima y la varianza


mínima de los grupos de datos, si el valor máximo obtenido es mayor que el valor crítico, se
rechaza la hipótesis nula, es útil en situaciones en las que se dispone de un número limitado
de datos y se desea una prueba rápida y simple
• Prueba de Barlett: Utilizada para evaluar si las varianzas de dos o más grupos de
datos son iguales o diferentes. La prueba se basa en la hipótesis nula de que las varianzas
de los grupos son iguales, se usa para datos que siguen una distribución normal, pero es
sensible a la presencia de datos atípicos.

Tipos de pruebas paramétricas: Según el contraste planteado, se utiliza un tipo u otro de


prueba paramétrica:

● Prueba t para una muestra:


Se ocupa de contrastar si la media de una población difiere de forma significativa de un
valor dado conocido o hipotetizado. Así, la prueba calcula estadísticos descriptivos para las
variables de contraste junto con la prueba t.

● Prueba t para dos muestras independientes:


Se utiliza cuando la comparación sea entre las medias de dos poblaciones independientes.
Esto es, los individuos de una de las poblaciones son distintos a los individuos de la otra.

● Prueba t para dos muestras relacionadas:


Esta prueba es otra de las alternativas para contrastar dos medias. En este caso, se trata
de poblaciones que se relacionan entre sí.

● Prueba ANOVA para más de dos muestras independientes (3 o +):


habremos de recurrir al análisis de varianza o ANOVA, desarrollada para realizar
simultáneamente la comparación de las medias de más de dos poblaciones.

4. Pruebas no paramétricas
Engloban una serie de pruebas estadísticas que tienen como denominador común la
ausencia de asunciones acerca de la ley de probabilidad que sigue la población de la que
ha sido extraída la muestra.

Estas técnicas se utilizan con frecuencia, ya que existen muchas variables que no siguen
las condiciones de parametricidad. Cuando estos requisitos previos no se cumplen, se usan
las pruebas no paramétricas o de distribución libre, reúnen las siguientes características:

- Que la variable dependiente sea por lo menos ordinal.


- No requiere de una distribución normal de la variable
- No requiere una homogeneidad de varianza
- Son la única alternativa cuando el tamaño de muestra es pequeño <30
- Son útiles a un nivel de significancia previamente especificado.

Clasificación

Pruebas no paramétricas de una muestra: analizan un campo (Prueba de Chi-cuadrado


de Pearson)

Es una prueba muy utilizada para analizar la relación entre dos variables que son
cuantitativas. La idea de esta prueba es comparar los valores de los datos reales con los
que se obtendrían si la hipótesis fuera cierta, para evaluar en qué medida los datos
recogidos en una variable categórica se relacionan a una determinada distribución.

- Examina las diferencias entre variables categóricas en la misma población.


- También puede utilizarse para validar o proporcionar un contexto adicional para las
frecuencias observadas.

- Se calcula a través de una tabla de contingencia o tabulación cruzada.

Pruebas no paramétricas para dos muestras relacionadas: (Comparan las


distribuciones de dos variables que se asume están relacionadas) compara dos o más
campos para el mismo conjunto de casos. (Prueba de Wilcoxon)

Permite contrastar la hipótesis de igualdad entre dos medianas poblacionales, con muestras
de diferente tamaño y con pocas restricciones. Contiene las siguientes asunciones críticas:

- Como se dijo, que los datos sean tomados de una muestra al azar o bien de sujetos
considerados como propios controles.

- Solo requiere que la variable sea: continua o al menos ordinales.

- Que haya simetría en los resultados de las diferencias con la mediana verdadera
de la población.

Pruebas no paramétricas para más de 2 muestras relacionadas (Prueba de Friedman)

- Se usa para incluir datos registrados en más de dos periodos de tiempo o grupos
de tres o más sujetos, con un sujeto de cada grupo que ha sido asignado aleatoriamente
a una de las tres o más condiciones.

- Se utiliza para determinar si existe o no una diferencia significativa entre las


medianas de tres o más muestras dependientes

Pruebas no paramétricas para dos muestras independientes: analiza un campo que se


agrupa por categorías de otro campo. (Prueba U de Mann-Whitney)

- La prueba realiza una comparación estadística de la media y determina si existe


una diferencia en la variable dependiente para dos grupos independientes. Mostrando
así si la distribución de la variable dependiente es la misma para los dos grupos y, por lo
tanto, de la misma población.

Los datos deben tener ciertas características para poder ser analizados por esta prueba.

- La variable dependiente debe medirse a nivel ordinal.

- La variable independiente debe consistir en dos grupos categóricos e


independientes (por ejemplo, desempleado o empleado).

- No debe existir relación entre las observaciones de cada grupo o entre los propios
grupos.

- Las dos variables se distribuyen de forma anormal.

Pruebas no paramétricas para 2 muestras independientes (Prueba H de Kruskal-


Wallis)
- Representa una excelente alternativa al ANOVA de un factor completamente
aleatorizado, permite conocer si hay diferencias en las distribuciones de la variable en
un estudio de más de dos grupos independientes.

Su aplicación asume:

- Que los datos provienen de un grupo aleatorizado.

- Que la variable dependiente es ordinal.

- Que la variable independiente es nominal, con más de dos niveles.

- Que las observaciones son independientes dentro de cada grupo.

- Que no haya medidas repetidas o categorías de respuesta múltiple.

5. Técnicas de muestreo

Método de muestreo: El muestreo es un término que se usa para describir el proceso de


obtener datos de un grupo pequeño (o subgrupos).

Una muestra puede ser obtenida de dos tipos: probabilística y no probabilística. Las
técnicas de muestreo probabilísticas, permiten conocer la probabilidad que cada individuo
a estudio tiene de ser incluido en la muestra a través de una selección al azar. En cambio,
en las técnicas de muestreo de tipo no probabilísticas, la selección de los sujetos a
estudio dependerá de ciertas características, criterios, etc. que los investigadores
consideren en ese momento; por lo que pueden ser poco válidos y confiables o
reproducibles; debido a que este tipo de muestras no se ajustan a un fundamento
probabilístico, es decir, no dan certeza que cada sujeto a estudio represente a la población
blanco.

Dentro de las técnicas de muestreo probabilístico encontraremos:

1. Aleatorio simple: Esta garantiza que todos los individuos blancos de la población
tienen la misma oportunidad de salir en la muestra. Lo que significa que la probabilidad
de selección de un sujeto a estudio por x motivos es independiente de la probabilidad
que tiene el resto de sujetos de la población de blancos.

2. Aleatorio estratificado: En el muestreo aleatorio estratificado, el primer paso es


definir los estratos de la población para seleccionar y extraer de ellos la muestra. Un
estrato es un subgrupo dentro de la población que comparte características similares y
que son relevantes para el estudio.La base de la estratificación se basa en variable
como edad, sexo, nivel socioeconómico, etc.
Se realiza dividiendo la población en estratos basados en características de interés,
seleccionar muestras aleatorias simples dentro de cada estrato y determinar cuántos
elementos de la muestra se deben seleccionar de cada estrato utilizando asignación
proporcional u óptima.

3. Aleatorio sistemático: Tipo de muestreo probabilístico donde se hace una


selección aleatoria del primer elemento para la muestra, y luego se seleccionan los
elementos posteriores utilizando intervalos fijos o sistemáticos hasta alcanzar el tamaño
de la muestra deseado. Este tipo de muestreo suele ser más preciso que el aleatorio
simple, debido a que recorre la población de forma más uniforme.

Para esto, utilizaremos la siguiente fórmula:

K = N / n, donde K equivale al intervalo de selección, N al tamaño de la población y n el


tamaño de la muestra.

4. Aleatorio conglomerados

El muestreo por conglomerados, es un procedimiento de muestreo probabilístico


en que los elementos de la población son seleccionados al azar en forma natural
por agrupaciones.

El muestreo aleatorio conglomerado es útil cuando el universo o población de interés es


grande y está dividido en grupos naturalmente existentes, como ciudades, escuelas,
empresas, etc.

Al seleccionar aleatoriamente los conglomerados y luego aplicar una técnica de


muestreo dentro de cada conglomerado, se busca obtener una muestra representativa
de la población.

Sin embargo, es importante considerar que el muestreo aleatorio conglomerado


introduce cierto nivel de variabilidad y error de muestreo, ya que la selección se realiza
a nivel de conglomerados en lugar de unidades individuales.

Dentro de las técnicas de muestreo NO probabilístico encontraremos:

1.internacional En este muestreo, también conocido como muestreo por juicio o


muestreo de expertos, el investigador va a seleccionar intencionalmente los individuos o
casos que considere más representativos o relevantes en el estudio. No se escoge al
azar, está basada en el juicio y experiencia del investigador.

2. Por conveniencia: las muestras de la población se seleccionan en base a la


conveniencia y disponibilidad para el investigador.

3. Accidental o consecutivo: Se fundamenta en reclutar casos hasta que se completa el


número de sujetos necesario para completar el tamaño de muestra deseado. Estos, se
eligen de manera casual, de tal modo que quienes realizan el estudio eligen un lugar, a
partir del cual reclutan los sujetos a estudio de la población que accidentalmente se
encuentren a su disposición.

6. Correlaciones
Son herramientas de medidas estadísticas que indican el grado de asociación que tienen
dos variables, es decir si el cambio de una variable está acompañada por el cambio de otra.
Nos va entregar dos indicadores:
- La fuerza de correlación, que se mide por proporciones de 0 a 1.
- La dirección, que podría ser positiva o negativa.
Permite conocer la «intensidad» de la relación entre ellas y determinar si, al aumentar el
valor de una de las variables, aumenta o disminuye el valor de la otra.

Cuando se habla de correlación gráfica entre dos variables, hay que analizar tres tipos de
cosas:
FORMA:
★ Correlación lineal: Perpendicular, horizontal o inclinada con pendientes
(positiva o negativa).
★ Correlación NO lineal: Parábolas, hipérboles.

DIRECCIÓN: Tendencia que tendrá


★ Positiva: Pendiente que cuando va aumentando X, también va aumentando Y.
★ Negativa: Pendiente que cuando va disminuyendo X, va aumentando Y.

FUERZA: Relación entre variables.


★ Fuerte: Hay correlación, donde puntos están muy alineados o cercanos a la línea recta,
cada vez que aumenta va incrementando de la misma forma.
★ Moderada: Puntos un poco más separados o abiertos de la línea recta.
★ Débil: Los puntos están más separados, sin interactuar ciertos puntos con la línea recta.

La correlación se representa mediante un coeficiente de correlación, que varía entre -1 y 1.

★ Correlación positiva perfecta: Coeficiente de correlación de 1.


- Cuando una variable aumenta la otra también lo hace en la misma proporción.
- Forma lineal perfecta, va aumentando X de igual forma aumenta Y.

★ Correlación negativa perfecta: Coeficiente de -1.


- Cuando una variable aumenta, la otra disminuye en la misma proporción.
- Forma lineal perfecta, cuando va disminuyendo X va aumentando Y.

★ NO correlación: Coeficiente de correlación de 0.


- No hay una relación lineal entre las variables.
- Puntos dispersos, no hay tendencia a ser lineal o no lineal.

COEFICIENTE DE CORRELACIONES:

★ Correlación lineal: Es la medida de la relación lineal entre dos variables continuas.

★ Correlación de rango: Conocida como correlación no paramétrica, se utiliza cuando las


variables no siguen una distribución normal o cuando se trabaja con datos ordinales.

★ Correlación parcial: Para medir la relación entre dos variables mientras se controla el
efecto de una o más variables adicionales.

★ Correlación cruzada: Se utiliza para medir la relación entre dos series de datos en
diferentes momentos en el tiempo, útil para analizar patrones o tendencias temporales.

★ COEFICIENTE DE CORRELACIÓN DE PEARSON (r): son variables cuantitativas normales,


mide lo bien que se ajustan los puntos a una línea recta ideal. Es un método estadístico paramétrico y
requiere que las variables cumplan el criterio de normalidad (valores entre −1 y +1).
Requiere que se cumplan los requisitos de estadística.

○ r > 0 (positivo): los puntos forman una línea perfecta recta y creciente, de izquierda a
derecha.
○ r = 0 no existe correlación
○ r < 0 (negativo): al aumentar una de las variables, disminuye la otra.

Según el valor absoluto del coeficiente r, indica lo siguiente:


• |r | < 0,30: asociación débil.
• 0,30 < |r | < 0,70: asociación moderada.
• |r | > 0,70: asociación fuerte

El coeficiente r será próximo a 1 (en valor absoluto) cuando las dos variables X e Y están
estrechamente relacionadas y esto se denomina COVARIANZA (es una medida de
variabilidad conjunta de dos variables).

★ COEFICIENTE DE CORRELACIÓN DE SPEARMAN:


Son variables cuantitativas no normales, se pueden usar variables ordinales, es un
estimador no paramétrico.
- Evalúa relación de clasificación u ordenamiento entre dos variables
- Puede capturar relaciones no lineales
- Robusto frente a datos atípicos
- Se basa en la sustitución de los valores originales de las dos variables por sus
números de orden o rangos.
- La forma más sencilla de calcular este coeficiente consiste en sustituir los datos
originales de las variables por nuevos valores obtenidos al ordenar los datos, a los
que llamaremos rangos, y utilizar esos rangos para calcular un coeficiente de
correlación de Pearson.

Ambos arrojan valores que determinan la fuerza de correlación de la siguiente manera:

Resultados de correlación
- Entre 1 a 0.5 o -1 a -0.5 asociación fuerte.
- Entre 0.49 a 0.3 o -0.49 a - 0.3 asociación moderada
- <0.29 o <-0.29 asociación débil
Prueba y resultado de Hipótesis
- H0 Hipótesis nula indicaría que los valores de correlación son iguales, p>0.05, se
rechaza la Hipótesis.
- Ha Hipótesis Alternativa, de las correlaciones que buscamos, p<0.05, se acepta la
Hipótesis.

También podría gustarte