Está en la página 1de 30

Nombre del docente:

Ing. Jose Luis Pacheco Flores

Alumno:

Mis Ku Alan Irahi

Asignatura: Probabilidad y estadística.

Carrera: Ingeniería Civil

Semestre y grupo: 2- VV2

Tema de Investigación:

Variables aleatorias y distribuciones.

San Francisco de Campeche, Campeche a 24 Abril de 2021


El valor esperado es un concepto fundamental en el estudio de las distribuciones
de probabilidad. 
-Para obtener el valor esperado de una variable aleatoria discreta,
multiplicamos cada valor que ésta puede asumir por la probabilidad de ocurrencia
de ese valor y luego sumamos los productos. Es un promedio ponderado de
los resultados que se esperan en el futuro. 
-Sea X una Variable Aleatoria que toma valores en un conjunto discreto (en un 
conjunto finito de números en uno infinito como: los naturales, los enteros o los 
racionales), por ejemplo si la variable aleatoria X toma los siguientes valores: 
X = 0, 1, 2, 3, … decimos que es discreta.
-La probabilidad de que X tome cada uno de sus valores viene dada por la
función de probabilidad: 
P(X = i ), para i = 0, 1, 2, 3, ... ; 
Sea P(X = i ) = pi para i = 0, 1, 2, 3, ... Se tiene que p1 + p2 + p3 +...+ pn +... = 1
Una distribución continua describe las probabilidades de los posibles valores de
una variable aleatoria continua. Una variable aleatoria continua es una variable
aleatoria con un conjunto de valores posibles (conocido como el rango) que es
infinito y no se puede contar.

Las probabilidades de las variables aleatorias continuas (X) se definen como el


área por debajo de la curva de su PDF. Por lo tanto, solo los rangos de valores
pueden tener una probabilidad diferente de cero. La probabilidad de que una
variable aleatoria continua equivalga a algún valor siempre es cero.

Ejemplo de la distribución de pesos


La distribución normal continua puede describir la distribución del peso de
hombres adultos. Por ejemplo, usted puede calcular la probabilidad de que un
hombre pese entre 160 y 170 libras.
Gráfica de distribución del peso de hombres adultos
El área sombreada debajo de la curva en este ejemplo representa el rango de 160
a 170 libras. El área de este rango es 0.136; por lo tanto, la probabilidad de que un
hombre seleccionado aleatoriamente pese entre 160 y 170 libras es de 13.6%.
Toda el área por debajo de la curva equivale a 1.0.
Sin embargo, la probabilidad de que X sea exactamente igual a algún valor
siempre es cero, porque el área por debajo de la curva en un punto individual, que
no tiene anchura, es cero. Por ejemplo, la probabilidad de que un hombre pese
exactamente 190 libras es cero. Podría calcular una probabilidad diferente de cero
de que un hombre pese más de 190 libras, menos de 190 libras o entre 189.9 y
190.1 libras, pero la probabilidad de que pese exactamente 190 libras es cero.

En otras palabras, la distribución de Bernoulli es una distribución aplicada a una


variable aleatoria discreta, la cual solo puede resultar en dos sucesos posibles:
“éxito” y “no éxito”. 

Artículos recomendados: espacio muestral, ejemplo de distribución de Bernoulli y


Regla de Laplace. 

Experimentos Bernoulli

Un experimento es un acción aleatoria la cual no tenemos forma de predecir,


como el resultado de lanzar un dado. En la distribución de Bernoulli solo hacemos
un único experimento. En el caso que se realicen más de un experimento, como
en la distribución binomial, los experimentos son independientes entre sí. 

“Éxito” y “y no éxito”

Son experimentos donde la situación final solo puede resultar en dos resultados o
sucesos excluyentes:

 El resultado que esperamos que ocurra. Es decir, “éxito”. 


 El resultado distinto al resultado que esperamos que ocurra. Es decir, “no éxito”. 
 xisten una gran diversidad de experimentos o sucesos que pueden ser
caracterizados bajo esta distribución de probabilidad. Imaginemos el
lanzamiento de una moneda en el que definimos el suceso “sacar cara”
como el éxito. Si lanzamos 5 veces la moneda y contamos los éxitos (sacar
cara) que obtenemos, nuestra distribución de probabilidades se ajustaría a
una distribución binomial.
 Por lo tanto, la distribución binomial se entiende como una serie de pruebas
o ensayos en la que solo podemos tener 2 resultados (éxito o fracaso),
siendo el éxito nuestra variable aleatoria.
 Propiedades de la distribución binomial

 Para que una variable aleatoria se considere que sigue una distribución
binomial, tiene que cumplir las siguientes propiedades:
 En cada ensayo, experimento o prueba solo son posibles dos resultados
(éxito o fracaso).
 La probabilidad del éxito ha de ser constante. Esta se representa mediante
la letra p. La probabilidad de que salga cara al lanzar una moneda es 0,5 y
esta es constante dado que la moneda no cambia en cada experimento y
las probabilidades de sacar cara son constantes.
 La probabilidad de fracaso ha de ser también constate. Esta se representa
mediante la letra q = 1-p. Es importante fijarse que mediante esa ecuación,
sabiendo p o sabiendo q, podemos obtener la que nos falte.
 El resultado obtenido en cada experimento es independiente del anterior.
Por lo tanto, lo que ocurra en cada experimento no afecta a los siguientes.
 Los sucesos son mutuamente excluyentes, es decir, no pueden ocurrir los 2
al mismo tiempo. No se puede ser hombre y mujer al mismo tiempo o que al
lanzar una moneda salga cara y cruz al mismo tiempo.
 Los sucesos son colectivamente exhaustivos, es decir, al menos uno de los
2 ha de ocurrir. Si no se es hombre, se es mujer y, si se lanza una moneda,
si no sale cara ha de salir cruz.
 La variable aleatoria que sigue una distribución binomial se suele
representar como X~(n,p), donde n representa el número de ensayos o
experimentos y p la probabilidad de éxito.

nada una variable aleatoria discreta X decimos que su frecuencia se puede


aproximar satisfactoriamente a una distribución de Poisson, tal que:

Expresión de la distribución de Poisson

A diferencia de la distribución normal, la distribución de Poisson solo depende de


un parámetro, mu (marcado en amarillo).

La distribución geométrica es un modelo adecuado para aquellos procesos en los


que se repiten pruebas hasta la consecución del éxito a resultado deseado y tiene
interesantes aplicaciones en los muestreos realizados de esta manera . También
implica la existencia de una dicotomía de posibles resultados y la independencia
de las pruebas entre sí.

Proceso experimental del que se puede hacer derivar

Esta distribución se puede hacer derivar de un proceso experimental puro o de


Bernouilli en el que tengamos las siguientes características
· El proceso consta de un número no definido de pruebas o experimentos
separados o separables. El proceso concluirá cuando se obtenga por primera vez
el resultado deseado (éxito).

· Cada prueba puede dar dos resultados mutuamente excluyentes : A y no A

· La probabilidad de obtener un resultado A en cada prueba es p y la de obtener


un resultado no A es q
siendo (p + q = 1).

Las probabilidades p y q son constantes en todas las pruebas ,por tanto , las
pruebas ,son independientes (si se trata de un proceso de "extracción" éste se
llevará a , cabo con devolución del individuo extraído) .

· (Derivación de la distribución). Si en estas circunstancias aleatorizamos de forma


que tomemos como variable aleatoria X = el número de pruebas necesarias para
obtener por primera vez un éxito o resultado A , esta variable se distribuirá con
una distribución geométrica de parámetro p.

                                                                                           

Obtención de la función de cuantía

    De lo dicho anteriormente , tendremos que la variable X es el número de


pruebas necesarias para la consecución del primer éxito. De esta forma la
variables aleatoria toma valores enteros a partir del uno ; í 1,2,………ý

    La función de cuantía P(x) hará corresponder a cada valor de X la probabilidad


de obtener el primer éxito precisamente en la X-sima prueba. Esto es , P(X) será
la probabilidad del suceso obtener X-1 resultados "no A" y un éxito o resultado A
en la prueba número X teniendo en cuenta que todas las pruebas son
independientes y que conocemos sus probabilidades tendremos:

Las distribuciones de probabilidad son idealizaciones de los polígonos de


frecuencias. En el caso de una variable estadística continua consideramos el
histograma de frecuencias relativas, y se comprueba que al aumentar el número
de datos y el número de clases el histograma tiende a estabilizarse llegando a
convertirse su perfil en la gráfica de una función. 

 
Las distribuciones de probabilidad de variable continua se definen mediante una
función y=f(x) llamada función de probabilidad o función de densidad.
Así como en el histograma la frecuencia viene dada por el área, en la función de
densidad la probabilidad viene dada por el área bajo la curva, por lo que:
 El área encerrada bajo la totalidad de la curva es 1.
 Para obtener la probabilidad p(a£X£b) obtenemos la proporción de área
que hay bajo la curva desde a hasta b.
 La probabilidad de sucesos puntuales es 0, p(X=a)=0

 La distribución o modelo uniforme puede considerarse como proveniente de un


proceso de extracción aleatoria .El planteamiento radica en el hecho de que la
probabilidad se distribuye uniformemente a lo largo de un intervalo . Así : dada una
variable aleatoria continua, x , definida en el intervalo [a,b] de la recta real, diremos
que x tiene una distribución uniforme en el intervalo [a,b] cuando su función de

densidad para   sea:   para x Î [a,b].

 Su representación gráfica será :


 De manera que la función de distribución resultará:


Su representación gráfica será :


A pesar de la sencillez analítica de sus funciones de definición, la distribución
exponencial tiene una gran utilidad práctica ya que podemos considerarla como un
modelo adecuado para la distribución de probabilidad del tiempo de espera entre
dos hechos que sigan un proceso de Poisson. De hecho la distribución
exponencial puede derivarse de un proceso experimental de Poisson con las
mismas características que las que enunciábamos al estudiar la distribución de
Poisson, pero tomando como variable aleatoria , en este caso, el tiempo que tarda
en producirse un hecho

Obviamente, entonces , la variable aleatoria será continua. Por otro lado existe
una relación entre el parámetro a de la distribución exponencial , que más tarde
aparecerá , y el parámetro de intensidad del proceso l , esta relación es a = l

Al ser un modelo adecuado para estas situaciones tiene una gran utilidad en los
siguientes casos:

· Distribución del tiempo de espera entre sucesos de un proceso de Poisson

· Distribución del tiempo que transcurre hasta que se produce un fallo, si se


cumple la condición que la probabilidad de producirse un fallo en un instante no
depende del tiempo transcurrido .Aplicaciones en fiabilidad y teoría de la
supervivencia.

Función de densidad.

    A pesar de lo dicho sobre que la distribución exponencial puede derivarse de un


proceso de Poisson , vamos a definirla a partir de la especificación de su función.
de densidad:

    Dada una variable aleatoria X que tome valores reales no negativos {x ³ 0}
diremos que tiene una distribución exponencial de parámetro a con a ³ 0, si y sólo
si su función de densidad tiene la expresión: 

                                                                        Diremos entonces que 

 
En este caso se estarán calculando probabilidades de experimentos
Binomiales de una forma muy aproximada con la distribución Normal, esto
puede llevarse a cabo si n¥® y p = p(éxito) no es muy cercana a 0 y 1, o
cuando n es pequeño y p tiene un valor muy cercano a ½ ; esto es,
 
 
                                                                 
 
Donde:
x = variable de tipo discreto; solo toma valores enteros
m = np = media de la distribución Binomial
s =   = desviación estándar de la distribución Binomial
 
Cuando ocurren las condiciones anteriores, la gráfica de la distribución
Binomial, es muy parecida a la distribución Normal, por lo que es adecuado
calcular probabilidades con la Normal en lugar de con la Binomial y de una
forma más rápida.
En resumen, se utiliza la aproximación Normal para evaluar probabilidades
Binomiales siempre que p no esté cercano a 0 o 1. La aproximación es
excelente cuando n es grande y bastante buena para valores pequeños
de n si p está razonablemente cercana a ½. Una posible guía para determinar
cuando puede utilizarse la aproximación Normal es tener en cuenta el cálculo
de np y nq. Sí ambos, np y nq son mayores o iguales a 5, la aproximación será
buena.
 
Antes de empezar a resolver problemas con la aproximación Normal, es bueno
aclarar que se están evaluando probabilidades asociadas a una variable
discreta x, con una distribución  que evalúa variables de tipo continuo como es
la Normal,
Por lo que z sufre un pequeño cambio como se muestra a continuación:
 
Nombre del docente:

Ing. Jose Luis Pacheco Flores

Alumno:

Mis Ku Alan Irahi

Asignatura: Probabilidad y estadística.

Carrera: Ingeniería Civil

Semestre y grupo: 2- VV2

Tema de Investigación:

Estadística descriptiva y la Teoría muestreo.


San Francisco de Campeche, Campeche a 13 mayo de 2021

Las distribuciones de frecuencias son tablas en que se dispone las modalidades


de la variable por filas. En las columnas se dispone el número de ocurrencias por
cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es
facilitar la obtención de la información que contienen los datos.
Ejemplo: Quieren conocer si un grupo de individuos está a favor o en contra de la
exhibición de imágenes violentas por televisión, para lo cual han recogido los
siguientes datos:

La inspección de los datos originales no permite responder fácilmente a


cuestiones como cuál es la actitud mayoritaria del grupo, y resulta bastante más
difícil determinar la magnitud de la diferencia de actitud entre hombres y mujeres.
Podemos hacernos mejor idea si disponemos en una tabla los valores de la
variable acompañados del número de veces (la frecuencia) que aparece cada
valor:

X: Símbolo genérico de la variable.


f: Frecuencia (también se simboliza como ni).
La distribución de frecuencias de los datos del ejemplo muestra que la actitud
mayoritaria de los individuos del grupo estudiado es indiferente.
La interpretación de los datos ha sido facilitada porque se ha reducido el número
de números a examinar (en vez de los 20 datos originales, la tabla contiene 5
valores de la variable y 5 frecuencias).
Generalmente las tablas incluyen varías columnas con las frecuencias relativas
(son el número de ocurrencias dividido por el total de datos, y se simbolizan "fr" o
"pi"), frecuencias acumuladas (la frecuencia acumulada es el total de frecuencias
de los valores iguales o inferiores al de referencia, y se simbolizan "fa" o "na". No
obstante la frecuencia acumulada también es definida incluyendo al valor de
referencia), frecuencias acumuladas relativas (la frecuencia acumulada relativa es
el total de frecuencias relativas de los valores iguales o inferiores al de referencia,
y se simbolizan "fr" o "pa")
Ejemplo: Consideremos el siguiente grupo de datos:

La distribución de freciemcias es:

La reducción de datos mediante el agrupamiento en frecuencias no facilita su


interpretación: La tabla es demasiado grande. Para reducir el tamaño de la tabla
agrupamos los valores en intervalos, y las frecuencias son las de los conjuntos de
valores incluidos en los intervalos:

Ahora es más sencillo interpretar los datos. Por ejemplo, podemos apreciar
inmediatamente que el intervalo con mayor número de datos es el 34-39, o que el
75% de los datos tiene valor inferior a 46.
Este tipo de tabla es denominado "tabla de datos agrupados en intervalos".
Elementos básicos de las tablas de intervalos:
Intervalo: Cada uno de los grupos de valores de la variable que ocupan una fila en
una distribución de frecuencias
Límites aparentes: Valores mayor y menor del intervalo que son observados en la
tabla. Dependen de la precisión del instrumento de medida. En el ejemplo, los
límites aparentes del intervalo con mayor número de frecuencias son 34 y 39.
Límites exactos: Valores máximo y mínimo del intervalo que podrían medirse si se
contara con un instrumento de precisión perfecta. En el intervalo 34-39, estos
límites son 33.5 y 39.5
Punto medio del intervalo (Mco Marca de clase): Suma de los límites dividido por
dos. Mc del intervalo del ejemplo= 36.5
Amplitud del intervalo: Diferencia entre el límite exacto superior y el límite exacto
inferior. En el ejemplo es igual a 6.
Las medidas de tendencia central son medidas estadísticas que pretenden resumir
en un solo valor a un conjunto de valores. Representan un centro en torno al cual
se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central
más utilizadas son: media, mediana y moda. Las medidas de dispersión en
cambio miden el grado de dispersión de los valores de la variable. Dicho en otros
términos las medidas de dispersión pretenden evaluar en qué medida los datos
difieren entre sí. De esta forma, ambos tipos de medidas usadas en conjunto
permiten describir un conjunto de datos entregando información acerca de su
posición y su dispersión.

Los procedimientos para obtener las medidas estadísticas difieren levemente


dependiendo de la forma en que se encuentren los datos. Si los datos se
encuentran ordenados en una tabla estadística diremos que se encuentran
“agrupados” y si los datos no están en una tabla hablaremos de datos “no
agrupados”.

Según este criterio, haremos primero el estudio de las medidas estadísticas para
datos no agrupados y luego para datos agrupados.

Medidas estadísticas en datos no agrupado


Medidas de tendencia central

Promedio o media
La medida de tendencia central más conocida y utilizada es la media aritmética o
promedio aritmético. Se representa por la letra griega µ cuando se trata del
promedio del universo o población y por Ȳ (léase Y barra) cuando se trata del
promedio de la muestra. Es importante destacar que µ es una cantidad fija
mientras que el promedio de la muestra es variable puesto que diferentes
muestras extraídas de la misma población tienden a tener diferentes medias. La
media se expresa en la misma unidad que los datos originales: centímetros, horas,
gramos, etc.

Si una muestra tiene cuatro observaciones: 3, 5, 2 y 2, por definición el estadígrafo


será:

 Estos cálculos se pueden simbolizar:

 Donde Y1 es el valor de la variable en la primera observación, Y2 es el


valor de la segunda observación y así sucesivamente. En general, con “n”
observaciones, Yi representa el valor de la i-ésima observación. En este
caso el promedio está dado por

 De aquí se desprende la fórmula definitiva del promedio:

 Desviaciones: Se define como la desviación de un dato a la diferencia entre


el valor del dato y la media:
Ejemplo de desviaciones:

Una propiedad interesante de la media aritmética es que la suma de las


desviaciones es cero.

Mediana

Otra medida de tendencia central es la mediana. La mediana es el valor de la


variable que ocupa la posición central, cuando los datos se disponen en orden de
magnitud. Es decir, el 50% de las observaciones tiene valores iguales o inferiores
a la mediana y el otro 50% tiene valores iguales o superiores a la mediana.

Si el número de observaciones es par, la mediana corresponde al promedio de los


dos valores centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es
(9+11)/2=10.

Moda

La moda de una distribución se define como el valor de la variable que más se


repite. En un polígono de frecuencia la moda corresponde al valor de la variable
que está bajo el punto más alto del gráfico. Una muestra puede tener más de una
moda.

Medidas de dispersión

Las medidas de dispersión entregan información sobre la variación de la variable.


Pretenden resumir en un solo valor la dispersión que tiene un conjunto de datos.
Las medidas de dispersión más utilizadas son: Rango de variación, Varianza,
Desviación estándar, Coeficiente de variación.

Rango de variación
Se define como la diferencia entre el mayor valor de la variable y el menor valor de
la variable.

La mejor medida de dispersión, y la más generalizada es la varianza, o su raíz


cuadrada, la desviación estándar. La varianza se representa con el símbolo σ²
(sigma cuadrado) para el universo o población y con el símbolo s2 (s cuadrado),
cuando se trata de la muestra. La desviación estándar, que es la raíz cuadrada de
la varianza, se representa por σ (sigma) cuando pertenece al universo o población
y por “s”, cuando pertenece a la muestra. σ² y σ son parámetros, constantes para
una población particular; s2 y s son estadígrafos, valores que cambian de muestra
en muestra dentro de una misma población. La varianza se expresa en unidades
de variable al cuadrado y la desviación estándar simplemente en unidades de
variable.
Fórmulas

Donde µ es el promedio de la población.

Donde Ȳ es el promedio de la muestra.

Consideremos a modo de ejemplo una muestra de 4 observaciones

Según la fórmula el promedio calculado es 7, veamos ahora el cálculo de las


medidas de dispersión:

s2 = 34 / 3 = 11,33 Varianza de la muestra

La desviación estándar de la muestra (s) será la raíz cuadrada de 11,33 = 3,4.

Interpretación de la varianza (válida también para la desviación estándar): un alto


valor de la varianza indica que los datos están alejados del promedio. Es difícil
hacer una interpretación de la varianza teniendo un solo valor de ella. La situación
es más clara si se comparan las varianzas de dos muestras, por ejemplo varianza
de la muestra igual 18 y varianza de la muestra b igual 25. En este caso diremos
que los datos de la muestra b tienen mayor dispersión que los datos de la muestra
a. esto significa que en la muestra a los datos están más cerca del promedio y en
cambio en la muestra b los datos están más alejados del promedio.

Coeficiente de variación
Es una medida de la dispersión relativa de los datos. Se define como la desviación
estándar de la muestra expresada como porcentaje de la media muestral.

Es de particular utilidad para comparar la dispersión entre variables con distintas


unidades de medida. Esto porque el coeficiente de variación, a diferencia de la
desviación estándar, es independiente de la unidad de medida de la variable de
estudio.

POBLACION : Colectivo sujeto del estudio .Cabe distinguir


entre Población (colectivo en el que estamos considerando la magnitud sujeta a
estudio) y Universo (colectivo de todos los elementos sujetos del estudio ,en el
que no consideramos la magnitud). El universo es , por tanto, el conjunto de
individuos que poseen la característica o características sujetas a estudio , y éstas
en su conjunto forman la población

Así ; Analizando las estaturas de los españoles , la población sería el conjunto de


todas las estaturas de todos los españoles , siendo el universo el conjunto de
todos los españoles.

MUESTRA :Un subconjunto cualquiera de la población . Para que la muestra nos


sirva para extraer conclusiones sobre la población deber  ser representativa , lo
que se consigue seleccionando sus elementos al azar , lo que da lugar a una
muestra aleatoria

MUESTREO : Procedimiento para la obtención de una muestra

MUESTREO OPINATICO : es aquel procedimiento de selección de los elementos


muestrales que se realiza según el criterio del investigador . Es , por
tanto ,subjetivo y la muestra obtenida puede no ser   representativa de la
población.

MUESTREO ALEATORIO :es aquel procedimiento de selección de la muestra en


el que todos y cada uno de los elementos de la población tiene una cierta
probabilidad de resultar elegidos . De esta forma, si tenemos una población de N
elementos y estamos interesados en obtener una muestra de n elementos
(muestra de tamaño n), cada subconjunto de n elementos de la población tendrá  
también una cierta probabilidad de resultar la muestra elegida.

Si designamos por Mi a cada uno de estos subconjuntos ,con i= 1,2,3,...N;

cada Mi tendrá una cierta probabilidad P(Mi) de resultar elegido.

MUESTREO ALEATORIO SIMPLE: (M.A S.) :es    aquel muestreo aleatorio en el


que la probabilidad de que un elemento resulte seleccionado se mantiene
constante a lo largo de todo el proceso de obtención de la misma . La técnica del
muestreo puede asimilarse a un modelo de extracción de bolas de una urna con
devolución (reemplazamiento) de la bola extraída . Un mismo dato puede, en
consecuencia, resultar muestreado más de una vez .Cada elección no depender 
de las anteriores y , por tanto, los datos muestrales serán estocásticamente
independientes.

MUESTREO IRRESTRICTO (SIN REEMPLAZAMIENTO): en este tipo de


muestreo la probabilidad de obtener un dato en cada selección viene influida por
los resultados anteriores , en la medida en que en este muestreo no permitimos
que un mismo dato sea seleccionado más de una vez (lo que hace variar las
probabilidades en

cada extracción muestral) . Se corresponde con un modelo de extracción sin


reemplazamiento .Teniendo en cuenta la convergencia de la distribución
hipergeométrica a la binomial es fácil intuir que cuando la población sea muy
grande
(N® ¥ ) el muestreo irrestricto puede considerarse como muestreo aleatorio
simple.

Por tanto , en el estudio de muestras para poblaciones grandes consideraremos


sólo el muestreo simple .En el estudio de muestras de poblaciones finitas es, sin
embargo , fundamental analizar las distribuciones muestrales que generará su
adecuado muestreo irrestricto)

MUESTRA GENERICA DE TAMAÑO n : Es una variable aleatoria

n-dimensional ; X=[x1 ,x2 ,x 3,...,xn ] donde cada xj (con j=1,2,...n)

(cada dato muestral genérico) recorre todos los posibles valores que puede tomar
el j-simo elemento de una muestra de n elementos.

Por tanto , una muestra concreta (ya obtenida) será  un valor particular (una
realización concreta ) de la muestra genérica.

En la medida en que en el muestreo aleatorio cada elemento de la población tiene


una probabilidad de ser elegido ,cada dato muestral genérico será  una variable
aleatoria que tendrá  asociada una función de probabilidad f(x ) (de cuantía o de
densidad) según una determinada distribución que llamaremos distribución
básica , madre , o, simplemente, distribución de la población y recorrerá  todos
los posibles valores de la población.

Si trabajamos con un muestreo aleatorio simple (M.A.S.),cada dato muestral


genérico será  estocásticamente independiente de los demás y por tanto la función
de probabilidad (cuantía o densidad) conjunta de la muestra genérica será :

f(x) = f ( x1 ,x2 ,x3 ,x4 ……. ,x n ) =f(x1 )· f(x2 )· f(x3 )…..f(x n )

por ser las xj variables aleatorias independientes.

ESTADÍSTICO : Es cualquier función de los valores muestrales que dependa


exclusivamente de estos . En la medida en que los valores muestrales son
variables aleatorias también lo serán las funciones de éstos : los estadísticos.

A modo de ejemplo podemos decir que son estadísticos la media muestral ,la
varianza muestral , la cuasivarianza muestral , dado que son funciones de valores

muestrales exclusivamente y no sería estadístico la función       que si bien


contiene la varianza muestral , también depende de la poblacional        y por
tanto no es función exclusiva de la muestra.

Como hemos visto, los estadísticos son variables aleatorias por lo que tendrán
determinas distribuciones de probabilidad y determinados parámetros ( media ,
varianza , etc) .Para el desarrollo de la inferencia es imprescindible conocer dichas
distribuciones y parámetros , consiguiendo establecer entonces las relaciones
entre éstas y las de la población , pudiendo entonces inferir las características
desconocidas de ésta.
Tras un breve recorrido por las técnicas de muestreo pasaremos a desarrollar las
distribuciones de probabilidad de los principales estadísticos.

El muestreo no probabilístico es una técnica de muestreo en la cual el investigador


selecciona muestras basadas en un juicio subjetivo en lugar de hacer la selección
al azar.

A diferencia en el muestreo probabilístico, donde cada miembro de la población


tiene una posibilidad conocida de ser seleccionado, en el muestreo no
probabilístico, no todos los miembros de la población tienen la oportunidad de
participar en el estudio

El muestreo no probabilístico es más útil para estudios exploratorios como


la encuesta piloto (una encuesta que se implementa en una muestra más
pequeña, en comparación con el tamaño de muestra predeterminado).

El muestreo no probabilístico se utiliza donde no es posible extraer un muestreo


de probabilidad aleatorio debido a consideraciones de tiempo o costo.

El muestreo no probabilístico es un método menos estricto, este método de


muestreo depende en gran medida de la experiencia de los investigadores. El
muestreo no probabilístico comúnmente se lleva a cabo mediante métodos de
observación, y se utiliza ampliamente en la investigación cualitativa.

Tipos de muestreo no probabilístico y ejemplos

1.    Muestreo por conveniencia

El muestreo por conveniencia es una técnica de muestreo no probabilística donde


las muestras de la población se seleccionan solo porque están convenientemente
disponibles para el investigador. Estas muestras se seleccionan solo porque son
fáciles de reclutar y porque el investigador no consideró seleccionar una muestra
que represente a toda la población.

Idealmente, en la investigación, es bueno analizar muestras que representen a la


población. Pero, en algunas investigaciones, la población es demasiado grande
para evaluar y considerar a toda la población.

Esta es una de las razones por las que los investigadores confían en el  muestreo
por conveniencia, que es la técnica de muestreo no probabilística más común,
debido a su velocidad, costo-efectividad y facilidad de disponibilidad de la muestra.
Un ejemplo de muestreo por conveniencia sería utilizar a estudiantes voluntarios
que sean conocidos del investigador. El investigador puede enviar la encuesta a
los estudiantes y ellos en este caso actuarían como muestra.

2.    Muestreo consecutivo

Esta técnica de muestreo no probabilística es muy similar al muestreo por


conveniencia (con una ligera variación). En el muestreo consecutivo el
investigador elige una sola persona o un grupo de muestra, realiza una
investigación durante un periodo de tiempo, analiza los resultados y luego pasa a
otra asignatura o grupo de sujetos si es necesario.

Esta técnica de muestreo le da al investigador la oportunidad de trabajar con


muchos temas y afinar su investigación mediante la recopilación de resultados que
tienen conocimientos vitales.

3.    Muestreo por cuotas

Hipotéticamente, supongamos que un investigador desea estudiar los


objetivos profesionales de los empleados de una organización. En esta
organización trabajan 500 empleados y estos son conocidos en conjunto como
“población”.

Para comprender mejor una población, el investigador solo necesitará una


muestra, no a toda la población. Además, el investigador está interesado en
estratos particulares dentro de la población. Es aquí donde el muestreo por
cuotas ayuda a dividir la población en estratos o grupos.

Para estudiar los objetivos de más de 500 empleados, técnicamente la muestra


seleccionada debe tener un número proporcional de hombres y mujeres. Lo que
significa que deben haber 250 hombres y 250 mujeres. Como esto es improbable,
los grupos o estratos se seleccionan mediante el muestreo por cuotas

4.- Muestreo intencional o por juicio

En esta técnica de muestreo no probabilístico, las muestras se seleccionan


basándose únicamente en el conocimiento y la credibilidad del investigador. En
otras palabras, los investigadores eligen solo a aquellos que estos creen que son
los adecuados (con respecto a los atributos y la representación de una población)
para participar en un estudio de investigación.

Este no es un método científico de muestreo y la desventaja de esta técnica es


que los resultados pueden estar influenciados por nociones percibidas del
investigador. Por lo tanto, hay una gran cantidad de ambigüedad involucrada en
esta técnica de investigación. Por ejemplo, este tipo de método de muestreo se
puede utilizar en estudios piloto.

Nombre del docente:

Ing. Jose Luis Pacheco Flores

Alumno:

Mis Ku Alan Irahi

Asignatura: Probabilidad y estadística.

Carrera: Ingeniería Civil

Semestre y grupo: 2- VV2


Tema de Investigación:

Inferencia Estadistica.

San Francisco de Campeche, Campeche a 10 Junio de 2021

Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido
de una fórmula determinada. Por ejemplo, si se pretende estimar la talla media de
un determinado grupo de individuos, puede extraerse una muestra y ofrecer como
estimación puntual la talla media de los individuos. Lo más importante de un
estimador, es que sea un estimador eficiente. Es decir, que sea
insesgado(ausencia de sesgos) y estable en el muestreo o eficiente (varianza
mínima)
En estadística, se llama intervalo de confianza a un par de números entre los
cuales se estima que estará cierto valor desconocido con una determinada
probabilidad de acierto. Formalmente, estos números determinan un intervalo, que
se calcula a partir de datos de una muestra, y el valor desconocido es
un parámetro poblacional. La probabilidad de éxito en la estimación se representa
con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el
llamado error aleatorio o nivel de significación, esto es, una medida de las
posibilidades de fallar en la estimación mediante tal intervalo.
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma
que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de
confianza), mientras que para un intervalo más pequeño, que ofrece una
estimación más precisa, aumentan sus posibilidades de error.
Para la construcción de un determinado intervalo de confianza es necesario
conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que
el parámetro presente una distribución normal. También pueden construirse
intervalos de confianza con ladesigualdad de Chebyshov.
En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un
parámetro poblacional θ que sigue una determinada distribución de probabilidad,
es una expresión del tipo [θ1,θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función
de distribución de probabilidad de θ.

Un estimador es un estadístico que se utiliza para estimar un parámetro.


Por lo que la media de la muestra es un estimador de la media poblacional; y el
valor del estimador en una muestra se denomina estimación o estimación puntual.
La media muestral X es un estimador insesgado de la media poblacional (μ). El
error típico de la media es un indicador de la precisión de la estimación de la
media; cuanto menor es el error típico, mayor es la precisión. Dependiendo de la
desviación típica de la población y del tamaño de la muestra.

El tamaño de muestra permite a los investigadores saber cuántos individuos son


necesarios estudiar, para poder estimar un parámetro determinado con el grado
de confianza deseado, o el número necesario para poder detectar una
determinada diferencia entre los grupos de estudio, suponiendo que existiese
realmente. El cálculo del tamaño de la muestra es una función matemática que
expresa la relación entre las variables, cantidad de participantes y poder
estadístico.

La muestra de un estudio debe ser representativa de la población de interés. El


objetivo principal de seleccionarla es hacer inferencias estadísticas acerca de la
población de la que proviene. La selección debe ser probabilística.

Los factores estadísticos que determinan el tamaño de la muestra son: hipótesis,


error alfa, error beta, poder estadístico, variabilidad, pérdidas en el estudio y el
tamaño del efecto. Se revisan las fórmulas utilizadas para el cálculo del tamaño de
la muestra en las situaciones más frecuentes en investigación, así como la
revisión de fórmulas para un cálculo más rápido. Se incluyen ejemplos de
investigación en educación médica. También se revisan aspectos importantes
como: tamaño de la muestra para estudios piloto, estrategias para disminuir el
número necesario de sujetos, y software para el cálculo del tamaño de muestra.

una prueba de hipótesis es una regla que especifica cuando se puede aceptar o
rechazar una afirmación sobre una población dependiendo de la evidencia
proporcionada por una muestra de datos.

Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la
hipótesis nula y la hipótesis alternativa. La hipótesis nula es la afirmación que se
está comprobando. Normalmente la hipótesis nula es una afirmación de "sin
efecto" o "sin diferencia". La hipótesis alternativa es la afirmación que se desea ser
capaz de concluir que es verdadera basándose en la evidencia proporcionada por
los datos de la muestra.

Basándose en los datos de la muestra, la prueba determina cuando rechazar la


hipótesis nula. Se utiliza un p-valor, para realizar esa determinación. Si el p-valor
es menos que el nivel de significación (conocido como α o alfa), entonces se
puede rechazar la hipótesis nula.

Un error común suele ser que las pruebas de hipótesis estadísticas están
diseñadas para seleccionar la más probable de dos hipótesis. Sin embargo, al
diseñor una prueba de hipótesis, se configura la hipótesis nula como la que se
quiere rechazar. Dado que se fija que el nivel de significación sea pequeño antes
del análisis (normalmente, un valor de 0.05 funciona correctamente), Cuando se
rechaza la hipótesis nula, se tiene una prueba estadística de que la alternativa es
cierta. Por el contrario, si no se rechaza la hipóetesis nula, no se tiene prueba
estadística de que la hipótesis nula sea cierta. Esto es debido a que no se ha
fijado la probabilidad de que se acepte falsamente que la hipótesis nula sea
pequeña.

Las secciones anteriores han mostrado cómo puede estimarse un parámetro a


partir de los datos contenidos en una muestra. Puede encontrarse ya sea un sólo
número (estimador puntual) o un intervalo de valores posibles (intervalo de
confianza). Sin embargo, muchos problemas de ingeniería, ciencia, y
administración, requieren que se tome una decisión entre aceptar o rechazar una
proposición sobre algún parámetro. Esta proposición recibe el nombre
de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística,
puesto que muchos tipos de problemas de toma de decisiones, pruebas o
experimentos en el mundo de la ingeniería, pueden formularse como problemas
de prueba de hipótesis.

Una hipótesis estadística es una proposición o supuesto sobre los parámetros de


una o más poblaciones.

Suponga que se tiene interés en la rapidez de combustión de un agente propulsor


sólido utilizado en los sistemas de salida de emergencia para la tripulación de
aeronaves. El interés se centra sobre la rapidez de combustión promedio. De
manera específica, el interés recae en decir si la rapidez de combustión promedio
es o no 50 cm/s. Esto puede expresarse de manera formal como

Ho;   = 50 cm/s

H1;     50 cm/s


La proposición Ho;   = 50 cm/s, se conoce como hipótesis nula, mientras que la
proposición H1;     50 cm/s, recibe el nombre de hipótesis alternativa. Puesto
que la hipótesis alternativa especifica valores de   que pueden ser mayores o
menores que 50 cm/s, también se conoce como hipótesis alternativa bilateral. En
algunas situaciones, lo que se desea es formular una hipótesis alternativa
unilateral, como en

Ho;   = 50 cm/s Ho;   = 50 cm/s

H1;   < 50 cm/s H1;   > 50 cm/s

Es importante recordar que las hipótesis siempre son proposiciones sobre la


población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo
general, el valor del parámetro de la población especificado en la hipótesis nula se
determina en una de tres maneras diferentes:

1. Puede ser resultado de la experiencia pasada o del conocimiento del


proceso, entonces el objetivo de la prueba de hipótesis usualmente es
determinar si ha cambiado el valor del parámetro.
2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el
proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es
verificar la teoría o modelo.
3. Cuando el valor del parámetro proviene de consideraciones externas, tales
como las especificaciones de diseño o ingeniería, o de obligaciones
contractuales. En esta situación, el objetivo usual de la prueba de hipótesis
es probar el cumplimiento de las especificaciones.

Un procedimiento que conduce a una decisión sobre una hipótesis en particular


recibe el nombre de prueba de hipótesis. Los procedimientos de prueba de
hipótesis dependen del empleo de la información contenida en la muestra aleatoria
de la población de interés. Si esta información es consistente con la hipótesis, se
concluye que ésta es verdadera; sin embargo si esta información es inconsistente
con la hipótesis, se concluye que esta es falsa. Debe hacerse hincapié en que la
verdad o falsedad de una hipótesis en particular nunca puede conocerse con
certidumbre, a menos que pueda examinarse a toda la población. Usualmente
esto es imposible en muchas situaciones prácticas. Por tanto, es necesario
desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la
probabilidad de llegar a una conclusión equivocada.

La hipótesis nula, representada por Ho, es la afirmación sobre una o más


características de poblaciones que al inicio se supone cierta (es decir, la "creencia
a priori").
La hipótesis alternativa, representada por H1, es la afirmación contradictoria a H o, y
ésta es la hipótesis del investigador.

La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la


evidencia muestral sugiere que H o es falsa. Si la muestra no contradice
decididamente a Ho, se continúa creyendo en la validez de la hipótesis nula.
Entonces, las dos conclusiones posibles de un análisis por prueba de hipótesis
son rechazar Ho o no rechazar Ho.

Prueba de una Hipótesis Estadística

Para ilustrar los conceptos generales, considere el problema de la rapidez de


combustión del agente propulsor presentado con anterioridad. La hipótesis nula es
que la rapidez promedio de combustión es 50 cm/s, mientras que la hipótesis
alternativa es que ésta no es igual a 50 cm/s. Esto es, se desea probar:

Ho;   = 50 cm/s

H1;     50 cm/s

Supóngase que se realiza una prueba sobre una muestra de 10 especímenes, y


que se observa cual es la rapidez de combustión promedio muestral. La media
muestral es un estimador de la media verdadera de la población. Un valor de la
media muestral   que este próximo al valor hipotético   = 50 cm/s es una
evidencia de que el verdadero valor de la media   es realmente 50 cm/s; esto es,
tal evidencia apoya la hipótesis nula H o. Por otra parte, una media muestral muy
diferente de 50 cm/s constituye una evidencia que apoya la hipótesis alternativa
H1. Por tanto, en este caso, la media muestral es el estadístico de prueba.

En las unidades anteriores se manejó el uso de la distribución z, la cual se podía


utilizar siempre y cuando los tamaños de las muestras fueran mayores o iguales a
30 ó en muestras más pequeñas si la distribución o las distribuciones de donde
proviene la muestra o las muestras son normales.

En esta unidad se podrán utilizar muestras pequeñas siempre y cuando la


distribución de donde proviene la muestra tenga un comportamiento normal. Esta
es una condición para utilizar las tres distribuciones que se manejarán en esta
unidad; t de student, X2 ji-cuadrada y Fisher.

A la teoría de pequeñas muestras también se le llama teoría exacta del muestreo,


ya que también la podemos utilizar con muestras aleatorias de tamaño grande.

En esta unidad se verá un nuevo concepto necesario para poder utilizar a las tres
distribuciones mencionadas. Este concepto es "grados de libertad".

Para definir grados de libertad se hará referencia a la varianza muestral:


Esta fórmula está basada en n-1 grados de libertad (degrees of freedom). Esta
terminología resulta del hecho de que si bien s 2 está basada
en n cantidades     . . . ,   éstas suman cero, así que especificar
los valores de cualquier n-1 de las cantidades determina el valor restante. Por
ejemplo, si n=4 y

;   y  , entonces automáticamente tenemos 


, así que sólo tres de los cuatro valores de   están libremen te determinamos
3 grados de libertad.

Entonces, en esta unidad la fórmula de grados de libertad será n-1 y su


simbología 

Nombre del docente:

Ing. Jose Luis Pacheco Flores

Alumno:

Mis Ku Alan Irahi

Asignatura: Probabilidad y estadística.

Carrera: Ingeniería Civil


Semestre y grupo: 2- VV2

Tema de Investigación:

Analisis de regresión y correlacion.

San Francisco de Campeche, Campeche a 30 Junio de 2021

Para estudiar la relación lineal existente entre dos variables continuas es


necesario disponer de parámetros que permitan cuantificar dicha relación. Uno
de estos parámetros es la covarianza, que indica el grado de variación conjunta
de dos variables aleatorias.
Covarianza muestral=Cov(X,Y)=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)N−1Covarianza
muestral=Cov(X,Y)=∑i=1n(xi−x¯)(yi−y¯)N−1
siendo x¯¯¯x¯ e y¯¯¯y¯ la media de cada variable y xixi e yiyi el valor de las
variables para la observación ii.
La covarianza depende de las escalas en que se miden las variables estudiadas,
por lo tanto, no es comparable entre distintos pares de variables. Para poder
hacer comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Existen diferentes tipos, de entre los que
destacan el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva
perfecta y -1 una correlación negativa perfecta.
 Se emplean como medida de fuerza de asociación (tamaño del efecto):
o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.

Las principales diferencias entre estos tres coeficientes de asociación son:


 La correlación de Pearson funciona bien con variables cuantitativas que
tienen una distribución normal. En el libro Handbook of Biological
Statatistics se menciona que sigue siendo bastante robusto a pesar de la
falta de normalidad. Es más sensible a los valores extremos que las otras
dos alternativas.
 La correlación de Spearman se emplea cuando los datos son ordinales, de
intervalo, o bien cuando no se satisface la condición de normalidad para
variables continuas y los datos se pueden transformar a rangos. Es un
método no paramétrico.
 La correlación de Kendall es otra alternativa no paramétrica para el
estudio de la correlación que trabaja con rangos. Se emplea cuando se
dispone de pocos datos y muchos de ellos ocupan la misma posición en el
rango, es decir, cuando hay muchas ligaduras.
Además del valor obtenido para el coeficiente de correlación, es necesario
calcular su significancia. Solo si el p-value es significativo se puede aceptar que
existe correlación, y esta será de la magnitud que indique el coeficiente. Por muy
cercano que sea el valor del coeficiente de correlación a +1+1 o −1−1, si no es
significativo, se ha de interpretar que la correlación de ambas variables es 0, ya
que el valor observado puede deberse a simple aleatoriedad.
El test paramétrico de significancia estadística empleado para el coeficiente de
correlación es el t-test. Al igual que ocurre siempre que se trabaja con muestras,
por un lado está el parámetro estimado (en este caso el coeficiente de
correlación) y por otro su significancia a la hora de considerar la población
entera. Si se calcula el coeficiente de correlación entre XX e YY en diferentes
muestras de una misma población, el valor va a variar dependiendo de las
muestras utilizadas. Por esta razón se tiene que calcular la significancia de la
correlación obtenida y su intervalo de confianza.

La correlación lineal y la regresión lineal simple son métodos estadísticos que


estudian la relación lineal existente entre dos variables. Antes de profundizar en
cada uno de ellos, conviene destacar algunas diferencias:
 La correlación cuantifica como de relacionadas están dos variables,
mientras que la regresión lineal consiste en generar una ecuación
(modelo) que, basándose en la relación existente entre ambas variables,
permita predecir el valor de una a partir de la otra.
 El cálculo de la correlación entre dos variables es independiente del orden
o asignación de cada variable a XX e YY, mide únicamente la relación
entre ambas sin considerar dependencias. En el caso de la regresión
lineal, el modelo varía según qué variable se considere dependiente de la
otra (lo cual no implica causa-efecto).
 A nivel experimental, la correlación se suele emplear cuando ninguna de
las variables se ha controlado, simplemente se han medido ambas y se
desea saber si están relacionadas. En el caso de estudios de regresión
lineal, es más común que una de las variables se controle (tiempo,
concentración de reactivo, temperatura…) y se mida la otra.
 Por norma general, los estudios de correlación lineal preceden a la
generación de modelos de regresión lineal. Primero se analiza si ambas
variables están correlacionadas y, en caso de estarlo, se procede a
generar el modelo de regresión.

Este coeficiente se emplea cuando una o ambas escalas de medidas de las


variables son ordinales, es decir, cuando una o ambas escalas de medida son
posiciones. Ejemplo: Orden de llegada en una carrera y peso de los atletas.
Se calcula aplicando la siguiente ecuación:

Nota: Los datos hay que traducirlos u ordenarlos en rangos. A los puntajes más
elevados le asignamos el rango 1 al siguiente el rango 2 y así sucesivamente. Si
se repiten dos puntajes o más se calculan las medias aritméticas.
Ejemplo ilustrativo N° 1: La siguiente tabla muestra el rango u orden obtenido en
la primera evaluación (X) y el rango o puesto obtenido en la segunda evaluación
(Y) de 8 estudiantes universitarios en la asignatura de Estadística. Calcular el
coeficiente de correlación por rangos de Spearman.

Estudiante X Y

Dyana 1 3

Elizabeth 2 4

Mario 3 1

Orlando 4 5

Mathías 5 6

Josué 6 2

Anita 7 8
Lucía 8 7
Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos
variables, es decir, si se representan en un diagrama de dispersión los valores que
toman dos variables, el coeficiente de correlación lineal señalará lo bien o lo mal
que el conjunto de puntos representados se aproxima a una recta.

De una forma menos coloquial, la podemos definir como el número que mide el
grado de intensidad y el sentido de la relación entre dos variables.

También podría gustarte