Está en la página 1de 12

TEMA #1 “ESTADISTICA DESCRIPTIVA”

La estadística descriptiva son coeficientes descriptivos que permiten mostrar


información resumida de un conjunto de datos, que puede ser una representación
de toda la población o una muestra de ella. La estadística descriptiva se
descompone en las medidas de tendencia central y medidas de variabilidad, o
dispersión. Medidas de tendencia central incluyen la media, la mediana y la moda,
mientras que las medidas de la variabilidad incluyen la desviación estándar o la
varianza, el mínimo y el máximo de la variable, y asimetría.

El diagrama tallo y hoja permite obtener simultáneamente una distribución de


frecuencias de la variable y su representación gráfica. Para construirlo basta
separar en cada dato el último dígito de la derecha (que constituye la hoja) del
bloque de cifras restantes (que formará el tallo). Esta representación de los datos
es semejante a la de un histograma pero además de ser fáciles de elaborar,
presentan más información que estos.

Rango es el punto en la gráfica más alto; por ello, comparte unidades con los
datos. Permite obtener una idea de la dispersión de los datos, cuanto mayor es el
rango, más dispersos están los datos (sin considerar la afectación de los valores
extremos). El rango nos muestra la distribución de los valores en una serie. Si el
rango es un número muy alto, entonces los valores de la serie están bastante
distribuidos. En cambio, si se trata de un número pequeño, quiere decir que los
valores de la serie están muy cerca entre sí.

Los intervalos de clase se emplean si las variables toman un número grande de


valores o la variable es continua. Se agrupan los valores en intervalos que tengan
la misma amplitud denominados clases. A cada clase se le asigna su frecuencia
correspondiente. Cada clase está delimitada por el límite inferior de la clase y el
límite superior de la clase. La amplitud de la clase es la diferencia entre el límite
superior e inferior de la clase. La marca de clase es el punto medio de cada
intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos
parámetros.

El tamaño o anchura de un intervalo de clase es la diferencia entre los límites


reales de clase que lo forman y se conoce como anchura de clase, tamaño de
clase o longitud de clase. Si todos los intervalos de clase de una distribución de
frecuencias tienen igual anchura, esta anchura común se representa por c. En tal
caso, c es igual a la diferencia entre dos sucesivos límites de clase inferiores o
superiores.

Las Tablas de frecuencias son herramientas de Estadística donde se colocan los


datos en columnas representando los distintos valores recogidos en la muestra y
las frecuencias (las veces) en que ocurren.
La frecuencia absoluta es el número de veces que aparece un determinado valor
en un estudio estadístico. Se representa por fi. La suma de las frecuencias
absolutas es igual al número total de datos, que se representa por N.

La frecuencia acumulada es la suma de las frecuencias absolutas de todos los


valores inferiores o iguales al valor considerado. La frecuencia acumulada se
representa por Fi.

La frecuencia relativa es el cociente entre la frecuencia absoluta de un


determinado valor y el número total de datos.

Un histograma es una representación de líneas verticales sin ningún sentido en lo


absoluto gráfica de una variable en forma de barras, donde la superficie de cada
barra es proporcional a la frecuencia de los valores representados. Sirven para
obtener una "primera vista" general, o panorama, de la distribución de la
población, o de la muestra, respecto a una característica, cuantitativa y continua
(como la longitud o el peso). De esta manera ofrece una visión de grupo
permitiendo observar una preferencia, o tendencia, por parte de la muestra o
población por ubicarse hacia una determinada región de valores dentro del
espectro de valores posibles (sean infinitos o no) que pueda adquirir la
característica.

El polígono de frecuencias es un gráfico que permite la rápida visualización de las


frecuencias de cada una de las categorías del estudio. Normalmente se utiliza con
frecuencias absolutas, pero también se utiliza con frecuencias relativas. Se conoce
como polígonos de frecuencia para datos agrupados a aquellos que se desarrollan
mediante la marca de clase que tiene coincidencia con el punto medio de las
distintas columnas del histograma.

Una media o promedio es una medida de tendencia central. Resulta al efectuar


una serie determinada de operaciones con un conjunto de números y que, en
determinadas condiciones, puede representar por sí solo a todo el conjunto».
Existen distintos tipos de medias, tales como la media geométrica, la media
ponderada y la media armónica aunque en el lenguaje común, el término se refiere
generalmente a la media aritmética.

La desviación estándar es la medida de dispersión más común, que indica qué tan
dispersos están los datos con respecto a la media. Mientras mayor sea la
desviación estándar, mayor será la dispersión de los datos. El símbolo σ (sigma)
se utiliza frecuentemente para representar la desviación estándar de una
población, mientras que s se utiliza para representar la desviación estándar de una
muestra.

La varianza o variancia de una variable aleatoria es una medida de dispersión


definida como la esperanza del cuadrado de la desviación de dicha variable
respecto a su media. Su unidad de medida corresponde al cuadrado de la unidad
de medida de la variable: por ejemplo, si la variable mide una distancia en metros,
la varianza se expresa en metros al cuadrado. La varianza tiene como valor
mínimo 0.

TEMA #4 “EVENTOS”

La probabilidad del evento es la probabilidad de que ocurra un resultado o evento


específico. Lo opuesto de un evento es un no evento. La probabilidad del evento
también se conoce como probabilidad pronosticada. La probabilidad del evento
estima la probabilidad de que ocurra un evento, como sacar un as de un mazo de
cartas o producir una pieza no conforme. La probabilidad de un evento varía de 0
(imposible) a 1 (seguro).

Cada ejecución en un experimento se denomina ensayo. Una probabilidad de


evento acumulada estima la probabilidad de que ocurra un conjunto de eventos.

Un evento es el resultado posible o un grupo de resultados posibles de un


experimento y es la mínima unidad de análisis para efectos de cálculos
probabilísticos
Los eventos se clasifican de la siguiente forma:

1. Mutuamente excluyentes: aquellos que no pueden ocurrir al mismo


tiempo.
2. Independientes: Estos no se ven afectados por otros independientes.
3. Dependientes: cuando un evento afecta a la probabilidad de ocurrencia de
otro.
4. No excluyentes entre sí: cuando la ocurrencia de uno de ellos no impide
que ocurra el otro.

Cuando el enunciado de un problema de la probabilidad tiene como condición que


se presente uno u otro evento, la probabilidad total se forma por la suma directa
de las

1).P (AoB)=P(A)+P (B)

En el caso de eventos no excluyentes entre si debe considerarse que la


probabilidad de que ocurran ambos eventos está incluida en ellos esa probabilidad
de la suma directa (regla general de la suma de probabilidades)

P (AoB) =P (A) +P (B)-P (AyB)

Cuando el enunciado de un problema de probabilidad tiene como condición que se


presente uno y otro evento, la probabilidad total se forma por la multiplicación
directa de las probabilidades individuales si los eventos son independientes.

2).P (AyB)=P(A)* P (B); si son independientes


Si los eventos son dependientes deben considerarse que ocurra un segundo
evento si ya ocurrió un primer evento esto se conoce como: regla general de la
multiplicación de probabilidades.

TEMA #5 “TEOREMA DE BAYES”

En términos más generales y menos matemáticos, el teorema de Bayes es de


enorme relevancia puesto que vincula la probabilidad de A dado B con la
probabilidad de B dado A. Es decir, por ejemplo, que sabiendo la probabilidad de
tener un dolor de cabeza dado que se tiene gripe, se podría saber (si se tiene
algún dato más), la probabilidad de tener gripe si se tiene un dolor de cabeza.
Muestra este sencillo ejemplo la alta relevancia del teorema en cuestión para la
ciencia en todas sus ramas, puesto que tiene vinculación íntima con la
comprensión de la probabilidad de aspectos causales dados los efectos
observados.

El teorema de Bayes es válido en todas las aplicaciones de la teoría de la


probabilidad. Sin embargo, hay una controversia sobre el tipo de probabilidades
que emplea. En esencia, los seguidores de la estadística tradicional sólo admiten
probabilidades basadas en experimentos repetibles y que tengan una confirmación
empírica mientras que los llamados estadísticos bayesianos permiten
probabilidades subjetivas.

El teorema puede servir entonces para indicar cómo debemos modificar nuestras
probabilidades subjetivas cuando recibimos información adicional de un
experimento. La estadística bayesiana está demostrando su utilidad en ciertas
estimaciones basadas en el conocimiento subjetivo a priori y el hecho de permitir
revisar esas estimaciones en función de la evidencia empírica es lo que está
abriendo nuevas formas de hacer conocimiento. Una aplicación de esto son los
clasificadores bayesianos que son frecuentemente usados en implementaciones
de filtros de correo basura o spam, que se adaptan con el uso. Otra aplicación se
encuentra en la fusión de datos, combinando información expresada en términos
de densidad de probabilidad proveniente de distintos sensores.

La fórmula del Teorema de Bayes es: 

Tratar de explicar estar fórmula con palabras es un galimatías, así que vamos a
intentar explicarla con un ejemplo. De todos modos, antes de entrar en el ejercicio,
recordar que este teorema también exige que el suceso A forme un sistema
completo.
TEMA #6 “DISTRIBUCION BINOMIAL”

La distribución binomial es una distribución de probabilidad discreta que cuenta el


número de éxitos en una secuencia de n ensayos de Bernoulli independientes
entre sí, con una probabilidad fija p de ocurrencia del éxito entre los ensayos. Un
experimento de Bernoulli se caracteriza por ser dicotómico, esto es, solo dos
resultados son posibles. A uno de estos se denomina «éxito» y tiene una
probabilidad de ocurrencia p y al otro, «fracaso», con una probabilidad q = 1 - p.2
En la distribución binomial el anterior experimento se repite n veces, de forma
independiente, y se trata de calcular la probabilidad de un determinado número de
éxitos. Para n = 1, la binomial se convierte, de hecho, en una distribución de
Bernoulli.

En estadística, la distribución binomial es una distribución de probabilidad discreta


que indica el número de éxitos al realizar una secuencia de n ensayos
independientes entre sí, con una probabilidad fija (p) de ocurrencia del éxito entre
esos ensayos. Una variable discreta es aquella que solo puede tomar un número
finito de valores entre dos valores cualesquiera de una característica.

La función de probabilidad de la distribución binomial, también denominada


función de la distribución de Bernoulli, se expresa con la fórmula:

Donde:

n = es el número de pruebas o ensayos.

x = es el número esperado de éxitos.

p = es la probabilidad porcentual de éxito.

q = es la probabilidad porcentual de fracaso, que se obtiene siempre haciendo 1 –


p.

Una distribución binomial es una distribución de probabilidad ampliamente


utilizada de una variable aleatoria discreta es la distribución binomial. Esta
describe varios procesos de interés para los administradores.
Cada proceso de Bernoulli tiene su propia probabilidad característica. Pongamos
el caso en que siete décimas partes de las personas que solicitaron cierto tipo de
empleo pasaron la prueba. Diremos entonces que la probabilidad característica
fue de 0.7 pero podemos describir los resultados de la prueba como un proceso de
Bernoulli sólo si tenemos la seguridad de que la proporción de los que fueron
aprobados permaneció constante con el tiempo.

Des de luego, la otra característica del proceso de Bernoulli también deberá ser
satisfecha. Cada prueba deberá arrojar tan sólo dos resultados (éxito o fracaso= y
los resultados de las pruebas habrán de ser estadísticamente independientes.

En un lenguaje más formal, el símbolo p representa la probabilidad de un éxito y el


símbolo q (1- p) representa la probabilidad de un fracaso. Para representar cierto
número de éxitos, utilizaremos el símbolo r y para simbolizar el número total de
ensayos emplearemos el símbolo n.

El número de eventos (X) en n ensayos sigue una distribución binomial si se


cumplen las siguientes condiciones:

 El número de ensayos es fijo.


 Cada ensayo es independiente de otros ensayos.
 Cada ensayo tiene uno de dos resultados: evento o no evento.
 La probabilidad de un evento es igual para cada ensayo.

Una de las propiedades de la distribución binomial es que cuando n es grande, la


distribución binomial puede ser aproximada razonablemente por la distribución
normal. Por ejemplo, para la siguiente distribución binomial, n = 100 y p = 0.5.
TEMA #7 “DISTRIBUCION POISSON”

La distribución de Poisson es una distribución de probabilidad discreta que


expresa, a partir de una frecuencia de ocurrencia media, la probabilidad de que
ocurra un determinado número de eventos durante cierto período de tiempo.
Concretamente, se especializa en la probabilidad de ocurrencia de sucesos con
probabilidades muy pequeñas, o sucesos "raros".

Esta distribución es una de las más importantes distribuciones de variable


discreta. Sus principales aplicaciones hacen referencia a la modelización de
situaciones en las que nos interesa determinar el número de hechos de cierto tipo
que se pueden producir en un intervalo de tiempo o de espacio, bajo presupuestos
de aleatoriedad y ciertas circunstancias restrictivas. Otro de sus usos frecuentes
es la consideración límite de procesos dicotómicos reiterados un gran número de
veces si la probabilidad de obtener un éxito es muy pequeña. 

Proceso experimental del que se puede hacer derivar

Esta distribución se puede hacer derivar de un proceso experimental de


observación en el que tengamos las siguientes características

· Se observa la realización de hechos de cierto tipo durante un cierto periodo de


tiempo o a lo largo de un espacio de observación

· Los hechos a observar tienen naturaleza aleatoria; pueden producirse o no de


una manera no determinística.

· La probabilidad de que se produzcan un número x de éxitos en un intervalo de


amplitud t no depende del origen del intervalo (Aunque, sí de su amplitud)

· La probabilidad de que ocurra un hecho en un intervalo infinitésimo es


prácticamente proporcional a la amplitud del intervalo.

· La probabilidad de que se produzcan 2 o más hechos en un intervalo infinitésimo


es un infinitésimo de orden superior a dos.

En consecuencia, en un intervalo infinitésimo podrán producirse O ó 1 hecho pero


nunca más de uno

· Si en estas circunstancias aleatorizados de forma que la variable aleatoria X


signifique o designe el "número de hechos que se producen en un intervalo de
tiempo o de espacio", la variable X se distribuye con una distribución de parámetro
l. Así:          

    El parámetro de la distribución es, en principio, el factor de proporcionalidad


para la probabilidad de un hecho en un intervalo infinitésimo. Se le suele designar
como parámetro de intensidad, aunque más tarde veremos que se corresponde
con el número medio de hechos que cabe esperar que se produzcan en un
intervalo unitario (media de la distribución); y que también coincide con la varianza
de la distribución.

Por otro lado es evidente que se trata de un modelo discreto y que el campo de
variación de la variable será el conjunto del número natural, incluido el cero:    

La distribución de Poisson verifica el teorema de adición para el parámetro l.

"La variable suma de dos o más variables independientes que tengan una
distribución de Poisson de distintos parámetros l (de distintas medias) se
distribuirá, también con una distribución de Poisson con parámetro l la suma de los
parámetros l (con media, la suma de las medias).

En efecto:

Sean x e y dos variables aleatorias que se distribuyen con dos distribuciones de


Poisson de distintos parámetros siendo además x e y independientes

Así e
TEMA #8 “DISTRIBUCION NORMAL”

Se llama distribución normal, distribución de Gauss, distribución gaussiana o


distribución de Laplace-Gauss, a una de las distribuciones de probabilidad de
variable continua que con más frecuencia aparece en estadística y en la teoría de
probabilidades.

La distribución normal es una distribución con forma de campana donde las desviaciones estándar
sucesivas con respecto a la media establecen valores de referencia para estimar el porcentaje de
observaciones de los datos. Estos valores de referencia son la base de muchas pruebas de
hipótesis, como las pruebas Z y t.

La importancia de esta distribución radica en que permite modelar numerosos


fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que
subyacen a gran parte de este tipo de fenómenos son desconocidos, por la
enorme cantidad de variables incontrolables que en ellos intervienen, el uso del
modelo normal puede justificarse asumiendo que cada observación se obtiene
como la suma de unas pocas causas independientes.

De hecho, la estadística descriptiva sólo permite describir un fenómeno, sin


explicación alguna. Para la explicación causal es preciso el diseño experimental,
de ahí que al uso de la estadística en psicología y sociología sea conocido como
método correlacionar.

La distribución normal también aparece en muchas áreas de la propia estadística.


Por ejemplo, la distribución maestral de las medias muéstrales es
aproximadamente normal, cuando la distribución de la población de la cual se
extrae la muestra no es normal. Además, la distribución normal maximiza la
entropía entre todas las distribuciones con media y varianza conocidas, lo cual la
convierte en la elección natural de la distribución subyacente a una lista de datos
resumidos en términos de media muestral y varianza. La distribución normal es la
más extendida en estadística y muchos test estadísticos están basados en una
"normalidad" más o menos justificada de la variable aleatoria bajo estudio.

En probabilidad, la distribución normal aparece como el límite de varias


distribuciones de probabilidad continuas y discretas.

Propiedades del modelo Normal

1. Su esperanza es μ.
2. Su varianza es σ2 y, por tanto, su desviación típica es σ.

3. Es simétrica respecto a su media μ, como puede apreciarse en la


representación anterior.

4. Media, moda y mediana coinciden (μ).

5. Cualquier transformación lineal de una variable con distribución Normal


seguirá también el modelo Normal. Si X ~ N(μ, σ) y definimos Y = aX + b
(con a ≠ 0), entonces Y ~ N(aμ + b, |a|σ). Es decir, la esperanza de Y será
aμ + b y su desviación típica, |a|σ.

6. Cualquier combinación lineal de variables normales independientes sigue


también una distribución Normal. Es decir, dadas n variables aleatorias
independientes con distribución  Xi ~ N(μi, σi) para i = 1, 2, ..., n la
combinación lineal: Y = anXn + an−1Xn−1+ ... + a1X1 + a0 sigue también el
modelo Normal:
TEMA #9 “INTERVALOS DE CONFIANZA”

Se llama intervalo de confianza a un par o varios pares de números entre los


cuales se estima que estará cierto valor desconocido con una determinada
probabilidad de acierto. Formalmente, estos números determinan un intervalo, que
se calcula a partir de datos de una muestra, y el valor desconocido es un
parámetro poblacional. La probabilidad de éxito en la estimación se representa
con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el
llamado error aleatorio o nivel de significación, esto es, una medida de las
posibilidades de fallar en la estimación mediante tal intervalo. 1

El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma


que un intervalo más amplio tendrá más probabilidad de acierto (mayor nivel de
confianza), mientras que para un intervalo más pequeño, que ofrece una
estimación más precisa, aumenta su probabilidad de error.

Un intervalo de confianza es una técnica de estimación utilizada en estadística


inferencial que permite acotar un par o varios pares de valores, dentro de los
cuales se encontrará la estimación puntual buscada (con una determinada
probabilidad).

Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una


media muestral (uno superior y otro inferior). Estos valores van a acotar un rango
dentro del cual, con una determinada probabilidad, se va a localizar el parámetro
poblacional.

Factores de los que depende un intervalo de confianza

El cálculo de un intervalo de confianza depende principalmente de los siguientes


factores:

 Tamaño de la muestra seleccionada: Dependiendo de la cantidad de datos


que se hayan utilizado para calcular el valor muestral, este se acercará más
o menos al verdadero parámetro poblacional.
 Nivel de confianza: Nos va a informar en qué porcentaje de casos nuestra
estimación acierta. Los niveles habituales son el 95% y el 99%.
 Margen de error de nuestra estimación: Este se denomina como alfa y nos
informa de la probabilidad que existe de que el valor poblacional esté fuera
de nuestro intervalo.
 Lo estimado en la muestra (media, varianza, diferencia de medias…): De
esto va a depender el estadístico pivote para el cálculo del intervalo.

Dada una variable aleatoria con distribución de Poisson P(λ), el objetivo es la


construcción de un intervalo de confianza para el parámetro λ, basado en una
muestra de tamaño n de la variable. 

Del mismo modo que para una proporción, existe una solución exacta y una
aproximación asintótica al intervalo de confianza para el parámetro λ.

Aproximación asintótica

Para valores del parámetro λ grandes, la distribución de Poisson puede


aproximarse a una distribución Normal según:

Dada una muestra de n observaciones independientes, distribuidas según una


Poisson de parámetro λ, Xi ~ P(λ), como la distribución de Poisson es aditiva en λ
se cumple que ∑Xi ~ P(nλ). Esta última distribución, si procede, podrá aproximarse
a una distribución Normal:

Por tanto, es inmediato comprobar que:

También podría gustarte