Estad Ã Stica

Matemáticas III. Grados I Mecánico - I. de Materiales.
Estadística Curso 2016/2017
Contenido
1.- Análisis descriptivo de datos
1.- Introducción. 3
1.1. Fases a seguir en un estudio estadístico. 3
1.2. Estadística descriptiva e inferencia estadística. 4
1.3. Concepto de variable estadística. 5
1.3.1. Clases (o categorías) para una variable estadística. 5
1.3.2. Consideraciones previas al estudio de una variable estadística agrupada 6

en clases.
1.4. Distribución de frecuencias absolutas de una variable 6

estadística.
1.4.1. Representaciones gráficas de datos. 7
1.4.2. Descripción de una variable estadística. 7
1.4.2.1.Parámetros de centralización. 7
1.4.2.2.Parámetros de Posición. 9
1.4.2.3. Parámetros de dispersión. 10
1.4.2.4. Parámetros de forma. 11
2.- Análisis de distribuciones bidimensionales.
Introducción. 12
2.1. El problema del ajuste. 13
2.2. Regresión lineal. 15
2.3. Correlación lineal. 16
3.- Cálculo de probabilidades.
3.1. Conceptos. 19
3.2. Frecuencia relativa de sucesos aleatorios. 21
3.3. Sucesos condicionados. Probabilidad condicionada. 22
1
Matemáticas III. Grados I Mecánico - I. de Materiales. Estadística Curso 2016/2017
4.- Análisis de una variable aleatoria.
4.1. Estudio de una variable aleatoria discreta. 23
4.2. Estudio de una variable aleatoria contínua. 24
5.- Distribuciones más notables.
5.1. Distribuciones de variable aleatoria discreta. 27
5.1.1.Distribución binomial. 27
5.1.2. Distribución de Poisson (o de los sucesos raros). 28
5.2.3. Distribución geométrica. 28
5.2. Distribuciones de variable aleatoria continuas. 29
5.2.1. Distribución rectangular o uniforme. 29
5.2.2. Distribución exponencial negativa. 29
5.2.3. Distribución normal (o de Gauss). 30
5.2.4. Distribuciones deducidas de la normal. 31
5.2.4.1. Distribución Ji (o Chy) cuadrado de Pearson. Χ2n . 31
5.2.4.2Distribución tn de Student. 32
5.2.4.3Distribución Fm;n (de Fisher-Snedecor ). 33
6.- Inferencia estadística.
6.1.Introducción a la inferencia estadística. 34
6.2.Estimación puntual. 36
6.3. Estimación mediante la construcción de intervalos de confianza. 39
6.4. Pruebas de hipótesis estadísticas. 42
6.4.1. Otras pruebas de hipótesis. 46
6.4.1.1 Las pruebas Ji cuadrado 46
6.4.1.2.Prueba de independencia. 47
6.4.1.3.Prueba de homogeneidad. 48
6.4.1.4.Sobre otras pruebas no paramétricas. 48
2
3
Capítulo 1.- Análisis descriptivo de datos
1.- Introducción.
Clásicamente se entendía por estadística a toda colección de datos ordenados y

clasificados según determinados criterios cuyo objetivo es conocer el
comportamiento de colectividades. Más recientemente entendemos por
estadística a aquella parte de las matemáticas que utiliza por instrumento a las
propias matemáticas , en particular el cálculo de probabilidades, para estudiar
las leyes de comportamiento de fenómenos no sometidos a las leyes fijas sino al
azar y poder establecer conclusiones a cerca de algún evento. También puede
entenderse por estadística al conjunto de técnicas y métodos que se siguen para
recoger, organizar, presentar, analizar, contrastar y generalizar resultados de
observaciones.
1.1. Fases a seguir en un estudio estadístico.
Es recomendable a la hora de abordar un trabajo de estadística seguir

determinados pasos y hacerlo en un determinado orden
• Una primera fase podría decirse de recopilación de información;

mediante ella se obtendrá información individualizada sobre los
elementos que conforman la población.
Es ésta la más delicada de las fases de todo estudio estadístico puesto que los resultados finales
de un análisis están en gran parte condicionados por la información que se recoge para ser
analizada. En el momento de abordar un estudio conviene definir unos objetivos y tener bien
claro quiénes son y qué secuencias habrá que seguir para lograrlos. Los datos a recoger en esta
fase los clasificaremos en dos tipos:
Datos directos o publicados, que son datos que se obtienen de censos, anuarios, informes,…, son
datos que están a disposición del investigador.
Los datos indirectos (o de recopilación propia) son datos que se obtienen directamente de la
observación de fenómenos. Diremos datos experimentales a aquellos que el investigador recoge
observando resultados de investigaciones.
• La segunda podrá definirse como fase de ordenación y agrupación de

datos. Los datos recogidos en la fase anterior son ahora adecuadamente
ordenados y tabulados para poder intuir cierta información sobre lo que se
pretende estudiar.
• En tercer lugar, en la denominada fase de análisis, utilizando las técnicas
adecuadas en esta fase, se estudia la información recogida para
determinar parámetros que caracterizarán un contenido.
• Finalmente, en la llamada de interpretación de resultados se tratará de
establecer las conclusiones sobre la información analizada y
generalizarlas cuanto sea posible a problemas semejantes al analizado.
4
Una cuestión a tener en cuenta.
Conscientes de que en todo estudio es posible cometer algún error, en estadística nos hemos de
centrar siempre en controlarlos en la mayor medida posible.
Diremos errores de muestreo a aquellos errores que se cometen al tratar una muestra como
perfectamente representativa de la población de la que procede cuando esto en realidad esto
nunca ocurre salvo que la muestra coincida exactamente con toda la población objeto de estudio.
Todos los demás errores se dicen sesgos.

• Son sesgos de omisión aquellos errores que cometemos al intuir información de
elementos de una muestra no analizados.
• Diremos sesgos de medida a aquellos errores que se cometen en las mediciones de
individualidades: (sistemáticos, accidentales,… ).
• Otros errores podemos citarlos como de elaboración de resultados, son equivocaciones en
el empleo de técnicas de análisis inadecuadas.
1.2. Estadística descriptiva e inferencia estadística.
Entenderemos por estadística descriptiva a aquél conjunto de técnicas que se

ocupan de describir las individualidades de un colectivo, bien en su totalidad (en
este caso de dice que realizamos un censo), bien una parte de la misma mediante
el análisis de cada una de las individualidades que caracterizan a los elementos
de tal conjunto.
Entenderemos por estadística inferencial o inductiva al conjunto de técnicas que

tienen por objetivo el esclarecimiento de los comportamientos de colectivos
mediante análisis de un pequeño grupo de individuos procedentes de aquel
colectivo (muestra) que tenga un adecuado tamaño y un alto grado de
representatividad.
Los métodos descriptivos presentan como gran ventaja que su utilización no

plantea riesgos en los procesos de inducción ya que los procesos descriptivos no
utilizan técnicas de inducción; como inconvenientes, suelen ser procesos lentos ,
caros, y suelen llevar asociadas altas probabilidades de errores de cálculos
debido a la enorme cantidad de información a tratar.
Los métodos inductivos tienen como ventajas la rapidez de su ejecución, en cada

paso proporcionan avances sobre las conclusiones finales de un análisis, son más
baratos que los que utiliza la estadística descriptiva y presentan probabilidades
bajas de cometer errores de cálculos.
El mayor inconveniente de estas técnicas radica en la no siempre fácil tarea de
la determinación de muestras soporte adecuadas en cuanto a representatividad
y tamaño.
5
1.3. Concepto de variable estadística.
La información que se desprende de la observación de experimentos

generalmente forma una larga lista de , en muchos casos repetidos.
Consideremos un experimento E, y sea ei una determinada experimentación
ejecutada en el contexto de tal experimento. Sea ω i el resultado de una tal
experimentación .
Se dice variable estadística a la aplicación v que asocia a cada una de las
experimentaciones realizados un resultado: w(ei ) = ω i
En el tratamiento de un trabajo estadístico, inicialmente se hace imprescindible

clasificar a las variables estadísticas, y en este sentido
• Una variable se dice cuantitativa si los resultados de los experimentos

sobre los que actúa vienen expresados a través de números.
o Una variable cuantitativa es discreta si entre dos de sus valores
consecutivos es imposible ubicar cualquier otro valor de la misma
variable.
o Una variable cuantitativa se dice contínua si entre dos cualesquiera
de sus valores cabe ubicar incluso otros infinitos de sus valores.
• Una variable se dice cualitativa si los resultados de los experimentos
sobre los que actúa vienen expresados no mediante valores numéricos si
no a través de cualidades o atributos.
1.3.1. Clases (o categorías) para una variable estadística.
Diremos así a los grupos disjuntos en los que se encerrarán los valores de la
variable. Están caracterizadas estas categorías porque las individualidades
encerradas en una determinada clase presentan semejanza y por el contrario
elementos de clases distintas son claramente distintos en comportamiento.
Entendemos por clases de valor único a aquellos conjuntos en los
que todos los valores de la variable allí encerrados son idénticos. Estas
clases son adecuadas para encerrar valores bien de variables
cualitativas o bien de variables cuantitativas discretas.
Las clases de intervalo son definidas por intervalos entre cuyos
extremos se encierran valores de las variables que están comprendidos
entre dichos extremos. Estas clases resultan adecuadas para encerrar
valores de variables cuantitativas continuas e incluso para encerrar
valores de variables cuantitativas discretas en los casos en que el
número de valores de la variable sea extremadamente elevado.
Si bien la determinación del número de clases para encerrar los valores de una
variable no obedece a criterios fijos sí es conveniente recordar que el número de
clases a construir no debe ser demasiado grande puesto que si así es ello no
supone ahorro alguno en el tratamiento de la información , tampoco debe ser
muy pequeño porque en este caso se cometerá con frecuencia el error de que
valores bien diferentes son interpretados del mismo modo.
Señalaremos, a su vez, que hay casos en los que por diferentes razones una
variable cuantitativa continua conviene tratarla como discreta y al contrario,
casos en los que una variable cuantitativa discreta conviene tratarla como
6
continua . Finalmente, a la hora de agrupar valores de una variable en clases no

hemos de perder de vista que las clases deben estar bien definidas, es decir, que
cada valor de la variable esté en una y sólo en una clase.
1.3.2. Consideraciones previas al estudio de una variable estadística agrupada en

clases.
• Diremos marca de clase a aquél valor de la variable representante de

todos los valores incluidos en dicha clase. Suele ser un valor, a veces real
pero, generalmente teórico que intenta ser el mejor representante de todos
los valores incluidos en la clase.
• Se dice amplitud de clase a la medida del intervalo que la define.
• Llamaremos frecuencia absoluta correspondiente a la clase o categoría
i-ésima, y denotamos f i , al total de valores de la variable incluidos en
dicha categoría.
• La frecuencia relativa fri correspondiente a la clase i-ésima
representa el cociente entre la frecuencia absoluta de dicha clase y el total
fi
de valores de la variable incluidos en tal clase , fri = ; (N es el total de
N
valores de la variable).
• Se dice frecuencia acumulada, y denotamos Fi , asociada a la clase
i-ésima al total de valores de la variable que, ordenados en sentido creciente
todos los valores de ésta, se sitúan más atrás o incluso sobre el extremo
superior de dicha clase.
1.4. Distribución de frecuencias absolutas de una variable estadística.
Se dice distribución de frecuencias para una variable estadística a todo par que
en su primera componente hace referencia a las clases en las que se encierra la
variable, y la segunda se refiere a las frecuencias absolutas con que la variable
se manifiesta en las diferentes clases.
Distinguiremos los tipos siguientes de distribuciones de frecuencias:
Distribuciones tipo I (también se dicen series estadísticas) , que no son sino

cualquier colección de valores de variables. Admitirán la forma ( xi ,1)
Tipo II: que notaremos como ( xi , f i ) , son adecuadas para presentar variables
cualitativas o cuantitativas discretas.
Distribuciones tipo III : Son adecuadas para representar distribuciones de

variable continua y vienen definidas mediante intervalos de alguna de las
formas ([Li −1 , Li ), f i ) , ((Li −1 , Li ], f i ) .
7
1.4.1. Representaciones gráficas de datos.
Previamente al análisis de una distribución de frecuencias es de utilidad

efectuar la representación de la distribución . El objetivo es mostrar de forma
clara y sencilla a través de un dibujo la información que la variable aporta a lo
largo de su distribución de valores. Dependiendo de la variable a analizar y lo
que de ella se precise describir se elegirá en tal sentido el gráfico ,en cada caso,
más adecuado.
• Un diagrama de puntos y barras es adecuado para representar

distribuciones de variables, bien cualitativas o bien cuantitativas
discretas, cuando la variable se encierra en no demasiadas clases
• Los diagramas de sectores se entienden adecuados para representar

generalmente variables cualitativas e incluso cuantitativas cuando la
variable se encierra en pocas clases.
• Los diagramas polares (sagitas) son generalmente adecuados para

representar comportamientos de variables que presentan fenómenos que
obedecen a comportamientos cíclicos a través del tiempo.
• Son adecuados para representar variables cuantitativas continuas

agrupadas en clases o incluso para representar variables cuantitativas
discretas cuando presentan muchos valores previamente agrupados los
denominados histogramas de frecuencias.
No hemos de olvidar que a la hora de representar una distribución de frecuencias

a través de un gráfico procuraremos ser sencillos, claros, fijándonos siempre en
qué variable vamos a representar y qué características interesan resaltar de ella.
1.4.2. Descripción de una variable estadística.
1.4.2.1.Parámetros de centralización.
Diremos así a aquellos testigos o referencias que sirven para explicar el

comportamiento de la variable en torno a ellos. Se expresan éstos parámetros en
las mismas unidades que la variable a que se refieren.
Media aritmética simple x

Se define media aritmética simple para una variable estadística a lo largo de una
distribución y denotamos x a aquel valor de la variable , el único que a parecería
a lo largo de toda la distribución si ésta fuese perfectamente uniforme.
8
Para las distribuciones tipos I, II, o III se determina mediante las expresiones
siguientes:
Distribución Tipo Expresión de la media

aritmética simple
n
I ∑x i
x= i =1
N
n
II ∑x i fi
x= i =1
N
n
III ∑ x′ f i i
x= i =1
N
(xi denota los valores de la variable; fi denota la frecuencia absoluta correspondiente al valor xi , N denota al
total de valores de la variable a lo largo de la distribución)
Mediana Me. Se dice así aquel valor de la variable tal que ordenada ésta en
sentido creciente a lo largo de la distribución este valor de la mediana supera al
50% de los valores de la variable y es superada por el 50% de valores restantes.
Para una serie estadística (o distribución tipo I) la localizamos como el valor de

la variable que en la serie ordenada en sentido creciente ocupa la posición
central siempre que la serie conste de un número impar de términos; si el
número de valores de la variable que conforman la serie es impar la tomaremos
como la semisuma de los dos términos que ocupen la posición central.
En el caso de distribuciones tipo II la mediana será aquel valor de la variable que

lleve asociada la más baja de entre todas las frecuencias acumuladas que
superen al valor N/2.
En el caso de variables contínuas entenderemos por clase o categoría mediana a

aquella que encierra a la mediana ; es ésta la categoría que lleva asociada la más
baja de entre todas las frecuencias acumuladas que superen a N/2. Para éstas
distribuciones la mediana se determina mediante la expresión siguiente:
 N / 2 − Fi −1 
Me = Li −1 +  C i
 fi 
Siendo Li −1 el extremo inferior de la clase mediana; Fi −1 la frecuencia acumulada hasta la
categoría inmediatamente anterior a la categoría mediana; f i la frecuencia absoluta de dicha
categoría mediana y C i la amplitud de tal categoría .
Moda, Mo
Diremos moda al valor de la variable, teóricamente al menos, más repetido a lo largo de

la distribución . Para distribuciones I y II el valor realmente más repetido en la
distribución. Así, en el caso en el que la variable se agrupe en clases de valor único la
9
moda será aquél valor de la variable que lleve asociada la más alta de las frecuencias
absolutas.
En el caso de variables contínuas la moda se localizará en la denominada categoría

modal que será aquella categoría que presente la más alta densidades (para una clase la
densidad es el cociente de la frecuencia absoluta sobre la amplitud de la clase) clase de valores
de la variable. Se determina mediante la expresión siguiente:
 d i +1 
Mo = Li−1 +  Ci
 d i−1 + d i+1 
Siendo
Li −1 el extremo inferior de la clase modal; d i −1 la densidad de la categoría anterior a la categoría

modal; d i +1 la densidad de la categoría siguiente a la modal y C i la amplitud de tal categoría .
1.4.2.2.Parámetros de Posición.
Para una variable estadística se define el cuantil de orden r sobre k , Qr / k , como

aquel valor de la variable tal que ordenada la distribución de valores en sentido
creciente y descompuesta en k partes de idéntico tamaño el referido cuantil supera
en valor a los valores de la variable localizados en los r-primeras partes y es
superado por los valores de la variable encerrados en las k-r partes restantes. Si
K=4 hablaremos de cuartiles. Si K=10 hablaremos de deciles, si K=100 citaremos
centiles o percentiles.
Para una serie estadística el cuantil Qr / k no es sino aquel valor de la variable que
r 
en la serie ordenada ocupa la posición  N  -ésima.
k 
Para distribuciones de variable discreta será aquel valor de la variable que lleve
asociada la mas baja de entre todas las frecuencias acumuladas que superen al
r 
valor  N  .
k 
En el caso en que la variable venga agrupada en clases de intervalo Qr / k es algún
valor localizado en la denominada clase intercuantílica, siendo esta categoría
aquella para la que la frecuencia acumulada sea la más baja de entre todas las que
r 
superan al valor  N  . La determinación se lleva a cabo mediante la expresión:
k 
r 
 N − Fi−1 
Qr / k = Li−l +  k Ci
 fi 
 
 
Terminamos de comentar cómo encontrar un valor Qr / k de la variable. Cabe

ahora la cuestión recíproca: Dado un valor de la variable, en qué dos partes
descompone éste valor a la distribución de valores ordenados en sentido
creciente a lo largo de la distribución?. Nos referiremos al denominado rango
asociado a un valor de la variable en una distribución de frecuencias ; pues
bien, no es más que valor adimensional de r en la expresión anterior.
10
1.4.2.3. Parámetros de dispersión.
Se dicen así a aquellos indicadores capaces de precisar sobre el grado de

proximidad o dispersión de los valores de una variable a lo largo de la
distribución de frecuencias. Entre ellos citaremos los siguientes:
Rango o intervalo de definición de la variable, que es un indicador del

espacio disponible para que la variable se mueva. Está definido por los valores
más bajo y más alto que tome la variable a lo largo de la distribución.
La desviación media es un indicador de dispersión definido como la media de
desviaciones absolutas de los valores de la variable hasta su propia media, con
expresión
∑x i − x fi
DME = i =1
N
y se expresa en las mismas unidades que la variable a quien se refiere.
Definición: Dada una variable estadística x se definen los momentos de

orden r respecto de un origen de trabajo Ot como
∑ (xi − Ot ) f i
M r ,Ot = i =1
N
De entre ellos son momentos especialmente interesantes aquellos centrados en
ar =
∑ xir f i
N
el cero y en la media de la variable, respectivamente
∑ (xi − x )r f i
mr =
N
Se define la varianza de una variable a lo largo de una distribución como el

momento de orden dos centrado en la media m2 . Si bien su determinación se
puede llevar a cabo mediante la propia definición de momento centrado en la
media, resulta más cómodo determinarlo mediante la siguiente relación
σ 2 = m2 = a 2 − a12
La desviación típica de una variable es la raíz de su varianza; σ = σ 2 , el más

representativo de los parámetros de dispersión absoluta de una variable
estadística. También se expresa en las mismas unidades que la variable a quien
se refiere.
Es a veces muy interesante expresar la dispersión de una variable en términos

relativos, esto es, en relación a algún patrón de comparación. En este sentido se
define el coeficiente de variación de una variable como el indicador adimensional
11
σ
Cv = ,; obsérvese que la dispersión se expresa en como la relación entre la
x
desviación típica y la media de la variable, y de su interpretación cabe señalar:
Para una distribución perfectamente homogénea el Cv es nulo.

Cv < 0.31 caracteriza distribuciones con alto grado de concentración de valores.
Si 0.31<Cv<0.68 la variable presenta cierto grado de dispersión en sus valores;
tanto mayor cuanto mayor sea este coeficiente
Las distribuciones con coeficientes Cv >0.68 presentan altas dispersiones en sus
valores.
1.4.2.4. Parámetros de forma
Son indicadores, adimensionales, que precisan sobre la propia forma de la

representación gráfica de una distribución de frecuencias.
Se define el coeficiente de asimetría como aquél indicador del

desplazamiento de la variable hacia sus valores extremos. Su expresión es
m3 ∑ ( xi − x ) f i
3
g1 = 3 = pudiendo interpretarse que

σ 3
σ
.
g1<0 Caracteriza distribuciones sesgadas a izquierda o de asimetría
negativa.
g1>0 Caracteriza distribuciones sesgadas a la derecha o de asimetría
positiva.
g1=0 Caracteriza distribuciones perfectamente simétricas
(la intensidad del sesgo es tanto mayor cuanto mayor , en valor absoluto, es g1)
Otro indicador de forma el llamado coeficiente kurtosis, (o apuntamiento) . No es

sino un indicador de la homogeneidad o dispersión de valores de la variable en su
propia distribución. Se define como
∑ (xi − x ) f i
4
m N
b2 = 44 =
σ 4
σ
Se interpreta señalando que
b2<0 caracteriza distribuciones con alto grado de dispersión de valores; tales

distribuciones se dicen planikúrticas.
b2>0 caracteriza distribuciones con alto grado de uniformidad de valores; tales
distribuciones se dicen leptokúrticas.
b2=0 caracteriza distribuciones con grado de dispersión de valores idéntico al que
presenta la distribución normal estandarizada (también denominada campana de
Gauss). Tales distribuciones se dicen mesokúrticas.
12
Capítulo 2.- Análisis de distribuciones bidimensionales
Introducción.
Diremos distribución bidimensional a todo par [(xi , yi ; fij] , i=1,…, n ; j=1,…, m

constituido en su primera componente por las clases en las que se encierran los
valores de una variable (X,Y) y en su segunda por la frecuencia con que se
manifiesten tales valores en las diferentes clases de la distribución.
Los valores de una distribución bidimensional se presenta en una tabla de
contingencia ,de aspecto
Y
X x1 x2 . xi . xn
y1
y2
.
yj fij
.
ym
El conjunto de puntos de coordenadas las ternas (xi , yj , fij ) se pueden

representan en el espacio R3 para determinar la llamada nube de la distribución.
Partiendo de la distribución bidimensional se construyen las correspondientes

distribuciones unidimensionales para cada una de las componentes de la
variable bidimensional, llamadas marginales. Resultan ser de la forma
Distribución marginal Distribución marginal

primera segunda
x fx y fy
x1 f10 y1 f01
. . . .
. . . .
xi fi0 yj f0j
. . . .
. . . .
xn fn0 ym f0m
cuyas descripciones ya la comentamos en el tema anterior.
13
Tres problemas nos ocupan en este segundo tema, a saber, el problema del ajuste
de una distribución bidimensional, el caso particular de la regresión lineal y el
problema de la determinación de un indicador del grado de dependencia entre las
componentes de una tal variable.
Estas tres cuestiones que teóricamente abordamos en el orden señalado en las
aplicaciones prácticas se emplearán en sentido contrario. Más adelante
comprobaremos porqué.
2.1. El problema del ajuste.
Es éste un problema consistente en la determinación de una función capaz

de pronosticar el comportamiento de una de las componentes de la
distribución bidimensional a través del conocimiento del comportamiento
de su par (la otra componente).
La determinación se lleva a cabo mediante el denominado MÉTODO DE LOS

MÍNIMOS CUADRADOS cuya filosofía comentamos seguidamente:
Dibujada la nube de una distribución (xi , yj , fij ) observaremos qué función

puede ser considerada como función de ajuste; naturalmente que tal función será
aquella que obedezca a un modelo cuya gráfica mejor aproxime a la nube.
Planteada mediante la incorporación de algunos parámetros que en principio
son desconocidos la forma genérica de una tal función construiremos la
expresión Q = Ʃ(yi - f (xi))2 que mide las desviaciones cuadráticas entre
realidades yi y los pronósticos f (xi) que para tal realidad pronostica la función de
ajuste elegida
Para la determinación de los parámetros, que definan la expresión de la función
particular de ajuste a construir sólo hemos de minimizar la expresión de Q. Al
hacerlo resultará un sistema de tantas ecuaciones como parámetros son
necesarios para definir la función de ajuste que buscamos, ecuaciones que están
constituidas por las derivadas parciales de Q con respecto a dichos parámetros
igualadas a cero en las que las incógnitas son los coeficientes que definirán la
particular función de ajuste. El sistema construido, siempre compatible y
determinado, una vez resuelto permite escribir la expresión de la función de
ajuste.
No es descabellado señalar que cualquier función puede ser considerada como

función de ajuste de una distribución bidimensional. Siendo así, el problema se
centra en localizar como funciones de ajuste de una distribución (X,Y) aquellas
que cumplan mejor el objetivo para el que se construyen. En tal sentido se define
el llamado
14
Índice de bondad de ajuste (g4)
Está definido este indicador como
∑ ( y − f (x ))
2
i i
g4 =1− i
∑ y − ny 2
i
2
y precisa sobre la idoneidad de la función de ajuste utilizada en el proceso de

estimación de componentes.
Nótese que su elaboración se basa en la comparación entre la realidad de la
componente a pronosticar y las estimaciones que para ella proporciona una
función de ajuste.
∑ (y
i
i − f ( xi ))
2
Este indicador se puede escribir en la forma g 4 = 1 − n y en cuanto a

σ y2
su interpretación cabe decir
o Si g4 < 0 la media de la desviaciones cuadráticas entre realidades y

pronósticos es mayor que la varianza de la componente a
pronosticar, lo que representa que la función de ajuste localizada es
incluso peor que la función y = y ;mal ajuste será éste .
o Si g4 = 0 la media de la desviación cuadrática coincide exactamente
con la varianza de la componente, es decir estamos ante la función
de ajuste y = y ; en este caso el pronóstico de la componente a
pronosticar , al margen de la realidad de su par, siempre coincide
con la media de esta componente. Mal ajuste.
Es por ello que para que una función se entienda sensata como función
de ajuste habrá de presentar un índice de bondad al menos mayor que
cero. Ahora bien:
o Si g4 = 1 el ajuste es perfecto puesto que siempre yi = f ( xi ) , en este

caso se habla de dependencia funcional entre componentes; una es
explicada a la perfección mediante su par y la propia función de
ajuste.
Naturalmente, cuanto más próximos estén realidades y pronósticos más

pequeño será el cociente que figura en la expresión de g4; entonces g4 será
más próximo a 1 y la función de ajuste elegida será tanto más perfecta
cuanto más próximo a uno esté el índice de bondad de ajuste.
(*) En un problema de ajuste la siguiente expresión se dice error típico de

estimación
15
∑(y i − f ( xi ))
2
S y2 = i
n
2.2. Regresión lineal.
Nos vamos a centrar ahora en la determinación de un tipo de funciones de ajuste

muy particulares; es el caso de funciones lineales .
Sea [(xi , yi) ; fij] una distribución bidimensional de la variable (X,Y).
Se define el momento de orden "r" respecto de la primera componente y orden "s"

respecto de la segunda, con orígenes respectivos O1 y O2 para una variable en
una distribución de frecuencias como :
∑ (x − O1 ) ( y1 − O2 ) f ij
r s
i
M r , s ,O1,O 2 = ij
Es particularmente interesante el caso en los que el origen es el punto (0, 0) , se

habla así de omentos centrados en el origen, y en este caso de especial interés
son los momentos a10 que se corresponde con la media de la primera componente
y a01 correspondiente a la media segunda componente.
Por otro lado también resultan de especial interés los momentos para los que el
origen (O1, O2) se considera el punto determinado por las medias marginales.
Denotaremos los momentos centrados en las medias marginales como
∑ (x − x ) ( y1 − y ) f ij
r s
i
mr ,s = ij
De estos momentos caben destacarse m2,0 (que representa la varianza de la

primera componente y, m0,2 (varianza de la segunda componente).
Un indicador especialmente interesante para una distribución bidimensional es

la llamada covarianza cuya expresión se corresponde con el momento
∑ (x i − x )( y1 − y ) f ij
m11 = ij
Para determinar la covarianza de forma más cómoda se suele utilizar la siguiente relación entre
momentos: m11= a11 – a10 a01
Rectas de regresión lineal.
16
Se dicen así a un tipo de funciones de ajuste muy particulares que explican el

comportamiento de cada una de las componentes de una distribución
bidimensional en función del comportamiento de la otra.
Sea la distribución de valores de una variable bidimensional [(xi , yi ; fij], y sea

considerada como función de ajuste de tal distribución la función lineal
y = f ( x) = a + b21 x
Al minimizar en este caso la expresión Q = Ʃ(yi- f (xi))2 que mide las desviaciones
cuadráticas entre realidades (yi ) y pronósticos establecidos por la función de
ajuste (f (xi))se observa que la anterior recta de ajuste pasa por el punto
determinado por las medias marginales ( x, y ) y presenta una pendiente que se
corresponde con b21 = m11 / m20. Ello permite expresarla mediante la ecuación
(y – a01) = m11 / m20 (x – a10). Se le dice recta de regresión de y sobre x y explica el
comportamiento de la segunda componente mediante el conocimiento de la
primera.
De idéntica forma se puede determinar la denominada recta de regresión de "x"

sobre "y" cuya ecuación es (x – a10) = m11 / m02 (y- a01) y permite estimar el
comportamiento de la primera componente de la distribución bidimensional
mediante el conocimiento de la segunda.
Nótese que las pendientes de las rectas tienen el mismo signo, que viene marcado por el de la
covarianza de la distribución, con lo cual si m11 > 0 se entenderá que conforme una componente
crece la otra lo hace. Contrariamente, si m11 < 0 estaremos en condiciones de decir que cuando
una componente crece, la otra decrece.
2.3. Correlación lineal.
Coeficiente de correlación lineal.
Terminamos de comentar cómo localizar funciones lineales de ajuste para el

caso de distribuciones bidimensionales; pero, cuando son de utilidad como
funciones capaz de explicar una componente de la variable bidimensional en
función de su par?. A esta cuestión responderemos que las rectas de regresión
tienen aplicación cuando las componentes de la variable están relacionadas, (son
asociadas o son dependientes).
Pues bien, estudiemos cómo evaluar el grado de relación, asociación ,
dependencia entre las componentes de una distribución bidimensional.
Decimos varianza residual correspondiente a la componente y a pronosticar en

m2
una distribución bidimensional a la expresión S y2 = m02 − 11 . A su raíz cuadrada
m20
S y = S y2 le decimos error típico de estimación y cabe interpretarse como
17
indicador de la desviación de los puntos de la nube de la distribución respecto de

la recta de regresión de y sobre x .
Se define el coeficiente de correlación lineal para la variable (X,Y) como el

m
valor de "r" en la expresión: r 2 = 11 . (nótese que esta expresión se corresponde con el
σ xσ y
índice de bondad de ajuste para el caso en que particularmente la función de ajuste elegida sea la
recta de regresión de y sobre x).
De este coeficiente que se puede entender como indicador del grado de

dependencia entre componentes de la distribución han de interpretarse su valor
absoluto y su signo como sigue:
2. |r| precisa sobre el grado de dependencia entre las componentes de la

distribución bidimensional, y siempre será 0 < r2 < 1. Consecuentemente
ha de ser -1 < r < 1
• Si r = 0 la recta de regresión de y sobre x es y = y , y como ya hemos
comentado no podemos admitirla como una buena función de ajuste
puesto que el conocimiento de x no permite explicar nada de y ; las
componentes de la distribución, en este caso, se dirán independientes.
• Si |r| =1 la recta de regresión de y sobre x, es perfecta como función de
ajuste. Decimos en este caso que existe dependencia funcional entre
componentes.
• Por otro lado , en el caso de existir dependencia entre las componentes de
la variable bidimensional el signo de r explica cómo ambas componentes
crecen o decrecen, bien a la vez si tal signo es positivo, bien en sentido
contrario si es negativo el signo r.
• Es claro que siempre 0 < |r| < 1, pero al localizarse en [0,1] infinitos
valores , ¿qué valores del coeficiente de correlación son capaces de señalar
dependencia entre las componentes de una distribución bidimensional?. Si
bien la respuesta está condicionada por el total de valores de la variable a
lo largo de toda su distribución habitualmente cabe interpretarse
o |r| < 0,31 caracteriza distribuciones en las que las componentes
guardan una muy escasa relación o incluso tal vez son
independientes.
o 0,31 < |r| < 0,68 caracteriza distribuciones en las que las
componentes guardan cierta relación, tanto más fuerte cuanto más
alto es |r|.
o |r| > 0,68 caracteriza distribuciones en las que las componentes
guardan alto grado de dependencia, están asociadas, están
relacionadas.
(*) Se dice coeficiente de determinación, y denotaremos como D , a un indicador

capaz de expresar la variabilidad de una de las componentes de la distribución a
través del conocimiento de la variabilidad de su par. Este coeficiente es D = r2
(suele expresarse D= r2 100 %).
18
Capítulo 3.- Cálculo de probabilidades.
El cálculo de Probabilidades es una parte de las matemáticas que tiene por

objetivo construir , analizar y aplicar modelos matemáticos que siguen
determinadas variables que muestran regularidad de comportamiento
estadístico y de las que interese determinar analíticamente su comportamiento.
Mediante el cálculo de probabilidades se realizan abstracciones de los conceptos
comentados en estadística descriptiva observados sobre muestras con el fin de
poderlos extender hasta aspectos poblacionales.
19
3.1. Conceptos.
Sucesos aleatorios. Espacio muestral de sucesos.
Se puede definir una experimentación como cualquier acción o proceso que en el

contexto de un experimento genera resultados. Hay experimentos en los que el
resultado de cualquier experimentación puede ser conocido sin necesidad de
ejecutar tal experimentación; son los denominados experimentos
deterministas. Por el contrario, si el resultado de una experimentación
ejecutada en el contexto de un experimento tan sólo se puede conocer una vez
concluida tal experimentación el experimento se dice aleatorio. Naturalmente,
nuestro interés se centrará en el estudio de resultados procedentes de
experimentaciones ejecutadas en el caso de experimentos aleatorios.
Se dice suceso elemental a cada uno de los posibles resultados de una

experimentación.
Diremos espacio muestral correspondiente a un experimento aleatorio, y

denotamos E, al conjunto de todos los sucesos elementales correspondientes a
dicho experimento.
Se entiende por suceso aleatorio a cualquier subconjunto de resultados que se

pueden conformas operando con los sucesos elementales del espacio muestral E.
Cuando se practican una serie de experimentaciones en el contexto de un

experimento aleatorio ocurren, o acontecen, resultados a los que se dicen
sucesos; se suele denotar con una letra mayúscula. Si bien un conjunto de
sucesos por sí mismo no resulta de interés se hace necesario definir leyes de
composición interna en el conjunto de resultados de un experimento aleatorio
que permitan operar con sucesos para generar nuevos sucesos. Las leyes a que
nos referimos son la unión e intersección de sucesos.
Algunas relaciones de teoría de conjuntos
• La unión de dos sucesos A y B, denotada por A U B y se lee "A o B", es un

nuevo suceso que para su realización requiere de la realización de A o B o
ambos simultáneamente.
• Se define la intersección de dos sucesos A y B, y denotamos por A ⋂ B a un
nuevo suceso que para su realización requiere de la realización
simultánea de A y B.
• El complementario de un suceso A, denotado por A es el suceso que para
su realización requiere la no realización de A.
• Se dice que el suceso A implica al B y denotamos A ⊆ B como el suceso
para el que la realización de A impone la realización de B.
• Se define el suceso diferencia A - B como aquel suceso definido por la
condición, se verifica A y no B.
20
• Se define diferencia simétrica, denotado A ∆ B, como aquel suceso definido

por la condición se verifica solamente A o solamente B.
• Se dicen dos sucesos que son incompatibles, si la realización de uno impide
la realización del otro.
Se pueden definir en el conjunto de resultados de un experimento aleatorio las

operaciones unión e intersección de sucesos. Son leyes de composición interna
que cumplen las siguientes propiedades:
1. Ambas leyes cumplen la propiedad conmutativa:
A U B = B U A ---- A ⋂ B = B ⋂ A
2. Ambas leyes cumplen la propiedad asociativa
(A U B) U C = A U (B U C) ; ( A ⋂ B) ⋂ C = A ⋂ (B ⋂ C)
3. Son idempotentes A U A = A ; A ⋂ A = A
4. Cumplen la propiedad de suceso seguro: A U E = E; A ⋂ E = A
5. Cumplen la propiedad de suceso contrario: A U A = E ; A ⋂ A = Φ
6. Para ambas leyes existen, respectivamente elementos neutro y unidad: A
UΦ=A; A⋂E=A
7. Cada ley es distributiva respecto de la otra:
8. AU (B ⋂ C)=(A U B) ⋂ (A U C); A ⋂ (B U C)=(A ⋂ B) U (A ⋂ C)
9. Cumple las leyes de Morgan.
Concepto de Estructura δ -álgebra.
Se dice δ -álgebra a todo conjunto Ω de elementos α , β , y,... en el que se han

definido dos leyes de composición interna cumpliendo:
• Ambas leyes son conmutativas.
• Cada una es distributiva respecto de la otra.
• Existen elementos identidad para cada una de las leyes.
• Existe simétrico de cualquier elemento respecto de cada ley.
Pues bien, siendo así, el conjunto de los resultados de un experimento aleatorio en

el que se definen la unión e intersección de sucesos tiene estructura de δ -álgebra
; a dicho conjunto le diremos álgebra de Boole de los sucesos correspondientes a
dicho experimento, y denotaremos por Ω .
21
3.2. Frecuencia relativa de sucesos aleatorios.
Dado un experimento aleatorio y un suceso A de Ω si N denota al total de

experimentaciones practicadas en el contexto de tal experimento y "n" denota el
total de veces en que aparece A como resultado, se dice frecuencia relativa
correspondiente al suceso A a la razón f (A) = n/N.
Las frecuencias relativas correspondientes a un suceso A cumplen las siguientes

propiedades:
• 0 < f (A) < 1

• Si A, B, son sucesos incompatibles f (A U B) = f (A) + f (B)
• Ley del azar: de manera experimental se puede contrastar que las
frecuencias relativas correspondientes a un suceso aleatorio A
tienden a aproximarse a número fijo conforme aumentan el número
de experimentos. A este número se le dice probabilidad del suceso.
Concepto de probabilidad de un suceso aleatorio.
Sea experimento aleatorio y sea el espacio muestral E de resultados

correspondiente a dicho experimento y sea Ω la a σ -álgebra de resultados
correspondientes a un tal experimento aleatorio.
Se define una probabilidad P como toda función
P: Ω 0,1] que asocia a todo suceso A de Ω en un número P[A] dentro de [0,1]

cumpliendo los axiomas
• Si A ∈ Ω entonces 0 < P(A) < 1

• P[E] =1
• Dados cualesquiera pareja de sucesos A1, A2 incompatibles,
entonces P[A1 U A2] = P[A1] + P[A2]
Diremos espacio probabilístico a la terna (E, Ω ,P), constituida por el espacio

muestral de los resultados de un experimento aleatorio, la sigma álgebra Ω que
con ellos se puede construir y una probabilidad definida sobre la referida
estructura de sigma álgebra Ω .
22
3.3. Sucesos condicionados. Probabilidad condicionada.
Dados dos sucesos A y B, se define el suceso A condicionado por B y

denotamos A|B al suceso consistente en la realización de A siempre que en el
contexto de la misma experimentación haya acontecido B
Para dos sucesos A y B cualesquiera con P(B)>0, se define la probabilidad
condicionada del suceso A|B como
P( A / B) = P( A ⋂ B)/ P(B)
Teoremas fundamentales.
Sea el espacio probabilístico (E, Ω , P) y sean A1,..., An sucesos de Ω

mutuamente excluyentes, (disjuntos dos a dos) tales que su unión conforma todo
el espacio muestral E. Sea B un suceso cualquiera de Ω .
El teorema de la probabilidad total expresa la probabilidad de cualquier suceso

B de Ω en función de las probabilidades condicionadas de dicho suceso B por
aquellos en los que se descompone de forma disjunta el espacio muestral de
resultados correspondientes a un experimento aleatorio:
n
P(B) = ∑ i
P(A) P(B/Ai)
En el mismo contexto del teorema anterior el teorema de Bayes para cualquier

otro suceso B tal que P(B)>0 expresa la probabilidad
P( Ai ) P( B / Ai )
P( Ai / B) = n .
∑ P( Ai) P( B / Ai)
i =1
23
Capítulo 4.- Análisis de una variable aleatoria
Sea una función X definida X: Ω —>R

wi —> x (wi)
que transforma sucesos o resultados wi de experimentos aleatorios en números
reales x (wi).
Definición.- La función X se dice variable aleatoria si las imágenes inversas

bien de números reales o bien de intervalos reales son sucesos aleatorios.
Por razones prácticas, en lo que sigue emplearemos la siguiente notación para

referirnos a sucesos aleatorios; desde ahora, por ejemplo, hablar del suceso
X = xi será equivalente a hablar de un suceso Ai / X ( Ai ) = xi ; o hablar del suceso
X ≤ xi será equivalente a hablar de un suceso Ai / X ( Ai ) ≤ xi
4.1. Estudio de una variable aleatoria discreta.
El comportamiento de una variable aleatoria discreta X queda perfectamente

descrito mediante de la determinación de las siguientes funciones.
Función de probabilidad
Para una variable aleatoria discreta X diremos función de probabilidad P

como aquella función que asociada a cada valor xi de la variable, la
probabilidad de que ciertamente lo tome. Se denotará pi=P[X=xi].
Pueden entenderse los valores de la función de probabilidad de una

variable aleatoria discreta como las frecuencias relativas asociadas al
valor de la variable si dicha variable es considerada como una variable
estadística cualquiera.
La función de probabilidad de una variable discreta permite calcular la media

aritmética ( también llamada esperanza matemática o valor esperado de la variable) como
x = µ = E[ x] = ∑ xi pi
i
su varianza queda determinada mediante la expresión
σ 2 ( x) = ∑ [( xi − µ ) 2 ] pi
i
Función de distribución.
Para una variable aleatoria discreta X diremos función de distribución

como aquella función que a cada valor de la variable, xi, asigna la
24
probabilidad de que la variable X se sitúe más atrás o incluso sobre el

mismo valor xi.
Equivalen los valores de esta función a lo que serían las frecuencias

relativas acumuladas asociadas al valor de la variable a lo largo de su
distribución si dicha variable es considerada como una variable
estadística cualquiera.
Goza esta función de distribución de las siguientes propiedades:
1. si x< xi (siendo xi el valor mínimo de la variable a lo largo de su

distribución de valores) entonces F(x)=0
si x> xi (siendo xi el valor máximo de la variable a lo largo de su
distribución de valores)entonces F(x)=1
2. F es creciente a lo largo del intervalo [xi; xi+1]
3. Es continua a derecha de cada xi
4. P[x1 < X < x2] = F[x2] - F[x1]
Función característica para una variable discreta:
Esta función se define como la media de la nueva variable eitx. Su expresión es
∑e
itxi
ϕ(t) = E[eitx] = pi .
i
Destacamos que lo interesante de esta función es que nos ofrece la comodidad en
la determinación de los momentos de orden k centrados en el origen mediante la
Φ k ) ( 0)
expresión a k = .
ik
4.2. Estudio de una variable aleatoria continua.
Al ser estas variables para las que entre dos valores cualesquiera de ellas
existen infinitas posibilidades de ubicación de otros de sus propios valores surge
ahora la necesidad de reconsiderar que lo que en el caso de variables discretas
son sumatorios.
Al tratar variables contínuas nos vemos en la necesidad de sustituir sumatorios
por integrales, es toda la novedad respecto a lo comentado para el análisis de
variables discretas.
A la hora de analizar una variable aleatoria continua hemos de tener bien

definidas las siguientes funciones:
25
Función de densidad.
Sea el espacio probabilístico (E, Ω , P) y sea la variable contínua X

definida en el intervalo real [a, b] .
Se dice que f(x) es densidad para la variable X si estando definida
f: [a, b] → R , x → f (x)
Verifica las condiciones siguientes:
• f (x) > 0 para cualquier x de [a, b]
• f es integrable sobre [a, b]
b
• ∫ a
f (x) d x = 1
Nótese que ésta función equivale a lo que es la función de probabilidad para el caso de variables
discretas.
Función de distribución.
Para una variable aleatoria contínua X definida sobre un intervalo real [a,
b] se define la función de distribución mediante la expresión
x
F (x) = P[x ≤ x] = ∫ a
f (x) dx
Goza la función de distribución de las siguientes propiedades:

• ∀ x ≤ a , F (x) = 0
• ∀ x ≥ b, F (x) = 1
• Es siempre continua a derecha
• Creciente
• P[x1<x < x2]=F(x2)-F(x1)
• P[X = x] = P[x ≤ X ≤ x1] = F(x) - F(x) = 0. Ello denota que la
probabilidad de que la variable se localice sobre uno sólo de sus valores es nula.
La siguiente relación entre las funciones de densidad y distribución de una variable contínua es
de suma importancia; conocida cualquiera de ellas la determinación de la otra es inmediata como
muestra las relaciones
x
• F (x)= ∫ a
f (x) ; f (x) = F’ (x)
Función característica.
Para una variable contínua se definirá en este caso por
x
ϕ (t) = E[eitx] = ∫ eitx f(x) dx.
a
b
La media aritmética se expresará en este caso µ = E[x] = ∫ x f(x) dx .
a
la varianza de la variable se determina mediante la expresión
26
b
σ 2 [ x] = ∫ ( x − µ ) 2 f ( x)dx = a2 − µ 2
a
y el momento de orden k centrado en el origen es
φ k ( 0)
ak = .
ik
27
Capítulo 5.- Distribuciones más notables.
5.1. Distribuciones de variable aleatoria discreta.
5.1.1.Distribución binomial.
Sea un experimento aleatorio del que de cada experimentación sólo caben dos
posibles resultados. Uno al que llamaremos éxito que acontece con probabilidad
p, y el otro al que decimos fracaso que ocurrirá con probabilidad q = 1-p. Sea n el
número de experimentaciones independientes practicadas en el contexto de un
tal experimento, y sea una variable discreta X que señala el número k de éxitos
acontecidos en el total de las n experimentaciones.
Diremos que una tal variable aleatoria discreta X sigue una distribución
binomial de parámetros n y p, y denotaremos B(n,p). Para esta variable
señalaremos como
n
Función de probabilidad P[ X = k ] =   p k q n −k
k 
x
n
Función de distribución F(x)= P[ X ≤ x] = ∑   p k q n − k
k =0  k 
La función característica para una variable binomial se expresará
φ (t ) = E[e itx ] = ( pe it + q) n
La esperanza matemática, media, o valor esperado de la variable es

φ´(0)
E[ x ] = µ = = np
i
La varianza correspondiente es σ 2 = a 2 − a12 = npq
28
5.1.2. Distribución de Poisson (o de los sucesos raros).
Cuando en un proceso binomial B(n,p) el número de experimentaciones n es muy

grande y p o q pequeños la expresión de la función de probabilidad de esta
variable se hace intratable, de ahí la necesidad de ajustar esta ley binomial a la
llamada distribución de Poisson .
n−k
 n  λ   λ  λk − k
k
 n  k n−k
Dado que lim 
   p q = lim     1 −  = e , en las
n →∞ k  n
n →∞  k      n  k!
condiciones señaladas un proceso binomial de parámetros n y p se ajusta al
denominado proceso de de parámetro λ = np Poisson , denotando a tal proceso
por P (λ ) .
Este proceso presenta como

λk
Función de probabilidad P[ X = k ] = e −λ
k!
x
λk
Función de distribución F(x)= P[ X ≤ x] = ∑ e −λ
k =0 k!
k
λ i
Función característica φ (t ) = ∑e
i =0
itk
e −λ
i!
La media de la variable es µ = E[x] = λ
La variable presenta por varianza σ 2 ( x) = λ
Esta distribución posee una propiedad importante de cara a la práctica, es la propiedad de reproductividad que
señala lo siguiente: si una variable discreta X sigue un proceso de Poisson de parámetro λ y otra
1
variable Y sigue un proceso de Poisson de parámetro λ entonces la variable aX+bY combinación
2
lineal de las anteriores siguen un proceso de Poisson P(aλ1+bλ2).
5.2.3. Distribución Geométrica.
Una variable aleatoria discreta X sigue una distribución geométrica de

parámetro p si moviéndose en el contexto de las anteriores se encarga de señalar
el orden de la experimentación en que acontece el primero de los éxitos sobre un
total de n experimentaciones. Para esta variable
P[x = k] =pqk-1 es la función de probabilidad
x
La función de distribución es F(x)= P[ X ≤ x] = ∑ pq k −1
k =1
it
pe
φ (t ) = es la función característica de la variable
1 − qe it
1 q
Presenta por media µ = y la varianza de la variable es σ 2 ( x) =
p p2
29
5.2. Distribuciones de variable aleatoria continua.
5.2.1. Distribución rectangular o uniforme.
Se dice que una variable aleatoria contínua presenta una distribución

rectangular o uniforme a lo largo de un intervalo [a, b] si su función de densidad
 1
 si.x ∈ [a, b]
es f ( x) =  b − a
0.en.otro.caso
Sin más que aplicar lo comentado en el tema anterior para estudiar una variable
contínua se puede comprobar que esta variable presenta
x−a
• F ( x) = como función de distribución
b−a
e itb − e ita
• φ (t ) = es la función característica de la variable
it (b − a)
b+a
• Presenta por media µ = E[ x] =
2
• La varianza de dicha variable es σ [ x] = 2 (b − a)

2
12
5.2.2. Distribución exponencial negativa.
Se dice que una variable aleatoria contínua X sigue una distribución exponencial
negativa de parámetro λ >0 si estando definida en [0, ∞ ] su función de densidad
es f ( x) = λe − λx
se puede comprobar que esta variable presenta
1
• E[ x] = como media
λ
• La función de distribución para ella es F ( x) = 1 − e − λx
1
• σ 2 ( x) = 2 es la varianza de tal variable exponencial negativa
λ
30
5.2.3. Distribución normal (o de Gauss).
Diremos que una variable aleatoria contínua X sigue una distribución normal de
media µ y desviación típica σ , y denotamos N (µ , σ ) si estando definida sobre
( x−µ ) 2
1 −
todo R su densidad es f ( x) = e 2σ 2
σ 2π
esta función de densidad goza de las siguientes consideraciones

• Está definida sobre todo R
• f (x) es una función contínua continua ∀x ∈ R
• es simétrica respecto a la recta x = µ
• el eje OX es una asíntota horizontal
1
• presenta un punto de máximo en x = µ con valor
σ 2π
• dicha función presenta inflexiones en los puntos x = µ − σ y x = µ + σ
∞ −1 ( x − µ )2
1
• Es una verdadera densidad puesto que f ( x) = ∫σ
−∞ 2π
e 2 σ2
dx = 1
x
• La función de distribución es F (x) = P[ X ≤ x] = ∫
−∞
f(s) ds
1
itµ − σ 2t 2
• φ (t ) = e 2
es la función característica de la variable.
Dos cuestiones de interés:
Observaremos la dificultad de la evaluación de la función de distribución de

una variable N (µ , σ ) en un punto x por lo que el tratamiento de la función de
distribución de ésta variable hemos de abordarlo transformando tal variable
sin más que someterla a una traslación y una modificación de escalas en una
x−µ
nueva variable z= , también definida sobre todo R, a la que diremos
σ
variable estandarizada, la cual obedece a una distribución N (0,1) , con
z2
1 −
densidad f ( z) = e 2
.
2π
La función de distribución para esta nueva variable
z z2
1 −
F ( z ) = P[ Z ≤ z ] =
−∞ 2 π
∫
e dz sigue siendo difícil de evaluar por lo que cuando es
2
necesario utilizarla suele recurrirse a la tabulación de la misma.
Por otro lado, con anterioridad hemos estudiado la variable discreta para un
esquema binomial B(n,p), y comentamos que cuando n se hace grande es
complejo tratar la función de probabilidad de una tal variable. El problema se
31
resuelve en muchos casos mediante el teorema de Moivre que permite

aproximar un proceso B(n,p) a uno N (µ , σ ) particularmente cuando n es
grande.
En términos generales, si np >5 un proceso B (n, p) —> N (np; npq )
5.2.4. Distribuciones deducidas de la normal.
Las siguientes variables contínuas, deducidas de la normal, son variables cuyas

distribuciones se hacen interesantes en los procesos de inferencia estadística ya
que las leyes (distribuciones en el muestreo) que siguen los estimadores más
frecuentemente utilizados en los problemas de inferencia se ajustan a alguno de
estos modelos.
De estas variables citaremos únicamente las densidades a las que en cada caso
obedecen y los parámetros media y varianza respectivos. Es, en cada caso,
interesante la evaluación de las diferentes funciones de distribución en un punto
dado, pero hemos de señalar que la dificultad de la expresión de tales funciones
de distribución aconsejan utilizar las correspondientes tablas que muestran
estas evaluaciones.
5.2.4.1 Distribución Χ 2 n , Ji (o Chy) cuadrado de Pearson.
Una variable aleatoria contínua sigue una distribución Chy Cuadrado de

Pearson con n grados de libertad si estando definida sobre todos los reales
positivos como suma de n normales estandarizadas al cuadrado su densidad es
 n
 1 n−2 − x
 
1 2
f ( x)   x 2 e2
 Γ n   2 
  2 
dicha variable presenta como parámetros característicos, media y varianza,
[ ]
respectivamente, E[ Χ 2 n ]=n; σ 2 x n2 = 2n
32
x
Una propiedad interesante de esta variable:
Para n>30 grados de libertad se puede utilizar la siguiente propiedad de
aproximación: 2 x n2 → N ( )
2n − 1,1
5.2.4.2. Distribución tn de Student
Una variable aleatoria contínua sigue una distribución t de Student con n grados
N (0,1)
de libertad si estando definida sobre todos los reales como el cociente su
2
Xn
n
densidad es
  n + 1
 1 Γ 2  
− n +1
 1 + x  2
2
f ( x) 
 n 
 πn Γ n  
 2
La representación de la densidad se corresponde con la gráfica
su media es E [tn] =0 , y la varianza para esta variable es σ 2 [tn] =n/n-2
33
5.2.4.3. Distribución Fm;n (de Fisher-Snedecor )
Una variable aleatoria continua sigue una distribución de de Fisher-

Snedecor con m y n grados de libertad si estando definida como el cociente
x m2
Fm, n = m
x n2
n
m
 m + n  m  2
Γ   n
−1
Su densidad es f ( x) =
 2  n  x 2
∀x ≥ 0 , y dependiendo de los
m+n
m n −
Γ  Γ    m 2
 2  2 1 + 
 n
grados de libertad m y n admite representaciones gráficas de la forma
Los parámetros media y varianza para esta variable son, respectivamente
n 2 n 2 ( m + n − 2)
E[ Fm, n ] = y σ 2 [ Fm,n ] = .
n−2 m ( n − 2) 2 ( n − 4)
34
Capítulo 6.- Inferencia estadística.
6.1. Introducción a la inferencia estadística.
Entenderemos por población a todo conjunto de elementos caracterizados por

características comunes que precisamente identifican a ese mismo colectivo.
Diremos muestra a todo subconjunto constituido por individualidades
procedentes de una población.
La estadística inferencial comprende un conjunto de métodos y técnicas que

tratan de obtener conclusiones sobre aspectos poblacionales mediante el simple
análisis de una muestra de un buen grado de representatividad y adecuado
tamaño tomada de la población objeto de análisis.
Como métodos mas utilizados en inferencia hemos de distinguir entre métodos

de estimación (bien puntual, bien a través de intervalos de confianza) y métodos
de decisión (contraste o test o pruebas) de hipótesis estadísticas.
En lo sucesivo, entenderemos por población paramétrica a aquella que viene

definida por una variable cuya función de distribución es conocida aunque tales
parámetros se desconozcan. Si determinados cierto número de parámetros para
una variable no se puede precisar la distribución poblacional que esta sigue, la
población descrita por tal variable se dirá población no paramétrica.
Hemos de tener en cuenta que en los trabajos que se abordan utilizando técnicas
de inferencia el primer problema que surge es el de la determinación de
muestras representativas de la población a analizar; las técnicas de
determinación de muestras soporte adecuadas en estos procesos se dicen
métodos de muestreo.
Si la determinación de una muestra se establece sin más que extraer de forma

aleatoria desde la población individualidades el muestreo practicado se dice
aleatorio. Hablaremos de muestreo aleatorio simple si los elementos de la
población tan solo pueden formar parte de la muestra en una ocasión. Por el
contrario, si los elementos poblacionales pueden repetirse como elementos que
forman parte de la muestra en más de una ocasión hablaremos de muestreo
aleatorio con reemplazamiento.
Si la población no es homogénea respecto a la característica en ella a estudiar la

determinación de una muestra se lleva a cabo mediante el denominado muestreo
estratificado. Para conformar mediante este muestreo una muestra se han de
seguir estos pasos:
35
• descompondremos la población en partes disjuntas (estratos) de tal forma

que la variable a estudiar se haga homogénea dentro de cada estrato y
heterogénea entre estratos diferentes.
• se tomarán muestras representativas mediante muestreo aleatorio u otro
tipo de muestreo en cada uno de los estratos construidos.
• la muestra representativa del conjunto de la población será la reunión de
las muestras que representan los diferentes estratos
La determinación de los tamaños de las muestras representativas de los
diferentes estratos se conoce por afijación, y, como normas de afijación más
comunes las siguientes:
• Se practica afijación igual cuando los estratos son representados por
muestras del mismo tamaño.
• Se dice afijación proporcional cuando los tamaños de las muestras para
representar cada estrato son proporcionales al tamaño de los mismos.
• Se toman muestras con afijación optima, cuando la determinación los
tamaños muestrales es proporcional a la variabilidad de la variable objeto
a analizar dentro de cada uno de los estratos.
Si los elementos que conforman la población están ordenados mediante algún

criterio, el tipo de muestreo más adecuado para determinar muestras es el
denominado muestreo sistemático.
Son múltiples las formas con las que se puede determinar una muestra
representativa de una población pero en cualquier caso serán la propia población
a analizar y la variable que la describe , las características en ella a estudiar, los
métodos de inferencia necesarios en el análisis y los objetivos marcados en tal
estudio los mejores indicadores para elegir el tipo de muestreo más conveniente
para la determinación de una muestra soporte.
En lo que sigue diremos parámetros poblacionales aquellos valores de una

variable que considerada como tal describe toda una población.
Diremos estimador o estadístico o estadígrafo o estadímetro a toda función

medible de observaciones muestrales.
A la hora de construir estimaciones de parámetros poblacionales partiendo de

muestras soporte adecuadas al variar las muestras sobre las que un estimador
actúe se obtendrán diferentes estimaciones poblacionales que no han de
entenderse sino como valores de nuevas variables. De ellas se podrán estudiar
las distribuciones que siguen (se dirán distribuciones en el muestreo) y es en
función de estas leyes cómo se podrán determinar los parámetros que
particularmente la caracterizan los aspectos poblacionales que interese conocer.
No olvidemos que los errores de muestreo quedaban definidos como los errores
cometidos al considerar como valor real para un parámetro poblacional el valor
real del correspondiente parámetro muestral que naturalmente se obtiene del
análisis de no toda la población sino de una muestra representativa de tal
población.
36
6.2. Estimación puntual.
Las técnicas de estimación puntual tienen por finalidad construir

estimaciones de parámetros poblacionales mediante la actuación de estadísticos
adecuados sobre muestras.
Desde luego que el mejor estimador será aquel que como estimación de un
determinado parámetro poblacional proporcione exactamente el valor del
parámetro que se pretende estimar, y ello con independencia de la muestra
soporte considerada en el proceso de inferencia. Esto equivale a señalar que el
estimador perfecto será aquél que partiendo de diferentes muestras soporte para
construir otras tantas estimaciones de un parámetro poblacional, la colección de
estimaciones que proporcione presente por media el verdadero valor del
parámetro a estimar, a la vez que tendrá varianza nula. Naturalmente que,
salvo casualidades, esto en la práctica es imposible de alcanzar , salvo que la
muestra soporte coincida con la propia población. De ahí la necesidad de marcar
algunas exigencias que un estimador debe de cumplir para que sea sensata su
actuación en los procesos de inferencia.
Algunas propiedades de un estimador:
• Un estimador θˆ se dice centrado o insesgado para estimar un

parámetro poblacional θ si E[ θˆ ] = θ (la media de la colección de estimaciones
que con él se pueden construir es el propio θ ).
si E[ θˆ ] = θ + b( θ ) el estimador se dice sesgado y a b( θ ) se le dice
excentricidad o sesgo del estimador.
Es obvio que de entre todos los estimadores centrados el mejor estimador será
aquel que presente mínima varianza para las estimaciones que se puede
construir.
En la práctica, la varianza de un estimador difícilmente será nula. Una cota

para la varianza de un estimador (de las estimaciones que proporciona al actuar sobre
diferentes muestras) es la denominada cota de Cramer-Rao
σ 2 (θ ) =
[1 + b' (θ )]
∂
nE[ log L] 2
∂ϑ
37
El concepto de función de verosimilitud.
Siendo n el tamaño de una muestra soporte a utilizar en un proceso de

estimación puntual del parámetro poblacional θ se define la función de
verosimilitud correspondiente a la muestra dada y el parámetro a estimar como
n
L( x1 , x 2 ,...., x n ;θ ) = ∏ f ( xi ;θ )
i =1
Nótese que inicialmente L es función de la muestra soporte y del parámetro a estimar , pero ante
una muestra particular L tan sólo dependerá del parámetro objeto de estimación.
• Un estimador se dice eficiente si es centrado y de mínima

varianza.
El estimador ideal será centrado y de mínima varianza y en la práctica casi
nunca es así
• Un estimador θˆ se dice consistente para estimar un parámetro

poblacional θ si
[ ]
∀ε > 0 → P θˆ − θ ≥ ε → 0 cuando n → ∞
En la práctica para contrastar si un estimador es consistente nos
limitaremos a comprobar si se cumplen las condiciones siguientes:
 E [θˆ] = θ
n →∞

lim
n →∞
[]
σ 2 θˆ → 0
• Un estimador se dice suficiente si actuando sobre una muestra

soporte agota la información en ella encerrada sobre el parámetro a
estimar. El siguiente lema permite determinar en la práctica
cuando un estimador es suficiente:
Lema de Neyman – Fisher. θ es suficiente para estimar un parámetro θ

si y solamente si la función de verosimilitud se puede factorizar como
producto de dos factores
L( x1 , x 2 ,....., x n ;θ ) = g ( x1 , x 2 ,....., x n )h(θˆ,θ )
uno de ellas dependiendo tan solo de la muestra soporte, la otra
dependiendo del estimador y del parámetro a estimar.
• Un estimador invariante para una transformación g si la

transformada del estimador por la función g estima a la
transformada por la misma función del parámetro a estimar.
θˆ invariante g —> g ( θˆ ) = g ( θ )
38
Métodos de construcción de estimadores puntuales.
Método de máxima verosimilitud: Es éste un método que elige como

mejor estimación del parámetro poblacional θ al valor de la moda de la
distribución de la variable que describe la población , es tanto como decir que
decir que la mejor estimación de un parámetro poblacional construida con este
método será aquella que haga máxima la función de verosimilitud para una
muestra dada y el parámetro a estimar.
Para la construcción de una tal estimación se seguirán estos pasos
1. Construcción de la función de verosimilitud para más tarde buscar su

el punto donde alcanza el máximo
n
L( x1 , x 2 ,...., x n ;θ ) = ∏ f ( xi ;θ ) . Nótese que al ser producto de densidades ante una
i =1
muestra siempre toma valores positivos.
2. Construimos ln(L) que siempre existe y presenta máximo allí donde lo
hace L
∂Ln( L)
3. Calculamos = 0 (será una sóla ecuación si el parámetro a estimar es uno
∂θ i
tan sólo, en otro caso consistirá en un sistema, siempre compatible y determinado, de
tantas ecuaciones como parámetros haya que estimar en la población)
4. Resolviendo el sistema anterior el sistema obtendremos las

estimaciones θ i de los correspondientes parámetros poblacionales .
Observaciones:
Los estimadores máximo verosímiles no necesariamente son centrados. Este método construye
estimadores bastante precisos con muestras grandes. Cuando las muestras son pequeñas las
estimaciones están muy condicionadas por el tamaño de la muestra.
Método de los momentos: El método, ideado por Pearson, parte de la idea de

que si una muestra es representativa de la población de la que procede entre los
momentos muestrales y los correspondientes momentos poblacionales no
deberán de existir fuertes diferencias.
Localiza este método estimaciones puntuales de parámetros poblacionales

sin más que construir y resolver un sistema de tantas ecuaciones k como
incógnitas o parámetros poblacionales a estimar. Estas k ecuaciones resultan de
identificar los k primeros momentos muestrales con los correspondientes k
primeros momentos poblacionales.
Los estimadores de estos métodos son consistentes y no tienen porqué ser
centrados.
39
6.3. Estimación mediante la construcción de intervalos de confianza.
La utilización de las técnicas de estimación puntual permiten construir

estimaciones de parámetros poblacionales que difícilmente atinan con toda
exactitud con el parámetro a estimar. Debido a ello, esta teoría trata de localizar
una región que garantice con una confianza marcada por el propio investigador
donde se encuentra el parámetro a estimar.
Trataremos sobre la construcción de dos extremos de un intervalo que resultan

de la actuación sobre una muestra de un estimador, adecuadamente elegido,
para conformar lo que decimos del intervalo de estimación para un parámetro
poblacional.
A la hora de la construcción se han de tener en cuenta dos cuestiones

íntimamente relacionadas: Por un lado la precisión de la estimación y, por otro,
la fiabilidad o confianza con el que el intervalo construido realmente encierra al
parámetro a estimar. Las estimaciones se entienden más precisas cuanto menor
sea la amplitud de dicho intervalo y, se entenderán más fiables cuanto mayor sea
aquella amplitud. Estas dos cuestiones se relaciona de tal forma que en la
construcción se gana precisión a base de perder confianza y todo lo contrario.
Una cuestión a tener en cuenta es que será el propio investigador quien en toda
construcción ha de fijar adecuadamente estos conceptos.
Un intervalo de estimación para parámetro poblacional θ con

significación α obedecerá a la expresión [θ1 ( x1 , x 2 ,...., x n ;θ ), θ 2 ( x1 , x 2 ,...., x n ;θ )] tal
que P[θ1 ≤ θ ≤ θ 2 ] = (1 − α ) , siendo la muestra dada procede de una población con
densidad f (x, θ ) que puede involucrar uno o más parámetros a estimar.
Un intervalo así construido merece la siguiente interpretación: de cada 100
muestras extraídas de la población sobre la que se practica la estimación en las
mismas condiciones que se extrajo la muestra soporte particularmente
considerada en el proceso de construcción, con el 100(1- α ) % de ellas podríamos
construir otros tantos intervalos de confianza para los que se tiene certeza de que
realmente encierran el verdadero valor del parámetro θ a estimar. Con las
restantes 100 α % de las muestras se construirán otros tantos intervalos que tal
vez contengan al parámetro a estimar pero no hay seguridad de que así sea.
Es por lo tanto claro que en este tipo de construcciones se requiere

disponer de una muestra soporte, elegir un estimador adecuado cuya
distribución en el muestreo sea bien conocida y tener fijado el nivel de confianza
exigido en el proceso de estimación; con ello, la construcción de intervalos de
estimación de parámetros poblacionales partiendo de muestras soporte no suele
plantear más problemas que los propios de operar con expresiones a veces
incómodas de manejar.
Otro aspecto interesante el que se refiere al denominado "error de muestreo
en la estimación". Entenderemos por tal la separación máxima entre el
verdadero valor del parámetro poblacional a estimar y el valor del mismo
parámetro muestral.
40
Dado que el error de muestreo en una estimación está relacionado con el tamaño
muestral y nivel de confianza 1−α con la que se requiere construir la estimación
será el propio investigador quien en función de estas relaciones y el problema a
estudiar decida si es más importante ganar en precisión o en fiabilidad cuando la
muestra dada es de un tamaño fijado; o si lo que se impone es ganar a la vez
tanto en precisión como en confianza para lo cual necesariamente el tamaño
muestral ha de ser incrementado, y ello sabemos bien lo que supone.
41
42
6.4. Pruebas de hipótesis estadísticas.
Una hipótesis estadística no es más que una afirmación que establecemos sobre
una o más características de una población.
Un contraste de hipótesis es un procedimiento estadístico mediante el cual,

partiendo de una muestra soporte se investiga la aceptación o rechazo de una
hipótesis planteada sobre características poblacionales.
En un contraste diremos hipótesis nula, denotada por Ho, a la hipótesis que se
desea contrastar. Es la hipótesis sobre la que hay que construir la regla de
decisión que permita aceptarla o rechazarla con la significación exigida en la
prueba. Cualquier otra hipótesis tal que si se acepta Ho haya de ser rechazada o
viceversa, se dice hipótesis alternativa, y denotamos por H1.
En una prueba de hipótesis se dice región crítica al conjunto de valores del
estimador de la prueba (este valor resulta de la actuación del estimador utilizado en la
prueba actuando sobre la muestra soporte considerada) que nos conduce a la decisión de
rechazar la validez de la hipótesis nula.
Al conjunto de valores que nos conduce a aceptar la validez de Ho, le diremos
región de aceptación.
• Si las regiones de aceptación y crítica están separadas por dos puntos el contraste
se dice bilateral. Si tan solo las separa un punto el contraste se dice unilateral.
Naturalmente que en un test de hipótesis cuando aceptamos o rechazamos la

hipótesis nula podemos equivocarnos. Habrá casos en los que se rechaza Ho
siendo verdadera, se dice en estos casos que cometemos un error tipo I en la
prueba. A la probabilidad de cometer un error tipo I también le decimos nivel de
significación de la prueba
Al error cometido cuando se acepta Ho siendo falsa, se dice error tipo II.
Diremos potencia de un contraste a la probabilidad de rechazar la Ho siendo

falsa , se denota como (1- β ) siendo β la probabilidad de cometer un error tipo
II.
En la realización de una prueba de hipótesis es conveniente seguir, y

en este mismo orden, el siguiente esquema:
1. Determinar con claridad Ho y H1
2. Elegir el nivel de significación "α" de la prueba
3. Seleccionar un estimador adecuado cuya distribución en el muestreo sea
conocido bajo la hipótesis de certeza para Ho.
4. Delimitar las regiones de aceptación y critica de la prueba.
5. Evaluar la actuación del estimador sobre la muestra soporte y ubicarlo en
la región de aceptación o critica, según corresponda.
6. Construir la decisión adecuada.
7. Establecer las conclusiones que proceda sobre la población.
43
Interpretación del p-valor en un contraste .
La elección de la región crítica en un contraste en función del nivel de

significación está acompañada de dos cuestiones críticas
• El resultado de la prueba puede depender en gran medida de la
significación, es posible rechazar una hipótesis nula con una significación
dada y no rechazar dicha hipótesis con significación menor.
• El resultado de la prueba tan solo se refiere a la aceptación o rechazo de la
hipótesis nula, no podemos ver en un rechazo si el valor del estadístico en
la prueba está próximo al valor crítico o si por el contrario está muy dentro
de la región crítica y el rechazo se produce con mucha seguridad.
Una forma de valorar la decisión tomada sobre H0 consiste en la determinación

del llamado p-valor del contraste, es decir, el nivel de significación que se debería
de tomar para que el valor real del estadístico en la prueba se situase justo en la
frontera de las regiones de aceptación y críticas.
La regla de decisión será:
• Si el p-valor es mayor que el nivel de significación α exigido en la
prueba entonces estamos en condiciones de aceptar la hipótesis nula
con la significación dada.
• . Si el p-valor es menor que el nivel de significación α estaremos en
condiciones de rechazar la hipótesis nula con la significación dada.
Cuanto menor sea el p-valor, más seguridad tenemos en rechazar H0, mientras que un
elevado p-valor nos dará seguridad a la hora de no rechazarla.
44
PRUEBAS DE HIPOTESIS
Esquema Resumen
1-.Contrastes relacionados con proporciones
Hipótesis nula Valor real del Estadístico de Hipótesis Región Crítica

contraste Alternativa
Muestras
pequeñas
P = 2 P[ X ≥ x / p = p 0 ]six > np 0
P = 2 P[ X ≤ x / p = p 0 ]six < np 0
Muestras
grandes
Muestras
grandes
45
2-.Pruebas referentes a medias.
Distribuciones poblacionales normales.
desviaciones poblacionales
conocidas
iguales desconocidas
distintas y desconocidas
3-.Observaciones pareadas
4-.Referente a la varianza
población normal, tamaño

muestral n
46
6.4.1 Otras pruebas de hipótesis.
6.4.1.1. Las pruebas Ji Cuadrado
Pruebas de bondad de ajuste (o de validación de modelo).

Son pruebas que tienen como objetivo contrastar a través de la
información que aporta una muestra si una variable sigue una determinada
dicha variable sigue una determinada distribución l , necesitamos plantear la
siguiente prueba de hipótesis:
H0: X → l
H1: X →≠ l
Supongamos conocidos los valores xi de la variable en una muestra

soporte, y denotemos oi a las frecuencias con las que, según la información
muestral, realmente se presenta la variable en las diferentes categorías i- ésimas
en que se encierra. Sean ei las frecuencias con las que teóricamente se
manifestaría tal variable en estas categorías en el caso hipotético de que sea
cierta H0.
k
(oi − ei )2
Siendo así, el estimador de la prueba es X =∑
2
, y como se
ei
i =1
observa se basa en la comparación entre frecuencias reales y teóricas con que se

manifiesta la variable en la distribución de la muestra disponible.
Este estimador sigue una distribución en el muestreo χ n2−r −1 , siendo n el

número de categorías en las que se encierra la variable, r el número de
parámetros involucrados en la expresión de l y α la significación de la prueba.
Para esta prueba, la región crítica la constituyen los valores del
estadístico X2 / x2 > χ n2−r −1 .
Notas:
• la prueba pierde potencia si alguna categoría presenta frecuencia teórica
inferior a 5. Conviene efectuar una redistribución de los valores de la
variable hasta superar el problema.
• Particularmente, para el ajuste de una ley normal, una prueba más
precisa es la prueba de Geary.
47
6.4.1.2. Prueba de independencia.
Dada una tabla de contingencia que refleja una muestra de valores de una
variable bidimensional (X,Y)
Mediante esta prueba se plantea contrastar si las modalidades que

presenta una de las componentes de una variable bidimensional son dependientes
o no respecto de las modalidades presentadas por la otra componente de la
variable.
Las hipótesis a contrastar en este caso son:
H0 : X, Y son independientes
H1 : X, Y no son independientes
Oi,j denotan los valores reales de las frecuencias que proporciona la

muestra y eij son los valores teóricos correspondientes si H0 es cierta.
Como estadístico de la prueba el estimador a considerar es

k (o − e )2
χ =∑
2 ij ij
i =1 eij
y su distribución en el muestreo obedece a una χ ( r −1)( c −1);α
Las regiones de aceptación y crítica de la prueba se delimitan como se observa

en la siguiente figura
48
6.4.1.3. Prueba de homogeneidad.
En la realización de la prueba de independencia no es necesario prefijar de

antemano alguna de las frecuencias absolutas de alguna de las componentes de
la distribución muestral de los valores de la variable bidimensional que describe
la población a analizar; en esta prueba de homogeneidad alguna o las dos
frecuencias quedan predeterminadas antes de plantear la prueba de hipótesis.
Mediante la prueba de homogeneidad se trata de contrastar si las
proporciones de las modalidades de una de las componentes de una variable
bidimensional se mantienen homogéneas o no con respecto de las de la otra
componente.
En esta prueba el estadístico de contraste , su distribución en el
muestreo, el valor critico de la prueba y las regiones de aceptación y crítica así
como la decisión sobre la hipótesis nula se consideran exactamente como que en
la prueba anterior.
6.4.1.4. Sobre otras pruebas no paramétricas.
Los llamados métodos no paramétricos o de distribución libre constituyen un grupo de

pruebas de hipótesis estadísticas que asumen, excepto tal vez en algunas variables continuas,
desconocimiento sobre las distribuciones poblacionales de la variable objeto de análisis. Las
ventajas de las pruebas no paramétricas son aplicables cualquiera que sea la distribución de la
variable a estudiar, pero su utilización frente a la utilización de pruebas paramétricas presentan
algunos inconvenientes; los más importantes que son menos eficientes que las paramétricas, no
utilizan toda la información que encierra la muestra y, por otro lado, para que estos métodos
alcancen una potencia alta requieren tamaños muestrales muchísimo más grandes que los
requeridos en las pruebas paramétricas.
Dentro de este conjunto de pruebas se encuentran como pruebas más frecuentemente utilizadas
la prueba de los Signos, la prueba del Rango con signo de Wicolxon, la prueba de Suma de
Rangos y la prueba de Kruskal-Wallis.
49

Estad Ã Stica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estad Ã Stica

Cargado por

Copyright:

Formatos disponibles

Matemáticas III. Grados I Mecánico - I. de Materiales.

Estadística Curso 2016/2017

1.- Análisis descriptivo de datos

1.1. Fases a seguir en un estudio estadístico. 3

1.2. Estadística descriptiva e inferencia estadística. 4

1.3. Concepto de variable estadística. 5

1.3.1. Clases (o categorías) para una variable estadística. 5

1.3.2. Consideraciones previas al estudio de una variable estadística agrupada 6

1.4. Distribución de frecuencias absolutas de una variable 6

1.4.1. Representaciones gráficas de datos. 7

1.4.2. Descripción de una variable estadística. 7

2.- Análisis de distribuciones bidimensionales.

2.1. El problema del ajuste. 13

2.2. Regresión lineal. 15

2.3. Correlación lineal. 16

3.- Cálculo de probabilidades.

3.2. Frecuencia relativa de sucesos aleatorios. 21

3.3. Sucesos condicionados. Probabilidad condicionada. 22

4.- Análisis de una variable aleatoria.

4.1. Estudio de una variable aleatoria discreta. 23

4.2. Estudio de una variable aleatoria contínua. 24

5.- Distribuciones más notables.

5.1. Distribuciones de variable aleatoria discreta. 27

5.1.2. Distribución de Poisson (o de los sucesos raros). 28

5.2.3. Distribución geométrica. 28

5.2. Distribuciones de variable aleatoria continuas. 29

5.2.1. Distribución rectangular o uniforme. 29

5.2.2. Distribución exponencial negativa. 29

5.2.3. Distribución normal (o de Gauss). 30

5.2.4. Distribuciones deducidas de la normal. 31

5.2.4.1. Distribución Ji (o Chy) cuadrado de Pearson. Χ2n . 31

6.- Inferencia estadística.

6.1.Introducción a la inferencia estadística. 34

6.3. Estimación mediante la construcción de intervalos de confianza. 39

6.4. Pruebas de hipótesis estadísticas. 42

6.4.1. Otras pruebas de hipótesis. 46

6.4.1.1 Las pruebas Ji cuadrado 46

Capítulo 1.- Análisis descriptivo de datos

Clásicamente se entendía por estadística a toda colección de datos ordenados y

1.1. Fases a seguir en un estudio estadístico.

Es recomendable a la hora de abordar un trabajo de estadística seguir

• Una primera fase podría decirse de recopilación de información;

• La segunda podrá definirse como fase de ordenación y agrupación de

Una cuestión a tener en cuenta.

Todos los demás errores se dicen sesgos.

1.2. Estadística descriptiva e inferencia estadística.

Entenderemos por estadística descriptiva a aquél conjunto de técnicas que se

Entenderemos por estadística inferencial o inductiva al conjunto de técnicas que

Los métodos descriptivos presentan como gran ventaja que su utilización no

Los métodos inductivos tienen como ventajas la rapidez de su ejecución, en cada

1.3. Concepto de variable estadística.

La información que se desprende de la observación de experimentos

En el tratamiento de un trabajo estadístico, inicialmente se hace imprescindible

• Una variable se dice cuantitativa si los resultados de los experimentos

1.3.1. Clases (o categorías) para una variable estadística.

continua . Finalmente, a la hora de agrupar valores de una variable en clases no

1.3.2. Consideraciones previas al estudio de una variable estadística agrupada en

• Diremos marca de clase a aquél valor de la variable representante de

1.4. Distribución de frecuencias absolutas de una variable estadística.

Distinguiremos los tipos siguientes de distribuciones de frecuencias:

Distribuciones tipo I (también se dicen series estadísticas) , que no son sino

Distribuciones tipo III : Son adecuadas para representar distribuciones de

1.4.1. Representaciones gráficas de datos.