Está en la página 1de 112

~ 1 ~

mean



FACULTAD DE INGENIERA. PROGRAMA: INGENIERA DE SISTEMAS
2011
PROBABILIDAD Y ESTADSTICA
CON MATLAB PARA
INVESTIGADORES
Curso bsico
Hctor Jos Pabn ngel MSc.
U N I V E R S I D A D D E C U N D I N A M A R C A S E C C I O N A L U B A T

2






PROBABILIDAD Y ESTADSTICA
CON MATLAB
PARA INVESTIGADORES


POR:


HCTOR JOS PABN NGEL
MSc.


UNIVERSIDAD DE CUNDINAMARCA
SECCIONAL UBAT
PROGRAMA DE INGENIERA
2011

3

CONTENIDO
Pg.
1. ELEMENTOS DE MATLAB 8
1.1 INTRODUCCIN 8
1.2 ALGUNAS OPERACIONES BSICAS CON MATLAB 8
1.3 LOS NMEROS EN MATLAB Y LOS FORMATOS NUMRICOS 9
1.4 OPERACIONES ARITMTICAS 9
1.5 FUNCIONES MATEMTICAS DE MATLAB 11
1.6 VECTORES 11
1.7 MATRICES 14
1.8 CREACIN DE MATRICES ESPECIALES 17
1.9 OPERACIONES CON MATRICES 21
1.10 CADENAS DE IMPRESIN 23
1.11 SOLUCIN DE ECUACIONES LINEALES 24
1.12 GRAFICACIN CON MATLAB 27
1.13 SUBPLOT 29
1.14 DEFINICIN DE FUNCIONES 30

2. PROBABILIDAD 32
2.1 INTRODUCCIN 32
2.2 ESPACIO MUESTRAL 32
2.3 EVENTO 32
2.4 COMBINATORIA 33
2.5 PROBABILIDAD DE UN EVENTO 34
2.6 PROBABILIDAD CONDICIONAL 36
2.7 EVENTOS INDEPENDIENTES 37
2.8 VARIABLES ALETAORIAS 37
2.9 DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 38
2.10 DISTRIBUCIN CONTINUA DE PROBABILIDAD 40
2.11 ESPERANZA MATEMTICA 41
2.12 VARIANZA 43
2.13 DISTRIBUCIONES DISCRETAS 45
2.13.1 Distribucin binomial 45
2.13.2 Distribucin hipergeomtrica 47
2.13.3 Distribucin de Poisson 48
2.14 DISTRIBUCIONES CONTINUAS 50
2.14.1 Distribucin normal 50
2.14.2 Distribucin ;
2
(o JI-cuadrado) 57
2.14.3 Distribucin t de Student 58
2.14.4 Distribucin F 59

3. ANLISIS ESTADSTICO 61
3.1 ESTADSTICA DESCRIPTIVA 61
3.1.1 Estadgrafos de posicin 66
3.1.2 Estadgrafos de dispersin 66

4. TEORA DE MUESTREO 72
4.1 INFERENCIA ESTADSTICA 75
4.2 PRUEBA DE HIPTESIS 75


4

5. AJUSTES DE CURVAS Y REGRESIN 88
5.1 INTRODUCCIN 88
5.2 REGRESIN LINEAL SIMPLE 88
5.3 DIAGRAMAS DE DISPERSIN 89

APNDICE 1 98
APNDICE 2 99
APNDICE 3 100
APNDICE 4 101
GLOSARIO 103
BIBLIOGRAFA 108
FUENTES DE INFORMACIN ELECTRNICA 111




5

LISTA DE FIGURAS
Pg.

FIGURA 1.1 Grfica de la funcin y = e
x
+10 27
FIGURA 1.2 Grfica de malla para la superficie Z = -3X + Y 28
FIGURA 1.3
Grfica de la superficie z =
28
FIGURA 1.4 Varios grficos en una misma ventana utilizando la funcin subplot 29
FIGURA 1.5 Varios grficos en una misma ventana utilizando la funcin
subplot
30
FIGURA 1.6 Grfica de la funcin f(x) = e
x
2x/(1 + x
3
) 31
FIGURA 2.1 (a) Diagrama de Venn de eventos mutuamente excluyentes (b)
(disyuntos)
33
FIGURA 2.2 Diagrama de Venn de la variable aleatoria X del ejemplo 2.7 38
FIGURA 2.3 Histograma de probabilidad 39
FIGURA 2.4 Distribucin acumulada discreta 39
FIGURA 2.5 Distribucin de Poisson con u = 2 y k 10 48
FIGURA 2.6 Funcin de densidad de la variable aleatoria normal X con u = 0 y
o

= 1
50
FIGURA 2.7 Distribuciones normales con u = -3, u = 0 y u = 3 y o constante 51
FIGURA 2.8 Distribuciones normales con igual media 0 y varianzas diferentes 52
FIGURA 2.9 Histograma del ejemplo 2.27 52
FIGURA 2.10 Histograma del ejemplo 2.28 53
FIGURA 2.11 Funcin de distribucin acumulada para la curva normal 57
FIGURA 2.12 Distribucin ;
2
con 2, 4, 6 y 8 grados de libertad con azul, verde,
rojo, azul claro, respectivamente
58
FIGURA 2.13 Distribucin t con 1 (azul), 2 (verde), 5 (rojo), 100 (azul claro)
grados de libertad
59
FIGURA 2.14 Distribuciones F con 8 y 12 grados de libertad (azul), y 12 y 24
grados de libertad (verde)
60
FIGURA 3.1 Grfico de sectores (pie) 64
FIGURA 3.2 Histograma de frecuencias con seis clases del ejemplo 3.2 64
FIGURA 3.3 Diagrama de barras verticales 64
FIGURA 3.4 Diagrama de barras horizontales 65
FIGURA 3.5 Grfico de racimo 65
FIGURA 3.6 Polgono de frecuencias (rojo) 65
FIGURA 3.7 Histograma y curva normal 67
FIGURA 3.8 Histograma y curva normal 69
FIGURA 3.9 Asimetras 69
FIGURA 3.10 Curtosis 70
FIGURA 5.1 No existe relacin entre los vectores de datos x e y 89
FIGURA 5.2 Relacin lineal positiva 89
FIGURA 5.3 Relacin lineal negativa 90
FIGURA 5.4 Relacin curvilnea 90
FIGURA 5.5 Lnea recta de ajuste por mnimos cuadrados 91
FIGURA 5.6 Ajuste lineal y cuadrtico 92
FIGURA 5.7 Regresin lineal para la data del ejemplo 5.1 y lmite de confianza
de y
94
FIGURA 5.8 Grfico de la distribucin acumulativa normal de las desviaciones
de la lnea que aparece adecuada en la figura anterior
94

6

FIGURA 5.9 Recta de regresin estimada de las notas de Matemtica I
respecto al puntaje de ingreso a la universidad
95
FIGURA 5.10 Grfico de la distribucin acumulativa normal de las desviaciones

96




7

LISTA DE TABLAS
Pg.
TABLA 2.1 Datos de estudiantes de la Universidad X 36
TABLA 3.1 Clases vs frecuencias 64
TABLA 5.1 Data de la variable independiente x, y la variable dependiente y 93


8

PROBABILIDAD Y ESTADSTICA CON MATLAB PARA
INVESTIGADORES

1. ELEMENTOS DE MATLAB

1.1 INTRODUCCIN

En esta seccin se discutirn algunos tpicos de programacin con MATLAB. El nombre
de MATLAB es una abreviatura de Matrix Laboratory. MATLAB es un paquete para
computacin numrica extremadamente potente. Con MATLAB se pueden dar
comandos directos, como una calculadora de mano o se pueden escribir programas.

MATLAB existe como un programa de aplicacin primaria con una librera bastante
amplia de mdulos de programas llamados Toolbox standard. Los Toolbox de
MATLAB, contienen una librera amplia para resolver muchos problemas prcticos de
estadstica, tales como interpolacin, regresin, medidas de tendencia central, medidas
de dispersin, inferencia estadstica, graficacin, entre otros muchos temas.

MATLAB es un paquete de software matemtico basado en matrices. Est altamente
optimizado y es un sistema muy confiable. Muchas tareas numricas pueden ser
expresadas en forma concisa en el lenguaje del lgebra lineal sin mucha dificultad como
ocurrira en otro lenguaje de programacin no optimizado para matemticas.

1.2 ALGUNAS OPERACIONES BSICAS CON MATLAB

El prompt >> est dado por el sistema y se requiere dar <ENTER> para ejecutar un
comando MATLAB

Es posible incluir comentarios en el espacio de trabajo de MATLAB, escribiendo %
despus de la sentencia, para indicar que es un comentario.

Ejemplo 1.1

>>% este es un comentario que no es ejecutable.

Ejemplo 1.2 Para buscar ayuda en un tpico especfico, se puede escribir:

>>help format %busca ayuda sobre format

Un punto y coma colocado al final de una expresin hace que la ejecucin del comando
no sea visible al usuario. Sin el punto y coma, se muestra el resultado de la ejecucin.



9

Ejemplo 1.3 Uso del punto y coma.

>>A=[1 2 3;4 5 6;7 8 9]; % no muestra la matriz
>>A=[1 2 3;4 5 6;7 8 9] % muestra la matriz

1.3 LOS NMEROS EN MATLAB Y LOS FORMATOS NUMRICOS

Las variables numricas son almacenadas en MATLAB en doble precisin, formato de
punto flotante. Es posible forzar algunas variables a otros tipos, pero no de una manera
fcil y esta capacidad no es necesaria por ahora.

Por defecto, la salida a la pantalla es de cuatro dgitos a la derecha del punto decimal.

Ejemplo 1.4 Para determinar el formato de salida de pantalla, se usa el comando
format, as:

>>format short %formato con cuatro dgitos decimales
>>pi
ans =
3.1416
>>format long % formato con 14 cifras decimales
>>pi
ans =
3.14159265358979
>>format short e %notacin cientfica corta
>>pi
ans =
3.1416e + 000

Como parte de su sintaxis y su semntica, MATLAB est previsto para dar valores
excepcionales. Ms infinito (+) est representado por Inf, menos infinito (-) por inf,
y no es un nmero por NAN (not a number). Estos valores excepcionales se
encuentran a menudo a travs de clculos en MATLAB.

1.4 OPERACIONES ARITMTICAS

La aritmtica en MATLAB sigue las reglas y uso de los smbolos de la computacin
estndar para los signos de las operaciones aritmticas.

Smbolo Efecto

+ Adicin o suma
- Substraccin o resta
* Multiplicacin o producto

10

/ Divisin
^ Potencia
' Conjugada transpuesta
pi, e Constantes

En el presente contexto se considerarn estas operaciones como operaciones aritmticas
con escalares.

Ejemplo 1.5

>>(4-2+3*pi)/2
ans =
5.7124
>>a=2;
>>b=sin(a);
>>2*b^2
ans =
1.6537

Las operaciones aritmticas con MATLAB son mucho ms potentes que stas del
ejemplo 1.5, como se ver ms adelante.

Hay algunas operaciones aritmticas que requieren gran cuidado. El orden en el cual la
multiplicacin y la divisin se especifican es especialmente importante.

Ejemplo 1.6 El orden de ejecucin de las operaciones siguen un orden estricto de
acuerdo a la prioridad establecida por MATLAB

>>a=2;
>>b=3;
>>c=4;

Aqu, ante la ausencia de parntesis, las dos operaciones se ejecutan de izquierda a
derecha como sigue:

>>a/b*c
ans =
2.6667

Las operaciones aritmticas ejecutadas es equivalente a (a/b)*c, que es diferente a:
a/(b*c)

>> a/(b*c)
ans =
0.1667

11


1.5 FUNCIONES MATEMTICAS DE MATLAB

Todas las funciones matemticas estndar, llamadas funciones elementales que se
necesitan en este curso estn disponibles en MATLAB usando sus nombres
matemticos usuales.

Smbolo Efecto
abs(x) Valor absoluto
sqrt(x) Raz cuadrada
sin(x) Funcin seno
cos(x) Funcin coseno
tan(x) Funcin tangente
log(x) Funcin logaritmo natural
exp(x) Funcin exponencial
atan(x) Funcin tangente inversa
acos(x) Funcin coseno inversa
asin(x) Funcin seno inversa
cosh(x) Funcin coseno hiperblico
sinh(x) Funcin seno hiperblico

Ntese que las funciones trigonomtricas su argumento debe estar en radianes (o nmero
puro) y no en grados.

Ejemplo 1.7 Calcular cos(pi/3)

>> cos(pi/3)
ans =
0.5000

Como se dijo antes, las variables aparecen como escalares. De hecho, todas las variables
en MATLAB son arreglos. Un aspecto importante de MATLAB es que se trabaja muy
eficientemente con arreglos y las tareas principales son mejor trabajadas con arreglos.

1.6 VECTORES

En MATLAB la palabra vector puede ser realmente interpretada como una lista de
nmeros. Estrictamente, podra ser una lista de otros objetos no numricos, pero por
ahora, decir esto es ms que suficiente y llena las expectativas del curso.

Hay dos clases bsicas de vectores en MATLAB: vector fila y vector columna.



12

Ejemplo 1.8 Definir un vector fila y un vector columna

>> x=[1 2 3 4 5] %define el vector x
x =
1 2 3 4 5
>> y=[1;2;3;4;5] %define el vector columna y
y =
1
2
3
4
5
>> x(3) %muestra el tercer elemento del vector x
ans =
3
>> y(5) %muestra el quinto elemento del vector columna
ans =
5
>> z=x(4)+3*x(2)+y(5)
z = 15

Los dos puntos tienen un especial y potente rol. Bsicamente, permite una forma fcil de
definir un vector de nmeros igualmente espaciados. Hay dos formas bsicas de definir
un vector en MATLAB con esta la notacin, utilizando los dos puntos.

La primera se hace con dos argumentos separados por dos puntos, como sigue:

Ejemplo 1.9 Definir un vector x con elementos igualmente espaciados por una unidad.

>> x=-2:4 %crea un vector que empieza con -2 y termina con 4 con incrementos de a 1
x =
-2 -1 0 1 2 3 4

La segunda es con tres argumentos separados por dos veces los dos puntos y tiene el
efecto de especificar el valor inicial : espaciamiento : valor final.

Ejemplo 1.10 Definir un vector y espaciando igualmente sus elementos con incrementos
de 0.5

>> y=-2:0.5:4 %crea un vector que empieza con -2 y termina con 4 con incrementos de a
0.5
y =
-2.0000 -1.5000 -1.0000 -0.5000 0 0.5000 1.0000 1.5000 2.0000
2.5000 3.0000 3.5000 4.0000

13

Ejemplo 1.11 Tambin se puede utilizar la notacin con dos puntos como sigue:

>> z=x(2:6) %crea el vector z con los elementos desde x(2) hasta x(6)
z =
-1 0 1 2 3
>> w=y(2:6) %crea el vector w con los elementos desde y(2) hasta y(6)
w =
-1.5000 -1.0000 -0.5000 0 0.5000

MATLAB tiene otros dos comandos para definir vectores de una manera adecuada. La
primera se llama funcin linspace, que se usa para especificar un vector con un nmero
dado de elementos igualmente espaciados entre un punto inicial y un punto final.

Ejemplo 1.12 Definir un vector x en un intervalo dado con n elementos.

>> x=linspace(1,2,5) %crea el vector x con 5 elementos en el intervalo [1,2]
x =
1.0000 1.2500 1.5000 1.7500 2.0000

En el ejemplo 1.12, el vector x tiene 5 elementos acomodados entre 1 y 2, igualmente
espaciados.

El otro comando es llamado funcin logspace, que es similar a la funcin linspace,
excepto que los elementos crecen igualmente espaciados en forma logartmica, y tambin
segn 10
valor inicial
y 10
valor final
.

Ejemplo 1.13 Definir un vector x en forma logartmica con n elementos

>> x=logspace(1,5,5)
x =
10 100 1000 10000 100000

Ejemplo 1.14 Se pueden usar vectores con MATLAB para generar tablas de valores de
funciones.

>> x=linspace(0,1,11);%crea el vector x con 11 valores entre 0 y 1
>> y=cos(x);%crea el vector y con los 11 valores de cos(x)
>> [x',y']%escribe los dos vectores x, y como columnas
ans =
0 1.0000
0.1000 0.9950
0.2000 0.9801
0.3000 0.9553
0.4000 0.9211

14

0.5000 0.8776
0.6000 0.8253
0.7000 0.7648
0.8000 0.6967
0.9000 0.6216
1.0000 0.5403

Ntese que se utiliz el apstrofe ' para transponer los vectores, es decir, para convertir
las filas en columnas.

Ejemplo 1.15 Otra forma de usar los dos puntos es como sigue:

>> y=sqrt(4+2*(0:0.3:2.4)')
y =
2.0000
2.1448
2.2804
2.4083
2.5298
2.6458
2.7568
2.8636
2.9665

1.7 MATRICES

Una matriz es un arreglo bidimensional de valores numricos que obedecen las reglas del
lgebra lineal.

Para entrar una matriz, se listan todos los elementos de la matriz de la primera fila
separados por espacios en blanco o comas, separando la primera fila de la segunda por
punto y coma y as sucesivamente hasta la ltima fila, encerrando todos los elementos
con corchetes. Para entrar una matriz de 3x4 de nmeros se procede as:

Ejemplo 1.16 Definir una matriz numrica de dimensin 3x4.

>> A=[1 2 3 4;5 6 7 8;8 10 11 12]%crea la matriz A de tres filas y 4 columnas
A =
1 2 3 4
5 6 7 8
8 10 11 12

Ejemplo 1.17 Si se quiere convertir un vector fila, en vector columna, se procede:

>> [1 2 3] %el apstrofe transpone el vector

15

ans =

1
2
3

Ejemplo 1.18 Los elementos de las matrices se pueden manipular de muchas maneras.

>> A
A =
1 2 3 4
5 6 7 8
8 10 11 12
>> A(2,3)%escribe el elemento localizado en la segunda fila y tercera columna
ans =
7

Ejemplo 1.19 Se puede seleccionar una submatriz, de la siguiente forma:

>> A([1 2 3],[1 2 3])
ans =
1 2 3
5 6 7
8 10 11

>> A([1:3],[1:3])
ans =
1 2 3
5 6 7
8 10 11

Ejemplo 1.20 Se puede borrar un elemento o un grupo de elementos de un vector o una
matriz, asignando a esos elementos la matriz nula (cero), [ ].

>> x=[1 2 3 4 5 6];
>> x(4)=[ ]
x =
1 2 3 5 6
>> A(:,1)=[ ]
A =
2 3 4
6 7 8
10 11 12


16

Ejemplo 1.21 Para intercambiar dos filas de una matriz A, se digita el siguiente script:

>> B=A([3 2 1])
B =
10 6 2

>> B=A([3 2 1],:)
B =
10 11 12
6 7 8
2 3 4
>> A
A =
2 3 4
6 7 8
10 11 12

Ejemplo 1.22 Para cambiar la segunda fila de una matriz A de 3x3 a [2 2 2], se ejecuta el
siguiente script:

>> A=[1 2 3;4 5 6;7 8 9]
A =
1 2 3
4 5 6
7 8 9
>> A(2,:)=[2 2 2]
A =
1 2 3
2 2 2
7 8 9

Ejemplo 1.23 Para cambiar la segunda columna de una matriz A de 3x3 a [2 2 2] se
ejecuta el siguiente script:

>> A=[1 2 3;4 5 6;7 8 9]
A =
1 2 3
4 5 6
7 8 9
>> A(:,2)=[1 1 1]
A =
1 1 3
4 1 6
7 1 9

17

1.8 CREACIN DE MATRICES ESPECIALES

Hay muchas funciones incorporadas en MATLAB que se utilizan para crear vectores y
matrices especiales. Se tienen ejemplos como:

Ejemplo 1.24 Crear la matriz cero.

>> A=zeros(2,3)%crea la matriz A de 2 filas y tres columnas de ceros
A =
0 0 0
0 0 0
>> A=zeros(3)%crea la matriz cuadrada A de ceros de orden 3

A =
0 0 0
0 0 0
0 0 0

Ejemplo 1.25 Crear una matriz de unos

>> A=ones(2,3)
A =
1 1 1
1 1 1
>> A=ones(3)
A =
1 1 1
1 1 1
1 1 1
>> A=ones(2,3)'
A =
1 1
1 1
1 1

Ejemplo 1.26 Crear la matriz identidad

>> I3=eye(3)
I3 =
1 0 0
0 1 0
0 0 1

>> I5=eye(5)

18

I5 =
1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1

Ejemplo 1.27 Crear una matriz diagonal

>> x=[1 2 3];
>> A=diag(x)
A =
1 0 0
0 2 0
0 0 3
>> A=diag([4 5 6])
A =

4 0 0
0 5 0
0 0 6

Ejemplo 1.28 Para extraer la diagonal de una matriz almacenada en memoria, se usa el
nombre de la funcin diag, pero poniendo como entrada una matriz y presentando como
salida alternativa un vector.

>> A=diag([1 2 3])
A =
1 0 0
0 2 0
0 0 3

>> u=diag(A)
u =
1
2
3

Ejemplo 1.29 Crear la funcin length y la funcin size, la cual se usa para determinar el
nmero de elementos de un vector o una matriz. Estas funciones son muy tiles cuando
se trata de matrices de tamao desconocido o tamao variable especialmente cuando se
escriben bucles (loops).

>> x=1:10 %crea el vector x de enteros entre 1 y 10

19

x =
1 2 3 4 5 6 7 8 9 10
>> length(x)%proporciona el nmero de elementos del vector x
ans =
10

Ejemplo 1.30 Ahora se define el comando size, el cual retorna dos valores,
correspondientes a las filas y columnas de la matriz en cuestin, donde el primer nmero
corresponde a las filas y el segundo a las columnas.

>> A=[1 2 3 4;5 6 7 8]
A =
1 2 3 4
5 6 7 8
>> size(A)
ans =
2 4
>> size(A')
ans =
4 2

Ejemplo 1.31 Crear la matriz de races cuadradas de una matriz A, usando la funcin sqrt
para obtener una matriz B cuyos elementos son las races cuadradas de los elementos de
la matriz A.

>> A
A =
1 2 3 4
5 6 7 8
>> B=sqrt(A)
B =
1.0000 1.4142 1.7321 2.0000
2.2361 2.4495 2.6458 2.8284


Ejemplo 1.32 Crear una matriz triangular superior de una matriz dada A, usando la
funcin triu

>> A=[1 2 3;4 5 6;7 8 9]
A =
1 2 3
4 5 6
7 8 9
>> U=triu(A)

20

U =
1 2 3
0 5 6
0 0 9
>> U=triu(A,1)
U =
0 2 3
0 0 6
0 0 0
>> U=triu(A,2)
U =
0 0 3
0 0 0
0 0 0

Ejemplo 1.33 Crear una matriz triangular inferior, usando la funcin tril

>> U=tril(A)
U =
1 0 0
4 5 0
7 8 9
>> U=tril(A,-1)
U =
0 0 0
4 0 0
7 8 0
>> U=tril(A,-2)
U =
0 0 0
0 0 0
7 0 0

Ejemplo 1.34 Crear una matriz aleatoria nxn usando la funcin rand

>> R=rand(3) %siempre va a salir una matriz diferente por ser aleatoria
R =
0.8147 0.9134 0.2785
0.9058 0.6324 0.5469
0.1270 0.0975 0.9575

>> R=rand(2) %siempre va a salir una matriz diferente por ser aleatoria
R =

21

0.9649 0.9706
0.1576 0.9572

1.9 OPERACIONES CON MATRICES

Las operaciones bsicas con matrices son la adicin, substraccin y multiplicacin.
Cuando dos matrices tienen el mismo tamao, se pueden sumar y restar. Tambin se
puede multiplicar una matriz por escalar.

Ejemplo 1.35

>> A=[-1 2 5 0; 1 -2 4 2; 1 2 3 4]
A =
-1 2 5 0
1 -2 4 2
1 2 3 4
>> B=[0 1 0 1; 2 -1 -4 3; 2 1 4 1]
B =
0 1 0 1
2 -1 -4 3
2 1 4 1
>> A+B
ans =
-1 3 5 1
3 -3 0 5
3 3 7 5
>> A-B
ans =
-1 1 5 -1
-1 -1 8 -1
-1 1 -1 3
>> 2*A-3*B
ans =
-2 1 10 -3
-4 -1 20 -5
-4 1 -6 5
>> B=B' %aqu se hace B igual a B transpuesta por conveniencia para efectuar la
multiplicacin
B =
0 2 2
1 -1 1
0 -4 4
1 3 1

22

>> B*A %de esta manera se pueden multiplicar, pues el nmero de columnas de la primera
debe ser igual al nmero de filas de la segunda.
ans =
4 0 14 12
-1 6 4 2
0 16 -4 8
3 -2 20 10
>> A*B %en general A*B es diferente de B*A
ans =
2 -24 20
0 -6 18
6 0 20

Ejemplo 1.36 Matemticamente la operacin de divisin de matrices no est definida,
mas sin embargo se pueden realizar algunas operaciones adicionales como sigue:

>> a=[1 2 3];
>> b=[2 -1 4];
>> c=a./b
c =
0.5000 -2.0000 0.7500
>> c=a.*b
c =
2 -2 12
>> c=a.^2
c =
1 4 9
>> c=a.^a
c =
1 4 27
>> c=a.^b
c =
1.0000 0.5000 81.0000
>> B=B'
B =
0 1 0 1
2 -1 -4 3
2 1 4 1
>> C=A.*B
C =
0 2 0 0
2 2 -16 6
2 2 12 4

23

>> C=C.^(1/2)
C =
0 1.4142 0 0
1.4142 1.4142 0.0000 + 4.0000i 2.4495
1.4142 1.4142 3.4641 2.0000

1.10 CADENAS DE IMPRESIN

Las cadenas son matrices cuyos elementos son caracteres. En aplicaciones ms
avanzadas tales como computacin simblica, la manipulacin de cadenas es un tpico
muy importante. Para el presente propsito, sin embargo, se necesitarn algunas
herramientas limitadas al manejo elemental de tales cadenas.

Ejemplo 1.37

>> nombre=' Hector';
>> apellido=' Pabon';
>> apellido=apellido'
apellido =
P
a
b
o
n

Ejemplo 1.38 Las matrices tipo string tambin pueden ser creadas como sigue:

>> nombres=['Hector';'Pabon '] %las dos cadenas deben ser de la misma longitud, o
completarse con blancos
nombres =
Hector
Pabon

Ejemplo 1.39 La funcin disp toma nicamente un argumento, el cual puede ser ambos,
o una matriz de caracteres o una matriz numrica.

>> x=0:0.5:2*pi;
>> y=cos(x);
>> disp([x' y'])
0 1.0000
0.5000 0.8776
1.0000 0.5403
1.5000 0.0707
2.0000 -0.4161

24

2.5000 -0.8011
3.0000 -0.9900
3.5000 -0.9365
4.0000 -0.6536
4.5000 -0.2108
5.0000 0.2837
5.5000 0.7087
6.0000 0.9602

Ejemplo 1.40 Se pueden imprimir cadenas ms complicadas con la funcin fprintf.
Esta es esencial en los comandos de programacin C, que se usan para obtener un
amplio rango de especificaciones de impresin.

>> fprintf('Mi nombre es: \n Hector Pabon \n') %donde \n es el comando de nueva lnea

Mi nombre es:
Hector Pabon

Ejemplo 1.41 La funcin fprintf tiene especificaciones del nmero de dgitos en el
display

>> raiz2=fprintf('La raiz cuadrada de 2 es: %1.6f',(sqrt(2)))
La raiz cuadrada de 2 es: 1.414214
>> raiz2=fprintf('La raiz cuadrada de 2 es: %1.6e',(sqrt(2)))
La raiz cuadrada de 2 es: 1.414214e+000

1.11 SOLUCIN DE ECUACIONES LINEALES

Para resolver un sistema de ecuaciones lineales de la forma: Ax = b, se puede ejecutar un
comando de MATLAB, de la siguiente manera:

>>x = A\b % con A como una matriz no singular.

Ejemplo 1.42 Resolver el siguiente sistema de ecuaciones lineales:


>> A=[1 1 1;2 3 1;1 -1 -2]; %matriz de los coeficientes de las variables
>> b=[2;3;-6]; %matriz de los terminos independientes
>> x=A\b
x =
-1
1
2

25

Hay un pequeo nmero de funciones que pueden ser mencionadas a continuacin:

Ejemplo 1.43 Reducir una matriz A a la forma escalonada reducida por filas.
>> rref(A)
ans =
1 0 0
0 1 0
0 0 1

Ejemplo 1.44 Encontrar el determinante de una matriz A, usando la funcin det.

>> det(A)
ans =
-5

Ejemplo 1.45 Encontrar el rango de una matriz, usando la funcin Rank.

>> rank(A)
ans =
3

Ejemplo 1.46 Encontrar la inversa de una matriz A no singular, usando la funcin inv.

>> format rat %formato de la forma p/q
>> inv(A)
ans =

1 -1/5 2/5
-1 3/5 -1/5
1 -2/5 -1/5

Ejemplo 1.47 Encontrar la matriz aumentada [A b], la cual es una combinacin de
coeficientes de la matriz A y el lado derecho es el vector b del sistema lineal Ax = b.

>> C=[A b] %escribe la matriz aumentada del sistema de ecuac. lineales
C =
1 1 1 2
2 3 1 3
1 -1 -2 -6
>> rref(C) %lleva a la forma escalonada reducida por filas
ans =
1 0 0 -1
0 1 0 1
0 0 1 2

26

Ejemplo 1.48 Descomposicin LU de una matriz A, utilizando la funcin lu.

>> [L,U]=lu(A)
L =
1/2 1/5 1
1 0 0
1/2 1 0
U =
2 3 1
0 -5/2 -5/2
0 0 1
>> L*U
ans =
1 1 1
2 3 1
1 -1 -2
>> A
A =
1 1 1
2 3 1
1 -1 -2

Las races de un polinomio p(x) se pueden hallar utilizando la funcin roots, como
roots(p).

Ejemplo 1.49 Hallar las races del polinomio p(x) = 3x
2
+ 5x -6

>> p=[3 5 -6];
>> r=roots(p)
r =
-2.4748
0.8081
La funcin polyval se utiliza para evaluar un polinomio p
n
(x) en un punto particular x.

Ejemplo 1.50 Hallar el valor de la funcin polinmica p
3
(x) = x
3
2x + 12, en el punto
dado x = 1.5

>> coef=[1 0 -2 12];
>> sol=polyval(coef,1.5)
sol =
12.3750



27

1.12 GRAFICACIN CON MATLAB

Con MATLAB se pueden realizar grficas de 2 o 3 dimensiones de curvas y superficies.
El comando plot se utiliza para generar grficos de funciones bidimensionales.

Primero se divide el intervalo en subintervalos de igual anchura. Luego se entra la
expresin para la variable dependiente y en trminos de la variable independiente x, y
finalmente se crea el grfico.

Ejemplo 1.51

>> x=-2:0.1:2;
>> y=exp(x)+10;
>> plot(x,y)
>> plot(x,y),grid %grid permite hacer las rejillas o cuadriculado

FIGURA 1.1 Grfica de la funcin y = e
x
+10

Por defecto, la funcin plot conecta los puntos por medio de segmentos de lnea slida.
Otras posibilidades que se pueden usar para cambiar la apariencia de la grfica son:

>> plot(x,y,'o'),grid
>> plot(x,y,'*'),grid
>> plot(x,y,'x'),grid
>> plot(x,y,'.'),grid
>> plot(x,y,'+'),grid
>> plot(x,y,'-'),grid
>> plot(x,y,'.-'),grid
>> plot(x,y,'o-'),grid
>> x=-2:0.1:2;% crea una malla para los ejes x , y
>> y=x;
>> [X,Y]=meshgrid(x,y);

28

>> Z= -3*X+Y;
>> mesh(X,Y,Z)

FIGURA 1.2 Grfica de malla para la superficie Z = -3X + Y

Ejemplo 1.52 Para crear una superficie de z = en el dominio de -5 x 5,
-5 y 5, se escriben las siguientes instrucciones:

>> x=linspace(-5,5,20);
>> y=linspace(-5,5,20);
>> [X,Y]=meshgrid(x,y);
>> R=sqrt(X.^2+Y.^2+1)+eps; % este eps evita la divisin por cero en el origen
>> Z=sin(R)./R;
>> surf(X,Y,Z)

FIGURA 1.3 Grfica de la superficie z =




-2
-1
0
1
2
-2
-1
0
1
2
-10
-5
0
5
10

29

1.13 SUBPLOT

Muchas veces es conveniente colocar ms de una figura en una misma ventana. Esto es
posible con el comando grfico llamado funcin subplot, lo cual se puede hacer como se
muestra a continuacin:

Ejemplo 1.53

>> x=-2:0.1:2;
>> y=x;
>> [X,Y]=meshgrid(x,y);
>> Z=2+(X.^2+Y.^2);
>> subplot(2,2,1); mesh(x,y,Z); title('meshplot');
>> subplot(2,2,2); surf(x,y,Z); title('surfplot');
>> subplot(2,2,3); surfc(x,y,Z); title('surfcplot');
>> subplot(2,2,4); surfl(x,y,Z); title('surflplot');

FIGURA 1.4 Varios grficos en una misma ventana utilizando la funcin subplot

>> x=linspace(-2*pi,2*pi);
>> subplot(2,2,1);
>> plot(x,cos(x));axis([-6.5 6.5 -1.2 1.2]); title('cos(x)')
>> subplot(2,2,2);
>> plot(x,cos(2*x));axis([-6.5 6.5 -1.2 1.2]); title('cos(2x)')
>> subplot(2,2,3);
>> plot(x,cos(3*x));axis([-6.5 6.5 -1.2 1.2]); title('cos(3x)')
>> subplot(2,2,4);
>> plot(x,cos(4*x));axis([-6.5 6.5 -1.2 1.2]); title('cos(4x)')

30

FIGURA 1.5 Varios grficos en una misma ventana utilizando la funcin subplot

1.14 DEFINICIN DE FUNCIONES

La sintaxis para definir funciones desde el editor de MATLAB, tiene la siguiente forma:

function = nombre_funcion(entrada de argumentos)

Ejemplo 1.54 Para definir la funcin f(x) = e
x
2x/(1 + x
3
), se escribe:

>> x=(0:0.2:2);
>> fx=fn2(x);
>> [x',fx'] %genera la siguiente tabla:
ans =
0 1.0000
0.2000 0.8246
0.4000 0.7399
0.6000 0.8353
0.8000 1.1673
1.0000 1.7183
1.2000 2.4404
1.4000 3.3073
1.6000 4.3251
1.8000 5.5227
2.0000 6.9446

Correspondiente al siguiente grfico:

>>plot(x,y)


31

FIGURA 1.6 Grfica de la funcin f(x) = e
x
2x/(1 + x
3
)


32

2. PROBABILIDAD

2.1 INTRODUCCIN

La probabilidad est asociada con muchas tendencias en eventos aleatorios naturales
que siguen una cierta regularidad si el proceso se repite un suficiente nmero de veces.
Por ejemplo, se puede considerar el evento del lanzamiento de una moneda no cargada.
Si el experimento se repite un nmero suficiente de veces, en forma continua en un gran
nmero de ensayos, se puede esperar que se logren el mismo nmero de caras que de
sellos. Intuitivamente se puede decir que la probabilidad de obtener una cara es la misma
que la de obtener un sello en una moneda justa (no cargada) y que sta es de 0.5 o del
50%.

2.2 ESPACIO MUESTRAL

Al conjunto de todos los resultados posibles de un experimento estadstico se le llama
espacio muestral y generalmente se representa con la letra S.

A cada resultado en un espacio muestral se llama elemento o punto del espacio muestral.
Por ejemplo, al lanzar una moneda el conjunto muestral S est conformado por dos
elementos: cara y sello.

Ejemplo 2.1 En un experimento de lanzar un dado cbico (seis caras) el espacio muestral
est conformado por los puntos muestrales: S = {1, 2, 3, 4, 5, 6}

2.3 EVENTO

En cualquier experimento el hecho de que ocurra cierta circunstancia se llama evento, por
ejemplo al lanzar un dado corriente, un evento puede ser el hecho de obtener un nmero
par, en cuyo caso est conformado por tres puntos muestrales: A = {2, 4, 6}

Matemticamente se puede definir un evento A como un subconjunto de un espacio
muestral S.

Tambin se puede definir el complemento de un evento A con respecto a S como el
conjunto de todos los elementos de S que no pertenecen a A y se denota como: A'.

En el ejemplo 2.1, el complemento est conformado por A' = {1, 3, 5}

La interseccin de dos eventos A
1
y A
2
, se representa con los smbolos A
1
A
2
, y es el
evento que contiene todos los elementos comunes que pertenecen a A
1
y A
2
.

Dos eventos A
1
y A
2
son mutuamente excluyentes o disyuntos si A
1
A
2
= o, es decir,
cuando no hay puntos muestrales comunes.

33

FIGURA 2.1 (a) Diagrama de Venn de eventos mutuamente excluyentes (disyuntos)

(b) Eventos que no son mutuamente excluyentes

La unin de dos eventos A
1
y A
2
se representa con el smbolo A
1
A
2
y es el evento que
abarca a todos los elementos de A
1
o A
2
o a ambos.

2.4 COMBINATORIA

Una combinacin es el nmero posible de seleccionar r objetos de un total de n
elementos, sin importar el orden.



(1)

Ejemplo 2.2 Con MATLAB se pueden generar combinaciones de un conjunto de n
elementos tomados en partes de r elementos. Para el caso de un conjunto X = {1, 2, 3, 4,
5}, tomando subconjuntos de a dos elementos, se procede de la siguiente forma:

>> v=[1 2 3 4 5]
>> c2=combnk(v,2)
c2 =
4 5
3 5
3 4
2 5
2 4
2 3
A
1
A
2
A
1
A
2

34

1 5
1 4
1 3
1 2

>> c4=combnk(v,4)
c4 =
1 2 3 4
1 2 3 5
1 2 4 5
1 3 4 5
2 3 4 5

Una permutacin es un arreglo de todos o parte de un conjunto de objetos. Desde luego
que aqu s importa el orden. Si se tienen tres letras diferentes como X = {v, e, a},
permutadas todas tres aparecen palabras diferentes como VEA, AVE, EVA , que son
palabras completamente diferentes.



(2)

>> v=['e' 'v' 'a'];
>> perms(v)
ans =
ave
aev
vae
vea
eva
eav
>> perms(0:2)%crea un vector con componentes 0, 1 y 2 y los permuta
ans =
2 1 0
2 0 1
1 2 0
1 0 2
0 1 2
0 2 1

2.5 PROBABILIDAD DE UN EVENTO

La probabilidad de un evento A es la suma de los pesos de todos los puntos muestrales
de A. As que:

35

P(o) = 0 ; P(S) = 1 ; 0 P(A
k
) 1, (3)

Para una poblacin consistente de K posibles resultados, solamente una de los cuales
puede ocurrir, para cada ensayo del experimento, se puede deducir la siguiente relacin:

P(A
1
) + P(A
2
) + P(A
3
) + + P(A
k
) = 1, (4)

Ejemplo 2.3 Se lanza un dado (cbico) una vez, Cul es la probabilidad de que caiga un
nmero par?

Solucin. El espacio muestral para este experimento es: S = {1, 2, 3, 4, 5, 6}. A
representa el evento de que caiga un nmero par, A = {2, 4, 6}, entonces la probabilidad
de A es, P(A)=nmero de casos favorables/nmero de casos posibles = n/N = 3/6 = 0.5 =
50%.

Si A
1
y A
2
son dos eventos cualesquiera se tiene que:

P(A
1
U A
2
) = P(A
1
) + P(A
2
) P(A
1
A
2
) (5)

Pero si A
1
y A
2
son mutuamente excluyentes se tiene que:

P(A
1
U A
2
) = P(A
1
) + P(A
2
) (6)

Ejemplo 2.4 Cul es la probabilidad de obtener al lanzar un dado un nmero par o un
nmero mayor que 3?

Solucin. El espacio muestral es: S = {1, 2, 3, 4, 5, 6}, el evento A
1
= {2, 4, 6} y A
2
= {4, 5,
6}. A
1
A
2
= {4} por tanto P(A
1
U A
2
) = 3/6 + 3/6 1/6 = 5/6, utilizando (2) para sucesos
que no son mutuamente excluyentes.

Ejemplo 2.5. Se lanza un par de dados. Cul es la probabilidad de obtener 10 puntos u
11 puntos?

Solucin. El espacio muestral para este caso es:

S = {(1,1),(1,2),(1,3),(1,4),(1,5),(1,6),(2,1),(2,2),(2,3),(2,4),(2,5),(2,6),(3,1),(3,2),(3,3),(3,4),
(3,5),(3,6),(4,1),(4,2),(4,3),(4,4),(4,5),(4,6),(5,1),(5,2),(5,3),(5,4),(5,5),(5,6),(6,1),(6,2), (6,3),
(6,4),(6,5),(6,6)}

P(A
1
) = P({(4,6),(5,5),(6,4)} = 3/36
P(A2) = P({(5,6),(6,5)}) = 2/36

Por tanto, P(A
1
UA
2
) = 3/36 + 2/36 = 5/36, aplicando (3), ya que A
1
y A
2
son mutuamente
excluyentes.

36

Ahora, si A
1
y A
2
son eventos complementarios, se tiene que:

P(A
1
) + P(A') = 1 (7)

Ejemplo 2.6 Se lanza un dado. Cul es la probabilidad de no obtener un nmero
mltiplo de 3?

Solucin. La probabilidad de obtener un nmero mltiplo de 3 es: P({3,6}) = 2/6 = 1/3. Por
tanto, la probabilidad de no obtener un nmero mltiplo de 3 es: 1 - P({3,6}) = 1 - 1/3 = 2/3
aplicando (4).

Ejemplo 2.7 Al lanzar tres monedas, se quiere determinar la probabilidad de obtener
exactamente dos caras.

Solucin. El espacio muestral es: S = {ccc, ccs, csc, scc, css, scs, ssc, sss}. La
probabilidad P({ccs, csc, scc}) = 3/8

2.6 PROBABILIDAD CONDICIONAL

La probabilidad condicional de A2 dado A1, que se denota por P(A2|A1), se define como:

P(A
2
|A
1
) = P(A
1
A
2
) / P(A
1
), si P(A) > 0; (8)

De (5), se puede obtener: P(A
1
A
2
) = P(A
1
) P(A
2
|A
1
); (9)

Ejemplo 2.8. Se tiene la siguiente tabla de estudiantes de la Universidad X

TABLA 2.1. Datos de estudiantes de la Universidad X

ESTUDIANTES DE
PROGRAMA A
ESTUDIANTES DE
PROGRAMA B
TOTAL
HOMBRES 70 80 150
MUJERES 90 60 150
TOTAL 160 140 300

Se va a seleccionar un estudiante al azar para ser becado. Los eventos son:

H: seleccionar a un hombre
I: seleccionar a un estudiante de ingeniera

P(I) = 160/300 = 16/30
P(H I) = 70/300 = 7/30
P(H | I) =

= 7/16, segn (5)



37

Visto directamente desde la tabla 2.1 se obtiene el mismo resultado: P(H | I) = 70/160 =
7/16

2.7 EVENTOS INDEPENDIENTES

Dados dos eventos A
1
y A
2
, se dice que estos eventos son independientes siempre que:
P(A
1
|A
2
) = P(A
1
), lo cual significa que la ocurrencia de A
2
no incide en la ocurrencia de A
1


Dicho de otra forma: dos eventos A
1
y A
2
son independientes s y solo si:

P(A
2
|A
1
) = P(A
2
) y P(A
1
|A
2
) = P(A
1
) (10)

De otra forma A
1
y A
2
son dependientes.

Ejemplo 2.9 Suponga que se tiene una tula con 20 balotas, de las cuales 15 son rojas y 5
azules. Se seleccionan dos balotas al azar una despus de otra, sin reemplazamiento.
Cul es la probabilidad de obtener dos balotas azules?

Solucin. Sea A
1
el evento de obtener una balota azul en la primera extraccin y A
2
el
evento de obtener una balota azul en la segunda extraccin. P(A
1
A
2
) es la probabilidad
de obtener una balota azul en la primera extraccin y otra balota azul en la segunda
extraccin. P(A
2
|A
1
), es la probabilidad de obtener una balota azul en la segunda
extraccin, dado que la primera extraccin fue tambin una balota azul (sin
reemplazamiento). Segn (6) se tiene:

P(A
1
A
2
) = P(A
1
) P(A
2
|A
1
) = (5/20)(4/19) = 1/19 = 5.26% aproximadamente.

Dos eventos son independientes s y solo si P(A
1
A
2
) = P(A
1
) P(A
2
);

2.8 VARIABLES ALETAORIAS

Una variable aleatoria es una funcin que asocia un nmero real con cada elemento del
espacio muestral.

Ejemplo 2.10 Se tienen tres monedas. Se lanzan todas tres simultneamente. El espacio
muestral es S = {ccc, ccs, csc, scc, ssc, scs, css, sss}, como en el ejemplo 2.7

Se define ahora variable aleatoria como una funcin que asocia un nmero real con cada
elemento del espacio muestral. En el ejemplo 2.7, si se asocia el nmero de caras para
cada elemento del espacio muestral, se tiene:




38

FIGURA 2.2 Diagrama de Venn de la variable aleatoria X del ejemplo 2.7
S X







Se ve en la figura 2.2 que, la variable aleatoria X tiene como elementos X={0, 1, 2, 3}. Si
un espacio muestral S posee un nmero finito de posibilidades o un nmero infinito con
tantos elementos como nmeros enteros positivos existen, se llama entonces, espacio
muestral discreto.

Si el anterior no fuese el caso, es decir, si S contiene un nmero infinito de posibilidades
con tantos elementos como nmeros reales existen en un segmento de lnea, se llama
espacio muestral continuo.

2.9 DISTRIBUCIONES DISCRETAS DE PROBABILIDAD

El conjunto de parejas ordenadas (x, f(x)) es una funcin de probabilidad o distribucin de
probabilidad de la variable aleatoria X, si se cumple que para cada valor posible de x:

f(x) > 0

= 1
P(X = x) = f(x)

Segn el ejemplo 2.10, f(x) > 0, ya que f(0) = 1/8, f(1) = 3/8, f(2) = 3/8, f(3) = 1/8.

>> x=[1/8 3/8 3/8 1/8];
>> y=[0 1 2 3]
>> bar(y,x,r)

Se ve tambin claramente que

= 1/8 + 3/8 + 3/8 + 1/8 = 1








ccc
ccs
csc
scc
ssc
scs
css
sss

0

1

2

3

39

FIGURA 2.3 Histograma de probabilidad


La distribucin acumulada F(x) de una variable aleatoria X con distribucin de
probabilidad f(x) es:

F(x) = P(X x) =

, para - < x < ()



Segn el ejemplo 2.10, F(2) = P(X 2) = f(0) + f(1) + f(2) = 1/8 + 3/8 + 3/8 = 7/8

FIGURA 2.4 Distribucin acumulada discreta


>> x=[1/8 4/8 7/8 8/8];
>> y=[0 1 2 3];
>> bar(y,x,'g')

40

2.10 DISTRIBUCIN CONTINUA DE PROBABILIDAD

La probabilidad de una funcin aleatoria continua tiene algunas particularidades a tener
en cuenta, como por ejemplo que P(X=x) para un valor particular x de la variable aleatoria
X es cero, por tanto se toman intervalos para poder calcular su probabilidad. Si se desea
calcular la probabilidad de que un estudiante de Ingeniera de la Universidad de
Cundinamarca Seccional Ubat tenga un ndice de masa corporal
1
de 20, la variable
aleatoria se sabe que es continua y P(x=20) = 0, por propiedades de la integral definida.

La funcin de densidad de probabilidad de una variable aleatoria continua se define como
sigue:
P(a < x < b) =

(12)

Una funcin f(x) es una funcin de densidad de probabilidad para la variable aleatoria
continua X, definida en el conjunto de los 9, si cumple las siguientes condiciones:

- f(x) > 0, para cada x e 9
-

= 1
- P(a < x < b) =



La distribucin acumulada F(x) de una VAC X (variable aleatoria continua X) con funcin
de densidad f(x) es:

F(x) = P(X x) =

para - < x < (13)



Como consecuencia de la anterior definicin se puede anotar que:

P(a < X < b) = F(b) - F(a) (14)

Ejemplo 2.11 Para la funcin de densidad definida como sigue:

, -1 < x < 2
f(x) =
0, para cualquier otro valor en 9

Hallar:
a) P(-1 < X < 2);
b) P(-1 < X < 1);
c) P(1 < X 2)

1
ndice de masa corporal es igual a: peso(kg)/altura
2
(m)

41

function y=fn(x)
y=(1/3)*x.^2;

Solucin. Se utiliza el mtodo de Simpson para calcular la integral de f(x), como ya se
defini anteriormente.
a)>> simpsonR('fn',-1,2,10)
ans =
1
b)>> simpsonR('fn',-1,1,10)
ans =
0.2222
c)>> simpsonR('fn',1,2,10)
ans =
0.7778

2.11 ESPERANZA MATEMTICA

Sea X una VA con distribucin de probabilidad f(x). La media o valor esperado de X es:

u = E(X) =

; para X discreta (15)



u = E(X) =

; para X continua (16)



Ejemplo 2.12. Al lanzar un dado (cbico), la VAD se anota en la siguiente tabla, lo mismo
que sus valores de probabilidad:

X 1 2 3 4 5 6
P(X = x) 1/6 1/6 1/6 1/6 1/6 1/6

E(X) = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 21/6 = 3.5
function SN=simpsonR(fn,a,b,n)
%Regla trapezoidal compuesta
h=(b-a)/n;
s=(feval(fn,a)+feval(fn,b));
for k=1:2:n-1
s=s+4*feval(fn,a+k*h);
end;
for k=2:2:n-2
s=s+2*feval(fn,a+k*h);
end;
SN=(s*h)/3;

42

Lo anterior se interpreta como que si se lanza un dado un gran nmero de veces y luego
se promedia los distintos puntajes que se han obtenido entonces la media tiende a 3.5

Ejemplo 2.13 Supngase que la variable aleatoria X se representa por el nmero de
puntos que marca un dado corriente y la nueva VA como Y = 2x, los valores de esta
variable son: {2, 4, 6, 8, 10, 12}. Los valores de probabilidad asociados son:

Y 2 4 6 8 10 12
P(Y = y) 1/6 1/6 1/6 1/6 1/6 1/6

E(Y) = 2(1/6) + 4(1/6) + 6(1/6) + 8(1/6) + 10(1/6) + 12(1/6) = 42/6 = 7

E(X) = 3.5 implica 2E(X) = 2(3.5) = 7 = E(2X)

Ejemplo 2.14 Calcular E(X 3).

Solucin. Aqu se tiene que E(X 3) = E(X) E(3) = 3.5 3 = 0.5, por propiedades del
valor esperado.

Propiedades del valor esperado:

- E(c) = c
- E(cX) = cE(X)
- E(X + c) = E(X) + c
- E(X + Y) = E(X) + E(Y)
- E(aX + bY) = aE(X) + bE(Y)

Ejemplo 2.15 Sea X la VAC que define la vida en horas de cierta bombilla domstica. La
funcin de densidad de probabilidad es:

, x > 100
f(x) =
0, para cualquier otro valor en 9

u = E(X) =

= -20000(1/x)|

= 200 horas

Si se quiere integrar utilizando el mtodo de Simpson, se procede as:

>> SN=simpsonR('fn',100,100000,1000000)
SN =
1.0

43





Como se ve, f(x) cumple con la condicin para la cual el rea bajo la curva es 1.




>> SN=simpsonR('fn',100,100000,1000000)
SN =
199.8

Que es aproximadamente 200 horas como se calcul manualmente para esta integral
definida que es realmente fcil de calcular.

2.12 VARIANZA

Sea X una VA con distribucin de probabilidad f(x) y media u, la varianza de X, para X
discreta es:
o
2
= E[(X - u)
2
] = u

(17)

Si X es continua se tiene:

o
2
= E[(X - u)
2
] = u

(18)

La raz cuadrada de la varianza p
2
se denomina desviacin estndar de X.

Ejemplo 2.16 Hallar la varianza para la VAD del dado del ejemplo 2.12.

Solucin. Como ya se sabe en el ejemplo 2.12, u = 3.5.

o
2
= E[(X - u)
2
] = (1 - 3.5)(1/6) + (2 - 3.5)(1/6) + (3 - 3.5)(1/6) + (4 - 3.5)(1/6) + (5 -
3.5)(1/6) + (6 - 3.5)(1/6) = 2.9167

La desviacin estndar es: o = 1.7078

>> E=((1-3.5)^2)/6 + ((2-3.5)^2)/6 +((3-3.5)^2)/6 +((4-3.5)^2)/6 +((5-3.5)^2)/6 +((6-
3.5)^2)/6
E =
2.9167
>> s=sqrt(E)
s =
1.7078
function y=fn(x)
y=20000/x^3;

function y=fn(x)
y=20000/x^2;


44

Ejemplo 2.17 La demanda mensual de un cierto artculo en una cadena de
hipermercados es una VAC que tiene densidad de probabilidad:

2(2x-1), 1 < x < 2
f(x) =
0, para cualquier otro valor en 9

u = E(X) =

= 2[

] = 5/3

E(X
2
) =

= 17/6

Por tanto, teniendo en cuenta que la varianza tambin se puede escribir como:

o
2
= E(X
2
) - u
2
(19)

Se obtiene: 17/8 (5/3)
2
= 17/6 25/9 = 1/18



------------------------------

>> SN=simpsonR('fn',1,2,10)
SN =
1
Ahora se calcula u





>> SN=simpsonR('fn',1,2,10)
SN =
5/3

Ahora se calcula E(X
2
)

>> SN=simpsonR('fn',1,2,10)
SN =
17/6
>> s2=17/6 - (5/3)^2
s2 =
1/18



function y=fn(x)
y=2*(x-1);

function y=fn(x)
y=2*(x*(x-1));


45

2.13 DISTRIBUCIONES DISCRETAS

2.13.1 Distribucin binomial. Si p es la probabilidad de xito y q la probabilidad de
fracaso, entonces la probabilidad P de que obtengan x xitos en n ensayos, es el trmino
del desarrollo binomial de (p + q)
n
, as:

P(X=x) =

p
x
q
n-x
, x = 0, 1, 2, 3, , n y 0 para cualquier otro valor de x, (20)

Ejemplo 2.18 La probabilidad de que un estudiante que ingresa a la universidad se
grade es de 0.6. Calcular la probabilidad de que 20 estudiantes que ingresan:

1. Ninguno se grade
2. Que se graden la mitad
3. Que se graden todos

Solucin. Se tiene que n = 20, p = 0.6 y por tanto q = 0.4, pues p + q = 1. Para n grande
como en este caso es conveniente utilizar MATLAB para agilizar los clculos.

1. Que ninguno se grade

>> p=binopdf(0,20,0.6)
p =
1.0995e-008

Lo que es lo mismo que p = 1.0995 x 10
-8
= 0.000000010995 un valor cercano a 0

2. Que se graden 10

>> p=binopdf(10,20,0.6)
p =
0.1171

La probabilidad de que se graden la mitad dada en porcentaje es 11.71%

3. Que se graden todos los 20

>> p=binopdf(20,20,0.6)
p =
3.6562e-005

Que es un valor bastante pequeo: p = 3.6562x10
-5
= 0.000036562

Ejemplo 2.19 Encontrar la probabilidad de que diez personas que se encuentran en una
reunin un sbado, a lo ms 2 hayan nacido en este mismo da de la semana.

46

Solucin. El trabajo ms dispendioso del clculo de probabilidades es cuando estas son
acumuladas como en el presente ejemplo. En los libros aparecen al final, tablas que
permiten solucionar el problema pero con algunas limitaciones, por lo incompletas y
dispendiosa la forma de encontrarlas.

En este caso se tiene que calcular P(x 4), que es probabilidad binomial acumulada.

Se tiene que p = 1/7, q = 6/7, x = 0, 1, 2, 3, 4.

>> p=binocdf(2,10,1/7)
p =
0.8384

Ejemplo 2.20 Encontrar la probabilidad de que diez personas que se encuentran en una
reunin un sbado, por lo menos 2 hayan nacido en este mismo da de la semana.

Solucin. Se tiene que p = 1/7, q = 6/7, x = 2, 3, 4, 5, 6, 7, 8, 9, 10.

>> p = 1-binocdf(1,10,1/7) %se calcula la probabilidad complementaria
p =
0.4292

O tambin utilizando la forma larga que es poco funcional, pero que sirve como prueba:

>> y = binopdf(2,10,1/7) + binopdf(3,10,1/7) + binopdf(4,10,1/7) + binopdf(5,10,1/7) +
binopdf(6,10,1/7) + binopdf(7,10,1/7) + binopdf(8,10,1/7) + binopdf(9,10,1/7) +
binopdf(10,10,1/7)
y =
0.4292

En general, para calcular con MATLAB la probabilidad binomial acumulada p(x 7) para
n = 20 y p = 0.3, se procede de la siguiente manera:

>> p=binocdf(7,20,0.3)
p =
0.7723

Ejemplo 2.21 De 100 monedas que son extradas de una alcanca y puestas sobre una
mesa, Cul es la probabilidad de que entre 50 y 70 monedas inclusive se encuentren
mostrando cara?

Solucin. Se va a calcular P(50 x 70).

>> p=binocdf(70,100,0.5)- binocdf(49,100,0.5) %se supone p=0.5

47

p =
0.5398

La media y la varianza de la distribucin binomial b(x; n, p) son:

u = np y o
2
= npq (21)

Ejemplo 2.22 Encuentre la media y la varianza del ejemplo 2.21

Solucin. n = 100; p = ; q =

u = np = 100(1/2) = 50
o
2
= npq = 100(1/2)(1/2) = 25

2.13.2 Distribucin hipergeomtrica. La distribucin de probabilidad aleatoria
hipergeomtrica X, el nmero de xitos en una muestra aleatoria de tamao n que se
selecciona de m artculos de los que k se denominan xito y m-k fracaso, es:

h(x, m, n, k) =

, x = 0, 1, 2, , n (22)

Esta distribucin se aplica cuando de un grupo de m artculos, de los cuales k tienen
cierta caracterstica, son tomados n artculos, para saber el nmero de los seleccionados
que tienen la caracterstica mencionada x.

Ejemplo 2.23 Se tienen 200 artculos de los cuales 50 son defectuosos. Si son tomados
10 artculos al azar, calcular la probabilidad de que salgan: a) exactamente cinco
defectuosos b) cinco o menos defectuosos.

Solucin. m = 200; k = 50; n = 10.

Con MATLAB se utiliza el siguiente comando: h = hygepdf(x, m, k, n)

a) Para p(x = 5)

>> h=hygepdf(5,200,50,10)%m = 200; k = 50; n = 10.
h =
0.0558
b) Para p(x 5)

Se utiliza el siguiente comando: hc = hygecdf(x, m, k, n)
>> hc = hygecdf(5,200,50,10)
hc =
0.9829

48

2.13.3 Distribucin de Poisson. En una distribucin binomial cuando n es grande, por lo
general mayor de 50, y p, la probabilidad de xito de un evento, se acerca a 0, mientras
que q la probabilidad de fracaso se aproxima a 1 de tal manera que el producto np = u, es
menor o igual a 5, debe utilizarse la distribucin de Poisson. Tambin puede considerarse
el caso cuando p es bastante grande cercana a 1 y tambin u > 5. En estos dos casos se
puede aplicar esta distribucin.
P(x = k) = e
-u
u
k
/ k! (23)

Donde e es la base de los logaritmos naturales e = 2.71828182, u = np, k = nmero de
casos favorables.

La distribucin de Poisson es utilizada en las lneas de espera, nmero de bacterias en un
cultivo, insectos por unidad de superficie, nmero de fallas de una mquina por unidad de
tiempo, entre otras.

FIGURA 2.5 Distribucin de Poisson con u = 2 y k 10



>> p0=poisspdf(0,2)
p0 = 0.1353
>> p1=poisspdf(1,2)
p1 = 0.2707
>> p2=poisspdf(2,2)
p2 = 0.2707
>> p3=poisspdf(3,2)
p3 = 0.1804
>> p4=poisspdf(4,2)
p4 = 0.0902
>> p5=poisspdf(5,2)
p5 = 0.0361
>> p6=poisspdf(6,2)
p6 = 0.0120

49

>> p7=poisspdf(7,2)
p7 = 0.0034
>> p8=poisspdf(8,2)
p8 = 8.5927e-004
>> p9=poisspdf(9,2)
p9 = 1.9095e-004
>> p10=poisspdf(10,2)
p10 = 3.8190e-005
>> k=0:10
k = 0 1 2 3 4 5 6 7 8 9 10
>> p=[p0 p1 p2 p3 p4 p5 p6 p7 p8 p9 p10];
>> plot(k,p,'o',k,p,'*'),grid

Ejemplo 2.24 Si la probabilidad de que una persona se contagie debido a la aplicacin de
una vacuna es de una en diez mil. Cul es la probabilidad de que se contagien con el
virus de la vacuna exactamente 5 personas en una poblacin de 20,000 vacunados?
Cul es la probabilidad de que se contagien menos de 5 personas en la misma
poblacin?

Solucin. u = np = 20000(1/10000) = 2

a) Exactamente 5 personas

>> p=poisspdf(5,2)
p =
0.0361
>> p=poisscdf(5,2)
p =
0.9834

b) Cinco o menos de 5 personas

>> p=poisscdf(5,2)
p =
0.9834

Ejemplo 2.25 Durante un experimento en un laboratorio de fsica, el nmero promedio de
partculas radiactivas que pasan a travs de un contador en un milisegundo es 4. Cul
es la probabilidad de que seis partculas entren al contador en un milisegundo dado?

Solucin. k = 6; u = 4;
>> p4=poisspdf(6,4)
p4 =
0.1042

50

La media y la varianza de la distribucin de Poisson p(k, u) tienen el valor u.

2.14 DISTRIBUCIONES CONTINUAS

2.14.1 Distribucin normal. La funcin de densidad de la variable aleatoria normal X
(VAN), con media u y varianza o
2
es:

y = n(x, u, o) =

o
e
-(x-u)/2o
(24)

Propiedades de la curva normal

- La moda, ocurre donde la curva tiene el mximo, es decir en x = u
- La curva es simtrica con respecto al eje vertical u
- El eje de las abscisas es asntota horizontal
- El rea bajo la curva es igual a 1

En las variables continuas, no tiene sentido referirse a probabilidades de la forma p(x = k),
de manera que slo se tratarn probabilidades acumuladas.

Con MATLAB la funcin y = normcdf(k, u, o) calcula p(x < k) con media u y desviacin
estndar o

Ejemplo 2.26 Calcular p(x < 20) con u = 25, y, o = 3

>> y=normcdf(20,25,3)
y =
0.0478

FIGURA 2.6 Funcin de densidad de la variable aleatoria normal X con u = 0 y o

= 1


51

>> nu=0;
>> ro=1;
>> x=linspace(-2.5,2.5,100);
>> y=(1/(sqrt(2*pi)*ro)*exp(-(x-nu).^2)/2*ro^2);
>> plot(x,y)

Una variable aleatoria continua (VAC) X que tiene su grfica en forma de campana como
la figura 2.6 se llama variable aleatoria normal (VAN).

La funcin matemtica correspondiente a la figura 2.6 con o = 1 y u = 0, es:

f(x) =

e
-(x-u)/2p
(25)

f(x) depende de dos parmetros: o
2
y u que son la varianza y la media, respectivamente.

>> nu=-3;sigma=2;
>> y1=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2);
>> nu=0;sigma=2;
>> y2=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2);
>> nu=3;sigma=2;
>> y3=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2);
>> plot(x,y1,x,y2,x,y3)

FIGURA 2.7 Distribuciones normales con u = -3, u = 0 y u = 3 y o constante

>> nu=0;sigma=1;
>> x=linspace(-2.5,2.5,100);
>> y1=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2);
>> nu=0;sigma=2;
>> y2=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2);

52

>> nu=0;sigma=4;
>> y3=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2);
>> plot(x,y1,x,y2,x,y3)

FIGURA 2.8 Distribuciones normales con igual media 0 y varianzas diferentes

Ejemplo 2.27 Para una distribucin binomial con n = 5 y p = 0.5 calcular la distribucin de
probabilidades para la variable aleatoria X.

Solucin.

>> x=0:5
x = 0 1 2 3 4 5
>> p=binopdf(0:5,5,0.5)
p = 0.0313 0.1562 0.3125 0.3125 0.1562 0.0313
>> bar(x,p)

FIGURA 2.9 Histograma del ejemplo 2.27


53

Ejemplo 2.28 Para una distribucin binomial con n = 10 y p = 0.3 calcular la distribucin
de probabilidades para la variable aleatoria X.

Solucin.
FIGURA 2.10 Histograma del ejemplo 2.28


>> x=0:10
x =
0 1 2 3 4 5 6 7 8 9 10
>> p=binopdf(0:10,10,0.3)
p =
0.0282 0.1211 0.2335 0.2668 0.2001 0.1029 0.0368 0.0090 0.0014
0.0001 0.0000
>> bar(x,p,'r')

Ejemplo 2.29 Calcular la probabilidad de obtener 4, 5 o 6 caras en 9 lanzamientos de una
moneda, mediante aproximacin binomial y mediante la normal.

Solucin. p = 0.5; q = 0.5; n = 9; u = np = 9(0.5) = 4.5; o = = = 1.5

>> p=binopdf(4,9,0.5)+binopdf(5,9,0.5)+binopdf(6,9,0.5)%calculando con distribucin
binomial cuadro a cuadro
p =
0.6563
>> p=binocdf(6.5,9,0.5)-binocdf(3.5,9,0.5)%calculando con distribucin binomial acumulada
entre los lmites superior e inferior
p =
0.6562

Ahora se calcula un valor aproximado utilizando la normal:


54

>> y=normcdf(6.5,4.5,1.5)-normcdf(3.5,4.5,1.5)%se toman los lmites superior e inferior del
intervalo
y =
0.6563

Observe que utilizando MATLAB no es necesario normalizar
2
, como se acostumbra de
manera regular.

La distribucin de una VAN con media 0 y varianza 1 se llama distribucin normal
estndar.

Ejemplo 2.30 Hallar el rea bajo la curva normal: Z = -1.20 y Z = 2.40

Solucin.

>> y=normcdf(2.4,0,1)-normcdf(-1.2,0,1)% como Z est normalizada, se tiene que la media
es 0 y la desviacin estndard es 1
y =
0.8767

Ejemplo 2.31 Calcular el rea bajo la curva normal, a la izquierda de Z = -1.78

Solucin.

>> y=normcdf(-1.78,0,1)
y =
0.0375

Ejemplo 2.32 Calcular el rea bajo la curva normal, a la derecha de Z = 1.78

Solucin.

>> y=1-normcdf(1.78,0,1)
y =
0.0375

Ejemplo 2.33 Las estaturas de los varones de la Universidad de Cundinamarca se
encuentran distribuidas normalmente con media 170 cm. y desviacin estndar 4 cm.
Calcular: a) Cul es la probabilidad de que un estudiante tenga una estatura superior a
1.72 cm? b) Qu porcentaje de estudiantes tendr una estatura entre 160 cm. y 170 cm?



2
Z = (x - u)/o

55

Solucin.

a) Probabilidad de que un estudiante tenga una estatura superior a 172 cm.

>> y=1-normcdf(172,170,4)
y =
0.3085

En trminos de porcentaje: 30.85% de los estudiantes miden ms de 172 cm.

b) Porcentaje de estudiantes que miden entre 160 cm y 170 cm.

>> y=normcdf(170,170,4)- normcdf(160,170,4)
y =
0.4938

En trminos de porcentaje, el 49.38% de los estudiantes miden entre 160 cm y 170 cm.

Ejemplo 2.34 En una distribucin binomial de frecuencias, donde p = 0.2, encontrar la
probabilidad de obtener al menos 10 xitos en 50 experimentos.

Solucin. p = 0.2; q =0.8; n =50; u = np = 50(0.2) = 10; o = = =2.8284

>> yc=normcdf(10.5,10,2.8284)%clculo utilizando la distribucin normal
yc =
0.5702
>> yc=binocdf(10,50,0.2)%clculo utilizando la distribucin binomial
yc =
0.5836

Ejemplo 2.35 Si una distribucin normal tiene u = 20 y o = 3, encuentre la probabilidad de
que una variable, seleccionada al azar, sea mayor de 30 o menor de 15.

Solucin.

>> y30=normcdf(30,21,3)
y30 =
0.9987
>> y15=normcdf(15,21,3)
y15 =
0.0228
>> p=1-(y30-y15)
p =
0.0241
Expresado en porcentaje: p = 2.41%

56

Ejemplo 2.36 Se analiz una muestra de cinco bebidas gaseosas de un mismo sabor y
una misma marca y se encontr que su contenido de agua era, en mililitros: 20, 19, 22,
18, 22. Obtener el intervalo de confianza al 0.95, para estimar el contenido medio de agua
de todas las gaseosas de este tipo.

Solucin.

>> [mediamuestral,destipicamuestral,interconfianza]=normfit(x,0.05)
mediamuestral =
20.2000
destipicamuestral =
1.7889
interconfianza =
17.9788
22.4212

Interconfianza (17.9788, 22.4212) representa el intervalo de confianza al 95% para la
media poblacional.

>> [mediamuestral, destipicamuestral, interconfianza]=normfit(x,0.01)
mediamuestral =
20.2000
destipicamuestral =
1.7889
interconfianza =
16.5167
23.8833

Ahora, Interconfianza (16.5167, 23.8833) representa el intervalo de confianza al 99% para
la media poblacional.

Si se desea calcular el intervalo de confianza al 95% de los valores de una distribucin
normal (0, 1), la solucin consiste en calcular los valores de la inversa de una normal en
los puntos 0.025 y 0.975, as:

>> x=norminv([0.025 0.975],0,1) %intervalo de confianza al 95 por ciento
x =
-1.9600 1.9600
>> x=norminv([0.01 0.99],0,1) %intervalo de confianza al 99 por ciento
x =
-2.3263 2.3263
>> x=norminv([0.1 0.9],0,1 %intervalo de confianza al 90 por ciento)
x =
-1.2816 1.2816

57

Ms adelante se resolver este mismo ejemplo, utilizando la distribucin t-student para
comparar los resultados obtenidos.

FIGURA 2.11 Funcin de distribucin acumulada para la curva normal



2.14.2 Distribucin ;
2
(o JI-cuadrado). Una variable aleatoria continua X se dice que
tiene distribucin ;
2
, con u grados de libertad, si su funcin de densidad est definida
como:
f(x) =

x
u/2
e
-x/2
, x > 0; (26)

f(x) = 0, en cualquier otro caso, donde u es un entero positivo.

La funcin ;
2
, de distribucin acumulada p = chi2cdf(x,v) en MATLAB es la funcin que
devuelve la probabilidad acumulada p con v grados de libertad con valores en x.
Ejemplo 2.37 Hallar la probabilidad para x = 2, con una funcin de distribucin acumulada
;
2
y 3 grados de libertad, luego hacer el proceso inverso, es decir, calcular x dado p.

Solucin.

>> v=3;
>> x=2;
>> p=chi2cdf(x,v) %calcula la probabilidad acumulada de chi-cuadrado con x=2 y v=3
grados de libertad
p =
0.4276
>> x=chi2inv(p,v) %calcula el valor de x con la probabilidad calculada p, y 3 grados de
libertad
x =
2.0000

58

Esta funcin de probabilidad es muy importante en la inferencia estadstica. Es un
concepto importante en la prueba de hiptesis y en la estimacin estadstica. Los
problemas con distribuciones de muestreo, anlisis de varianza y estadstica no
paramtrica exigen un importante uso de ;
2
.

La media y la varianza de la distribucin ;
2
son: u = u, y o
2
= 2u

FIGURA 2.12 Distribucin ;
2
con 2, 4, 6 y 8 grados de libertad con azul, verde, rojo, azul
claro, respectivamente

>> x=0:0.1:16;%dominio en el intervalo [0, 16]
>> p2=chi2pdf(0:0.1:16,2);%recorrido con 2 grados de libertad
>> p4=chi2pdf(0:0.1:16,4);%recorrido con 4 grados de libertad
>> p6=chi2pdf(0:0.1:16,6);%recorrido con 6 grados de libertad
>> p8=chi2pdf(0:0.1:16,8);%recorrido con 8 grados de libertad
>> plot(x,p2,x,p4,x,p6,x,p8)%dibuja la grfica

2.14.3 Distribucin t de Student. Se utiliza en las pruebas de hiptesis, cuando se
conoce la desviacin estndar poblacional o, no importa el tamao de la muestra ya sea
pequea o grande. Una muestra es pequea cuando n es menor o igual que 30 y se
considera grande cuando n es mayor que 30.

Cuando se desconoce la desviacin estndar poblacional o, sta se puede reemplazar
por la desviacin estndar muestral s, siempre que la muestra sea grande, de acuerdo a
las consideraciones anteriores.

Si n 30 la desviacin estndar se simboliza por cuando no se le ha hecho ninguna
correccin. Generalmente es menor que o, por lo tanto se hace necesario hacerle
algunas correcciones en su clculo, con el fin de convertirla en un buen estimador de o,
como se ver ms adelante.

59

Estas y otras consideraciones se tendrn en cuenta ms tarde para el estudio de la
inferencia estadstica, en su debido momento.

La funcin de distribucin t con v grados de libertad est dada por:

h(t) =
I
It
(1+t
2
/v)
-(v+1)/2
, -< t < (27)

FIGURA 2.13 Distribucin t con 1 (azul), 2 (verde), 5 (rojo), 100 (azul claro) grados de
libertad

>> x=-5:0.1:5;
>> t1=tpdf(x,1);
>> t2=tpdf(x,2);
>> t3=tpdf(x,5);
>> t4=tpdf(x,100);
>> plot(x,t1,x,t2,x,t3,x,t4)

2.14.4 Distribucin F. Sean X e Y dos variables aleatorias independientes que tienen
distribuciones ;
2
con v1 y v2 grados de libertad, respectivamente. Entonces la distribucin
de la VA, F =

, est dada por:



I[(
1
+
2
)/2](
1
/
2
)

1
/2
f

1
/2

1


h(f) = ------------------------- -------------------- , (28)
I(
1
/2) I(
2
/2) (1 +
1
f/
2
)
(
1+

2
)

/2

0 en cualquier otro caso, 0 < f <

(28) se denomina distribucin F con v
1
y v
2
grados de libertad.

60

FIGURA 2.14 Distribuciones F con 8 y 12 grados de libertad (azul), y 12 y 24 grados de
libertad (verde)

>> x=0:0.01:4;
>> y1=fpdf(0:0.01:4,8,12);
>> y2=fpdf(0:0.01:4,12,24);
>> plot(x,y1,x,y2)

La distribucin F se utiliza para el caso de dos muestras para obtener inferencias acerca
de las varianzas de poblacin. A menudo se encuentra la situacin en que se requiere la
comparacin entre dos varianzas de poblacin; es decir, determinar si la variabilidad de
una poblacin difiere de la otra. La distribucin F se utiliza para estos casos. Este tema se
tratar ms adelante, cuando se trabaje inferencia estadstica.



61

3. ANLISIS ESTADSTICO

3.1 ESTADSTICA DESCRIPTIVA

Una de las etapas ms importantes en el proceso de investigacin se relaciona con la
sistematizacin y anlisis de la informacin y se denomina esta etapa como anlisis
estadstico de la informacin, y es una disciplina que se define como la ciencia de la
recoleccin, anlisis, interpretacin y presentacin de informacin que puede expresarse
en forma numrica
3
.

Dada una serie de datos, se puede dibujar un histograma y calcular las medidas de
tendencia central: media, mediana, moda, media geomtrica, media armnica y las
medidas de dispersin como: rango, varianza, desviacin estndar, desviacin media,
etc
4
.

La estadstica como disciplina no debe confundirse con el concepto de una estadstica.
En este contexto no debe confundirse tambin estadstico con el profesional de la
estadstica, se refiere pues a algunas medidas calculadas con respecto a una muestra
como la media aritmtica muestral o la desviacin estndar muestral.

La primera es el proceso necesario para manejar y analizar informacin (data) con el fin
de apoyar de manera sistemtica al investigador, para que identifique las leyes que guan
o regulan los fenmenos o problemas estudiados. Una estadstica es una caracterstica o
un resultado numrico a partir de una muestra de elementos. Relacionado con el
concepto de una estadstica se encuentra el de parmetro (poblacional), que es el valor
de una caracterstica de una poblacin total o Universo y ya no de una muestra de la
misma
5
.

La muestra se refiere a un subconjunto de elementos tomados del universo o poblacin
que a su vez incluye a todos los elementos
6
.

Ejemplo 3.1 Dados los siguientes datos de notas de un grupo de 10 estudiantes en
determinada asignatura, hallar la tabla de frecuencia absoluta y la frecuencia en
porcentajes.

Solucin.

>> x=[4.5 3.0 3.0 4.0 2.5 5.0 3.5 4.0 3.5 3.5];%data
>> x=sort(x)%ordena el vector ascendentemente

3
VLEZ B. Eduardo. Anlisis de la informacin. ICFES. Mdulo 4. pp. 9.
4
ARBOLEDA Q. Dairon y LVAREZ J. Rafael. MATLAB. Aplicaciones a las Matemticas Bsicas. Universidad de
Medelln. pp. 30.
5
VLEZ B. Eduardo. Op.Cit. pp.10.
6
IBID. pp. 11.

62

x =
2.5000 3.0000 3.0000 3.5000 3.5000 3.5000 4.0000 4.0000 4.5000
5.0000
>> tabla=tabulate(x)
tabla =
2.5000 1.0000 10.0000
3.0000 2.0000 20.0000
3.5000 3.0000 30.0000
4.0000 2.0000 20.0000
4.5000 1.0000 10.0000
5.0000 1.0000 10.0000
>> tabulate(x)
Value Count Percent
2.5 1 10.00%
3 2 20.00%
3.5 3 30.00%
4 2 20.00%
4.5 1 10.00%
5 1 10.00%

Ejemplo 3.2 Dada la siguiente serie de datos, calcular las medidas de tendencia central y
de dispersin, adems hacer la representacin de datos agrupados.

Dado un examen de matemticas de 60 estudiantes de dos cursos paralelos de la misma
asignatura, obtuvieron las siguientes calificaciones:

40, 33, 28, 25, 11, 21, 22, 17, 22, 19, 17, 16, 28, 26, 20, 15, 21, 20, 19, 24, 10, 29, 23, 34,
24, 33, 26, 14, 13, 18, 28, 23, 28, 21, 29, 24, 11, 31, 25, 18, 25, 26, 20, 34, 22,30, 27, 32,
35, 39, 18, 29, 16, 37, 28, 29, 10, 34, 29, 38

Solucin.

function d=dataset11

d=[40 33 28 25 11 21 22 17 22 19 17 16 28 26 20 15 21 20 19 24 10 29 23
34 24 33 26 14 13 18 28 23 28 21 29 24 11 31 25 18 25 26 20 34 22 30 27
32 35 39 18 29 16 37 28 29 10 34 29 38];

>>data=dataset11; %lee la funcin de datos y los guarda en data
>> max(data)%obtiene el elemento mximo de data
ans =
40
>> min(data)%obtiene el elemento mnimo de data
ans =
10

63

>> sum(data) %obtiene la suma de todos los elementos del vector data
ans =
1464
>> data=sort(data) % ordena dataset11 en forma ascendente
data =
Columns 1 through 34
10 10 11 11 13 14 15 16 16 17 17 18 18 18 19 19 20 20
20 21 21 21 22 22 22 23 23 24 24 24 25 25 25 26 26 26
Columns 37 through 60
27 28 28 28 28 28 29 29 29 29 29 30 31 32 33 33 34 34
34 35 37 38 39 40

>> tabulate(data)
Value Count Percent
10 2 3.33%
11 2 3.33%
12 0 0.00%
13 1 1.67%
14 1 1.67%
15 1 1.67%
16 2 3.33%
17 2 3.33%
18 3 5.00%
19 2 3.33%
20 3 5.00%
21 3 5.00%
22 3 5.00%
23 2 3.33%
24 3 5.00%
25 3 5.00%
26 3 5.00%
27 1 1.67%
28 5 8.33%
29 5 8.33%
30 1 1.67%
31 1 1.67%
32 1 1.67%
33 2 3.33%
34 3 5.00%
35 1 1.67%
36 0 0.00%
37 1 1.67%
38 1 1.67%

64

39 1 1.67%
40 1 1.67%

TABLA 3.1 Clases vs frecuencias

Clases Clase 1 Clase 2 Clase 3 Clase 4 Clase 5
Clase 6
Intervalos 10-15 16-20 21-25 26-30 31-35 36-40
Frecuencia 7 12 14 15 8 4

>> y=[7 12 14 15 8 4]; % y es el vector de frecuencias de las 6 clases
>> pie(y) % hace el grfico de sectores

FIGURA 3.1 Grfico de sectores (pie)




FIGURA 3.2 Histograma de frecuencias de
dataset11 con seis clases
FIGURA 3.3 Diagrama de barras
verticales


Cdigo:
>> hist(data,6)%histograma con seis clases

Cdigo:
>> bar(y,'g') %diagrama de barras
verticales

65

FIGURA 3.4 Diagrama de barras horizontales FIGURA 3.5 Grfico de racimo


Cdigo:
>> barh(y,'r')%diagrama de barras horizontales
Cdigo:
>> stem(y,'r')%grfico de racimo

Ahora se escribe el script para un histograma con distribucin acumulada, as:

>> data=dataset10;
n=length(data);
b=80:20:240;
nn=hist(data,b);
maxn=max(nn);
cs=cumsum(nn*maxn/n);
bar(b,nn,0.95,'y')
axis([70,250,0,maxn])
>> box off
>> hold on
>> plot(b,cs,'k-s')

FIGURA 3.6 Histograma de nueve clases, distribucin acumulada de los datos dataset10



66

3.1.1 Estadgrafos de posicin

>> xmedia=mean(data) %calcula la media aritmtica
xmedia =
24.4000
>> xmedian=median(data)%calcula la mediana
xmedian =
24.5000
>> xgeomed=geomean(data)%calcula la media geomtrica
xgeomed =
23.1568
>> xarmedia=harmmean(data) %calcula la media armnica
xarmedia =
21.7846
>> xmoda=mode(data)
moda =
28

Media
Aritmtica
Mediana Media
Geomtrica
Media
Armnica
Moda

Posicin de la
mediana:




Md = xi
Si ni = Max{ fj }
j e {1, 2, 3,, k}

Fuente: MAGRAB, Edward B. et al. An Engineerss Guide to MATLAB.

3.1.2 Estadgrafos de dispersin

>> xmad=mad(data)%calcula la desviacin media absoluta
xmad =
6.1000
>> xrango=range(data)%calcula el rango = max(data)-min(data)
rango =
30
>> xstd=std(data) %calcula la desviacin estndar
xstd =
7.4815
>> xcvar= var(data) %calcula la cuasivarianza
xcvar =
55.9729
>> xvar1=var(data,1)%calcula la varianza
Xvar1=
55.0400
>> riq=iqr(data) %rango intercuartlico q3-q1
riq = 10

67

Desviacin Media
Absoluta
Cuasivarianza Varianza Desviacin Estndar
Muestral








Fuente: http://es.wikipedia.org/wiki/Dispersi%C3%B3n_(matem%C3%A1ticas)

FIGURA 3.7 Polgono de frecuencias (rojo)




>> marcas=[8 13 18 23 28 33 38 43]; %marcas de clase
>> y=[0 7 12 14 15 8 4 0]; % frecuencias
>> hold on; bar(marcas,y); plot(marcas,y,'r')

Ejemplo 3.3 Con el mismo vector de datos, calcular: rango intercuartlico, cuartiles 1, 2 y
3, percentiles 10, 25, 50 y 80, coeficiente de asimetra, kurtosis, momento de orden 2
centrado en el origen, e interpretar los resultados.

Solucin.

>> q1=quantile(data, 0.25)% calcula el cuartil 1
q1 =
19
>> q2=quantile(data,0.50) % mcalcula el cuartil 2
q2 =
24.5000
>> q3=quantile(data, 0.75)% calcula el cuartil 3
q3 =
29

68

El cuartil 1, indica que una cuarta parte de los estudiantes tienen notas por debajo de 19

El cuartil 2, indica que la mitad de los estudiantes tienen notas por debajo de 24.5. Ntese
que el cuartil dos, corresponde a la mediana.

El cuartil 3, muestra que las tres cuartas partes de los estudiantes tienen notas por debajo
de 29.

El rango intercuartlico corresponde a la diferencia entre el cuartil 3 y el cuartil 1, o sea, el
50% de estudiantes estn en ese rango, entre 19 y 29.

>> percentiles=prctile(data, [10 20 25 50 75 90]) %calcula los percentiles 10, 20, 25, 50,
75, y 90
percentiles =
14.5000 18.0000 19.0000 24.5000 29.0000 34.0000

El resultado anterior muestra:

p10 = 14.5 El 10% de los estudiantes tienen notas por debajo de 14.5
p20 = 18.0 El 20% de los estudiantes tienen notas por debajo de 18.0
p25 = 19.0 Observe que es el mismo cuartil 1
p50 = 24.5 Observe que es la mediana, el cuartil 2 y el percentil 50
p75 = 29.0 Observe que es el cuartil 3
p80 = 34.0 El percentil 80 indica que el 80% de los estudiantes tienen notas por debajo
de 34.

>> coefasimetria = skewness(data)% calcula el coeficiente de asimetra
coefasimetria =
0.0186

El coeficiente sesgo o de asimetra es un nmero que mediante su signo se puede
determinar si los datos tienen distribucin simtrica o sesgada.

El coeficiente de sesgo o de asimetra, se interpreta del siguiente modo
7
:

- Si es igual a cero, entonces los datos se distribuyen de manera simtrica.
- Si es mayor que cero, entonces los datos son sesgados a la derecha.
- Si es menor que cero, entonces los datos son sesgados a la izquierda.

Para el caso de estudio, los datos son sesgados ligeramente a la derecha, como se ilustra
en la figura 3.8, mostrado a continuacin.


7
CHAO L. Lincoln. Estadstica para las ciencias administrativas. McGraw Hill Latinoamericana. Bogot, 1993. pp. 64-65

69

FIGURA 3.8 Histograma y curva normal

>> histfit(data);colormap([1 1 0])
>> k=kurtosis(data)
k =
2.3859
FIGURA 3.9 Asimetras

Fuente: http://www.tuveras.com/estadistica/estadistica02.htm

El coeficiente k de curtosis se interpreta de la siguiente manera
8
:

Si k = 3 implica que los datos presentan forma de una normal estandarizada (ver polgono
de frecuencias y la curva normal).

Si k > 3 implica que los datos se presentan ms empinados que los de la normal
estandarizada.


8
CHAO L. Lincoln. Op Cit. pp. 65-66

70

Si k < 3 entonces los datos se presentan ms aplanados que los de la curva normal, como
es el caso de estudio: k = 2.3859.

>> moment(data,2)% momento de orden 2
ans =
55.0400
>> s2=var(data,1)% calcula la varianza
S2 =
55.0400

Obsrvese que el momento de orden 2 es la misma varianza.


FIGURA 3.10 Curtosis

Leptocrtica Mesocrtica Platicrtica
























Coeficiente de variacin. Tambin es una medida relativa de dispersin. Determina el
grado de dispersin de un conjunto de datos relativo a su media aritmtica.

Si se ha realizado un estudio estadstico en dos poblaciones diferentes, y se quiere
comparar resultados, no se puede acudir a la desviacin estndar para ver la mayor o
menor homogeneidad de los datos, sino a otro parmetro: el coeficiente de variacin el
cual se define como el cociente entre la desviacin estndar y la media aritmtica.

CV =



Ejemplo 3.4 En una exposicin de ganado se estudia un conjunto de vacas con una
media de 500 kilos y una desviacin estndar de 50 kilos. Y se observa tambin un
conjunto de ovejas con una media de 40 kilos y una desviacin estndar de 10 kilos.
Qu grupo de animales es ms homogneo?

Solucin. Un razonamiento falso sera decir que el conjunto de ovejas es ms
homogneo porque su desviacin estndar es ms pequea, pero si se calcula el
coeficiente de variacin para ambos se notar que no es as:

CV
V
= 50/500 = 0.1 = 10%
CV
O
= 10/40 = 0.25 = 25%
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2

71

Por tanto, es ms homogneo el conjunto de las vacas
9
.

Ejemplo 3.5 Quince estudiantes del grupo A de matemtica I obtuvieron las siguientes
notas definitivas al final del periodo: 25 34 26 45 23 36 29 32 33 44 31 30 35 40 20 y el
grupo B de 20 estudiantes obtuvo las siguientes notas: 36 45 23 37 39 44 39 20 20 29 39
46 28 30 35 36 28 29 40 38 de la misma asignatura. El docente desea averiguar cul de
estos dos grupos es ms homogneo (ms parejo), teniendo en cuenta las notas
definitivas obtenidas.

Solucin

>> x=[25 34 26 45 23 36 29 32 33 44 31 30 35 40 20];
>> y=[36 45 23 37 39 44 39 20 20 29 39 46 28 30 35 36 28 29 40 38];
>> stdx=std(x)
stdx =
7.2230
>> stdy=std(y)
stdy =
7.8168
>> xmedia=mean(x)
xmedia =
32.2000
>> ymedia=mean(y)
ymedia =
34.0500
>> CV1=std(x)/mean(x)
CV1 =
0.2243
>> CV2=std(y)/mean(y)
CV2 =
0.2296

Promedio aritmtico del grupo 1 es: 32
Promedio aritmtico del grupo 2 es: 34

Coeficiente de variacin del grupo 1 es 22.43%
Coeficiente de variacin del grupo 2 es 22.96%

Se puede observar que: el grupo 1 tiene un promedio ms bajo que el grupo 2, pero el
grupo 1 es ms homogneo que el grupo 2.

9
http://recursostic.educacion.es/descartes/web/materiales_didacticos/unidimensional_lbarrios/parametros_est.htm

72

4. TEORA DE MUESTREO

Tanto en las ciencias exactas como en las ciencias sociales, la mayora del conocimiento
existente se debe a experiencias basadas en inferencias a partir de la observacin y del
anlisis de un nmero limitado de eventos.
10


De la calidad y representatividad que ese nmero limitado de eventos (muestra) tenga,
depender la bondad o el defecto (la precisin o el error) del conocimiento generado y,
precisamente por esto, es relevante identificar cmo se debe seleccionar una buena
muestra
11
.

El primer paso para lograrlo, es tener claridad de que un muestreo es un proceso por
medio del cual se seleccionan probabilsticamente elementos de un universo o poblacin
con la finalidad de estimar, con un determinado grado de precisin, algunas
caractersticas de la poblacin en su totalidad
12
.

De manera que, la lgica del muestreo consiste en estimar parmetros de la poblacin a
partir de estadsticos obtenidos de una muestra, aun cuando nunca se pueda afirmar con
absoluta seguridad cules son esos parmetros. Esto, que aparentemente es un
problema, realmente no lo es, ya que en la prctica lo importante es asegurar que el
parmetro se encuentre dentro de cierto rango y esto lo permite la denominada teora de
la estimacin que identifica la precisin de las estimaciones; es decir, identifica la
probabilidad de que el valor real del parmetro se encuentre dentro de unos lmites
especificados
13
.

Es necesario es entender que la teora del muestreo permite estimar tamaos adecuados
de muestra, indispensables para obtener una estimacin con cierto grado de precisin.
Para lograrlo, es necesario definir qu es un intervalo de confianza, qu es un grado de
de significancia y qu es una distribucin muestral.

El grado de confianza se refiere a la probabilidad de que el valor real de un parmetro, se
encuentre dentro de los lmites especificados en la estimacin que se quiere calcular
14
.

El intervalo de confianza corresponde a un intervalo de valores, dentro de los cuales se espera que
est el parmetro con cierto grado de confianza o con riesgo de error conocido; para ello es
necesario determinar primero la estimacin puntual.

Cuando de una poblacin de tamao N se toman, por ejemplo, muestras de tamao n un
nmero infinito de veces, la distribucin de cualquier estadstico calculado, por ejemplo de

10
VLEZ, Eduardo B. El Anlisis de la Informacin. ICFES, Mdulo 4. Serie Aprender a Investigar. Bogot D.C. 1990. pp.
80.
11
Ibid. pp. 80
12
Ibid. pp. 81
13
Ibid. pp. 81
14
Ibid. pp. 81

73

su media aritmtica, recibe el nombre de distribucin de muestreo. Esto es importante,
porque la distribucin de muestreo de muchos estadsticos se aproxima a la curva normal
y as se puede estudiarlos de manera adecuada
15
.

Un intervalo de confianza permite verificar las hiptesis planteadas acerca de parmetros
poblacionales. Existe intervalos de confianza bilaterales y unilaterales.

En el contexto de estimar un parmetro poblacional, un intervalo de confianza es un rango
de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del
parmetro, con una probabilidad determinada.

La probabilidad de que el verdadero valor del parmetro se encuentre en el intervalo
construido se denomina nivel de confianza, y se denota 1-o. La probabilidad de
equivocarse se llama nivel de significancia y se simboliza como o. Generalmente, se
construyen intervalos con confianza 1-o = 95% (o significancia o=5%). Menos frecuentes
son los intervalos con o = 10% o o = 1%

Para construir un intervalo de confianza, se puede comprobar que la distribucin normal
estndar cumple:
p(-1.96 < z < 1.96) = 0.95

Luego, si una variable x tiene distribucin N(u,o), entonces el 95% de las veces se
cumple:
-1.96
u
o
1.96

Despejando u en la ecuacin se tiene:

x - 1.96
o

u x+1.96
o



El resultado es un intervalo que incluye a u el 95% de las veces. Es decir, es un intervalo
de confianza al 95% para la media u cuando la variable x es normal y o es conocido
16
.

En cuanto a definicin de poblacin, el concepto de poblacin o universo en estadstica,
va ms all de lo que comnmente se conoce como tal. Una poblacin, se precisa como
un conjunto finito o infinito de personas u objetos que presentan caractersticas comunes.
Tambin, una poblacin es un conjunto de todos los elementos que se estn estudiando,
acerca de los cuales se intenta sacar conclusiones
17
.
Por ejemplo, si el elemento es una persona, se puede estudiar las caractersticas edad,
peso, nacionalidad, sexo, etc. Los elementos que integran una poblacin pueden
corresponder a personas, objetos o grupos (por ejemplo, familias, fbricas, empresas,
etc). Las caractersticas de la poblacin se resumen en valores llamados parmetros.


15
VLEZ, Eduardo B. Op Cit. pp. 82
16
http://escuela.med.puc.cl/recursos/recepidem/EPIANAL9.HTM
17
http://www.scribd.com/doc/5181091/Estadistica-y-poblacio-y-muestra

74

En cuanto a la muestra, la mayora de los estudios estadsticos, se realizan no sobre la
poblacin, sino sobre un subconjunto o una parte de ella, llamado muestra, partiendo del
supuesto de que este subconjunto presenta el mismo comportamiento y caractersticas
que la poblacin. En general el tamao de la muestra es mucho menor al tamao de la
poblacin, porque de esta manera ahorra un gran esfuerzo.

Los valores o ndices que se concluyen de una muestra se llaman estadgrafos o
estadsticos y estos mediante mtodos inferenciales o probabilsticos, se aproximan a los
parmetros poblacionales
18
.

A continuacin se muestra la sintaxis de MATLAB con respecto a algunas funciones o
comandos relativos a los conceptos examinados anteriormente.


SINTAXIS MATLAB

normfit
19


[muhat,sigmahat] = normfit(data)
[muhat,sigmahat,muci,sigmaci] = normfit(data)
[muhat,sigmahat,muci,sigmaci] = normfit(data,alpha)
[...] = normfit(data,alpha,censoring)
[...] = normfit(data,alpha,censoring,freq)
[...] = normfit(data,alpha,censoring,freq,options

Descripcin

>>[muhat,sigmahat] = normfit(data) %devuelve el estimativo de la media u, y la
desviacin estndar o, de la distribucin normal dada en la data.

>>[muhat,sigmahat,muci,sigmaci] = normfit(data) % devuelve el intervalo de confianza al
95% para los parmetros estimados de la media y desviacin estndar en los arreglos
muci y sigmaci, respectivamente. La primera fila de muci contiene las cotas inferiores de
los intervalos de confianza para , la segunda fila contiene las cotas superiores. La
primera fila de sigmaci contiene las cotas inferiores de los intervalos de confianza para ,
y la segunda fila contiene las cotas superiores.

>>[muhat,sigmahat,muci,sigmaci] = normfit(datos,alpha) % devuelve el intervalo de
confianza al 100(1 - alfa)% para el parmetro estimado, donde alfa es un valor en el
intervalo o rango [0 1], especificando el ancho del intervalo de confianza. Por defecto,
alfa es 0.05, lo cual corresponde a un intervalo de confianza del 95%.


Ejemplo 4.1 El contenido de siete contenedores similares de un cido son 9.8, 10.2 10.4,
9.8, 10, 10.2, 9.6 litros. Encuentre el intervalo de confianza del 95% para la media de
todos los contenedores si se supone que la distribucin es aproximadamente normal.

18
http://www.scribd.com/doc/15268123/Conceptos-Basicos-de-Estadistica-I
19
1984-2008 The MathWorks, Inc. MATLAB

75

Solucin.

>> x=[9.8, 10.2 10.4, 9.8, 10, 10.2, 9.6 ]; %datos
>>alfa=0.05 %alfa por defecto es 0.05
>>[muhat,sigmahat,muci]=normfit(x,alfa) % muhat: media de la muestra; sigmahat:
desviacin estndar de la muestra s
n-1
y muci: intervalo de confianza al 95%
muhat =
10
sigmahat =
0.2828
muci =
9.7384
10.2616

El intervalo en cuestin es: 9.7384 < u < 10.2616

4.1 INFERENCIA ESTADSTICA

Se basa en las conclusiones a la que se llega por la ciencia experimental basndose en
informacin incompleta (de una parte de la poblacin). La inferencia estadstica es una
parte de la Estadstica que permite generar modelos probabilsticos a partir de un conjunto
de observaciones. Del conjunto se observaciones que van a ser analizadas, se eligen
aleatoriamente slo unas cuantas, que es lo que se denomina muestra, y a partir de dicha
muestra se estiman los parmetros del modelo, y se contrastan las hiptesis establecidas,
con el objeto de determinar si el modelo probabilstico es el adecuado al problema real
que se ha planteado.

La utilidad de la inferencia estadstica, consiste en que si el modelo se considera
adecuado, puede usarse para la toma de decisiones o para la realizacin de las
previsiones convenientes.

La inferencia estadstica, parte de un conjunto de observaciones de una variable, y a partir
de estos datos infiere o genera un modelo probabilstico; por tanto, la inferencia
estadstica es la consecuencia de la investigacin emprica, cuando se est llevando a
cabo, y como consecuencia de la ciencia terica, cuando se estn generando
estimadores, o mtodos, con tal o cual caracterstica para casos particulares. La
inferencia estadstica es, en consecuencia, un planteamiento inductivo
20
.

4.2 PRUEBA DE HIPTESIS

En ingeniera e investigacin hay muchas situaciones donde uno tiene aceptar o negar
una hiptesis acerca de un parmetro. Una hiptesis estadstica puede considerarse

20
http://www.mitecnologico.com/Main/InferenciaEstadistica

76

como una aseveracin sobre los parmetros de una o ms poblaciones. Una poblacin es
la totalidad de las observaciones de la cual se ocupa el investigador en el problema. Una
muestra es un subconjunto de una poblacin. Desde que se utilizan distribuciones de
probabilidad para representar poblaciones, una hiptesis estadstica puede considerarse
como una aseveracin sobre la distribucin estadstica de la poblacin
21
.

Por ejemplo, supngase que se tiene un parmetro u que ha sido obtenido de n muestras
de una poblacin, y se est interesado en determinar si este parmetro es igual a u
o
. El
procedimiento para la prueba de hiptesis requiere:

- Formular una hiptesis, llamada hiptesis nula, Ho
- La forma de prueba estadstica apropiada, q
o
.
- Seleccionar un nivel de confianza (tener en cuenta que: 100(1-o)% es el nivel de
confianza para u).
- Comparar la prueba estadstica para un valor que corresponde a la magnitud de la
prueba que se puede esperar que ocurra naturalmente, q.
Basado en las respectivas magnitudes de q
o
y q, la hiptesis nula tiene dos posibilidades,
ser aceptada o rechazada. Si la hiptesis nula es rechazada, entonces se acepta la
hiptesis alternativa, la cual se denota como H
1
.

Hay tres casos posibles a considerar:

Ho : u = u
o
Ho : u = u
o
Ho : u = u
o

Ha : u = u
o
Ha : u > u
o
Ha : u < u
o


Existen dos tipos de errores que se pueden cometer en la prueba de hiptesis:

Error tipo I : Rechazar la hiptesis nula Ho cuando es verdadera.

Error tipo II : Aceptar la hiptesis nula Ho cuando es falsa; esto es, cuando realmente u =
u
1
.

SINTAXIS MATLAB

ttest
22


h = ttest(x)
h = ttest(x,m)
h = ttest(x,y)
h = ttest(...,alfa)
h = ttest(...,alfa,tail)

21
MAGRAB, Edward et al. An Engineers Guide to MATLAB pp. 401
22
1984-2008 The MathWorks, Inc. MATLAB

77

h = ttest(...,alfa,tail,dim)
[h,p] = ttest(...)
[h,p,ci] = ttest(...)
[h,p,ci,stats] = ttest(...)


Descripcin

>>h =ttest(x) % realiza una prueba t de la hiptesis nula donde los datos en el vector x
son una muestra aleatoria de una distribucin normal con media 0 y varianza
desconocida, frente a la alternativa de que la media no sea 0. El resultado de la prueba es
devuelto en trminos de h. Si h = 1 indica un rechazo de la hiptesis nula con un nivel de
significancia del 5%. h = 0, indica un error al rechazar la hiptesis nula en el 5% de
nivel de significancia.

h=ttest(x,m) % realiza una prueba t de la hiptesis nula donde los datos del vector x son
una muestra aleatoria de una distribucin normal con media m y varianza desconocida,
frente a la alternativa de que la media no sea m.

h=ttest(x,y) % realiza una prueba t para un par de variables en que la hiptesis nula de
los datos es la diferencia x-y que constituyen una muestra aleatoria de una distribucin
normal con media 0 y varianza desconocida, frente a la alternativa de que la media no sea
0. Se debe tener en cuenta que x e y deben ser vectores de la misma longitud, o
matrices del mismo tamao.

h=ttest(,alfa) %ejecuta la prueba en (100*alfa)% nivel de significancia. Por defecto,
cuando no se especifica alfa, esta es de 0.05.

h=ttest(,alfa,tail) % ejecuta la prueba segun la alternativa dada por tail

Hay tres opciones para la cola (tail):

both : La media no es 0 (o m). Se realiza por defecto, cuando la cola no se especifica. (prueba
de dos colas).
right : La media es mayor que 0 (o m) (prueba de cola derecha)
left : La media es menor que 0 (o m) (prueba de cola izquierda)

h ttest(,alfa,cola,dim) % trabaja junto a la dimensin dim de x, o de x-y para una prueba
de par de variables. Usar [] para pasar por defecto valores predeterminados para m,
alfa, o tail.
[h,p] = ttest() % devuelve el valor p de la prueba. El valor de p es la probabilidad, bajo
la hiptesis nula, de observar un valor como extremo o ms extremo de la prueba
estadstica.

t =
u



Donde es la media muestral, = 0 (o m) es la media poblacional hipottica, s es la desviacin
estndar muestral, y n es el tamao de la muestra. Bajo la hiptesis nula, la prueba estadstica
tendr una distribucin t de Student con n - 1 grados de libertad.

[h,p,ci]=ttest(...) % retorna un intervalo de confianza de 100*(1 alpha)% de la media

78

poblacional o de la diferencia de medias poblacionales para una prueba apareada.

[h,p,ci,stats]=ttest(...) %devuelve la estructura stats con los siguientes campos:

tstat : Valor de la prueba estadstica.
df : Grados de libertad de la prueba.
sd : Desviacin estndar muestral.


Para probar la veracidad o no de una hiptesis acerca de la media poblacional, el
MATLAB asume la distribucin normal cuando es conocida la media poblacional u y la
distribucin t-student cuando no se conoce u. Segn esto, se utilizan las funciones ztest
o ttest para comprobar la hiptesis nula. La forma de utilizar estas funciones se hace de
la siguiente manera:

Ejemplo 4.1 Considrese los datos de dataFci. Se quiere determinar si existe alguna
diferencia estadsticamente significativa entre las medias de estas muestras con un 95%
de confianza. As, la hiptesis es:
Ho: u
1
= u
2

H1: u = u
2


Solucin. Se usa ttest2 para determinar la validez de esta hiptesis. La funcin ttest2
es:

[h,p,ci]=ttest2(x1, x2, alfa)

Donde x1 y x2 son los datos, alfa = o, h = 0 si Ho y h = 1 si H1, p = p-valor; esto es: p =
2*(1-tcdf(t0,n-1))

Para un intervalo de confianza de dos colas; t0 = to est definido en la cuarta columna del
caso 4, y ci(1) = l y ci(2) = u son los lmites de confianza inferior y superior,
respectivamente. As, el script es:

>> [x1,x2]=dataFci;
>> [h,p,ci]=ttest2(x1,x2,0.05)
h =
0
p =
0.6775
ci =
-0.7819 1.1724

Ejecutando el anterior script, se obtiene h = 0; esto es, que no se puede rechazar la
hiptesis nula, p = 0.6645, ci(1) = -0.7550, y ci(2) = 1.1855 son los lmites de confianza

79

inferior y superior, respectivamente, de la diferencia entre las medias. Basado en el valor
de p, se ve que estn solamente 100(1-0.6445)=35.55% de confianza

Basado en el valor de p, se ve que se est a slo 100(1-0.6445) = 35.55% de confianza
en que existe una diferencia estadsticamente significativa entre los medios, el cual es
sustancialmente inferior al valor deseado de nivel de confianza del 95%. Por tanto, la
hiptesis nula no puede ser rechazada.

Ejemplo 4.2 El vendedor de cierta marca de automvil afirma que el kilometraje medio del
modelo XW es de 45.425 Km por galn de gasolina. Un ente gubernamental de Pesas y
Medidas, cree que el vendedor est generando falsas expectativas a los clientes. Nueve
automviles de este modelo son sometidos a prueba con un galn de gasolina y dan el
siguiente resultado de kilmetros recorridos:

45.425 Km 41.640 Km 37.854 Km 39.747 Km 43.532 Km 41.640 Km 47.318 Km
37.854 Km 39.747 Km.

Se rechazar o se aceptar la afirmacin del vendedor? Utilizar un nivel de significancia
de 0.01 (o = 1%).

Solucin.

Ho = 45.425 Km/galn
Ha = 45.425 Km/galn

Formato: [h,sig,ci] = ttest(x, u, o, tail)

Entrada:

x : data (si es menor que 30 se utiliza t-student como en este caso)
u : media poblacional (44.425 Km/galn)
o : significancia (0.01)

Si tail = both, entonces la curva tiene dos colas y Ha : u = u
0

Si tail = right, entonces la curva tiene una cola a la derecha y Ha : u > u
0
Si tail = left, entonces la curva tiene una cola a la izquierda y Ha : u < u
0

Salida:

Si h = 0, entonces se acepta la hiptesis nula.
Si h = 1, entonces se rechaza la hiptesis nula.
ci : intervalo de confianza
sig : significancia

>> x= [45.425 41.640 37.854 39.747 43.532 41.640 47.318 37.854 39.747];
>> [h,sig,ci]=ttest(x,45.425,0.01,both)

80

h =
1
sig =
0.0085
ci =
37.9730 45.3064

h = 1, significa que debe rechazarse la hiptesis nula, es decir, que lo que afirma el
vendedor no es creble bajo una certeza del 99%

sig = 0.0085 es menor que 0.01 o 1% , luego se rechaza la hiptesis nula.

ci = [37.9730 Km/galn , 45.3064 Km/galn] es el intervalo en el que puede
desempearse el carro, respecto al kilometraje que afirma el vendedor del automvil XW,
con una significancia del 1%

Como la media poblacional u es 45.425 km, no cae dentro del intervalo de confianza 0.99
= 99% = (1-o), es as que se rechaza la hiptesis nula.

Ejemplo 4.3 Probar la hiptesis de que la distancia media requerida para poder frenar un
automvil que va a 20 Km/h es de 25 metros. Con base en una muestra de 100
conductores se obtiene que la distancia media es 27.3 metros, con una desviacin
estndar de s = 2.1 metros. Utilizar un nivel de significacin de 5%.

Solucin.

Entrada:

x: vector de 100 distancias con media 27.3
o = 0.05
s = 2.5761
m = 25
Ho : u = 25
Ha : u = 25

function d=dataset12
d=[30 30 28 26 26 24 22 30 31 29 29 26 28 26 30 25 31 30 29 26 30 29 23 34 24 30 26
24 23 28 28 23 28 31 27 24 31 28 25 28 25 26 30 24 27 30 27 32 35 29 28 29 26 27 28
29 30 24 29 28 25 24 26 30 29 28 24 28 30 23 26 27 25 24 27 29 30 24 25 28 28 28 30
26 27 25 24 25 31 26 24 30 27 28 25 26 24 27 26 28];

>> data=dataset12;
>> sigma=2.1;
>> alfa=0.05;
>> m=25;

81

Salida:

>> h = ztest(data,m,sigma,alfa,'both')
h =
1

Como h = 1, se rechaza la hiptesis nula, es decir, que la distancia media requerida para
frenar es diferente de 25 metros, a un nivel de significancia del 5%.

SINTAXIS MATLAB

ztest
23


h = ztest(x,m,sigma)
h = ztest(...,alpha)
h = ztest(...,alpha,tail)
h = ztest(...,alpha,tail,dim)
[h,p] = ztest(...)
[h,p,ci] = ztest(...)
[h,p,ci,zval] = ztest(...)

Descripcin

h = ztest(x,m,sigma)

Ejecuta una prueba de hiptesis z (normal), donde la data proviene de una distribucin con
media m, y que devuelve el resultado de la prueba en trminos de h. Cuando h = 0 indica que la
hiptesis nula Ho (que la media es m) no puede ser rechazada a un nivel de significancia del
5%. Los datos se supone que provienen de una distribucin normal con desviacin estndar
sigma.

h=ztest(...,alpha) %Ejecuta una prueba de nivel de significancia del (100*alfa)%. Por
defecto, cuando no se especifica alfa da por sentado que alfa es 5% o 0.05.

h=ztest(...,alpha,tail) %Ejecuta la prueba contra la alternativa especificada por la string
cola. Hay tres opciones para la string tail

both : La media no es m (prueba de dos colas). Esto es por defecto, cuando la cola no se
especifica.

'right' : La media es ms grande que m (prueba de cola derecha).

'left' : La media es ms pequea que m (prueba de cola izquierda).

La cola debe ser una cadena simple, incluso cuando x es una matriz o un arreglo n-dimensional.

>>h=ztest(...,alpha,cola,dim) % trabaja junto con la dimensin dim de x. Usar [] para
pasar por defecto valores de alfa o tail

23
The MathWorks, Inc. MATLAB 1984-2008.

82


>>[h,p] = ztest(...) %devuelve el valor p de la prueba. El valor de p es la probabilidad,
bajo la hiptesis nula, de observar un valor como extremo o ms extremo de la
estadstica de prueba.
z=
u
o


Donde es la media muestral, = m es la media poblacional hipottica, es la desviacin
estndar, y n es el tamao de la muestra. Bajo la hiptesis nula, la prueba estadstica tendr una
distribucin normal estandarizada N(0,1).

[h,p,ci]=ztest(...) % devuelve un intervalo de confianza 100*(1 alfa)% de la media
poblacional

[h,p,ci,zval]=ztest(...) % devuelve el valor de la prueba estadstica

Ejemplo 4.3 De una poblacin con distribucin normal, constituida por 500 fichas que se
encuentran en un archivador, se extrajo una muestra de 16 observaciones como sigue: 56
45 46 37 56 41 43 36 45 56 49 62 43 60 49 72 56. Se sabe que la
desviacin estndar poblacional o =10, pero es desconocida la media poblacional (u = 50
verdadera). Cometiendo un riesgo o = 0.05 (nivel de significancia 5%), probar la hiptesis
de que la media poblacional sea igual a: (a) 40, (b) 49, (c) 50, (d) 51 y (e) 60.

Solucin.

(a) Ho : u = 40
Ha : u = 40
o = 0.05
o = 10
>> x=[56 45 46 37 56 41 43 36 45 56 49 62 43 60 49 72 56];
>> m=40;
>> sigma=10;
>> alfa=0.05;
>> h = ztest(x,m,sigma,alfa,'both') %prueba de hiptesis
h =
1
Como h = 1 se rechaza la hiptesis nula, es decir, que no es cierto que u = 40.

(b) Ho : u = 49
H1 : u = 49
o = 0.05
o = 10

>> m=49;
>> sigma=10;
>> alfa=0.05;

83

>> h = ztest(x,m,sigma,alfa,'both')
h =
0

Como se sabe h = 0 significa que se acepta que u = 49 y u verdadera es 50, se est
aceptando algo falso que es un error tipo II.

(c) Ho : u = 49
H1 : u = 49

>> m=50;
>> h = ztest(x,m,sigma,alfa,'both')
h =
0

Aqu se acepta la hiptesis nula Ho = 50, lo cual es verdadero y no se est cometiendo
ningn error.

(d) Ho : u = 51
H1 : u = 51

>> m=51;
>> h = ztest(x,m,sigma,alfa,'both')
h =
0

Se acepta la hiptesis nula, por lo tanto se est cometiendo un error de tipo II porque se
sabe que la media poblacional verdadera es 50.

(e) Ho : u = 60
H1 : u = 60

>> m=60;
>> h = ztest(x,m,sigma,alfa,'both')
h =
1

Como h = 1, se rechaza la hiptesis nula y por tanto no se comete ningn error, ya que se
rechaza algo falso.

Ejemplo 4.4 Encuentre el intervalo de confianza para la media muestral al 95% de nivel
de confianza, segn los datos dados en dataset10.


84

Solucin. Si se tiene el nivel de confianza del 95%, entonces el programa para
determinar el intervalo de confianza de la media es:

function d=dataset10

d=[105 160 157 190 199 121 160 172 156 110 97 196 151 76 115 120 150 171 229 133
245 221 175 101 193 181 181 237 158 123 163 154 201 142 167 160 168 170 148 146
207 228 183 149 171 194 158 180 150 169 134 131 153 200 163 184 208 167 118 158
218 180 174 186 87 165 133 176 143 135 199 178 154 174 176 145 135 158 141 149];

clc
disp([' '])
meen=mean(dataset10);
L=length(dataset10);
q=std(dataset10)*tinv(0.975,L-1)/sqrt(L);
disp([' '])
disp([' Media muestral = ' num2str(meen)])
disp([' '])
disp(' Intervalo de confianza para la media muestral al 95% de nivel de confianza: ')
disp([' '])
disp([' ' num2str(meen-q) ' <= Media muestral <= ' num2str(meen+q)])
disp([' '])


Considere los datos en dataset10. Se quiere saber si existe una diferencia
estadsticamente significativa entre la muestra y un valor promedio de 168 (u
0
= 168) en
un 95% de nivel de confianza. As, la hiptesis es:

Ho: u = 168
H1: u = 168

Se usa ttest para determinar la validez de la hiptesis.

[h,p,ci]=ttest(data,mucero,alfa)

Donde data son los datos, mucero = u
0
, alfa = o, h = 0 si Ho y h = 1 si H1, p = valor de
p; esto es:

p = 2*(1-tcdf(t0,n-1));
>> [h,p,ci]=ttest(dataset10,168,0.05)
h =
0
p =
0.1614
ci =
155.1466 170.1784

85

As, en el presente caso, tras la ejecucin, se encuentra que h = 0; es decir, no se puede
rechazar la hiptesis nula, p = 0.1614, ci(1) = 155.1466, y ci(2)=170.1784. Se observa que
= 162.6625 dado atrs y que el intervalo de confianza para el valor de 168 en el 95% de
nivel de confianza es 155.146625 x 170.1784. Siendo que el valor hipottico de 168
para la media est dentro de este intervalo de confianza, se debe esperar que la
hiptesis nula no sea rechazada. De hecho, basado en su p-valor, se ve que se est a
slo 100(1-0.1614) = 83,9% de confianza, que es menos que el nivel de confianza del
95% deseado.

Ahora, si se ejecuta:

>> [h,p,ci]=ttest(dataset10,175,0.05)
h =
1
p =
0.0016
ci =
155.1466 170.1784

Se obtiene h = 1; esto es, se puede rechazar la hiptesis nula y aceptar H1; p = 0.0016,
ci(1) = 155.1466, y ci(2) = 170.1784. En otras palabras, se puede tener 100(1-0.0016) =
99.84% de confianza que la media de los datos en dataset10 son diferentes del valor de la
media de 175.

Ejemplo 4.5 Determinar el intervalo de confianza para la razn de varianzas muestrales
al 95% de nivel de confianza.

Solucin. Se consideran los datos almacenados en dataFci, para desarrollar el ejemplo:

function [set1,set2]=dataFci
set1=[41.60 41.28 42.34 41.95 41.86 42.18 41.72 42.26 41.81 42.04];
set2=[39.72 42.59 41.88 42.00 40.22 41.07 41.90 44.29];
clc
disp([' '])
[data1,data2]=dataFci;
r=var(data1)/var(data2);
L1=length(data1);
L2=length(data2);
q2=r*finv(.975,L2-1,L1-1);
q1=r/finv(.975,L1-1,L2-1);
disp([' '])
disp(['Razon de varianzas muestrales = ' num2str(r)])
disp([' '])
disp('Intervalo de confianza para la razon de varianzas muestrales al 95% de nivel de
confianza: ')

86

disp([' '])
disp(['' num2str(q1) ' <= Razon de la varianza muestral <= ' num2str(q2)])
disp([' '])

Despus de la ejecucin se obtiene:

Razon de varianzas muestrales = 0.051599

Intervalo de confianza para la razon de varianzas muestrales al 95% de nivel de confianza:

0.010698 <= Razon de la varianza muestral <= 0.21656

Ejemplo 4.6 Considere los datos de dataFci. Se quiere saber si existe alguna diferencia
estadsticamente significativa entre las variaciones de estas muestras con un 95% de
confianza. As, la hiptesis es:
Ho : o

= o


H
1
: o

= o


La prueba estadstica es:
f
o
=




y el criterio de rechazo de la hiptesis nula es bien

f
0
> fo/2,n1-1,n2-1 ,Or, f
0
< f
1
-o/2,n1-1,n2-1

Solucin. Se usa vartest2 para determinar la validez de esta hiptesis; esto es,

[h,p,ci] = vartest2(x1,x2,alfa)

Donde x1 y x2 son los datos, alfa = o, h = 0 si Ho, y h = 1 si H1, p = valor de p, esto es:
p=2*(1-fcdf(f0,n1,n2))

para un intervalo de confianza de dos colas; f0 = f
0
, y ci(1) = l y ci(2) = u son los lmites de
confianza superior e inferior, respectivamente. El script es:

>> [x1,x2]=dataFci;
>> [h,p,ci]=vartest2(x1,x2,0.05)
h =
1
p =
6.5379e-005
ci =
0.0083 0.1674

87

Al ejecutar el anterior script, se encontr que h = 1; o sea, se niega la hiptesis nula, p =
6.5379 x 10
-5
, ci(1) = 0.0083, y ci(2) = 0.1674 que son los lmites de confianza inferior y
superior, respectivamente en relacin a las varianzas. Con base en el valor de p, se
observa que hay 100(1 - 6.5379 x 10
-5
) = 99.993 % de confianza que hay diferencia
estadsticamente significativa en sus varianzas.







88

5. AJUSTES DE CURVAS Y REGRESIN

5.1 INTRODUCCIN

Todas las fases cientficas, y prcticas de ingeniera y servicios humanos implican la
obtencin, procesamiento, e interpretacin de datos. La puesta de datos experimentales a
una ecuacin matemtica se llama regresin. La regresin puede tener diferentes
adjetivos, segn la forma matemtica que se utilice para el ajuste y el nmero de variables
utilizada. Por ejemplo, la regresin lineal consiste en utilizar una lnea recta, o ecuacin
lineal para el ajuste requerido. Otro ejemplo puede ser, regresin mltiple que implica una
funcin de ms de una variable independiente.

La regresin y correlacin son las dos herramientas estadsticas ms poderosas y
verstiles que se pueden utilizar para solucionar problemas comunes de investigacin. Se
dice que una variable depende de la otra, o como en este caso, que y depende de x,
donde x e y son dos variables cualesquiera. Esto se puede escribir como: y = f(x). Se lee:
y es funcin de x.

5.2 REGRESIN LINEAL SIMPLE

El primer caso a considerar es el de un conjunto de datos bidimensionales (puntos en el
plano) en el que se selecciona la "mejor" lnea recta o ecuacin lineal que se ajuste, a los
datos correspondientes del problema. Esta recta podr tener o no tener sentido para los
datos correspondientes, ello depender de su comportamiento en la realidad. Si esta
relacin es evidente desde una simple inspeccin en que la variacin es drsticamente
diferente de la de una ecuacin lineal, el procedimiento puede dar resultados que tienen
muy poco sentido. Sin embargo, si la tendencia general de los datos parece aproximarse
a una lnea recta, el procedimiento puede arrojar resultados significativos.

En el caso expuesto, y es la variable dependiente y x es la variable independiente. Es
importante en su momento identificar cul es la variable dependiente y cul la
independiente.

La variable dependiente es la variable que se desea explicar o predecir. A la variable
independiente se le denomina tambin como variable explicativa.

Se debe diferenciar entre regresin simple y regresin mltiple. En la regresin simple, se
establece que y es funcin de una sola variable independiente. A veces se le llama
regresin bivariada porque intervienen dos variables. En un modelo de regresin mltiple,
y es funcin de dos o ms variables independientes y se nota: y = f(x
1
, x
2
, x
3
, , x
n
)
donde hay n variables independientes.


89

Es necesario tambin hacer distincin entre regresin lineal y regresin curvilnea (no
lineal). En el caso de la regresin lineal, la relacin se representa mediante una lnea
recta y en el caso de regresin curvilnea obviamente mediante una curva.

Si x e y se relacionan linealmente entonces a medida que x cambia, y cambia en forma
constante. Si existe una relacin curvilnea y cambiar en cantidades diferentes a medida
que cambia x.

5.3 DIAGRAMAS DE DISPERSIN

A simple vista se puede observar que en la figura 5.1 no existe relacin alguna entre las
dos variables.

FIGURA 5.1 No existe relacin entre los vectores de datos x e y


En la figura 5.2, la lnea recta ajusta bien los datos

FIGURA 5.2 Relacin lineal positiva


90


En la figura 5.3, la recta tiene una pendiente negativa y proporciona un buen ajuste.

FIGURA 5.3 Relacin lineal negativa


En la figura 5.4, los puntos de los datos sugieren una relacin curvilnea

FIGURA 5.4 Relacin curvilnea


El modelo ms elemental de regresin es aquel donde los puntos tienden a formar una
lnea recta en el diagrama de dispersin. En este caso, la ecuacin de regresin lineal
simple est dada por:

y = ox + |

donde o es la pendiente de la recta dada.

La siguiente funcin calcula los coeficientes de regresin o y | y el error cuadrtico en el
ajuste de los puntos con respecto a la recta. La funcin de regresin es: f(x) = ox +|

91

function [a,b]=linefit(x,y)
n=length(x);
S1=sum(x);
S2=sum(y);
S3=sum(x.*x);
S4=sum(x.*y);
a=(n*S4-S1*S2)/(n*S3-(S1)^2);
b=(S3*S2-S4*S1)/(n*S3-(S1)^2);
for k=1:n
p1=a+b*x(k);
Error(k)=abs(p1-y(k));
end
Error=sum(Error.*Error)

Se entran primero los vectores x e y que deben ser de la misma dimensin y luego desde
el rea de trabajo se llama de la siguiente manera:

>> x=[1 2 3 4 5];
>> y=[1 5 7 8 10]
>> [a b]=linefit(x,y)
Error =
147.9000
a =
2.1000
b =
-0.1000
>> z=a+b.*x;
>> plot(x,y,'*',x,z),grid
>> z=a.*x+b;
>> plot(x,y,'*',x,z),grid

FIGURA 5.5 Lnea recta de ajuste por mnimos cuadrados


92

>> polyfit(x,y,1) %esta funcin de MATLAB produce el mismo resultado de la funcin linefit
ans =
2.1000 -0.1000
>> x=[-3 -2 -1 0 1 2 3];
>> y=[8 5 2 0 1 3 10];
>> polyfit(x,y,1)%interpolacin lineal con la funcin de MATLAB
ans =
0.0357 4.1429
>> [a b]=linefit(x,y)% interpolacin lineal con la funcin creada
Error =
673.2232
a =
0.0357
b =
4.1429
>> z1=a.*x+b; %funcin lineal
>> polyfit(x,y,2) %interpolacin cuadrtica con la funcin de MATLAB
ans =
0.9643 0.0357 0.2857
>> z2=0.9643*x.^2+0.0357*x+0.2857 %funcin cuadrtica
z2 =
8.8573 4.0715 1.2143 0.2857 1.2857 4.2143 9.0715
>> plot(x,y,'*',x,z1,x,z2), grid

La funcin p=poly(r) da los coeficientes del polinomio p cuyas races son el vector r.

La funcin polyfit(x,y,n) da los coeficientes del polinomio de grado n que se ajusta a los
puntos (x,y)

FIGURA 5.6. Ajuste lineal y cuadrtico


93

Ejemplo 5.1 Considere los datos dados de la tabla 5.1. Estos datos son colocados en un
archivo M de funcin llamado DataRegress1. Ntese sin embargo, que estos datos no
estn ordenados. Siendo que esto es un inconveniente cuando llega el momento de
graficarlos con una lnea recta conectada, se ordenan pues los datos en forma
ascendente. Ninguno, ni polyfit ni polyconf requieren del ordenamiento.

TABLA 5.1 Data de la variable independiente x, y la variable dependiente y

x : 2.38 2.44 2.70 2.98 3.32 3.12 2.14 2.86 3.50 3.20 2.78 2.70 2.36 2.42 2.62 2.80 2.92
3.04 3.26 2.30
y : 51.11 50.63 51.82 52.97 54.47 53.33 49.90 51.99 55.81 52.93 52.87 52.36 51.38 50.87
51.02 51.29 52.73 52.81 53.59 49.77


function [x,y]=DataRegress1
xx=[2.38 2.44 2.70 2.98 3.32 3.12 2.14 2.86 3.50 3.20 2.78 2.70 2.36 2.42 2.62 2.80 2.92
3.04 3.26 2.30];
yy=[51.11 50.63 51.82 52.97 54.47 53.33 49.90 51.99 55.81 52.93 52.87 52.36 51.38
50.87 51.02 51.29 52.73 52.81 53.59 49.77];
[x,index]=sort(xx); %los datos se ordenan pero deben preservarse las parejas
y=yy(index); %lo anterior se logra de esta manera

>> [x,y]=DataRegress1;
>> [c,s]=polyfit(x,y,1);
>> [yhat,w]=polyconf(c,x,s,0.005);
>> syy=sum(y.^2)-length(x)*mean(y)^2;
>> sse=syy-c(1)*(sum(x.*y)-length(x)*mean(x)*mean(y));
>> plot(x,yhat,'k-',x,yhat-w,'k--',x,yhat+w,'k--',x,y,'ks',[x;x],[yhat;y],'k-')
>> legend('Linea de regresion','95% intervalo de confianza de y','Location','SouthEast')
>> axis([2,3.6,48,57])
>> xlabel('x(Entrada)')
>> ylabel('y(Respuesta'))
>> coefdet=(1-sse/syy) %coeficiente de determinacin
coefdet =
0.8774

El coeficiente de determinacin est cerca de 1, lo cual refleja una correlacin buena.
Se sabe que el coeficiente de determinacin toma valores en el intervalo [-1,1]. Si el valor
es 1 existe una relacin lineal positiva perfecta. Si es 0 indica que entre las dos variables
no existe relacin lineal alguna (porque puede haber curvilnea). Si fuera negativa indica
que entre x e y existe una correlacin lineal negativa perfecta.



94

FIGURA 5.7 Regresin lineal para la data del ejemplo 5.7 y lmite de confianza de y



FIGURA 5.8 Grfico de la distribucin acumulativa normal de las desviaciones de la lnea
que aparece adecuada en la figura anterior.



Ahora, se contina adelante para investigar las desviaciones. Primero se calculan las
desviaciones y luego se grafica utilizando normplot para determinar si estn normalmente
distribuidas. El script es:

>> [x,y]=DataRegress1;
>> normplot(y-polyval(polyfit(x,y,1),x))

95

Siendo que las desviaciones estn muy cerca de la lnea que representa la distribucin
normal, se puede decir que las desviaciones estn muy cercanamente distribuidas de
forma normal, por lo tanto, el modelo es adecuado.

Ejemplo 5.2 Una muestra de 10 estudiantes que ingresaron a la universidad con los
siguientes puntajes: 39, 43, 21, 64, 57, 47, 28, 75, 34, 52 sobre 100 obtuvieron las
siguientes notas en matemtica I: 65, 78, 52, 82, 92, 89, 73, 98, 56, 75, respectivamente.

Solucin.

function [x,y]=DataRegress2
xx=[39 43 21 64 57 47 28 75 34 52];
yy=[65 78 52 82 92 89 73 98 56 75];
[x,index]=sort(xx); %los datos se ordenan pero deben preservarse las parejas
y=yy(index); %lo anterior se logra de esta manera

>> [x,y]=DataRegress2;
>> [c,s]=polyfit(x,y,1);
>> [yhat,w]=polyconf(c,x,s,0.005);
>> syy=sum(y.^2)-length(x)*mean(y)^2;
>> sse=syy-c(1)*(sum(x.*y)-length(x)*mean(x)*mean(y));
>> plot(x,yhat,'k-',x,yhat-w,'k--',x,yhat+w,'k--',x,y,'ks',[x;x],[yhat;y],'k-')
>> legend('Linea de regresion','95% intervalo de confianza de y','Location','SouthEast')
>> axis([15,80,10,140])
>> xlabel('x(Examen de Entrada)')
>> ylabel('y(Def. Matematica I)')
>> coefdet=(1-sse/syy) %coeficiente de determinacin
coefdet =
0.7052

El coeficiente de determinacin, muestra una buena relacin lineal positiva entre las
variables, porque est prximo a 1. Para el caso en cuestin, muestra que el puntaje
obtenido por los estudiantes al ingresar a la universidad, se ha visto reflejado en las notas
de matemtica I.

Ahora, se se observan las desviaciones. Primero se calculan las desviaciones y luego se
grafica utilizando normplot para determinar si estn normalmente distribuidas. Ver figura
5.10. El script es:

>> [x,y]=DataRegress2;
>> normplot(y-polyval(polyfit(x,y,1),x))





96

FIGURA 5.9 Recta de regresin estimada de las notas de Matemtica I respecto al
puntaje de ingreso a la universidad





FIGURA 5.10 Grfico de la distribucin acumulativa normal de las desviaciones



Los datos se adaptan bien con los puntos de la normal.





97





(Curso II)

6. REGRESIN LINEAL MLTIPLE

7. SERIES DE TIEMPO

8. ANLISIS DE VARIANZA

9. PRUEBAS NO PARAMTRICAS


98

APNDICE 1

>> theta1=linspace(-2.0*pi,2.0*pi,35);
>> theta2=linspace(-2.0*pi,2.0*pi,35);
>> [T1,T2]=meshgrid(theta1,theta2);
>> F=T2.^2/2-cos(T1);
>> meshc(T1,T2,F)
>> axis([-2.0*pi,2.0*pi,-2.0*pi,2.0*pi,-5,20])
>> xlabel('\theta_1')
>> ylabel('F(\theta_1,\theta_2)')





99

APNDICE 2

>> t=linspace(0,2*pi);
>>fill(t,sin(t),'m')
>>hold on
>>fill(t,0.5*sin(2*t),'y')
>>axis off




100

APNDICE 3
>> x=linspace(0,6,100);
>> hc=plot(x,cos(x),'k-');
>> hold on
>> hch=plot(x,1./cosh(x),'k--');
>> hcl=plot([4.73,4.73],[-1,1],'k');
>> [a,b]=legend('cos(x)','1/cosh(x)','location','SouthWest');
>> xlabel('\it\bfx','FontSize',14,'FontName','Times')
>> ylabel('Value of function','FontSize',14)
>> ylabel('Valor de la funcion','FontSize',14)
>> title('\bfMuestra la interseccion de las dos curvas','FontName','Courier','FontSize',14)
>> text(4.8,-0.1,'\itx \rm= 4.73','FontName','Times','FontSize',12)
>> set(hc,'LineWidth',4)
>> set(hch,'LineWidth',2.5)
>> set(hcl,'LineWidth',0.25,'color','g')
>> set(gca,'FontSize',14,'LineWidth',1.5)
>> set(b(1),'FontSize',10)


101

APNDICE 4

Modelo de Solucin de problemas con MATLAB

Se usan globos metereolgicos para obtener datos de temperatura y presin a diferentes
alturas en la atmsfera. El globo se eleva porque la densidad del helio en su interior es
menor que la del aire que rodea al globo. Al subir el globo, el aire circundante se vuelve
menos denso, y el ascenso se va frenando hasta que el globo alcanza un punto de
equilibrio. Durante el da, la luz del Sol calienta el helio atrapado dentro del globo; el helio
se expande y se vuelve menos denso, y el globo sube ms. Durante la noche, en cambio,
el helio del globo se enfra y se vuelve ms denso, y el globo desciende a una altura
menor. El da siguiente, el Sol calienta el helio otra vez, y el globo sube. Este proceso
genera una serie de mediciones de altura con el transcurso del tiempo que se pueden
aproximar con una ecuacin polinmica.

Suponga que el siguiente polinomio representa la altura en metros durante las primeras
48 horas despus del lanzamiento de un globo metereolgico:

h(t) = -0.12t
4
+ 12t
3
380t
2
+ 4100t + 220

donde las unidades de t son horas. Genere curvas para la altura, velocidad y aceleracin
de este globo usando unidades de metros, m/s y m/s
2
. Adems, determine y exhiba la
altura mxima y su hora correspondiente.

Planteamiento del problema

Usando el polinomio dado, determine la velocidad y aceleracin que corresponden a la
informacin de altura. Grafique la altura, velocidad y aceleracin. Adems calcule la altura
mxima y su hora correspondiente.

Descripcin de entradas/salidas

El siguiente diagrama de E/S muestra que el programa no tiene entradas externas. La
salida consiste en las curvas y la altura mxima con su correspondiente tiempo.



* Grfica de valores de altura
* Grfica de valores de velocidad
* Grfica de valores de aceleracin

No hay datos
externos de
entrada

102

Ejemplo a mano

Solamente se necesita calcular la velocidad y la aceleracin derivando a mano la funcin
polinmica dada de la altitud. Los datos se graficarn y se determinar el valor mximo.
No obstante, es importante sealar que, al ser horas las unidades de t, se necesita
convertir m/h en m/s sustituyendo el tiempo en horas por el tiempo en segundos.

Solucin con MATLAB

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%Este programa genera curvas de velocidad y aceleracin usando un modelo
%polinomico para la altura de un globo metereologico.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
t=linspace(0,48,480);
altitud=-0.12*t.^4+12*t.^3-380*t.^2+4100*t+220;
velocidad=-0.48*t.^3+36*t.^2-760*t+4100;
aceleracion=-1.44*t.^2+72*t-760;
%
subplot(2,1,1),plot(t,altitud),title('Altura del globo')
xlabel('t, horas'),ylabel('metros'),grid,pause
subplot(2,1,1),plot(t,velocidad/3600),title('Velocidad del globo')
ylabel ('m/seg'),grid
subplot(2,1,2),plot(t,aceleracion/(3600*60)),title('Aceleracion del globo'),xlabel('t, horas')
ylabel('metros/seg^2'),grid
%
clc
maxima_altitud=max(altitud)
for i=1:length(altitud)
if altitud(i)==maxima_altitud, t(i), break, end
end
clc
fprintf('La altura mxima alcanzada en metros es: %8.2f El tiempo en segundos es: %6.2f
\n',maxima_altitud,t(i))




103

APNDICE 5

Nmeros y nombres de variables reservados
Nombre de la variable Significado Valor
eps psilon de la mquina 2.2204e-16
pi 3.141592
i y j Unidades imaginarias

inf Infinito
NaN No es un nmero
date Fecha
flops Contador de operaciones de punto flotante
nargint Nmero de argumentos de entrada de una funcin
nargout Nmero de argumentos de salida de una funcin



104

GLOSARIO

ANLISIS DE CORRELACIN. Es el conjunto de tcnicas estadsticas empleado para
medir la intensidad de la asociacin entre dos o ms variables. El principal objetivo del
anlisis de correlacin consiste en determinar qu tan intensa es la relacin entre dos o
ms variables. Normalmente, el primer paso es mostrar los datos en un diagrama de
dispersin.

ANLISIS DE REGRESIN. Es una tcnica estadstica para el modelamiento e investiga
las relaciones entre dos o ms variables. El modelo de regresin lineal simple tiene
nicamente una variable independiente
24
. Es la tcnica empleada para desarrollar la
ecuacin y dar las estimaciones.

ANLISIS DE REGRESIN Y CORRELACIN MLTIPLE. Consiste en estimar una
variable dependiente, utilizando dos o ms variables independientes.

ANLISIS ESTADSTICO DE LA INFORMACIN. Disciplina que se define como la ciencia de la
recoleccin, anlisis, interpretacin y presentacin de informacin que puede expresarse en forma
numrica.

COEFICIENTE DE CONFIANZA. Es la probabilidad de que un intervalo de confianza contenga el
parmetro que se estima.

COEFICIENTE DE CORRELACIN. Describe la intensidad de la relacin entre dos
conjuntos de variables de nivel de intervalo. Es la medida de la intensidad de la relacin
lineal entre dos variables.

El valor del coeficiente de correlacin puede tomar valores desde -1 hasta 1, indicando
que mientras ms cercano a 1 sea el valor del coeficiente de correlacin, en cualquier
direccin, ms fuerte ser la asociacin lineal entre las dos variables. Mientras ms
cercano a 0 sea el coeficiente de correlacin indicar ms dbil esta asociacin entre
ambas variables. Si es igual a 0 se concluir que no existe relacin lineal alguna entre
ambas variables.

COVARIANZA. La covarianza de una variable bidimensional es la media aritmtica de los
productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.

DESVIACIN ESTNDAR. Se define como la raz cuadrada de la varianza o como la desviacin
cuadrtica media.

DIAGRAMA DE DISPERSIN. Es aquel grfico que representa la relacin entre dos
variables.

24
MAGRAB, Edward et al. An Engineers Guide to MATLAB pp.404

105

ECUACIN DE REGRESIN. Es una ecuacin que define la relacin lineal entre dos
variables. La ecuacin de regresin lineal est dada por: = a + bx
La ecuacin de regresin lineal mltiple est dada por: = a + b
1
x
1
+b
2
x
2
+ b
3
x
3


ECUACIN DE REGRESIN MLTIPLE. La forma general de la ecuacin de regresin
mltiple con dos variables independientes es:

= a + b
1
x
1
+ b
2
x
2

x
1
y x
2
Variables independientes
a Coordenada del punto de interseccin con el eje y
b
1
Coeficiente de regresin (es la variacin neta en y por cada unidad de
variacin en x
1
)
b
2
Coeficiente de regresin (es el cambio neto en y para cada cambio unitario
en x
2
)
ESTADSTICA. La Estadstica es la parte de las Matemticas que se encarga del estudio de una
determinada caracterstica en una poblacin, recogiendo los datos, organizndolos en tablas,
representndolos grficamente y analizndolos para sacar conclusiones de dicha poblacin
25
.

ESTADSTICA DESCRIPTIVA. Realiza el estudio sobre la poblacin completa, observando una
caracterstica de la misma y calculando unos parmetros que den informacin global de toda la
poblacin.

ESTADSTICA INFERENCIAL. Realiza el estudio descriptivo sobre un subconjunto de la poblacin
llamado muestra y, posteriormente, extiende los resultados obtenidos a toda la poblacin
26
.

ESTADSTICO. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una
estimacin de los parmetros.

ESTIMADOR. Un estimador puntual utiliza un nmero nico o valor para localizar una estimacin
del parmetro. Un intervalo de confianza denota un rango dentro del cual puede encontrarse el
parmetro, y el nivel de confianza que el intervalo contiene del parmetro.

ESTIMADORES Y ESTIMACIONES. Un estimador es el proceso mediante el cual se obtiene la
estimacin. Una estimacin es el resultado numrico del estimador.

Se dice que un buen estimador debe ser:

- Insesgado, es decir, que no tenga sesgo o error, cuando el valor del estimador es igual al
del parmetro.
- Consistente, o sea, que al aumentar el tamao de la muestra, converge en probabilidad al
parmetro que se estima.

25
http://www.scribd.com/doc/15268123/Conceptos-Basicos-de-Estadistica-I
26
http://recursostic.educacion.es/descartes/web/materiales_didacticos/unidimensional_lbarrios/parametros_est.htm

106

- Eficiente, es decir, que el estimador tiene la menor varianza entre todos los estimadores
posibles.
- Suficiente, o sea, cuando incluye toda la informacin que la muestra puede proporcionar
acerca del parmetro
27
.

ESTIMADOR INSESGADO. Un estimador es insesgado si la media de su distribucin muestral es
igual al parmetro correspondiente.

ESTIMADOR EFICIENTE. Dado un estimador insesgado, el estimador ms eficiente es aquel que
tenga la varianza ms pequea.

ESTIMADOR CONSISTENTE. Un estimador es consistente si, a medida que n aumenta, el valor
del estadstico se aproxima al parmetro.

ESTIMADOR SUFICIENTE. Un estimador es suficiente si ningn otro estimador puede
proporcionar ms informacin sobre el parmetro.

GRADO DE CONFIANZA. Se refiere a la probabilidad de que el valor real de un parmetro, se
encuentre dentro de los lmites especificados en la estimacin que se quiere calcular.

GRADOS DE LIBERTAD. El nmero de observaciones menos el nmero de restricciones
impuestas sobre tales observaciones.

GRFICO DE BARRAS. Son barras horizontales que representan el grado en que ciertas
caractersticas pueden existir a partir de la observacin de casos o elementos.

GRFICOS CRCULARES O DE PASTEL (PIE). Son grficas circulares divididas en sectores, que
representan fracciones del crculo total y que estn asociadas con una caracterstica especfica.

HISTOGRAMAS DE FRECUENCIA. Son grficos que presentan la informacin contenida en una
distribucin de frecuencia.

HIPTESIS ESTADSTICA. Puede considerarse como la afirmacin acerca de una caracterstica
ideal de una poblacin sobre la cual hay inseguridad en el momento de formularla y que, a la vez,
es expresada de tal forma que puede ser rechazada.

INTERVALO DE CONFIANZA. Corresponde a un intervalo de valores, dentro de los cuales se
espera que est el parmetro con cierto grado de confianza o con riesgo de error conocido; para
ello es necesario determinar primero la estimacin puntual.

MEDIANA. Es la observacin de la mitad despus de que se han colocado la data en una serie
ordenada. Se usa en variables medidas en escala ordinal, intervalo o de razn. Si la data est
agrupada, la mediana se define como el valor dentro del intervalo que divide la distribucin en dos
partes iguales.


27
MARTNEZ B. Ciro. Op.Cit. pp. 315

107

MEDIA ARITMTICA. Se le llama tambin promedio. Es una medida de tendencia central que
consiste en la suma de las mediciones divididas por el total del nmero de mediciones. Se utiliza
en variables medidas en escalas de intervalo o de razn.

MEDIA GEOMTRICA. Proporciona una medida precisa de un cambio porcentual promedio en
una serie de nmeros
28
.

MEDIDA DE DISPERSIN. Miden qu tanto se dispersan las observaciones alrededor de su
media
29
.

MTODO NO PARAMTRICO. O de distribucin libre, es el anlisis estadstico que no depende
del conocimiento de la distribucin, ni de los parmetros poblacionales.

MODA. La moda de una distribucin se define como el valor ms frecuentemente encontrado, o la
mayor frecuencia. Se usa con mediciones en escala nominal, ordinal, de intervalo o de razn. Si se
trabaja con datos agrupados la moda se refiere al valor medio del intervalo que contiene la mayor
frecuencia.

MUESTRA. Es un subconjunto, extrado de la poblacin (mediante tcnicas de muestreo), cuyo
estudio sirve para inferir caractersticas de toda la poblacin.

MUESTREO. Es la tcnica utilizada en la seleccin de una muestra a partir de una poblacin.

MUESTREO NO PROBABILSTICO. Este tipo de muestreo, puede haber clara influencia de la
persona o personas que seleccionan la muestra o simplemente se realiza atendiendo a razones de
comodidad. Salvo en situaciones muy concretas, en la que los errores cometidos no son grandes,
debido a la homogeneidad de la poblacin, en general no es un tipo de muestreo riguroso y
cientfico, dado que no todos los elementos de la poblacin pueden formar parte de la muestra. Por
ejemplo, si se hace una encuesta telefnica por la maana, las personas que no tienen telfono o
que estn trabajando, no podrn formar parte de la muestra.

MUESTREO PROBABILSTICO. En este tipo de muestreo, todos los individuos de la poblacin
pueden formar parte de la muestra, tienen probabilidad positiva de formar parte de la muestra. Por
lo tanto es el tipo de muestreo que se debe utilizar en las investigaciones, por ser el ms riguroso y
cientfico.

M.A.S. Es un muestreo aleatorio simple, donde todos los individuos tienen la misma probabilidad
de ser seleccionados. La seleccin de la muestre puede realizarse a travs de cualquier
mecanismo probabilstico en el que todos los elementos tengan las mismas opciones de salir.

PARMETROS ESTADSTICOS. Son las medidas que se obtienen sobre la distribucin de
probabilidades de la poblacin, tales como la media, la varianza, la proporcin, etc.

Pueden ser de dos tipos:


28
WEBSTER, Allen L. Estadstica Aplicada a los Negocios y la Economa. McGraw-Hill. Bogot D.C. 2000. pp. 44.
29
WEBSTER, Allen L. Op. Cit. pp. 47.

108

PARMETROS DE CENTRALIZACIN. Son datos que representan de forma global a toda la
poblacin. Entre ellos se estudian: la media aritmtica, la moda y la mediana.

PARMETROS DE DISPERSIN. Son datos que informan de la concentracin o dispersin de los
datos respecto de los parmetros de centralizacin. Por ejemplo el rango, la desviacin media, la
varianza y la desviacin estndar
30
.

PERCENTILES. Es una medida de dispersin utilizada para calcular el valor que tiene P % de las
mediciones por debajo del percentil P y (100-P %) por encima.

POBLACIN. Es el conjunto de todos los elementos que son objeto del estudio estadstico.
Algunos autores tambin le llaman Universo.

POLGONOS DE FRECUENCIA. Son grficos en la forma de una serie de lneas rectas
conectadas entre s y que unen puntos medios de intervalos a lo largo del eje horizontal.

PRINCIPIO DE MNIMOS CUADRADOS. Es la tcnica empleada para obtener la
ecuacin de regresin, minimizando la suma de los cuadrados de las distancias verticales
entre los valores verdaderos de Y y los pronosticados Y

PRUEBA DE HIPTESIS. Se denomina tambin prueba de significacin que tiene por objeto
principal evaluar suposiciones o afirmaciones acerca de los valores estadsticos de la poblacin,
denominados parmetros.

RANGO. Medida de dispersin que identifica la distancia entre el valor mximo y el menor valor de
la distribucin. O tambin se define como la diferencia entre el lmite superior e inferior.

RANGO INTERCUARTLICO. Es otra medida de dispersin y se define como la diferencia entre el
cuartil superior y el inferior.

TEOREMA DEL LMITE CENTRAL. Si de una poblacin de tamao N con media u y varianza o
2

se obtienen muestras al azar, la distribucin de las medias de las muestras seleccionadas ser
normal. Y ms lo ser en la medida en que se incremente el nmero de muestras seleccionadas y
tendr una media de u y varianza o
2
/N
31
.

VARIABLE. Al hacer un estudio de una determinada poblacin, se observa una caracterstica o
propiedad de sus elementos. Por ejemplo, con los y las estudiantes de la clase, se puede estudiar
el lugar de residencia, el nmero de hermanos, la estatura, etc. Cada una de estas caractersticas
estudiadas se llama variable estadstica
32
.

Dependiendo de la caracterstica se pueden distinguir varios tipos de variables:

VARIABLE CUALITATIVA. Es aquella caracterstica que no se puede expresar con nmeros y hay
que expresarla con palabras. Por ejemplo, el lugar de residencia.


30
http://recursostic.educacion.es/descartes/web/materiales_didacticos/unidimensional_lbarrios/parametros_est.htm
31
VLEZ, Eduardo B. El Anlisis de la Informacin. ICFES, Mdulo 4. Serie Aprender a Investigar. Bogot D.C. 1990.
32
http://recursostic.educacion.es/descartes/web/materiales_didacticos/unidimensional_lbarrios/parametros_est.htm

109

VARIABLE CUANTITATIVA. Es cualquier caracterstica que se puede expresar con nmeros. Por
ejemplo, el nmero de hermanos o la estatura. Dentro de esta variable se pueden distinguir dos
tipos:

VARIABLE CUANTITATIVA DISCRETA. Es aquella variable que puede tomar nicamente un
nmero finito de valores. Por ejemplo, el nmero de hermanos.

VARIABLE CUANTITATIVA CONTINUA. Es aquella variable que puede tomar cualquier valor
dentro de un intervalo real. Por ejemplo, la estatura.

VARIABLE DEPENDIENTE. Es la variable que se predice o calcula, cuya representacin
puede ser y.

VARIABLE INDEPENDIENTE. Es la variable que proporciona las bases del clculo, cuya
representacin puede ser: x
1
, x
2
,

VARIANZA. El promedio de las observaciones respecto a su media elevados al cuadrado.


110

BIBLIOGRAFA

ARAJO, Ulisses F. y SASTRE, Genoveva. El Aprendizaje Basado en Problemas. Una nueva
perspectiva de la enseanza en la universidad. Gedisa Editorial. Barcelona, 2008.

ARBOLEDA Q. Dairon y LVAREZ J. Rafael. MATLAB. Aplicaciones a las Matemticas Bsicas.
Sello Editorial Universidad de Medelln, 2008.

BLAIR, Clifford R. and TAYLOR, Richard A. Bioestadstica. Pearson Prentice Hall. Mxico D.F.
2008.

BOWERMAN, Bruce L. y otros. Pronsticos, Series de Tiempo y Regresin. Un enfoque Aplicado.
CENGAGE Learning. Mxico, 2007.

BROCKWELL, Peter J. and DAVIS, Richard A. Time Series: Theory and Methods. Springer Series
in Statistics. Springer. New York, 2006.

CHAPMAN, Stephen J. MATLAB Programming for Engineers. CENGAGE Learning. International
Student Edition. Stanford, 2008

CHAO L. Lincoln. Estadstica para las Ciencias Administrativas. Mc Graw-Hill. Bogot D.C. 1998.

GIL RODRGUEZ, Manuel. Introduccin Rpida a MATLAB y SIMULINK PARA CIENCIA E
INGENIERA. Daz de Santos. Madrid, 2003.

HAIR, ANDERSON et al. Anlisis multivariante. Prentice Hall. Madrid, 2000.

HANSELMAN, Duane and LITTLEFIELD, Bruce. Mastering MATLAB 7. Pearson Prentice-Hall. New
Jersey, 2005.

INSTITUTO DE NORMAS TCNICAS Y CERTIFICACIN. Trabajos escritos: presentacin y
referencias bibliogrficas. ICONTEC. Bogot D. C. 2009.

KREYSZIG, Erwin. Introduccin a la Estadstica Matemtica. Principios y Mtodos. Editorial
LIMUSA S. A. Mxido D.F. 1990.

MILLER, Irwin y FREUND, John E. Probabilidad y Estadstica para Ingenieros. Prentice Hall.
Mxico D.F. 1990

PREZ, Csar. MATLAB y sus aplicaciones en las Ciencias y la Ingeniera. Prentice Hall. Madrid,
2002.

PREZ, Csar. Econometra de las Series Temporales. Pearson. Prentice Hall. Madrid, 2006.

MAGRAB, Edward B. et al. An Engineers Guide to MATLAB. Prentice Hall. New Jersey, 2010.

MARTNEZ BENCARDINO, Ciro. Estadstica y Muestreo. ECOE Ediciones. Bogot D.C. 2003.


111

SMITH, David M. Engineering Computation with MATLAB. Addsison Wesley. Boston, 2010.

STANLEY, WillIam D. Technical Analysis and Applications with MATLAB. THOMPSON Delmar
Learning. Canada, 2005.

VLEZ, Eduardo B. El Anlisis de la Informacin. ICFES, Mdulo 4. Serie Aprender a Investigar.
Bogot D.C. 1990

WALPOLE, Ronald y otros. Probabilidad y Estadstica para Ingenieros. Prentice Hall. Pearson
Educacin. Addison Wesley. Mxico D.F. 1998.

WEBSTER, Allen L. Estadstica Aplicada a los Negocios y la Economa. McGraw-Hill. Bogot D.C.
2000.

ZIMMERMANN, Francisco Jos P. Estadstica para Investigadores. Universidad de la Sabana.
Editorial Escuela Colombiana de Ingeniera. Bogot D.C. 2004.





112

FUENTES DE INFORMACIN ELECTRNICA
Conceptos Bsicos de Estadstica [en lnea]. http://www.scribd.com/doc/15268123/Conceptos-
Basicos-de-Estadistica-I

Correlacin [en linea]. <http://es. Wikipedia.org/wiki/Correlacion>

Coeficiente de Correlacin de Pearson [en lnea].
<http://es.wikipedia.org/wiki/Coeficiente_de_correlacin_de_Pearson>

Estadstica Inferencial. [en lnea] <http://es.wikipedia.org/wiki/Estadistica_inferencial >

Estadstica, poblacin y muestra. [en lnea]. http://www.scribd.com/doc/5181091/Estadistica-y-
poblacio-y-muestra

Hiptesis nula. [en lnea]. <http://es.wikipedia.org/wiki/Hiptesis_nula>

Inferencia Estadstica. [en lnea]. http://www.mitecnologico.com/Main/InferenciaEstadistica

Intervalo de confianza. [en lnea]. http://escuela.med.puc.cl/recursos/recepidem/EPIANAL9.HTM


Parmetros estadsticos. [en lnea].
http://recursostic.educacion.es/descartes/web/materiales_didacticos/unidimensional_lbarrios/param
etros_est.htm

Pronstico Estadstico. [en lnea]. <http://es.wikipedia.org/wiki/Pronstico_(Estadstica)>