Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística-Libro-Héctor Pabón 2
Estadística-Libro-Héctor Pabón 2
PROBABILIDAD Y ESTADÍSTICA
CON MATLAB® PARA
INVESTIGADORES
Curso básico
Héctor José Pabón Ángel MSc.
2010
~1~
UNIVERSIDAD DE CUNDINAMARCA SECCIONAL UBATÉ
PROBABILIDAD Y ESTADÍSTICA
CON MATLAB®
PARA INVESTIGADORES
POR:
UNIVERSIDAD DE CUNDINAMARCA
SECCIONAL UBATÉ
PROGRAMA DE INGENIERÍA
2010
2
CONTENIDO
Pág.
1. ELEMENTOS DE MATLAB® 8
1.1 INTRODUCCIÓN 8
1.2 ALGUNAS OPERACIONES BÁSICAS CON MATLAB® 8
1.3 LOS NÚMEROS EN MATLAB® Y LOS FORMATOS NUMÉRICOS 9
1.4 OPERACIONES ARITMÉTICAS 9
1.5 FUNCIONES MATEMÁTICAS DE MATLAB® 11
1.6 VECTORES 11
1.7 MATRICES 14
1.8 CREACIÓN DE MATRICES ESPECIALES 17
1.9 OPERACIONES CON MATRICES 21
1.10 CADENAS DE IMPRESIÓN 23
1.11 SOLUCIÓN DE ECUACIONES LINEALES 24
1.12 GRAFICACIÓN CON MATLAB® 27
1.13 SUBPLOT 29
1.14 DEFINICIÓN DE FUNCIONES 30
2. PROBABILIDAD 32
2.1 INTRODUCCIÓN 32
2.2 ESPACIO MUESTRAL 32
2.3 EVENTO 32
2.4 COMBINATORIA 33
2.5 PROBABILIDAD DE UN EVENTO 34
2.6 PROBABILIDAD CONDICIONAL 36
2.7 EVENTOS INDEPENDIENTES 37
2.8 VARIABLES ALETAORIAS 37
2.9 DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 38
2.10 DISTRIBUCIÓN CONTINUA DE PROBABILIDAD 40
2.11 ESPERANZA MATEMÁTICA 41
2.12 VARIANZA 43
2.13 DISTRIBUCIONES DISCRETAS 45
2.13.1 Distribución binomial 45
2.13.2 Distribución hipergeométrica 47
2.13.3 Distribución de Poisson 48
2.14 DISTRIBUCIONES CONTINUAS 50
2.14.1 Distribución normal 50
2.14.2 Distribución 2 (o JI-cuadrado) 57
2.14.3 Distribución t de Student 58
2.14.4 Distribución F 59
3. ANÁLISIS ESTADÍSTICO 61
3.1 ESTADÍSTICA DESCRIPTIVA 61
3.1.1 Estadígrafos de posición 66
3.1.2 Estadígrafos de dispersión 66
4. TEORÍA DE MUESTREO 72
4.1 INFERENCIA ESTADÍSTICA 75
4.2 PRUEBA DE HIPÓTESIS 75
3
5. AJUSTES DE CURVAS Y REGRESIÓN 88
5.1 INTRODUCCIÓN 88
5.2 REGRESIÓN LINEAL SIMPLE 88
5.3 DIAGRAMAS DE DISPERSIÓN 89
APÉNDICE 1 98
APÉNDICE 2 99
APÉNDICE 3 100
APÉNDICE 4 101
GLOSARIO 103
BIBLIOGRAFÍA 108
FUENTES DE INFORMACIÓN ELECTRÓNICA 111
4
LISTA DE FIGURAS
Pág.
6
LISTA DE TABLAS
Pág.
7
PROBABILIDAD Y ESTADÍSTICA CON MATLAB® PARA
INVESTIGADORES
¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯
1. ELEMENTOS DE MATLAB®
1.1 INTRODUCCIÓN
MATLAB® existe como un programa de aplicación primaria con una librería bastante
Toolbox standard Toolbox de
MATLAB®, contienen una librería amplia para resolver muchos problemas prácticos de
estadística, tales como interpolación, regresión, medidas de tendencia central, medidas
de dispersión, inferencia estadística, graficación, entre otros muchos temas.
El prompt >> está dado por el sistema y se requiere dar <ENTER> para ejecutar un
comando MATLAB®
Ejemplo 1.1
Un punto y coma colocado al final de una expresión hace que la ejecución del comando
no sea visible al usuario. Sin el punto y coma, se muestra el resultado de la ejecución.
8
Ejemplo 1.3 Uso del punto y coma.
Por defecto, la salida a la pantalla es de cuatro dígitos a la derecha del punto decimal.
>>format short
>>pi
ans =
3.1416
>>pi
ans =
3.14159265358979
>>format short e
>>pi
ans =
3.1416e + 000
Como parte de su sintaxis y su semántica, MATLAB® está previsto para dar valores
excepcionales. Más infinito (+ ) está representado por Inf, menos infinito (- ) por inf,
NAN (not a number). Estos valores excepcionales se
encuentran a menudo a través de cálculos en MATLAB®.
9
Símbolo Efecto
+ Adición o suma
- Substracción o resta
* Multiplicación o producto
/ División
^ Potencia
Conjugada transpuesta
pi, e Constantes
Ejemplo 1.5
>>(4-2+3*pi)/2
ans =
5.7124
>>a=2;
>>b=sin(a);
>>2*b^2
ans =
1.6537
Las operaciones aritméticas con MATLAB® son mucho más potentes que éstas del
ejemplo 1.5, como se verá más adelante.
Hay algunas operaciones aritméticas que requieren gran cuidado. El orden en el cual la
multiplicación y la división se especifican es especialmente importante.
>>a=2;
>>b=3;
>>c=4;
10
>>a/b*c
ans =
2.6667
>> a/(b*c)
ans =
0.1667
Símbolo Efecto
abs(x) Valor absoluto
Nótese que las funciones trigonométricas su argumento debe estar en radianes (o número
puro) y no en grados.
11
>> cos(pi/3)
ans =
0.5000
Como se dijo antes, las variables aparecen como escalares. De hecho, todas las variables
en MATLAB® son arreglos. Un aspecto importante de MATLAB® es que se trabaja muy
eficientemente con arreglos y las tareas principales son mejor trabajadas con arreglos.
1.6 VECTORES
En MATLAB® la palabra vector puede ser realmente interpretada como una lista de
números. Estrictamente, podría ser una lista de otros objetos no numéricos, pero por
ahora, decir esto es más que suficiente y llena las expectativas del curso.
Hay dos clases básicas de vectores en MATLAB®: vector fila y vector columna.
x=
1 2 3 4 5
y=
ans =
ans =
>> z=x(4)+3*x(2)+y(5)
z = 15
12
Los dos puntos tienen un especial y potente rol. Básicamente, permite una forma fácil de
definir un vector de números igualmente espaciados. Hay dos formas básicas de definir
un vector en MATLAB® con esta la notación, utilizando los dos puntos.
La primera se hace con dos argumentos separados por dos puntos, como sigue:
Ejemplo 1.9 Definir un vector x con elementos igualmente espaciados por una unidad.
>> x=-2:4 %crea un vector que empieza con -2 y termina con 4 con incrementos de a 1
x=
-2 -1 0 1 2 3 4
La segunda es con tres argumentos separados por dos veces los dos puntos y tiene el
efecto de especificar el valor inicial : espaciamiento : valor final.
Ejemplo 1.10 Definir un vector espaciando igualmente sus elementos con incrementos
de 0.5
>> y=-2:0.5:4 %crea un vector que empieza con -2 y termina con 4 con incrementos de a 0.5
y=
>> z=x(2:6) %crea el vector z con los elementos desde x(2) hasta x(6)
z=
-1 0 1 2 3
>> w=y(2:6) %crea el vector w con los elementos desde y(2) hasta y(6)
w=
MATLAB® tiene otros dos comandos para definir vectores de una manera adecuada. La
primera se llama función linspace, que se usa para especificar un vector con un número
dado de elementos igualmente espaciados entre un punto inicial y un punto final.
>> x=logspace(1,5,5)
x=
Ejemplo 1.14 Se pueden usar vectores con MATLAB® para generar tablas de valores de
funciones.
ans =
0 1.0000
0.1000 0.9950
0.2000 0.9801
0.3000 0.9553
0.4000 0.9211
0.5000 0.8776
0.6000 0.8253
0.7000 0.7648
0.8000 0.6967
0.9000 0.6216
1.0000 0.5403
14
Nótese que se utilizó el apóstrofe para transponer los vectores, es decir, para convertir
las filas en columnas.
Ejemplo 1.15 Otra forma de usar los dos puntos es como sigue:
>> y=sqrt(4+2*(0:0.3:2.4)')
y=
2.0000
2.1448
2.2804
2.4083
2.5298
2.6458
2.7568
2.8636
2.9665
1.7 MATRICES
Una matriz es un arreglo bidimensional de valores numéricos que obedecen las reglas del
álgebra lineal.
Para entrar una matriz, se listan todos los elementos de la matriz de la primera fila
separados por espacios en blanco o comas, separando la primera fila de la segunda por
punto y coma y así sucesivamente hasta la última fila, encerrando todos los elementos
con corchetes. Para entrar una matriz de 3x4 de números se procede así:
A=
1 2 3 4
5 6 7 8
8 10 11 12
15
ans =
Ejemplo 1.18 Los elementos de las matrices se pueden manipular de muchas maneras.
>> A
A=
1 2 3 4
5 6 7 8
8 10 11 12
ans =
ans =
1 2 3
5 6 7
8 10 11
>> A([1:3],[1:3])
ans =
1 2 3
5 6 7
8 10 11
16
>> x(4)=[ ]
x=
1 2 3 5 6
>> A(:,1)=[ ]
A=
2 3 4
6 7 8
10 11 12
Ejemplo 1.21 Para intercambiar dos filas de una matriz A, se digita el siguiente script:
B=
10 6 2
B=
10 11 12
6 7 8
2 3 4
>> A
A=
2 3 4
6 7 8
10 11 12
Ejemplo 1.22 Para cambiar la segunda fila de una matriz A de 3x3 a [2 2 2], se ejecuta el
siguiente script:
A=
1 2 3
4 5 6
7 8 9
17
>> A(2,:)=[2 2 2]
A=
1 2 3
2 2 2
7 8 9
Ejemplo 1.23 se
ejecuta el siguiente script:
A=
1 2 3
4 5 6
7 8 9
>> A(:,2)=[1 1 1]
A=
1 1 3
4 1 6
7 1 9
1.8 CREACIÓN DE MATRICES ESPECIALES
Hay muchas funciones incorporadas en MATLAB® que se utilizan para crear vectores y
matrices especiales. Se tienen ejemplos como:
A=
0 0 0
0 0 0
A=
0 0 0
0 0 0
18
0 0 0
>> A=ones(2,3)
A=
1 1 1
1 1 1
>> A=ones(3)
A=
1 1 1
1 1 1
1 1 1
>> A=ones(2,3)'
A=
1 1
1 1
1 1
>> I3=eye(3)
I3 =
1 0 0
0 1 0
0 0 1
>> I5=eye(5)
I5 =
1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1
19
Ejemplo 1.27 Crear una matriz diagonal
>> A=diag(x)
A=
1 0 0
0 2 0
0 0 3
A=
4 0 0
0 5 0
0 0 6
Ejemplo 1.28 Para extraer la diagonal de una matriz almacenada en memoria, se usa el
nombre de la función diag, pero poniendo como entrada una matriz y presentando como
salida alternativa un vector.
A=
1 0 0
0 2 0
0 0 3
>> u=diag(A)
u=
Ejemplo 1.29 Crear la función length y la función size, la cual se usa para determinar el
número de elementos de un vector o una matriz. Estas funciones son muy útiles cuando
20
se trata de matrices de tamaño desconocido o tamaño variable especialmente cuando se
escriben bucles (loops).
x=
1 2 3 4 5 6 7 8 9 10
ans =
10
Ejemplo 1.30 Ahora se define el comando size, el cual retorna dos valores,
correspondientes a las filas y columnas de la matriz en cuestión, donde el primer número
corresponde a las filas y el segundo a las columnas.
A=
1 2 3 4
5 6 7 8
>> size(A)
ans =
2 4
>> size(A')
ans =
4 2
Ejemplo 1.31 Crear la matriz de raíces cuadradas de una matriz A, usando la función sqrt
para obtener una matriz B cuyos elementos son las raíces cuadradas de los elementos de
la matriz A.
>> A
A=
1 2 3 4
5 6 7 8
>> B=sqrt(A)
B=
21
1.0000 1.4142 1.7321 2.0000
Ejemplo 1.32 Crear una matriz triangular superior de una matriz dada A, usando la
función triu
A=
1 2 3
4 5 6
7 8 9
>> U=triu(A)
U=
1 2 3
0 5 6
0 0 9
>> U=triu(A,1)
U=
0 2 3
0 0 6
0 0 0
>> U=triu(A,2)
U=
0 0 3
0 0 0
0 0 0
Ejemplo 1.33 Crear una matriz triangular inferior, usando la función tril
>> U=tril(A)
U=
1 0 0
4 5 0
22
7 8 9
>> U=tril(A,-1)
U=
0 0 0
4 0 0
7 8 0
>> U=tril(A,-2)
U=
0 0 0
0 0 0
7 0 0
Ejemplo 1.34 Crear una matriz aleatoria nxn usando la función rand
>> R=rand(3) %siempre va a salir una matriz diferente por ser aleatoria
R=
>> R=rand(2) %siempre va a salir una matriz diferente por ser aleatoria
R=
0.9649 0.9706
0.1576 0.9572
Ejemplo 1.35
>> A=[-1 2 5 0; 1 -2 4 2; 1 2 3 4]
A=
23
-1 2 5 0
1 -2 4 2
1 2 3 4
>> B=[0 1 0 1; 2 -1 -4 3; 2 1 4 1]
B=
0 1 0 1
2 -1 -4 3
2 1 4 1
>> A+B
ans =
-1 3 5 1
3 -3 0 5
3 3 7 5
>> A-B
ans =
-1 1 5 -1
-1 -1 8 -1
-1 1 -1 3
>> 2*A-3*B
ans =
-2 1 10 -3
-4 -1 20 -5
-4 1 -6 5
>> B=B' % se hace B igual a B transpuesta por
B=
0 2 2
1 -1 1
0 -4 4
1 3 1
>> B*A %
a.
ans =
24
4 0 14 12
-1 6 4 2
0 16 -4 8
3 -2 20 10
ans =
2 -24 20
0 -6 18
6 0 20
>> c=a./b
c=
>> c=a.*b
c=
2 -2 12
>> c=a.^2
c=
1 4 9
>> c=a.^a
c=
1 4 27
>> c=a.^b
c=
>> B=B'
B=
0 1 0 1
25
2 -1 -4 3
2 1 4 1
>> C=A.*B
C=
0 2 0 0
2 2 -16 6
2 2 12 4
>> C=C.^(1/2)
C=
0 1.4142 0 0
Las cadenas son matrices cuyos elementos son caracteres. En aplicaciones más
avanzadas tales como computación simbólica, la manipulación de cadenas es un tópico
muy importante. Para el presente propósito, sin embargo, se necesitarán algunas
herramientas limitadas al manejo elemental de tales cadenas.
Ejemplo 1.37
>> apellido=apellido'
apellido =
Ejemplo 1.38 Las matrices tipo string también pueden ser creadas como sigue:
>> nombres=['Hector';'Pabon '] %las dos cadenas deben ser de la misma longitud, o completarse
con blancos
26
nombres =
Hector
Pabon
Ejemplo 1.39 La función disp toma únicamente un argumento, el cual puede ser ambos, o
una matriz de caracteres o una matriz numérica.
>> x=0:0.5:2*pi;
>> y=cos(x);
0 1.0000
0.5000 0.8776
1.0000 0.5403
1.5000 0.0707
2.0000 -0.4161
2.5000 -0.8011
3.0000 -0.9900
3.5000 -0.9365
4.0000 -0.6536
4.5000 -0.2108
5.0000 0.2837
5.5000 0.7087
6.0000 0.9602
Ejemplo 1.40 Se pueden imprimir cadenas más complicadas con la función fprintf.
Esta es esencial en los comandos de programación C, que se usan para obtener un
amplio rango de especificaciones de impresión.
Mi nombre es:
Hector Pabon
Ejemplo 1.41 La función fprintf tiene especificaciones del número de dígitos en el display
27
>> raiz2=fprintf('La raiz cuadrada de 2 es: %1.6f',(sqrt(2)))
>> A=[1 1 1;2 3 1;1 -1 -2]; %matriz de los coeficientes de las variables
>> x=A\b
x=
-1
2
Hay un pequeño número de funciones que pueden ser mencionadas a continuación:
Ejemplo 1.43 Reducir una matriz A a la forma escalonada reducida por filas.
>> rref(A)
ans =
1 0 0
0 1 0
0 0 1
>> det(A)
ans =
-5
28
Ejemplo 1.45 Encontrar el rango de una matriz, usando la función Rank.
>> rank(A)
ans =
Ejemplo 1.46 Encontrar la inversa de una matriz A no singular, usando la función inv.
>> inv(A)
ans =
1 -1/5 2/5
-1 3/5 -1/5
1 -2/5 -1/5
C=
1 1 1 2
2 3 1 3
1 -1 -2 -6
>> [L,U]=lu(A)
L=
1/2 1/5 1
1 0 0
1/2 1 0
29
U=
2 3 1
0 -5/2 -5/2
0 0 1
>> L*U
ans =
1 1 1
2 3 1
1 -1 -2
>> A
A=
1 1 1
2 3 1
1 -1 -2
Las raíces de un polinomio p(x) se pueden hallar utilizando la función roots, como
roots(p).
>> r=roots(p)
r=
-2.4748
0.8081
>> sol=polyval(coef,1.5)
sol =
12.3750
30
1.12 GRAFICACIÓN CON MATLAB®
Ejemplo 1.51
>> x=-2:0.1:2;
>> y=exp(x)+10;
>> plot(x,y)
Por defecto, la función plot conecta los puntos por medio de segmentos de línea sólida.
Otras posibilidades que se pueden usar para cambiar la apariencia de la gráfica son:
>> plot(x,y,'o'),grid
>> plot(x,y,'*'),grid
>> plot(x,y,'x'),grid
>> plot(x,y,'.'),grid
>> plot(x,y,'+'),grid
31
>> plot(x,y,'-'),grid
>> plot(x,y,'.-'),grid
>> plot(x,y,'o-'),grid
>> y=x;
>> [X,Y]=meshgrid(x,y);
>> Z= -3*X+Y;
>> mesh(X,Y,Z)
>> x=linspace(-5,5,20);
>> y=linspace(-5,5,20);
>> [X,Y]=meshgrid(x,y);
>> Z=sin(R)./R;
>> surf(X,Y,Z)
32
1.13 SUBPLOT
Muchas veces es conveniente colocar más de una figura en una misma ventana. Esto es
posible con el comando gráfico llamado función subplot, lo cual se puede hacer como se
muestra a continuación:
Ejemplo 1.53
>> x=-2:0.1:2;
>> y=x;
>> [X,Y]=meshgrid(x,y);
>> Z=2+(X.^2+Y.^2);
FIGURA 1.4 Varios gráficos en una misma ventana utilizando la función subplot
33
>> x=linspace(-2*pi,2*pi);
>> subplot(2,2,1);
>> subplot(2,2,2);
>> subplot(2,2,3);
>> subplot(2,2,4);
FIGURA 1.5 Varios gráficos en una misma ventana utilizando la función subplot
34
1.14 DEFINICIÓN DE FUNCIONES
La sintaxis para definir funciones desde el editor de MATLAB®, tiene la siguiente forma:
>> x=(0:0.2:2);
>> fx=fn2(x);
ans =
0 1.0000
0.2000 0.8246
0.4000 0.7399
0.6000 0.8353
0.8000 1.1673
1.0000 1.7183
1.2000 2.4404
1.4000 3.3073
1.6000 4.3251
1.8000 5.5227
2.0000 6.9446
35
Correspondiente al siguiente gráfico:
>>plot(x,y)
36
2. PROBABILIDAD
2.1 INTRODUCCIÓN
A cada resultado en un espacio muestral se llama elemento o punto del espacio muestral.
Por ejemplo, al lanzar una moneda el conjunto muestral S está conformado por dos
elementos: cara y sello.
Ejemplo 2.1 En un experimento de lanzar un dado cúbico (seis caras) el espacio muestral
está conformado por los puntos muestrales: S = {1, 2, 3, 4, 5, 6}
2.3 EVENTO
En cualquier experimento el hecho de que ocurra cierta circunstancia se llama evento, por
ejemplo al lanzar un dado corriente, un evento puede ser el hecho de obtener un número
par, en cuyo caso está conformado por tres puntos muestrales: A = {2, 4, 6}
A1 A2
A1 A2
2.4 COMBINATORIA
(1)
>> v=[1 2 3 4 5]
>> c2=combnk(v,2)
c2 =
4 5
3 5
3 4
38
2 5
2 4
2 3
1 5
1 4
1 3
1 2
>> c4=combnk(v,4)
c4 =
1 2 3 4
1 2 3 5
1 2 4 5
1 3 4 5
2 3 4 5
(2)
>> perms(v)
ans =
ave
aev
vae
vea
eva
eav
39
ans =
2 1 0
2 0 1
1 2 0
1 0 2
0 1 2
0 2 1
Para una población consistente de K posibles resultados, solamente una de los cuales
puede ocurrir, para cada ensayo del experimento, se puede deducir la siguiente relación:
Ejemplo 2.3 Se lanza un dado (cúbico) una vez, ¿Cuál es la probabilidad de que caiga un
número par?
S = {(1,1),(1,2),(1,3),(1,4),(1,5),(1,6),(2,1),(2,2),(2,3),(2,4),(2,5),(2,6),(3,1),(3,2),(3,3),(3,4),
(3,5),(3,6),(4,1),(4,2),(4,3),(4,4),(4,5),(4,6),(5,1),(5,2),(5,3),(5,4),(5,5),(5,6),(6,1),(6,2), (6,3),
(6,4),(6,5),(6,6)}
Por tanto, P(A1UA2) = 3/36 + 2/36 = 5/36, aplicando (3), ya que A1 y A2 son mutuamente
excluyentes.
Ahora, si A1 y A2 son eventos complementarios, se tiene que:
Solución. La probabilidad de obtener un número múltiplo de 3 es: P({3,6}) = 2/6 = 1/3. Por
tanto, la probabilidad de no obtener un número múltiplo de 3 es: 1 - P({3,6}) = 1 - 1/3 = 2/3
aplicando (4).
Solución. El espacio muestral es: S = {ccc, ccs, csc, scc, css, scs, ssc, sss}. La
probabilidad P({ccs, csc, scc}) = 3/8
La probabilidad condicional de A2 dado A1, que se denota por P(A2|A1), se define como:
41
ESTUDIANTES DE ESTUDIANTES DE TOTAL
HOMBRES 70 80 150
MUJERES 90 60 150
TOTAL 160 140 300
H: seleccionar a un hombre
I: seleccionar a un estudiante de ingeniería
Visto directamente desde la tabla 2.1 se obtiene el mismo resultado: P(H | I) = 70/160 =
7/16
Dados dos eventos A1 y A2, se dice que estos eventos son independientes siempre que:
P(A1|A2) = P(A1), lo cual significa que la ocurrencia de A2 no incide en la ocurrencia de A1
Ejemplo 2.9 Suponga que se tiene una tula con 20 balotas, de las cuales 15 son rojas y 5
azules. Se seleccionan dos balotas al azar una después de otra, sin reemplazamiento.
¿Cuál es la probabilidad de obtener dos balotas azules?
42
2.8 VARIABLES ALETAORIAS
Una variable aleatoria es una función que asocia un número real con cada elemento del
espacio muestral.
Ejemplo 2.10 Se tienen tres monedas. Se lanzan todas tres simultáneamente. El espacio
muestral es S = {ccc, ccs, csc, scc, ssc, scs, css, sss}, como en el ejemplo 2.7
Se define ahora variable aleatoria como una función que asocia un número real con cada
elemento del espacio muestral. En el ejemplo 2.7, si se asocia el número de caras para
cada elemento del espacio muestral, se tiene:
ccc 0
ccs
csc 1
scc
ssc
2
scs
css
sss
3
Se ve en la figura 2.2 que, la variable aleatoria X tiene como elementos X={0, 1, 2, 3}. Si
un espacio muestral S posee un número finito de posibilidades o un número infinito con
tantos elementos como números enteros positivos existen, se llama entonces, espacio
muestral discreto.
f(x) 0
=1
P(X = x) = f(x)
43
Según el ejemplo 2.10, f(x) 0, ya que f(0) = 1/8, f(1) = 3/8, f(2) = 3/8, f(3) = 1/8.
>> y=[0 1 2 3]
>> bar(y,x, r )
44
>> x=[1/8 4/8 7/8 8/8];
>> bar(y,x,'g')
2.10 DISTRIBUCIÓN CONTINUA DE PROBABILIDAD
Una función f(x) es una función de densidad de probabilidad para la variable aleatoria
continua X, definida en el conjunto de los , si cumple las siguientes condiciones:
1
Índice de masa corporal es igual a: peso(kg)/altura2 (m)
45
La distribución acumulada F(x) de una VAC X (variable aleatoria continua X) con función
de densidad f(x) es:
, -1 < x < 2
f(x) =
0, para cualquier otro valor en
Hallar:
a) P(-1 < X < 2);
b) P(-1 < X < 1);
c) P(1 < X 2)
Solución. Se utiliza el método de Simpson para calcular la integral de f(x), como ya se
definió anteriormente.
function SN=simpsonR(fn,a,b,n)
h=(b-a)/n;
s=(feval(fn,a)+feval(fn,b));
for k=1:2:n-1
s=s+4*feval(fn,a+k*h);
end;
for k=2:2:n-2
s=s+2*feval(fn,a+k*h);
function y=fn(x)
y=(1/3)*x.^2;
a)>> simpsonR('fn',-1,2,10)
ans =
b)>> simpsonR('fn',-1,1,10)
46
ans =
0.2222
c)>> simpsonR('fn',1,2,10)
ans =
0.7778
Sea X una VA con distribución de probabilidad f(x). La media o valor esperado de X es:
Ejemplo 2.12. Al lanzar un dado (cúbico), la VAD se anota en la siguiente tabla, lo mismo
que sus valores de probabilidad:
X 1 2 3 4 5 6
P(X = x) 1/6 1/6 1/6 1/6 1/6 1/6
Y 2 4 6 8 10 12
P(Y = y) 1/6 1/6 1/6 1/6 1/6 1/6
Solución. Aquí se tiene que E(X 3) = E(X) E(3) = 3.5 3 = 0.5, por propiedades del
valor esperado.
47
E(c) = c
E(cX) = cE(X)
E(X + c) = E(X) + c
E(X + Y) = E(X) + E(Y)
E(aX + bY) = aE(X) + bE(Y)
Ejemplo 2.15 Sea X la VAC que define la vida en horas de cierta bombilla doméstica. La
función de densidad de probabilidad es:
, x > 100
f(x) =
0, para cualquier otro valor en
= E(X) = = = = = =
>> SN=simpsonR('fn',100,100000,1000000)
SN =
1.0
function y=fn(x)
y=20000/x^3;
Como se ve, f(x) cumple con la condición para la cual el área bajo la curva es 1.
function y=fn(x)
>> SN=simpsonR('fn',100,100000,1000000)
SN =
199.8
Que es aproximadamente 200 horas como se calculó manualmente para esta integral
definida que es realmente fácil de calcular.
2.12 VARIANZA
48
Sea X una VA con distribución de probabilidad f(x) y media , la varianza de X, para X
discreta es:
2
= E[(X - )2] = (17)
Si X es continua se tiene:
2
= E[(X - )2] = (18)
2
La raíz cuadrada de la varianza se denomina desviación estándar de X.
Ejemplo 2.16 Hallar la varianza para la VAD del del ejemplo 2.12.
2
= E[(X - )2] = (1 - 3.5)²(1/6) + (2 - 3.5)²(1/6) + (3 - 3.5)²(1/6) + (4 - 3.5)²(1/6) + (5 -
3.5)²(1/6) + (6 - 3.5)²(1/6) = 2.9167
E=
2.9167
>> s=sqrt(E)
s=
1.7078
Ejemplo 2.17 La demanda mensual de un cierto artículo en una cadena de
hipermercados es una VAC que tiene densidad de probabilidad:
2(2x-1), 1<x<2
f(x) =
0, para cualquier otro valor en
= E(X) = = = 2[ - ] = 5/3
E(X2) = = 17/6
Por tanto, teniendo en cuenta que la varianza también se puede escribir como:
2
= E(X2) - 2
(19)
>> SN=simpsonR('fn',1,2,10)
SN =
1
Ahora se calcula
function y=fn(x)
y=2*(x*(x 1));
>> SN=simpsonR('fn',1,2,10)
SN =
5/3
>> SN=simpsonR('fn',1,2,10)
SN =
17/6
s2 =
1/18
1. Ninguno se gradúe
50
2. Que se gradúen la mitad
3. Que se gradúen todos
Solución. Se tiene que n = 20, p = 0.6 y por tanto q = 0.4, pues p + q = 1. Para n grande
como en este caso es conveniente utilizar MATLAB® para agilizar los cálculos.
>> p=binopdf(0,20,0.6)
p=
1.0995e-008
2. Que se gradúen 10
>> p=binopdf(10,20,0.6)
p=
0.1171
>> p=binopdf(20,20,0.6)
p=
3.6562e-005
Ejemplo 2.19 Encontrar la probabilidad de que diez personas que se encuentran en una
reunión un sábado, a lo más 2 hayan nacido en este mismo día de la semana.
Solución. El trabajo más dispendioso del cálculo de probabilidades es cuando estas son
acumuladas como en el presente ejemplo. En los libros aparecen al final, tablas que
permiten solucionar el problema pero con algunas limitaciones, por lo incompletas y
dispendiosa la forma de encontrarlas.
En
51
>> p=binocdf(2,10,1/7)
p=
0.8384
Ejemplo 2.20 Encontrar la probabilidad de que diez personas que se encuentran en una
reunión un sábado, por lo menos 2 hayan nacido en este mismo día de la semana.
p=
0.4292
O también utilizando la forma larga que es poco funcional, pero que sirve como prueba:
y=
0.4292
>> p=binocdf(7,20,0.3)
p=
0.7723
Ejemplo 2.21 De 100 monedas que son extraídas de una alcancía y puestas sobre una
mesa, ¿Cuál es la probabilidad de que entre 50 y 70 monedas inclusive se encuentren
mostrando cara?
Solución.
p=
0.5398
52
2
= np y = npq (21)
Solución. n = 100; p = ½ ; q = ½
= np = 100(1/2) = 50
2
= npq = 100(1/2)(1/2) = 25
h(x, m, n, k) = , x (22)
Ejemplo 2.23 Se tienen 200 artículos de los cuales 50 son defectuosos. Si son tomados
10 artículos al azar, calcular la probabilidad de que salgan: a) exactamente cinco
defectuosos b) cinco o menos defectuosos.
a) Para p(x = 5)
h=
0.0558
b) 5)
hc =
0.9829
2.13.3 Distribución de Poisson. En una distribución binomial cuando n es grande, por lo
general mayor de 50, y p, la probabilidad de éxito de un evento, se acerca a 0, mientras
53
que q la probabilidad de fracaso se aproxima a 1 de tal manera que el producto np = , es
menor o igual a 5, debe utilizarse la distribución de Poisson. También puede considerarse
el caso cuando p es bastante grande cercana a 1 y también > 5. En estos dos casos se
puede aplicar esta distribución.
- k
P(x = k) = e / k! (23)
>> p0=poisspdf(0,2)
p0 = 0.1353
>> p1=poisspdf(1,2)
p1 = 0.2707
>> p2=poisspdf(2,2)
p2 = 0.2707
>> p3=poisspdf(3,2)
p3 = 0.1804
>> p4=poisspdf(4,2)
p4 = 0.0902
>> p5=poisspdf(5,2)
p5 = 0.0361
54
>> p6=poisspdf(6,2)
p6 = 0.0120
>> p7=poisspdf(7,2)
p7 = 0.0034
>> p8=poisspdf(8,2)
p8 = 8.5927e-004
>> p9=poisspdf(9,2)
p9 = 1.9095e-004
>> p10=poisspdf(10,2)
p10 = 3.8190e-005
>> k=0:10
k= 0 1 2 3 4 5 6 7 8 9 10
>> plot(k,p,'o',k,p,'*'),grid
Solución. = np = 20000(1/10000) = 2
a) Exactamente 5 personas
>> p=poisspdf(5,2)
p=
0.0361
>> p=poisscdf(5,2)
p=
0.9834
>> p=poisscdf(5,2)
p=
55
0.9834
Solución. k = 6; = 4;
>> p4=poisspdf(6,4)
p4 =
0.1042
La media y la varianza de la distribución de Poisson p(k, ) tienen el valor .
En las variables continuas, no tiene sentido referirse a probabilidades de la forma p(x = k),
de manera que sólo se tratarán probabilidades acumuladas.
Con MATLAB© la función y = normcdf(k, , ) calcula p(x < k) con media y desviación
estándar
>> y=normcdf(20,25,3)
y=
0.0478
56
>> nu=0;
>> ro=1;
>> x=linspace(-2.5,2.5,100);
>> y=(1/(sqrt(2*pi)*ro)*exp(-(x-nu).^2)/2*ro^2);
>> plot(x,y)
Una variable aleatoria continua (VAC) X que tiene su gráfica en forma de campana como
la figura 2.6 se llama variable aleatoria normal (VAN).
2
f(x) depende de dos parámetros: y que son la varianza y la media, respectivamente.
>> nu=-3;sigma=2;
>> y1=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2);
>> nu=0;sigma=2;
>> y2=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2);
>> nu=3;sigma=2;
>> y3=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2);
>> plot(x,y1,x,y2,x,y3)
57
>> nu=0;sigma=1;
>> x=linspace(-2.5,2.5,100);
>> y1=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2);
>> nu=0;sigma=2;
>> y2=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2);
>> nu=0;sigma=4;
>> y3=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2);
>> plot(x,y1,x,y2,x,y3)
Ejemplo 2.27 Para una distribución binomial con n = 5 y p = 0.5 calcular la distribución de
probabilidades para la variable aleatoria X.
58
Solución.
>> x=0:5
x= 0 1 2 3 4 5
>> p=binopdf(0:5,5,0.5)
>> bar(x,p)
Ejemplo 2.28 Para una distribución binomial con n = 10 y p = 0.3 calcular la distribución
de probabilidades para la variable aleatoria X.
Solución.
FIGURA 2.10 Histograma del ejemplo 2.28
>> x=0:10
59
x=
0 1 2 3 4 5 6 7 8 9 10
>> p=binopdf(0:10,10,0.3)
p=
0.0282 0.1211 0.2335 0.2668 0.2001 0.1029 0.0368 0.0090 0.0014 0.0001
0.0000
>> bar(x,p,'r')
>> p=binopdf(4,9,0.5)+binopdf(5,9,0.5)+binopdf(6,9,0.5)
cuadro a cuadro
p=
0.6563
>> p=binocdf(6.5,9,0.5)-binocdf(3.5,9,0.5)
p=
0.6562
>> y=normcdf(6.5,4.5,1.5)-normcdf(3.5,4.5,1.5)
intervalo
y=
0.6563
2
Z = (x - )/
60
Ejemplo 2.30 Hallar el área bajo la curva normal: Z = -1.20 y Z = 2.40
Solución.
la desviaci n es 1
y=
0.8767
Solución.
>> y=normcdf(-1.78,0,1)
y=
0.0375
Solución.
>> y=1-normcdf(1.78,0,1)
y=
0.0375
Solución.
>> y=1-normcdf(172,170,4)
y=
0.3085
61
En términos de porcentaje: 30.85% de los estudiantes miden más de 172 cm.
y=
0.4938
En términos de porcentaje, el 49.38% de los estudiantes miden entre 160 cm y 170 cm.
yc =
0.5702
>> yc=binocdf(10,50,0.2)%c
yc =
0.5836
Solución.
>> y30=normcdf(30,21,3)
y30 =
0.9987
>> y15=normcdf(15,21,3)
y15 =
0.0228
>> p=1-(y30-y15)
p=
0.0241
Expresado en porcentaje: p = 2.41%
62
Ejemplo 2.36 Se analizó una muestra de cinco bebidas gaseosas de un mismo sabor y
una misma marca y se encontró que su contenido de agua era, en mililitros: 20, 19, 22,
18, 22. Obtener el intervalo de confianza al 0.95, para estimar el contenido medio de agua
de todas las gaseosas de este tipo.
Solución.
>> [mediamuestral,destipicamuestral,interconfianza]=normfit(x,0.05)
mediamuestral =
20.2000
destipicamuestral =
1.7889
interconfianza =
17.9788
22.4212
mediamuestral =
20.2000
destipicamuestral =
1.7889
interconfianza =
16.5167
23.8833
x=
-1.9600 1.9600
63
>> x=norminv([0.01 0.99],0,1) %intervalo de confianza al 99 por ciento
x=
-2.3263 2.3263
x=
-1.2816 1.2816
Más adelante se resolverá este mismo ejemplo, utilizando la distribución t-student para
comparar los resultados obtenidos.
Ejemplo 2.37 Hallar la probabilidad para x = 2, con una función de distribución acumulada
2
y 3 grados de libertad, luego hacer el proceso inverso, es decir, calcular x dado p.
Solución.
>> v=3;
64
>> x=2;
libertad
p=
0.4276
x=
2.0000
Esta función de probabilidad es muy importante en la inferencia estadística. Es un
concepto importante en la prueba de hipótesis y en la estimación estadística. Los
problemas con distribuciones de muestreo, análisis de varianza y estadística no
paramétrica exigen un importante uso de 2.
2 2
La media y la varianza de la distribución son: = ,y =2
2
FIGURA 2.12 Distribución con 2, 4, 6 y 8 grados de libertad con azul, verde, rojo, azul
claro, respectivamente
>> plot(x,p2,x,p4,x,p6,x,p8)
65
2.14.3 Distribución t de Student. Se utiliza en las pruebas de hipótesis, cuando se
conoce la desviación estándar poblacional , no importa el tamaño de la muestra ya sea
pequeña o grande. Una muestra es pequeña cuando n es menor o igual que 30 y se
considera grande cuando n es mayor que 30.
FIGURA 2.13 de
libertad
>> x=-5:0.1:5;
>> t1=tpdf(x,1);
>> t2=tpdf(x,2);
>> t3=tpdf(x,5);
66
>> t4=tpdf(x,100);
>> plot(x,t1,x,t2,x,t3,x,t4)
>> x=0:0.01:4;
>> y1=fpdf(0:0.01:4,8,12);
>> y2=fpdf(0:0.01:4,12,24);
>> plot(x,y1,x,y2)
La distribución F se utiliza para el caso de dos muestras para obtener inferencias acerca
de las varianzas de población. A menudo se encuentra la situación en que se requiere la
comparación entre dos varianzas de población; es decir, determinar si la variabilidad de
una población difiere de la otra. La distribución F se utiliza para estos casos. Este tema se
tratará más adelante, cuando se trabaje inferencia estadística.
67
68
3. ANÁLISIS ESTADÍSTICO
Dada una serie de datos, se puede dibujar un histograma y calcular las medidas de
tendencia central: media, mediana, moda, media geométrica, media armónica y las
medidas de dispersión como: rango, varianza, desviación estándar, desviación media,
etc4.
estadística, se refiere pues a algunas medidas calculadas con respecto a una muestra
como la media aritmética muestral o la desviación estándar muestral.
La primera es el proceso necesario para manejar y analizar información (data) con el fin
de apoyar de manera sistemática al investigador, para que identifique las leyes que guían
o regulan los fenómenos o problemas estudiados. Una estadística es una característica o
un resultado numérico a partir de una muestra de elementos. Relacionado con el
concepto de una estadística se encuentra el de parámetro (poblacional), que es el valor
de una característica de una población total o Universo y ya no de una muestra de la
misma5.
Solución.
>> x=[4.5 3.0 3.0 4.0 2.5 5.0 3.5 4.0 3.5 3.5];%data
3
VÉLEZ B. Eduardo. Análisis de la información. ICFES. Módulo 4. pp. 9.
4
ARBOLEDA Q. Dairon y ÁLVAREZ J. Rafael. MATLAB®. Aplicaciones a las Matemáticas Básicas. Universidad de
Medellín. pp. 30.
5
VÉLEZ B. Eduardo. Op.Cit. pp.10.
6
IBID. pp. 11.
69
>> x=sort(x)%ordena el vector ascendentemente
x=
2.5000 3.0000 3.0000 3.5000 3.5000 3.5000 4.0000 4.0000 4.5000 5.0000
>> tabla=tabulate(x)
tabla =
>> tabulate(x)
2.5 1 10.00%
3 2 20.00%
3.5 3 30.00%
4 2 20.00%
4.5 1 10.00%
5 1 10.00%
Ejemplo 3.2 Dada la siguiente serie de datos, calcular las medidas de tendencia central y
de dispersión, además hacer la representación de datos agrupados.
40, 33, 28, 25, 11, 21, 22, 17, 22, 19, 17, 16, 28, 26, 20, 15, 21, 20, 19, 24, 10, 29, 23, 34,
24, 33, 26, 14, 13, 18, 28, 23, 28, 21, 29, 24, 11, 31, 25, 18, 25, 26, 20, 34, 22,30, 27, 32,
35, 39, 18, 29, 16, 37, 28, 29, 10, 34, 29, 38
Solución.
function d=dataset11
d=[40 33 28 25 11 21 22 17 22 19 17 16 28 26 20 15 21 20 19 24 10 29 23
34 24 33 26 14 13 18 28 23 28 21 29 24 11 31 25 18 25 26 20 34 22 30 27
32 35 39 18 29 16 37 28 29 10 34 29 38];
70
>>data=dataset11; y los guarda en data
ans =
40
ans =
10
>> sum(data) %obtiene la suma de todos los elementos del vector data
ans =
1464
data =
Columns 1 through 34
10 10 11 11 13 14 15 16 16 17 17 18 18 18 19 19 20 20 20 21
21 21 22 22 22 23 23 24 24 24 25 25 25 26 26 26
Columns 37 through 60
27 28 28 28 28 28 29 29 29 29 29 30 31 32 33 33 34 34 34 35
37 38 39 40
>> tabulate(data)
10 2 3.33%
11 2 3.33%
12 0 0.00%
13 1 1.67%
14 1 1.67%
15 1 1.67%
16 2 3.33%
17 2 3.33%
18 3 5.00%
19 2 3.33%
20 3 5.00%
71
21 3 5.00%
22 3 5.00%
23 2 3.33%
24 3 5.00%
25 3 5.00%
26 3 5.00%
27 1 1.67%
28 5 8.33%
29 5 8.33%
30 1 1.67%
31 1 1.67%
32 1 1.67%
33 2 3.33%
34 3 5.00%
35 1 1.67%
36 0 0.00%
37 1 1.67%
38 1 1.67%
39 1 1.67%
40 1 1.67%
72
FIGURA 3.2 Histograma de frecuencias de FIGURA 3.3 Diagrama de barras
con seis clases verticales
Código: Código:
>> hist(data,6)%histograma con seis clases >> bar(y,'g') %diagrama de barras verticales
Código: Código:
73
>> barh(y,'r')%diagrama de barras horizontales >> stem(y,'r')%gr fico de racimo
>> data=dataset10;
n=length(data);
b=80:20:240;
nn=hist(data,b);
maxn=max(nn);
cs=cumsum(nn*maxn/n);
bar(b,nn,0.95,'y')
axis([70,250,0,maxn])
>> hold on
>> plot(b,cs,'k-s')
FIGURA 3.6 Histograma de nueve clases, distribución acumulada de los datos dataset10
xmedia =
24.4000
74
xmedian =
24.5000
xgeomed =
23.1568
xarmedia =
21.7846
>> xmoda=mode(data)
moda =
28
xmad =
6.1000
rango =
30
xstd =
7.4815
xcvar =
55.9729
Xvar1=
75
55.0400
riq = 10
Desviación Media Cuasivarianza Varianza Desviación Estándar
Absoluta Muestral
Fuente: http://es.wikipedia.org/wiki/Dispersi%C3%B3n_(matem%C3%A1ticas)
Ejemplo 3.3 Con el mismo vector de datos, calcular: rango intercuartílico, cuartiles 1, 2 y
3, percentiles 10, 25, 50 y 80, coeficiente de asimetría, kurtosis, momento de orden 2
centrado en el origen, e interpretar los resultados.
Solución.
19
76
>> q2=quantile(data,0.50) % mcalcula el cuartil 2
q2 =
24.5000
q3 =
29
El cuartil 1, indica que una cuarta parte de los estudiantes tienen notas por debajo de 19
El cuartil 2, indica que la mitad de los estudiantes tienen notas por debajo de 24.5. Nótese
que el cuartil dos, corresponde a la mediana.
El cuartil 3, muestra que las tres cuartas partes de los estudiantes tienen notas por debajo
de 29.
>> percentiles=prctile(data, [10 20 25 50 75 90]) %calcula los percentiles 10, 20, 25, 50, 75, y 90
percentiles =
p10 = 14.5 El 10% de los estudiantes tienen notas por debajo de 14.5
p20 = 18.0 El 20% de los estudiantes tienen notas por debajo de 18.0
p25 = 19.0 Observe que es el mismo cuartil 1
p50 = 24.5 Observe que es la mediana, el cuartil 2 y el percentil 50
p75 = 29.0 Observe que es el cuartil 3
p80 = 34.0 El percentil 80 indica que el 80% de los estudiantes tienen notas por debajo
de 34.
coefasimetria =
0.0186
77
El coeficiente de sesgo o de asimetría, se interpreta del siguiente modo7:
Para el caso de estudio, los datos son sesgados ligeramente a la derecha, como se ilustra
en la figura 3.8, mostrado a continuación.
>> k=kurtosis(data)
k=
2.3859
FIGURA 3.9 Asimetrías
7
CHAO L. Lincoln. Estadística para las ciencias administrativas. McGraw Hill Latinoamericana. Bogotá, 1993. pp. 64-65
78
Fuente: http://www.tuveras.com/estadistica/estadistica02.htm
Si k = 3 implica que los datos presentan forma de una normal estandarizada (ver polígono
de frecuencias y la curva normal).
Si k > 3 implica que los datos se presentan más empinados que los de la normal
estandarizada.
Si k < 3 entonces los datos se presentan más aplanados que los de la curva normal, como
es el caso de estudio: k = 2.3859.
ans =
55.0400
S2 =
55.0400
8
CHAO L. Lincoln. Op Cit. pp. 65-66
79
menor homogeneidad de los datos, sino a otro parámetro: el coeficiente de variación el
cual se define como el cociente entre la desviación estándar y la media aritmética.
CV =
Ejemplo 3.4 En una exposición de ganado se estudia un conjunto de vacas con una
media de 500 kilos y una desviación estándar de 50 kilos. Y se observa también un
conjunto de ovejas con una media de 40 kilos y una desviación estándar de 10 kilos.
¿Qué grupo de animales es más homogéneo?
Ejemplo 3.5 Quince estudiantes del grupo A de matemática I obtuvieron las siguientes
notas definitivas al final del periodo: 25 34 26 45 23 36 29 32 33 44 31 30 35 40 20 y el
grupo B de 20 estudiantes obtuvo las siguientes notas: 36 45 23 37 39 44 39 20 20 29 39
46 28 30 35 36 28 29 40 38 de la misma asignatura. El docente desea averiguar cuál de
estos dos grupos es más homogéneo (más parejo), teniendo en cuenta las notas
definitivas obtenidas.
Solución
>> stdx=std(x)
stdx =
7.2230
>> stdy=std(y)
stdy =
7.8168
>> xmedia=mean(x)
xmedia =
32.2000
>> ymedia=mean(y)
9
http://recursostic.educacion.es/descartes/web/materiales_didacticos/unidimensional_lbarrios/parametros_est.htm
80
ymedia =
34.0500
>> CV1=std(x)/mean(x)
CV1 =
0.2243
>> CV2=std(y)/mean(y)
CV2 =
0.2296
Se puede observar que: el grupo 1 tiene un promedio más bajo que el grupo 2, pero el
grupo 1 es más homogéneo que el grupo 2.
81
4. TEORÍA DE MUESTREO
Tanto en las ciencias exactas como en las ciencias sociales, la mayoría del conocimiento
existente se debe a experiencias basadas en inferencias a partir de la observación y del
análisis de un número limitado de eventos.10
El primer paso para lograrlo, es tener claridad de que un muestreo es un proceso por
medio del cual se seleccionan probabilísticamente elementos de un universo o población
con la finalidad de estimar, con un determinado grado de precisión, algunas
características de la población en su totalidad12.
Es necesario es entender que la teoría del muestreo permite estimar tamaños adecuados
de muestra, indispensables para obtener una estimación con cierto grado de precisión.
Para lograrlo, es necesario definir qué es un intervalo de confianza, qué es un grado de
de significancia y qué es una distribución muestral.
El intervalo de confianza corresponde a un intervalo de valores, dentro de los cuales se espera que
esté el parámetro con cierto grado de confianza o con riesgo de error conocido; para ello es
necesario determinar primero la estimación puntual.
10
VÉLEZ, Eduardo B. El Análisis de la Información. ICFES, Módulo 4. Serie Aprender a Investigar. Bogotá D.C. 1990. pp.
80.
11
Ibid. pp. 80
12
Ibid. pp. 81
13
Ibid. pp. 81
14
Ibid. pp. 81
82
su media aritmética, recibe el nombre de distribución de muestreo. Esto es importante,
porque la distribución de muestreo de muchos estadísticos se aproxima a la curva normal
y así se puede estudiarlos de manera adecuada15.
x - 1.96
Por ejemplo, si el elemento es una persona, se puede estudiar las características edad,
peso, nacionalidad, sexo, etc. Los elementos que integran una población pueden
corresponder a personas, objetos o grupos (por ejemplo, familias, fábricas, empresas,
etc). Las características de la población se resumen en valores llamados parámetros.
15
VÉLEZ, Eduardo B. Op Cit. pp. 82
16
http://escuela.med.puc.cl/recursos/recepidem/EPIANAL9.HTM
17
http://www.scribd.com/doc/5181091/Estadistica-y-poblacio-y-muestra
83
En cuanto a la muestra, la mayoría de los estudios estadísticos, se realizan no sobre la
población, sino sobre un subconjunto o una parte de ella, llamado muestra, partiendo del
supuesto de que este subconjunto presenta el mismo comportamiento y características
que la población. En general el tamaño de la muestra es mucho menor al tamaño de la
población, porque de esta manera ahorra un gran esfuerzo.
SINTAXIS MATLAB®
normfit19
[muhat,sigmahat] = normfit(data)
[muhat,sigmahat,muci,sigmaci] = normfit(data)
[muhat,sigmahat,muci,sigmaci] = normfit(data,alpha)
[...] = normfit(data,alpha,censoring)
[...] = normfit(data,alpha,censoring,freq)
[...] = normfit(data,alpha,censoring,freq,options
Descripción
18
http://www.scribd.com/doc/15268123/Conceptos-Basicos-de-Estadistica-I
19
1984-2008 The MathWorks, Inc. MATLAB®
84
especificando el ancho del intervalo de confianza. Por defecto, alfa es 0.05, lo cual corresponde
a un intervalo de confianza del 95%.
Ejemplo 4.1 El contenido de siete contenedores similares de un ácido son 9.8, 10.2 10.4,
9.8, 10, 10.2, 9.6 litros. Encuentre el intervalo de confianza del 95% para la media de
todos los contenedores si se supone que la distribución es aproximadamente normal.
Solución.
>>[muhat,sigmahat,muci]=normfit(x,alfa) %
muhat =
10
sigmahat =
0.2828
muci =
9.7384
10.2616
En ingeniería e investigación hay muchas situaciones donde uno tiene aceptar o negar
una hipótesis acerca de un parámetro. Una hipótesis estadística puede considerarse
como una aseveración sobre los parámetros de una o más poblaciones. Una población es
la totalidad de las observaciones de la cual se ocupa el investigador en el problema. Una
muestra es un subconjunto de una población. Desde que se utilizan distribuciones de
probabilidad para representar poblaciones, una hipótesis estadística puede considerarse
como una aseveración sobre la distribución estadística de la población21.
Por ejemplo, supóngase que se tiene un parámetro que ha sido obtenido de n muestras
de una población, y se está interesado en determinar si este parámetro es igual a o. El
procedimiento para la prueba de hipótesis requiere:
Ho : = o Ho : = o Ho : = o
Ha : o Ha : > o Ha : < o
Error tipo II : Aceptar la hipótesis nula Ho cuando es falsa; esto es, cuando realmente =
1.
20
http://www.mitecnologico.com/Main/InferenciaEstadistica
21
86
SINTAXIS MATLAB®
22
ttest
h = ttest(x)
h = ttest(x,m)
h = ttest(x,y)
h = ttest(...,alfa)
h = ttest(...,alfa,tail)
h = ttest(...,alfa,tail,dim)
[h,p] = ttest(...)
[h,p,ci] = ttest(...)
[h,p,ci,stats] = ttest(...)
Descripción
>>h =ttest(x) %
varianza desconocida, frente a la
h = 0, indica un
error al rechazar la h
h=ttest(x,m)
y varianza desconocida, frente a la
alternativa de que la media no sea .
h=ttest(x,y)
es la diferencia x- rmal con media
0 y varianza desconocida, frente a la alternativa de que la media no sea 0. Se debe tener en
h=ttest( ,alfa,tail)
22
1984-2008 The MathWorks, Inc. MATLAB®
87
m). Se realiza por defecto, cuando la cola no se especifica. (prueba
de dos colas).
m) (prueba de cola derecha)
m) (prueba de cola izquierda)
t=
Ejemplo 4.1 Considérese los datos de dataFci. Se quiere determinar si existe alguna
diferencia estadísticamente significativa entre las medias de estas muestras con un 95%
de confianza. Así, la hipótesis es:
Ho: 1 = 2
H1: 2
Solución. Se usa ttest2 para determinar la validez de esta hipótesis. La función ttest2 es:
Para un intervalo de confianza de dos colas; t0 = to está definido en la cuarta columna del
caso 4, y ci(1) = l y ci(2) = u son los límites de confianza inferior y superior,
respectivamente. Así, el script es:
>> [x1,x2]=dataFci;
>> [h,p,ci]=ttest2(x1,x2,0.05)
h=
p=
0.6775
ci =
-0.7819 1.1724
Ejemplo 4.2 El vendedor de cierta marca de automóvil afirma que el kilometraje medio del
modelo XW es de 45.425 Km por galón de gasolina. Un ente gubernamental de Pesas y
Medidas, cree que el vendedor está generando falsas expectativas a los clientes. Nueve
automóviles de este modelo son sometidos a prueba con un galón de gasolina y dan el
siguiente resultado de kilómetros recorridos:
Solución.
Ho = 45.425 Km/galón
89
Ha 45.425 Km/galón
Entrada:
both 0
right > 0
left < 0
Salida:
>> x= [45.425 41.640 37.854 39.747 43.532 41.640 47.318 37.854 39.747];
h=
sig =
0.0085
ci =
37.9730 45.3064
h = 1, significa que debe rechazarse la hipótesis nula, es decir, que lo que afirma el
vendedor no es creíble bajo una certeza del 99%
Como la media poblacional es 45.425 km, no cae dentro del intervalo de confianza 0.99
= 99% = (1- ), es así que se rechaza la hipótesis nula.
90
Ejemplo 4.3 Probar la hipótesis de que la distancia media requerida para poder frenar un
automóvil que va a 20 Km/h es de 25 metros. Con base en una muestra de 100
conductores se obtiene que la distancia media es 27.3 metros, con una desviación
estándar de s = 2.1 metros. Utilizar un nivel de significación de 5%.
Solución.
Entrada:
function d=dataset12
d=[30 30 28 26 26 24 22 30 31 29 29 26 28 26 30 25 31 30 29 26 30 29 23 34 24 30 26 24 23 28
28 23 28 31 27 24 31 28 25 28 25 26 30 24 27 30 27 32 35 29 28 29 26 27 28 29 30 24 29 28 25
24 26 30 29 28 24 28 30 23 26 27 25 24 27 29 30 24 25 28 28 28 30 26 27 25 24 25 31 26 24 30
27 28 25 26 24 27 26 28];
>> data=dataset12;
>> sigma=2.1;
>> alfa=0.05;
>> m=25;
Salida:
>> h = ztest(data,m,sigma,alfa,'both')
h=
Como h = 1, se rechaza la hipótesis nula, es decir, que la distancia media requerida para
frenar es diferente de 25 metros, a un nivel de significancia del 5%.
SINTAXIS MATLAB
23
ztest
23
The MathWorks, Inc. MATLAB® 1984-2008.
91
h = ztest(x,m,sigma)
h = ztest(...,alpha)
h = ztest(...,alpha,tail)
h = ztest(...,alpha,tail,dim)
[h,p] = ztest(...)
[h,p,ci] = ztest(...)
[h,p,ci,zval] = ztest(...)
Descripción
h = ztest(x,m,sigma)
Ejecuta una prueba de hipótesis z (normal), donde la data proviene de una distribución con
media m, y que devuelve el resultado de la prueba en términos de h. Cuando h = 0 indica que la
m
5%. Los datos se supone que provienen de una distribución normal con desviación estándar
sigma.
h=ztest(...,alpha) %Ejecuta una prueba de nivel de significancia del (100*alfa)%. Por defecto,
cuando no se especifica alfa da por sentado que alfa es 5% o 0.05.
La cola debe ser una cadena simple, incluso cuando x es una matriz o un arreglo n-dimensional.
92
[h,p,ci]=ztest(...) % devuelve un intervalo de confianza 100*(1 alfa)% de la media poblacional
Ejemplo 4.3 De una población con distribución normal, constituida por 500 fichas que se
encuentran en un archivador, se extrajo una muestra de 16 observaciones como sigue: 56
45 46 37 56 41 43 36 45 56 49 62 43 60 49 72 56. Se sabe que la
desviación estándar poblacional =10, pero es desconocida la media poblacional ( = 50
verdadera). Cometiendo un riesgo = 0.05 (nivel de significancia 5%), probar la hipótesis
de que la media poblacional sea igual a: (a) 40, (b) 49, (c) 50, (d) 51 y (e) 60.
Solución.
(a) Ho : = 40
Ha : 40
= 0.05
= 10
>> x=[56 45 46 37 56 41 43 36 45 56 49 62 43 60 49 72 56];
>> m=40;
>> sigma=10;
>> alfa=0.05;
>> h = ztest(x,m,sigma,alfa,'both') %
h=
1
Como h = 1 se rechaza la hipótesis nula, es decir, que no es cierto que = 40.
(b) Ho : = 49
H1 : 49
= 0.05
= 10
>> m=49;
>> sigma=10;
>> alfa=0.05;
>> h = ztest(x,m,sigma,alfa,'both')
h=
93
Como se sabe h = 0 significa que se acepta que = 49 y verdadera es 50, se está
aceptando algo falso que es un error tipo II.
(c) Ho : = 49
H1 : 49
>> m=50;
>> h = ztest(x,m,sigma,alfa,'both')
h=
(d) Ho : = 51
H1 : 51
>> m=51;
>> h = ztest(x,m,sigma,alfa,'both')
h=
Se acepta la hipótesis nula, por lo tanto se está cometiendo un error de tipo II porque se
sabe que la media poblacional verdadera es 50.
(e) Ho : = 60
H1 : 60
>> m=60;
>> h = ztest(x,m,sigma,alfa,'both')
h=
Como h = 1, se rechaza la hipótesis nula y por tanto no se comete ningún error, ya que se
rechaza algo falso.
Ejemplo 4.4 Encuentre el intervalo de confianza para la media muestral al 95% de nivel
de confianza, según los datos dados en dataset10.
94
Solución. Si se tiene el nivel de confianza del 95%, entonces el programa para
determinar el intervalo de confianza de la media es:
function d=dataset10
d=[105 160 157 190 199 121 160 172 156 110 97 196 151 76 115 120 150 171 229 133 245 221
175 101 193 181 181 237 158 123 163 154 201 142 167 160 168 170 148 146 207 228 183 149
171 194 158 180 150 169 134 131 153 200 163 184 208 167 118 158 218 180 174 186 87 165
133 176 143 135 199 178 154 174 176 145 135 158 141 149];
clc
disp([' '])
meen=mean(dataset10);
L=length(dataset10);
q=std(dataset10)*tinv(0.975,L-1)/sqrt(L);
disp([' '])
disp([' Media muestral = ' num2str(meen)])
disp([' '])
disp(' Intervalo de confianza para la media muestral al 95% de nivel de confianza: ')
disp([' '])
disp([' ' num2str(meen-q) ' <= Media muestral <= ' num2str(meen+q)])
disp([' '])
Ho: = 168
H1: 168
[h,p,ci]=ttest(data,mucero,alfa)
95
p = 2*(1-tcdf(t0,n-1));
>> [h,p,ci]=ttest(dataset10,168,0.05)
h=
p=
0.1614
ci =
155.1466 170.1784
Así, en el presente caso, tras la ejecución, se encuentra que h = 0; es decir, no se puede
rechazar la hipótesis nula, p = 0.1614, ci(1) = 155.1466, y ci(2)=170.1784. Se observa que
= 162.6625 dado atrás y que el intervalo de confianza para el valor de 168 en el 95% de
nivel de confianza es . Siendo que el valor hipotético de 168
para la media está dentro de este intervalo de confianza, se debe esperar que la
hipótesis nula no sea rechazada. De hecho, basado en su p-valor, se ve que se está a
sólo 100(1-0.1614) = 83,9% de confianza, que es menos que el nivel de confianza del
95% deseado.
Ahora, si se ejecuta:
>> [h,p,ci]=ttest(dataset10,175,0.05)
h=
p=
0.0016
ci =
155.1466 170.1784
Se obtiene h = 1; esto es, se puede rechazar la hipótesis nula y aceptar H1; p = 0.0016,
ci(1) = 155.1466, y ci(2) = 170.1784. En otras palabras, se puede tener 100(1-0.0016) =
99.84% de confianza que la media de los datos en dataset10 son diferentes del valor de la
media de 175.
function [set1,set2]=dataFci
96
set1=[41.60 41.28 42.34 41.95 41.86 42.18 41.72 42.26 41.81 42.04];
set2=[39.72 42.59 41.88 42.00 40.22 41.07 41.90 44.29];
clc
disp([' '])
[data1,data2]=dataFci;
r=var(data1)/var(data2);
L1=length(data1);
L2=length(data2);
q2=r*finv(.975,L2-1,L1-1);
q1=r/finv(.975,L1-1,L2-1);
disp([' '])
disp(['Razon de varianzas muestrales = ' num2str(r)])
disp([' '])
disp('Intervalo de confianza para la razon de varianzas muestrales al 95% de nivel de confianza:
')
disp([' '])
disp(['' num2str(q1) ' <= Razon de la varianza muestral <= ' num2str(q2)])
disp([' '])
Ejemplo 4.6 Considere los datos de dataFci. Se quiere saber si existe alguna diferencia
estadísticamente significativa entre las variaciones de estas muestras con un 95% de
confianza. Así, la hipótesis es:
Ho : =
H1 :
La prueba estadística es:
fo =
97
y el criterio de rechazo de la hipótesis nula es bien
Solución. Se usa vartest2 para determinar la validez de esta hipótesis; esto es,
[h,p,ci] = vartest2(x1,x2,alfa)
Donde x1 y x2 son los datos, alfa = , h = 0 si Ho, y h = 1 si H1, p = valor de p, esto es:
p=2*(1-fcdf(f0,n1,n2))
para un intervalo de confianza de dos colas; f0 = f 0, y ci(1) = l y ci(2) = u son los límites de
confianza superior e inferior, respectivamente. El script es:
>> [x1,x2]=dataFci;
>> [h,p,ci]=vartest2(x1,x2,0.05)
h=
1
p=
6.5379e-005
ci =
0.0083 0.1674
98
5. AJUSTES DE CURVAS Y REGRESIÓN
5.1 INTRODUCCIÓN
99
Es necesario también hacer distinción entre regresión lineal y regresión curvilínea (no
lineal). En el caso de la regresión lineal, la relación se representa mediante una línea
recta y en el caso de regresión curvilínea obviamente mediante una curva.
A simple vista se puede observar que en la figura 5.1 no existe relación alguna entre las
dos variables.
100
En la figura 5.3, la recta tiene una pendiente negativa y proporciona un buen ajuste.
En la figura 5.4, los puntos de los datos sugieren una relación curvilínea
El modelo más elemental de regresión es aquel donde los puntos tienden a formar una
línea recta en el diagrama de dispersión. En este caso, la ecuación de regresión lineal
simple está dada por:
y= x+
Se entran primero los vectores x e y que deben ser de la misma dimensión y luego desde
el área de trabajo se llama de la siguiente manera:
>> [a b]=linefit(x,y)
Error =
147.9000
a=
2.1000
b=
-0.1000
>> z=a+b.*x;
>> plot(x,y,'*',x,z),grid
>> z=a.*x+b;
>> plot(x,y,'*',x,z),grid
102
>> polyfit(x,y,1)
ans =
2.1000 -0.1000
ans =
0.0357 4.1429
Error =
673.2232
a=
0.0357
b=
4.1429
>> z1=a.*x+b;
ans =
z2 =
La función p=poly(r) da los coeficientes del polinomio p cuyas raíces son el vector r.
La función polyfit(x,y,n) da los coeficientes del polinomio de grado n que se ajusta a los
puntos (x,y)
Ejemplo 5.1 Considere los datos dados de la tabla 5.1. Estos datos son colocados en un
archivo M de función llamado DataRegress1. Nótese sin embargo, que estos datos no
están ordenados. Siendo que esto es un inconveniente cuando llega el momento de
graficarlos con una línea recta conectada, se ordenan pues los datos en forma
ascendente. Ninguno, ni polyfit ni polyconf requieren del ordenamiento.
x : 2.38 2.44 2.70 2.98 3.32 3.12 2.14 2.86 3.50 3.20 2.78 2.70 2.36 2.42 2.62 2.80 2.92 3.04
3.26 2.30
y : 51.11 50.63 51.82 52.97 54.47 53.33 49.90 51.99 55.81 52.93 52.87 52.36 51.38 50.87 51.02
51.29 52.73 52.81 53.59 49.77
function [x,y]=DataRegress1
xx=[2.38 2.44 2.70 2.98 3.32 3.12 2.14 2.86 3.50 3.20 2.78 2.70 2.36 2.42 2.62 2.80 2.92 3.04
3.26 2.30];
yy=[51.11 50.63 51.82 52.97 54.47 53.33 49.90 51.99 55.81 52.93 52.87 52.36 51.38 50.87
104
51.02 51.29 52.73 52.81 53.59 49.77];
[x,index]=sort(xx); %los datos se ordenan pero deben preservarse las parejas
y=yy(index); %lo anterior se logra de esta manera
>> [x,y]=DataRegress1;
>> [c,s]=polyfit(x,y,1);
>> [yhat,w]=polyconf(c,x,s,0.005);
>> syy=sum(y.^2)-length(x)*mean(y)^2;
>> sse=syy-c(1)*(sum(x.*y)-length(x)*mean(x)*mean(y));
>> plot(x,yhat,'k-',x,yhat-w,'k--',x,yhat+w,'k--',x,y,'ks',[x;x],[yhat;y],'k-')
>> axis([2,3.6,48,57])
>> xlabel('x(Entrada)')
>> ylabel('y(Respuesta'))
>> coefdet=(1-sse/syy)
coefdet =
0.8774
FIGURA 5.7 Regresión lineal para la data del ejemplo 5.7 y límite de confianza de y
105
FIGURA 5.8 Gráfico de la distribución acumulativa normal de las desviaciones de la línea
que aparece adecuada en la figura anterior.
Ahora, se continúa adelante para investigar las desviaciones. Primero se calculan las
desviaciones y luego se grafica utilizando normplot para determinar si están normalmente
distribuidas. El script es:
>> [x,y]=DataRegress1;
>> normplot(y-polyval(polyfit(x,y,1),x))
106
Siendo que las desviaciones están muy cerca de la línea que representa la distribución
normal, se puede decir que las desviaciones están muy cercanamente distribuidas de
forma normal, por lo tanto, el modelo es adecuado.
Ejemplo 5.2 Una muestra de 10 estudiantes que ingresaron a la universidad con los
siguientes puntajes: 39, 43, 21, 64, 57, 47, 28, 75, 34, 52 sobre 100 obtuvieron las
siguientes notas en matemática I: 65, 78, 52, 82, 92, 89, 73, 98, 56, 75, respectivamente.
Solución.
function [x,y]=DataRegress2
xx=[39 43 21 64 57 47 28 75 34 52];
yy=[65 78 52 82 92 89 73 98 56 75];
[x,index]=sort(xx); %los datos se ordenan pero deben preservarse las parejas
y=yy(index); %lo anterior se logra de esta manera
>> [x,y]=DataRegress2;
>> [c,s]=polyfit(x,y,1);
>> [yhat,w]=polyconf(c,x,s,0.005);
>> syy=sum(y.^2)-length(x)*mean(y)^2;
>> sse=syy-c(1)*(sum(x.*y)-length(x)*mean(x)*mean(y));
>> plot(x,yhat,'k-',x,yhat-w,'k--',x,yhat+w,'k--',x,y,'ks',[x;x],[yhat;y],'k-')
>> axis([15,80,10,140])
>> coefdet=(1-
coefdet =
0.7052
El coeficiente de determinación, muestra una buena relación lineal positiva entre las
variables, porque está próximo a 1. Para el caso en cuestión, muestra que el puntaje
obtenido por los estudiantes al ingresar a la universidad, se ha visto reflejado en las notas
de matemática I.
>> normplot(y-polyval(polyfit(x,y,1),x))
108
Los datos se adaptan bien con los puntos de la normal.
(Curso II)
7. SERIES DE TIEMPO
8. ANÁLISIS DE VARIANZA
9. PRUEBAS NO PARAMÉTRICAS
109
APÉNDICE 1
>> theta1=linspace(-2.0*pi,2.0*pi,35);
>> theta2=linspace(-2.0*pi,2.0*pi,35);
>> [T1,T2]=meshgrid(theta1,theta2);
>> F=T2.^2/2-cos(T1);
>> meshc(T1,T2,F)
>> axis([-2.0*pi,2.0*pi,-2.0*pi,2.0*pi,-5,20])
>> xlabel('\theta_1')
>> ylabel('F(\theta_1,\theta_2)')
110
APÉNDICE 2
>> t=linspace(0,2*pi);
>>fill(t,sin(t),'m')
>>hold on
>>fill(t,0.5*sin(2*t),'y')
>>axis off
111
APÉNDICE 3
>> x=linspace(0,6,100);
>> hc=plot(x,cos(x),'k-');
>> hold on
>> hch=plot(x,1./cosh(x),'k--');
>> hcl=plot([4.73,4.73],[-1,1],'k');
>> [a,b]=legend('cos(x)','1/cosh(x)','location','SouthWest');
>> xlabel('\it\bfx','FontSize',14,'FontName','Times')
112
113
APÉNDICE 4
Suponga que el siguiente polinomio representa la altura en metros durante las primeras
48 horas después del lanzamiento de un globo metereológico:
donde las unidades de t son horas. Genere curvas para la altura, velocidad y aceleración
de este globo usando unidades de metros, m/s y m/s 2. Además, determine y exhiba la
altura máxima y su hora correspondiente.
Descripción de entradas/salidas
114
Ejemplo a mano
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%
115
GLOSARIO
ANÁLISIS DE CORRELACIÓN. Es el conjunto de técnicas estadísticas empleado para
medir la intensidad de la asociación entre dos o más variables. El principal objetivo del
análisis de correlación consiste en determinar qué tan intensa es la relación entre dos o
más variables. Normalmente, el primer paso es mostrar los datos en un diagrama de
dispersión.
El valor del coeficiente de correlación puede tomar valores desde -1 hasta 1, indicando
que mientras más cercano a 1 sea el valor del coeficiente de correlación, en cualquier
dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más
cercano a 0 sea el coeficiente de correlación indicará más débil esta asociación entre
ambas variables. Si es igual a 0 se concluirá que no existe relación lineal alguna entre
ambas variables.
24
116
ECUACIÓN DE REGRESIÓN. Es una ecuación que define la relación lineal entre dos
= a + b1x1 + b2x2
x1 y x2 Variables independientes
ESTADÍSTICA. La Estadística es la parte de las Matemáticas que se encarga del estudio de una
determinada característica en una población, recogiendo los datos, organizándolos en tablas,
25
representándolos gráficamente y analizándolos para sacar conclusiones de dicha población .
ESTADÍSTICO. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una
estimación de los parámetros.
ESTIMADOR. Un estimador puntual utiliza un número único o valor para localizar una estimación
del parámetro. Un intervalo de confianza denota un rango dentro del cual puede encontrarse el
parámetro, y el nivel de confianza que el intervalo contiene del parámetro.
Insesgado, es decir, que no tenga sesgo o error, cuando el valor del estimador es igual al
del parámetro.
Consistente, o sea, que al aumentar el tamaño de la muestra, converge en probabilidad al
parámetro que se estima.
25
http://www.scribd.com/doc/15268123/Conceptos-Basicos-de-Estadistica-I
26
http://recursostic.educacion.es/descartes/web/materiales_didacticos/unidimensional_lbarrios/parametros_est.htm
117
Eficiente, es decir, que el estimador tiene la menor varianza entre todos los estimadores
posibles.
Suficiente, o sea, cuando incluye toda la información que la muestra puede proporcionar
27
acerca del parámetro .
ESTIMADOR EFICIENTE. Dado un estimador insesgado, el estimador más eficiente es aquel que
tenga la varianza más pequeña.
GRÁFICO DE BARRAS. Son barras horizontales que representan el grado en que ciertas
características pueden existir a partir de la observación de casos o elementos.
GRÁFICOS CÍRCULARES O DE PASTEL (PIE). Son gráficas circulares divididas en sectores, que
representan fracciones del círculo total y que están asociadas con una característica específica.
MEDIANA. Es la observación de la mitad después de que se han colocado la data en una serie
ordenada. Se usa en variables medidas en escala ordinal, intervalo o de razón. Si la data está
agrupada, la mediana se define como el valor dentro del intervalo que divide la distribución en dos
partes iguales.
27
MARTÍNEZ B. Ciro. Op.Cit. pp. 315
118
MEDIA ARITMÉTICA. Se le llama también promedio. Es una medida de tendencia central que
consiste en la suma de las mediciones divididas por el total del número de mediciones. Se utiliza
en variables medidas en escalas de intervalo o de razón.
MODA. La moda de una distribución se define como el valor más frecuentemente encontrado, o la
mayor frecuencia. Se usa con mediciones en escala nominal, ordinal, de intervalo o de razón. Si se
trabaja con datos agrupados la moda se refiere al valor medio del intervalo que contiene la mayor
frecuencia.
M.A.S. Es un muestreo aleatorio simple, donde todos los individuos tienen la misma probabilidad
de ser seleccionados. La selección de la muestre puede realizarse a través de cualquier
mecanismo probabilístico en el que todos los elementos tengan las mismas opciones de salir.
28
WEBSTER, Allen L. Estadística Aplicada a los Negocios y la Economía. McGraw-Hill. Bogotá D.C. 2000. pp. 44.
29
WEBSTER, Allen L. Op. Cit. pp. 47.
119
PARÁMETROS DE CENTRALIZACIÓN. Son datos que representan de forma global a toda la
población. Entre ellos se estudian: la media aritmética, la moda y la mediana.
PERCENTILES. Es una medida de dispersión utilizada para calcular el valor que tiene P % de las
mediciones por debajo del percentil P y (100-P %) por encima.
POBLACIÓN. Es el conjunto de todos los elementos que son objeto del estudio estadístico.
Algunos autores también le llaman Universo.
PRUEBA DE HIPÓTESIS. Se denomina también prueba de significación que tiene por objeto
principal evaluar suposiciones o afirmaciones acerca de los valores estadísticos de la población,
denominados parámetros.
RANGO. Medida de dispersión que identifica la distancia entre el valor máximo y el menor valor de
la distribución. O también se define como la diferencia entre el límite superior e inferior.
2
TEOREMA DEL LÍMITE CENTRAL. Si de una población de tamaño N con media y varianza
se obtienen muestras al azar, la distribución de las medias de las muestras seleccionadas será
normal. Y más lo será en la medida en que se incremente el número de muestras seleccionadas y
2 31
tendrá una media de y varianza /N .
VARIABLE CUALITATIVA. Es aquella característica que no se puede expresar con números y hay
que expresarla con palabras. Por ejemplo, el lugar de residencia.
30
http://recursostic.educacion.es/descartes/web/materiales_didacticos/unidimensional_lbarrios/parametros_est.htm
31
VÉLEZ, Eduardo B. El Análisis de la Información. ICFES, Módulo 4. Serie Aprender a Investigar. Bogotá D.C. 1990.
32
http://recursostic.educacion.es/descartes/web/materiales_didacticos/unidimensional_lbarrios/parametros_est.htm
120
VARIABLE CUANTITATIVA. Es cualquier característica que se puede expresar con números. Por
ejemplo, el número de hermanos o la estatura. Dentro de esta variable se pueden distinguir dos
tipos:
VARIABLE CUANTITATIVA CONTINUA. Es aquella variable que puede tomar cualquier valor
dentro de un intervalo real. Por ejemplo, la estatura.
VARIABLE INDEPENDIENTE. Es la variable que proporciona las bases del cálculo, cuya
representación puede ser: x1, x2
121
BIBLIOGRAFÍA
BLAIR, Clifford R. and TAYLOR, Richard A. Bioestadística. Pearson Prentice Hall. México D.F.
2008.
BROCKWELL, Peter J. and DAVIS, Richard A. Time Series: Theory and Methods. Springer Series
in Statistics. Springer. New York, 2006.
CHAO L. Lincoln. Estadística para las Ciencias Administrativas. Mc Graw-Hill. Bogotá D.C. 1998.
HANSELMAN, Duane and LITTLEFIELD, Bruce. Mastering MATLAB 7. Pearson Prentice-Hall. New
Jersey, 2005.
MILLER, Irwin y FREUND, John E. Probabilidad y Estadística para Ingenieros. Prentice Hall.
México D.F. 1990
PÉREZ, César. MATLAB® y sus aplicaciones en las Ciencias y la Ingeniería. Prentice Hall. Madrid,
2002.
PÉREZ, César. Econometría de las Series Temporales. Pearson. Prentice Hall. Madrid, 2006.
MARTÍNEZ BENCARDINO, Ciro. Estadística y Muestreo. ECOE Ediciones. Bogotá D.C. 2003.
122
SMITH, David M. Engineering Computation with MATLAB®. Addsison Wesley. Boston, 2010.
STANLEY, WillIam D. Technical Analysis and Applications with MATLAB®. THOMPSON Delmar
Learning. Canada, 2005.
WALPOLE, Ronald y otros. Probabilidad y Estadística para Ingenieros. Prentice Hall. Pearson
Educación. Addison Wesley. México D.F. 1998.
WEBSTER, Allen L. Estadística Aplicada a los Negocios y la Economía. McGraw-Hill. Bogotá D.C.
2000.
123
FUENTES DE INFORMACIÓN ELECTRÓNICA
124