Está en la página 1de 6

Dr.

Alexander Hilario Tacuri Procesos Estocásticos

Práctica 1
(Fecha de entrega: 25 de abril)

1. Objetivos
• Aprender a representar una variable cuantitativa en forma de histograma.
• Determinar e interpretar la media, la mediana, el rango, la varianza, la desviación típica y las medidas de
posición.
• Aprender a visualizar una variable cuantitativa en forma de diagrama de caja.

2. Introducción
2.1. Estadística descriptiva
La estadística descriptiva es una rama de la estadística que se centra en la recopilación, organización, pre-
sentación y resumen de datos de manera numérica o gráfica. Su objetivo principal es describir y resumir las
características principales de un conjunto de datos, proporcionando una comprensión más clara de la informa-
ción que contienen. Algunos de los principales temas que deben ser tratados en la estadística descriptiva son
los siguientes:

• Medidas de tendencia central: Incluye el cálculo de la media, la mediana y la moda, que son medidas
utilizadas para determinar el valor central o típico de un conjunto de datos.
• Medidas de dispersión: Se refiere a la variabilidad o dispersión de los datos. Incluye el cálculo de la
desviación estándar, el rango y el rango intercuartílico. Estas medidas proporcionan información sobre
qué tan dispersos o agrupados están los datos.
• Distribuciones de frecuencia: Consiste en organizar los datos en categorías o intervalos y contar la fre-
cuencia con la que ocurren los valores en cada categoría. Esto permite visualizar la distribución de los
datos y detectar patrones o características importantes.
• Gráficos y diagramas: La representación gráfica de los datos es una parte fundamental de la estadística
descriptiva. Algunos de los gráficos comunes incluyen histogramas, diagramas de barras, diagramas de
dispersión y diagramas de caja y bigotes. Estas representaciones visuales facilitan la comprensión y la
interpretación de los datos.
• Medidas de posición relativa: Incluye el cálculo de percentiles y cuartiles, que proporcionan información
sobre la posición relativa de un valor dentro de un conjunto de datos. Estas medidas son útiles para
comparar un valor con el resto de los datos.
• Correlación: Se refiere a la relación o asociación entre dos variables. La estadística descriptiva puede
calcular el coeficiente de correlación para determinar la fuerza y la dirección de la relación entre dos
conjuntos de datos.
• Análisis de frecuencias: Es el estudio de la distribución de frecuencias de una variable o conjunto de
variables. Esto implica el análisis de la frecuencia de ocurrencia de diferentes valores o categorías y puede
incluir el cálculo de probabilidades.

2.2. Introducción al Matlab


Matlab es una herramienta muy poderosa que es bastante utilizada en muchas ramas de la ingeniería, tanto
para el desarrollo de nuevos productos como para la realización de proyectos de investigación. A seguir algunas

3
Dr. Alexander Hilario Tacuri Procesos Estocásticos

funciones básicas serán presentadas. Asegurese de entender perfectamente el funcionamiento de cada una de
ellas.

a) Para visualizar la documentación de las funciones que vienen incorporadas en Matlab basta con escribir
doc en la ventana de comandos. Esta herramienta es muy importante pues le permitirá conocer a detalle
el uso correcto de todas las funciones de Matlab. Escriba lo siguiente en la ventana de comandos:
help
doc p l o t
doc c o l o n %<−−− Notacion muy i m p o r t a n t e
doc ops
doc z e r o s
doc o n e s
doc randn
lookfor f i l t e r %<−−− Busqueda por p a l a b r a s c l a v e

b) Ejecute demos de Matlab: Escriba demo y explore la variedad de funciones básicos de Matlab, así como
funciones de trazado de figuras.

c) Matlab también puede ser usado como calculadora, escriba lo siguiente en la ventana de comandos:
p i ∗ p i − 10
s i n ( pi /4)
ans ^2 % <−−− ans mantiene e l u l t i m o r e s u l t a d o

d) Para hacer asignación de nombres de variables, escriba lo siguiente en la ventana de comandos:


x = sin ( pi /5);
cos ( pi /5) %<−−− A q u i e n e s a s i g n a d o ?
y = s q r t ( 1 − x∗x )
ans

e) Las operaciones básicas de números complejos y naturales son soportados por Matlab, pruebe lo siguiente:
z = 3 + 4 i , w = −3 + 4 j
r e a l ( z ) , imag ( z )
abs ( [ z ,w ] ) %<−− Construye un v e c t o r
c o n j ( z+w)
angle ( z )
exp ( j ∗ p i )
exp ( j ∗ [ p i / 4 , 0 , −p i /4 ] )

3. Desarrollo de la práctica
3.1. Histogramas
Un histograma es como un diagrama de barras para variables cuantitativas. En el eje x se indican las clases, que
son agrupaciones de datos mutuamente excluyentes (no se solapan) y colectivamente exhaustivas (se utilizan
todos los valores). Las frecuencias de las clases se describen en el eje y. En este sentido, las barras más altas
indican las clases con mayores frecuencias. Es importante destacar que los histogramas se diferencian de los
gráficos de barras en que no hay separación entre clases cuando la variable es continua, como suele ser el caso.

a) Asegurese de entender cada una de las lineas de código presentadas en toda la práctica.

4
Dr. Alexander Hilario Tacuri Procesos Estocásticos

b) Crear un conjunto de valores a partir de la distribución normal estándar, usando las siguientes lineas de
código
1 rng(1)
2 x1 = randn(30,1);

c) Las medidas estadísticas que definen una distribución normal son la media (µ) y la desviación estándar
(σ), para definir y usar estos valores escriba lo siguiente
1 mu = 100;
2 sigma = 4;
3
4 x2 = sigma.∗x1 + mu;

d) Para mostrar el histograma de los valores generados, use lo siguiente y compile el código
1 reset = 1;
2
3 figure(1000)
4 if reset
5 clf(’reset’)
6 end
7
8 hold on
9 str = sprintf(’Mu = %d,SD = %d’,mu,sd);
10 histogram(x2,’FaceAlpha’,0.3,’DisplayName’,str) % Dibuja el histograma
11 legend(’−DynamicLegend’,’Location’,’southoutside’) % Muestra una leyenda
12 xlabel(’X’),
13 ylabel(’Frequency’)
14 title(’Histogram’)
15 hold off

e) Realice las siguientes modificaciones

• Coloque a la variable reset el valor de 0.


• Colocar los valores de mu en 30 y sigma en 6. Compile su código y muestre los resultados obtenidos.
• Colocar los valores de mu en 20 y sigma en 1. Compile su código y muestre los resultados obtenidos.
• Coloque reset en 1, mu en 50 y sigma en 3. Compile su código y muestre los resultados obtenidos.

f) Responda las siguientes preguntas: ¿Dónde aparece el valor medio en el histograma?, ¿Qué representa el
valor de la desviación estándar en el histograma?

3.2. Medidas de centro


Para describir la distribución o conjunto de valores de una variable cuantitativa, a menudo nos interesan las
medidas de centro. Entre ellas se incluyen la media aritmética, la mediana y la moda (normalmente utilizadas
para describir variables cualitativas). La media es la suma de los valores dividida por el número de valores y
está sujeta a la influencia de los valores extremos o valores atípicos.
N
1 !
µ= xi
N
i=1

Aquí, mu representa la media para una población de tamaño N .

La mediana, a veces denotada como x tilde, x̃ , se considera robusta en el sentido de que no está influenciada
por valores atípicos y es el centro de la distribución. Con la mitad de las observaciones por debajo de la mediana
y la mitad de las observaciones por encima de la mediana, también se denomina percentil 50.

5
Dr. Alexander Hilario Tacuri Procesos Estocásticos

a) Utilice el siguiente código que permite generar números aleatorios con una determinada distribución,
calcula la media, la mediana y muestra el resultado de forma gráfica.
1 distribution = random(’chisquare’,2,1000,1);
2
3 distMean = mean(distribution);
4 distMed = median(distribution);
5
6 figure(1001)
7 histogram(distribution)
8 mean1str = num2str(round(distMean,2));
9 med1str = num2str(round(distMed,2));
10 xline(distMean,"−","mean = "+ mean1str,LineWidth=1.5,LabelVerticalAlignment="middle",SeriesIndex="none");
11 xline(distMed,"−","median = "+ med1str,LineWidth=1.5,SeriesIndex=2);
12 drawnow
13 xlabel(’X’),
14 ylabel(’Frequency’),
15 title(’Histogram, n = 1000’)

Modifique la distribución usada en el ejemplo (i.e. modifique chisquare) por 4 diferentes distribuciones
y analice los resultados obtenidos.

b) Responda las siguientes preguntas: Para una distribución chisquare, ¿cuál de las dos medidas parece
proporcionar una mejor representación del centro? ¿Por qué? ¿Se le ocurren otras formas de medir la
tendencia central de los datos?

3.3. Medidas de dispersión


Otro método para describir una distribución es su variación. La diferencia entre un valor determinado y otro
se denomina desviación. Estas desviaciones, o diferencias, se utilizan para describir la dispersión. La medida
más básica de la dispersión es el rango, que es el valor máximo menos el valor mínimo. Se trata simplemente
de la anchura de la distribución a lo largo de la recta numérica.

Un inconveniente del rango es que no tiene en cuenta todos los valores de la distribución, sólo el mayor
y el menor. Otra descripción de la dispersión es la varianza, que no tiene esta limitación. La varianza es la
desviación media al cuadrado desde la media. Con respecto a la población, la varianza se calcula usando
N
1 !
2
σ = (xi − µ)2
N
i=1

Aquí el cuadrado permite que tanto las desviaciones positivas como las negativas tengan la misma influencia en
la varianza. Dado que todos los números reales elevados al cuadrado son no negativos, la magnitud o tamaño
de la desviación al cuadrado es similar al valor absoluto. Las unidades de la varianza se elevan al cuadrado,
por lo que, por ejemplo, si x se midiera en segundos, la varianza sería en segundos al cuadrado. Por lo tanto,
es natural hallar la raíz cuadrada de la varianza. Esto se conoce como desviación estándar, sigma, y puede
describirse mediante la desviación media respecto a la media.
"
# N
#1 !
σ=$ (xi − µ)2
N
i=1

a) Crear una matriz que contiene dos columnas con 30 valores de una distribución normal, que tiene una
media de 0 y una desviación estándar de 1.
1 variable1 = 1∗randn(30,1);
2 variable2 = 1∗randn(30,1);
3 y = [variable1,variable2]

6
Dr. Alexander Hilario Tacuri Procesos Estocásticos

b) Las funciones std y var se utilizan para calcular la desviación típica y la varianza, respectivamente, de
cada columna de y.
1 samSD = std(y,0);
2 popSD = std(y,1);
3 samVar = var(y,0);
4 popVar = var(y,1);
5
6 % Contruir una tabla mostrando las medidas de dispersion de la variable y
7 rows = ["variable 1","variable 2"];
8 cols = ["sample sd","pop sd","sample var","pop var"];
9 T = table(samSD’,popSD’,samVar’,popVar’,’RowNames’,rows,’VariableNames’,cols)

Explique el funcionamiento del segundo parámetro de la función std y var, ademas modifique el 1 (i.e.
la escala) de la variable1 y variable2, comente sus resultados.

c) Responda las siguientes preguntas: ¿Cómo afecta la diferente escala a las medidas de desviación típica y
varianza de las variables?, ¿Observa una relación coherente entre los estadísticos muestrales y poblacionales
correspondientes de cada variable?

3.4. Medidas de posición


En general, las medidas de posición son cuantiles, es decir, valores que dividen un conjunto en partes iguales.
Las medidas comunes de posición son los cuartiles, deciles y percentiles. Respectivamente, se refieren a la
división de los datos en cuartos, décimos y centésimos. Así, por ejemplo, el 2ž cuartil es el 5ž decil y el 50ž
percentil, es decir, Q2 = D5 = P50 , donde 2/4 = 5/10 = 50/100 son fracciones equivalentes. Como ya se ha
indicado, el percentil 50 también se denomina mediana. Los métodos de cálculo de los cuantiles varían, pero a
continuación se ofrece una descripción común del percentil.
P
Lp = (n + 1)
100
donde L, es la ubicación, o rango, del percentil P th. Si L no es un número entero, interpolamos entre los dos
valores que rodean la posición L.

a) La siguiente función ilustra el concepto de percentil utilizando una muestra aleatoria de la distribución
normal. Los percentiles mostrados corresponden a la regla empírica, que establece que el 68% de las
observaciones están dentro de una desviación típica de la media, y el 95% de las observaciones están
dentro de dos desviaciones típicas de la media. Además, también se muestran los percentiles 25 (azul), 50
(rojo) y 75 (azul).
1 seed = 3;
2 n = 100;
3
4 % Generar datos aleatorios
5 rng(seed)
6 x1 = randn(1,n);
7
8 % Propiedades del grafico
9 radius = 0.04;
10 spread = 1;
11
12 % Dibujar los datos
13 figure
14 t = 0:0.1:1’∗2∗pi;
15 hold on
16 cmap = colororder;
17 for i=1:length(x1)
18 x = x1(i)+radius∗cos(t);

7
Dr. Alexander Hilario Tacuri Procesos Estocásticos

19 y = spread∗rand+radius∗sin(t);
20 fill(x,y,cmap(1,:),’FaceAlpha’,0.3)
21 end
22 hold off
23
24 % Dibujar las lineas de los cuantiles
25 p = [0.025,0.16,0.25,0.5,0.75,0.84,0.975];
26 q = quantile(x1,p);
27 for i=[1 2 6 7]
28 xline(q(i),’−’,p(i),SeriesIndex="none");
29 end
30 for i=[3 5]
31 xline(q(i),’−’,p(i),"Color",cmap(1,:));
32 end
33 for i=[4]
34 xline(q(i),’−’,p(i),"Color",cmap(2,:));
35 end
36 axis equal
37 xlabel(’X’),yticks([])
38 nstr = num2str(n);
39 title([’Percentiles of X ~ N(0, 1), n = ’ nstr])

Modifique los valores de n, spread, radius y seed. Explique el funcionamiento de estas variables. Puede
mostrar resultados gráficos si lo ve por conveniente.
Al aumentar el número de muestras, ¿qué ocurre con los percentiles 16, 50 y 84? ¿Cómo se relaciona esto
con los parámetros de la distribución normal estándar?

b) Al aumentar el número de muestras, ¿qué ocurre con los percentiles 16, 50 y 84?, ¿Cómo se relaciona esto
con los parámetros de la distribución normal?

4. Ejercicio de la práctica
Al igual que un histograma, un diagrama de cajas es una representación gráfica de un conjunto de valores.
En particular, un diagrama de cajas es una descripción visual de los cuartiles. Para describir cuatro cuartiles,
se necesitan cinco valores: el mínimo, Q1 , Q2 , Q3 y el máximo. Estos números se denominan comúnmente
resumen de 5 números. La distancia Q3 − Q1 , se denomina rango intercuartílico, y se dibuja una caja a su
alrededor. Los valores que son más de 1.5 veces el rango intercuartílico por debajo de Q1 o por encima de Q3 se
consideran valores atípicos, es decir, son inusuales en relación con todo el conjunto de datos y a veces se eliminan
del análisis. Las líneas, o bigotes, se extienden desde el rango intercuartílico hasta los valores mínimo y máximo.

Escriba un script en Matlab que permita escoger una semilla para generar cinco muestras diferentes de
tamaño 30 a partir de una distribución normal. Además, debe ser capas de mostrar un diagrama de cajas que
muestre claramente los cuartiles y el rango intercuartílico, y debe revelar la asimetría por la longitud de los
bigotes. A modo de comparación, la figura final debe mostrar también un histograma de los datos.

5. Presentación de informe
• Cuando el docente lo autorice, es decir luego de presentar la práctica, puede mandar un correo electrónico
a: ahilariot@unsa.edu.pe con las siguientes especificaciones:

– Asunto: Procesos Estocásticos: X - Informe de práctica 1, Equipo Y.


– El correo electrónico debe contener: Informe en pdf (Escrito en LATEX), y un enlace para un Drive
personal donde estén los programas escritos en Matlab.

También podría gustarte