La cantidad de información que se genera anualmente en Internet ha
crecido en forma exponencial. En un informe publicado por en 2015 se predice que la información generada en Internet se triplicará entre 2014 y 2019, alcanzando los 2 zetabytes. Play video starting at 26 seconds and follow transcript0:26 Estos fenómenos dieron lugar a un interés cada vez mayor en cuestiones referidas al big data, data analysis, y machine learning. Como forma de almacenar y procesar grandes volúmenes de información. ¿Qué hacemos entonces con tantos datos? En este sentido, resulta muy útil conocer las principales herramientas de la estadística descriptiva. La estadística descriptiva permite la agrupación, el resumen y la presentación de los datos. ¿Para qué? Para entender mejor qué nos dicen los datos, encontrar relaciones y poder tomar decisiones. ¿Cómo? A través de tabulados, técnicas gráficas y medidas matemáticas como la media, la varianza y otros instrumentos. ¿Por qué? La abundancia de información complica el análisis, resumirla y ordenarla ayuda. Play video starting at 1 minute 13 seconds and follow transcript1:13 Entonces, podemos definir la estadística descriptiva como el proceso de recolectar, agrupar y presentar los datos de una manera tal que describa fácil y rápidamente la información. Que permita reducir la información lo máximo posible, pero teniendo cuidado de que la reducción excesiva no nos lleve a omitir características importantes. Play video starting at 1 minute 35 seconds and follow transcript1:35 Resulta fundamental para el análisis de datos y la toma de decisiones en los negocios. Para ello resulta conveniente distinguir la población de la muestra y lo que es un parámetro de un estadístico. Play video starting at 1 minute 47 seconds and follow transcript1:47 El siguiente diagrama ilustra qué hacemos cuando hacemos estadística. La población es el universo de individuos que pueden ser empresas, ciudades, países. Generalmente es inobservable, you que es físicamente imposible de relevar todos los individuos que lo componen o resulta muy costoso. Play video starting at 2 minutes 7 seconds and follow transcript2:07 Mediante alguna técnica de muestreo, se obtienen las muestras de la población. La muestra es un subconjunto de la población que se extrae idealmente de forma aleatoria, y que resulta representativa de la población de interés. Play video starting at 2 minutes 21 seconds and follow transcript2:21 Usualmente estamos interesados en algún parámetro poblacional. Un parámetro es una característica de la población que resulta desconocido you que no observamos la población. Play video starting at 2 minutes 33 seconds and follow transcript2:33 Entonces, calculamos un estadístico usando información muestral, el cual es una estimador muestral del parámetro poblacional. Play video starting at 2 minutes 42 seconds and follow transcript2:42 En este módulo nos centraremos en estudiar los datos en base a una muestra, y en calcular y evaluar los distintos estadísticos en base a información muestral. En las distintas sesiones veremos medidas de tendencia central, como la media, la mediana y la moda, que se refieren al centro de distribución de los datos. Medidas de dispersión, distintos estadísticos que muestran la variabilidad en la distribución de los datos. Datos agrupados veremos cómo y para qué trabajar con datos agrupados en tablas de
Medidas de tendencia central: aplicación en Excel
[MUSIC] Ahora lo que veremos es una aplicación en Excel de las medidas de tendencia central. Básicamente lo que le pido es que bajen de la página Yahoo Finance el precio de cierre ajustado de General Electric, en forma diaria entre el 4 de enero de 2016 y el 22 de julio de 2016. Vamos a calcular las principales medidas de tendencia central, esto es, su media, su mediana y su moda durante este período de análisis. Luego realizaremos un gráfico de líneas para evaluar la evolución temporal de esta serie y, por último, calcularemos la media móvil simple de 20 períodos y la graficaremos. Play video starting at 48 seconds and follow transcript0:48 En este Excel, verán que yo you bajé de la página de Yahoo Finance el precio de cierre ajustado de General Electric. Son datos diarios medidos en dólares estadounidenses y ordenados del más antiguo al más reciente. Ojo con esto, porque Yahoo Finance baja los datos del más reciente al más antiguo, por lo que hay que acomodarlo. Play video starting at 1 minute 11 seconds and follow transcript1:11 Lo que hice fue enumerar cada uno de los valores que toma esta variable, cada una de las observaciones temporales. Quiere decir que disponemos de 140 observaciones temporales, 140 días. Éste es el tamaño de la muestra. Esto es N. N es 140. Bien, si queremos calcular el promedio, la mediana y la moda de esta variable lo que tenemos que usar son las funciones en Excel. Si usamos la función promedio y ponemos todos los valores que toma esta variable, el resultado es de $29,97 diarios. Si queremos calcular la mediana, la función es mediana, ponemos los valores de esta variable y la mediana es de $30 diarios. Fíjense que media y mediana en este caso se parecen. Si queremos calcular la moda, pondremos moda, y todos los valores que toma esa variable y la moda es de $27,81 diarios. Es decir, en este caso, existe moda, es el valor que más se repite en esta ventana de análisis. Luego en la otra pestaña que dice Gráfico 1, verán el gráfico de líneas que hice para evaluar la evolución temporal de esta serie. Vemos que tiene un comportamiento bastante errático, un poco cíclico. Y que presenta una tendencia que parece positiva. Play video starting at 2 minutes 40 seconds and follow transcript2:40 Bien, lo que haremos ahora es calcular la media móvil. Si queremos calcular la media móvil en forma simple, de promedio simple, para 20 períodos, lo que haremos es pararnos en la observación número 20 y calcular el promedio de ese valor y los 19 anteriores. Play video starting at 3 minutes 3 seconds and follow transcript3:03 Esta fórmula la arrastraremos para el resto de los casos. Es decir, en cada momento del tiempo lo que estamos haciendo es calculando un promedio simple de los 20 valores anteriores. Play video starting at 3 minutes 15 seconds and follow transcript3:15 Si graficamos esta variable junto con el gráfico anterior, lo que observamos ahora es lo siguiente. Esto es lo que realiza la media móvil, es una especie de suavizado para observar en forma más clara la tendencia. Obviamente perdemos las primeras 19 observaciones, you que estamos usando una ventana de estimación de 20 períodos. Pero aquí se ve este comportamiento cíclico que parece tener una tendencia positiva.
Medidas de tendencia central: explicación
[MUSIC] En esta primera sesión lo que veremos es lo que en estadística se llama las medidas de tendencia central. Que básicamente son estadísticos que buscan resumir, en un solo valor, el centro de la distribución de los datos. Las principales medidas son la media, la mediana y la moda. Pasamos un ejemplo. A continuación se reportan los datos del salario mensual medidos en miles de pesos de siete analistas de una compañía. ¿Cuál es la media, la mediana y la moda en este caso? Play video starting at 38 seconds and follow transcript0:38 Si queremos calcular el promedio o la media muestral, lo que haremos es sumar todos los valores que tome esta variable y dividirlo por la cantidad de observaciones o tamaño muestral. Es lo que vamos a denotar con la letra n, que en nuestro caso es 7. Por lo tanto, el promedio resulta ser de 33,7 miles de pesos, es decir, aproximadamente 34.000 pesos. Si queremos calcular la mediana, lo que haremos es ordenar las observaciones en forma ascendente o descendente, y buscar aquella observación que ocupa la posición central. Si ordenamos en forma ascendente nuestros siete salarios, la mediana es 34. Esto es así you que la cantidad de observaciones, n, es impar. ¿Qué pasa si n es par? Un caso como éste, imaginemos que disponemos sólo de seis salarios. Si ordenamos de menor a mayor estos salarios, tanto el dato de 33 como el de 34 ocupan la posición central. En estos casos, la mediana es la media simple de las dos observaciones centrales. En nuestro caso, sería 33,5 miles de pesos. Bien, ¿pero qué elegimos, la media o la mediana? Si bien la media es la más utilizada dada su simplicidad y por su fácil interpretación, en algunas situaciones la mediana puede ser preferible. ¿Cuándo? En el ejemplo de los siete salarios de los analistas, vimos que la media es de 33,7 y la mediana es de 34. Pero ahora imaginemos la siguiente situación. Supongamos que el CEO de la compañía considera que un analista, el que percibía un salario de 36.000 pesos, tiene un alto potencial y es promovido a gerente. Triplicándole su valor por lo que ahora percibe un salario de 108.000 pesos mensuales. La nueva distribución de salarios es la siguiente. ¿Qué pasa ahora con la media y la mediana? Si calculamos nuevamente la media, ésta resulta ser de 44 mientras que la mediana sigue siendo la misma de 34. Quiere decir que la media se ve muy afectada por el valor extremo a la derecha de la distribución. Moraleja, la media es una medida muy sensible a la presencia de valores extremos mientras que la mediana es una medida más robusta. En casos como éste, la mediana puede ser preferible a la media como medida de tendencia central. Play video starting at 2 minutes 57 seconds and follow transcript2:57 Si queremos calcular la moda o el modo, lo que tenemos que hacer es buscar el valor más frecuente dentro del conjunto de las observaciones. La moda es relevante sólo en algunos casos, you que puede suceder que no exista, es decir, que no haya observaciones que se repitan, que no esté ubicada en el centro de la distribución, sino en algún extremo de ella. O que haya más de una, como es en nuestro caso, sí, nuestro caso inicial de los siete salarios de los analistas existirían dos modas, 33 y 34. Alternativamente, podríamos calcular lo que se llama la media ponderada. Básicamente es una medida alternativa de la media, en la cual lo que vamos a hacer es poner diferente peso o importancia a las distintas observaciones. Vamos a llamar w al ponderador, que será un número entre 0 y 1 que sumado da 1, es decir, a cada uno de los valores que toma esta variable lo vamos a ponderar por este factor. Noten que en definitiva, el promedio simple no es más que un caso particular de la media ponderada, donde a cada uno de los valores de cada variable le estamos asignando igual peso. Hay muchas aplicaciones en negocios de medias ponderadas, por ejemplo, en lo que es la construcción de índices bursátiles, en el llamado de portafolios, en alguna calificación de algún curso que podamos hacer. Play video starting at 4 minutes 18 seconds and follow transcript4:18 A modo de ejemplo, el índice de Standard & Poor's 500 es un índice bursátil que se construye a partir de un promedio ponderado. Básicamente considera una canasta de 500 empresas, las 500 empresas más grandes que cotizan en las bolsas de Nueva York y de NASDAQ. Pero no se toma un promedio simple del valor de estas empresas, sino un promedio ponderado de acuerdo a su nivel de capitalización. Es decir, aquellas empresas más grandes van a ser aqéellas que tengan un mayor peso en el resultado final del índice. Play video starting at 4 minutes 51 seconds and follow transcript4:51 Por último, podríamos pensar en una media móvil que es básicamente un promedio de los valores de una serie temporal para un período de tiempo dado o ventana de estimación. Esto requiere que uno determine a priori el tamaño de la ventana a estimar. Es decir, la cantidad de observaciones usualmente referidas al pasado, que se utilizan para la estimación en ese momento del tiempo. Las alternativas más conocidas son la media móvil simple y la media móvil exponencial. En la media móvil simple estamos asignando igual peso a todas las observaciones pasadas, mientras que en la media móvil exponencial, le daremos mayor peso a las observaciones más recientes. Un ejemplo de media móvil son las famosas bandas de Bollinger, que son indicadores muy utilizados en lo que se conoce como análisis técnico dentro de los mercados financieros. Estas bandas se construyen a partir de la media móvil, del precio de cierre de un activo comprendido entre dos bandas. Se calcula la media móvil simple de 20 períodos y las bandas se obtienen añadiendo y sustrayendo a la media dos veces el desvío estándar. Constituyendo así una medida de volatilidad de precio del activo. Play video starting at 6 minutes 1 second and follow transcript6:01 Este gráfico lo que muestra es la evolución temporal del precio de cierre de la acción de Facebook, que sería la línea celeste que está comprendida entre las dos bandas de Bollinger. Una banda superior, y una banda inferior que se construyen a partir de las medias móviles.