Las aplicaciones estadísticas son necesarias en cualquier actividad
que desarrolle una persona. Los datos con los cuales se realizan los trabajos estadísticos varían entre individuos y se obtienen a partir de elementos que en conjunto conforman un universo. Normalmente, el interés del investigador (estudiante) se dirige a las características de los elementos que conforman el universo. A dichas características se les designa como variables. A través del desarrollo del presente módulo estudiaremos los conceptos destacados de la Estadística descriptiva y construiremos nuevos aprendizajes en torno a la pregunta central: ¿La aplicación de conceptos estadísticos para recolectar, organizar, resumir, presentar y analizar datos e información de tipo cuantitativo y cualitativo, de los fenómenos de la vida y los propios de su programa académico, le permitirán al estudiante tomar decisiones adecuadas en su desempeño profesional, y le ayudarán a desarrollar labores de investigación a nivel institucional, laboral y profesional? El eje temático 1 presenta las generalidades de la estadística, la introducción de conceptos fundamentales como población, muestra, individuo y variable de tipo estadístico; así mismo, se aborda la elaboración de tablas de distribución de frecuencias que permiten resumir y presentar información sobre variables cualitativas y cuantitativas y presentaciones gráficas. Así mismo, estos conceptos son claves para responder la pregunta orientadora de este primer eje: ¿Convertir datos en información correcta sobre la realidad mediante el procesamiento de datos en tablas y gráficos, beneficia el aprendizaje de la Estadística, para plantear y resolver problemas del contexto profesional del estudiante y procesos de investigación con el manejo de herramientas tecnológicas? DESARROLLO ¿Qué es la estadística? El término estadística se deriva de la palabra “Estado”, en razón a que los gobiernos, para su planificación, han llevado registros de muchas variables como población, nacimientos, defunciones, exportaciones, impuestos, producción, entre otros. La estadística se considera una rama de la matemática, fundamentalmente dedicada al análisis de datos con el fin de obtener apropiadas conclusiones y apoyar la adecuada toma de decisiones, tarea que demanda la previa recolección de los datos y su organización de tal manera que se facilite el análisis. La estadística proporciona un conjunto de principios, procedimientos y métodos basados en la elaboración de tablas de datos, representaciones gráficas y expresiones matemáticas asociadas a medidas representativas del conjunto de datos bajo análisis, con el fin de aplicar las tècnicas propias que contempla el estudio o investigación estadística, aspecto que convierte a esta disciplina en una valiosa herramienta de investigación en campos tales como las ciencias naturales, las ciencias sociales, la educación, ciencias de la salud, ingeniería, administración, economía y negocios. Clasificación de la estadística La estadística fundamentalmente se clasifica en dos grandes ramas, la estadísticadescriptiva y la estadística inferencial. • Estadística descriptiva: Es la rama de la estadística cuya tarea se centra en la recolección, organización y presentación de los datos a fin de ser interpretados y analizados apropiadamente. Las conclusiones obtenidas son aplicables al grupo del cual se obtienen los datos y no a la totalidad de casos posibles. Por ejemplo, la coordinación del programa de Negocios internacionales de la Fundación Universitaria del Área Andina está interesada en la obtención de información estadística relacionada con el rendimiento académico de sus estudiantes; si aplica procedimientos estadísticos sobre la información correspondiente a los estudiantes de segundo semestre, el análisis realizado no necesariamente se extiende o generaliza a todos los estudiantes del programa, sino que solo describe la información del grupo analizado. • Estadística inferencial: Dada la frecuente dificultad para realizar estudios sobre la totalidad de casos posibles, se suele seleccionar un conjunto restringido de casos sobre las cuales es más viable realizar el estudio. Tomando como base la información correspondiente a casos debidamente seleccionados, la estadística inferencial se centra en la inferencia o deducción respecto a la totalidad de casos posibles. Por ejemplo una firma encuestadora realiza un estudio sobre la preferencia de los ciudadanos sobre los candidatos que participarán en la próxima elección de alcalde; puesto que a la firma no le resulta práctico encuestar a todos los votantes, selecciona un grupo de personas habilitadas para votar, y con base en su análisis plantea generalizaciones sobre todos los posibles votantes. El proceso de generalización o inferencia a partir de la información de un grupo pequeño, es arriesgado y no puede realizarse con certeza absoluta, inherente a él está la incertidumbre o margen de error, sin embargo esta incertidumbre se puede controlar al tiempo que es posible medir el nivel de confianza de las deducciones. Este módulo se centra fundamentalmente en el estudio de principios y procedimientos correspondientes a la estadística descriptiva. Sin embargo a continuación se presenta un conjunto de conceptos propios del ámbito estadístico en general. Conceptos básicos de estadística Un estudio estadístico llevado a cabo de manera sistemática involucra un conjunto de conceptos, a continuación se presenta los conceptos básicos de la estadística. • Población o universo: En un estudio o investigación estadística, la población corresponde a la totalidad de elementos o unidades que forman el área de interés, es decir, el conjunto total de personas, elementos u objetos con características comunes de los cuales se quiere obtener información. Advierta que el término población hace referencia no sólo a las personas que habitan en una ciudad región o país. En un estudio estadístico la población debe estar perfectamente delimitada en el tiempo y en el espacio, por ejemplo, para hacer un análisis de las pequeñas empresas, se debe especificar cuáles empresas y en qué período de tiempo se analizan: pequeñas empresas de la capital del país en el año 2008. Una característica importante de la población es su tamaño, el cual corresponde a la cantidad de elementos que la componen. • Muestra: En estadística el término muestra se refiere a una porción de la población, la cual es seleccionada con el fin de adelantar un estudio o investigación. Las causas por la cuales se realizan estudios a partir de muestras, y no de toda la población, son variadas, una de ellas puede ser la dificultad o imposibilidad de realizar el estudio sobre toda la población, lo cual está ligado a grandes costos y demasiado tiempo requerido para para la recolección de datos. Otra razón podría ser la naturaleza destructiva de la selección de la muestra, por ejemplo si se realiza un control de calidad sobre sobre un lote de producción de fósforos, no tendría sentido realizar la prueba sobre todos los elementos del lote. La muestra debe ser seleccionada de tal manera que sea representativa de la población, por ejemplo, si se quiere adelantar una investigación sobre hábitos de consumo de alcohol, quizá no sea muy apropiado tomar una muestra solamente de un grupo de personas en una taberna o discoteca, como tampoco en un convento o en una comunidad cristiana. La selección de la muestra debe cumplir ciertos requisitos para que sea representativa, estos requisitos se refieren a lo que se conoce como proceso de muestreo. • Individuo: Un individuo, en un estudio estadístico, corresponde a cada una de las unidades que conforman la población, por ejemplo al considerar como población la totalidad de personas que cuentan con empleo formal, un individuo es cualquiera de las personas debidamente empleada. Según este concepto, se puede afirmar que la población corresponde a la totalidad de los individuos. • Parámetro y estadístico: Así como es necesario tener claridad si un estudio estadístico se realiza sobre toda una población o sobre una muestra de ella, es también necesario aclarar la clasificación de los valores numéricos calculados sobre la población y sobre la muestra. Un parámetro es un valor numérico de interés calculado con base en observaciones sobre toda la población, mientras que un estadístico es un valor calculado con base en observaciones sobre una muestra. Posteriormente en este módulo se estudiarán los parámetros y estadísticos usuales en un estudio o investigación estadística. Ninguna estrategia de negocios puede construirse sobre análisis o infamación fragmentaria. En éste caso, si las cosas salen bien, será una simple cuestión de suerte o de intuición. El verdadero estratega no depende de una cosa ni de la otra. La estrategia no se concibe para escenarios estáticos donde los competidores no reaccionan o donde no existen las discontinuidades. Si así fuera, la estrategia fuese un asunto meramente administrativo. • Variable estadística: En el campo de la estadística, una variable es una característica propia de cada uno de los individuos de la población o muestra. Se seleccionan variables, o características, que resultan de interés en el estudio, por ejemplo: edad, ingreso, sexo, estado civil, nacionalidad, religión de una persona, cantidad de lluvia caída, entre otras. Las variables usualmente se representan con letras minúsculas del alfabeto, tales como x, y, z, o cualquier otra que sea de mayor significado según el contexto. • Valores de una variable: Los valores de una variable se refieren al conjunto de posibles resultados de la observación de la variable en un estudio estadístico. Como resultados de las observaciones se obtiene un conjunto de valores de la variable, tales valores obtenidos conforman los datos empleados en el estudio estadístico. Clasificación de las variables estadísticas En estadística las variables pueden clasificarse de diferentes formas, una primera clasificación podría diferenciar variables cualitativas y cuantitativas, otra clasificación es la que distingue variables discretas y continuas. A continuación se presentan los conceptos de cada una de estas clases de variables. • Variables cualitativas: Una variable cualitativa hace referencia a una característica de los individuos de la población o muestra, cuyo valor puede indicarse a través de una cualidad, es decir, no puede expresarse numéricamente. Ejemplos de variables cualitativas son: departamento de origen de los estudiantes de la Fundación Universitaria del Área Andina, ocupación, sexo, cargo, color de los ojos de un grupo de personas, entre otras. • Nivel o escala de medición de variables cualitativas: Atendiendo a la naturaleza de la medida de los valores que se pueden obtener, los niveles o escalas de medida de las variables cualitativas se pueden clasificar en nominal y ordinal. • Nominal: expresan el valor de una cualidad mediante palabra o nombres que establecen clases o categorías, por ejemplo, la variable género en un grupo de personas puede tomar los valores, “hombre” o “mujer”; “masculino” o “femenino”; en el caso de la variable tipo en las prendas de vestir masculina, se podría tener, por ejemplo, valores como “camisa”, “pantalón”, “corbata”, “saco”. En estos casos también es posible asignar un número (“1”, “2”, “3”, “4”), pero sin que realmente tenga significado numérico, por tanto no tiene sentido el desarrollo de operaciones matemáticas entre ellos. • Ordinal: expresan el valor de una cualidad mediante palabra o nombres que establecen categorías, entre los cuales se puede establecer un orden, por ejemplo la valoración académica de un estudiante puede tomar los valores “excelente”, “sobresaliente” “aceptable” e “insuficiente”. En estos casos también se puede asignar un número (“1”, “2”, “3”, “4”), solo con el fin de establecer un orden y sin que realmente tenga significado numérico. • Variables cuantitativas: Una variable cuantitativa hace referencia a una característica de los individuos de la población o muestra cuyos valores pueden expresarse numéricamente, y realizar con ellos operaciones matemáticas ligadas a los principios estadísticos. Como ejemplos de variables cuantitativas se tiene: peso, estatura, número de hijos, salarios de un grupo de personas, entre otras. Los valores de variables cuantitativas pueden incluir una unidad de medida, por ejemplo, metros, días, pesos, entre otras. Las variables cuantitativas a su vez se clasifican en discretas y continuas. • Variable discreta: una variable discreta toma sus valores del conjunto de números naturales, frecuentemente se asume una variable discreta como una variable de conteo, a través de la cual no es posible expresar valores fraccionarios. Ejemplos de variables discretas son: número de automóviles que entran a un parqueadero y número de cheques girados al mes. • Variable continua: una variable continua toma sus valores del conjunto de números reales, esto significa, por ejemplo, que el valorde la variable puede ser cualquier número comprendido entre dosvalores específicos, es decir, se permite que la variable tome valores decimales. Ejemplos de variables continuas son: el peso de un libro, el tiempo de duración de una conversación telefónica, el tiempo que gastamos en ir de la casa al trabajo, las ventas semanales de un almacén. • Nivel o escala de medición de variables cuantitativas: Atendiendo a la naturaleza de la medida de los posibles valores, los niveles de medición de las variables cuantitativas se pueden clasificar en nivel de intervalo y nivel de razón o proporción. Nivel de intervalo: permite clasificar, ordenar y medir la distancia o diferencia entre las diferentes categorías. La representación de la variable es numérica con sentido matemático, es decir los valores de la variable se pueden sumar, restar, multiplicar y dividir. En esta escala de medida el valor 0 (cero) es arbitrario, es decir el 0 no indica “ausencia de”. Por ejemplo, en el caso de la temperatura, decir que estamos a 0 grados centígrados no significa que no haya temperatura. Nivel de razón o proporción: corresponde también a una escala numérica, pero aquí el valor 0 sí indica ausencia, por ejemplo: el ingreso de agua a un tanque. Pasos de una investigación estadística El proceso de aplicación de la estadística implica una serie de pasos, los principales se describen brevemente a continuación. • Selección y determinación de la población o muestra y de las características que se desea estudiar: en el caso de que se desee tomar una muestra, es necesario determinar el tamaño de la misma y el tipo de muestreo a realizar (probabilístico o no probabilístico). • Obtención de los datos: este paso puede ser realizado mediante la observación directa de los elementos, la aplicación de encuestas y entrevistas, y la realización de experimentos. • Clasificación, tabulación y organización de los datos: la clasificación incluye el tratamiento de los datos considerados anómalos, que pueden en un momento dado falsear el análisis de los indicadores estadísticos. • Análisis descriptivo de los datos: el análisis se complementa con la obtención de indicadores estadísticos como las medidas de tendencia central, dispersión, posición y forma, las cuales se estudiarán en este módulo. • Análisis inferencial de los datos: se aplican técnicas de tratamiento de datos, que involucran elementos probabilísticos, que permiten inferir conclusiones de una muestra hacia la población. • Elaboración de conclusiones: se construye el informe final. adecuada organización con el fin de poder analizarla a la luz de los principios estadísticos. Para efectos de organización de datos, en estadística se cuenta con diversas herramientas, entre las que se destacan las distribuciones de frecuencias y las representaciones gráficas, estas herramientas son de gran importancia principalmente en los casos en que se trabaja grandes cantidades de datos. En lo que sigue del presente eje se tratará la construcción de distribuciones de frecuencia para variables cualitativas y cuantitativas y la presentación gráfica de datos. Distribución de frecuencias En el campo estadístico el término frecuencia se refiere al número de veces que se presenta un valor específico de la variable bajo estudio, una distribución de frecuencias es una tabla que resume información de los diferentes valores o categorías de valores y las veces que ocurren. En un estudio estadístico se puede elaborar distribuciones de frecuencias para variables cualitativas y cuantitativas. Distribuciones de frecuencia para variables cualitativas Para el análisis de datos estadísticos correspondientes a variables cualitativas se define básicamente la frecuencia absoluta y la frecuencia relativa. • Frecuencia absoluta: la frecuencia absoluta o simplemente frecuencia se refiere al número de veces que se presenta un valor específico de la variable. • Frecuencia relativa: la frecuencia relativa representa la fracción del total de datos que corresponde a una categoría específica. La frecuencia relativa para un valor o categoría se calcula dividiendo la respectiva frecuencia absoluta por el número total de datos. Para repasar y reforzar los conceptos vistos hasta ahora, recomiendo la lectura: Estadística para todos: análisis de datos: estadística descriptiva, teoría de la probabilidad e inferencia. Romeros, E. Paginas: 21 - 30. Distribución de frecuencias como herramienta de organización de datos En estudios estadísticos además de la recolección de la información se requiere su Estadística - eje 1 conceptualicemos 10 • Ejemplo 1: frecuencia absoluta y frecuencia relativa para una variable cualitativa: En un estudio socioeconómico se quiere analizar el grado de formación de 80 empleados de una mina de carbón, para ello se indaga a cada empleado sobre el nivel de formación académica alcanzado, los resultados considerados son: 1 = Sin formación 2 = Primaria incompleta 3 = Primaria completa 4 = Bachillerato incompleto 5 = Bachillerato completo 6 = Superior incompleta 7 = Superior completa El resultado de las indagaciones se muestra en la siguiente tabla.
• Solución: Si se quiere saber cuántas veces se da el valor 1, el
conteo respectivo indica 2 veces, por tanto la frecuencia absoluta para ese valor de la variable es 2. El conteo de cuántas veces se da cada uno de los valores de la variable permite determinar las respectivas frecuencias absolutas. Teniendo en cuenta también que el número total de observaciones es 80, se puede presentar la siguiente tabla de distribución de frecuencias Notación Sigma Antes de continuar con conceptos relacionados con distribuciones de frecuencias, conviene analizar brevemente la notación Sigma. En estadística, al igual que en la matemática en general, se usa el símbolo (Letra griega sigma en mayúscula) para abreviar la suma de un conjunto de términos variable que dependen del valor de un subíndice. La siguiente expresión muestra una suma genérica abreviada con la notación sigma así como su suma equivalente
En la expresión anterior la variable es Xi , donde el subíndice i toma
los valores i = 1, i = 2,…, i = n, por lo tanto la variable Xi toma los valores X1 , X2 ,…, Xn. Por ejemplo si X1 = 3, X2 = 7, X3 = 10, X4 = 11, X5 = 8, X6 = 5, X7 = 1, usando la notación Sigma se tiene
Distribuciones de frecuencia para variables cuantitativas: Cuando se
observan las variables bajo estudio, se obtiene un conjunto de resultados denominados datos originales, si el conjunto de datos es pequeño (menor que 20) no existe ninguna dificultad al elaborar la tabla de distribución que muestre la frecuencia de cada uno de los diferentes valores de la variable, tal como se hace con las variables cualitativas, sin embargo, si hay un gran número de datos, en los que a su vez la variable de interés toma un gran número de posibles valores, puede ser poco práctico establecer la frecuencia para cada uno de los valores, en cambio resulta más conveniente crear clases, grupos o intervalos de valores y elaborar la distribución de tal manera que se muestre la información concerniente a la frecuencia de cada grupo. Las clases creadas deben ser mutuamente excluyentes y exhaustivas, lo que significa que cada dato debe pertenecer a una y sólo una clase (ni más ni menos). En estos casos, la tabla de distribución de frecuencias se construye de tal forma que las clases se escriben en orden ascendente según los valores, en la columna correspondiente a la frecuencia absoluta se indica cuántas veces se presenta un valor perteneciente a determinada clase. Este tipo de distribución de frecuencias en la que los datos se agrupan en clases se denomina distribución de frecuencia para datos agrupados. Para efectos de cálculos a partir de la tabla de distribución de frecuencias de datos agrupados, es útil asignar un índice o número de clase a cada clase: 1 a la primera, 2 a la segunda y así sucesivamente hasta la clase n. En los encabezados de la tabla de frecuencia y en las diferentes fórmulas de cálculo se usa el número i como subíndice para referirse a valores asociados a la clase que ocupa el lugar i, por ejemplo fi representa la frecuencia de la clase i donde toma valores desde i = 1 hasta i = n, lo que usualmente se representa mediante i = 1, 2,…, n. Frecuencia absoluta y frecuencia relativa para datos agrupados Los conceptos de frecuencia absoluta y frecuencia relativa para datos agrupados correspondientes a variables cuantitativas son similares a los definidos antes para datos originales de variables cualitativas. Frecuencia absoluta de una clase: la frecuencia absoluta correspondiente a la i − esima clase indica el número de ocurrencias de valores de la variable pertenecientes a la clase. La frecuencia absoluta de la i − esima clase se denota mediante el símbolo fi . Frecuencia relativa de una clase: la frecuencia absoluta no da información sobre qué fracción de la totalidad de datos corresponde a la clase, por tanto resulta pertinente definir la frecuencia relativa de la i − esima clase (es decir, la clase que ocupa el lugar i) como el cociente de la frecuencia absoluta de la clase y el número total de datos (N). La frecuencia relativa de la i − esima clase se denota mediante el símbolo y se calcula a través de la expresión
La suma de las frecuencias relativas de todas las clases corresponde
a la unidad, es decir
Nota: el valor de la frecuencia relativa se puede expresar en
porcentaje al multiplicar elvalor obtenido por 100%. Frecuencia absoluta acumulada de una clase: en cálculos estadísticos, que involucran variables cuantitativas, además de la frecuencia absoluta de una clase se puede requerirel acumulado de la respectiva clase y las clases anteriores, esto se conoce como frecuencia absoluta acumulada, es decir, la frecuencia absoluta de la k − esima clase corresponde a la suma de las frecuencias absolutas hasta esa clase. La frecuencia absouta de la k − esima clase se denota mediante Fk y está dada por Frecuencia relativa acumulada de una clase: la frecuencia relativa acumulada de la k − esima clase es el cociente de la frecuencia acumulada de la clase y el número total de datos, se denota mediante el símbolo . Para un total de N datos, la frecuencia relativa acumulada de la k − esima clase está dada por:
La frecuencia relativa acumulada de la última clase corresponde a la
unidad o al 100 %. • Ejemplo 2: distribución de frecuencia para una variable cuantitativa discreta. Sobre un grupo de 900 empresarios se realiza un estudio respecto al número de empleados a su cargo, los resultados van desde 10 hasta 95 empleados. Luego de recoger los datos, el responsable del estudio considera conveniente crear 5 clases o grupos de valores y realizar el conteo para registrar la frecuencia de cada clase. Con los resultados del conteo realiza la siguiente tabla de distribución de frecuencias, la primera columna de la tabla muestra los índices de clase, la segunda, el intervalo de valores de cada clase, las columnas 3 a 6 muestran respectivamente la frecuencia absoluta, frecuencia relativa, frecuencia absoluta acumulada y frecuencia relativa acumulada para cada una de las cinco clases Rango de datos Un valor que se debe considerar al definir una distribución de frecuencias para un conjunto de datos agrupados es el de rango de datos. El rango de un conjunto de datos corresponde a la diferencia entre el mayor valor y el menor valor de todas las observaciones. En el caso del ejemplo 2 el rango de datos corresponde a: N = 95 − 10 = 85 Límites de clase Son los valores extremos que definen una clase, se identifica en ellos el límite inferior (menor valor posible en la clase) y el límite superior. Se deben elegir de tal manera que un valor especifico de las observaciones pertenezca (mayor valor posible en la clase) y exactamente una clase, en el caso de la variable discreta del ejemplo 2, los límites de clase son los valores extremos allí indicados. Para el caso de una distribución de frecuencias correspondiente a una variable continua se debe tener especial cuidado con los límites de clase, específicamente debe ser claro si un extremo dado pertenece o no a la clase. Una forma de hacerlo es emplear la notación de intervalos. • Ejemplo 3: distribución de frecuencia para una variable continua: En un torneo interuniversitario de natación se quiere realizar un estudio estadístico sobre los resultados de los participantes en la prueba de 50 metros estilo espalda, el registro de los datos originales se muestra en la siguiente tabla
• Solución: Con los resultados el analista decide crear 5 clases así
Nótese que la definición de los límites de clase y la notación de intervalos dan claridad respecto a la pertenencia o no de un extremo del intervalo a la clase, en la notación de intervalo, el corchete indica que el extremo correspondiente pertenece al intervalo, mientras que el paréntesis indica no pertenencia, por ejemplo el valor 40 pertenece a la cuarta clase. Amplitud o ancho de clase La amplitud de una clase es una medida del rango de valores de la clase. No es obligatorio que todas las clases tengan igual amplitud, pero lo usual es definirlo así con el fin de facilitar los cálculos. En cualquier conjunto de clases adecuadamente definida, el valor de la amplitud de una clase, excepto la última, se puede calcular restando el límite inferior de la respectiva clase al límite inferior de la clase siguiente, en el ejemplo 2 la amplitud de la clase 3 se puede hallar restando 41 (límite inferior de la clase 3) de 61 (límite inferior de la clase siguiente o clase 4). Nótese que de esta forma no se puede realizar elcálculo de la amplitud de la última clase debido a que no hay una clase siguiente. El cálculo de amplitud de clase también puede hacerse restando el límite superior de la clase anterior al límite superior de la respectiva clase, excepto para la primera. En el ejemplo 2 la amplitud de la segunda clase se puede hallar restando 20 a 40. Existen situaciones en las que a la primera clase no se le defina límite inferior o a la última no se le defina límite superior, por ejemplo al considerar rangos de edades medidas en años cumplidos podría tener el siguiente conjunto de clases: • De 0 a 5 años • De 6 a 12 años • De 13 a 25 años • De 26 años o más. Marca o punto medio de una clase La marca de una clase es el valor que se encuentra en la mitad del intervalo de valores de la clase y se considera como su valor representativo. Para cada una de las clases, la marca de clase se representa mediante el símbolo y se calcula promediando los valores extremos de la clase. En la tabla de distribución de frecuencia, a la derecha de la columna de los intervalos de clase, se agrega otra columna para registrar las marcas de las clases. Los ejemplos 3 y 4 muestran las tablas de distribución de frecuencia resumidas incluyendo las marcas de clase para los ejemplos 1.2 y 1.3. • Ejemplo 4: distribución de frecuencia incluyendo marca de clase para el ejemplo de número de empleados a cargo de un grupo de empresarios
• Ejemplo 5: distribución de frecuencia incluyendo marca de clase