Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADÍSTICA DESCRIPTIVA
Cada experimento o encuesta puede relevar una o más variables y el investigador, a su vez, utilizar
los datos obtenidos de diversas maneras y con distintos propósitos, ya sea para el modelado de un
fenómeno, el contraste de una hipótesis o la predicción de un resultado electoral. En este sentido,
el diseño de la encuesta o experimento, el llamado proceso de medición, no será un proceso
aislado, sino que será parte del plan de investigación que se esté implementando.
mayoría de las técnicas de la estadística, desde las básicas (p. ej., promedios) hasta las más
avanzadas (p. ej., regresiones) requieren la utilización de variables numéricas. Pero también
existen herramientas estadísticas básicas, válidas aun para mediciones cualitativas.
Tendencia y variabilidad
Dichas variables se generan a partir de observaciones o mediciones, por ejemplo, la medición del
ingreso en pesos de una familia, el precio en pesos de un bien, o la altura de un conjunto de
personas medida en centímetros. Para analizar la estructura de los conjuntos de datos numéricos,
contamos con tres herramientas básicas:
Medida aritmética: La más utilizada de las medidas de tendencia central es la conocida media
aritmética. Esta aritmética se obtiene como un promedio simple de las observaciones, es decir,
sumando todos los valores observados de la variable y dividiendo por el número de
observaciones
La moda o modo de una distribución es aquel valor (o valores) que ocurre con mayor
frecuencia en las observaciones. Por ejemplo, si las observaciones fueron {1,5,3,1,8,5,7,1}, la
moda será 1, que ocurrió tres veces.
Algunas veces las mediciones realizadas presentan más de un valor modal. Por ejemplo, si
preguntamos las edades a un grupo de padres e hijos, correspondiente a cierto grupo escolar,
es posible que tengamos dos picos separados, uno correspondiente a la edad más repetida de
los padres y otro con la edad más común de los hijos. Estas distribuciones se llaman
multimodales y también se identifican con facilidad a partir del histograma.
La mediana de una distribución es el valor que separa la mitad superior de las observaciones,
de la mitad inferior. Si la distribución es discreta, podemos obtener la mediana ordenando el
conjunto de observaciones de menor a mayor y viendo qué valor ocupa el lugar medio. En el
caso que tengamos un número impar de observaciones, la mediana será el valor que se ubica
en el punto medio. En el caso de un número par de observaciones, será el promedio de los dos
valores más cercanos al orden ((n + 1)/2)donde n es el número total de observaciones.
Los paquetes estadísticos y hojas de cálculo vienen con rutinas incorporadas para el cómputo
de la mediana. Por ejemplo, la función =MEDIAN () de Excel computa la mediana de un rango
determinado de datos. La mediana es un caso particular de los llamados percentiles de la
distribución. Un percentil es un valor de la variable hasta el cual se acumula cierto porcentaje
de las observaciones. El percentil 10, por ejemplo, es aquel valor hasta el cual se acumula el
10% de las observaciones, también llamado primer decil. La mediana, entonces, es ni más ni
menos que el percentil 50 de la distribución.
Dado que existen diversas medidas de tendencia central, es natural preguntarse cuál de ellas
es superior. La respuesta es que cada una tiene ciertas ventajas que la hacen más relevante en
ciertos casos, pero al mismo tiempo ciertas limitaciones que no permiten elegirla siempre.
sumir información de una distribución. Es la medida favorita, por ejemplo, de los estudiosos de
estadísticas deportivas (promedio de goles, etc.). Tiene la ventaja de ser de cálculo sencillo,
pues no requiere ordenar las observaciones (como la mediana) ni realizar un conteo (como la
moda).
Una característica particular de la media es que depende de los valores de todas las
observaciones de manera directa. Esto le da una ventaja, que es su representatividad, ya que
detecta cambios pequeños de las observaciones. Sin embargo, esto también la vuelve más
sensible a los efectos de valores extremos de las observaciones. Esto puede ser una
desventaja, ya que se vuelve muy modificable por outliers (valores extraños) y a errores de
medición. Veámoslo en el ejemplo que dimos de preguntar en una esquina.
Medidas de variabilidad
Las medidas de variabilidad nos dan una idea de cuán representativas son las diversas medidas
de tendencia central. Si tenemos una medida de tendencia central XC (media, mediana, moda)
el desvío absoluto de una observación respecto a dicha medida será el número |xk - XC|. A su
vez, el desvío cuadrático sería: (xk - XC)2. No alarmarse por la notación (las equis, las barras, los
subíndices), lo explicaremos en detalle y verán que no es para complicar las cosas sino para
ganar precisión al anotar. Consejo: si les queda alguna duda, relean las fórmulas luego de ver el
ejemplo con números concretos.
a. Agregadas (o totales)
La suma de cuadrados total de la distribución será la suma de los desvíos cuadráticos de cada
observación:
b. Medias
Por su parte, el desvío absoluto medio será el promedio de los desvíos, es decir:
Utilizando técnicas del análisis matemático, puede probarse que el desvío absoluto total (y en
consecuencia el medio) será mínimo cuando la medida de tendencia central usada sea la
mediana. A su vez, la suma de cuadrados total será mínima cuando se tome centrada en la
media, de allí la definición de la varianza.
Herramientas computacionales
Todos los cálculos vistos hasta aquí, por supuesto, se hacen con la computadora. Pero como no
nos cansaremos de repetir: es necesario entender qué estamos haciendo y por eso son
importantes las explicaciones. Luego, por supuesto, muchos son los software que vamos a
utilizar. Como habíamos anticipado, dejamos algunas explicaciones y otros materiales, que
incluyen varios códigos QR que los conducirán a los sitios para descargar e instalar los
programas SPSS y R. De todas maneras, empezaremos con un programa muy conocido: el
Excel.
Excel
Este programa, tan usado desde hace años, ofrece una amplia variedad de herramientas
estadísticas. Muchas veces, estas son suficientes para nuestro análisis, y no hace falta sufrir
descargando otros software especiales o pagando por ellos. No hay que caer en la idea de “uso
un programa especializado, entonces mi trabajo es mejor”, pues esto solo no alcanza.
ESTUDIANTE: Rodrigo Ubaque Gualteros
SPSS
Es un software popular entre los usuarios de Windows, es utilizado para realizar la captura y
análisis de datos para crear tablas y gráficas con data compleja. El SPSS es conocido por su
capacidad de gestionar grandes volúmenes de datos y es capaz de llevar a cabo análisis de
texto entre otros formatos más.
Statistics es una potente plataforma de software estadístico. Ofrece una interfaz fácil de usar y
un sólido conjunto de funciones que permiten a su organización extraer rápidamente
información procesable de sus datos. Los procedimientos estadísticos avanzados ayudan a
garantizar una gran precisión y una toma de decisiones de calidad. Se incluyen todas las facetas
del ciclo de vida analítico, desde la preparación y gestión de datos hasta el análisis y la
elaboración de informes.
ESTUDIANTE: Rodrigo Ubaque Gualteros
R es “otro mundo” del que venimos viendo con Excel y SPSS. El motivo de esto es que en R
tenemos que programar. Es un lenguaje totalmente diferente. No es que sea muy complicado,
pero cuando nos asomamos por primera vez a este tipo de programas todo resulta extraño,
para qué negarlo. La enorme ventaja es que si logramos dominarlo (no todo, por supuesto,
solo la parte que nos interesa) las posibilidades que ofrece son prácticamente infinitas. No, no
estamos exagerando. Con R, se pueden hacer desde sencillos cálculos de medias o test de
hipótesis hasta modelos con millones de datos y decenas de variables de todo tipo.
De alguna manera, puede decirse que R es la puerta de entrada a la ciencia de datos (Data
Science) de la cual hablaremos al final del Capítulo 9, en el apartado que lleva ese nombre. Es
un software totalmente gratuito, con una enorme comunidad de usuarios en todo el mundo,
los cuales van aportando al programa nuevos avances cada día. Incluimos cuatro códigos QR:
uno para que puedan descargar el programa y otros para que conozcan sus comunidades.
Características:
1. Lee todo tipo de formatos: SQL, MSQL, Excel, SPSS, Python, Dta, lo que sea, R lo lee.
2. Grandes cantidades de datos, que harían fallar programas como Excel, no son un problema
para R. ¿Cuándo vamos a usar tantos datos? Para analizar un censo, por ejemplo, sin tener
que recurrir a las tablas en los cuales ya están agrupados y, por tanto, limitan nuestro
análisis.
3. Los códigos de R circulan libremente por la web todo el tiempo, en las comunidades de
usuarios. Si necesitamos, por ejemplo, los códigos para extraer los datos de vivienda en
todo Paraguay de los últimos tres censos, seguro alguien ya trabajó en el tema y dejó
varias líneas de códigos escritas. Luego, no es necesario que nosotros empecemos desde
cero.
4. Actualización permanente. Cada avance que se da en la programación de R, no importa
quién lo produzca (un alemán, un hondureño o un japonés) se va subiendo como
“actualización” para que esté disponible para todos.
5. Variedad de herramientas. Por su lenguaje de programación, que permite a los usuarios
adaptarlo a sus necesidades, R desarrolló miles de librerías, paquetes específicos sobre
distintos temas. Así, si estamos trabajando con datos georreferenciados, descargamos los
paquetes correspondientes, que son diferentes a los paquetes para estudios sobre
epidemiología.
6. Aprovechamiento de trabajos previos. Nos referimos ahora desde el punto de vista
personal. En un programa común, como Excel, si iniciamos un nuevo trabajo, aunque se
parezca a uno que hicimos un tiempo atrás, hay que hacer casi todo de nuevo, en especial
si tenemos que hacer algún cambio. Con R, simple- mente copiamos los códigos y listo. Y si
es necesario, podemos introducir modificaciones sin necesidad de rehacer el resto.
ESTUDIANTE: Rodrigo Ubaque Gualteros
Conclusiones
1. Una herramienta común para el procesamiento de datos estadísticos es Excel, que ofrece
una amplia gama de funciones y capacidades para analizar y visualizar datos.
2. Otra herramienta popular es R, un lenguaje de programación especializado en estadísticas
que permite realizar análisis avanzados y modelado de datos.
3. Las Estadísticas descriptivas: Se utilizan para resumir y describir características de un
conjunto de datos, como la media, la mediana, la desviación estándar, etc.
4. Las Estadísticas inferenciales: Se utilizan para hacer inferencias o conclusiones sobre una
población basadas en una muestra representativa de datos.
Referencias
Perez, L. Perez, R. y Seca, M. V. (2020). Metodología de la investigación científica: ( ed.).
Ituzaingó, Editorial Maipue. Recuperado de https://elibro.net/es/ereader/uniminuto/138497?
page=157.