Está en la página 1de 7

ESTUDIANTE: Rodrigo Ubaque Gualteros

ESTADÍSTICA DESCRIPTIVA

Cada experimento o encuesta puede relevar una o más variables y el investigador, a su vez, utilizar
los datos obtenidos de diversas maneras y con distintos propósitos, ya sea para el modelado de un
fenómeno, el contraste de una hipótesis o la predicción de un resultado electoral. En este sentido,
el diseño de la encuesta o experimento, el llamado proceso de medición, no será un proceso
aislado, sino que será parte del plan de investigación que se esté implementando.

mayoría de las técnicas de la estadística, desde las básicas (p. ej., promedios) hasta las más
avanzadas (p. ej., regresiones) requieren la utilización de variables numéricas. Pero también
existen herramientas estadísticas básicas, válidas aun para mediciones cualitativas.

Tendencia y variabilidad

Dichas variables se generan a partir de observaciones o mediciones, por ejemplo, la medición del
ingreso en pesos de una familia, el precio en pesos de un bien, o la altura de un conjunto de
personas medida en centímetros. Para analizar la estructura de los conjuntos de datos numéricos,
contamos con tres herramientas básicas:

1. Medidas de tendencia central: son valores destacados de la variable, o construidos a partir


de estos, con los cuales se puede representar el conjunto de los mismos. Por ejemplo, si la
altura promedio de un equipo de básquet es 2,05 m y la de otro es 1,99 m, podemos tener
una idea de cómo se compararán los equipos. Otro ejemplo: si en un país la mitad de la
población tiene un ingreso menor a USD 2000 al año, podemos darnos una idea de la
prevalencia de la pobreza en el mismo. Las medidas de tendencia central, también son
llamadas de posición, en el sentido de que los valores de la variable se agruparán en torno
a dichos valores destacados, permitiendo ubicar la distribución. En este sentido, están muy
relacionados con el histograma de la sección previa.
2. Medidas de variabilidad: idea de cuán buenas son las medidas de tendencia central en su
tarea de representar a la distribución. Las medidas de dispersión permiten estudiar cómo
se desvían los valores de la variable con respecto a alguna medida de tendencia central.
Por ejemplo, si medimos el ingreso promedio de las personas que pasan por cierta esquina
elegida al azar de una ciudad, es probable que su ingreso medio sea representativo. Pero si
en la muestra tenemos por casualidad a Bill Gates, entonces el ingreso promedio casi de
seguro pierda sentido como representante de la distribución.
3. Medidas de concentración: medida en ciertos intervalos. Puede ser una concentración en
términos de un valor dado, por ejemplo: “El 30% de la población tiene ingresos menores a
los $10.000”. O pueden ser concentraciones relativas, por ejemplo: “El 10% más rico de la
población percibe el 45% de los ingresos totales”.
ESTUDIANTE: Rodrigo Ubaque Gualteros

Medidas de tendencia central

Medida aritmética: La más utilizada de las medidas de tendencia central es la conocida media
aritmética. Esta aritmética se obtiene como un promedio simple de las observaciones, es decir,
sumando todos los valores observados de la variable y dividiendo por el número de
observaciones

Moda o modo de una distribución

La moda o modo de una distribución es aquel valor (o valores) que ocurre con mayor
frecuencia en las observaciones. Por ejemplo, si las observaciones fueron {1,5,3,1,8,5,7,1}, la
moda será 1, que ocurrió tres veces.

El histograma, que grafica la frecuencia en función de los valores de la variable, es una


herramienta gráfica muy útil para encontrar las modas.

Algunas veces las mediciones realizadas presentan más de un valor modal. Por ejemplo, si
preguntamos las edades a un grupo de padres e hijos, correspondiente a cierto grupo escolar,
es posible que tengamos dos picos separados, uno correspondiente a la edad más repetida de
los padres y otro con la edad más común de los hijos. Estas distribuciones se llaman
multimodales y también se identifican con facilidad a partir del histograma.

Mediana y percentiles de una distribución


ESTUDIANTE: Rodrigo Ubaque Gualteros

La mediana de una distribución es el valor que separa la mitad superior de las observaciones,
de la mitad inferior. Si la distribución es discreta, podemos obtener la mediana ordenando el
conjunto de observaciones de menor a mayor y viendo qué valor ocupa el lugar medio. En el
caso que tengamos un número impar de observaciones, la mediana será el valor que se ubica
en el punto medio. En el caso de un número par de observaciones, será el promedio de los dos
valores más cercanos al orden ((n + 1)/2)donde n es el número total de observaciones.

Los paquetes estadísticos y hojas de cálculo vienen con rutinas incorporadas para el cómputo
de la mediana. Por ejemplo, la función =MEDIAN () de Excel computa la mediana de un rango
determinado de datos. La mediana es un caso particular de los llamados percentiles de la
distribución. Un percentil es un valor de la variable hasta el cual se acumula cierto porcentaje
de las observaciones. El percentil 10, por ejemplo, es aquel valor hasta el cual se acumula el
10% de las observaciones, también llamado primer decil. La mediana, entonces, es ni más ni
menos que el percentil 50 de la distribución.

Medidas de tendencia central: comparación y ventajas relativas

Dado que existen diversas medidas de tendencia central, es natural preguntarse cuál de ellas
es superior. La respuesta es que cada una tiene ciertas ventajas que la hacen más relevante en
ciertos casos, pero al mismo tiempo ciertas limitaciones que no permiten elegirla siempre.

sumir información de una distribución. Es la medida favorita, por ejemplo, de los estudiosos de
estadísticas deportivas (promedio de goles, etc.). Tiene la ventaja de ser de cálculo sencillo,
pues no requiere ordenar las observaciones (como la mediana) ni realizar un conteo (como la
moda).

Una característica particular de la media es que depende de los valores de todas las
observaciones de manera directa. Esto le da una ventaja, que es su representatividad, ya que
detecta cambios pequeños de las observaciones. Sin embargo, esto también la vuelve más
sensible a los efectos de valores extremos de las observaciones. Esto puede ser una
desventaja, ya que se vuelve muy modificable por outliers (valores extraños) y a errores de
medición. Veámoslo en el ejemplo que dimos de preguntar en una esquina.

Medidas de variabilidad

Las medidas de variabilidad nos dan una idea de cuán representativas son las diversas medidas
de tendencia central. Si tenemos una medida de tendencia central XC (media, mediana, moda)
el desvío absoluto de una observación respecto a dicha medida será el número |xk - XC|. A su
vez, el desvío cuadrático sería: (xk - XC)2. No alarmarse por la notación (las equis, las barras, los
subíndices), lo explicaremos en detalle y verán que no es para complicar las cosas sino para
ganar precisión al anotar. Consejo: si les queda alguna duda, relean las fórmulas luego de ver el
ejemplo con números concretos.

1. Medidas de variabilidad absoluta

El desvío absoluto total de la distribución, una medida absoluta y agregada de variabilidad,


será la suma de los desvíos de cada observación:
ESTUDIANTE: Rodrigo Ubaque Gualteros

a. Agregadas (o totales)

La suma de cuadrados total de la distribución será la suma de los desvíos cuadráticos de cada
observación:

b. Medias

Por su parte, el desvío absoluto medio será el promedio de los desvíos, es decir:

Utilizando técnicas del análisis matemático, puede probarse que el desvío absoluto total (y en
consecuencia el medio) será mínimo cuando la medida de tendencia central usada sea la
mediana. A su vez, la suma de cuadrados total será mínima cuando se tome centrada en la
media, de allí la definición de la varianza.

Herramientas computacionales

Todos los cálculos vistos hasta aquí, por supuesto, se hacen con la computadora. Pero como no
nos cansaremos de repetir: es necesario entender qué estamos haciendo y por eso son
importantes las explicaciones. Luego, por supuesto, muchos son los software que vamos a
utilizar. Como habíamos anticipado, dejamos algunas explicaciones y otros materiales, que
incluyen varios códigos QR que los conducirán a los sitios para descargar e instalar los
programas SPSS y R. De todas maneras, empezaremos con un programa muy conocido: el
Excel.

Excel

Este programa, tan usado desde hace años, ofrece una amplia variedad de herramientas
estadísticas. Muchas veces, estas son suficientes para nuestro análisis, y no hace falta sufrir
descargando otros software especiales o pagando por ellos. No hay que caer en la idea de “uso
un programa especializado, entonces mi trabajo es mejor”, pues esto solo no alcanza.
ESTUDIANTE: Rodrigo Ubaque Gualteros

SPSS

Es un software popular entre los usuarios de Windows, es utilizado para realizar la captura y
análisis de datos para crear tablas y gráficas con data compleja. El SPSS es conocido por su
capacidad de gestionar grandes volúmenes de datos y es capaz de llevar a cabo análisis de
texto entre otros formatos más.

Statistics es una potente plataforma de software estadístico. Ofrece una interfaz fácil de usar y
un sólido conjunto de funciones que permiten a su organización extraer rápidamente
información procesable de sus datos. Los procedimientos estadísticos avanzados ayudan a
garantizar una gran precisión y una toma de decisiones de calidad. Se incluyen todas las facetas
del ciclo de vida analítico, desde la preparación y gestión de datos hasta el análisis y la
elaboración de informes.
ESTUDIANTE: Rodrigo Ubaque Gualteros

R es “otro mundo” del que venimos viendo con Excel y SPSS. El motivo de esto es que en R
tenemos que programar. Es un lenguaje totalmente diferente. No es que sea muy complicado,
pero cuando nos asomamos por primera vez a este tipo de programas todo resulta extraño,
para qué negarlo. La enorme ventaja es que si logramos dominarlo (no todo, por supuesto,
solo la parte que nos interesa) las posibilidades que ofrece son prácticamente infinitas. No, no
estamos exagerando. Con R, se pueden hacer desde sencillos cálculos de medias o test de
hipótesis hasta modelos con millones de datos y decenas de variables de todo tipo.

De alguna manera, puede decirse que R es la puerta de entrada a la ciencia de datos (Data
Science) de la cual hablaremos al final del Capítulo 9, en el apartado que lleva ese nombre. Es
un software totalmente gratuito, con una enorme comunidad de usuarios en todo el mundo,
los cuales van aportando al programa nuevos avances cada día. Incluimos cuatro códigos QR:
uno para que puedan descargar el programa y otros para que conozcan sus comunidades.
Características:

1. Lee todo tipo de formatos: SQL, MSQL, Excel, SPSS, Python, Dta, lo que sea, R lo lee.
2. Grandes cantidades de datos, que harían fallar programas como Excel, no son un problema
para R. ¿Cuándo vamos a usar tantos datos? Para analizar un censo, por ejemplo, sin tener
que recurrir a las tablas en los cuales ya están agrupados y, por tanto, limitan nuestro
análisis.
3. Los códigos de R circulan libremente por la web todo el tiempo, en las comunidades de
usuarios. Si necesitamos, por ejemplo, los códigos para extraer los datos de vivienda en
todo Paraguay de los últimos tres censos, seguro alguien ya trabajó en el tema y dejó
varias líneas de códigos escritas. Luego, no es necesario que nosotros empecemos desde
cero.
4. Actualización permanente. Cada avance que se da en la programación de R, no importa
quién lo produzca (un alemán, un hondureño o un japonés) se va subiendo como
“actualización” para que esté disponible para todos.
5. Variedad de herramientas. Por su lenguaje de programación, que permite a los usuarios
adaptarlo a sus necesidades, R desarrolló miles de librerías, paquetes específicos sobre
distintos temas. Así, si estamos trabajando con datos georreferenciados, descargamos los
paquetes correspondientes, que son diferentes a los paquetes para estudios sobre
epidemiología.
6. Aprovechamiento de trabajos previos. Nos referimos ahora desde el punto de vista
personal. En un programa común, como Excel, si iniciamos un nuevo trabajo, aunque se
parezca a uno que hicimos un tiempo atrás, hay que hacer casi todo de nuevo, en especial
si tenemos que hacer algún cambio. Con R, simple- mente copiamos los códigos y listo. Y si
es necesario, podemos introducir modificaciones sin necesidad de rehacer el resto.
ESTUDIANTE: Rodrigo Ubaque Gualteros

Conclusiones

1. Una herramienta común para el procesamiento de datos estadísticos es Excel, que ofrece
una amplia gama de funciones y capacidades para analizar y visualizar datos.
2. Otra herramienta popular es R, un lenguaje de programación especializado en estadísticas
que permite realizar análisis avanzados y modelado de datos.
3. Las Estadísticas descriptivas: Se utilizan para resumir y describir características de un
conjunto de datos, como la media, la mediana, la desviación estándar, etc.
4. Las Estadísticas inferenciales: Se utilizan para hacer inferencias o conclusiones sobre una
población basadas en una muestra representativa de datos.

Referencias
Perez, L. Perez, R. y Seca, M. V. (2020). Metodología de la investigación científica: ( ed.).
Ituzaingó, Editorial Maipue. Recuperado de https://elibro.net/es/ereader/uniminuto/138497?
page=157.

Maxwell, J. A. (2019). Diseño de investigación cualitativa: ( ed.). Barcelona, Editorial Gedisa.


Recuperado de https://elibro.net/es/ereader/uniminuto/127783?page=166.

También podría gustarte