Está en la página 1de 2

NOTAS Y TIPS DE ESTADISTICA INFERENCIAL

Azar y variabilidad son dos palabras clave para entender la mayor parte de las ideas que se plasman en las
técnicas estadísticas.
Conocer los fundamentos de la teoría de estadística inferencial incrementa nuestra intuición y posibilita un
mejor entendimiento de lo impredecible.
Es imprescindible comprender que la variabilidad, la diversidad, constituye un ingrediente esencial en
cualquier fenómeno aleatorio. La variabilidad está presente también en todos los experimentos científicos
y su análisis es fundamental para explicar los factores que influyen o condicionan un sistema.
En una investigación científica es poco común que se conozcan todos los elementos de una población
objeto de estudio. Luego, en general, intentaremos derivar conclusiones sobre la población a partir de un
subconjunto de datos representativos que denominaremos muestra, es decir, haremos inferencia, es decir
se puede sacar conclusiones de los datos.
Uno de los principales problemas en los experimentos es, precisamente, determinar el tamaño muestral,
dado que a veces es difícil recoger suficiente información de un experimento en un tiempo y con un coste
admisibles. En la actualidad también tenemos el problema inverso, es decir, el análisis de la información
cuando el tamaño muestral es realmente grande. Es lo que se conoce como “Big Data”.
El hecho de que cada vez tengamos más recursos para almacenar ingentes cantidades de datos, bien sea
porque el tamaño muestral es enorme o porque la estructura de cada dato es muy compleja, por ejemplo,
cuando los datos son imágenes, son funciones representadas en el plano o el espacio, hace que se requiera
del desarrollo específico de técnicas para su análisis, como el análisis de datos funcionales (FDA, en sus
siglas en ingles).
El creciente desarrollo de las computadoras ha posibilitado que las distintas técnicas de análisis sean
relativamente fáciles de programar y abundan los paquetes o software especializados en tratamientos
estadísticos de datos, como por ejemplo R. En consecuencia, la formación de un experto en estadística ha
de incluir, necesariamente, un entrenamiento en estos programas de cálculo y representación gráfica. El
investigador ha de ser capaz de identificar y manejar una herramienta informática con la que llevar a cabo
los cálculos requeridos para resolver un problema y, además, interpretar correctamente toda la
información facilitada por las salidas de resultados.
El objetivo de este libro Técnicas Estadísticas con Excel y R, es proporcionar los recursos estadísticos
básicos que cualquier graduado en estadística o investigador novel debiera conocer para iniciar su trabajo
en una empresa o en un organismo de investigación.
En cuanto a las herramientas informáticas, hemos decidido recurrir a la hoja de cálculo Excel y al programa
R. La hoja de cálculo es una herramienta muy sencilla y especialmente adecuada para una primera
aproximación intuitiva a las técnicas de análisis. El programa R es un proyecto de “software libre”
especialmente diseñado para el tratamiento de datos estadísticos que incorpora las ´ultimas técnicas y
novedades en la investigación científica en este campo.
Aprender Estadística requiere tiempo, paciencia, reflexión, maduración, trabajo, constancia,...
Los métodos de remuestreo son herramientas inferenciales de gran aplicación cuando, por ejemplo, no se
conoce la distribución inicial de los datos. Uno de los métodos más conocido es el método “ bootstrap”
mediante el cual se obtiene información de las muestras obtenidas con reemplazamiento a partir de una
muestra dada. Los procesos estocásticos y las series temporales también son temas de gran relevancia. Se
trata de modelar el comportamiento de una serie de observaciones de una variable que han sido tomadas
secuencialmente a lo largo del tiempo. Dentro del análisis multivariante destacamos técnicas como el
análisis discriminante, el análisis factorial o los métodos de clasificación. Por medio del análisis
discriminante es posible, por ejemplo, identificar el origen de una determinada planta a partir de algunas
variables. En este caso, la variable respuesta es cualitativa y las independientes cuantitativas. El método se
basa en obtener unas funciones de las variables originales, que se llaman funciones discriminantes, que
nos permiten decidir en que clase debe estar cada elemento, utilizando como criterio de asignación la
proximidad o similitud de cada elemento a las distintas clases o grupos existentes. La asignación de los
elementos a clases se realiza mediante el criterio de Bayes, es decir, cada elemento se asigna a la clase
para la cual es mayor la probabilidad de pertenencia condicionada por los valores que toman las funciones
discriminantes. El análisis discriminante se utiliza también en el tratamiento de imágenes digitales. Es
habitual utilizar esta técnica para asignar cada pixel de una imagen a una clase de terreno que puede ser
bosque, carretera, mar, ... Si disponemos de un número grande de variables cuantitativas que están
fuertemente correladas entre ellas, con técnicas de análisis factorial podemos identificar unas pocas
variables, o factores, que no son directamente observables, que no están relacionados linealmente entre
ellos, y de modo que cada factor se corresponda con una serie de variables cuantitativas. Las técnicas de
análisis factorial se emplean tanto para detectar relaciones existentes dentro de un conjunto de variables
como para simplificarlo. Uno de los métodos más utilizados es el de componentes principales. En los
métodos de clasificación en los que la variable respuesta es categórica, se trata de obtener grupos o
“clusters” homogéneos, es decir, construidos de tal forma que los elementos de cada grupo sean similares
entre sí y los grupos deben estar lo más diferenciados que sea posible. Por ejemplo, imaginemos que
tenemos diversos pigmentos de algas diferentes y nuestro objetivo es determinar si es posible diferenciar
las clases de algas en función de su composición relativa de pigmentos, es decir, hacer “clusters” o grupos
de algas de modo que las algas que finalmente estén en el mismo grupo sean lo más parecidas entre ellas
según sus pigmentos. Las dos técnicas de clasificación más conocidas son la clasificación jerárquica y la
clasificación de k-medias.

También podría gustarte