Análisis estadístico y modelización

En esta nueva entrada de estadística vamos a abordar el segundo trabjo voluntario, aunque no profundizaremos en él, sino en aquello que se pretende que aprendamos a hacer con su realización. Nada menos que el análisis y modelación de datos estadísticos obtenidos experimentalmente mediante el sondeo de una zona del subsuelo (!). Haremos especial incidencia en la modelación de datos mediante el uso de nuestro software de referencia: MATLAB. No obstante, estructuramos la entrada conforme a la secuencia del trabajo voluntario, para que te sirva de ayuda con tu redacción o para cualquier otra cosa.

Imagen de: Kevin Dooley

Comenzamos realizando estimaciones de probabilidades eligiendo previamente un valor de clasificación que determinará todos nuestros resultados. Finalizadas estas estimaciones de probabilidad que persiguen hacernos conscientes de si el criterio de clasificación que hemos elegido es eficiente o, por el contrario, los errores que se cometen no son tolerables, en cuyo caso habría que cambiar dicho criterio; pasamos a la parte más interesante del trabajo: la modelización de las distribuciones.

A menudo he oído a mis compañeros decir que “esto no vale para nada” o “nunca usaremos esto o aquello” y un largo etcetera. Sin embargo, esta parte de la estadística, y la asignatura entera (exceptuando los principios con combinatoria) es tremendamente pragmática y útil en un futuro profesional, dónde, la cantidad ingente de datos que manejemos, o bien, vendrán en forma de estadísticas, o tendremos que hacer nosotros mismos el estudio estadístico de los datos “en bruto”.

Pasemos entonces a la modelización de las distribuciones de probabilidad. En primer lugar, debemos haber realizado los histogramas pertinentes, una vez hecho esto debemos elegir una distribución de probabilidad que se ajuste a la muestra obtenida. En este trabajo las funciones nos son dadas, mientras que en la realidad, deberemos tomar aquella que mejor aproxime los datos que manejamos. Antes de comenzar, aclarar que existen múltiples formas de interpolar o modelizar una serie de datos aparentemente inconexos o que no siguen una “regla”, como puede ser los métodos de mínimos cuadrados (ver: Curve fitting toolbox), aquí adoptaremos el presupuesto de que las distribuciones de los datos son adaptables a una función de distribución conocida.

Para determinar la función que mejor se adapta a nuestros datos podemos usar los Hypothesis tests; si de verdad estáis interesados en aprender, os recomiendo muy encarecidamente que le echeis un ojo al manual de MATLAB. Aunque, para nuestros propósitos, más modestos, utilizaremos el camino fácil: dfittool(data). Exite un turorial completo en las instrucciones bajo el nombre de Modeling Data Using the Distribution Fitting Tool.

Realizaremos un sencillo caso:

1. Comenzamos por cargar nuestros datos:

load ‘C:\Users\…\Trabajo Estadística\dolomia.txt’ dolomia

2. Llamamos a la herramienta, que nos presenta directamente el histograma:

dfittool(dolomia)

3. A continuación, mediante New fit… realizamos una primera modelización, probemos con la normal [Atención! si queréis modelar, como es el caso, una distribución de densidad, debereis tener seleccionado Display type: density(PDF) ; si quereis modelar otra función, abrir el desplegable y seleccionarla]

Tras pulsar New fit… seleccionamos Distribution: Normal; y Apply. Automaticamente Matlab representará la curva normal que mejor se ajuste y, lo más importante, nos dará todos sus datos.


4. Ante este gráfico, podemos probar otras funciones, lo haremos con la que nos recomienda el profesor: lognormal (mismo proceso)

5. Ahora podemos comparar cuál de las dos funciones se ajusta mejor, comparando esos datos que nos da MATLAB:

El mayor valor del indicador Log likelihood nos dará la distribución que más se adecua a nuestros datos, aunque es facilmente discernible por los valores de desviación típica en los parámetros estimados.

Con esto, podremos modelar los datos que nos vayamos encontrando, de forma muy rápida y muy sencilla. Eso sí, este es un método limitado y poco general, os recomiendo profundizar en otros medios más generales y mucho más potentes presentes en el propio MATLAB.

Para concluir, os quiero dejar nuestro trabajo, bajo licencia creative commons, reservándonos ciertos derechos. Por supuesto podéis pasaros la licencia por… aunque no os lo recomiendo. Tal y como nos han repetido ultimamente muchos profesores, “solo sabes hacer aquello que ya has hecho, no aquello que sabes cómo se hace”. Luego, utiliza todas las herramientas de las que dispongas, fíjate en nuestro trabajo y haz el tuyo. Aprenderás muchísimo más que si simplemente lo copias.

Un saludo!

PD: tras revisar el trabajo, el profesor Míguez nos remitió una serie de recomendaciones para acortar nuestros scripts, que os dejo aquí.

Creative Commons License
Trabajo voluntario 2 by Alejandro Núñez is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s