Competencia de Data Mining : Previniendo el sobreajuste (overfitting)

Uno de los principales objetivos de los modelos predictivos es poder generar predicciones precisas a partir de la información oculta en los datos. Por ello, uno de los pasos necesarios en el modelamiento es asegurar que no haya sobreajuste (overfitting) de los datos de entrenamiento,  ya que ello posiblemente conducirá a predicciones sub-óptimas a la hora de utilizar nuevos datos.

Es así como nos hemos enterado que Kaggle, una solución de outsourcing de estadística y analytics, ha lanzado una competencia para estimular la investigación y probar distintos algoritmos, técnicas o estrategias de Data Mining para protegerse del sobreajuste. La idea general de Kaggle consiste en que empresas y/o instituciones anfitrionas proponen un problema y un set de datos a la comunidad. Este problema es abordado por científicos, expertos, estudiantes y amateurs repartidos en todo el mundo, que compiten para producir las mejores soluciones. Al final de la competencia, el anfitrión paga un premio en dinero a cambio de la propiedad intelectual del modelo ganador.

Hemos revisado el sitio y hay varias competencias interesantes. Para este reto en particular, se dispone un conjunto de datos simulados con 200 variables y 20 mil casos. Una “ecuación” se creó con el fin de generar la variable target de predicción. Teniendo en cuenta los 20.000 casos y 250 casos de entrenamiento, el objetivo es construir un modelo que prediga los restantes 19.750 casos. Esta competencia es de especial importancia para el análisis de datos médicos, donde a menudo el número de casos conocidos (de entrenamiento) es restringido.

La competencia termina el 15 de mayo y tiene un premio de USD 500 para el ganador. Si quieres participar, sigue este enlace y buena suerte!

Leave a reply