Práctica 1. Uso de WEKA: Evaluacion de tecnicas de combinacion de clasificadores

MRA, 2012/13


Índice General

Descripción de la práctica

El trabajo constará una evaluación de distintas técnicas de combinación de clasificadores supervisados. Para ello se utilizará como base el entorno WEKA que implementa en Java distintas variantes de algoritmos de este tipo.

Objetivos

Tareas a realizar

Las tareas a realizar supondrán el uso del interfaz gráfico de WEKA para lanzar diversas tandas de aprendizaje-evaluación de los algoritmos a estudiar. Se evaluarán distintas combinaciones de parámetros para cada uno de los algoritmos estudiados con el objetivo de identificar los valores de los parámetros que ofrezcan mejor rendimiento.

Algoritmos a evaluar

En cuanto a los algoritmos a evaluar, serán los siguientes:

Datos de entrenamiento a utilizar

En cuanto a los datos a utilizar en los experimentos, se utilizarán tres datasets. Dos de ellos forman parte del repositorio UCI (más detalles en la descripciones incluidas en el repositorio):

El tercer dataset no se encuentra en formato ARFF (será necesario crear un archivo ARFF conforme a las indicaciones que se proporcionan)

Tareas

Las tareas concretas a realizar serán las siguientes:

  1. Se evaluarán de forma aislada los algoritmos J48 y IBk para identificar las configuraciones más beneficiosas de cada algoritmo para cada uno de los tres datasets.
  2. Se comprobará si los resultados obtenidos mejoran al emplear BAGGING y BOOSTING para combinar cada uno de los clasificadores básicos (C4.5 e IBk) y se identificarán las configuraciones de BAGGING y BOOSTING con mejores resultados.

En cada caso, se realizara una evaluación de diferentes configuraciones, variando los distintos parámetros que rigen el funcionamiento de los algoritmos de aprendizaje.

Para la evaluación de los resultados del aprendizaje se usarán las propias medidas de rendimiento (% aciertos y % errores, etc) que proporciona el interfaz de WEKA.

Normas de entrega

Práctica individual o en parejas.

En la memoria de la práctica se debe incluir:

FECHA LIMITE DE ENTREGA: (07/05/2013)

Desarrollo de la práctica

Uso de WEKA

Además del uso directo del API de programación de WEKA que se revisará en la segunda práctica, el interfaz gráfico de WEKA ofrece 4 modos de funcionamiento [Applications] (ver manual completo en PDF):
Explorer.
Interfaz básico para usar el conjunto de algoritmos que ofrece WEKA (clasificación, clustering, reglas de asociación, selección de atributos y visualización)
Experimenter.
Interfaz gráfico para automatizar baterías de experimentos
Knowledge Flow.
Interfaz gráfico para diseñar flujos y procesos donde se combinen varios componentes para conformar aplicaciones complejas.
Simple CLI.
Acceso los algoritmos de WEKA desde un interfaz de línea de comandos.

Para realizar esta práctica se empleará el interfaz Explorer (ver presentación PPT), si se hacen las pruebas ''manuales'', o el interfaz Experimenter, si se desean automatizar las pruebas.

Las funcionalidades del interfaz Explorer se organizan en 6 pestañas:

Preprocess.
Carga de los datasets a emplear y procesamiento previo a la aplicación de los algoritmos de aprendizaje
Classify.
Interfaz de experimentación con algoritmos de clasificación
Cluster.
Interfaz de experimentación con algoritmos de clustering
Associate.
Interfaz de experimentación con algoritmos para aprendizaje de reglas de asociación
Select attributes.
Interfaz de experimentación con algoritmos de selección de atributos
Visualize.
Interfaz para la visualización de datasets, relaciones entre atributos, etc

Importante:
  • Para obtener resultados realmente significativos y comparables se deberá usar en todas las pruebas el mismo método de evaluación (Percentage split o Cross validation), con los mismo parámetros.

  • En el caso concreto de esta práctica, bastará con utilizar el porcentaje de aciertos y errores como criterio de comparación, no es necesario usar otras medidas más complejas.

Recursos y herramientas

Información sobre WEKA

Datos de entrenamiento



Santiago Fernández Lanza 2013-01-07