miércoles, 14 de mayo de 2014

Weka - crear un archivo .arff desde Excel

Si tienes un conjunto de datos que quieres analizar o aplicarle técnicas de minería de datos utilizando Weka, estos son los pasos que tienes que seguir:

1) Exporta tus datos a Excel.

a) Para el caso de datos que contengan texto y espacios entre sí, hay que ponerles 'comillas simples':

2) Guarda esos datos como .csv (comma separated) MS-DOS




3) Abre ese archivo con el bloc de notas (note pad)

4) Modifica ese archivo a la estructura .arff


a) Empieza con el nombre del archivo el cual va precedido de @Relation


b) Especifica los nombres de cada columna precedido por @Attribute y al final el tipo de archivo, en este caso, para fines prácticos, sólo nos limitaremos a que sean String o NUMERIC.

c) Justo antes de los datos, poner @Data

d) Guardar el archivo como ANSI y con la extensión .arff

5) Abre el archivo en Weka. La manera más fácil es darle doble clic al archivo

6) Ahora verás que no todas las columnas muestran las gráficas, sino más bien un error que dice algo como "This attribute is neither a string nor nominal". Toma nota de cuáles atributos son (en Weka aparecen  numerados desde el 1)

7) En el menú de weka donde dice Filter, dale clic en "Choose", ve al submenú "unsupervised", luego a "attribute" y selecciona uno que está casi hasta abajo y que dice "StringToNominal".


8) Verás que en la ventana principal de Weka, dicho filtro aparece en negritas, justo ahí dale clic y se aparecerá una ventanita, y justo en el cuadro de texto que dice "Attribute Range", teclea los atributos que presentan el problema. En mi caso son el segundo y cuarto atributo, por lo que simplemente tecleo "2, 4" (dos coma cuatro y sin las comillas) y le damos OK.


9) Del lado derecho está el botón de "Apply" (aplicar) y esperamos a que Weka lo procese.

10) Por último, guarda tu archivo .arff de nuevo dándole clic al botón "Save" que está en la parte superior derecha ya que le hicimos modificaciones.

Listo!!! Y tienes tu archivo .arff ☺
 

Tags