Lo que quiero al final es un sistema que genere clustering automatico, como en
www.clusty.com (denle una busqueda)
Uno de los algoritmos mas prometedores es:
http://www.knowledgesearch.org/lsi/lsa_explanation.htm
Miren la explicacion.....
La trampa es que se hace una matriz de palabras VS documentos y se pone un valor que puede ser el numero de veces que aparece o un dato que lo da MUTIS.
Sobre ese valor, se corre SVD, que da una matriz lista. Sobre ella se corre la busqueda de palabra y luego se saca un top 10 de cluster.
Porque tan grande?
MUTIS es el fundamento de un buscador para LAN. Mi meta es poder indexar hasta 50 computadores con sus archivos, base de datos, correos, todo eso.
Supongamos que hay 50.000 archivos con informacion de texto x 50 computadores eso da unos 2'500.000 de documentos y que cada documento tenga unas 50 palabras (despues de quitarles las stop words y reducir los fonemas) 50*50.000*50 = 12'500.000.
Es muy bravo, lo se. El problema es que llevo como mas de 1 año buscando como hacer esto... pero todo el codigo que consigo es de cientificos que a) No se entiende b) Es absurdamente ineficiente, cuando se entiende... c) Otros frameworks me salen en Java que son muy monstruosos o de soluciones que no me convencen.
Hay un tipo frances que me remitio una tipa de MS del grupo de research del motor de busqueda de MS que dice tiene una solucion escalable y me mando algo de codigo en C y Perl, pero todavia no le veo como es que funciona...
En fin, la solucion ideal es un algoritmo que genere clusters, automaticos. O algo que me permita moler esa informacion...