15@KASK'2013 Szybkie wyszukiwanie dokumentów o podobnej tematyce z wykorzystaniem semantycznego haszowania
typ projektu: klasyczny
edycja: 2013
liczba studentów w projekcie 3 - 5
kierownik: -
Wyszukiwanie dokumentów podobnych w dużych korpusach tekstów odbywa się najczęściej poprzez stosowanie tzw. odwróconego indeksu słów. Pozwala to na szybkie odnalezienie dokumentów posiadających jednakowe wyrazy. Chociaż w większości przypadków, podejście to daje satysfakcjonujące wyniki, warto rozwijać metody pozwalające na wyszukiwanie dokumentów znaczeniowo podobnych, a niekoniecznie posiadających takie same wyrazy.
Interesujące, zarówno z punktu widzenia poznawczego, jak i praktycznego, jest wykorzystanie głębokich (wielowarstwowych) sieci neuronowych do tego zadania. Sieć neuronowa uczyłaby się odwzorowywać teksty (reprezentowane jako tzw. worek słów) na kody (działając jako funkcja skrótu) w ten sposób, że podobne znaczeniowo dokumenty otrzymywałyby kody różniące się nieznacznie, a dokumenty tematycznie różne - odpowiednio odległe kody.
Sztuczna siec neuronowa nauczona semantycznego haszowania dokumentów pozwalałaby na szybkie wyszukiwanie dokumentów w wielkich korpusach tekstów.
Członkowie zespołu
Plakat
Semestr 1 : Brak plakatu |
Semestr 2 : Brak plakatu |
Prezentacja / Dokumentacja
Semestr 1 : Brak prezentcji |
Semestr 2 : Brak prezentcji |