15@KASK'2013 Szybkie wyszukiwanie dokumentów o podobnej tematyce z wykorzystaniem semantycznego haszowania

typ projektu: klasyczny

edycja: 2013

liczba studentów w projekcie 3 - 5

kierownik: -


Wyszukiwanie dokumentów podobnych w dużych korpusach tekstów odbywa się najczęściej poprzez stosowanie tzw. odwróconego indeksu słów. Pozwala to na szybkie odnalezienie dokumentów posiadających jednakowe wyrazy. Chociaż w większości przypadków, podejście to daje satysfakcjonujące wyniki, warto rozwijać metody pozwalające na wyszukiwanie dokumentów znaczeniowo podobnych, a niekoniecznie posiadających takie same wyrazy.
Interesujące, zarówno z punktu widzenia poznawczego, jak i praktycznego, jest wykorzystanie głębokich (wielowarstwowych) sieci neuronowych do tego zadania. Sieć neuronowa uczyłaby się odwzorowywać teksty (reprezentowane jako tzw. worek słów) na kody (działając jako funkcja skrótu) w ten sposób, że podobne znaczeniowo dokumenty otrzymywałyby kody różniące się nieznacznie, a dokumenty tematycznie różne - odpowiednio odległe kody.
Sztuczna siec neuronowa nauczona semantycznego haszowania dokumentów pozwalałaby na szybkie wyszukiwanie dokumentów w wielkich korpusach tekstów.

Członkowie zespołu

Plakat

Semestr 1 : Brak plakatu
Semestr 2 : Brak plakatu

Prezentacja / Dokumentacja

Semestr 1 : Brak prezentcji
Semestr 2 : Brak prezentcji