Emne
Informasjonsgjenfinning og tekstutvinning (DAT640)
Kurset tilbyr en innføring i teknikker og metoder for behandling, uthenting og søk i store tekstlige datasamlinger. Kurset tar for seg ulike applikasjoner og gir en "hands-on" eksperimentering med "state-of-the-art" algoritmer ved hjelp av eksisterende programvareverktøy og datasamlinger.
Dette er emnebeskrivelsen for studieåret 2018-2019. Merk at det kan komme endringer.
Semesters
Fakta
Emnekode
DAT640
Vekting (stp)
10
Semester undervisningsstart
Høst
Undervisningsspråk
Engelsk
Antall semestre
1
Vurderingssemester
Høst
Timeplan
Innhold
- Søkemotorarkitektur
- Tekstpreprosessering og indeksering
- Gjenfinningsmetoder (vektor-rom modell, probabilistiske modeller, learning-to-rank, nevrale modeller)
- Gjenfinningsevaluering
- Query modellering, relevant tilbakemelding
- Websøk (gjennomsøking, indeksering, lenkeanalyse)
- Semantisk søk (kunnskapsbaser, enhetsgjenfinning, enhetslenking)
- Gruppering av tekst
- Kategorisering av tekst
- Emneanalyse (PLSA, LSA)
Læringsutbytte
Kunnskap:
- Teori og praksis innen datautvinning og informasjonssøk. Ulike metoder og teknikker vil bli gjennomgått.
Ferdigheter:
- Prosessere og forberede storskala tekstlige datasamlinger for utvinning og søk.
- Bruke clustering, klassifisering og rangeringsmetoder til en rekke informasjonstilgangsoppgaver.
- Evaluere resultater og utføre feilanalyse.
Generelle kompetanser:
- Forstå styrker og begrensninger av populære datautvinning- og informasjonssøkteknikker. Kunne identifisere gode forretningsapplikasjoner og være aktiv deltaker og lede slike prosjekter.
Forkunnskapskrav
Ingen
Eksamen / vurdering
Fagperson(er)
Instituttleder:
Tom RyenEmneansvarlig:
Krisztian BalogFaglærer:
Krisztian BalogFaglærer:
Petra GaluscakovaArbeidsformer
6 timer forelesning/laboratorieøvinger pr. uke.
Overlapping
Emne | Reduksjon (SP) |
---|---|
Websøk og data mining (DAT630_1) , Informasjonsgjenfinning og tekstutvinning (DAT640_1) | 5 |
Åpent for
Studenter tatt opp på masterprogram ved Det teknisk-naturvitenskapelige fakultet.
Emneevaluering
Skjer vanligvis gjennom skjema og/eller samtaler i henhold til gjeldende retningslinjer.
Litteratur
Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining (Zhai and Massung), ACM and Morgan & Claypool Publishers, 2016.
Emnebeskrivelsen er hentet fra Felles studentsystem Versjon 1