Emne
Informasjonsgjenfinning og tekstutvinning (DAT640)
Kurset tilbyr en innføring i teknikker og metoder for behandling, uthenting og søk i store tekstlige datasamlinger. Kurset tar for seg ulike applikasjoner og gir en "hands-on" eksperimentering med "state-of-the-art" algoritmer ved hjelp av eksisterende programvareverktøy og datasamlinger.
Dette er emnebeskrivelsen for studieåret 2021-2022. Merk at det kan komme endringer.
Semesters
Fakta
Emnekode
DAT640
Vekting (stp)
10
Semester undervisningsstart
Høst
Undervisningsspråk
Engelsk
Antall semestre
1
Vurderingssemester
Høst
Innhold
- Søkemotorarkitektur
- Tekstpreprosessering og indeksering
- Gjenfinningsmetoder (vektor-rom modell, probabilistiske modeller, learning-to-rank, nevrale modeller)
- Gjenfinningsevaluering
- Query modellering, relevant tilbakemelding
- Websøk (gjennomsøking, indeksering, lenkeanalyse)
- Semantisk søk (kunnskapsbaser, enhetsgjenfinning, enhetslenking)
- Gruppering av tekst
- Kategorisering av tekst
Læringsutbytte
Kunnskap:
- Teori og praksis innen datautvinning og informasjonssøk. Ulike metoder og teknikker vil bli gjennomgått.
Ferdigheter:
- Prosessere og forberede storskala tekstlige datasamlinger for utvinning og søk.
- Bruke clustering, klassifisering og rangeringsmetoder til en rekke informasjonstilgangsoppgaver.
- Evaluere resultater og utføre feilanalyse.
Generell kompetanse:
- Forstå styrker og begrensninger av populære datautvinning- og informasjonssøkteknikker. Kunne identifisere gode forretningsapplikasjoner og være aktiv deltaker og lede slike prosjekter.
Forkunnskapskrav
Eksamen / vurdering
Vurderingsform | Vekting | Varighet | Karakter | Hjelpemiddel | Exam system | Withdrawal deadline | Exam date |
---|---|---|---|---|---|---|---|
Hjemmeeksamen | 3/5 | 4 Timer | Bokstavkarakterer | Inspera assessment | 07.12.2021 | — | |
Prosjektoppgave | 2/5 | Bokstavkarakterer | — | — | — |
Prosjektet er en kombinasjon av individuelle og gruppeoppgaver. Prosjektgrupper blir satt opp av faglærer.
Det er ikke kontemuligheter på prosjektsoppgaven. Studenter som ønsker å ta denne delen på nytt, må ta den opp igjen neste gang emnet har ordinær undervisning.
Alle vurderingsdeler må være bestått for å oppnå samlet karakter i emnet.
Hjelpemidler til eksamen:alt skriftlig og trykt materiale, og godkjent enkel kalkulator
Fagperson(er)
Instituttleder:
Tom RyenEmneansvarlig:
Krisztian BalogFaglærer:
Krisztian BalogFaglærer:
Petra GaluscakovaArbeidsformer
Overlapping
Emne | Reduksjon (SP) |
---|---|
Websøk og data mining (DAT630_1) , Informasjonsgjenfinning og tekstutvinning (DAT640_1) | 5 |
Åpent for
Emneevaluering
Litteratur
Book
Text data management and analysis : a practical introduction to information retrieval and text mining Zhai, ChengXiang, Massung, Sean, [San Rafael, Calif.], Morgan & Claypool, XX, 510 s., no. 12, cop. 2016, isbn:9781970001167; 9781970001198,
E-book
Entity-Oriented Search [electronic resource] Balog, Krisztian., Cham :, Imprint Springer; Springer International Publishing , 1 online resource (XIX, 351 p. 86 illus., 13 illus. in color.), 39, 2018., isbn:3-319-93935-1, Chapters 1--5 https://bibsys-ur.userservices.exlibrisgroup.com/view/uresolver/47BIBSYS_UBIS/openurl?ctx_enc=info:ofi/enc:UTF-8&ctx_id=10_1&ctx_tim=2020-05-19T11:09:24IST&ctx_ver=Z39.88-2004&url_ctx_fmt=info:ofi/fmt:kev:mtx:ctx&url_ver=Z39.88-2004&rfr_id=info:sid/primo.exlibrisgroup.com-BIBSYS_ILS&req_id=&rft_dat=ie=47BIBSYS_DIAKON:5141636900002247,ie=47BIBSYS_UBIS:5176639730002208,ie=47BIBSYS_UBB:51164968700002207,ie=47BIBSYS_UBA:5175885660002209,ie=47BIBSYS_UBTO:51132887690002205,ie=47BIBSYS_UBO:51219580670002204,ie=47BIBSYS_SSHF:5123146620002269,ie=47BIBSYS_NIH:5125837550002238,ie=47BIBSYS_UBIN:5192604960002211,ie=47BIBSYS_NTNU_UB:51245894430002203,ie=47BIBSYS_NMBU:5137555320002213,ie=47BIBSYS_MF:5142753320002227,ie=47BIBSYS_LOVISHS:5124112550002272,ie=47BIBSYS_HIB:5159567020002221,ie=47BIBSYS_HIO:5180303690002218,ie=47BIBSYS_HIT:5168700090002210,ie=47BIBSYS_HIOA:5180910740002212,ie=47BIBSYS_FFI_BIBL:5119268700002246,ie=47BIBSYS_SIRUS:5133591110002256,ie=47BIBSYS_DMMH:5125896880002262,ie=47BIBSYS_AHUS:5132459740002263,ie=47BIBSYS_NETWORK:71568821940002201,language=eng,view=UBIS&svc_dat=viewit&u.ignore_date_coverage=true&user_ip=10.16.56.57&req.skin=primoView online