Emne

Informasjonsgjenfinning og tekstutvinning (DAT640)

Kurset tilbyr en innføring i teknikker og metoder for behandling, uthenting og søk i store tekstlige datasamlinger. Kurset tar for seg ulike applikasjoner og gir en "hands-on" eksperimentering med "state-of-the-art" algoritmer ved hjelp av eksisterende programvareverktøy og datasamlinger.


Dette er emnebeskrivelsen for studieåret 2022-2023. Merk at det kan komme endringer.

Se emnebeskrivelse og eksamens-/vurderingsinfo for dette studieåret (2024-2025)

Semesters

Fakta

Emnekode

DAT640

Vekting (stp)

10

Semester undervisningsstart

Høst

Undervisningsspråk

Engelsk

Antall semestre

1

Vurderingssemester

Høst

Innhold

  • Søkemotorarkitektur
  • Tekstpreprosessering, indeksering, representasjonslæring
  • Gjenfinningsmetoder (vektor-rom modell, probabilistiske modeller, learning-to-rank, nevrale modeller)
  • Gjenfinningsevaluering
  • Query modellering, relevant tilbakemelding
  • Websøk (gjennomsøking, indeksering, lenkeanalyse)
  • Semantisk søk (kunnskapsbaser, enhetsgjenfinning, enhetslenking)
  • Gruppering av tekst
  • Kategorisering av tekst

Læringsutbytte

Kunnskap:

  • Teori og praksis innen datautvinning og informasjonssøk. Ulike metoder og teknikker vil bli gjennomgått.

Ferdigheter:

  • Prosessere og forberede storskala tekstlige datasamlinger for utvinning og søk.
  • Bruke clustering, klassifisering og rangeringsmetoder til en rekke informasjonstilgangsoppgaver.
  • Evaluere resultater og utføre feilanalyse.

Generell kompetanse:

  • Forstå styrker og begrensninger av populære datautvinning- og informasjonssøkteknikker. Kunne identifisere gode forretningsapplikasjoner og være aktiv deltaker og lede slike prosjekter.

Forkunnskapskrav

Ingen

Eksamen / vurdering

Vurderingsform Vekting Varighet Karakter Hjelpemiddel Exam system Withdrawal deadline Exam date
Prosjektoppgave 2/5 Bokstavkarakterer
Skriftlig eksamen 3/5 4 Timer Bokstavkarakterer Alle trykte eller håndskrevne hjelpemidler tillatt. Bestemt, enkel kalkulator tillatt, Alle hjelpemidler er tillatt – det er ikke tillatt å samarbeide / få hjelp av andre personer i arbeidet med eksamensoppgaven Inspera assessment 07.11.2022 21.11.2022


Prosjektet er en kombinasjon av individuelle og gruppeoppgaver. Prosjektgrupper blir satt opp av faglærer. 

Det er ikke kontemuligheter på prosjektsoppgaven. Studenter som ønsker å ta denne delen på nytt, må ta den opp igjen neste gang emnet har ordinær undervisning.

Alle vurderingsdeler må være bestått for å oppnå samlet karakter i emnet.

Fagperson(er)

Instituttleder:

Tom Ryen

Emneansvarlig:

Krisztian Balog

Arbeidsformer

6 timer forelesning/laboratorieøvinger pr. uke.

Overlapping

Emne Reduksjon (SP)
Websøk og data mining (DAT630_1) , Informasjonsgjenfinning og tekstutvinning (DAT640_1) 5

Åpent for

Enkeltemner ved Det teknisk-naturvitenskaplige fakultet
Data Science - master i teknologi Datateknologi - master i teknologi Kybernetikk og robotteknologi - Master i teknologi/siv.ing. - 5 år
Utveksling ved Det teknisk- naturvitenskapelige fakultet

Emneevaluering

Skjer vanligvis gjennom skjema og/eller samtaler i henhold til gjeldende retningslinjer.

Litteratur

<?xml version="1.0" encoding="UTF-8" ?> Book Text data management and analysis : a practical introduction to information retrieval and text mining Zhai, ChengXiang, Massung, Sean, [San Rafael, Calif.], Morgan & Claypool, XX, 510 s., no. 12, cop. 2016, isbn:9781970001167; 9781970001198, E-book Entity-Oriented Search [electronic resource] Balog, Krisztian., Cham :, Imprint Springer; Springer International Publishing , 1 online resource (XIX, 351 p. 86 illus., 13 illus. in color.), 39, 2018., isbn:3-319-93935-1, Chapters 1--5 View online
Emnebeskrivelsen er hentet fra Felles studentsystem Versjon 1