Emne

Informasjonsgjenfinning og tekstutvinning (DAT640)

Kurset tilbyr en innføring i teknikker og metoder for behandling, uthenting og søk i store tekstlige datasamlinger. Kurset tar for seg ulike applikasjoner og gir en "hands-on" eksperimentering med "state-of-the-art" algoritmer ved hjelp av eksisterende programvareverktøy og datasamlinger.


Dette er emnebeskrivelsen for studieåret 2020-2021. Merk at det kan komme endringer.

Semesters

Fakta

Emnekode

DAT640

Vekting (stp)

10

Semester undervisningsstart

Høst

Undervisningsspråk

Engelsk

Antall semestre

1

Vurderingssemester

Høst

Innhold

  • Søkemotorarkitektur
  • Tekstpreprosessering og indeksering
  • Gjenfinningsmetoder (vektor-rom modell, probabilistiske modeller, learning-to-rank, nevrale modeller)
  • Gjenfinningsevaluering
  • Query modellering, relevant tilbakemelding
  • Websøk (gjennomsøking, indeksering, lenkeanalyse)
  • Semantisk søk (kunnskapsbaser, enhetsgjenfinning, enhetslenking)
  • Gruppering av tekst
  • Kategorisering av tekst
  • Emneanalyse
  • Meningsutvinning og sentimentanalyse

Læringsutbytte

Kunnskap:

  • Teori og praksis innen datautvinning og informasjonssøk. Ulike metoder og teknikker vil bli gjennomgått.

Ferdigheter:

  • Prosessere og forberede storskala tekstlige datasamlinger for utvinning og søk.
  • Bruke clustering, klassifisering og rangeringsmetoder til en rekke informasjonstilgangsoppgaver.
  • Evaluere resultater og utføre feilanalyse.

Generell kompetanse:

  • Forstå styrker og begrensninger av populære datautvinning- og informasjonssøkteknikker. Kunne identifisere gode forretningsapplikasjoner og være aktiv deltaker og lede slike prosjekter.

Forkunnskapskrav

Ingen

Eksamen / vurdering

Vurderingsform Vekting Varighet Karakter Hjelpemiddel Exam system Withdrawal deadline Exam date
Hjemmeeksamen 3/5 4 Timer Bokstavkarakterer Inspera assessment 17.11.2020
Prosjektoppgave 2/5 Bokstavkarakterer 25.08.2020


Prosjektet gjennomføres individuelt eller i grupper på 2 eller 3. Prosjektet  gjennomføres i de grupper som blir satt opp av faglærer. Hvis en student ikke består prosjektet, må hun/han ta denne delen neste gang emnet foreleses.

Hjelpemidler til eksamen:alt skriftlig og trykt materiale, og godkjent enkel kalkulator

Fagperson(er)

Instituttleder:

Tom Ryen

Emneansvarlig:

Krisztian Balog

Arbeidsformer

6 timer forelesning/laboratorieøvinger pr. uke.

Overlapping

Emne Reduksjon (SP)
Websøk og data mining (DAT630_1) , Informasjonsgjenfinning og tekstutvinning (DAT640_1) 5

Åpent for

Enkeltemner ved Det teknisk-naturvitenskaplige fakultet
Data Science - master i teknologi Datateknologi - master i teknologi Kybernetikk og robotteknologi - Master i teknologi/siv.ing. - 5 år
Utveksling ved Det teknisk- naturvitenskapelige fakultet

Emneevaluering

Skjer vanligvis gjennom skjema og/eller samtaler i henhold til gjeldende retningslinjer.

Litteratur

Litteratur1. Zhai C. Text data management and analysis : a practical introduction to information retrieval and text mining. Bd no. 12. (Massung S, red.). Morgan & Claypool; 2016.2. Balog K. Entity-Oriented Search [electronic resource] . Bd 39. 1st ed. 2018. Imprint Springer; Springer International Publishing 2018:1 online resource (XIX, 351 p. 86 illus., 13 illus. in color.).
Emnebeskrivelsen er hentet fra Felles studentsystem Versjon 1