Emne

Reinforcement Learning (DAT605)

Dette kurset vil introdusere AI og optimalisering på en morsom, enkel, interessant, oppslukende og praktisk måte. Optimaliseringsproblemer blir viktige på tvers av flere disipliner. Ferdighetene oppnådd gjennom dette kurset vil tillate bruk av effektive optimaliseringsstrategier i arbeidsprosesser. Disse kan inkludere optimalisering av komplekse maskinlæringsmodeller som gjør dem mer effektive, lage utforskende modeller som uten opplæring kan evaluere en situasjon og gradvis ta positive beslutninger, utforske økonomiske data for å oppdage mønstre som fører til gunstige resultater og andre.


Dette er emnebeskrivelsen for studieåret 2024-2025. Merk at det kan komme endringer.

Se emnebeskrivelse og eksamens-/vurderingsinfo for dette studieåret (2024-2025)

Semesters

Fakta

Emnekode

DAT605

Vekting (stp)

5

Semester undervisningsstart

Høst

Undervisningsspråk

Engelsk

Antall semestre

1

Vurderingssemester

Høst

Innhold

NB! Dette er et valgemne og dersom det er færre enn 10 studenter oppmeldt pr. 20. august, kan dette medføre at emnet ikke tilbys.

Kunstig intelligens i denne epoken har blitt synonymt med overvåket og uovervåket læring. Veiledet læring er best egnet for saker som har et stort sett med eksempler på input og ønskede utganger, og målet er å lære basert på slike eksempler for å generere resultater fra fremtidige, foreløpig usett input. Tekstklassifisering, bildeklassifisering, objektplassering, regresjonsproblemer og sentimentanalyse er områder hvor overvåket læring er mye brukt. Mens uovervåket læring tar sikte på å oppdage en skjult struktur av dataene uten å måtte ha en spesifikk distinksjon i inngangs- og utdataverdiene. Slike læringsteknikker brukes ofte for gruppering av data som prøver å kombinere dataelementer til et sett med klynger som avslører relasjoner i data.

Forsterkende læring ligger et sted mellom veiledet og uovervåket former for læringsteknikker. På den ene siden bygger den på etablerte metoder for overvåket læring for funksjonstilnærming, stokastisk gradientnedstigning og tilbakepropagasjon for å lære datarepresentasjon, men på den annen side krever det ikke tilsyn for å oppdage skjulte mønstre og relasjoner i data. Forsterkende læring fokuserer først og fremst på problemet med automatisk læring av optimale beslutninger over tid i et komplekst miljø ved å bygge på fremskritt innen informatikk, atferdspsykologi og nevrovitenskap. På grunn av sin fleksibilitet og generalitet utvikler RL-feltet seg veldig raskt og tiltrekker seg mye oppmerksomhet, både fra forskere som prøver å forbedre eksisterende metoder eller lage nye metoder og fra praktikere som er interessert i å løse sine problemer på den mest effektive måten.

Målgruppen for dette kurset vil være fagfolk og studenter som arbeider eller er interessert i områder innen kunstig intelligens, maskinlæring, spillteori, kontrollteori, operasjonsforskning, informasjonsteori, simuleringsbasert optimalisering, multiagentsystemer, svermintelligens og statistikk.

Læringsutbytte

Konsepter dekket i dette kurset vil gi relevant teoretisk og praktisk programmeringskunnskap. Hvert emne demonstreres ved hjelp av enkle eksempler fra den virkelige verden. Følgende emner vil bli dekket i løpet av kursets varighet:

Kunnskap:

  • Topic 1: Reinforcement Learning - an introduction
  • Topic 2: Course Materials, Supplementary Resources, and Development Environment
  • Topic 3: Tabular Methods
  • Topic 4: Dynamic Programming
  • Topic 5: Monte-Carlo & Temporal Difference and Q-Learning
  • Topic 6: Policy Gradients
  • Topic 7: The Actor-Critic Method
  • Topic 8: Deep Q-Network - an Overview
  • Topic 9: Further Exploration

Ferdigheter:

  • Gode programmeringskunnskaper
  • Kunnskap om grunnleggende algebra, sannsynlighet og statistikk
  • Python programmeringskunnskap
  • Forståelse av Numpy, Matplotlib

Generell kompetanse:

  • Artificial Neural Networks
  • Deep Learning
  • Convolutional Neural Networks

Forkunnskapskrav

Ingen

Anbefalte forkunnskaper

Grunnleggende programmering (DAT120), Introduksjon til datavitenskap (DAT540), Sannsynlighetsregning og statistikk 2 (STA500)

Eksamen / vurdering

Vurderingsform Vekting Varighet Karakter Hjelpemiddel Exam system Withdrawal deadline Exam date
Prosjektrapport (gruppe) 1/2 Bokstavkarakterer 18.10.2024
Muntlig eksamen 1/2 Bokstavkarakterer Ingen hjelpemidler tillatt 22.11.2024 06.12.2024


Prosjektarbeid i grupper

Prosjektet gjennomføres i grupper. Prosjektarbeid skal utføres i de gruppene som tildeles og publiseres. Fravær på grunn av sykdom eller andre årsaker skal snarest meldes til foreleser.

En prosjektrapport inkludert kildekode, og en muntlig eksamen bidrar til karakteren.

Dersom en student stryker i prosjektarbeidet, må han/hun ta det på nytt neste gang emnet foreleses.

Vilkår for å gå opp til eksamen/vurdering

Innlevereingsoppgaver

Gjennom semesteret arbeider studentene individuelt med 2 oppgaver. Disse oppgavene er obligatoriske og må bestås innen kunngjort frist slik at studenten har rett til å gå opp til eksamen.

Fravær på grunn av sykdom eller andre årsaker skal meldes til laboratoriepersonellet så snart som mulig. Man kan ikke forvente at det foretas bestemmelser om gjennomføring av laboratorieoppdrag på andre tidspunkter med mindre det er avtalt på forhånd med laboratoriepersonellet.

Fagperson(er)

Instituttleder:

Tom Ryen

Arbeidsformer

The work will consist of 4 hours of lecture and 2 hours of laboratory work.

Students are expected to spend an additional 4-8 hours a week on self-study, group discussions and development work.

Åpent for

Enkeltemner ved Det teknisk-naturvitenskaplige fakultet
Data Science - master i teknologi
Utveksling ved Det teknisk- naturvitenskapelige fakultet

Emneevaluering

Det skal være en tidligdialog mellom emneansvarlig, studenttillitsvalgt og studentene. Formålet er tilbakemelding fra studentene for endringer og justering i emnet inneværende semester.I tillegg skal det gjennomføres en digital emneevaluering minimum hvert tredje år. Den har som formål å innhente studentenes erfaringer med emnet.

Litteratur

Book Deep Reinforcement Learning in Action Brandon Brown ; Alexander Zai, Manning Publications, 2020-03-29, isbn:1-63835-050-7, https://bibsys-ur.userservices.exlibrisgroup.com/view/uresolver/47BIBSYS_UBIS/openurl-XYEUBIS?ctx_enc=info:ofi/enc:UTF-8&ctx_id=10_1&ctx_tim=2024-03-10T21%3A30%3A12IST&ctx_ver=Z39.88-2004&url_ctx_fmt=info:ofi/fmt:kev:mtx:ctx&url_ver=Z39.88-2004&rfr_id=info:sid/primo.exlibrisgroup.com-safari&rft_val_fmt=info:ofi/fmt:kev:mtx:&rft.genre=unknown&rft.au=Brandon%20Brown&rft.date=2020-03-29&rft.isbn=9781617295430&rft_id=info:doi/&rft.pub=Manning%20Publications&rft_id=info:bibcode/&rft_id=info:hdl/&rft_id=info:lccn/&rft_id=info:oclcnum/&rft_id=info:pmid/&rft_id=info:eric/&rft_dat=%3Csafari%3E9781617295430VE%3C/safari%3E,language=eng,view=UBIS&svc_dat=getit&user_ip=10.16.56.56&req.skin=primoView online Book Reinforcement Learning [electronic resource] : State-of-the-Art Wiering, Marco ; Otterlo, Martijn van, van Otterlo, Martijn ; Wiering, Marco, Berlin, Heidelberg :, Springer Berlin Heidelberg ; Imprint Springer, 1 online resource (653 p.), 12, 2012., isbn:1-280-79537-9; 9786613705761; 3-642-27645-8, https://bibsys-ur.userservices.exlibrisgroup.com/view/uresolver/47BIBSYS_UBIS/openurl-XYEUBIS?ctx_enc=info:ofi/enc:UTF-8&ctx_id=10_1&ctx_tim=2024-03-10T21%3A30%3A51IST&ctx_ver=Z39.88-2004&url_ctx_fmt=info:ofi/fmt:kev:mtx:ctx&url_ver=Z39.88-2004&rfr_id=info:sid/primo.exlibrisgroup.com-proquest_opena&rft_val_fmt=info:ofi/fmt:kev:mtx:book&rft.genre=book&rft.btitle=Reinforcement%20Learning:%20State-of-the-Art&rft.au=Wiering,%20Marco&rft.date=2012&rft.volume=12&rft.issn=1867-4534&rft.eissn=1867-4542&rft.isbn=364227644X&rft_id=info:doi/10.1007/978-3-642-27645-3&rft.eisbn=9783642276453&rft.edition=1.%20Aufl.&rft.pub=Springer-Verlag&rft.place=Berlin,%20Heidelberg&rft.series=Adaptation,%20learning,%20and%20optimization,%20volume%2012&rft_id=info:bibcode/&rft_id=info:hdl/&rft_id=info:lccn/&rft_id=info:oclcnum/801364160&rft_id=info:pmid/&rft_id=info:eric/&rft_dat=%3Cproquest_opena%3EEBC973075%3C/proquest_opena%3E,language=eng,view=UBIS&svc_dat=getit&user_ip=10.16.56.56&req.skin=primo&rft_pqid=EBC973075View online Book Learning to play : reinforcement learning and games Plaat, Aske,, Cham, Switzerland :, Springer, 1 online resource (XIII, 330 p. 111 illus., 72 illus. in color.), [2020]; ©2020, isbn:3-030-59238-3, https://bibsys-ur.userservices.exlibrisgroup.com/view/uresolver/47BIBSYS_UBIS/openurl-XYEUBIS?ctx_enc=info:ofi/enc:UTF-8&ctx_id=10_1&ctx_tim=2024-03-10T21%3A30%3A51IST&ctx_ver=Z39.88-2004&url_ctx_fmt=info:ofi/fmt:kev:mtx:ctx&url_ver=Z39.88-2004&rfr_id=info:sid/primo.exlibrisgroup.com-proquest_opena&rft_val_fmt=info:ofi/fmt:kev:mtx:book&rft.genre=book&rft.btitle=Learning%20to%20Play:%20Reinforcement%20Learning%20and%20Games&rft.au=Plaat,%20Aske&rft.date=2020&rft.isbn=3030592383&rft_id=info:doi/10.1007/978-3-030-59238-7&rft.eisbn=3030592383&rft.edition=1st%20ed.%202020.&rft.pub=Springer%20Nature&rft.place=Cham&rft_id=info:bibcode/&rft_id=info:hdl/&rft_id=info:lccn/&rft_id=info:oclcnum/1224141418&rft_id=info:pmid/&rft_id=info:eric/&rft_dat=%3Cproquest_opena%3EEBC6455970%3C/proquest_opena%3E,language=eng,view=UBIS&svc_dat=getit&user_ip=10.16.56.56&req.skin=primo&rft_pqid=EBC6455970View online Book Reinforcement learning an introduction Sutton, Richard S., Andrew G Barto, Cambridge, Mass. :, MIT Press, xviii, 322 p. :, 1998.; ©1998., isbn:0-262-30384-1; 9786612096785; 1-282-09678-8; 0-262-25705-X; 0-585-02445-6, https://bibsys-ur.userservices.exlibrisgroup.com/view/uresolver/47BIBSYS_UBIS/openurl-XYEUBIS?ctx_enc=info:ofi/enc:UTF-8&ctx_id=10_1&ctx_tim=2024-03-10T21%3A30%3A51IST&ctx_ver=Z39.88-2004&url_ctx_fmt=info:ofi/fmt:kev:mtx:ctx&url_ver=Z39.88-2004&rfr_id=info:sid/primo.exlibrisgroup.com-BIBSYS_ILS&rft_dat=ie=47BIBSYS_DIAKON:5135911770002247,ie=47BIBSYS_UBIS:51144316020002208,ie=47BIBSYS_UBB:51108250800002207,ie=47BIBSYS_UBTO:5177167990002205,ie=47BIBSYS_UBO:51175654250002204,ie=47BIBSYS_NTNU_UB:51296379000002203,ie=47BIBSYS_NISK:5115176090002267,ie=47BIBSYS_MF:5187680340002227,ie=47BIBSYS_HIO:5180922370002218,ie=47BIBSYS_HIT:5166412190002210,ie=47BIBSYS_HIOA:5187542720002212,ie=47BIBSYS_SIRUS:5110167560002256,ie=47BIBSYS_AHUS:5125234340002263,ie=47BIBSYS_NETWORK:71521093970002201,language=eng,view=UBIS&svc_dat=viewit&u.ignore_date_coverage=true&user_ip=10.16.56.56&req.skin=primoView online
Emnebeskrivelsen er hentet fra Felles studentsystem Versjon 1