340061
340061
omssb
2018-02-12T12:36:00.000Z
no

Praksisplasser for studenter sommeren 2018

Avdeling for Digitalisering og Fellesfunksjoner (DoF) har fire ledige praksisplasser for studenter sommeren 2018. Oppgavene omhandler statistiske dataanalyser på samfunnsdata med et stort innslag av empiri og programmering, så hvis du har bakgrunn og interesse innen disse emnene så kan dette være noe for deg! Vi er først og fremst ute etter realfags-studenter med en fullført bachelor-grad og/eller er i ferd med masterstudiet.

Sommerjobbene for 2018 er nå besatt

Studentene som jobber hos oss i sommer skal hjelpe oss med noen problemstillinger som vi ønsker mer erfaring om, spesielt innen bruk av ny teknologi og ukonvensjonelle datakilder. Arbeidssted er Oslo eller Kongsvinger, og studentene vil veiledes av ansatte hos oss fra utviklings- og metodeseksjonene i DoF.

Nedenfor har vi noen eksempler på oppgaver vi ser for oss. Dette trenger ikke nødvendigvis være de oppgavene vi vil ende opp med, kanskje du selv har noen forslag til hva du kan tilføre SSB? Interessert? Send en kortfattet CV og karakterutskrift til sommerjobb@ssb.no innen 1. mars. Skriv gjerne noen ord om hvilken oppgave du kan tenke deg å jobbe med, og hva som gjør at du er den rette personen vi trenger. 

Ny plattform for store data

Oppgaven går ut på å sette opp proof-of-concept system for lagring og analyse av store datamengder, inkludert import og eksport av data. Systemet bør ta utgangspunkt i hyllevare, og ha gode muligheter for tilgangsstyring. Løsningen må kunne installeres on-premise. Prosjektet bør munne ut i konkrete erfaringer som kan deles med aktuelle ansatte i SSB.

Systemkrav:

-          Håndtere strømming og parsing av XML-data

-          Distribuert lagring

-          Muligheter for analyse av data som ikke får plass i RAM

-          Basere seg på kjente komponenter, og så lite egenutvikling som mulig

-          Mulighet for lagring av både strukturert og ustrukturerte data

 

Statistikk over ledige stillinger basert på utlysningstekst

Går det an å lage god statistikk over ledige stillinger basert på utlysningsteksten? Aktuelle kandidater bør ha kjennskap til tekstanalyse og maskinlæringsteknikker for å predikere hovedelementene i en stillingsannonse, som f.eks.:

-          Arbeidstid

-          Tilsettingsforhold (vikar/fast)

-          Ønsket utdanningsnivå (NUS2000-kodeverk)

-          Stillingskode (ISCO08-kodeverk)

 

Besatte stillinger

Basert på stillingsutlysninger og data fra A-ordningen, er det mulig å predikere hvem som fikk de ulike jobbene som ble utlyst? Her vil det ikke finnes et trenings-datasett, og problemet faller inn under domenet record-linkage.

 

Vareklassifisering

Prisindeksene baserer seg på salgsdata, hvor varer må klassifiseres i varekategorier. Varer som er nye på markedet må tilordnes en slik kategori, basert på vareteksten. I dag blir ca 50% av nye varer automatisk tildelt kategori basert på en SVM-modell. Er det mulig å forbedre denne prediksjonen? Det er ønskelig å fortsette med en human-in-the-loop tilnærming, hvor mennesker vurderer varetekster som ikke kan predikeres med tilstrekkelig konfidens.

 

Nettverksdata i statistikk

Er du interessert i graph-databaser? Har du hørt om SPARQL? Det europeiske statistikkbyrået har utgitt ESCO-standarden i form av en graph-database (500MB .ttl-fil), fritt tilgjengelig.