NAV referansegruppemøte 23. februar 2021
NAV-ref Home
Tilstede:
Morten Brekkevold, Uninett
Hanne Moa, Uninett
Sigurd Refvik, UiO
Peder Magne Sefland, HiVolda
Rune Kittelsen, UiA
Ingeborg Hellemo, UiT
Nils-Arild Grav, NTNU
Forfall:
Vidar Faltinsen, Uninett
Kat Hößel, Uninett
Med gjesteopptreden fra noen™ fra CNaaS-teamet @ Uninett.
Agenda
Møtet blir avholdt som videokonferanse vha. Zoom, fra kl. 12:30 til 15:00.
0. Velkommen/Innledning
1. Presentasjoner/Status
-
“NETCONF” på plass i PortAdmin for Juniper
“Kloning” av bokser og rom
UiOs “skaleringsfunksjon” for ipdevpoll og pping
2. Fokus for videre utvikling/tilbakemelding
Et viktig punkt som har opptatt oss siden sist er å definere begrepet
“Severity”. Vi har gjort noen designvalg for Argus omkring dette, og er i
ferd med å implementere dette der. I tillegg har CNaaS-teamet begynt å drodle
rundt hvordan severity-verdier skal tildeles forskjellige hendelser som kommer
fra NAV inn i Argus. Ulempen med disse reglene er at de bare påvirker
limetjenesten nav-argus-glue
.
NAV har hatt en konsept om en “Severity”-verdi i sin datamodell i alle år, men
det er aldri foretatt noen ordentlige veivalg for hvordan denne verdien skal
brukes eller tolkes i NAV. Dette har på et tidspunkt vært tolket som en verdi
mellom 0 og 100, og det er litt uklart om alvorligheten i en hendelse er
proporsjonal eller omvendt proporsjonal med tallverdien. Selv om man kan
filtrere på dette feltet i alarmprofilen sin, settes alle hendelser i NAV i dag
i praksis til verdien “50”. Dette har ingen formidlingsverdi, og hendelser i
NAV kunne derfor like gjerne vært modellert uten.
Vi ser diskusjonen om severity-verdier i Argus som en mulighet til å diskutere
hvordan dette begrepet kan tas ordentlig i bruk i NAV. Kan vi i stedet vri
diskusjonen til å definere/omdefinere “Severity” i NAV, slik at limetjenestens
jobb blir enklere og vi kan levere forbedret funksjonalitet også til dem som
ikke vil har planer om å ta i bruk Argus?
For litt bakgrunnsinformasjon om “Severity”-feltet i Argus, se
https://github.com/Uninett/Argus/issues/70
For oversikt over event/alarmtype-hierarkiet til NAV, se alerttypes
3. Nye ønsker og innspill fra gruppen
Ingenting er forhåndsinnmeldt (ut over at UiT jevnt og trutt har meldt inn
saker på GitHub - det setter vi stor pris på!).
Runde rundt bordet.
4. Neste møte
Neste møte blir et videomøte. Foreløpig datoforslag: Tirsdag 25. mai
Referat
Morten ønsket velkommen til møtet.
1. Presentasjoner/Status
2. Fokus for videre utvikling/tilbakemelding
Argus innfører severity-verdier på hendelser, på en tallskala fra 1-5, der 1 betyr kritisk, og 5 er til informasjon.
CNaaS-teamet har foreslått et sett med ønskede severity-verdier på hendelser fra NAV (Et utdrag finner du her). Forslagene dreier seg i stor grad om å sette severity først og fremst basert på event-type i NAV, men deretter moderere verdien avhengig av “viktigheten” av det affekterte utstyret:
Hvilken kategori er nettboksen? (Switch er middels, distribusjonsswitch har høy alvorlighet, ruter er kritisk)
Hvilken organisasjonsenhet har ansvaret for boksen? (Dersom det er kundens eget ansvar, settes lav alvorlighetsgrad, i.e. Uninett skal ikke reagere på dette)
Vi ser at denne diskusjonen bør løftes ut av Argus og limetjenesten, og heller tas inn i NAV. NAVs Severity-konsept har vært ubrukt i mange, mange år.
Utviklernes foreløpig forslag lyder:
Ikke alle NAV-brukere vil ønske de samme reglene for setting av “Severity”. Dette må derfor være konfigurerbart i NAV.
Konfigurasjonsfilen bør komme med et sett “fornuftige defaults”.
Det bør være to måter å konfigurere regler for “severity” på:
Et lettvekts konfigurasjonsspråk for de enkle tingene (“dersom event er av type X, sett severity=A. Dersom event samtidig gjelder boks av kategori GSW, juster severity til B”).
Dersom man har behov for arbitrær kompleks logikk for å sette severity, bør det alternativt tilbys å plugge inn sin egen Python-funksjon for å sette severity (Avanserte brukere trenger formodentlig noe som er Turing-complete for å bli fornøyde).
Innspill fra den påfølgende diskusjonen tyder på at dette burde være en farbar vei. Utviklerteamet viol utarbeide et mer konkret designforslag som kan forelegges nav-ref til evaluering.
3. Nye ønsker og innspill fra gruppen
Runde rundt bordet:
UiT:
Har postet GitHub-issue om MFA - Multifaktorautentisering (
#2248).
Økt sikkerhetsfokus på UiT etter datainnbrudd. Man ønsker multifaktor-autentisering på alle systemer der det er praktisk mulig.
Foreløpig uklart hvordan MFA kan løses i NAV. Her må evt. feedback gis i GitHub-issuet.
Det nevnes at Feide muligens kan brukes med tofakturautentisering i kobling med institusjonens Azure. Det ble i 2020 laget et proof-of-concept med Feide-innlogging i NAV, som vi ønsker å dokumentere og sette i produksjon i CNaaS-sammenheng. Dette kan være en mulig farbar vei for UiT på kortere sikt enn ny funksjonalitet i NAV lar seg utvikle.
Også postet GH-issue om at maintenance task-grensesnittet blir ulidelig tregt og lite hensiktsmessig når man har over 3000 bokser i NAV (
#2251)
Dette er delvis rettet som en bugfiks, men det er fremdeles et problem at JavaScript-widgeten som brukes til å søke opp bokser og andre komponenter i NAV blir veldig treg jo flere elementer den har å søke i. Dette kan bare fikses ved en omskriving, og det er en mye større oppgave.
Vil gjerne ha mulighet til å se en IP Device sine historiske maintenance tasks (
ISSUE).
Ikke nødvendigvis direkte i ipdevinfo, men på en underside eller noe.
Dette gjelder å få en kobling til faktiske maintenance tasks i maintenance-kalenderen - det holder ikke å bruke device history til å bare se at boksen “har vært på maintenance”, for det sier ingenting om “hvorfor”, eller hvilke andre ting som ble satt på maintenance i samme omgang.
Har tjenester i sky som må overvåkes av NAV, men deler av disse kjører kun i private adresseområder. Har forsøksvis brukt tunneler for å løse problemet, men det er noen problemer relatert til returtrafikk. Spørsmål: Kunne ipdevpoll/pping/servicemon velge avsenderadresse/avsender-interface når de kommuniserer over IP?
NTNU:
Ingenting nytt.
Største ønske er fremdeles
#2164 (dot1x-parametre i Portadmin), men denne er foreløpig plassert på 11. plass på arbeidslisten av gruppen.
4. Neste møte