Difference between revisions of "Recente Storingen"

From Cncz
Jump to navigation Jump to search
m
 
(50 intermediate revisions by 4 users not shown)
Line 14: Line 14:
 
<!-- [en]and of course it has an english part[/en] -->
 
<!-- [en]and of course it has an english part[/en] -->
 
<!-- ~ ~ ~ ~ -->
 
<!-- ~ ~ ~ ~ -->
</onlyinclude>
 
  
 
=== [Standaard RU ICT onderhoudsvensters][Standard RU IT maintenance windows] ===
 
=== [Standaard RU ICT onderhoudsvensters][Standard RU IT maintenance windows] ===
<itemTags>medewerkers,studenten</itemTags>
 
 
[nl]
 
[nl]
 
Het ISC maakt ruim vooraf [http://www.ru.nl/systeem-meldingen/?id=26&lang=nl&tg=0&f=0 de ICT onderhoudsvensters voor het huidige studiejaar] bekend.
 
Het ISC maakt ruim vooraf [http://www.ru.nl/systeem-meldingen/?id=26&lang=nl&tg=0&f=0 de ICT onderhoudsvensters voor het huidige studiejaar] bekend.
Line 35: Line 33:
 
== [Actuele storingen en gepland onderhoud][Current Service Interruptions and Planned Maintenance] ==
 
== [Actuele storingen en gepland onderhoud][Current Service Interruptions and Planned Maintenance] ==
 
<onlyinclude>
 
<onlyinclude>
 +
=== [Zaterdag 14 mei belendende gebouwen (Mercator, Proeftuin, Logistiek) 5 minuten zonder netwerk][Saturday May 14 adjacent buildings (Mercator, Proeftuin, Logistiek) 5 minutes without network] ===
 +
[nl]
 +
  Begin        : 2022-05-14 09:00
 +
  Eind          : 2022-05-14 10:00
 +
  Getroffen    : alle netwerkaansluitingen in Mercator, Proeftuin en Logistiek Cwntrumzullen max. 5 minuten onderbroken zijn
 +
 +
RU/ILS netwerkbeheer zet nieuwe apparatuur in. Dit zal maximaal 5 minuten tot een netwerkonderbreking leiden.
 +
[/nl]
 +
[en]
 +
  Begin        : 2022-05-14 09:00
 +
  End          : 2022-05-14 10:00
 +
  Affected      : all network oulets in Mercator, Proeftuin and Logistiek Centrum will be down for max. 5 minutes
 +
 +
RU/ILS network management will switch to new hardware. This will lead to a network interruption of at most 5 minutes.
 +
[/en]
 +
 +
<startFeed />
 +
<endFeed />
 +
</onlyinclude>
 +
 +
== [Recent Verholpen Storingen en Onderhoud][Recently Resolved Service Interruptions and Maintainance] ==
 +
 +
[nl]Voor het snel ge&iuml;nformeerd worden over storingen kan men zich abonneren op de [/nl]
 +
[en]To be quickly informed about service interruptions one can subscribe to the [/en]
 +
[http://mailman.science.ru.nl/mailman/listinfo/CPK CPK mailinglist].
  
 
<startFeed />
 
<startFeed />
 +
=== [Coma, coma01 en coma46 netwerkprobleem][Coma, coma01 and coma46 network problem] ===
 +
[nl]
 +
  Begin        : 2022-05-03 13:47
 +
  Eind          : 2022-05-03 14:55
 +
  Getroffen    : Gebruikers van coma, coma01 en coma46
  
=== [EduroamCAT niet bruikbaar met Science accounts][EduroamCAT not working with Science accounts] ===
+
Vanmiddag verloren drie coma-nodes hun netwerk vanwege een verkeerde netwerkconfiguratie. Ze bleken al langer af en toe slecht bereikbaar te zijn. Het duurde even om uit te zoeken wat dit netwerkprobleem veroorzaakte, maar toen dat gevonden was, was het snel gerepareerd.
 +
[/nl]
 +
[en]
 +
  Begin        : 2022-05-03 13:47
 +
  End          : 2022-05-03 14:55
 +
  Affected      : Users of coma, coma01 en coma46
 +
 
 +
This afternoon three coma nodes lost their network because of an incorrect network configuration. They must have shown intermittent network problems earlier. It took us some time to find out what caused this network problem, but when found, it was easy to fix.
 +
[/en]
 +
 
 +
=== [Astro.ru.nl DNS(SEC) service down][Astro.ru.nl DNS(SEC) service down] ===
 +
[nl]
 +
  Begin        : 2022-04-28 12:02
 +
  Eind          : 2022-05-13 14:00
 +
  Getroffen    : Gebruikers die met of vanaf astro.ru.nl wilden communiceren 
 +
 
 +
Bij de gebruikelijke vervanging van de [https://nl.wikipedia.org/wiki/DNSSEC DNSSEC]-sleutels, die het DNS-verkeer beveiligen, is in de externe DNS van ru.nl een foute sleutel voor astro.ru.nl ingevoerd. Daardoor verdween astro.ru.nl vanaf extern gezien van het internet. Dat is op 2022-05-02 om ca. 14:00 met een automatische procedure hersteld, maar het automatische proces gebruikte een verkeerde versleuteling. Het duurde tot 2022-05-12 voordat ILS dit met de hand gecorrigeerd had nadat we dat laat geconstateerd hadden. Omdat men het DNS-antwoord dat astro.ru.nl niet bestaat, 24 uur mocht gebruiken, is de overlast pas 2022-05-13 13:00 compleet verdwenen. De voornaamste overlast was waarschijnlijk dat mail vanaf een @astro.ru.nl adres geweigerd werd.
 +
[/nl]
 +
[en]
 +
  Begin        : 2022-04-28 12:02
 +
  End          : 2022-05-13 13:00
 +
  Affected      : Users wanting to communicate with of from astro.ru.nl
 +
 
 +
During the regular change of [https://en.wikipedia.org/wiki/Domain_Name_System_Security_Extensions DNSSEC] keys that secure DNS traffic, an incorrect key was introduced in the external DNS of ru.nl for astro.ru.nl. This made astro.ru.nl disappear from the internet. This error was partly corrected  2022-05-02 at ca. 14:00 hours, but the automatic process used an not accepted encryption. It took ILS until 2022-05-22 to correct that by hand after we eventually noticed the error. Because the DNS answer that astro.ru.nl doesn't exist may be cached for 24 hours, the problem was not completely over until 2022-05-13 13:00. The main problems for users were that mail from an @astro.ru.nl address bounced.
 +
[/en]
 +
 
 +
=== [SUSE Linux 15.3 Eduroam werkt niet met U- of S-nummer, wel met Science account][SUSE Linux 15.3 Eduroam doesn't work with U- or s-number, but does with Science account] ===
 
<itemTags>medewerkers,studenten</itemTags>
 
<itemTags>medewerkers,studenten</itemTags>
 
[nl]
 
[nl]
   Begin        : 2019-02-28 00:00
+
   Begin        : 2022-02-14
   Eind          : ?
+
   Eind          : 2022-03-09 14:47
   Getroffen    : EduroamCAT-gebruikers met Science accounts
+
   Getroffen    : Eduroam-gebruikers met SUSE Linux 15.3
  
[https://cat.eduroam.org/ EduroamCAT] is de Eduroam configuratie-assistent (Configuration Assistant Tool) voor [https://www.eduroam.org/configuration-assistant-tool-cat/ veel soorten devices], waarmee gebruikers eenvoudig verbinding kunnen maken met Eduroam. Dit is echter (nog) niet ingericht voor gebruik van Science accounts (loginnaam@science.ru.nl). C&CZ zoekt naar een oplossing. In de tussentijd kan men verbinding maken via handmatige instelling (zie [https://www.ru.nl/draadloos www.ru.nl/draadloos)] of U/S/E-nummer gebruiken.
+
Op 14 februari 2022 zijn antieke versies van [https://nl.wikipedia.org/wiki/Transport_Layer_Security TLS] (1.0 en 1.1) uitgeschakeld bij de [https://www.eduroam.nl/ Eduroam]-authenticatie op de [https://www.ru.nl/ils ILS] LDAP-servers. Daarna lukt het SUSE Linux 15.3 clients niet meer om met U- of s-nummer te authenticeren. Zij hebben alleen TLS1.2 en de ILS-servers bieden eerst TLS1.3 aan, daarna gaat het fout. Door te authenticeren met Science-account, waarbij de Science-servers TLS1.2 aanbieden, kunnen ze wel verbinding maken met Eduroam.
 
[/nl]
 
[/nl]
 
[en]
 
[en]
   Begin        : 2019-02-28 00:00
+
   Begin        : 2022-02-14
 
   End          : ?
 
   End          : ?
   Affected      : EduroamCAT users with Science accounts
+
   Affected      : Eduroam users with SUSE Linux 15.3
  
[https://cat.eduroam.org/ EduroamCAT] is the Eduroam Configuration Assistant Tool for [https://www.eduroam.org/configuration-assistant-tool-cat/ many different devices]. However,  this hasn't (yet) been set up for the use of Science accounts (username@science.ru.nl). C&CZ is looking for a solution. In the meantime Eduroam connections have to be configured manually (please consult [https://www.ru.nl/wireless www.ru.nl/wireless)] or using the U/S/E number.
+
February 14, ILS switched off antique versions of [https://en.wikipedia.org/wiki/Transport_Layer_Security TLS] (1.0 and 1.1) for the [https://www.eduroam.nl/en/ Eduroam] authentication on [https://www.ru.nl/ict-uk/ ILS] LDAP servers. From then on, SUSE Linux 15.3 clients can't authenticate with U- or s-number. They only have TLS1.2 and the ILS servers offer TLS1.3 first, after that an error occurs. By using the Science-account to authenticate, these users succeed in connecting to Eduroam.
 
[/en]
 
[/en]
  
== [Recent Verholpen Storingen en Onderhoud][Recently Resolved Service Interruptions and Maintainance] ==
+
=== [Netwerkswitch voor Astro Coma cluster down][Network switch of Astro Coma cluster down] ===
 +
[nl]
 +
  Begin        : 2022-02-22 13:10
 +
  Eind          : 2022-02-22 15:47
 +
  Getroffen    : Gebruikers van het Coma rekencluster
 +
 
 +
De netwerkswitch voor het Coma cluster lijkt defect, de aangesloten nodes zijn afgesloten van de rest van het netwerk. We zetten z.s.m. een vervangende switch in en zullen het probleem verder (laten) analyseren.
 +
[/nl]
 +
[en]
 +
  Begin        : 2022-02-22 13:10
 +
  End          : 2022-02-22 15:47
 +
  Affected      : Users of the Coma compute cluster
 +
 
 +
The network switch of the Coma cluster seems to be broken, all attached nodes are separated from the rest of the network. We'll replace the switch a.s.a.p. and (let) analyze the problem after that.
 +
[/en]
 +
 
 +
=== [Verbroken verbinding naar nieuwe datacenter switches][Interrupted link to new datacenter switches] ===
 +
[nl]
 +
  Begin        : 2021-12-15 12:45
 +
  Eind          : 2021-12-15 13:42
 +
  Getroffen    : alle 25 gigabit aangesloten machines (shares, websites, clusternodes)
 +
 
 +
Door een menselijke fout is de verbinding tussen onze nieuwe datacenter switches en de centrale router verbroken geweest.
 +
[/nl]
 +
[en]
 +
  Begin        : 2021-12-15 12:45
 +
  End          : 2021-12-15 13:42
 +
  Affected      : all 25 gigabit connected machines (shares, websites, clusternodes)
 +
 
 +
Due to human error, the connection between the new datacenter switches and the central router was interrupted.
 +
[/en]
 +
 
 +
=== [vmhost07 poweroff][vmhost07 poweroff] ===
 +
<itemTags>medewerkers</itemTags>
 +
[nl]
 +
  Begin        : 2021-12-02 13:10
 +
  Eind          : 2021-12-02 13:20
 +
  Getroffen    : Gebruikers van een van onderstaande services
 +
 
 +
Door een menselijke fout is vmhost07 kortstondig uitgezet.
 +
labservanttest
 +
neurotech2
 +
printvm
 +
msql01
 +
indicoimapp
 +
ldap2
 +
eftw
 +
jupytervm
 +
[/nl]
 +
[en]
 +
  Begin        : 2021-12-02 13:10
 +
  End          : 2021-12-02 13:20
 +
  Affected      : Users of one of services mentioned
 +
 
 +
Vmhost07 was accidentally shut down. Cause: human error.
 +
labservanttest
 +
neurotech2
 +
printvm
 +
msql01
 +
indicoimapp
 +
ldap2
 +
eftw
 +
jupytervm
 +
[/en]
 +
 
 +
=== [Ceph opslag uitbreiding veroorzaakte performance problemen][Ceph storage expansion caused performance issues] ===
 +
<itemTags>medewerkers</itemTags>
 +
[nl]
 +
  Begin        : 2021-11-16
 +
  Eind          : 2021-11-17
 +
  Getroffen    : gebruikers van Ceph filesystemen en websites op webvm01
 +
 
 +
Bij de uitbreiding van het Ceph storage cluster zijn er performance en beschikbaarheidsproblemen ontstaan. De problemen zijn in de loop van vanmorgen opgelost.[/nl]
 +
[en]
 +
  Begin        : 2021-11-16
 +
  End          : 2021-11-17
 +
  Affected      : users of Ceph filesystems and websites on webvm01
 +
 
 +
As a result of the expansion of the Ceph storage cluster, the cluster had performance and availability issues. The problems were resolved this morning.
 +
[/en]
 +
 
 +
===[Netwerkswitch van serverruimte stroomloos][Server room network switch powerless] ===
 +
<itemTags>medewerkers,studenten,docenten</itemTags>
 +
[nl]
 +
  Begin        : 2021-10-12 11:50
 +
  Eind          : 2021-10-12 12:05
 +
  Getroffen    : Gebruikers van een van de vele servers achter deze switch
 +
 
 +
Twee van de modules van een belangrijke switch in de belangrijkste C&CZ serverruimte werden stroomloos tijdens het voorbereiden van gepland onderhoud. Hierdoor raakte ca. 75% van de servers in deze ruimte hun netwerkverbinding kwijt. Door het omzetten naar nieuwe PDU's kon de storing tot ca. 15 minuten beperkt worden.
 +
[/nl]
 +
[en]
 +
  Begin        : 2021-10-12 11:50
 +
  End          : 2021-10-12 12:05
 +
  Affected      : Users of one of the many servers behind this switch
 +
 
 +
Two modules of an important switch in the main C&CZ server room lost power during the preparation of planned maintenance. This disconnected ca. 75% of the servers in the room from the network. Moving the modules to new PDU's kimited the downtime to ca. 15 minutes.
 +
[/en]
 +
 
 +
=== [Licentieserver probleem][License server problem] ===
 +
<itemTags>medewerkers,docenten</itemTags>
 +
[nl]
 +
  Begin        : 2021-10-11 04:40
 +
  Eind          : 2021-10-11 08:26
 +
  Getroffen    : Gebruikers van een van de licenties van deze server
 +
 
 +
Een fout in de beheersoftware zorgde ervoor dat bij de herstart van de licentieserver geen enkel licentieproces goed opstartte. Pas na reparatie waren de licenties weer beschikbaar.
 +
[/nl]
 +
[en]
 +
  Begin        : 2021-10-11 04:40
 +
  End          : 2021-10-11 08:26
 +
  Affected      : Users of one of the licenses of this server
 +
 
 +
An error in the management software prevented all license processes from starting correctly at the reboot of the license server. After fixing this error, all licenses were available again.
 +
[/en]
 +
 
 +
=== [Fileserver 'flock' overbelast][Fileserver 'flock' overloaded] ===
 +
<itemTags>medewerkers,docenten</itemTags>
 +
[nl]
 +
  Begin        : 2021-09-17 14:30
 +
  Eind          : 2021-09-17 15:30
 +
  Getroffen    : Gebruikers van een van de ca. 100 netwerkschijven van deze server
 +
 
 +
Vooraf geteste cursussoftware veroorzaakte bij het gebruik door 100 studenten een te grote belasting op de fileserver. Alle gebruikers van deze fileserver hadden hier last van.
 +
[/nl]
 +
[en]
 +
  Begin        : 2021-09-17 14:30
 +
  End          : 2021-09-17 15:30
 +
  Affected      : Users of one of the
 +
 
 +
Course software that had been tested caused an overload of the fileserver when it was used by 100 students. The performance of the fileserver was impaired for all users of network shares of this server.
 +
[/en]
 +
 
 +
=== [VPN server unreachable][VPN onbereikbaar] ===
 +
<itemTags>medewerkers,docenten</itemTags>
 +
[nl]
 +
  Begin        : 2021-04-24
 +
  Eind          : 2021-04-26 09:35
 +
  Getroffen    : VPNsec gebruikers
 +
 
 +
Door een kapotte PDU is een switch uitgegaan en is de VPN server onbereikbaar (en nog meer dingen, waar gebruikers geen last van hebben).
 +
[/nl]
 +
[en]
 +
  Begin        : 2021-04-24
 +
  End          : 2021-04-26 09:35
 +
  Affected      : VPNsec users
 +
 
 +
A broken PDU has offlined a switch, which has caused the VPN server to be unreachable (and several other things, which don't affect users).
 +
[/en]
 +
 
 +
=== Central E-mail/Calendar disruption (exchange) ===
 +
<itemTags>medewerkers,docenten,students</itemTags>
 +
  Begin        : 2021-04-14    09:30
 +
  Eind          : 2021-04-14    13:30
 +
  Getroffen    : All users of Exchange (e-mail and calendar)
 +
 
 +
Due to an emergency maintenance, the central microsoft exchange server is unavailable for 4 hours. This may also affect systems that are dependent on exchange.
 +
E-mail and calendar functionality is expected to be restored when the maintenance is done around 13:30 Today.
 +
 
 +
=== [Ceph probleem][Ceph problem] ===
 +
<itemTags>medewerkers</itemTags>
 +
[nl]
 +
  Begin        : 2021-03-24 19:00
 +
  Eind          : 2021-03-24 21:00
 +
  Getroffen    : gebruikers van Ceph filesystemen
 +
 
 +
Bij een routine upgrade proces bleek dat er een bug in de laatste versie zit waardoor de ceph manager onbereikbaar werd. Het upgrade proces is afgebroken en met hulp van de ceph-users mailinglijst is alles weer bereikbaar door een work-around.[/nl]
 +
[en]
 +
  Begin        : 2021-03-24 19:00
 +
  End          : 2021-03-24 21:00
 +
  Affected      : users with ceph based filesystems
 +
 
 +
During a routine upgrade of ceph, a bug in the latest version manifested itself and made the ceph manager unreachable. After aborting the upgrade and with help from the ceph-users mailinglist, everything became available again using a workaround.[/en]
 +
 
 +
=== [Windows 7 computers disabled in B-FAC domain][Windows 7 computers disabled in B-FAC domain] ===
 +
<itemTags>medewerkers,docenten</itemTags>
 +
[nl]
 +
  Begin        : 2021-03-24
 +
  Eind          : na upgrade naar ander OS
 +
  Getroffen    : gebruikers van Windows 7 in het B-FAC domein
  
[nl]Voor het snel ge&iuml;nformeerd worden over storingen kan men zich abonneren op de [/nl]
+
I.v.m. het verscherpen van de beveiliging worden de laatste Windows 7 machines per 24-03-20221 in het Active Directory Domain B-FAC gedisabled.
[en]To be quickly informed about service interruptions one can subscribe to the [/en]
+
Verzoek is al sinds lang om de betreffende machines naar een meer up-to-date OS te upgraden.
[http://mailman.science.ru.nl/mailman/listinfo/CPK CPK mailinglist].
+
Zie evt. eerdere aankondigingen over [https://wiki.cncz.science.ru.nl/Nieuws#.5BMicrosoft_Windows_10_upgrade.5D.5BMicrosoft_Windows_10_upgrade.5D Windows 10]
 +
en [https://wiki.cncz.science.ru.nl/Nieuws_archief#.5BWindows_7_stopt_januari_2020:_Upgrade_nu.21.5D.5BWindows_7_ends_January_2020:_Upgrade_now.21.5D het einde van Windows 7].
 +
[/nl]
 +
[en]
 +
  Begin        : 2021-03-24
 +
  End          : after upgrade to other OS
 +
  Affected      : users of Windows 7 in the B-FAC domain
  
<startFeed />
+
Because of security issues the last remaining Windows 7 machines wil be disabled, effective 24-03-2021, as member of the Active Directory Domain B-FAC.
 +
Please upgrade these computers to a more up-to-date OS.
 +
See also previous announcements on [https://wiki.cncz.science.ru.nl/Nieuws#.5BMicrosoft_Windows_10_upgrade.5D.5BMicrosoft_Windows_10_upgrade.5D Windows 10]
 +
and
 +
[https://wiki.cncz.science.ru.nl/Nieuws_archief#.5BWindows_7_stopt_januari_2020:_Upgrade_nu.21.5D.5BWindows_7_ends_January_2020:_Upgrade_now.21.5D the end of Windows 7].
 +
[/en]
  
 
=== [Lilo7 herstart][Lilo7 restart] ===
 
=== [Lilo7 herstart][Lilo7 restart] ===

Latest revision as of 12:39, 13 May 2022


Standaard RU ICT onderhoudsvensters

Het ISC maakt ruim vooraf de ICT onderhoudsvensters voor het huidige studiejaar bekend.

Meld een probleem

Gebruik dit formulier om niet-urgente storingen te melden. Voor urgente storingen, bel 20000 (helpdesk).

Actuele storingen en gepland onderhoud

Zaterdag 14 mei belendende gebouwen (Mercator, Proeftuin, Logistiek) 5 minuten zonder netwerk

 Begin         : 2022-05-14 09:00
 Eind          : 2022-05-14 10:00
 Getroffen     : alle netwerkaansluitingen in Mercator, Proeftuin en Logistiek Cwntrumzullen max. 5 minuten onderbroken zijn

RU/ILS netwerkbeheer zet nieuwe apparatuur in. Dit zal maximaal 5 minuten tot een netwerkonderbreking leiden.


Recent Verholpen Storingen en Onderhoud

Voor het snel geïnformeerd worden over storingen kan men zich abonneren op de CPK mailinglist.

Coma, coma01 en coma46 netwerkprobleem

 Begin         : 2022-05-03 13:47
 Eind          : 2022-05-03 14:55
 Getroffen     : Gebruikers van coma, coma01 en coma46

Vanmiddag verloren drie coma-nodes hun netwerk vanwege een verkeerde netwerkconfiguratie. Ze bleken al langer af en toe slecht bereikbaar te zijn. Het duurde even om uit te zoeken wat dit netwerkprobleem veroorzaakte, maar toen dat gevonden was, was het snel gerepareerd.

Astro.ru.nl DNS(SEC) service down

 Begin         : 2022-04-28 12:02
 Eind          : 2022-05-13 14:00
 Getroffen     : Gebruikers die met of vanaf astro.ru.nl wilden communiceren  

Bij de gebruikelijke vervanging van de DNSSEC-sleutels, die het DNS-verkeer beveiligen, is in de externe DNS van ru.nl een foute sleutel voor astro.ru.nl ingevoerd. Daardoor verdween astro.ru.nl vanaf extern gezien van het internet. Dat is op 2022-05-02 om ca. 14:00 met een automatische procedure hersteld, maar het automatische proces gebruikte een verkeerde versleuteling. Het duurde tot 2022-05-12 voordat ILS dit met de hand gecorrigeerd had nadat we dat laat geconstateerd hadden. Omdat men het DNS-antwoord dat astro.ru.nl niet bestaat, 24 uur mocht gebruiken, is de overlast pas 2022-05-13 13:00 compleet verdwenen. De voornaamste overlast was waarschijnlijk dat mail vanaf een @astro.ru.nl adres geweigerd werd.

SUSE Linux 15.3 Eduroam werkt niet met U- of S-nummer, wel met Science account

 Begin         : 2022-02-14
 Eind          : 2022-03-09 14:47
 Getroffen     : Eduroam-gebruikers met SUSE Linux 15.3

Op 14 februari 2022 zijn antieke versies van TLS (1.0 en 1.1) uitgeschakeld bij de Eduroam-authenticatie op de ILS LDAP-servers. Daarna lukt het SUSE Linux 15.3 clients niet meer om met U- of s-nummer te authenticeren. Zij hebben alleen TLS1.2 en de ILS-servers bieden eerst TLS1.3 aan, daarna gaat het fout. Door te authenticeren met Science-account, waarbij de Science-servers TLS1.2 aanbieden, kunnen ze wel verbinding maken met Eduroam.

Netwerkswitch voor Astro Coma cluster down

 Begin         : 2022-02-22 13:10
 Eind          : 2022-02-22 15:47
 Getroffen     : Gebruikers van het Coma rekencluster

De netwerkswitch voor het Coma cluster lijkt defect, de aangesloten nodes zijn afgesloten van de rest van het netwerk. We zetten z.s.m. een vervangende switch in en zullen het probleem verder (laten) analyseren.

Verbroken verbinding naar nieuwe datacenter switches

 Begin         : 2021-12-15 12:45
 Eind          : 2021-12-15 13:42
 Getroffen     : alle 25 gigabit aangesloten machines (shares, websites, clusternodes)

Door een menselijke fout is de verbinding tussen onze nieuwe datacenter switches en de centrale router verbroken geweest.

vmhost07 poweroff

 Begin         : 2021-12-02 13:10
 Eind          : 2021-12-02 13:20
 Getroffen     : Gebruikers van een van onderstaande services

Door een menselijke fout is vmhost07 kortstondig uitgezet.

labservanttest
neurotech2
printvm
msql01
indicoimapp
ldap2
eftw
jupytervm

Ceph opslag uitbreiding veroorzaakte performance problemen

 Begin         : 2021-11-16
 Eind          : 2021-11-17
 Getroffen     : gebruikers van Ceph filesystemen en websites op webvm01

Bij de uitbreiding van het Ceph storage cluster zijn er performance en beschikbaarheidsproblemen ontstaan. De problemen zijn in de loop van vanmorgen opgelost.

Netwerkswitch van serverruimte stroomloos

 Begin         : 2021-10-12 11:50
 Eind          : 2021-10-12 12:05
 Getroffen     : Gebruikers van een van de vele servers achter deze switch

Twee van de modules van een belangrijke switch in de belangrijkste C&CZ serverruimte werden stroomloos tijdens het voorbereiden van gepland onderhoud. Hierdoor raakte ca. 75% van de servers in deze ruimte hun netwerkverbinding kwijt. Door het omzetten naar nieuwe PDU's kon de storing tot ca. 15 minuten beperkt worden.

Licentieserver probleem

 Begin         : 2021-10-11 04:40
 Eind          : 2021-10-11 08:26
 Getroffen     : Gebruikers van een van de licenties van deze server

Een fout in de beheersoftware zorgde ervoor dat bij de herstart van de licentieserver geen enkel licentieproces goed opstartte. Pas na reparatie waren de licenties weer beschikbaar.

Fileserver 'flock' overbelast

 Begin         : 2021-09-17 14:30
 Eind          : 2021-09-17 15:30
 Getroffen     : Gebruikers van een van de ca. 100 netwerkschijven van deze server

Vooraf geteste cursussoftware veroorzaakte bij het gebruik door 100 studenten een te grote belasting op de fileserver. Alle gebruikers van deze fileserver hadden hier last van.

VPN server unreachable

 Begin         : 2021-04-24
 Eind          : 2021-04-26 09:35
 Getroffen     : VPNsec gebruikers

Door een kapotte PDU is een switch uitgegaan en is de VPN server onbereikbaar (en nog meer dingen, waar gebruikers geen last van hebben).

Central E-mail/Calendar disruption (exchange)

 Begin         : 2021-04-14    09:30
 Eind          : 2021-04-14    13:30
 Getroffen     : All users of Exchange (e-mail and calendar)

Due to an emergency maintenance, the central microsoft exchange server is unavailable for 4 hours. This may also affect systems that are dependent on exchange. E-mail and calendar functionality is expected to be restored when the maintenance is done around 13:30 Today.

Ceph probleem

 Begin         : 2021-03-24 19:00
 Eind          : 2021-03-24 21:00
 Getroffen     : gebruikers van Ceph filesystemen

Bij een routine upgrade proces bleek dat er een bug in de laatste versie zit waardoor de ceph manager onbereikbaar werd. Het upgrade proces is afgebroken en met hulp van de ceph-users mailinglijst is alles weer bereikbaar door een work-around.

Windows 7 computers disabled in B-FAC domain

 Begin         : 2021-03-24
 Eind          : na upgrade naar ander OS
 Getroffen     : gebruikers van Windows 7 in het B-FAC domein

I.v.m. het verscherpen van de beveiliging worden de laatste Windows 7 machines per 24-03-20221 in het Active Directory Domain B-FAC gedisabled. Verzoek is al sinds lang om de betreffende machines naar een meer up-to-date OS te upgraden. Zie evt. eerdere aankondigingen over Windows 10 en het einde van Windows 7.

Lilo7 herstart

 Begin         : 2021-03-17 21:00
 Eind          : 2021-03-17 21:15
 Getroffen     : gebruikers van lilo

Om het netwerk van lilo7 aan te passen, is het helaas noodzakelijk om deze loginserver te herstarten. Wie gedurende deze onderhoudstijd een stabiele verbinding wil hebben met een loginserver, kan beter lilo6 of de binnenkort uitgefaseerde lilo5 gebruiken. Zie evt. de pagina over de C&CZ loginservers.

Server met diverse services (virtuele servers, waaronder Roundcube en websites) stuk

 Begin         : 2021-03-05 07:45
 Eind          : 2021-03-05 09:40
 Getroffen     : gebruikers van de virtuele servers: Roundcube, websites met een database op deze server, ...

Gisteravond gaf de SSD-opstartschijf van deze VM-host al de eerste signalen van problemen, vanochtend stopten daardoor de virtuele servers die op deze VM-host draaien. Door de VM's te verhuizen naar een andere VM-host is het probleem opgelost. Er wordt nagedacht hoe we dit probleem in de toekomst het beste kunnen voorkomen of de impact ervan kunnen beperken.

Lilo6 stuk

 Begin         : 2021-02-25 17:30
 Eind          : 2021-03-04 16:45
 Getroffen     : gebruikers van lilo

Sinds donderdagmiddag is lilo6 door hardware problemen offline. Omdat dit de default linux login server was (lilo verwees naar lilo6) is dit voor veel gebruikers van lilo opvallend. De impact is beperkt, omdat er nog twee lilo's zijn, namelijk lilo5 en lilo7. Lilo7 is vervroegd de nieuwe lilo geworden, dus kun je een melding verwachten dat ssh een waarschuwing geeft over DNS SPOOFING, lilo7 heeft
ECDSA SHA256:si3g2elo5m6TShx3PjX0+vF50pZ8NK/iXz/ESB+ZeP0

Groot RU netwerkonderhoud zaterdag 27 februari 08:00-20:00

 Begin         : 2021-02-27 08:00
 Eind          : 2021-02-27 20:00
 Getroffen     : gebruikers van het RU-netwerk of -diensten

ISC netwerkbeheer kondigde aan dat a.s. zaterdag 27 februari gepland groot onderhoud aan het RU-netwerk uitgevoerd zal worden, waardoor alle RU-diensten diverse keren maximaal een uur lang niet bereikbaar zullen zijn. Dit gaat om alle RU-diensten, inclusief die van FNWI/C&CZ: e-mail, VPN, wifi, BASS, OSIRIS, Brightspace, Syllabus+, Corsa, etc.

DNS-problemen vanaf buiten met ru.nl

 Begin         : 2021-02-21 07:10
 Eind          : 2021-02-23 14:30
 Getroffen     : iedereen die iets in ru.nl wil benaderen van buiten de campus

De centrale DNS-servers van ru.nl voor externe requests werkten niet goed doordat ze te veel bevraagd werden, waardoor ook o.a. science.ru.nl soms niet gevonden kon worden: DNS-namen onder ru.nl resolven dan niet naar een IP-adres. We hebben enkele TTL's (time-to-lives) vergroot om te proberen de overlast iets minder te maken. Deze kleine TTL's waren bedoeld om in het geval van problemen met deze servers de service snel te kunnen verhuizen, maar dragen nu bij aan de overlast. Wie VPN gebruikt heeft na het starten van de VPN hier geen probleem meer mee, omdat dan de interne DNS-servers gebruikt worden. Door aanpassingen aan de RU DNS-servers zijn hopelijk sinds 2021-02-23 14:30 de DNS-problemen minder of verdwenen.

DNS kapot voor subdomeinen onder ru.nl

 Begin         : 2021-02-11 ~11:15
 Eind          : 2021-02-11 ~13:00
 Getroffen     : iedereen die op  *.science.ru.nl *.astro.ru.nl, etc. wil komen

Door niet goed werkende DNS-servers van ru.nl werkt DNS voor subzones als science.ru.nl niet, waardoor geen enkele DNS-naam nog kan resolven naar een IP-adres bij FNWI. Een workaround is als men handmatig als DNS-servers invoert: 131.174.224.4 en 8.8.8.8. Wie pas na 11:15 uur voor het eerst probeert een Science-dienst te benaderen (bv matlab.science.ru.nl) krijgt een fout als "No such domain" of "Cannot resolve". Herstarten van de RU DNS servers om 12:45 heeft misschien het probleem opgelost. Zonder een echte verklaring was het probleem na enkele uren verdwenen.

Gitlab upgrade

  Begin         : 2021-02-07  04:00
  Einde         : 2021-02-07  12:50
  Getroffen     : gebruikers van GitLab en Mattermost

Vanwege een upgrade van GitLab en Mattermost naar de laatste versie zijn deze tijdelijk niet beschikbaar.

Science VPNsec storing

 Begin         : 2021-02-03 13:00
 Eind          : 2021-02-03 14:02 (voor Apple macOS/iOS: laatste fix op 10 februari)
 Getroffen     : Gebruikers van Science VPN diensten

Het certificaat van onze VPNsec-service werd niet regelmatig gecontroleerd en kon daarom verlopen. We hebben binnen een uur een nieuw certificaat geïnstalleerd. Natuurlijk zullen we ook van dit certificaat vanaf nu de looptijd controleren. Voor Apple/Mac moet een nieuwe mobileconfig gemaakt worden, dat kost even tijd, omdat in de tussentijd de RU naar een andere Certicate Authority verhuisd was. Voor Apple macOS was dat eind 4 februari gelukt, met een nieuwe installatieprocedure. Voor Apple iOS (iPhone/iPad) moet men wel het oude profiel verwijderen en de nieuwe mobileconfig installeren.

DHZ tijdelijk niet beschikbaar

  Begin         : 2021-01-25 07:15
  Einde         : 2021-01-25 07:45
  Getroffen     : Gebruikers die hun science account wilden beheren

In verband met een beheershandeling (min of meer gepland) was de DHZ website tijdelijk onbruikbaar, het tijdstip was vroeg in de ochtend, dus vermoedelijk heeft het weinig of geen overlast veroorzaakt.

Science smtp-service tijdelijk niet beschikbaar

  Begin         : 2021-01-22 10:00
  Einde         : 2021-01-22 10:30
  Getroffen     : Science mail gebruikers die mail wilden versturen

Een configuratiewijziging maakte onbedoeld de smtp-service onbruikbaar. Toen we dat opmerkten is dat direct gecorrigeerd.

Erg lange mail aliasen tijdelijk niet beschikbaar

  Begin         : 2021-01-21 15:52
  Einde         : 2021-01-22 09:55
  Getroffen     : Science mail aliasen van meer dan 1024 tekens

Bij een configuratiewijziging verdwenen onbedoeld alle erg lange mail aliasen. Na de eerste melding is dat de volgende ochtend gecorrigeerd.

Switch crash; gitlab+mattermost, licenses and DHZ

  Begin         : 2021-01-07 ~14:30
  Einde         : 2021-01-07 ~15:00
  Getroffen     : gebruikers van GitLab en Mattermost, Licenties, DHZ

Door een eenvoudige beheershandeling crashte een switch (as-ak008-04) die daarna met de hand gereset moest worden. De switch zit onder andere tussen het netwerk en de servers voor gitlab+mattermost, de licenties, en de database voor DHZ.

Gitlab upgrade

  Begin         : 2020-11-27  04:00
  Einde         : 2020-11-27 ~08:00
  Getroffen     : gebruikers van GitLab en Mattermost (ook voor PEP)

Vanwege een upgrade van GitLab en Mattermost naar de laatste versie zijn deze tijdelijk niet beschikbaar.

Eduroam-probleem op de campus

 Begin         : 2020-07-10 avond
 Eind          : 2020-07-10 avond
 Getroffen     : Eduroam-gebruikers op de campus

Het ISC deelde mee: Om beveiligingsredenen wordt vrijdagavond 10 juli het certificaat van de wifi-server vervangen. Dit heeft gevolgen voor het verbinden van je mobile device met Eduroam als je op de campus bent:

• Als je de melding krijgt dat je het nieuwe certificaat moet accepteren om gebruik te maken van Eduroam, kies dan voor ‘ja’. Je kunt dan weer gewoon gebruik maken van Eduroam;

• Als je deze melding niet krijgt én geen verbinding met Eduroam kunt maken, kies dan voor het draadloze netwerk ‘eduroam-config’. Accepteer de voorwaarden. Volg de instructies om Eduroam opnieuw te installeren.

Meer informatie vind je ook via www.ru.nl/wifi (hier heb je een internetverbinding voor nodig).

Met vragen kun je terecht bij de ICT Helpdesk (024 – 36 22222).

RU mail onterecht in Spamfolder

 Begin         : 2020-03-25 17:52
 Eind          : 2020-07-07 13:13
 Getroffen     : FNWI-medewerkers met Science mail

Aan het Science spamfilter is op 25 maart 2020 een regel "2020 Radboud Universiteit" toegevoegd, die de laatste tijd ook in RU-centrale mailings voorkomt. Daardoor zijn RU-brede mailings van o.a. het CvB en Radboud Recharge onterecht in de Spam folder van FNWI-medewerkers afgeleverd. Met het Science spamfilter proberen we zo goed als mogelijk spam en phishing tegen te gaan, dit is deels handwerk, hierbij zijn fouten niet uitgesloten. C&CZ biedt excuses aan voor de overlast die hierdoor veroorzaakt is.

Webserver 'havik' offline

 Begin         : 2020-06-18 15:45
 Eind          : 2020-06-18 16:25
 Getroffen     : Gebruikers van diverse websites.

Diverse onderdelen zijn vervangen, we gaan ervan uit dat het tweemaal opgetreden probleem hiermee verholpen is. Voor dual-boot pc's werd tijdens de reparatie een alternatief bootmenu verzorgd.

Science radius storing

 Begin : 2020-06-17 11:11
 Eind  : 2020-06-17 11:56

Getroffen : Gebruikers van Science VPN diensten en Eduroam op basis van Science login

Het certificaat van de LDAP-servers is vanochtend vervangen waarbij tevens de certificate chain gewijzigd is. De radius server gebruikt LDAP als authenticatie-backend en in de radius-configuratie moest ook de certificate chain vervangen worden. Dit was in eerste instantie over het hoofd gezien. Radius is het authenticatie-mechanisme gebruikt door alle VPN-servers en Eduroam.

Webserver 'havik' offline

 Begin         : 2020-06-17 03:38
 Eind          : 2020-06-17 08:52
 Getroffen     : Gebruikers van dual boot PC's (het dual-boot keuzemenu komt van een website) en diverse websites.

De server is wederom uitgevallen op dezelfde manier als op 3 juni 2020. De oorzaak ligt niet bij de reboot maar bij een probleem op het moederbord (is het vermoeden). Dit onderdeel zal morgen (18 juni) worden vervangen door een monteur.

Webserver 'havik' offline

 Begin         : 2020-06-03 06:30
 Eind          : 2020-06-03 10:12
 Getroffen     : Gebruikers van dual boot PC's (het dual-boot keuzemenu

komt van een website) en diverse websites.

De server was na de geplande wekelijkse reboot niet meer te benaderen, zelfs niet op het beheer-interface. Doordat ook C&CZ thuis werkt en niet standaard aanwezig is in het Huygensgebouw en de verstoring niet snel genoeg urgentie kreeg, heeft de storing te lang geduurd, waarvoor excuses. De onderhoudsfirma is ingeschakeld en de server heeft updates gekregen, maar de oorzaak van het probleem is nog onduidelijk. We zullen overigens ook aandacht besteden aan het redundant of eenvoudiger verhuisbaar maken van deze diensten.

CN00 Slurm master ubuntu 16.04 down

 Begin         : 2020-05-18 9:50
 Eind          : 2020-05-19 12:15
 Getroffen     : slurm op ubuntu 16.04 (cn07)

Door een mislukte BIOS update is de hardware van de database server blijven hangen en start niet meer op (brick). De functionaliteit van de server is overgezet op de hardware van cn00, waardoor die nu uit de lucht is. Als de hardware van sperwer weer in orde is, wordt de situatie weer hersteld.

Sperwer Database server failure

 Begin         : 2020-05-18 06:30
 Eind          : 2020-05-18-10:00 
 Getroffen     : Diverse websites, slurm

Door een mislukte BIOS update is de hardware van de database server blijven hangen en start niet meer op (brick). De functionaliteit van de server is overgezet op de hardware van cn00, waardoor die nu uit de lucht is. Als de hardware van sperwer weer in orde is, wordt de situatie weer hersteld.

Update 19 mei 12:15 : hardware gerepareerd, situatie is weer hersteld naar origineel

Science VPN storing

 Begin         : 2020-05-06 05:00
 Eind          : 2020-05-06 08:00
 Getroffen     : Gebruikers van Science VPN diensten

Door onbekende reden vanaf 5 uur crashes op het systeem, vanaf 6 uur was de VPN offline, na een reboot rond 8:00 lijkt alles weer in orde.

Science datacenter netwerkprobleem

 Begin         : 2020-04-30 12:08
 Eind          : 2020-04-30 21:44
 Getroffen     : Gebruikers van Ceph opslag en enkele nieuwe rekenclusternodes

Een defecte transceiver deed 1 verbinding van 100 Gb/s tussen twee C&CZ datacenters klapperen. Pas uren later gebeurde dit zo vaak dat de hele redundante nieuwe verbinding tussen de twee C&CZ serverruimtes niet meer werkte. Nadat dit opgemerkt werd, is vrij snel de workaround gevonden: het shutdown zetten van de interface met de defecte transceiver. Hierna kwam de verbinding weer op. De defecte transceiver is inmiddels vervangen dankzij een snelle actie van de leverancier. We hebben nu ook zelf deze transceivers op voorraad. Aan de leverancier is gevraagd of een configuratiewijziging de verbinding zodanig redundant maakt, dat een enkele defecte transceiver in het vervolg geen overlast meer zou geven.

Jitsi.science.ru.nl niet bruikbaar

 Begin         : 2020-04-19 15:00
 Eind          : 2020-04-20 11:40
 Getroffen     : Gebruikers van jitsi.science.ru.nl

Vanwege mislukte performance tuning is de installatie van jitsi.science.ru.nl onbruikbaar geworden bij meer dan een enkele persoon in de conference. Opgelost na reinstall van de server.

Mailserver certificaatprobleem

 Begin         : 2020-04-13 14:00
 Eind          : 2020-04-13 14:35
 Getroffen     : Gebruikers van Science mail

Het nieuwe certificaat van de Science mailserver was nog niet op de juiste plaats neergezet. Daarom veroorzaakte het verlopen van het oude certificaat een probleem voor Science mailgebruikers, dat verholpen werd door het vervangen van het oude door het nieuwe certificaat.

Probleem met host van virtuele machines

 Begin         : 2020-02-18 05:30
 Eind          : 2020-02-18 09:08
 Getroffen     : Gebruikers van mx3, smtp3, crestron, gitlab (PEP), goudsmit, msql01 and labservanttestvm

De virtuele host 'oscar' kon niet opstarten. Wederom waren kapotte LVM snapshots het probleem.

Gearchiveerde storingen zijn te vinden in het storingsarchief.