<div dir="ltr"><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;color:#444444"><br></div><div style="font-family:arial,helvetica,sans-serif;color:rgb(68,68,68)" class="gmail_default">FYI.</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">---------- Forwarded message ---------<br>From: <b class="gmail_sendername" dir="auto">Adesanya, Adeyemi</b> <span dir="auto"><<a href="mailto:0000007cceebf6ba-dmarc-request@listserv.slac.stanford.edu">0000007cceebf6ba-dmarc-request@listserv.slac.stanford.edu</a>></span><br>Date: Fri, Jun 12, 2020 at 6:48 AM<br>Subject: major SLAC network and system service disruption June 11 9P - June 12 2A<br>To: <a href="mailto:opsproblist@glast2.stanford.edu">opsproblist@glast2.stanford.edu</a> <<a href="mailto:opsproblist@glast2.stanford.edu">opsproblist@glast2.stanford.edu</a>>, hep_computing_tf <<a href="mailto:hep_computing_tf@slac.stanford.edu">hep_computing_tf@slac.stanford.edu</a>>, White, Greg <<a href="mailto:greg@slac.stanford.edu">greg@slac.stanford.edu</a>>, Perazzo, Amedeo <<a href="mailto:perazzo@slac.stanford.edu">perazzo@slac.stanford.edu</a>><br>Cc: Foster, Mark <<a href="mailto:fosterm@slac.stanford.edu">fosterm@slac.stanford.edu</a>>, Purcell, Kevin <<a href="mailto:kpurcell@slac.stanford.edu">kpurcell@slac.stanford.edu</a>>, Nakata, Lance <<a href="mailto:lnakata@slac.stanford.edu">lnakata@slac.stanford.edu</a>><br></div><br><br>Summary: Thursday June 11, there was a major disruption of a portion of the SLAC network and some system services. This disruption included limited or sporadic access to Domain Name System (DNS), and timeout or lack of access to the AFS file system servers. Many other services were also impacted, as there is heavy reliance upon both DNS and AFS. Services began to recover approximately 2:10AM Friday, June 12.<br>
<br>
Main impact period: 9:00P Thu 6/11 – 2:10A Fri 6/12<br>
<br>
Initial Assessment: During scheduled networking changes (CHG0033649), an anomaly developed in a portion of key network equipment that caused intermittent response to some DNS lookups. The change related to the anomaly was reverted, however problems with some services persisted, including an impact to critical AFS servers. The nature and scope of the services impacted took several hours to diagnose and a configuration work around established to restore service.<br>
<br>
Findings: The scheduled changes did not go as tested and planned. The changes were intended to reduce dependencies on aging network hardware. Part way through the changes, a part of the system stopped passing some traffic, but continued to process other traffic as expected. Multiple groups were required to diagnose and resolve the problem. The effort was complicated by some diagnosis requiring personnel onsite. The requirement for onsite presence was partly due to how the systems failed, making remote access impossible for key support individuals.<br>
<br>
Actions: Once the initial anomalies were observed, alerts were sent to several key support folks (via Slack and Skype) to assist in determining impact scope. After the planned changes were reverted, and the service impacts persisted, escalations were made to broader set of support teams, and the full network engineering team began extensive investigation and troubleshooting. Diagnostic input from the teams was used to narrow the focus of the problem. This focus led to intermittent behavior of one router component that was not properly handling specific types of DNS services. A configuration change was made to work around this faulty behavior.<br>
<br>
Follow-on actions will include collecting lessons learned and steps that can be taken to reduce the chance of a similar incident, as well as reduce the response and recovery time. Special focus will be made on assurance that support can be delivered remotely, even when some key services are impacted. <br>
<br>
While many people helped, I’d like to particularly recognize Lance Nakata for traveling to SLAC to provide onsite help in diagnosis and recovery steps.<br>
<br>
Please let me know if you have any questions.<br>
<br>
————<br>
Yemi<br>
650-224-1874<br>
<br>
########################################################################<br>
Use REPLY-ALL to reply to list<br>
<br>
To unsubscribe from the HEP_COMPUTING_TF list, click the following link:<br>
<a href="https://urldefense.proofpoint.com/v2/url?u=https-3A__listserv.slac.stanford.edu_cgi-2Dbin_wa-3FSUBED1-3DHEP-5FCOMPUTING-5FTF-26A-3D1&d=DwMFaQ&c=CJqEzB1piLOyyvZjb8YUQw&r=ErLkbYGWd8oSAZ70ywHxhA&m=vWoDsOkYD-qj4phC-l5jLPQm7mfwchUrRY8vRVhO7No&s=zk_IDgIc1EwtOf-6SCThqgXd7Aw2iSd1wnNgt1G_pcs&e=" rel="noreferrer" target="_blank">https://listserv.slac.stanford.edu/cgi-bin/wa?SUBED1=HEP_COMPUTING_TF&A=1</a><br>
</div></div>