<div dir="ltr">Justin,<div><br></div><div>Good catch.  I am diagnosing now, expect to issue a fix by end of tomorrow at latest.</div><div><br></div><div>-Richard J.</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">
On Mon, Mar 3, 2014 at 8:28 AM, David Lawrence &lt;<a href="mailto:davidl@jlab.org">davidl@jlab.org</a>&gt; wrote:<br><blockquote class="gmail_quote">
<br>
Phew!  That’s good. You had me worried for a minute! Now that I re-read your e-mail, I see what you were saying the first time around. Thanks for the clarification.<br>
<font color="#888888"><br>
<br>
-David<br>
</font><div class="HOEnZb"><div class="h5"><br>
On Mar 3, 2014, at 8:24 AM, Justin Stevens &lt;<a href="mailto:jrsteven@mit.edu">jrsteven@mit.edu</a>&gt; wrote:<br>
<br>
&gt; Hi David,<br>
&gt;<br>
&gt; Sorry, what I was trying to say is the failure rate I&#39;m seeing is 0%.  All of the 700 jobs processed all the events and they all had the correct size REST file which should contain all the events.  So by turning the compression off I don&#39;t see this problem with small REST files anymore.  Sorry for the poor wording early in the morning... it was before caffeine.<br>

&gt;<br>
&gt; -Justin<br>
&gt;<br>
&gt; On Mar 3, 2014, at 8:16 AM, David Lawrence wrote:<br>
&gt;<br>
&gt;&gt;<br>
&gt;&gt; Hi Justin,<br>
&gt;&gt;<br>
&gt;&gt; Can you clarify a bit. It sounds like you’re saying all 700 jobs failed to process all events and all 700 had small REST files. In other words a 100% failure rate. Is this correct?<br>
&gt;&gt;<br>
&gt;&gt; -David<br>
&gt;&gt;<br>
&gt;&gt; On Mar 3, 2014, at 6:52 AM, Justin Stevens &lt;<a href="mailto:jrsteven@mit.edu">jrsteven@mit.edu</a>&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt;&gt; Hi Data Challengers,<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Over the weekend I was running test jobs with branches/sim-recon-dc-2 and branches/hdds-dc-2 (checked out as of the time of Friday&#39;s meeting), and in hd_root (ie. creating the rest file) I switched to using the option -PHDDM:USE_COMPRESSION=0.  With 700 jobs finished so far, I haven&#39;t seen any jobs where the monitoring histograms showed the full 25K events were processed, but the REST file was small and didn&#39;t contain all 25K events I&#39;m generating.  The fraction of &quot;small&quot; REST files was something like 2-3% when I was running with compression turned on earlier.<br>

&gt;&gt;&gt;<br>
&gt;&gt;&gt; These jobs were all using the 10^7 EM background with a gate of +/-800 ns, and I had 1 job which crashed in hdgeant, similar to what Paul has already reported:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; !!!!! ZFATAL called from MZPUSH<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; !!!!! ZFATAL reached from MZPUSH    for Case=  3<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; FYI,<br>
&gt;&gt;&gt; Justin<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; On Mar 2, 2014, at 10:02 PM, Mark Ito wrote:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Colleagues,<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Please fine the minutes below and at<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; <a href="https://halldweb1.jlab.org/wiki/index.php/GlueX_Data_Challenge_Meeting,_February_28,_2014#Minutes">https://halldweb1.jlab.org/wiki/index.php/GlueX_Data_Challenge_Meeting,_February_28,_2014#Minutes</a><br>

&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; -- Mark<br>
&gt;&gt;&gt;&gt; _________________________________________________________<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; GlueX Data Challenge Meeting, February 28, 2014<br>
&gt;&gt;&gt;&gt; Minutes<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Present:<br>
&gt;&gt;&gt;&gt; * CMU: Paul Mattione, Curtis Meyer<br>
&gt;&gt;&gt;&gt; * FSU: Volker Crede, Priyashree Roy, Aristeidis Tsaris,<br>
&gt;&gt;&gt;&gt; * IU: Kei Moriya<br>
&gt;&gt;&gt;&gt; * JLab: Mark Dalton, Mark Ito (chair), Chris Larrieu, Simon Taylor<br>
&gt;&gt;&gt;&gt; * NU: Sean Dobbs<br>
&gt;&gt;&gt;&gt; * UConn: Richard Jones<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Announcements<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; * Mark announced an [21]update of the branch. Changes include:<br>
&gt;&gt;&gt;&gt; 1. I fix from Simon for single-ended TOF counters.<br>
&gt;&gt;&gt;&gt; 2. Improvements from Paul for cutting off processing for<br>
&gt;&gt;&gt;&gt; multi-lap curling tracks.<br>
&gt;&gt;&gt;&gt; 3. A change from David Lawrence to [22]allow compression to be<br>
&gt;&gt;&gt;&gt; turned off in producing REST format data.<br>
&gt;&gt;&gt;&gt; o David noticed that all three of the programs hdgeant,<br>
&gt;&gt;&gt;&gt; mcsmear, and DANA produced HDDM-like output, but only<br>
&gt;&gt;&gt;&gt; DANA has compression turned on (REST data in this case).<br>
&gt;&gt;&gt;&gt; This feature will allow us to test if this has anything<br>
&gt;&gt;&gt;&gt; to do with short REST files. On a side note, David<br>
&gt;&gt;&gt;&gt; reported that the short-REST-file was not reproducible.<br>
&gt;&gt;&gt;&gt; Mark produced some example hdgeant_smeared.hddm files<br>
&gt;&gt;&gt;&gt; that produced short output for him to test.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Running Jobs at JLab<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Mark has submitted some test jobs against the new branch. [Added in<br>
&gt;&gt;&gt;&gt; press: 1,000 50 k-event jobs have been submitted.]<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Status of Preparations<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Random number seeds procedure<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Paul spoke to David about this. It seems that mcsmear is currently<br>
&gt;&gt;&gt;&gt; generating its own random number seed. We still have details to fill in<br>
&gt;&gt;&gt;&gt; on this story.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Running Jobs at FSU<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; FSU has started running data challenge test jobs on their cluster.<br>
&gt;&gt;&gt;&gt; Aristeidis has started with 50 jobs, but an early look shows problems<br>
&gt;&gt;&gt;&gt; with some of them in hd_root. Also there was the GlueX-software-induced<br>
&gt;&gt;&gt;&gt; crash of the FSU cluster[?].<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Running jobs at CMU<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Paul is seeing ZFATAL errors from hdgeant. He will send a bug report to<br>
&gt;&gt;&gt;&gt; Richard who will look into a fix beyond merely increasing ZEBRA memory.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Richard asked about an issue where JANA takes a long time to identify a<br>
&gt;&gt;&gt;&gt; CODA file as not an HDDM file. Richard would like to fix the HDDM<br>
&gt;&gt;&gt;&gt; parser such that this is not the case. Mark D. will send Richard an<br>
&gt;&gt;&gt;&gt; example.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Running Jobs at NU<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Sean regaled us with tales of site specific problems.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Lots of jobs crashed at REST generation. Site configuration changes<br>
&gt;&gt;&gt;&gt; helped. But there were still a lot of jobs hanging, usually with new<br>
&gt;&gt;&gt;&gt; nodes. Reducing the number of submit slots fixed most of the problems.<br>
&gt;&gt;&gt;&gt; Many of the remaining symptoms were jobs hung on the first event when<br>
&gt;&gt;&gt;&gt; accessing the magnetic field. Jobs are single-threaded. [23]Some<br>
&gt;&gt;&gt;&gt; statistics on the results were presented as well.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Richard remarked that on the OSG, jobs will start much faster if<br>
&gt;&gt;&gt;&gt; declared as single-threaded.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Richard proposed the following standards:<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; BGRATE 1.1 (equivalent to 10^7) BGGATE -800 800 (in ns, time gate for<br>
&gt;&gt;&gt;&gt; EM background addition)<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; We agreed on these as standard settings.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Mark proposed the following split of running:<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; 15% with no EM background 70% with EM background corresponding to 10^7<br>
&gt;&gt;&gt;&gt; 15% with EM background corresponding to 5\×10^7<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; There was general agreement; adjustment may happen in the future.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Running Jobs at MIT<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Justin has been running with the dc-2.2 tag. The OpenStack cluster at<br>
&gt;&gt;&gt;&gt; MIT has about 180 cores and he has been running jobs for a couple of<br>
&gt;&gt;&gt;&gt; days with good success. BGGATE was set at -200 to 200.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Electromagnetic Background<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Kei gave us an [24]update on his studies of EM background with hdds-2.0<br>
&gt;&gt;&gt;&gt; and sim-recon-dc-2.1. Slides covered:<br>
&gt;&gt;&gt;&gt; * Memory Usage<br>
&gt;&gt;&gt;&gt; * CPU time<br>
&gt;&gt;&gt;&gt; * mcsmear File Sizes<br>
&gt;&gt;&gt;&gt; * REST File Sizes<br>
&gt;&gt;&gt;&gt; * Another Bad File<br>
&gt;&gt;&gt;&gt; * Sum of parentid=0<br>
&gt;&gt;&gt;&gt; * Correlation of CDC hits<br>
&gt;&gt;&gt;&gt; * Correlation of FDC hits<br>
&gt;&gt;&gt;&gt; * pπ^+π^- Events<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Proposed Schedule<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; The schedule has slipped. The new schedule is as follows:<br>
&gt;&gt;&gt;&gt; 1. Launch of Data Challenge Thursday March 6, 2014 (est.).<br>
&gt;&gt;&gt;&gt; 2. Test jobs going successfully by Tuesday March 4.<br>
&gt;&gt;&gt;&gt; 3. Distribution ready by Monday March 3.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Justin pointed out that the short REST file problem might be something<br>
&gt;&gt;&gt;&gt; that we could live with for this data challenge.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Richard asked that Mark assign run numbers and run conditions for the<br>
&gt;&gt;&gt;&gt; various sites.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Action Items<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; 1. Understand random number seed system.<br>
&gt;&gt;&gt;&gt; 2. Solve ZFATAL crashes.<br>
&gt;&gt;&gt;&gt; 3. Make a table of conditions vs. sites where the entries are assigned<br>
&gt;&gt;&gt;&gt; file numbers.<br>
&gt;&gt;&gt;&gt; 4. Report the broken Polycom in L207.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Retrieved from<br>
&gt;&gt;&gt;&gt; &quot;<a href="https://halldweb1.jlab.org/wiki/index.php/GlueX_Data_Challenge_Meeting,_February_28,_2014">https://halldweb1.jlab.org/wiki/index.php/GlueX_Data_Challenge_Meeting,_February_28,_2014</a>&quot;<br>

&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; References<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; 21.<br>
&gt;&gt;&gt;&gt; <a href="https://mailman.jlab.org/pipermail/halld-offline/2014-February/001511.html">https://mailman.jlab.org/pipermail/halld-offline/2014-February/001511.html</a><br>
&gt;&gt;&gt;&gt; 22.<br>
&gt;&gt;&gt;&gt; <a href="https://mailman.jlab.org/pipermail/halld-offline/2014-February/001512.html">https://mailman.jlab.org/pipermail/halld-offline/2014-February/001512.html</a><br>
&gt;&gt;&gt;&gt; 23.<br>
&gt;&gt;&gt;&gt; <a href="https://halldweb1.jlab.org/wiki/images/f/f8/DC2-Meeting-sdobbs-20140228.pdf">https://halldweb1.jlab.org/wiki/images/f/f8/DC2-Meeting-sdobbs-20140228.pdf</a><br>
&gt;&gt;&gt;&gt; 24. <a href="https://halldweb1.jlab.org/wiki/images/e/ea/2014-02-28-DC2.pdf">https://halldweb1.jlab.org/wiki/images/e/ea/2014-02-28-DC2.pdf</a><br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt; Halld-offline mailing list<br>
&gt;&gt;&gt;&gt; <a href="mailto:Halld-offline@jlab.org">Halld-offline@jlab.org</a><br>
&gt;&gt;&gt;&gt; <a href="https://mailman.jlab.org/mailman/listinfo/halld-offline">https://mailman.jlab.org/mailman/listinfo/halld-offline</a><br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt; Halld-offline mailing list<br>
&gt;&gt;&gt; <a href="mailto:Halld-offline@jlab.org">Halld-offline@jlab.org</a><br>
&gt;&gt;&gt; <a href="https://mailman.jlab.org/mailman/listinfo/halld-offline">https://mailman.jlab.org/mailman/listinfo/halld-offline</a><br>
&gt;&gt;<br>
&gt;<br>
<br>
<br>
_______________________________________________<br>
Halld-offline mailing list<br>
<a href="mailto:Halld-offline@jlab.org">Halld-offline@jlab.org</a><br>
<a href="https://mailman.jlab.org/mailman/listinfo/halld-offline">https://mailman.jlab.org/mailman/listinfo/halld-offline</a></div></div></blockquote></div><br></div>