<div dir="ltr"><div>HI all -</div><div>At the water cooler April 10, we introduced a group of new/redesigned checks. It was requested that they go into production after a bit of time, so that people had a chance to digest the affects (which are small). We plan to install the checks to the production pasta system at the next regular pasta update, which will be on the evening of <b>Wednesday, 2017 May 3</b></div><div><br></div><div>I have fwd'd the message summarizing the checks, in case you forgot what they were. the PDF slides are here: <a href="http://im.lternet.edu/node/1300" target="_blank">http://im.lternet.edu/no<wbr>de/1300</a></div><div><br></div><div>Remember - these new checks will only affect new or updated datasets; it will NOT affect datasets already in pasta.</div><div><br></div><div>In a nutshell, the new checks are to ensure data/package integrity</div><div><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap">numberOfRecordsPresence (warn)</span><br></div><div><div><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap">  alerts the submitter if the numberOfRecords element is not included. The presence of the element is checked before the numberOfRecords check is run (which compares asserted numberOfRecords to observed)</span></div><div><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap"><br></span></div><div><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap">pastaDoiAbsent (error)</span><br></div></div><div><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap">  the system will not accept package which include a pasta DOI. PASTA assigns the DOI during the generation of L1 EML. </span></div><div><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap"><br></span></div><div><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap">integrityChecksumPresence (warn)</span><br></div><div>  <font face="arial" color="#000000"><span style="white-space:pre-wrap">  analogous to other presence checks, looks for an element before using its content </span></font></div><div><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap"><br></span></div><div><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap">integrityChecksum (error)</span><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap"><br></span></div><div><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap">  The system will reject packages where the asserted integrity checksum does not match a computed checksum at upload.</span></div><div><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap"><br></span></div><div><span style="color:rgb(0,0,0);font-family:arial;font-size:13px;white-space:pre-wrap"><br></span></div><div><br></div><div>In other news -- the ECC WG has reformed, and is meeting regularly. Our first task is a check on dateTime formats. This will include recommendations to the EML schema and its documentation, for eml-2.2.</div><div><br></div><div>best,</div><div>Margaret</div><div>----</div><div><br></div><div><br></div><div><div class="m_-235211945467104032m_-7726761606792304513gmail-m_-881495069850290063gmail_signature"><div dir="ltr"><pre cols="72">Margaret O'Brien
Information Management
Marine Science Institute, UCSB
Santa Barbara, CA 93106
<a href="tel:(805)%20893-2071" value="+18058932071" target="_blank">805-893-2071</a> (voice)
<a href="http://environmentaldatainitiative.org" target="_blank">http://environmentaldatainitia<wbr>tive.org</a>
<a href="http://sbc.marinebon.org" target="_blank">http://sbc.marinebon.org</a>
<a href="http://sbc.lternet.edu" target="_blank">http://sbc.lternet.edu</a></pre></div></div></div>
<br><div class="gmail_quote">---------- Forwarded message ----------<br>From: <b class="gmail_sendername">Margaret O'Brien</b> <span dir="ltr"><<a href="mailto:margaret.obrien@ucsb.edu" target="_blank">margaret.obrien@ucsb.edu</a>></span><br>Date: Mon, Apr 3, 2017 at 4:50 PM<br>Subject: Monday's Watercooler, ECC checks<br>To: all_LTER_IMs <<a href="mailto:im@lternet.edu" target="_blank">im@lternet.edu</a>><br><br><br>Hi all -</div><div class="gmail_quote"><br></div><div class="gmail_quote">As you know, an LTER IMC watercooler is scheduled for next Monday, April 10 (3pm EDT). One of the topics will be advances planned for the ECC - the system performing dataset checking for PASTA. This msg is a short description of what we would like to cover.<br>
<br>
In case you have forgotten, back in 2012 an IMC working group finalized 72 checks, and ~25 of these were running when PASTA went into production in 2013. In the intervening time, additional checks were implemented depending on resources available, and other checks proposed.  Fast forward to today: EDI is up and running, and we have resources budgeted to work on this more systematically.<br>
<br>
The new checks to be implemented are related to specific feature requests. These involve data integrity, and they are important to review with you because failure will generate an 'error' and block upload of the dataset.<br>
<br>
1. checksum (2 checks, details on request):<br>
These will confirm entity integrity during upload. The checksum can be used later by PASTA to minimize entity duplication.<br>
<br>
2. DOIs:<br>
PASTA now adds package DOIs to L1 EML. This means that L0 EML should not contain a DOI (e.g., a DOI may have been inadvertently left behind if an EML doc was recycled).  This check will prevent confusion due to possible conflicting ids.<br>
<br>
During the watercooler, we will outline specifics about the checks. As with other PASTA improvements, checks will be developed and can be tested on portal-d (i.e., you can pre-evaluate your trial EML), and portal-s is reserved as the staging platform for production. For a summary of the checker, its behavior, and results from the first few years with LTER datasets, see this paper in the recent Ecoinformatics special issue, DOI: 10.1016/j.ecoinf.2016.08.001<br>
<br>
Best,<br>
EDI team<span class="m_-235211945467104032m_-7726761606792304513gmail-m_-881495069850290063gmail-HOEnZb"><font color="#888888"><br>
<br>
<br>
<br>
<br>
-- <br>
-----------<br>
Margaret O'Brien<br>
Information Management<br>
Marine Science Institute, UCSB<br>
Santa Barbara, CA 93106<br>
<a href="tel:805-893-2071" value="+18058932071" target="_blank">805-893-2071</a> (voice)<br>
<a href="http://environmentaldatainitiative.org" rel="noreferrer" target="_blank">http://environmentaldatainitia<wbr>tive.org</a><br>
<a href="http://sbc.marinebon.org" rel="noreferrer" target="_blank">http://sbc.marinebon.org</a><br>
<a href="http://sbc.lternet.edu" rel="noreferrer" target="_blank">http://sbc.lternet.edu</a><br>
<br>
</font></span></div><br></div>