<div dir="ltr">Hi John --<div><br></div><div>That's awesome, and sounds really useful.   </div><div><br></div><div>If you're having speed issues due to multiple requests, you might find the DataONE log aggregation service useful as well.  We collate access logs from all of the DataONE members, and then index those along with additional information such as the time and geo location where the access occurred.  So, its pretty fast and easy to get summaries of the usage logs for individual identifiers, for groups of identifiers, for all identifiers owned by a user or group, etc.  You can also do temporal summaries of that same data (e.g., downloads by month), and downloads by spatial location.  Here are some example SOLR queries, no program needed:</div><div><br></div><div>1) Download counts for all SBC LTER pids (identifiers) that have been registered with DataONE (assuming they follow the 'knb-lter-sbc' naming convention):</div><div><a href="https://cn.dataone.org/cn/v2/query/logsolr/?q=*:*&fq=pid:*knb-lter-sbc*&fq=event:read&facet=true&facet.field=pid&facet.mincount=1&facet.limit=10000&rows=0&wt=xml">https://cn.dataone.org/cn/v2/query/logsolr/?q=*:*&fq=pid:*knb-lter-sbc*&fq=event:read&facet=true&facet.field=pid&facet.mincount=1&facet.limit=10000&rows=0&wt=xml</a><br></div><div><br></div><div>If you want it in JSON format, just change the last parameter to 'wt=json'.</div><div><br></div><div>Download stats are more meaningful if we exclude web crawlers for search engines.  We provide a simple filter for that as well, so if you set `fq=inPartialRobotList:false` then you will exclude most web robots:</div><div><a href="https://cn.dataone.org/cn/v2/query/logsolr/?q=*:*&fq=pid:*knb-lter-sbc*&fq=event:read&fq=inPartialRobotList:false&facet=true&facet.field=pid&facet.mincount=1&facet.limit=10000&rows=0&wt=xml">https://cn.dataone.org/cn/v2/query/logsolr/?q=*:*&fq=pid:*knb-lter-sbc*&fq=event:read&fq=inPartialRobotList:false&facet=true&facet.field=pid&facet.mincount=1&facet.limit=10000&rows=0&wt=xml</a><br></div><div><br></div><div>For that query, this reduces the total downloads form 87,709 to 56,284, so it has a significant impact on interpreting results.</div><div><br></div><div>2) Monthly breakdown of download counts for a particular identifier:</div><div><a href="https://cn.dataone.org/cn/v2/query/logsolr/?q=*:*&fq=pid:knb-lter-sbc.5.3*&fq=event:read&facet=true&facet.field=pid&facet.mincount=1&facet.limit=10000&rows=0&facet.range=dateLogged&facet.range.start=2000-01-01T01:01:01Z&facet.range.end=2017-01-31T24:59:59Z&facet.range.gap=%2B1MONTH&wt=xml">https://cn.dataone.org/cn/v2/query/logsolr/?q=*:*&fq=pid:knb-lter-sbc.5.3*&fq=event:read&facet=true&facet.field=pid&facet.mincount=1&facet.limit=10000&rows=0&facet.range=dateLogged&facet.range.start=2000-01-01T01:01:01Z&facet.range.end=2017-01-31T24:59:59Z&facet.range.gap=%2B1MONTH&wt=xml</a><br></div><div><br></div><div>These are just two examples -- you can easily get many other reports.  This index is what drives the user interface display of download counts on the DataONE view of a data set, such as this one for the knb-lter-sbc.1002.6, showing the individual metadata views and how many times each data file was downloaded:</div><div><a href="https://search.dataone.org/#view/https://pasta.lternet.edu/package/metadata/eml/knb-lter-sbc/1002/6">https://search.dataone.org/#view/https://pasta.lternet.edu/package/metadata/eml/knb-lter-sbc/1002/6</a><br></div><div><br></div><div>Of course, what we show is only as accurate as what is reported by member repositories -- we've found that some repositories either don't report or under-report their downloads, so you should probably view these as minimum counts rather than absolute values.  But YMMV from member to member.</div><div><br></div><div>More details about the log aggregation service is in our documentation (<a href="https://releases.dataone.org/online/api-documentation-v2.0.1/design/UsageStatistics.html">https://releases.dataone.org/online/api-documentation-v2.0.1/design/UsageStatistics.html</a>).</div><div><br></div><div>Hope this is helpful.</div><div><br></div><div>Matt</div><div><br></div><div> </div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Feb 14, 2017 at 12:02 PM, Ken Ramsey <span dir="ltr"><<a href="mailto:kramsey@jornada-vmail.nmsu.edu" target="_blank">kramsey@jornada-vmail.nmsu.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi John,<br>
<br>
Thanks!<br>
<br>
Ken<br>
<br>
<br>
>>> John Porter <<a href="mailto:jhp7e@eservices.virginia.edu">jhp7e@eservices.virginia.edu</a>> 2017-02-14 01:58 PM >>><br>
<div><div class="h5">During the VTC yesterday, several folks expressed interest in code to<br>
tally dataset and metadata downloads of data in PASTA.  PASTA keeps<br>
excellent logs, but it is up to us to do the desired aggregations.<br>
<br>
<a href="https://github.com/lter/VCR" rel="noreferrer" target="_blank">https://github.com/lter/VCR</a><br>
<br>
has several Python programs that may be of help.<br>
<br>
PastaUseCountBasic.py (attached) writes to standard output a CSV file<br>
containing Scope, Identifier, Revision, Title, Entity, DownloadCount,<br>
StartDate, EndDate for each entity downloaded during a specified time<br>
period.<br>
<br>
Some notes:<br>
<br>
The program produces output to STDOUT based on command line options.  A<br>
typical command line might be:<br>
 python ./PastaUseCountBasic.py --fromdate 2017-01-01 --todate<br>
2017-02-14  knb-lter-jrn >jrn_2016.csv<br>
<br>
The program is NOT particularly fast, due to the large number of web<br>
service calls required and latency associated with PASTA processing.<br>
Shorter time periods are processed faster than longer ones due to the<br>
smaller number of log entries needed to be retrieved.<br>
<br>
The program uses a number of modules (listed at the top in the import<br>
statements) that need to be installed prior to running.<br>
<br>
It requires that you give it an authorized login to access the needed<br>
records and prompts you for them, or you can set up an "authorization<br>
file" that eliminates the need to manually login. Contact me for details....<br>
<br>
<br>
--<br>
John H. Porter<br>
Dept. of Environmental Sciences<br>
University of Virginia<br>
291 McCormick Road<br>
PO Box 400123<br>
Charlottesville, VA 22904-4123<br>
ORCID: <a href="http://orcid.org/0000-0003-3118-5784" rel="noreferrer" target="_blank">http://orcid.org/0000-0003-<wbr>3118-5784</a><br>
<br>
<br>
</div></div>______________________________<wbr>_________________<br>
Long Term Ecological Research Network<br>
im mailing list<br>
<a href="mailto:im@lternet.edu">im@lternet.edu</a><br>
<br>
</blockquote></div><br></div>