Data Programming Course  Check-in [65c2141b7d]

Many hyperlinks are disabled.
Use anonymous login to enable hyperlinks.

Overview
Comment:slide della lezione 7, dimenticate nel precedente commit
Downloads: Tarball | ZIP archive | SQL archive
Timelines: family | ancestors | descendants | both | trunk
Files: files | file ages | folders
SHA1:65c2141b7d64ada3c801da2d8704b6fe3b602e4e
User & Date: EnricoGiampieri 2017-03-12 10:55:31
Context
2017-03-13
23:29
terminata la lezione 7 check-in: 6561f8c970 user: EnricoGiampieri tags: trunk
2017-03-12
10:55
slide della lezione 7, dimenticate nel precedente commit check-in: 65c2141b7d user: EnricoGiampieri tags: trunk
10:53
dati per l'esercizio della lezione 7 check-in: 19616c12c9 user: EnricoGiampieri tags: trunk
Changes

Changes to Lezione 7 - Data pipeline e Snakemake.html.

13600
13601
13602
13603
13604
13605
13606































13607
13608
13609
13610
13611
13612
13613
<div class="cell border-box-sizing text_cell rendered">
<div class="prompt input_prompt">
</div>
<div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="sentinel-files">sentinel files<a class="anchor-link" href="#sentinel-files">&#182;</a></h3><p>Concetto molto semplice, creo file vuori come controlli, poi li cancello quando non mi servono più.</p>
<p>Posso aggiornarli con un <code>touch</code> per renderli più nuovi.</p>
































</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="prompt input_prompt">In&nbsp;[&nbsp;]:</div>







>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>







13600
13601
13602
13603
13604
13605
13606
13607
13608
13609
13610
13611
13612
13613
13614
13615
13616
13617
13618
13619
13620
13621
13622
13623
13624
13625
13626
13627
13628
13629
13630
13631
13632
13633
13634
13635
13636
13637
13638
13639
13640
13641
13642
13643
13644
<div class="cell border-box-sizing text_cell rendered">
<div class="prompt input_prompt">
</div>
<div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="sentinel-files">sentinel files<a class="anchor-link" href="#sentinel-files">&#182;</a></h3><p>Concetto molto semplice, creo file vuori come controlli, poi li cancello quando non mi servono più.</p>
<p>Posso aggiornarli con un <code>touch</code> per renderli più nuovi.</p>

</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered">
<div class="prompt input_prompt">
</div>
<div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h2 id="Esercizio">Esercizio<a class="anchor-link" href="#Esercizio">&#182;</a></h2><p>Nel sito trovate un link a dei file per questa lezione, ciascuno con dentro una semplice tabella che indica una sequenza di versamenti fatti da delle persone.</p>
<p>Ci sarà anche un file che indica gli hash md5 per ciascuno di questi file.</p>
<p>Scrivete una pipeline che li scarichi, controlli che la md5 hash è quella attesa, caricate i dati e scrivete in un file il totale risultante per ciascuna persona.</p>
<ul>
<li>La cartella la trovate all'indirizzo <code>https://chiselapp.com/user/EnricoGiampieri/repository/DataProgrammingCourse/doc/tip/snakemake_exercise/</code></li>
<li>ci sono 50 file chiamati transazioni_{}.tsv con l'indice da 00 a 49</li>
<li>il file di controllo degli hash è <code>md5sums.tsv</code></li>
</ul>

</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered">
<div class="prompt input_prompt">
</div>
<div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="suggerimenti">suggerimenti<a class="anchor-link" href="#suggerimenti">&#182;</a></h3><ul>
<li>la funzione di hash può essere implementata in python o con il comando da terminale <code>md5sum</code></li>
<li>i file possono essere scaricati da terminale con <code>wget</code> oppure da python con la libreria <code>requests</code></li>
<li>usate le wildcard per ottenere i file, o non finite più!</li>
</ul>

</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="prompt input_prompt">In&nbsp;[&nbsp;]:</div>

Changes to Lezione 7 - Data pipeline e Snakemake.slides.html.

13637
13638
13639
13640
13641
13642
13643































13644
13645
13646
13647
13648
13649
13650
<div class="cell border-box-sizing text_cell rendered">
<div class="prompt input_prompt">
</div>
<div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="sentinel-files">sentinel files<a class="anchor-link" href="#sentinel-files">&#182;</a></h3><p>Concetto molto semplice, creo file vuori come controlli, poi li cancello quando non mi servono più.</p>
<p>Posso aggiornarli con un <code>touch</code> per renderli più nuovi.</p>
































</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="prompt input_prompt">In&nbsp;[&nbsp;]:</div>







>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>







13637
13638
13639
13640
13641
13642
13643
13644
13645
13646
13647
13648
13649
13650
13651
13652
13653
13654
13655
13656
13657
13658
13659
13660
13661
13662
13663
13664
13665
13666
13667
13668
13669
13670
13671
13672
13673
13674
13675
13676
13677
13678
13679
13680
13681
<div class="cell border-box-sizing text_cell rendered">
<div class="prompt input_prompt">
</div>
<div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="sentinel-files">sentinel files<a class="anchor-link" href="#sentinel-files">&#182;</a></h3><p>Concetto molto semplice, creo file vuori come controlli, poi li cancello quando non mi servono più.</p>
<p>Posso aggiornarli con un <code>touch</code> per renderli più nuovi.</p>

</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered">
<div class="prompt input_prompt">
</div>
<div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h2 id="Esercizio">Esercizio<a class="anchor-link" href="#Esercizio">&#182;</a></h2><p>Nel sito trovate un link a dei file per questa lezione, ciascuno con dentro una semplice tabella che indica una sequenza di versamenti fatti da delle persone.</p>
<p>Ci sarà anche un file che indica gli hash md5 per ciascuno di questi file.</p>
<p>Scrivete una pipeline che li scarichi, controlli che la md5 hash è quella attesa, caricate i dati e scrivete in un file il totale risultante per ciascuna persona.</p>
<ul>
<li>La cartella la trovate all'indirizzo <code>https://chiselapp.com/user/EnricoGiampieri/repository/DataProgrammingCourse/doc/tip/snakemake_exercise/</code></li>
<li>ci sono 50 file chiamati transazioni_{}.tsv con l'indice da 00 a 49</li>
<li>il file di controllo degli hash è <code>md5sums.tsv</code></li>
</ul>

</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered">
<div class="prompt input_prompt">
</div>
<div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="suggerimenti">suggerimenti<a class="anchor-link" href="#suggerimenti">&#182;</a></h3><ul>
<li>la funzione di hash può essere implementata in python o con il comando da terminale <code>md5sum</code></li>
<li>i file possono essere scaricati da terminale con <code>wget</code> oppure da python con la libreria <code>requests</code></li>
<li>usate le wildcard per ottenere i file, o non finite più!</li>
</ul>

</div>
</div>
</div>
<div class="cell border-box-sizing code_cell rendered">
<div class="input">
<div class="prompt input_prompt">In&nbsp;[&nbsp;]:</div>