Spaces:

observablehq
/

fpdn

Running

fil commited on Feb 21, 2024

Commit

f4921cd

unverified ·

1 Parent(s): c193f10

test if file exists

Files changed (1) hide show

docs/data/presse.parquet.sh CHANGED Viewed

@@ -1,26 +1,32 @@
-# install duckdb if not already present
-export PATH=.cache:$PATH
-command -v duckdb || $(
-  curl --location --output duckdb.zip \
-    https://github.com/duckdb/duckdb/releases/download/v0.10.0/duckdb_cli-linux-amd64.zip && \
-    unzip -qq duckdb.zip && chmod +x duckdb && mkdir -p .cache && mv duckdb .cache/
-)
-export TMPDIR="dist"
 mkdir -p $TMPDIR
-echo """
-CREATE TABLE presse AS (
-SELECT title
-     , author
-     , LPAD((REGEXP_EXTRACT(date, '1[0-9][0-9][0-9]') || '-01-01'), 10, '0')::DATE AS year
-  FROM read_parquet(
-    [('https://huggingface.co/datasets/PleIAs/French-PD-Newspapers/resolve/main/gallica_presse_{:d}.parquet').format(n) for n in range(1, 321)])
-  ORDER BY title, author, year
-);
-COPY presse TO '$TMPDIR/presse.parquet' (COMPRESSION 'ZSTD', row_group_size 10000000);
-""" | duckdb
 # isatty
 if [ -t 1 ]; then
@@ -28,5 +34,5 @@ if [ -t 1 ]; then
   echo "duckdb -csv :memory: \"SELECT * FROM '$TMPDIR/presse.parquet'\""
 else
   cat $TMPDIR/presse.parquet
-  rm $TMPDIR/presse.parquet
 fi

+# Use "eleventy" .cache to store our temp files
+export TMPDIR=".cache"
 mkdir -p $TMPDIR
+if [ ! -f "$TMPDIR/presse.parquet" ]; then
+  # install duckdb if not already present
+  export PATH=.cache:$PATH
+  command -v duckdb || $(
+    curl --location --output duckdb.zip \
+      https://github.com/duckdb/duckdb/releases/download/v0.10.0/duckdb_cli-linux-amd64.zip && \
+      unzip -qq duckdb.zip && chmod +x duckdb && mkdir -p .cache && mv duckdb .cache/
+  )
+  echo """
+  CREATE TABLE presse AS (
+  SELECT title
+       , author
+       , LPAD((REGEXP_EXTRACT(date, '1[0-9][0-9][0-9]') || '-01-01'), 10, '0')::DATE AS year
+    FROM read_parquet(
+      [('https://huggingface.co/datasets/PleIAs/French-PD-Newspapers/resolve/main/gallica_presse_{:d}.parquet').format(n) for n in range(1, 321)])
+    ORDER BY title, author, year
+  );
+  COPY presse TO '$TMPDIR/presse.parquet' (COMPRESSION 'ZSTD', row_group_size 10000000);
+  """ | duckdb
+fi
 # isatty
 if [ -t 1 ]; then
   echo "duckdb -csv :memory: \"SELECT * FROM '$TMPDIR/presse.parquet'\""
 else
   cat $TMPDIR/presse.parquet
+  #rm $TMPDIR/presse.parquet
 fi