Spaces:

MLCommons
/

croissant-editor

Running

App Files Files Community

marcenacp commited on Mar 13, 2024

Commit

73ebcab

•

1 Parent(s): 5b216e9

Deploy (see actual commits on https://github.com/mlcommons/croissant).

Browse files

Files changed (18) hide show

Makefile +4 -2
core/files.py +32 -6
core/files_test.py +47 -1
core/record_sets.py +5 -3
core/state.py +95 -55
core/state_test.py +32 -0
events/fields.py +13 -4
events/metadata.py +3 -3
events/record_sets.py +7 -0
events/resources.py +7 -0
events/resources_test.py +2 -0
requirements.txt +1 -1
views/files.py +21 -11
views/jsonld.py +5 -2
views/record_sets.py +62 -31
views/record_sets_test.py +7 -5
views/source.py +5 -5
views/wizard.py +2 -1

Makefile CHANGED Viewed

@@ -1,7 +1,9 @@
 black:
-	black \
 		--line-length 88 \
-		--preview \
 	.
 isort:

+current_dir := $(dir $(abspath $(firstword $(MAKEFILE_LIST))))
 black:
+	docker run --rm --volume $(current_dir):/src --workdir /src pyfound/black:24.2.0 black \
 		--line-length 88 \
+		--exclude '.*\/node_modules\/' \
 	.
 isort:

core/files.py CHANGED Viewed

@@ -52,9 +52,12 @@ class FileTypes:
         encoding_format="application/x-tar",
         extensions=["tar"],
     )
     TXT = FileType(
         name="Text",
-        encoding_format="plain/text",
         extensions=["txt"],
     )
     ZIP = FileType(
@@ -79,6 +82,7 @@ FILE_TYPES: dict[str, FileType] = {
         FileTypes.JSONL,
         FileTypes.PARQUET,
         FileTypes.TAR,
         FileTypes.TXT,
         FileTypes.ZIP,
     ]
@@ -141,6 +145,8 @@ def get_dataframe(file_type: FileType, file: io.BytesIO | epath.Path) -> pd.Data
         df = pd.read_json(file, lines=True)
     elif file_type == FileTypes.PARQUET:
         df = pd.read_parquet(file)
     else:
         raise NotImplementedError(
             f"File type {file_type} is not supported. Please, open an issue on GitHub:"
@@ -149,8 +155,22 @@ def get_dataframe(file_type: FileType, file: io.BytesIO | epath.Path) -> pd.Data
     return df.infer_objects()
-def guess_file_type(path: epath.Path) -> FileType | None:
     mime = magic.from_file(path, mime=True)
     return ENCODING_FORMATS.get(mime)
@@ -163,8 +183,10 @@ def file_from_url(url: str, names: set[str], folder: epath.Path) -> FileObject:
         sha256 = _sha256(file.read())
     file_type = guess_file_type(file_path)
     df = get_dataframe(file_type, file_path)
     return FileObject(
-        name=find_unique_name(names, url.split("/")[-1]),
         description="",
         content_url=url,
         encoding_format=file_type.encoding_format,
@@ -186,8 +208,10 @@ def file_from_upload(
         f.write(value)
     file_type = guess_file_type(file_path)
     df = get_dataframe(file_type, file)
     return FileObject(
-        name=find_unique_name(names, file.name),
         description="",
         content_url=content_url,
         encoding_format=file_type.encoding_format,
@@ -202,9 +226,11 @@ def file_from_form(
 ) -> FileObject | FileSet:
     """Creates a file based on manually added fields."""
     if type == FILE_OBJECT:
-        return FileObject(name=find_unique_name(names, "file_object"), folder=folder)
     elif type == FILE_SET:
-        return FileSet(name=find_unique_name(names, "file_set"))
     else:
         raise ValueError("type has to be one of FILE_OBJECT, FILE_SET")

         encoding_format="application/x-tar",
         extensions=["tar"],
     )
+    TSV = FileType(
+        name="TSV", encoding_format="text/tab-separated-values", extensions=["tsv"]
+    )
     TXT = FileType(
         name="Text",
+        encoding_format="text/plain",
         extensions=["txt"],
     )
     ZIP = FileType(
         FileTypes.JSONL,
         FileTypes.PARQUET,
         FileTypes.TAR,
+        FileTypes.TSV,
         FileTypes.TXT,
         FileTypes.ZIP,
     ]
         df = pd.read_json(file, lines=True)
     elif file_type == FileTypes.PARQUET:
         df = pd.read_parquet(file)
+    elif file_type == FileTypes.TSV:
+        df = pd.read_csv(file, sep="\t")
     else:
         raise NotImplementedError(
             f"File type {file_type} is not supported. Please, open an issue on GitHub:"
     return df.infer_objects()
+def _guess_mime_type(path: epath.Path) -> str:
+    """Guess most specific MIME type."""
     mime = magic.from_file(path, mime=True)
+    extension = path.suffix
+    if mime == "text/plain":
+        # In some cases, a CSV/TSV may be classified as text
+        # For example, if the file is not terminated by a newline
+        if extension == ".csv":
+            mime = "text/csv"
+        elif extension == ".tsv":
+            mime = "text/tab-separated-values"
+    return mime
+def guess_file_type(path: epath.Path) -> FileType | None:
+    mime = _guess_mime_type(path)
     return ENCODING_FORMATS.get(mime)
         sha256 = _sha256(file.read())
     file_type = guess_file_type(file_path)
     df = get_dataframe(file_type, file_path)
+    name = find_unique_name(names, url.split("/")[-1])
     return FileObject(
+        id=name,
+        name=name,
         description="",
         content_url=url,
         encoding_format=file_type.encoding_format,
         f.write(value)
     file_type = guess_file_type(file_path)
     df = get_dataframe(file_type, file)
+    name = find_unique_name(names, file.name)
     return FileObject(
+        id=name,
+        name=name,
         description="",
         content_url=content_url,
         encoding_format=file_type.encoding_format,
 ) -> FileObject | FileSet:
     """Creates a file based on manually added fields."""
     if type == FILE_OBJECT:
+        name = find_unique_name(names, "file_object")
+        return FileObject(id=name, name=name, folder=folder)
     elif type == FILE_SET:
+        name = find_unique_name(names, "file_set")
+        return FileSet(id=name, name=name)
     else:
         raise ValueError("type has to be one of FILE_OBJECT, FILE_SET")

core/files_test.py CHANGED Viewed

@@ -10,12 +10,13 @@ FileTypes = files_module.FileTypes
 @mock.patch.object(files_module, "guess_file_type", return_value=FileTypes.CSV)
-def test_check_file_csv(guess_file_type):
     del guess_file_type
     csv = epath.Path(
         # This is the hash path for "https://my.url".
         "/tmp/croissant-editor-f76b4732c82d83daf858fae2cc0e590d352a4bceb781351243a03daab11f76bc"
     )
     if csv.exists():
         csv.unlink()
     with csv.open("w") as f:
@@ -28,6 +29,51 @@ def test_check_file_csv(guess_file_type):
         file.df, pd.DataFrame({"column1": ["a", "b", "c"], "column2": [1, 2, 3]})
     )
 @mock.patch.object(files_module, "guess_file_type", return_value="unknown")
 def test_check_file_unknown(guess_file_type):

 @mock.patch.object(files_module, "guess_file_type", return_value=FileTypes.CSV)
+def test_check_file_csv_url(guess_file_type):
     del guess_file_type
     csv = epath.Path(
         # This is the hash path for "https://my.url".
         "/tmp/croissant-editor-f76b4732c82d83daf858fae2cc0e590d352a4bceb781351243a03daab11f76bc"
     )
+    # Test unescaped CSV
     if csv.exists():
         csv.unlink()
     with csv.open("w") as f:
         file.df, pd.DataFrame({"column1": ["a", "b", "c"], "column2": [1, 2, 3]})
     )
+    # Test error thrown on no file
+    csv.unlink()
+    with pytest.raises(Exception):
+        files_module.file_from_url("https://my.url", set(), epath.Path())
+    # Test escaped CSV
+    content = b'"This","Is"\n1,2\n3,4'
+    with csv.open("wb") as f:
+        f.write(content)
+    file = files_module.file_from_url("https://my.url", set(), epath.Path())
+    pd.testing.assert_frame_equal(file.df, pd.DataFrame({"This": [1, 3], "Is": [2, 4]}))
+@mock.patch.object(files_module, "guess_file_type", return_value=FileTypes.TSV)
+def test_check_file_tsv_url(guess_file_type):
+    del guess_file_type
+    tsv = epath.Path(
+        # This is the hash path for "https://my.url".
+        "/tmp/croissant-editor-f76b4732c82d83daf858fae2cc0e590d352a4bceb781351243a03daab11f76bc"
+    )
+    # Test unescaped CSV
+    if tsv.exists():
+        tsv.unlink()
+    with tsv.open("w") as f:
+        f.write("column1\tcolumn2\n")
+        f.write("a\t1\n")
+        f.write("b\t2\n")
+        f.write("c\t3\n")
+    file = files_module.file_from_url("https://my.url", set(), epath.Path())
+    pd.testing.assert_frame_equal(
+        file.df, pd.DataFrame({"column1": ["a", "b", "c"], "column2": [1, 2, 3]})
+    )
+    # Test error thrown on no file
+    tsv.unlink()
+    with pytest.raises(Exception):
+        files_module.file_from_url("https://my.url", set(), epath.Path())
+    # Test escaped TSV
+    content = b'"This"\t"Is"\n1\t2\n3\t4'
+    with tsv.open("wb") as f:
+        f.write(content)
+    file = files_module.file_from_url("https://my.url", set(), epath.Path())
+    pd.testing.assert_frame_equal(file.df, pd.DataFrame({"This": [1, 3], "Is": [2, 4]}))
 @mock.patch.object(files_module, "guess_file_type", return_value="unknown")
 def test_check_file_unknown(guess_file_type):

core/record_sets.py CHANGED Viewed

@@ -18,21 +18,23 @@ def infer_record_sets(file: FileObject | FileSet, names: set[str]) -> list[Recor
     fields = []
     for column, value in file.df.dtypes.items():
         source = mlc.Source(
-            uid=file.name,
-            node_type="distribution",
             extract=mlc.Extract(column=column),
         )
         field = Field(
             name=column,
             data_types=[convert_dtype(value)],
             source=source,
             references=mlc.Source(),
         )
         fields.append(field)
     return [
         RecordSet(
             fields=fields,
-            name=find_unique_name(names, file.name + "_record_set"),
             description="",
         )
     ]

     fields = []
     for column, value in file.df.dtypes.items():
         source = mlc.Source(
+            distribution=file.id,
             extract=mlc.Extract(column=column),
         )
         field = Field(
+            id=column,
             name=column,
             data_types=[convert_dtype(value)],
             source=source,
             references=mlc.Source(),
         )
         fields.append(field)
+    name = find_unique_name(names, file.name + "_record_set")
     return [
         RecordSet(
+            id=name,
             fields=fields,
+            name=name,
             description="",
         )
     ]

core/state.py CHANGED Viewed

@@ -9,6 +9,7 @@ import base64
 import dataclasses
 import datetime
 from typing import Any
 from etils import epath
 import pandas as pd
@@ -33,9 +34,6 @@ def create_class(mlc_class: type, instance: Any, **kwargs) -> Any:
         name = field.name
         if hasattr(instance, name) and name not in kwargs:
             params[name] = getattr(instance, name)
-    if "uuid" in params and params.get("uuid") is None:
-        # Let mlcroissant handle the default value
-        del params["uuid"]
     return mlc_class(**params, **kwargs)
@@ -127,11 +125,22 @@ class SelectedRecordSet:
 @dataclasses.dataclass
-class FileObject:
-    """FileObject analogue for editor"""
     ctx: mlc.Context = dataclasses.field(default_factory=mlc.Context)
     name: str | None = None
     description: str | None = None
     contained_in: list[str] | None = dataclasses.field(default_factory=list)
     content_size: str | None = None
@@ -140,65 +149,52 @@ class FileObject:
     sha256: str | None = None
     df: pd.DataFrame | None = None
     folder: epath.PathLike | None = None
-    uuid: str | None = None
 @dataclasses.dataclass
-class FileSet:
     """FileSet analogue for editor"""
-    ctx: mlc.Context = dataclasses.field(default_factory=mlc.Context)
     contained_in: list[str] = dataclasses.field(default_factory=list)
     description: str | None = None
     encoding_format: str | None = ""
     includes: str | None = ""
-    name: str = ""
-    uuid: str | None = None
 @dataclasses.dataclass
-class Field:
     """Field analogue for editor"""
-    ctx: mlc.Context = dataclasses.field(default_factory=mlc.Context)
-    name: str | None = None
     description: str | None = None
     data_types: str | list[str] | None = None
     source: mlc.Source | None = None
     references: mlc.Source | None = None
-    uuid: str | None = None
 @dataclasses.dataclass
-class RecordSet:
     """Record Set analogue for editor"""
-    ctx: mlc.Context = dataclasses.field(default_factory=mlc.Context)
-    name: str = ""
     data: list[Any] | None = None
     description: str | None = None
     is_enumeration: bool | None = None
     key: str | list[str] | None = None
     fields: list[Field] = dataclasses.field(default_factory=list)
-    uuid: str | None = None
 @dataclasses.dataclass
-class Metadata:
     """main croissant data object, helper functions exist to load and unload this into the mlcroissant version"""
-    name: str = ""
     description: str | None = None
     cite_as: str | None = None
-    context: dict = dataclasses.field(default_factory=dict)
-    creators: list[mlc.PersonOrOrganization] = dataclasses.field(default_factory=list)
-    ctx: mlc.Context = dataclasses.field(default_factory=mlc.Context)
     data_biases: str | None = None
     data_collection: str | None = None
     date_published: datetime.datetime | None = None
     license: str | None = ""
     personal_sensitive_information: str | None = None
-    uuid: str | None = None
     url: str = ""
     distribution: list[FileObject | FileSet] = dataclasses.field(default_factory=list)
     record_sets: list[RecordSet] = dataclasses.field(default_factory=list)
@@ -211,6 +207,8 @@ class Metadata:
         """Renames a resource by changing all the references to this resource."""
         # Update other resources:
         for i, resource in enumerate(self.distribution):
             contained_in = resource.contained_in
             if contained_in and old_name in contained_in:
                 self.distribution[i].contained_in = [
@@ -222,55 +220,89 @@ class Metadata:
     def rename_record_set(self, old_name: str, new_name: str):
         """Renames a RecordSet by changing all the references to this RecordSet."""
         for i, record_set in enumerate(self.record_sets):
             for j, field in enumerate(record_set.fields):
-                possible_uid = f"{old_name}/"
                 # Update source
                 source = field.source
-                if (
-                    source
-                    and source.uid
-                    and (source.uid.startswith(possible_uid) or source.uid == old_name)
-                ):
-                    new_uid = source.uid.replace(old_name, new_name, 1)
-                    self.record_sets[i].fields[j].source.uid = new_uid
                 # Update references
                 references = field.references
                 if (
                     references
-                    and references.uid
-                    and (
-                        references.uid.startswith(possible_uid)
-                        or references.uid == old_name
-                    )
                 ):
-                    new_uid = references.uid.replace(old_name, new_name, 1)
-                    self.record_sets[i].fields[j].references.uid = new_uid
     def rename_field(self, old_name: str, new_name: str):
         """Renames a field by changing all the references to this field."""
         for i, record_set in enumerate(self.record_sets):
             for j, field in enumerate(record_set.fields):
                 # Update source
                 source = field.source
                 # The difference with RecordSet is the `.endswith` here:
-                if (
-                    source
-                    and source.uid
-                    and "/" in source.uid
-                    and source.uid.endswith(old_name)
-                ):
-                    new_uid = source.uid.replace(old_name, new_name, 1)
-                    self.record_sets[i].fields[j].source.uid = new_uid
                 # Update references
                 references = field.references
                 if (
                     references
-                    and references.uid
-                    and "/" in references.uid
-                    and references.uid.endswith(old_name)
                 ):
-                    new_uid = references.uid.replace(old_name, new_name, 1)
-                    self.record_sets[i].fields[j].references.uid = new_uid
     def add_distribution(self, distribution: FileSet | FileObject) -> None:
         self.distribution.append(distribution)
@@ -352,8 +384,16 @@ class Metadata:
         )
     def names(self) -> set[str]:
-        nodes = self.distribution + self.record_sets
-        return set([node.name for node in nodes])
 class OpenTab:

 import dataclasses
 import datetime
 from typing import Any
+import uuid
 from etils import epath
 import pandas as pd
         name = field.name
         if hasattr(instance, name) and name not in kwargs:
             params[name] = getattr(instance, name)
     return mlc_class(**params, **kwargs)
 @dataclasses.dataclass
+class Node:
     ctx: mlc.Context = dataclasses.field(default_factory=mlc.Context)
+    id: str | None = None
     name: str | None = None
+    def get_name_or_id(self):
+        if self.ctx.is_v0():
+            return self.name
+        else:
+            return self.id
+@dataclasses.dataclass
+class FileObject(Node):
+    """FileObject analogue for editor"""
     description: str | None = None
     contained_in: list[str] | None = dataclasses.field(default_factory=list)
     content_size: str | None = None
     sha256: str | None = None
     df: pd.DataFrame | None = None
     folder: epath.PathLike | None = None
 @dataclasses.dataclass
+class FileSet(Node):
     """FileSet analogue for editor"""
     contained_in: list[str] = dataclasses.field(default_factory=list)
     description: str | None = None
     encoding_format: str | None = ""
     includes: str | None = ""
 @dataclasses.dataclass
+class Field(Node):
     """Field analogue for editor"""
     description: str | None = None
     data_types: str | list[str] | None = None
     source: mlc.Source | None = None
     references: mlc.Source | None = None
 @dataclasses.dataclass
+class RecordSet(Node):
     """Record Set analogue for editor"""
     data: list[Any] | None = None
+    data_types: list[str] | None = None
     description: str | None = None
     is_enumeration: bool | None = None
     key: str | list[str] | None = None
     fields: list[Field] = dataclasses.field(default_factory=list)
 @dataclasses.dataclass
+class Metadata(Node):
     """main croissant data object, helper functions exist to load and unload this into the mlcroissant version"""
     description: str | None = None
     cite_as: str | None = None
+    creators: list[mlc.Person] = dataclasses.field(default_factory=list)
     data_biases: str | None = None
     data_collection: str | None = None
     date_published: datetime.datetime | None = None
     license: str | None = ""
     personal_sensitive_information: str | None = None
     url: str = ""
     distribution: list[FileObject | FileSet] = dataclasses.field(default_factory=list)
     record_sets: list[RecordSet] = dataclasses.field(default_factory=list)
         """Renames a resource by changing all the references to this resource."""
         # Update other resources:
         for i, resource in enumerate(self.distribution):
+            if resource.id == old_name:
+                self.distribution[i].id = new_name
             contained_in = resource.contained_in
             if contained_in and old_name in contained_in:
                 self.distribution[i].contained_in = [
     def rename_record_set(self, old_name: str, new_name: str):
         """Renames a RecordSet by changing all the references to this RecordSet."""
         for i, record_set in enumerate(self.record_sets):
+            if record_set.id == old_name:
+                self.record_sets[i].id = new_name
             for j, field in enumerate(record_set.fields):
+                possible_uuid = f"{old_name}/"
                 # Update source
                 source = field.source
+                if source and source.field and source.field.startswith(possible_uuid):
+                    new_uuid = source.field.replace(old_name, new_name, 1)
+                    self.record_sets[i].fields[j].source.field = new_uuid
+                if source and source.file_object and source.file_object == old_name:
+                    self.record_sets[i].fields[j].source.file_object = new_name
+                if source and source.file_set and source.file_set == old_name:
+                    self.record_sets[i].fields[j].source.file_set = new_name
+                if source and source.distribution and source.distribution == old_name:
+                    self.record_sets[i].fields[j].source.distribution = new_name
                 # Update references
                 references = field.references
                 if (
                     references
+                    and references.field
+                    and references.field.startswith(possible_uuid)
                 ):
+                    new_uuid = references.field.replace(old_name, new_name, 1)
+                    self.record_sets[i].fields[j].references.field = new_uuid
+                if (
+                    references
+                    and references.file_object
+                    and references.file_object == old_name
+                ):
+                    self.record_sets[i].fields[j].references.file_object = new_name
+                if (
+                    references
+                    and references.file_set
+                    and references.file_set == old_name
+                ):
+                    self.record_sets[i].fields[j].references.file_set = new_name
+                if (
+                    references
+                    and references.distribution
+                    and references.distribution == old_name
+                ):
+                    self.record_sets[i].fields[j].references.distribution = new_name
     def rename_field(self, old_name: str, new_name: str):
         """Renames a field by changing all the references to this field."""
         for i, record_set in enumerate(self.record_sets):
             for j, field in enumerate(record_set.fields):
+                possible_uuid = f"/{old_name}"
                 # Update source
                 source = field.source
                 # The difference with RecordSet is the `.endswith` here:
+                if source and source.field and source.field.endswith(possible_uuid):
+                    new_uuid = source.field.replace(old_name, new_name, 1)
+                    self.record_sets[i].fields[j].source.field = new_uuid
                 # Update references
                 references = field.references
                 if (
                     references
+                    and references.field
+                    and references.field.endswith(possible_uuid)
                 ):
+                    new_uuid = references.field.replace(old_name, new_name, 1)
+                    self.record_sets[i].fields[j].references.field = new_uuid
+    def rename_id(self, old_id: str, new_id: str):
+        for resource in self.distribution:
+            if resource.id == old_id:
+                resource.id = new_id
+            if resource.contained_in and old_id in resource.contained_in:
+                resource.contained_in = [
+                    new_id if uuid == old_id else uuid for uuid in resource.contained_in
+                ]
+        for record_set in self.record_sets:
+            if record_set.id == old_id:
+                record_set.id = new_id
+            for field in record_set.fields:
+                if field.id == old_id:
+                    field.id = new_id
+                for p in ["distribution", "field", "file_object", "file_set"]:
+                    if field.source and getattr(field.source, p) == old_id:
+                        setattr(field.source, p, new_id)
+                    if field.references and getattr(field.references, p) == old_id:
+                        setattr(field.references, p, new_id)
     def add_distribution(self, distribution: FileSet | FileObject) -> None:
         self.distribution.append(distribution)
         )
     def names(self) -> set[str]:
+        distribution = set()
+        record_sets = set()
+        fields = set()
+        for resource in self.distribution:
+            distribution.add(resource.get_name_or_id())
+        for record_set in self.record_sets:
+            record_sets.add(record_set.get_name_or_id())
+            for field in record_set.fields:
+                fields.add(field.get_name_or_id())
+        return distribution.union(record_sets).union(fields)
 class OpenTab:

core/state_test.py ADDED Viewed

	@@ -0,0 +1,32 @@

+"""Tests for state."""
+from etils import epath
+import mlcroissant as mlc
+from .state import Metadata
+def test_rename_record_set():
+    ctx = mlc.Context()
+    path = epath.Path(__file__).parent.parent / "cypress/fixtures/1.0/titanic.json"
+    canonical_metadata = mlc.Metadata.from_file(ctx, path)
+    metadata = Metadata.from_canonical(canonical_metadata)
+    # Rename RecordSet:
+    assert metadata.record_sets[0].id == "genders"
+    assert metadata.record_sets[2].fields[1].id == "passengers/gender"
+    assert metadata.record_sets[2].fields[1].references.field == "genders/label"
+    metadata.rename_record_set("genders", "NEW_GENDERS")
+    assert metadata.record_sets[0].id == "NEW_GENDERS"
+    assert metadata.record_sets[2].fields[1].references.field == "NEW_GENDERS/label"
+    # Rename Field:
+    metadata.rename_field("label", "NEW_LABEL")
+    assert metadata.record_sets[2].fields[1].references.field == "NEW_GENDERS/NEW_LABEL"
+    # Rename Distribution:
+    assert metadata.record_sets[2].fields[0].id == "passengers/name"
+    assert metadata.record_sets[2].fields[0].source.file_object == "passengers.csv"
+    metadata.rename_distribution("passengers.csv", "NEW_PASSENGERS.CSV")
+    assert metadata.record_sets[2].fields[0].source.file_object == "NEW_PASSENGERS.CSV"

events/fields.py CHANGED Viewed

@@ -58,6 +58,7 @@ class FieldEvent(enum.Enum):
     """Event that triggers a field change."""
     NAME = "NAME"
     DESCRIPTION = "DESCRIPTION"
     DATA_TYPE = "DATA_TYPE"
     SOURCE = "SOURCE"
@@ -86,13 +87,20 @@ def handle_field_change(
             metadata: Metadata = st.session_state[Metadata]
             metadata.rename_field(old_name=old_name, new_name=new_name)
         field.name = value
     elif change == FieldEvent.DESCRIPTION:
         field.description = value
     elif change == FieldEvent.DATA_TYPE:
         field.data_types = [str_to_mlc_data_type(value)]
     elif change == FieldEvent.SOURCE:
-        node_type = "field" if "/" in value else "distribution"
-        source = mlc.Source(uid=value, node_type=node_type)
         field.source = source
     elif change == FieldEvent.SOURCE_EXTRACT:
         source = field.source
@@ -131,8 +139,9 @@ def handle_field_change(
         if number is not None and number < len(field.source.transforms):
             field.source.transforms[number] = mlc.Transform(separator=value)
     elif change == FieldEvent.REFERENCE:
-        node_type = "field" if "/" in value else "distribution"
-        source = mlc.Source(uid=value, node_type=node_type)
         field.references = source
     elif change == FieldEvent.REFERENCE_EXTRACT:
         source = field.references

     """Event that triggers a field change."""
     NAME = "NAME"
+    ID = "ID"
     DESCRIPTION = "DESCRIPTION"
     DATA_TYPE = "DATA_TYPE"
     SOURCE = "SOURCE"
             metadata: Metadata = st.session_state[Metadata]
             metadata.rename_field(old_name=old_name, new_name=new_name)
         field.name = value
+    elif change == FieldEvent.ID:
+        old_id = field.id
+        new_id = value
+        if old_id != new_id:
+            metadata: Metadata = st.session_state[Metadata]
+            metadata.rename_id(old_id=old_id, new_id=new_id)
     elif change == FieldEvent.DESCRIPTION:
         field.description = value
     elif change == FieldEvent.DATA_TYPE:
         field.data_types = [str_to_mlc_data_type(value)]
     elif change == FieldEvent.SOURCE:
+        source = (
+            mlc.Source(field=value) if "/" in value else mlc.Source(file_object=value)
+        )
         field.source = source
     elif change == FieldEvent.SOURCE_EXTRACT:
         source = field.source
         if number is not None and number < len(field.source.transforms):
             field.source.transforms[number] = mlc.Transform(separator=value)
     elif change == FieldEvent.REFERENCE:
+        source = (
+            mlc.Source(field=value) if "/" in value else mlc.Source(file_object=value)
+        )
         field.references = source
     elif change == FieldEvent.REFERENCE_EXTRACT:
         source = field.references

events/metadata.py CHANGED Viewed

@@ -130,16 +130,16 @@ def handle_metadata_change(event: MetadataEvent, metadata: Metadata, key: str):
         date = st.session_state[key]
         metadata.date_published = datetime.datetime(date.year, date.month, date.day)
     elif event == MetadataEvent.CREATOR_ADD:
-        metadata.creators = [mlc.PersonOrOrganization()]
     elif event == MetadataEvent.CREATOR_REMOVE:
         metadata.creators = []
     elif event == MetadataEvent.CREATOR_NAME:
         if metadata.creators:
             metadata.creators[0].name = st.session_state[key]
         else:
-            metadata.creators = [mlc.PersonOrOrganization(name=st.session_state[key])]
     elif event == MetadataEvent.CREATOR_URL:
         if metadata.creators:
             metadata.creators[0].url = st.session_state[key]
         else:
-            metadata.creators = [mlc.PersonOrOrganization(url=st.session_state[key])]

         date = st.session_state[key]
         metadata.date_published = datetime.datetime(date.year, date.month, date.day)
     elif event == MetadataEvent.CREATOR_ADD:
+        metadata.creators = [mlc.Person()]
     elif event == MetadataEvent.CREATOR_REMOVE:
         metadata.creators = []
     elif event == MetadataEvent.CREATOR_NAME:
         if metadata.creators:
             metadata.creators[0].name = st.session_state[key]
         else:
+            metadata.creators = [mlc.Person(name=st.session_state[key])]
     elif event == MetadataEvent.CREATOR_URL:
         if metadata.creators:
             metadata.creators[0].url = st.session_state[key]
         else:
+            metadata.creators = [mlc.Person(url=st.session_state[key])]

events/record_sets.py CHANGED Viewed

@@ -11,6 +11,7 @@ class RecordSetEvent(enum.Enum):
     """Event that triggers a RecordSet change."""
     NAME = "NAME"
     DESCRIPTION = "DESCRIPTION"
     IS_ENUMERATION = "IS_ENUMERATION"
     HAS_DATA = "HAS_DATA"
@@ -26,6 +27,12 @@ def handle_record_set_change(event: RecordSetEvent, record_set: RecordSet, key:
             metadata: Metadata = st.session_state[Metadata]
             metadata.rename_record_set(old_name=old_name, new_name=new_name)
         record_set.name = value
     elif event == RecordSetEvent.DESCRIPTION:
         record_set.description = value
     elif event == RecordSetEvent.IS_ENUMERATION:

     """Event that triggers a RecordSet change."""
     NAME = "NAME"
+    ID = "ID"
     DESCRIPTION = "DESCRIPTION"
     IS_ENUMERATION = "IS_ENUMERATION"
     HAS_DATA = "HAS_DATA"
             metadata: Metadata = st.session_state[Metadata]
             metadata.rename_record_set(old_name=old_name, new_name=new_name)
         record_set.name = value
+    elif event == RecordSetEvent.ID:
+        old_id = record_set.id
+        new_id = value
+        if old_id != new_id:
+            metadata: Metadata = st.session_state[Metadata]
+            metadata.rename_id(old_id=old_id, new_id=new_id)
     elif event == RecordSetEvent.DESCRIPTION:
         record_set.description = value
     elif event == RecordSetEvent.IS_ENUMERATION:

events/resources.py CHANGED Viewed

@@ -17,6 +17,7 @@ class ResourceEvent(enum.Enum):
     """Event that triggers a resource change."""
     NAME = "NAME"
     DESCRIPTION = "DESCRIPTION"
     ENCODING_FORMAT = "ENCODING_FORMAT"
     INCLUDES = "INCLUDES"
@@ -36,6 +37,12 @@ def handle_resource_change(event: ResourceEvent, resource: Resource, key: str):
             metadata: Metadata = st.session_state[Metadata]
             metadata.rename_distribution(old_name=old_name, new_name=new_name)
         resource.name = value
     elif event == ResourceEvent.DESCRIPTION:
         resource.description = value
     elif event == ResourceEvent.ENCODING_FORMAT:

     """Event that triggers a resource change."""
     NAME = "NAME"
+    ID = "ID"
     DESCRIPTION = "DESCRIPTION"
     ENCODING_FORMAT = "ENCODING_FORMAT"
     INCLUDES = "INCLUDES"
             metadata: Metadata = st.session_state[Metadata]
             metadata.rename_distribution(old_name=old_name, new_name=new_name)
         resource.name = value
+    elif event == ResourceEvent.ID:
+        old_id = resource.id
+        new_id = value
+        if old_id != new_id:
+            metadata: Metadata = st.session_state[Metadata]
+            metadata.rename_id(old_id=old_id, new_id=new_id)
     elif event == ResourceEvent.DESCRIPTION:
         resource.description = value
     elif event == ResourceEvent.ENCODING_FORMAT:

events/resources_test.py CHANGED Viewed

@@ -6,6 +6,7 @@ from .resources import _create_instance1_from_instance2
 def test_create_instance1_from_instance2():
     file_object = FileObject(
         name="name",
         description="description",
         contained_in=["foo", "bar"],
@@ -13,6 +14,7 @@ def test_create_instance1_from_instance2():
     )
     file_set = _create_instance1_from_instance2(file_object, FileSet)
     assert isinstance(file_set, FileSet)
     assert file_set.name == "name"
     assert file_set.description == "description"
     assert file_set.contained_in == ["foo", "bar"]

 def test_create_instance1_from_instance2():
     file_object = FileObject(
+        id="id",
         name="name",
         description="description",
         contained_in=["foo", "bar"],
     )
     file_set = _create_instance1_from_instance2(file_object, FileSet)
     assert isinstance(file_set, FileSet)
+    assert file_set.id == "id"
     assert file_set.name == "name"
     assert file_set.description == "description"
     assert file_set.contained_in == ["foo", "bar"]

requirements.txt CHANGED Viewed

@@ -1,5 +1,5 @@
 etils[epath]
-mlcroissant>=1.0.1
 numpy
 pandas
 pytest

 etils[epath]
+mlcroissant==1.0.3
 numpy
 pandas
 pytest

views/files.py CHANGED Viewed

@@ -84,7 +84,7 @@ def _render_resources_panel(files: list[Resource]) -> Resource | None:
     filename_to_file: dict[str, list[Resource]] = {}
     nodes = []
     for file in files:
-        name = file.name
         filename_to_file[name] = file
         type = "FileObject" if isinstance(file, FileObject) else "FileSet"
         if file.contained_in:
@@ -141,7 +141,7 @@ def _render_upload_panel():
             record_sets = infer_record_sets(file, names)
             for record_set in record_sets:
                 st.session_state[Metadata].add_record_set(record_set)
-            st.session_state[SelectedResource] = file.name
         st.form_submit_button("Upload", on_click=handle_on_click)
@@ -159,7 +159,7 @@ def _render_resource_details(selected_file: Resource):
     """Renders the details of the selected resource."""
     file: FileObject | FileSet
     for i, file in enumerate(st.session_state[Metadata].distribution):
-        if file.name == selected_file.name:
             is_file_object = isinstance(file, FileObject)
             index = (
                 RESOURCE_TYPES.index(FILE_OBJECT)
@@ -209,14 +209,24 @@ def _render_resource(prefix: int, file: Resource, is_file_object: bool):
         args=(ResourceEvent.CONTAINED_IN, file, key),
     )
     key = f"{prefix}_name"
-    st.text_input(
-        needed_field("Name"),
-        value=file.name,
-        key=key,
-        help=f"The name of the resource. {NAMES_INFO}",
-        on_change=handle_resource_change,
-        args=(ResourceEvent.NAME, file, key),
-    )
     key = f"{prefix}_description"
     st.text_area(
         "Description",

     filename_to_file: dict[str, list[Resource]] = {}
     nodes = []
     for file in files:
+        name = file.get_name_or_id()
         filename_to_file[name] = file
         type = "FileObject" if isinstance(file, FileObject) else "FileSet"
         if file.contained_in:
             record_sets = infer_record_sets(file, names)
             for record_set in record_sets:
                 st.session_state[Metadata].add_record_set(record_set)
+            st.session_state[SelectedResource] = file.get_name_or_id()
         st.form_submit_button("Upload", on_click=handle_on_click)
     """Renders the details of the selected resource."""
     file: FileObject | FileSet
     for i, file in enumerate(st.session_state[Metadata].distribution):
+        if file.get_name_or_id() == selected_file.get_name_or_id():
             is_file_object = isinstance(file, FileObject)
             index = (
                 RESOURCE_TYPES.index(FILE_OBJECT)
         args=(ResourceEvent.CONTAINED_IN, file, key),
     )
     key = f"{prefix}_name"
+    if file.ctx.is_v0():
+        st.text_input(
+            needed_field("Name"),
+            value=file.name,
+            key=key,
+            help=f"The name of the resource. {NAMES_INFO}",
+            on_change=handle_resource_change,
+            args=(ResourceEvent.NAME, file, key),
+        )
+    else:
+        st.text_input(
+            needed_field("ID"),
+            value=file.id,
+            key=key,
+            help=f"The ID of the resource. {NAMES_INFO}",
+            on_change=handle_resource_change,
+            args=(ResourceEvent.ID, file, key),
+        )
     key = f"{prefix}_description"
     st.text_area(
         "Description",

views/jsonld.py CHANGED Viewed

@@ -14,6 +14,7 @@ def render_jsonld():
         for file in croissant.distribution:
             distribution.append(
                 mlc.FileObject(
                     name=file.name,
                     description=file.description,
                     content_url=file.content_url,
@@ -27,18 +28,19 @@ def render_jsonld():
             for _, field in record_set.get("fields", pd.DataFrame()).iterrows():
                 fields.append(
                     mlc.Field(
                         name=field["name"],
                         description=field["description"],
                         data_types=field["data_type"],
                         source=mlc.Source(
-                            uid=file.name,
-                            node_type="distribution",
                             extract=mlc.Extract(column=field["name"]),
                         ),
                     )
                 )
             record_sets.append(
                 mlc.RecordSet(
                     name=record_set["name"],
                     description=record_set["description"],
                     fields=fields,
@@ -46,6 +48,7 @@ def render_jsonld():
             )
         if croissant.metadata:
             metadata = mlc.Metadata(
                 name=croissant.metadata.name,
                 cite_as=croissant.metadata.cite_as,
                 license=croissant.metadata.license,

         for file in croissant.distribution:
             distribution.append(
                 mlc.FileObject(
+                    id=file.id,
                     name=file.name,
                     description=file.description,
                     content_url=file.content_url,
             for _, field in record_set.get("fields", pd.DataFrame()).iterrows():
                 fields.append(
                     mlc.Field(
+                        id=field["id"],
                         name=field["name"],
                         description=field["description"],
                         data_types=field["data_type"],
                         source=mlc.Source(
+                            distribution=file.name,
                             extract=mlc.Extract(column=field["name"]),
                         ),
                     )
                 )
             record_sets.append(
                 mlc.RecordSet(
+                    id=record_set["id"],
                     name=record_set["name"],
                     description=record_set["description"],
                     fields=fields,
             )
         if croissant.metadata:
             metadata = mlc.Metadata(
+                id=croissant.metadata.id,
                 name=croissant.metadata.name,
                 cite_as=croissant.metadata.cite_as,
                 license=croissant.metadata.license,

views/record_sets.py CHANGED Viewed

@@ -119,11 +119,18 @@ def _data_editor_key(record_set_key: int, record_set: RecordSet) -> str:
 def _get_possible_sources(metadata: Metadata) -> list[str]:
     possible_sources: list[str] = []
-    for resource in metadata.distribution:
-        possible_sources.append(resource.name)
-    for record_set in metadata.record_sets:
-        for field in record_set.fields:
-            possible_sources.append(f"{record_set.name}/{field.name}")
     return possible_sources
@@ -132,18 +139,18 @@ Join = tuple[LeftOrRight, LeftOrRight]
 def _find_left_or_right(source: mlc.Source) -> LeftOrRight:
-    uid = source.uid
-    if "/" in uid:
-        parts = uid.split("/")
         return (parts[0], parts[1])
     elif source.extract.column:
-        return (uid, source.extract.column)
     elif source.extract.json_path:
-        return (uid, source.extract.json_path)
     elif source.extract.file_property:
-        return (uid, source.extract.file_property)
     else:
-        return (uid, None)
 def _find_joins(fields: list[Field]) -> set[Join]:
@@ -159,7 +166,8 @@ def _find_joins(fields: list[Field]) -> set[Join]:
 def _handle_create_record_set():
     metadata: Metadata = st.session_state[Metadata]
-    metadata.add_record_set(RecordSet(name="new-record-set", description=""))
 def _handle_remove_record_set(record_set_key: int):
@@ -188,6 +196,7 @@ def _handle_fields_change(record_set_key: int, record_set: RecordSet):
     for added_row in result["added_rows"]:
         data_type = str_to_mlc_data_type(added_row.get(FieldDataFrame.DATA_TYPE))
         field = Field(
             name=added_row.get(FieldDataFrame.NAME),
             description=added_row.get(FieldDataFrame.DESCRIPTION),
             data_types=[data_type],
@@ -235,15 +244,26 @@ def _render_left_panel():
         with st.expander(title, expanded=is_record_set_expanded(record_set)):
             col1, col2 = st.columns([1, 3])
             key = f"{prefix}-name"
-            col1.text_input(
-                needed_field("Name"),
-                placeholder="Name without special character.",
-                key=key,
-                help=f"The name of the RecordSet. {NAMES_INFO}",
-                value=record_set.name,
-                on_change=handle_record_set_change,
-                args=(RecordSetEvent.NAME, record_set, key),
-            )
             key = f"{prefix}-description"
             col2.text_input(
                 "Description",
@@ -452,15 +472,26 @@ def _render_right_panel():
                 col1, col2, col3 = st.columns([1, 1, 1])
                 key = f"{prefix}-name"
-                col1.text_input(
-                    needed_field("Name"),
-                    placeholder="Name without special character.",
-                    key=key,
-                    help=f"The name of the field. {NAMES_INFO}",
-                    value=field.name,
-                    on_change=handle_field_change,
-                    args=(FieldEvent.NAME, field, key),
-                )
                 key = f"{prefix}-description"
                 col2.text_input(
                     "Description",

 def _get_possible_sources(metadata: Metadata) -> list[str]:
     possible_sources: list[str] = []
+    if metadata.ctx.is_v0():
+        for resource in metadata.distribution:
+            possible_sources.append(resource.name)
+        for record_set in metadata.record_sets:
+            for field in record_set.fields:
+                possible_sources.append(f"{record_set.name}/{field.name}")
+    else:
+        for resource in metadata.distribution:
+            possible_sources.append(resource.id)
+        for record_set in metadata.record_sets:
+            for field in record_set.fields:
+                possible_sources.append(field.id)
     return possible_sources
 def _find_left_or_right(source: mlc.Source) -> LeftOrRight:
+    uuid = source.uuid
+    if "/" in uuid:
+        parts = uuid.split("/")
         return (parts[0], parts[1])
     elif source.extract.column:
+        return (uuid, source.extract.column)
     elif source.extract.json_path:
+        return (uuid, source.extract.json_path)
     elif source.extract.file_property:
+        return (uuid, source.extract.file_property)
     else:
+        return (uuid, None)
 def _find_joins(fields: list[Field]) -> set[Join]:
 def _handle_create_record_set():
     metadata: Metadata = st.session_state[Metadata]
+    name = "new-record-set"
+    metadata.add_record_set(RecordSet(id=name, name=name, description=""))
 def _handle_remove_record_set(record_set_key: int):
     for added_row in result["added_rows"]:
         data_type = str_to_mlc_data_type(added_row.get(FieldDataFrame.DATA_TYPE))
         field = Field(
+            id=added_row.get(FieldDataFrame.NAME),
             name=added_row.get(FieldDataFrame.NAME),
             description=added_row.get(FieldDataFrame.DESCRIPTION),
             data_types=[data_type],
         with st.expander(title, expanded=is_record_set_expanded(record_set)):
             col1, col2 = st.columns([1, 3])
             key = f"{prefix}-name"
+            if record_set.ctx.is_v0():
+                col1.text_input(
+                    needed_field("Name"),
+                    placeholder="Name without special character.",
+                    key=key,
+                    help=f"The name of the RecordSet. {NAMES_INFO}",
+                    value=record_set.name,
+                    on_change=handle_record_set_change,
+                    args=(RecordSetEvent.NAME, record_set, key),
+                )
+            else:
+                col1.text_input(
+                    needed_field("ID"),
+                    placeholder="ID without special character.",
+                    key=key,
+                    help=f"The ID of the resource. {NAMES_INFO}",
+                    value=record_set.name,
+                    on_change=handle_record_set_change,
+                    args=(RecordSetEvent.ID, record_set, key),
+                )
             key = f"{prefix}-description"
             col2.text_input(
                 "Description",
                 col1, col2, col3 = st.columns([1, 1, 1])
                 key = f"{prefix}-name"
+                if field.ctx.is_v0():
+                    col1.text_input(
+                        needed_field("Name"),
+                        placeholder="Name without special character.",
+                        key=key,
+                        help=f"The name of the field. {NAMES_INFO}",
+                        value=field.name,
+                        on_change=handle_field_change,
+                        args=(FieldEvent.NAME, field, key),
+                    )
+                else:
+                    col1.text_input(
+                        needed_field("ID"),
+                        placeholder="ID without special character.",
+                        key=key,
+                        help=f"The ID of the field. {NAMES_INFO}",
+                        value=field.id,
+                        on_change=handle_field_change,
+                        args=(FieldEvent.ID, field, key),
+                    )
                 key = f"{prefix}-description"
                 col2.text_input(
                     "Description",

views/record_sets_test.py CHANGED Viewed

@@ -6,17 +6,19 @@ from views.record_sets import _find_joins
 def test_find_joins():
     fields = [
         Field(
             name="field1",
             source=mlc.Source(
-                uid="some_csv", extract=mlc.Extract(column="some_column")
             ),
-            references=mlc.Source(uid="some_record_set/some_field"),
         ),
-        Field(name="field2", source=mlc.Source(uid="foo/bar")),
         Field(
             name="field3",
-            source=mlc.Source(uid="some_record_set/some_field"),
-            references=mlc.Source(uid="some_other_record_set/some_other_field"),
         ),
     ]
     assert _find_joins(fields) == set(

 def test_find_joins():
     fields = [
         Field(
+            id="field1",
             name="field1",
             source=mlc.Source(
+                file_object="some_csv", extract=mlc.Extract(column="some_column")
             ),
+            references=mlc.Source(field="some_record_set/some_field"),
         ),
+        Field(id="field2", name="field2", source=mlc.Source(field="foo/bar")),
         Field(
+            id="field3",
             name="field3",
+            source=mlc.Source(field="some_record_set/some_field"),
+            references=mlc.Source(field="some_other_record_set/some_other_field"),
         ),
     ]
     assert _find_joins(fields) == set(

views/source.py CHANGED Viewed

@@ -123,7 +123,7 @@ def render_source(
     prefix = f"source-{record_set.name}-{field.name}"
     col1, col2, col3 = st.columns([1, 1, 1])
     index = (
-        possible_sources.index(source.uid) if source.uid in possible_sources else None
     )
     options = [s for s in possible_sources if not s.startswith(record_set.name)]
     if index and (index < 0 or index >= len(options)):
@@ -140,7 +140,7 @@ def render_source(
         on_change=handle_field_change,
         args=(FieldEvent.SOURCE, field, key),
     )
-    if source.node_type == "distribution":
         extract = col2.selectbox(
             needed_field("Extract"),
             index=_get_extract_index(source),
@@ -294,8 +294,8 @@ def render_references(
     if references or has_clicked_button:
         col1, col2, col3, col4 = st.columns([4.5, 4, 4, 1])
         index = (
-            possible_sources.index(references.uid)
-            if references.uid in possible_sources
             else None
         )
         options = [s for s in possible_sources if not s.startswith(record_set.name)]
@@ -310,7 +310,7 @@ def render_references(
             on_change=handle_field_change,
             args=(FieldEvent.REFERENCE, field, key),
         )
-        if references.node_type == "distribution":
             key = f"{key}-extract-references"
             extract = col2.selectbox(
                 needed_field("Extract the reference"),

     prefix = f"source-{record_set.name}-{field.name}"
     col1, col2, col3 = st.columns([1, 1, 1])
     index = (
+        possible_sources.index(source.uuid) if source.uuid in possible_sources else None
     )
     options = [s for s in possible_sources if not s.startswith(record_set.name)]
     if index and (index < 0 or index >= len(options)):
         on_change=handle_field_change,
         args=(FieldEvent.SOURCE, field, key),
     )
+    if source.distribution or source.file_object or source.file_set:
         extract = col2.selectbox(
             needed_field("Extract"),
             index=_get_extract_index(source),
     if references or has_clicked_button:
         col1, col2, col3, col4 = st.columns([4.5, 4, 4, 1])
         index = (
+            possible_sources.index(references.uuid)
+            if references.uuid in possible_sources
             else None
         )
         options = [s for s in possible_sources if not s.startswith(record_set.name)]
             on_change=handle_field_change,
             args=(FieldEvent.REFERENCE, field, key),
         )
+        if references.distribution or references.file_object or references.file_set:
             key = f"{key}-extract-references"
             extract = col2.selectbox(
                 needed_field("Extract the reference"),

views/wizard.py CHANGED Viewed

@@ -23,8 +23,9 @@ from views.record_sets import render_record_sets
 def _export_json() -> str | None:
     metadata: Metadata = st.session_state[Metadata]
     try:
         return {
-            "name": f"croissant-{metadata.name.lower()}.json",
             "content": json.dumps(metadata.to_canonical().to_json()),
         }
     except mlc.ValidationError as exception:

 def _export_json() -> str | None:
     metadata: Metadata = st.session_state[Metadata]
     try:
+        name = metadata.name or "metadata"
         return {
+            "name": f"croissant-{name.lower()}.json",
             "content": json.dumps(metadata.to_canonical().to_json()),
         }
     except mlc.ValidationError as exception: