diff --git "a/resources/sources_with_info_cards.json" "b/resources/sources_with_info_cards.json" --- "a/resources/sources_with_info_cards.json" +++ "b/resources/sources_with_info_cards.json" @@ -107,7 +107,7 @@ }, "fname": "wudaocorpora.json" }, - "data_card": "# WuDaoCorpora\n\n- Dataset uid: `wudaocorpora`\n\n## Sizes\n\n- 27.3830 % of total\n- 96.6174 % of zh\n\n## Description\n\nWuDaoCorpora is a super large-scale Chinese corpora for pre-training language models.\nThe base version of WuDaoCorpora contains about 200GB training data and 72 billion Chinese characters.\n\n## Homepage\n\nhttps://resource.wudaoai.cn/home\n\n## Licensing\n\n- non-commercial use\n\n\n## Speaker Locations\n\n- Eastern Asia\n- China\n\n\n## BigScience processing steps\n\n#### Filters applied to: zh\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# WuDaoCorpora\n\n- Dataset uid: `wudaocorpora`\n\n### Description\n\nWuDaoCorpora is a super large-scale Chinese corpora for pre-training language models.\nThe base version of WuDaoCorpora contains about 200GB training data and 72 billion Chinese characters.\n\n### Homepage\n\nhttps://resource.wudaoai.cn/home\n\n### Licensing\n\n- non-commercial use\n\nhttps://resource.wudaoai.cn/use-agreement\n\n\n### Speaker Locations\n\n- Eastern Asia\n- China\n\n\n### Sizes\n\n- 27.3830 % of total\n- 95.7839 % of zh\n\n### BigScience processing steps\n\n#### Filters applied to: zh\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -125,7 +125,7 @@ } ], "total": 159.294113344, - "data_card": "# github-no-gpl\n\n- Dataset uid: `github-no-gpl`\n\n## Sizes\n\n- 13.1372 % of total\n- 85.2591 % of code\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: code\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# github-no-gpl\n\n- Dataset uid: `github-no-gpl`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 13.1372 % of total\n- 85.2591 % of code\n\n### BigScience processing steps\n\n#### Filters applied to: code\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -247,7 +247,7 @@ }, "fname": "s2orc_the_semantic_scholar_open_research_corpus.json" }, - "data_card": "# S2ORC: The Semantic Scholar Open Research Corpus\n\n- Dataset uid: `s2orc_ai2_pdf_parses`\n\n## Sizes\n\n- 12.8580 % of total\n- 69.6676 % of en\n\n## Description\n\nLargest collection of machine-readable English-language open-access scientific literature formatted to support NLP research. 136M papers with titles and abstracts, including 12.7M papers with full text. Unifies popular resources like PubMed Central (Biomedicine) and arXiv (Physics, Math, CS) with papers sourced across many different academic disciplines. Maintained by the Semantic Scholar Research team at AI2. https://aclanthology.org/2020.acl-main.447/\n\n## Homepage\n\nhttps://github.com/allenai/s2orc\n\n## Licensing\n\n- non-commercial use\n- cc-by-nc-2.0: Creative Commons Attribution Non Commercial 2.0 Generic\n\n\n## Speaker Locations\n\n- World-Wide\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# S2ORC: The Semantic Scholar Open Research Corpus\n\n- Dataset uid: `s2orc_ai2_pdf_parses`\n\n### Description\n\nLargest collection of machine-readable English-language open-access scientific literature formatted to support NLP research. 136M papers with titles and abstracts, including 12.7M papers with full text. Unifies popular resources like PubMed Central (Biomedicine) and arXiv (Physics, Math, CS) with papers sourced across many different academic disciplines. Maintained by the Semantic Scholar Research team at AI2. https://aclanthology.org/2020.acl-main.447/\n\n### Homepage\n\nhttps://github.com/allenai/s2orc\n\n### Licensing\n\n- non-commercial use\n- cc-by-nc-2.0: Creative Commons Attribution Non Commercial 2.0 Generic\n\n\n### Speaker Locations\n\n- World-Wide\n\n\n### Sizes\n\n- 12.8580 % of total\n- 69.6676 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -365,7 +365,7 @@ }, "fname": "hal_archives_ouvertes.json" }, - "data_card": "# HAL archives ouvertes\n\n- Dataset uid: `hal_archives_ouvertes`\n\n## Sizes\n\n- 5.7483 % of total\n- 67.7196 % of fr\n\n## Description\n\nHAL is an open archive where authors can deposit scholarly documents from all academic fields.\n\nFor the attention of the authors\n The deposit of the full text should be made in agreement with the co-authors and in the respect for the policy of the publishers.\n The deposit is subject of a control, HAL reserves the right to refuse items that do not meet the criteria of the archive.\n Any deposit is definitive, no withdrawals will be made after the on-line posting of the publication.\n Text files in pdf format or image files are sent to CINES for long-term archiving.\n\nFor the attention of the readers\n In a context of electronic distribution, each author keeps their intellectual property rights.\n\n## Homepage\n\nhttps://hal.archives-ouvertes.fr/\n\n## Licensing\n\n- multiple licenses\n- copyright - all rights reserved\n- open license\n- research use\n\n\n## Speaker Locations\n\n- Europe\n\n\n## BigScience processing steps\n\n#### Filters applied to: fr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- remove_references_fr\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# HAL archives ouvertes\n\n- Dataset uid: `hal_archives_ouvertes`\n\n### Description\n\nHAL is an open archive where authors can deposit scholarly documents from all academic fields.\n\nFor the attention of the authors\n The deposit of the full text should be made in agreement with the co-authors and in the respect for the policy of the publishers.\n The deposit is subject of a control, HAL reserves the right to refuse items that do not meet the criteria of the archive.\n Any deposit is definitive, no withdrawals will be made after the on-line posting of the publication.\n Text files in pdf format or image files are sent to CINES for long-term archiving.\n\nFor the attention of the readers\n In a context of electronic distribution, each author keeps their intellectual property rights.\n\n### Homepage\n\nhttps://hal.archives-ouvertes.fr/\n\n### Licensing\n\n- multiple licenses\n- copyright - all rights reserved\n- open license\n- research use\n\nMoissonnage : conditions d\u2019utilisation des donn\u00e9es\n\nLes m\u00e9tadonn\u00e9es de HAL peuvent \u00eatre consult\u00e9es de fa\u00e7on totale ou partielle par moissonnage dans le respect du code de la propri\u00e9t\u00e9 intellectuelle.\nPas d\u2019utilisation commerciale des donn\u00e9es extraites.\nObligation de citer la source (exemple : hal.archives-ouvertes.fr/hal-00000001).\n\n\n### Speaker Locations\n\n- Europe\n\n\n### Sizes\n\n- 5.7483 % of total\n- 67.7196 % of fr\n\n### BigScience processing steps\n\n#### Filters applied to: fr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- remove_references_fr\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -390,7 +390,7 @@ "homepage": "http://abuelkhair.net/index.php/en/arabic/abu-el-khair-corpus", "hf_id": "arabic_billion_words" }, - "data_card": "# arabic_billion_words\n\n- Dataset uid: `arabic_billion_words`\n\n## Sizes\n\n- 3.6304 % of total\n- 33.4538 % of ar\n\n## Description\n\nAbu El-Khair Corpus is an Arabic text corpus, that includes more than five million newspaper articles.\nIt contains over a billion and a half words in total, out of which, there are about three million unique words.\nThe corpus is encoded with two types of encoding, namely: UTF-8, and Windows CP-1256.\nAlso it was marked with two mark-up languages, namely: SGML, and XML.\n\n\n## Homepage\n\n- https://huggingface.co/datasets/arabic_billion_words\n- http://abuelkhair.net/index.php/en/arabic/abu-el-khair-corpus\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# arabic_billion_words\n\n- Dataset uid: `arabic_billion_words`\n\n### Description\n\nAbu El-Khair Corpus is an Arabic text corpus, that includes more than five million newspaper articles.\nIt contains over a billion and a half words in total, out of which, there are about three million unique words.\nThe corpus is encoded with two types of encoding, namely: UTF-8, and Windows CP-1256.\nAlso it was marked with two mark-up languages, namely: SGML, and XML.\n\n\n### Homepage\n\n- https://huggingface.co/datasets/arabic_billion_words\n- http://abuelkhair.net/index.php/en/arabic/abu-el-khair-corpus\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 3.6304 % of total\n- 33.4538 % of ar\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -605,7 +605,7 @@ }, "fname": "indic_nlp_corpus.json" }, - "data_card": "# Indic NLP Corpus\n\n- Dataset uid: `indic_nlp_corpus`\n\n## Sizes\n\n- 3.4019 % of total\n- 44.4368 % of indic-hi\n- 64.2943 % of indic-ta\n- 70.5374 % of indic-ml\n- 54.2394 % of indic-te\n- 55.9105 % of indic-kn\n- 61.6111 % of indic-mr\n- 67.2242 % of indic-pa\n- 68.1470 % of indic-or\n- 64.3879 % of indic-gu\n- 4.1495 % of indic-bn\n\n## Description\n\nThe IndicNLP corpus is a largescale, general-domain corpus containing 2.7 billion words for 10 Indian languages from two language families. s (IndoAryan branch and Dravidian). Each language has at least 100 million words (except Oriya).\n\n## Homepage\n\nhttps://github.com/AI4Bharat/indicnlp_corpus#publicly-available-classification-datasets\n\n## Licensing\n\n- non-commercial use\n- cc-by-nc-sa-4.0: Creative Commons Attribution Non Commercial Share Alike 4.0 International\n\n\n## Speaker Locations\n\n- Southern Asia\n- India\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-gu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Indic NLP Corpus\n\n- Dataset uid: `indic_nlp_corpus`\n\n### Description\n\nThe IndicNLP corpus is a largescale, general-domain corpus containing 2.7 billion words for 10 Indian languages from two language families. s (IndoAryan branch and Dravidian). Each language has at least 100 million words (except Oriya).\n\n### Homepage\n\nhttps://github.com/AI4Bharat/indicnlp_corpus#publicly-available-classification-datasets\n\n### Licensing\n\n- non-commercial use\n- cc-by-nc-sa-4.0: Creative Commons Attribution Non Commercial Share Alike 4.0 International\n\n\n### Speaker Locations\n\n- Southern Asia\n- India\n\n\n### Sizes\n\n- 3.4019 % of total\n- 44.4368 % of indic-hi\n- 64.2943 % of indic-ta\n- 70.5374 % of indic-ml\n- 54.2394 % of indic-te\n- 55.9105 % of indic-kn\n- 61.6111 % of indic-mr\n- 67.2242 % of indic-pa\n- 68.1470 % of indic-or\n- 64.3879 % of indic-gu\n- 4.1495 % of indic-bn\n\n### BigScience processing steps\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-gu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -658,22 +658,14 @@ "--filter-short-documents": "filter_small_docs_bytes_1024" }, { - "ln_code": "zh-cn", - "dataset_name": "lm_zh-cn_wikipedia", - "size": 1.486580302, - "--filters": "", - "--dedups": "dedup_document filter_remove_empty_docs", - "--maps-and-filters argument": "", - "--filter-short-documents": "filter_small_docs_bytes_1024" + "ln_code": "zh", + "dataset_name": "lm_zh_wikipedia", + "size": 1.486580302 }, { - "ln_code": "zh-tw", - "dataset_name": "lm_zh-tw_wikipedia", - "size": 1.485830189, - "--filters": "", - "--dedups": "dedup_document filter_remove_empty_docs", - "--maps-and-filters argument": "", - "--filter-short-documents": "filter_small_docs_bytes_1024" + "ln_code": "zh", + "dataset_name": "lm_zh_wikipedia", + "size": 1.485830189 }, { "ln_code": "indic-bn", @@ -821,7 +813,7 @@ } ], "total": 39.163522721999996, - "data_card": "# wikipedia\n\n- Dataset uid: `wikipedia`\n\n## Sizes\n\n- 3.2299 % of total\n- 4.2071 % of en\n- 5.6773 % of ar\n- 3.3416 % of fr\n- 5.2815 % of es\n- 12.4852 % of ca\n- 100.0000 % of zh-cn\n- 100.0000 % of zh-tw\n- 5.4743 % of indic-bn\n- 8.9062 % of indic-ta\n- 21.3313 % of indic-te\n- 4.4845 % of pt\n- 4.0493 % of indic-hi\n- 11.3163 % of indic-ml\n- 22.5300 % of indic-ur\n- 4.4902 % of vi\n- 16.9916 % of indic-kn\n- 24.7820 % of eu\n- 11.6241 % of indic-mr\n- 9.8749 % of id\n- 9.3489 % of indic-pa\n- 9.4767 % of indic-gu\n- 24.1132 % of indic-as\n- 5.3309 % of indic-or\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: zh-cn\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: zh-tw\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-bn\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ur\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: vi\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-mr\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: id\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-as\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-or\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n\n" + "data_card": "# wikipedia\n\n- Dataset uid: `wikipedia`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 3.2299 % of total\n- 4.2071 % of en\n- 5.6773 % of ar\n- 3.3416 % of fr\n- 5.2815 % of es\n- 12.4852 % of ca\n- 0.4288 % of zh\n- 0.4286 % of zh\n- 5.4743 % of indic-bn\n- 8.9062 % of indic-ta\n- 21.3313 % of indic-te\n- 4.4845 % of pt\n- 4.0493 % of indic-hi\n- 11.3163 % of indic-ml\n- 22.5300 % of indic-ur\n- 4.4902 % of vi\n- 16.9916 % of indic-kn\n- 24.7820 % of eu\n- 11.6241 % of indic-mr\n- 9.8749 % of id\n- 9.3489 % of indic-pa\n- 9.4767 % of indic-gu\n- 24.1132 % of indic-as\n- 5.3309 % of indic-or\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: zh\n\n\n\n#### Filters applied to: zh\n\n\n\n#### Filters applied to: indic-bn\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ur\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: vi\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-mr\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: id\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-as\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-or\n\n- filter_wiki_user_titles\n- dedup_document\n- filter_remove_empty_docs\n\n" } ], [ @@ -932,7 +924,7 @@ }, "fname": "openiti.json" }, - "data_card": "# OpenITI\n\n- Dataset uid: `openiti_proc`\n\n## Sizes\n\n- 3.0760 % of total\n- 28.3450 % of ar\n\n## Description\n\nA corpus of Arabic texts that collected from Islamic books from different websites. \n\n## Homepage\n\nhttps://zenodo.org/record/4075046\n\n## Licensing\n\n- non-commercial use\n- cc-by-nc-sa-4.0: Creative Commons Attribution Non Commercial Share Alike 4.0 International\n\n\n## Speaker Locations\n\n- Southern Asia\n- Western Europe\n- Northern America\n- Pakistan\n- Austria\n- Germany\n- United States of America\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- remove_html_spans\n- filter_small_docs_bytes_300\n\n" + "data_card": "# OpenITI\n\n- Dataset uid: `openiti_proc`\n\n### Description\n\nA corpus of Arabic texts that collected from Islamic books from different websites. \n\n### Homepage\n\nhttps://zenodo.org/record/4075046\n\n### Licensing\n\n- non-commercial use\n- cc-by-nc-sa-4.0: Creative Commons Attribution Non Commercial Share Alike 4.0 International\n\nBy exercising the Licensed Rights (defined below), You accept and agree to be bound by the terms and conditions of this Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License (\"Public License\"). To the extent this Public License may be interpreted as a contract, You are granted the Licensed Rights in consideration of Your acceptance of these terms and conditions, and the Licensor grants You such rights in consideration of benefits the Licensor receives from making the Licensed Material available under these terms and conditions.\n\n\n### Speaker Locations\n\n- Southern Asia\n- Western Europe\n- Northern America\n- Pakistan\n- Austria\n- Germany\n- United States of America\n\n\n### Sizes\n\n- 3.0760 % of total\n- 28.3450 % of ar\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- remove_html_spans\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -1185,7 +1177,7 @@ }, "fname": "open_subtitles.json" }, - "data_card": "# Open Subtitles\n\n- Dataset uid: `open_subtitles`\n\n## Sizes\n\n- 3.0150 % of total\n- 5.0599 % of en\n- 6.5686 % of ar\n- 13.5783 % of es\n- 13.1277 % of pt\n- 3.3240 % of fr\n- 0.4620 % of zh\n- 20.9593 % of id\n- 1.9182 % of vi\n- 1.1647 % of indic-ml\n- 0.2794 % of indic-bn\n- 1.4829 % of eu\n- 0.1543 % of ca\n- 0.0633 % of indic-hi\n- 0.0342 % of indic-ta\n- 0.1286 % of indic-ur\n- 0.0671 % of indic-te\n\n## Description\n\nA community repository for subtitles, with a total of 3.36 million subtitle files covering more than 60 languages\n\n## Homepage\n\nhttps://www.opensubtitles.com/en/home\n\n## Licensing\n\n\n\n## Speaker Locations\n\n- World-Wide\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ar\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: pt\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: zh\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: id\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: vi\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- dedup_document\n- filter_remove_empty_docs\n\n#### Filters applied to: ca\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Open Subtitles\n\n- Dataset uid: `open_subtitles`\n\n### Description\n\nA community repository for subtitles, with a total of 3.36 million subtitle files covering more than 60 languages\n\n### Homepage\n\nhttps://www.opensubtitles.com/en/home\n\n### Licensing\n\n\n\n### Speaker Locations\n\n- World-Wide\n\n\n### Sizes\n\n- 3.0150 % of total\n- 5.0599 % of en\n- 6.5686 % of ar\n- 13.5783 % of es\n- 13.1277 % of pt\n- 3.3240 % of fr\n- 0.4580 % of zh\n- 20.9593 % of id\n- 1.9182 % of vi\n- 1.1647 % of indic-ml\n- 0.2794 % of indic-bn\n- 1.4829 % of eu\n- 0.1543 % of ca\n- 0.0633 % of indic-hi\n- 0.0342 % of indic-ta\n- 0.1286 % of indic-ur\n- 0.0671 % of indic-te\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ar\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: pt\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: zh\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: id\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: vi\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- dedup_document\n- filter_remove_empty_docs\n\n#### Filters applied to: ca\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -1239,7 +1231,7 @@ } ], "total": 33.978965868, - "data_card": "# uncorpus\n\n- Dataset uid: `uncorpus`\n\n## Sizes\n\n- 2.8023 % of total\n- 10.7390 % of ar\n- 5.7970 % of fr\n- 9.7477 % of es\n- 2.0417 % of en\n- 1.2649 % of zh\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: zh\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# uncorpus\n\n- Dataset uid: `uncorpus`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 2.8023 % of total\n- 10.7390 % of ar\n- 5.7970 % of fr\n- 9.7477 % of es\n- 2.0417 % of en\n- 1.2540 % of zh\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: zh\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -1419,7 +1411,7 @@ } ], "total": 31.896699211999998, - "data_card": "# wikisource_filtered\n\n- Dataset uid: `wikisource_filtered`\n\n## Sizes\n\n- 2.6306 % of total\n- 12.7884 % of fr\n- 19.8886 % of indic-bn\n- 20.9966 % of indic-ta\n- 2.3478 % of ar\n- 4.7068 % of indic-hi\n- 18.0998 % of indic-te\n- 1.7155 % of es\n- 19.4800 % of indic-kn\n- 9.1737 % of indic-ml\n- 17.1771 % of indic-mr\n- 17.1870 % of indic-gu\n- 70.3687 % of indic-as\n- 1.0165 % of pt\n- 7.8642 % of indic-pa\n- 1.3501 % of vi\n- 4.9411 % of indic-or\n- 0.5307 % of ca\n- 2.3593 % of id\n- 1.5928 % of eu\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-bn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-kn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- remove_wiki_mojibake\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-as\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: vi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: id\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n" + "data_card": "# wikisource_filtered\n\n- Dataset uid: `wikisource_filtered`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 2.6306 % of total\n- 12.7884 % of fr\n- 19.8886 % of indic-bn\n- 20.9966 % of indic-ta\n- 2.3478 % of ar\n- 4.7068 % of indic-hi\n- 18.0998 % of indic-te\n- 1.7155 % of es\n- 19.4800 % of indic-kn\n- 9.1737 % of indic-ml\n- 17.1771 % of indic-mr\n- 17.1870 % of indic-gu\n- 70.3687 % of indic-as\n- 1.0165 % of pt\n- 7.8642 % of indic-pa\n- 1.3501 % of vi\n- 4.9411 % of indic-or\n- 0.5307 % of ca\n- 2.3593 % of id\n- 1.5928 % of eu\n\n### BigScience processing steps\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-bn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-kn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- remove_wiki_mojibake\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-as\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: vi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: id\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n" } ], [ @@ -1530,7 +1522,7 @@ }, "fname": "stack_exchange_website.json" }, - "data_card": "# Stack Exchange Website\n\n- Dataset uid: `stackexchange`\n\n## Sizes\n\n- 2.2714 % of total\n- 14.7409 % of code\n\n## Description\n\nLaunched in 2010, the Stack Exchange network comprises 173 Q&A communities including Stack Overflow, the largest, most trusted online community for developers to learn, share their knowledge, and build their careers. \n\n## Homepage\n\nhttps://stackexchange.com/\n\n## Licensing\n\n- open license\n- cc-by-sa-4.0: Creative Commons Attribution Share Alike 4.0 International\n\n\n## Speaker Locations\n\n- Northern America\n\n\n## BigScience processing steps\n\n#### Filters applied to: code\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Stack Exchange Website\n\n- Dataset uid: `stackexchange`\n\n### Description\n\nLaunched in 2010, the Stack Exchange network comprises 173 Q&A communities including Stack Overflow, the largest, most trusted online community for developers to learn, share their knowledge, and build their careers. \n\n### Homepage\n\nhttps://stackexchange.com/\n\n### Licensing\n\n- open license\n- cc-by-sa-4.0: Creative Commons Attribution Share Alike 4.0 International\n\nSubscriber Content\n\nYou agree that any and all content, including without limitation any and all text, graphics, logos, tools, photographs, images, illustrations, software or source code, audio and video, animations, and product feedback (collectively, \u201cContent\u201d) that you provide to the public Network (collectively, \u201cSubscriber Content\u201d), is perpetually and irrevocably licensed to Stack Overflow on a worldwide, royalty-free, non-exclusive basis pursuant to Creative Commons licensing terms (CC BY-SA 4.0), and you grant Stack Overflow the perpetual and irrevocable right and license to access, use, process, copy, distribute, export, display and to commercially exploit such Subscriber Content, even if such Subscriber Content has been contributed and subsequently removed by you as reasonably necessary to, for example (without limitation):\n\n Provide, maintain, and update the public Network\n Process lawful requests from law enforcement agencies and government agencies\n Prevent and address security incidents and data security features, support features, and to provide technical assistance as it may be required\n Aggregate data to provide product optimization\n\nThis means that you cannot revoke permission for Stack Overflow to publish, distribute, store and use such content and to allow others to have derivative rights to publish, distribute, store and use such content. The CC BY-SA 4.0 license terms are explained in further detail by Creative Commons, and the license terms applicable to content are explained in further detail here. You should be aware that all Public Content you contribute is available for public copy and redistribution, and all such Public Content must have appropriate attribution.\n\nAs stated above, by agreeing to these Public Network Terms you also agree to be bound by the terms and conditions of the Acceptable Use Policy incorporated herein, and hereby acknowledge and agree that any and all Public Content you provide to the public Network is governed by the Acceptable Use Policy.\n\n\n### Speaker Locations\n\n- Northern America\n\n\n### Sizes\n\n- 2.2714 % of total\n- 14.7409 % of code\n\n### BigScience processing steps\n\n#### Filters applied to: code\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -1584,7 +1576,7 @@ } ], "total": 21.633001790999998, - "data_card": "# project_gutenberg\n\n- Dataset uid: `project_gutenberg`\n\n## Sizes\n\n- 1.7841 % of total\n- 8.6571 % of en\n- 1.4425 % of fr\n- 0.0970 % of zh\n- 0.6300 % of es\n- 0.4592 % of pt\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- no\n- processing\n- at\n- all\n- as\n- unnecessary\n- dedup\n- was\n- caught\n- late\n\n#### Filters applied to: zh\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: pt\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# project_gutenberg\n\n- Dataset uid: `project_gutenberg`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 1.7841 % of total\n- 8.6571 % of en\n- 1.4425 % of fr\n- 0.0961 % of zh\n- 0.6300 % of es\n- 0.4592 % of pt\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- no\n- processing\n- at\n- all\n- as\n- unnecessary\n- dedup\n- was\n- caught\n- late\n\n#### Filters applied to: zh\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: pt\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -1706,7 +1698,7 @@ }, "fname": "the_brwac_corpus__a_new_open_resource_for_brazilian_portuguese.json" }, - "data_card": "# The brWaC Corpus: A New Open Resource for Brazilian Portuguese\n\n- Dataset uid: `brwac`\n\n## Sizes\n\n- 1.6367 % of total\n- 75.7312 % of pt\n\n## Description\n\nIn this work, we present the construction process of a large Web corpus for Brazilian Portuguese, aiming to achieve a size comparable\nto the state of the art in other languages. We also discuss our updated sentence-level approach for the strict removal of duplicated\ncontent. Following the pipeline methodology, more than 60 million pages were crawled and filtered, with 3.5 million being selected.\nThe obtained multi-domain corpus, named brWaC, is composed by 2.7 billion tokens, and has been annotated with tagging and parsing\ninformation. The incidence of non-unique long sentences, an indication of replicated content, which reaches 9% in other Web corpora,\nwas reduced to only 0.5%. Domain diversity was also maximized, with 120,000 different websites contributing content. We are making\nour new resource freely available for the research community, both for querying and downloading, in the expectation of aiding in new\nadvances for the processing of Brazilian Portuguese.\n\n## Homepage\n\nhttps://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC\n\n## Licensing\n\n- open license\n- research use\n- other: Other license\n\n\n## Speaker Locations\n\n- Brazil\n\n\n## BigScience processing steps\n\n#### Filters applied to: pt\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# The brWaC Corpus: A New Open Resource for Brazilian Portuguese\n\n- Dataset uid: `brwac`\n\n### Description\n\nIn this work, we present the construction process of a large Web corpus for Brazilian Portuguese, aiming to achieve a size comparable\nto the state of the art in other languages. We also discuss our updated sentence-level approach for the strict removal of duplicated\ncontent. Following the pipeline methodology, more than 60 million pages were crawled and filtered, with 3.5 million being selected.\nThe obtained multi-domain corpus, named brWaC, is composed by 2.7 billion tokens, and has been annotated with tagging and parsing\ninformation. The incidence of non-unique long sentences, an indication of replicated content, which reaches 9% in other Web corpora,\nwas reduced to only 0.5%. Domain diversity was also maximized, with 120,000 different websites contributing content. We are making\nour new resource freely available for the research community, both for querying and downloading, in the expectation of aiding in new\nadvances for the processing of Brazilian Portuguese.\n\n### Homepage\n\nhttps://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC\n\n### Licensing\n\n- open license\n- research use\n- other: Other license\n\n\n### Speaker Locations\n\n- Brazil\n\n\n### Sizes\n\n- 1.6367 % of total\n- 75.7312 % of pt\n\n### BigScience processing steps\n\n#### Filters applied to: pt\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -1767,7 +1759,7 @@ "homepage": "http://www.euromatrixplus.net/multi-un/", "hf_id": "un_multi" }, - "data_card": "# multi_un_2\n\n- Dataset uid: `multi_un_2`\n\n## Sizes\n\n- 1.4983 % of total\n- 5.6129 % of ar\n- 2.9501 % of fr\n- 0.7754 % of zh\n- 1.1603 % of en\n- 4.8760 % of es\n\n## Description\n\nThe MultiUN parallel corpus is extracted from the United Nations Website , and then cleaned and converted to XML at Language Technology Lab in DFKI GmbH (LT-DFKI), Germany. The documents were published by UN from 2000 to 2009.\nFor a detailed description of this corpus, please read: MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010. Please cite the paper, if you use this corpus in your work.\n\n\n## Homepage\n\n- https://huggingface.co/datasets/un_multi\n- http://www.euromatrixplus.net/multi-un/\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: zh\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# multi_un_2\n\n- Dataset uid: `multi_un_2`\n\n### Description\n\nThe MultiUN parallel corpus is extracted from the United Nations Website , and then cleaned and converted to XML at Language Technology Lab in DFKI GmbH (LT-DFKI), Germany. The documents were published by UN from 2000 to 2009.\nFor a detailed description of this corpus, please read: MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010. Please cite the paper, if you use this corpus in your work.\n\n\n### Homepage\n\n- https://huggingface.co/datasets/un_multi\n- http://www.euromatrixplus.net/multi-un/\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 1.4983 % of total\n- 5.6129 % of ar\n- 2.9501 % of fr\n- 0.7687 % of zh\n- 1.1603 % of en\n- 4.8760 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: zh\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -1785,7 +1777,7 @@ } ], "total": 17.882963668, - "data_card": "# bangla_lm\n\n- Dataset uid: `bangla_lm`\n\n## Sizes\n\n- 1.4748 % of total\n- 67.8150 % of indic-bn\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# bangla_lm\n\n- Dataset uid: `bangla_lm`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 1.4748 % of total\n- 67.8150 % of indic-bn\n\n### BigScience processing steps\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -1910,7 +1902,7 @@ }, "fname": "binhvq_news_corpus.json" }, - "data_card": "# Binhvq News Corpus\n\n- Dataset uid: `binhvq_news_corpus`\n\n## Sizes\n\n- 1.0601 % of total\n- 77.4543 % of vi\n\n## Description\n\n\n\n## Homepage\n\nhttps://github.com/binhvq/news-corpus\n\n## Licensing\n\n- open license\n- apache-2.0: Apache License 2.0\n\n\n## Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n## BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Binhvq News Corpus\n\n- Dataset uid: `binhvq_news_corpus`\n\n### Description\n\n\n\n### Homepage\n\nhttps://github.com/binhvq/news-corpus\n\n### Licensing\n\n- open license\n- apache-2.0: Apache License 2.0\n\n\n### Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n### Sizes\n\n- 1.0601 % of total\n- 77.4543 % of vi\n\n### BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -2023,7 +2015,7 @@ }, "fname": "catalan_textual_corpus.json" }, - "data_card": "# Catalan Textual Corpus\n\n- Dataset uid: `catalan_textual_corpus`\n\n## Sizes\n\n- 0.7691 % of total\n- 64.8510 % of ca\n\n## Description\n\nThe Catalan Textual Corpus is a 1760-million-token web corpus of Catalan built from several sources: existing corpus such as DOGC, CaWac (non-dedup version), Oscar (unshuffled version), Open Subtitles, Catalan Wikipedia; and three brand new crawlings: the Catalan General Crawling, obtained by crawling the 500 most popular .cat and .ad domains; the Catalan Government Crawling, obtained by crawling the .gencat domain and subdomains, belonging to the Catalan Government; and the ACN corpus with 220k news items from March 2015 until October 2020, crawled from the Catalan News Agency.\n\nIt consists of 1.758.388.896 tokens, 73.172.152 sentences and 12.556.365 documents. Documents are separated by single new lines. These boundaries have been preserved as long as the license allowed it.\n\n## Homepage\n\nhttps://zenodo.org/record/4519349\n\n## Licensing\n\n- open license\n- cc-by-4.0: Creative Commons Attribution 4.0 International\n\n\n## Speaker Locations\n\n- Southern Europe\n- Spain\n\n\n## BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Catalan Textual Corpus\n\n- Dataset uid: `catalan_textual_corpus`\n\n### Description\n\nThe Catalan Textual Corpus is a 1760-million-token web corpus of Catalan built from several sources: existing corpus such as DOGC, CaWac (non-dedup version), Oscar (unshuffled version), Open Subtitles, Catalan Wikipedia; and three brand new crawlings: the Catalan General Crawling, obtained by crawling the 500 most popular .cat and .ad domains; the Catalan Government Crawling, obtained by crawling the .gencat domain and subdomains, belonging to the Catalan Government; and the ACN corpus with 220k news items from March 2015 until October 2020, crawled from the Catalan News Agency.\n\nIt consists of 1.758.388.896 tokens, 73.172.152 sentences and 12.556.365 documents. Documents are separated by single new lines. These boundaries have been preserved as long as the license allowed it.\n\n### Homepage\n\nhttps://zenodo.org/record/4519349\n\n### Licensing\n\n- open license\n- cc-by-4.0: Creative Commons Attribution 4.0 International\n\n\n### Speaker Locations\n\n- Southern Europe\n- Spain\n\n\n### Sizes\n\n- 0.7691 % of total\n- 64.8510 % of ca\n\n### BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -2146,7 +2138,7 @@ }, "fname": "iitb_english_hindi_corpus.json" }, - "data_card": "# IITB English-Hindi Corpus\n\n- Dataset uid: `iitb_english_hindi_corpus`\n\n## Sizes\n\n- 0.6512 % of total\n- 28.5802 % of indic-hi\n\n## Description\n\nThe IIT Bombay English-Hindi corpus contains parallel corpus for English-Hindi as well as monolingual Hindi corpus collected from a variety of existing sources and corpora developed at the Center for Indian Language Technology, IIT Bombay over the years. This corpus has been used at the Workshop on Asian Language Translation Shared Task since 2016 the Hindi-to-English and English-to-Hindi languages pairs and as a pivot language pair for the Hindi-to-Japanese and Japanese-to-Hindi language pairs.\n\n\n## Homepage\n\nhttps://www.cfilt.iitb.ac.in/iitb_parallel/\n\n## Licensing\n\n- non-commercial use\n- cc-by-nc-nd-4.0: Creative Commons Attribution Non Commercial No Derivatives 4.0 International\n\n\n## Speaker Locations\n\n- Southern Asia\n- India\n- Pakistan\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# IITB English-Hindi Corpus\n\n- Dataset uid: `iitb_english_hindi_corpus`\n\n### Description\n\nThe IIT Bombay English-Hindi corpus contains parallel corpus for English-Hindi as well as monolingual Hindi corpus collected from a variety of existing sources and corpora developed at the Center for Indian Language Technology, IIT Bombay over the years. This corpus has been used at the Workshop on Asian Language Translation Shared Task since 2016 the Hindi-to-English and English-to-Hindi languages pairs and as a pivot language pair for the Hindi-to-Japanese and Japanese-to-Hindi language pairs.\n\n\n### Homepage\n\nhttps://www.cfilt.iitb.ac.in/iitb_parallel/\n\n### Licensing\n\n- non-commercial use\n- cc-by-nc-nd-4.0: Creative Commons Attribution Non Commercial No Derivatives 4.0 International\n\n\n### Speaker Locations\n\n- Southern Asia\n- India\n- Pakistan\n\n\n### Sizes\n\n- 0.6512 % of total\n- 28.5802 % of indic-hi\n\n### BigScience processing steps\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -2257,7 +2249,7 @@ }, "fname": "stack_exchange_website.json" }, - "data_card": "# Stack Exchange Website\n\n- Dataset uid: `no_code_stackexchange`\n\n## Sizes\n\n- 0.5414 % of total\n- 2.9334 % of en\n\n## Description\n\nLaunched in 2010, the Stack Exchange network comprises 173 Q&A communities including Stack Overflow, the largest, most trusted online community for developers to learn, share their knowledge, and build their careers. \n\n## Homepage\n\nhttps://stackexchange.com/\n\n## Licensing\n\n- open license\n- cc-by-sa-4.0: Creative Commons Attribution Share Alike 4.0 International\n\n\n## Speaker Locations\n\n- Northern America\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Stack Exchange Website\n\n- Dataset uid: `no_code_stackexchange`\n\n### Description\n\nLaunched in 2010, the Stack Exchange network comprises 173 Q&A communities including Stack Overflow, the largest, most trusted online community for developers to learn, share their knowledge, and build their careers. \n\n### Homepage\n\nhttps://stackexchange.com/\n\n### Licensing\n\n- open license\n- cc-by-sa-4.0: Creative Commons Attribution Share Alike 4.0 International\n\nSubscriber Content\n\nYou agree that any and all content, including without limitation any and all text, graphics, logos, tools, photographs, images, illustrations, software or source code, audio and video, animations, and product feedback (collectively, \u201cContent\u201d) that you provide to the public Network (collectively, \u201cSubscriber Content\u201d), is perpetually and irrevocably licensed to Stack Overflow on a worldwide, royalty-free, non-exclusive basis pursuant to Creative Commons licensing terms (CC BY-SA 4.0), and you grant Stack Overflow the perpetual and irrevocable right and license to access, use, process, copy, distribute, export, display and to commercially exploit such Subscriber Content, even if such Subscriber Content has been contributed and subsequently removed by you as reasonably necessary to, for example (without limitation):\n\n Provide, maintain, and update the public Network\n Process lawful requests from law enforcement agencies and government agencies\n Prevent and address security incidents and data security features, support features, and to provide technical assistance as it may be required\n Aggregate data to provide product optimization\n\nThis means that you cannot revoke permission for Stack Overflow to publish, distribute, store and use such content and to allow others to have derivative rights to publish, distribute, store and use such content. The CC BY-SA 4.0 license terms are explained in further detail by Creative Commons, and the license terms applicable to content are explained in further detail here. You should be aware that all Public Content you contribute is available for public copy and redistribution, and all such Public Content must have appropriate attribution.\n\nAs stated above, by agreeing to these Public Network Terms you also agree to be bound by the terms and conditions of the Acceptable Use Policy incorporated herein, and hereby acknowledge and agree that any and all Public Content you provide to the public Network is governed by the Acceptable Use Policy.\n\n\n### Speaker Locations\n\n- Northern America\n\n\n### Sizes\n\n- 0.5414 % of total\n- 2.9334 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -2275,7 +2267,7 @@ } ], "total": 6.49705787157353, - "data_card": "# the_pile_uspto\n\n- Dataset uid: `the_pile_uspto`\n\n## Sizes\n\n- 0.5358 % of total\n- 2.9032 % of en\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# the_pile_uspto\n\n- Dataset uid: `the_pile_uspto`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.5358 % of total\n- 2.9032 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -2396,7 +2388,7 @@ }, "fname": "unsupervised_cross_lingual_representation_learning_at_scale.json" }, - "data_card": "# Unsupervised Cross-lingual Representation Learning at Scale\n\n- Dataset uid: `unsupervised_cross_lingual_representation_learning_at_scale`\n\n## Sizes\n\n- 0.4116 % of total\n- 100.0000 % of indic-ne\n\n## Description\n\nThis paper shows that pretraining multilingual\nlanguage models at scale leads to significant\nperformance gains for a wide range of cross-\nlingual transfer tasks. We train a Transformer-\nbased masked language model on one hundred\nlanguages, using more than two terabytes of fil-\ntered CommonCrawl data. Our model, dubbed\nXLM-R, significantly outperforms multilingual\nBERT (mBERT) on a variety of cross-lingual\nbenchmarks, including +14.6% average accu-\nracy on XNLI, +13% average F1 score on\nMLQA, and +2.4% F1 score on NER. XLM-R\nperforms particularly well on low-resource lan-\nguages, improving 15.7% in XNLI accuracy\nfor Swahili and 11.4% for Urdu over previ-\nous XLM models. We also present a detailed\nempirical analysis of the key factors that are\nrequired to achieve these gains, including the\ntrade-offs between (1) positive transfer and ca-\npacity dilution and (2) the performance of high\nand low resource languages at scale. Finally,\nwe show, for the first time, the possibility of\nmultilingual modeling without sacrificing per-\nlanguage performance; XLM-R is very compet-\nitive with strong monolingual models on the\nGLUE and XNLI benchmarks. We will make\nour code, data and models publicly available\n\n## Homepage\n\nhttps://metatext.io/datasets/cc100-nepali\n\n## Licensing\n\n- public domain\n- open license\n- research use\n- other: Other license\n\n\n## Speaker Locations\n\n- Southern Asia\n- Nepal\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-ne\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Unsupervised Cross-lingual Representation Learning at Scale\n\n- Dataset uid: `unsupervised_cross_lingual_representation_learning_at_scale`\n\n### Description\n\nThis paper shows that pretraining multilingual\nlanguage models at scale leads to significant\nperformance gains for a wide range of cross-\nlingual transfer tasks. We train a Transformer-\nbased masked language model on one hundred\nlanguages, using more than two terabytes of fil-\ntered CommonCrawl data. Our model, dubbed\nXLM-R, significantly outperforms multilingual\nBERT (mBERT) on a variety of cross-lingual\nbenchmarks, including +14.6% average accu-\nracy on XNLI, +13% average F1 score on\nMLQA, and +2.4% F1 score on NER. XLM-R\nperforms particularly well on low-resource lan-\nguages, improving 15.7% in XNLI accuracy\nfor Swahili and 11.4% for Urdu over previ-\nous XLM models. We also present a detailed\nempirical analysis of the key factors that are\nrequired to achieve these gains, including the\ntrade-offs between (1) positive transfer and ca-\npacity dilution and (2) the performance of high\nand low resource languages at scale. Finally,\nwe show, for the first time, the possibility of\nmultilingual modeling without sacrificing per-\nlanguage performance; XLM-R is very compet-\nitive with strong monolingual models on the\nGLUE and XNLI benchmarks. We will make\nour code, data and models publicly available\n\n### Homepage\n\nhttps://metatext.io/datasets/cc100-nepali\n\n### Licensing\n\n- public domain\n- open license\n- research use\n- other: Other license\n\nhttps://commoncrawl.org/terms-of-use/\n\n\n### Speaker Locations\n\n- Southern Asia\n- Nepal\n\n\n### Sizes\n\n- 0.4116 % of total\n- 100.0000 % of indic-ne\n\n### BigScience processing steps\n\n#### Filters applied to: indic-ne\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -2511,7 +2503,7 @@ "homepage": "https://indicnlp.ai4bharat.org/samanantar/", "hf_id": "samanantar" }, - "data_card": "# samanantar\n\n- Dataset uid: `samanantar`\n\n## Sizes\n\n- 0.3960 % of total\n- 6.2289 % of indic-hi\n- 3.1806 % of indic-ta\n- 6.5817 % of indic-ml\n- 1.6952 % of indic-bn\n- 12.8370 % of indic-pa\n- 7.2482 % of indic-kn\n- 11.9260 % of indic-or\n- 4.5322 % of indic-te\n- 7.1747 % of indic-mr\n- 7.0256 % of indic-gu\n- 3.9159 % of indic-as\n\n## Description\n\nSamanantar is the largest publicly available parallel corpora collection for Indic languages: Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Oriya, Punjabi, Tamil, Telugu. The corpus has 49.6M sentence pairs between English to Indian Languages.\n\n\n## Homepage\n\n- https://huggingface.co/datasets/ai4bharat/samanantar\n- https://indicnlp.ai4bharat.org/samanantar/\n\n## Licensing\n\nCreative Commons Attribution-NonCommercial 4.0 International\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-as\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n" + "data_card": "# samanantar\n\n- Dataset uid: `samanantar`\n\n### Description\n\nSamanantar is the largest publicly available parallel corpora collection for Indic languages: Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Oriya, Punjabi, Tamil, Telugu. The corpus has 49.6M sentence pairs between English to Indian Languages.\n\n\n### Homepage\n\n- https://huggingface.co/datasets/ai4bharat/samanantar\n- https://indicnlp.ai4bharat.org/samanantar/\n\n### Licensing\n\nCreative Commons Attribution-NonCommercial 4.0 International\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.3960 % of total\n- 6.2289 % of indic-hi\n- 3.1806 % of indic-ta\n- 6.5817 % of indic-ml\n- 1.6952 % of indic-bn\n- 12.8370 % of indic-pa\n- 7.2482 % of indic-kn\n- 11.9260 % of indic-or\n- 4.5322 % of indic-te\n- 7.1747 % of indic-mr\n- 7.0256 % of indic-gu\n- 3.9159 % of indic-as\n\n### BigScience processing steps\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-as\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n" } ], [ @@ -2619,7 +2611,7 @@ }, "fname": "tashkeela.json" }, - "data_card": "# Tashkeela\n\n- Dataset uid: `tashkeela`\n\n## Sizes\n\n- 0.2533 % of total\n- 2.3340 % of ar\n\n## Description\n\nThe dataset collected from 97 books in both modern and classic arabic. The dataset contains Arabic diacritics. The dataset is \n\n## Homepage\n\nhttps://sourceforge.net/projects/tashkeela/\n\n## Licensing\n\n- gpl-2.0: GNU General Public License v2.0 only\n\n\n## Speaker Locations\n\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Tashkeela\n\n- Dataset uid: `tashkeela`\n\n### Description\n\nThe dataset collected from 97 books in both modern and classic arabic. The dataset contains Arabic diacritics. The dataset is \n\n### Homepage\n\nhttps://sourceforge.net/projects/tashkeela/\n\n### Licensing\n\n- gpl-2.0: GNU General Public License v2.0 only\n\n\n### Speaker Locations\n\n\n\n\n### Sizes\n\n- 0.2533 % of total\n- 2.3340 % of ar\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -2732,7 +2724,7 @@ }, "fname": "catalan_general_crawling.json" }, - "data_card": "# Catalan General Crawling\n\n- Dataset uid: `catalan_general_crawling`\n\n## Sizes\n\n- 0.2088 % of total\n- 17.6090 % of ca\n\n## Description\n\nThe Catalan General Crawling Corpus is a 435-million-token web corpus of Catalan built from the web. It has been obtained by crawling the 500 most popular .cat and .ad domains during July 2020. It consists of 434.817.705 tokens, 19.451.691 sentences and 1.016.114 documents. Documents are separated by single new lines. It is a subcorpus of the Catalan Textual Corpus.\n\n## Homepage\n\nhttps://zenodo.org/record/4636228\n\n## Licensing\n\n- open license\n- cc-by-4.0: Creative Commons Attribution 4.0 International\n\n\n## Speaker Locations\n\n- Southern Europe\n- Spain\n\n\n## BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Catalan General Crawling\n\n- Dataset uid: `catalan_general_crawling`\n\n### Description\n\nThe Catalan General Crawling Corpus is a 435-million-token web corpus of Catalan built from the web. It has been obtained by crawling the 500 most popular .cat and .ad domains during July 2020. It consists of 434.817.705 tokens, 19.451.691 sentences and 1.016.114 documents. Documents are separated by single new lines. It is a subcorpus of the Catalan Textual Corpus.\n\n### Homepage\n\nhttps://zenodo.org/record/4636228\n\n### Licensing\n\n- open license\n- cc-by-4.0: Creative Commons Attribution 4.0 International\n\n\n### Speaker Locations\n\n- Southern Europe\n- Spain\n\n\n### Sizes\n\n- 0.2088 % of total\n- 17.6090 % of ca\n\n### BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -2836,7 +2828,7 @@ }, "fname": "bhaskar.json" }, - "data_card": "# bhaskar\n\n- Dataset uid: `pseudocrawl-filtered_667_www_bhaskar_com`\n\n## Sizes\n\n- 0.1785 % of total\n- 7.8365 % of indic-hi\n\n## Description\n\nHindi news production\n\n## Homepage\n\nhttps://www.bhaskar.com/\n\n## Licensing\n\n- copyright - all rights reserved\n\n\n## Speaker Locations\n\n- Southern Asia\n- India\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-hi\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" + "data_card": "# bhaskar\n\n- Dataset uid: `pseudocrawl-filtered_667_www_bhaskar_com`\n\n### Description\n\nHindi news production\n\n### Homepage\n\nhttps://www.bhaskar.com/\n\n### Licensing\n\n- copyright - all rights reserved\n\n\n### Speaker Locations\n\n- Southern Asia\n- India\n\n\n### Sizes\n\n- 0.1785 % of total\n- 7.8365 % of indic-hi\n\n### BigScience processing steps\n\n#### Filters applied to: indic-hi\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -2948,7 +2940,7 @@ }, "fname": "du_reader.json" }, - "data_card": "# DuReader\n\n- Dataset uid: `du_reader`\n\n## Sizes\n\n- 0.1771 % of total\n- 0.6248 % of zh\n\n## Description\n\nDuReader is a large-scale real-world Chinese dataset for Machine Reading Comprehension (MRC) and Question Answering (QA).\n\n## Homepage\n\nhttps://ai.baidu.com/broad/introduction?dataset=dureader\n\n## Licensing\n\n- copyright - all rights reserved\n- apache-2.0: Apache License 2.0\n\n\n## Speaker Locations\n\n- China\n\n\n## BigScience processing steps\n\n#### Filters applied to: zh\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# DuReader\n\n- Dataset uid: `du_reader`\n\n### Description\n\nDuReader is a large-scale real-world Chinese dataset for Machine Reading Comprehension (MRC) and Question Answering (QA).\n\n### Homepage\n\nhttps://ai.baidu.com/broad/introduction?dataset=dureader\n\n### Licensing\n\n- copyright - all rights reserved\n- apache-2.0: Apache License 2.0\n\nCopyright 2017 Baidu.com, Inc. All Rights Reserved\nLicensed under the Apache License, Version 2.0 (the \"License\"); you may not use this file except in compliance with the License. You may obtain a copy of the License at\nhttp://www.apache.org/licenses/LICENSE-2.0\nUnless required by applicable law or agreed to in writing, software distributed under the License is distributed on an \"AS IS\" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.\n\n\n### Speaker Locations\n\n- China\n\n\n### Sizes\n\n- 0.1771 % of total\n- 0.6194 % of zh\n\n### BigScience processing steps\n\n#### Filters applied to: zh\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -3077,7 +3069,7 @@ }, "fname": "mawdoo3-2.json" }, - "data_card": "# mawdoo3\n\n- Dataset uid: `pseudocrawl-filtered_595_mawdoo3_com`\n\n## Sizes\n\n- 0.1558 % of total\n- 1.4355 % of ar\n\n## Description\n\nMawdoo3, is an online Arabic content publisher, based in Jordan. Mawdoo3 was initially established in 2010 by Mohammad Jaber and Rami Al Qawasmi, and officially launched in 2012. The company claims to be the world's largest Arabic website. The company expanded its online Arabic content with over 140k articles to date\n\n## Homepage\n\nhttps://mawdoo3.com/\n\n## Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\n\n## Speaker Locations\n\n- Middle East and North Africa\n- United Arab Emirates\n- Saudi Arabia\n- Libya\n- Algeria\n- Jordan\n- Palestine\n- Lebanon\n- Syria\n- Iraq\n- Yemen\n- Bahrain\n- Qatar\n- Oman\n- Egypt\n- Tunisia\n- Morocco\n- Comoros\n- Mauritania\n- Sudan\n- Kuwait\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" + "data_card": "# mawdoo3\n\n- Dataset uid: `pseudocrawl-filtered_595_mawdoo3_com`\n\n### Description\n\nMawdoo3, is an online Arabic content publisher, based in Jordan. Mawdoo3 was initially established in 2010 by Mohammad Jaber and Rami Al Qawasmi, and officially launched in 2012. The company claims to be the world's largest Arabic website. The company expanded its online Arabic content with over 140k articles to date\n\n### Homepage\n\nhttps://mawdoo3.com/\n\n### Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\n\n### Speaker Locations\n\n- Middle East and North Africa\n- United Arab Emirates\n- Saudi Arabia\n- Libya\n- Algeria\n- Jordan\n- Palestine\n- Lebanon\n- Syria\n- Iraq\n- Yemen\n- Bahrain\n- Qatar\n- Oman\n- Egypt\n- Tunisia\n- Morocco\n- Comoros\n- Mauritania\n- Sudan\n- Kuwait\n\n\n### Sizes\n\n- 0.1558 % of total\n- 1.4355 % of ar\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -3095,7 +3087,7 @@ } ], "total": 1.591333089, - "data_card": "# sanad\n\n- Dataset uid: `sanad`\n\n## Sizes\n\n- 0.1312 % of total\n- 1.2094 % of ar\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- remove_html_spans_sanad\n- filter_small_docs_bytes_300\n\n" + "data_card": "# sanad\n\n- Dataset uid: `sanad`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.1312 % of total\n- 1.2094 % of ar\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- remove_html_spans_sanad\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -3293,7 +3285,7 @@ } ], "total": 1.5503710700000002, - "data_card": "# wiktionary_filtered\n\n- Dataset uid: `wiktionary_filtered`\n\n## Sizes\n\n- 0.1279 % of total\n- 0.2193 % of en\n- 0.2590 % of fr\n- 1.5405 % of indic-ta\n- 4.2217 % of indic-or\n- 2.7890 % of id\n- 0.3181 % of pt\n- 0.2923 % of indic-hi\n- 0.9766 % of indic-te\n- 0.2072 % of vi\n- 0.8097 % of indic-pa\n- 0.3252 % of indic-ml\n- 0.0111 % of ar\n- 0.2704 % of indic-kn\n- 0.0215 % of es\n- 0.0321 % of indic-bn\n- 0.2751 % of eu\n- 0.0265 % of ca\n- 0.1092 % of indic-ur\n- 0.0712 % of indic-mr\n- 0.0813 % of indic-gu\n- 0.0008 % of indic-as\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- strip_substrings_en_wiktionary\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_en\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_fr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-ta\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ta\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: id\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_id\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-hi\n- dedup_template_soft\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-te\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: vi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_vi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-pa\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ml\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ar\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-kn\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_es\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-bn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-bn\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_eu\n- dedup_template_soft\n- replace_newline_with_space\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ca\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-ur\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-mr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-gu\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-as\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- replace_newline_with_space\n\n" + "data_card": "# wiktionary_filtered\n\n- Dataset uid: `wiktionary_filtered`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.1279 % of total\n- 0.2193 % of en\n- 0.2590 % of fr\n- 1.5405 % of indic-ta\n- 4.2217 % of indic-or\n- 2.7890 % of id\n- 0.3181 % of pt\n- 0.2923 % of indic-hi\n- 0.9766 % of indic-te\n- 0.2072 % of vi\n- 0.8097 % of indic-pa\n- 0.3252 % of indic-ml\n- 0.0111 % of ar\n- 0.2704 % of indic-kn\n- 0.0215 % of es\n- 0.0321 % of indic-bn\n- 0.2751 % of eu\n- 0.0265 % of ca\n- 0.1092 % of indic-ur\n- 0.0712 % of indic-mr\n- 0.0813 % of indic-gu\n- 0.0008 % of indic-as\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- strip_substrings_en_wiktionary\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_en\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_fr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-ta\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ta\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: id\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_id\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-hi\n- dedup_template_soft\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-te\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: vi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_vi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-pa\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ml\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ar\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-kn\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_es\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-bn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-bn\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_eu\n- dedup_template_soft\n- replace_newline_with_space\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ca\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-ur\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-mr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-gu\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-as\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- replace_newline_with_space\n\n" } ], [ @@ -3338,7 +3330,7 @@ } ], "total": 1.549831184, - "data_card": "# the_pile_europarl\n\n- Dataset uid: `the_pile_europarl`\n\n## Sizes\n\n- 0.1278 % of total\n- 0.4112 % of fr\n- 1.5555 % of pt\n- 0.7511 % of es\n- 0.1503 % of en\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: pt\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# the_pile_europarl\n\n- Dataset uid: `the_pile_europarl`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.1278 % of total\n- 0.4112 % of fr\n- 1.5555 % of pt\n- 0.7511 % of es\n- 0.1503 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: pt\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -3449,7 +3441,7 @@ }, "fname": "vinbigdata_asr_vlsp_2020.json" }, - "data_card": "# VinBigData ASR VLSP 2020\n\n- Dataset uid: `vinbigdata_monolingual_vlsp_2020`\n\n## Sizes\n\n- 0.1259 % of total\n- 9.2026 % of vi\n\n## Description\n\n100 hours of speech data in Vietnamese provided by VinBigData for the VLSP ASR Challenge 2020\n\n## Homepage\n\nhttps://vinbigdata.org/events/vinbigdata-chia-se-100-gio-du-lieu-tieng-noi-cho-cong-dong/\n\n## Licensing\n\nUnknown\n\n## Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n## BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# VinBigData ASR VLSP 2020\n\n- Dataset uid: `vinbigdata_monolingual_vlsp_2020`\n\n### Description\n\n100 hours of speech data in Vietnamese provided by VinBigData for the VLSP ASR Challenge 2020\n\n### Homepage\n\nhttps://vinbigdata.org/events/vinbigdata-chia-se-100-gio-du-lieu-tieng-noi-cho-cong-dong/\n\n### Licensing\n\nUnknown\n\n### Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n### Sizes\n\n- 0.1259 % of total\n- 9.2026 % of vi\n\n### BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -3562,7 +3554,7 @@ "update_time": "10_12_2021__16_42_15", "fname": "le_monde_newspaper-validated-10_12_2021__16_42_15.json" }, - "data_card": "# Le Monde Newspaper\n\n- Dataset uid: `pseudocrawl-filtered_550_www_lemonde_fr`\n\n## Sizes\n\n- 0.1213 % of total\n- 1.4291 % of fr\n\n## Description\n\nLe Monde is a French daily afternoon newspaper. It is the main publication of Le Monde Group and reported an average circulation of 323,039 copies per issue in 2009, about 40,000 of which were sold abroad. It has had its own website since 19 December 1995, and is often the only French newspaper easily obtainable in non-French-speaking countries. It is considered one of the French newspapers of record, along with Lib\u00e9ration, and Le Figaro. It should not be confused with the monthly publication Le Monde diplomatique, of which Le Monde has 51% ownership, but which is editorially independent. A Reuters Institute poll in 2021 in France found that \"Le Monde is the most trusted national newspaper\".\n\n## Homepage\n\nhttps://www.lemonde.fr/\n\n## Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\n\n## Speaker Locations\n\n- France\n\n\n## BigScience processing steps\n\n#### Filters applied to: fr\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Le Monde Newspaper\n\n- Dataset uid: `pseudocrawl-filtered_550_www_lemonde_fr`\n\n### Description\n\nLe Monde is a French daily afternoon newspaper. It is the main publication of Le Monde Group and reported an average circulation of 323,039 copies per issue in 2009, about 40,000 of which were sold abroad. It has had its own website since 19 December 1995, and is often the only French newspaper easily obtainable in non-French-speaking countries. It is considered one of the French newspapers of record, along with Lib\u00e9ration, and Le Figaro. It should not be confused with the monthly publication Le Monde diplomatique, of which Le Monde has 51% ownership, but which is editorially independent. A Reuters Institute poll in 2021 in France found that \"Le Monde is the most trusted national newspaper\".\n\n### Homepage\n\nhttps://www.lemonde.fr/\n\n### Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\nhttps://moncompte.lemonde.fr/cgv#ancre_propriete\n\nLe Monde est titulaire des droits de propri\u00e9t\u00e9 intellectuelle sur tous les \u00e9l\u00e9ments qui composent ses publications, ses Produits et/ou Services et ses supports de communication, tels que texte, photographie, image, infographie, dessins, logo, enregistrement phonographique ou vid\u00e9ographique, format \u00e9ditorial, charte graphique, programme informatique ou toute autre cr\u00e9ation ou \u0153uvre prot\u00e9geable, ou s\u2019est vu conc\u00e9der les licences n\u00e9cessaires sur les droits de propri\u00e9t\u00e9 intellectuelle y aff\u00e9rents.\n\nQu\u2019ils soient accessibles gratuitement ou non, toute reproduction, repr\u00e9sentation, diffusion, traduction ou exploitation totale ou partielle, de quelque nature que ce soit et par quelque moyen que ce soit, de l\u2019un quelconque de ces \u00e9l\u00e9ments, sans l\u2019autorisation \u00e9crite et pr\u00e9alable du Monde, est strictement interdite et constituerait, au regard des articles L. 335-2 du Code de la propri\u00e9t\u00e9 intellectuelle, un d\u00e9lit de contrefa\u00e7on passible de trois ans d\u2019emprisonnement et 300 000 \u20ac d\u2019amende.\n\nLe Monde est en outre propri\u00e9taire exclusif des marques qu\u2019il a d\u00e9pos\u00e9es ou exploite r\u00e9guli\u00e8rement. Leur reproduction, usage ou apposition sans l\u2019autorisation \u00e9crite et pr\u00e9alable du Monde, est strictement interdite et constituerait un acte de contrefa\u00e7on engageant la responsabilit\u00e9 civile de son auteur au titre de l\u2019article L. 716-1 du Code de la propri\u00e9t\u00e9 intellectuelle.\n\nL\u2019utilisation ou l\u2019achat d\u2019un Produit et/ou Service par un Utilisateur et/ou Client ne saurait conf\u00e9rer \u00e0 celui-ci comme \u00e0 quiconque, sur les \u00e9l\u00e9ments prot\u00e9g\u00e9s susvis\u00e9s, un droit autre que celui d\u2019un usage strictement personnel, non collectif et non marchand. Pour toute demande d\u2019autorisation relative aux \u00e9l\u00e9ments de propri\u00e9t\u00e9 intellectuelle du Monde, merci de contacter le service commercial du Monde \u00e0 l\u2019adresse \u00e9lectronique suivante : droitsdauteur@lemonde.fr.\n\n\n### Speaker Locations\n\n- France\n\n\n### Sizes\n\n- 0.1213 % of total\n- 1.4291 % of fr\n\n### BigScience processing steps\n\n#### Filters applied to: fr\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -3588,7 +3580,7 @@ "subject": "general news", "owner": "el mundo (spain)" }, - "data_card": "# el mundo (spain)\n\n- Dataset uid: `pseudocrawl-filtered_333_www_elmundo_es`\n\n## Sizes\n\n- 0.1077 % of total\n- 2.5638 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttp://www.elmundo.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el mundo (spain)\n\n- Dataset uid: `pseudocrawl-filtered_333_www_elmundo_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttp://www.elmundo.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.1077 % of total\n- 2.5638 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -3613,7 +3605,7 @@ "homepage": "", "hf_id": "urdu_leipzig_web019" }, - "data_card": "# leipzig_wortschatz_urdu-pk_web_2019_sentences\n\n- Dataset uid: `leipzig_wortschatz_urdu-pk_web_2019_sentences`\n\n## Sizes\n\n- 0.1056 % of total\n- 37.3794 % of indic-ur\n\n## Description\n\nLeipzig Wortschatz Crawl\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# leipzig_wortschatz_urdu-pk_web_2019_sentences\n\n- Dataset uid: `leipzig_wortschatz_urdu-pk_web_2019_sentences`\n\n### Description\n\nLeipzig Wortschatz Crawl\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.1056 % of total\n- 37.3794 % of indic-ur\n\n### BigScience processing steps\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -3718,7 +3710,7 @@ "update_time": "10_10_2021__18_34_26", "fname": "ksucca_king_saud_university_corpus_of_classical_arabic-validated-10_10_2021__18_34_26.json" }, - "data_card": "# KSUCCA King Saud University Corpus of Classical Arabic\n\n- Dataset uid: `ksucca`\n\n## Sizes\n\n- 0.1033 % of total\n- 0.9524 % of ar\n\n## Description\n\nKing Saud University Corpus of Classical Arabic (KSUCCA) is a pioneering 50 million tokens annotated corpus of Classical Arabic texts from the period of pre-Islamic era until the fourth Hijri century (equivalent to the period from the seventh until early eleventh century CE), which is the period of pure classical Arabic. The main aim of this corpus is to be used for studying the distributional lexical semantics of The Quran words. However, it can be used for other research purposes, such as:\n\u2022 Arabic linguistics, which includes: lexical, morphological, syntactic, semantic and pragmatic research.\n\u2022 Arabic computational linguistics, which includes: lexical, morphological, syntactic, semantic and pragmatic research including their various applications.\n\u2022 Arabic language teaching for both Arabs and non Arabs.\n\u2022 Artificial intelligence.\n\u2022 Natural language processing.\n\u2022 Information retrieval.\n\u2022 Question answering.\n\u2022 Machine translation.\n\n## Homepage\n\nhttps://sourceforge.net/projects/ksucca-corpus/\n\n## Licensing\n\n- open license\n- non-commercial use\n- cc-by-nc-2.0: Creative Commons Attribution Non Commercial 2.0 Generic\n\n\n## Speaker Locations\n\n- Middle East and North Africa\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# KSUCCA King Saud University Corpus of Classical Arabic\n\n- Dataset uid: `ksucca`\n\n### Description\n\nKing Saud University Corpus of Classical Arabic (KSUCCA) is a pioneering 50 million tokens annotated corpus of Classical Arabic texts from the period of pre-Islamic era until the fourth Hijri century (equivalent to the period from the seventh until early eleventh century CE), which is the period of pure classical Arabic. The main aim of this corpus is to be used for studying the distributional lexical semantics of The Quran words. However, it can be used for other research purposes, such as:\n\u2022 Arabic linguistics, which includes: lexical, morphological, syntactic, semantic and pragmatic research.\n\u2022 Arabic computational linguistics, which includes: lexical, morphological, syntactic, semantic and pragmatic research including their various applications.\n\u2022 Arabic language teaching for both Arabs and non Arabs.\n\u2022 Artificial intelligence.\n\u2022 Natural language processing.\n\u2022 Information retrieval.\n\u2022 Question answering.\n\u2022 Machine translation.\n\n### Homepage\n\nhttps://sourceforge.net/projects/ksucca-corpus/\n\n### Licensing\n\n- open license\n- non-commercial use\n- cc-by-nc-2.0: Creative Commons Attribution Non Commercial 2.0 Generic\n\n\n### Speaker Locations\n\n- Middle East and North Africa\n\n\n### Sizes\n\n- 0.1033 % of total\n- 0.9524 % of ar\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -3744,7 +3736,7 @@ "subject": "general news", "owner": "la nacion (argentina)" }, - "data_card": "# la nacion (argentina)\n\n- Dataset uid: `pseudocrawl-filtered_63_www_lanacion_com_ar`\n\n## Sizes\n\n- 0.1029 % of total\n- 2.4492 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttp://www.lanacion.com.ar/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la nacion (argentina)\n\n- Dataset uid: `pseudocrawl-filtered_63_www_lanacion_com_ar`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttp://www.lanacion.com.ar/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.1029 % of total\n- 2.4492 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -3857,7 +3849,7 @@ }, "fname": "clar\u00edn_argentina.json" }, - "data_card": "# Clar\u00edn - Argentina\n\n- Dataset uid: `pseudocrawl-filtered_20_www_clarin_com`\n\n## Sizes\n\n- 0.1009 % of total\n- 2.4013 % of es\n\n## Description\n\nIs the largest newspaper in Argentina and the second most circulated in the Spanish-speaking world.\n\n## Homepage\n\nhttps://www.clarin.com/\n\n## Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\n\n## Speaker Locations\n\n- Latin America and the Caribbean\n- Argentina\n\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Clar\u00edn - Argentina\n\n- Dataset uid: `pseudocrawl-filtered_20_www_clarin_com`\n\n### Description\n\nIs the largest newspaper in Argentina and the second most circulated in the Spanish-speaking world.\n\n### Homepage\n\nhttps://www.clarin.com/\n\n### Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\nSe permite \u00fanicamente un uso personal e intransferible de las claves de acceso a los Sitios. Todos los contenidos de los Sitios pertenecen a AGEA o, en su caso, a terceras personas y est\u00e1n protegidos por la legislaci\u00f3n sobre propiedad intelectual. Ning\u00fan contenido de los Sitios, cualquiera que sea su naturaleza, podr\u00e1 ser bajado, publicado, emitido, retransmitido directa o indirectamente en ning\u00fan medio o soporte para uso distinto del estrictamente personal. Por tanto, queda terminantemente prohibida su utilizaci\u00f3n con fines comerciales, su distribuci\u00f3n, as\u00ed como su modificaci\u00f3n, alteraci\u00f3n o descompilaci\u00f3n. Al acceder a los Sitios el Usuario acepta no vender, no publicar, no distribuir, no retransmitir ni facilitar ning\u00fan acceso a los contenidos de los Sitios a terceros. El Usuario acepta no utilizar los Sitios para ning\u00fan prop\u00f3sito ilegal.AGEA se reserva el derecho de restringir o cancelar el acceso a los Sitios si, a su criterio y consideraci\u00f3n, el Usuario utiliza los Sitios para infringir alguna ley, violar derechos de terceros o incumplir las presentes condiciones de contrataci\u00f3n. En caso de producirse descargas masivas de contenidos por parte de un Usuario, AGEA se reserva el derecho de cancelar el acceso a los Sitios de dicho Usuario, anular su suscripci\u00f3n, y/o adoptar las acciones legales que estime oportunas.Asimismo, AGEA no se responsabiliza por los nombres de Usuarios que afectan a personas ajenas, est\u00e1n protegidos por marcas registradas u otras leyes o que resultaren vulgares u ofensivos. Los Usuarios aceptan y reconocen que AGEA no controla, ni supervisa, ni asume responsabilidad alguna por la calidad, seguridad, caracter\u00edsticas y dem\u00e1s elementos de los productos y/o servicios promocionados u ofrecidos en los Sitios.Asimismo, aceptan y reconocen que AGEA no controla, ni supervisa, ni asume responsabilidad acerca de la veracidad y exactitud de la descripci\u00f3n efectuada por aquellos que promocionan u ofrecen sus productos o servicios (en adelante los \"Oferentes\"), ni acerca del cumplimiento de los requisitos legales para ofrecer y vender los productos o servicios, ni sobre la capacidad y legitimaci\u00f3n de los Oferentes para promocionar, ofrecer y/o vender sus bienes o servicios. El material publicitario es propiedad de los solicitantes del espacio. AGEA no es responsable del contenido y al respecto rigen las mismas exclusiones que para el material editorial.\n\n\n### Speaker Locations\n\n- Latin America and the Caribbean\n- Argentina\n\n\n### Sizes\n\n- 0.1009 % of total\n- 2.4013 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -3968,7 +3960,7 @@ }, "fname": "abc_australia.json" }, - "data_card": "# ABC Australia\n\n- Dataset uid: `pseudocrawl-filtered_689_www_abc_net_au`\n\n## Sizes\n\n- 0.0955 % of total\n- 0.5174 % of en\n\n## Description\n\nWebsite of the Australian Broadcasting Corporation.\n\n## Homepage\n\nhttps://www.abc.net.au/\n\n## Licensing\n\n- non-commercial use\n- unknown: License information unavailable\n\n\n## Speaker Locations\n\n- Oceania\n- Australia\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# ABC Australia\n\n- Dataset uid: `pseudocrawl-filtered_689_www_abc_net_au`\n\n### Description\n\nWebsite of the Australian Broadcasting Corporation.\n\n### Homepage\n\nhttps://www.abc.net.au/\n\n### Licensing\n\n- non-commercial use\n- unknown: License information unavailable\n\nAll intellectual property rights in the content, software and systems owned by or licensed to the ABC on any ABC Online Services, including logos, images, names, designs, trademarks and copyright (ABC Content) are reserved to the ABC and its licensors. Such content is provided for your personal, non-commercial use only. Unless specifically noted in the House Rules for a particular service, you may not otherwise reproduce, republish, modify, adapt, translate, prepare derivative works from, reverse engineer or disassemble ABC Content, without obtaining the ABC's prior written permission. You agree not to remove, obscure, or alter any ABC copyright notice or trademark on any content you access and use. You also agree not to use ABC Content in a way that implies endorsement by the ABC or any person included in the materials. If you are interested in using ABC Content other than for personal, non-commercial use, please contact ABC Library Sales for further information. Entitlements under Part IVA Division 4 and section 183 of the Copyright Act 1968 (Cth) ('the Act') are reserved to the ABC. For educational institutions: Visit www.screen.org for information about 'Broadcasts' under section 113P of the Act (download of audio-visual content) and www.copyright.com.au for information about 'Works' under section 113P of the Act (copying text/images).\n\n\n### Speaker Locations\n\n- Oceania\n- Australia\n\n\n### Sizes\n\n- 0.0955 % of total\n- 0.5174 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -3994,7 +3986,7 @@ "subject": "general news", "owner": "el diario" }, - "data_card": "# el diario\n\n- Dataset uid: `pseudocrawl-filtered_396_www_eldiario_es`\n\n## Sizes\n\n- 0.0904 % of total\n- 2.1526 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.eldiario.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el diario\n\n- Dataset uid: `pseudocrawl-filtered_396_www_eldiario_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.eldiario.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0904 % of total\n- 2.1526 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -4165,7 +4157,7 @@ } ], "total": 1.088005176, - "data_card": "# wikibooks_filtered\n\n- Dataset uid: `wikibooks_filtered`\n\n## Sizes\n\n- 0.0897 % of total\n- 0.2591 % of en\n- 0.0965 % of fr\n- 0.1691 % of es\n- 0.2834 % of indic-hi\n- 0.2172 % of pt\n- 0.0150 % of zh\n- 0.0279 % of ar\n- 0.1374 % of vi\n- 0.5025 % of id\n- 0.3694 % of indic-ur\n- 0.5744 % of eu\n- 0.0769 % of ca\n- 0.0519 % of indic-ta\n- 0.1470 % of indic-mr\n- 0.0751 % of indic-te\n- 0.0156 % of indic-bn\n- 0.0476 % of indic-ml\n- 0.0087 % of indic-pa\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_en\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_fr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_es\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-hi\n- dedup_template_soft\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zh\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_zhs\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ar\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: vi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_vi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: id\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_id\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ur\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_eu\n- dedup_template_soft\n- replace_newline_with_space\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ca\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-ta\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ta\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-mr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-te\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-bn\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ml\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-pa\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n" + "data_card": "# wikibooks_filtered\n\n- Dataset uid: `wikibooks_filtered`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0897 % of total\n- 0.2591 % of en\n- 0.0965 % of fr\n- 0.1691 % of es\n- 0.2834 % of indic-hi\n- 0.2172 % of pt\n- 0.0149 % of zh\n- 0.0279 % of ar\n- 0.1374 % of vi\n- 0.5025 % of id\n- 0.3694 % of indic-ur\n- 0.5744 % of eu\n- 0.0769 % of ca\n- 0.0519 % of indic-ta\n- 0.1470 % of indic-mr\n- 0.0751 % of indic-te\n- 0.0156 % of indic-bn\n- 0.0476 % of indic-ml\n- 0.0087 % of indic-pa\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_en\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_fr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_es\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-hi\n- dedup_template_soft\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zh\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_zhs\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ar\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: vi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_vi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: id\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_id\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ur\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_eu\n- dedup_template_soft\n- replace_newline_with_space\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ca\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-ta\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ta\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-mr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-te\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-bn\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ml\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-pa\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -4190,7 +4182,7 @@ "homepage": "", "hf_id": "bs_basque" }, - "data_card": "# bsbasque\n\n- Dataset uid: `bsbasque`\n\n## Sizes\n\n- 0.0877 % of total\n- 53.9848 % of eu\n\n## Description\n\nBSBasque dataset. The text is extracted from the following domains:\n https://www.berria.eus\n https://eu.wikipedia.org\n https://goiena.eus\n https://www.argia.eus\n https://goierri.hitza.eus\n\n\n## Homepage\n\n\n\n## Licensing\n\nCC BY-SA 4.0\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: eu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n" + "data_card": "# bsbasque\n\n- Dataset uid: `bsbasque`\n\n### Description\n\nBSBasque dataset. The text is extracted from the following domains:\n https://www.berria.eus\n https://eu.wikipedia.org\n https://goiena.eus\n https://www.argia.eus\n https://goierri.hitza.eus\n\n\n### Homepage\n\n\n\n### Licensing\n\nCC BY-SA 4.0\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0877 % of total\n- 53.9848 % of eu\n\n### BigScience processing steps\n\n#### Filters applied to: eu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n" } ], [ @@ -4216,7 +4208,7 @@ "subject": "general news", "owner": "aporrea" }, - "data_card": "# aporrea\n\n- Dataset uid: `pseudocrawl-filtered_100_www_aporrea_org`\n\n## Sizes\n\n- 0.0859 % of total\n- 2.0457 % of es\n\n## Description\n\nwebsite: venezuela -general news\n\n## Homepage\n\nhttp://www.aporrea.org/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nvenezuela\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# aporrea\n\n- Dataset uid: `pseudocrawl-filtered_100_www_aporrea_org`\n\n### Description\n\nwebsite: venezuela -general news\n\n### Homepage\n\nhttp://www.aporrea.org/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nvenezuela\n\n### Sizes\n\n- 0.0859 % of total\n- 2.0457 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -4242,7 +4234,7 @@ "subject": "news", "owner": "" }, - "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_497_www_straitstimes_com`\n\n## Sizes\n\n- 0.0837 % of total\n- 0.4534 % of en\n\n## Description\n\nwebsite: singapore -news\n\n## Homepage\n\nhttps://www.straitstimes.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_497_www_straitstimes_com`\n\n### Description\n\nwebsite: singapore -news\n\n### Homepage\n\nhttps://www.straitstimes.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0837 % of total\n- 0.4534 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -4268,7 +4260,7 @@ "subject": "general news", "owner": "la vanguardia" }, - "data_card": "# la vanguardia\n\n- Dataset uid: `pseudocrawl-filtered_424_www_lavanguardia_com`\n\n## Sizes\n\n- 0.0811 % of total\n- 1.9305 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.lavanguardia.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la vanguardia\n\n- Dataset uid: `pseudocrawl-filtered_424_www_lavanguardia_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.lavanguardia.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0811 % of total\n- 1.9305 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -4286,7 +4278,7 @@ } ], "total": 0.971185112, - "data_card": "# brad_2\n\n- Dataset uid: `brad_2`\n\n## Sizes\n\n- 0.0801 % of total\n- 0.7381 % of ar\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# brad_2\n\n- Dataset uid: `brad_2`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0801 % of total\n- 0.7381 % of ar\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -4420,7 +4412,7 @@ }, "fname": "el_tiempo_colombia.json" }, - "data_card": "# El Tiempo\n\n- Dataset uid: `pseudocrawl-filtered_349_www_eltiempo_com`\n\n## Sizes\n\n- 0.0772 % of total\n- 1.8373 % of es\n\n## Description\n\nEl Tiempo (English: \"Time\" or \"The Times\") is a nationally distributed broadsheet daily newspaper in Colombia launched on January 30th, 1911. As of 2019, El Tiempo has the highest circulation in Colombia with an average daily weekday of 1,137,483 readers, rising to 1,921,571 readers for the Sunday edition.[1] After longtime rival El Espectador was reduced to a weekly publication following an internal financial crisis in 2001, El Tiempo enjoyed monopoly status in Colombian media as the only daily that circulated nationally, as most smaller dailies have limited distribution outside their own regions. However, El Espectador returned to the daily format on May 11, 2008.\n\n\nFirst Edition of El Tiempo using its now traditional logo, published on May 1st, 1917. The first edition of the newspaper was published 6 years before, in 1911.\nFrom 1913 to 2007, El Tiempo's main shareholders were members of the Santos Calder\u00f3n family. Several also participated in Colombian politics: Eduardo Santos Montejo was President of Colombia from 1938 to 1942. Francisco Santos Calder\u00f3n served as Vice-President (2002\u20132010). And Juan Manuel Santos as Defense Minister (2006\u20132009) during \u00c1lvaro Uribe's administration. The latter was elected president in 2010.[2]\n\nIn 2007, Spanish Grupo Planeta acquired 55% of the Casa Editorial El Tiempo media group, including the newspaper and its associated TV channel Citytv Bogot\u00e1.[3] In 2012, businessman Luis Carlos Sarmiento Angulo bought the shares of Planeta, the Santos family and other small shareholders, becoming the only owner of the newspaper.[4][5]\n\n## Homepage\n\nhttps://www.eltiempo.com\n\n## Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\n\n## Speaker Locations\n\n- Americas\n- Latin America and the Caribbean\n- Colombia\n\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# El Tiempo\n\n- Dataset uid: `pseudocrawl-filtered_349_www_eltiempo_com`\n\n### Description\n\nEl Tiempo (English: \"Time\" or \"The Times\") is a nationally distributed broadsheet daily newspaper in Colombia launched on January 30th, 1911. As of 2019, El Tiempo has the highest circulation in Colombia with an average daily weekday of 1,137,483 readers, rising to 1,921,571 readers for the Sunday edition.[1] After longtime rival El Espectador was reduced to a weekly publication following an internal financial crisis in 2001, El Tiempo enjoyed monopoly status in Colombian media as the only daily that circulated nationally, as most smaller dailies have limited distribution outside their own regions. However, El Espectador returned to the daily format on May 11, 2008.\n\n\nFirst Edition of El Tiempo using its now traditional logo, published on May 1st, 1917. The first edition of the newspaper was published 6 years before, in 1911.\nFrom 1913 to 2007, El Tiempo's main shareholders were members of the Santos Calder\u00f3n family. Several also participated in Colombian politics: Eduardo Santos Montejo was President of Colombia from 1938 to 1942. Francisco Santos Calder\u00f3n served as Vice-President (2002\u20132010). And Juan Manuel Santos as Defense Minister (2006\u20132009) during \u00c1lvaro Uribe's administration. The latter was elected president in 2010.[2]\n\nIn 2007, Spanish Grupo Planeta acquired 55% of the Casa Editorial El Tiempo media group, including the newspaper and its associated TV channel Citytv Bogot\u00e1.[3] In 2012, businessman Luis Carlos Sarmiento Angulo bought the shares of Planeta, the Santos family and other small shareholders, becoming the only owner of the newspaper.[4][5]\n\n### Homepage\n\nhttps://www.eltiempo.com\n\n### Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\nT\u00c9RMINOS Y CONDICIONES\n\nEl portal www.eltiempo.com (en adelante, el \"Portal\") es de propiedad de CASA EDITORIAL EL TIEMPO S.A. (en adelante, \"CEET\"). El acceso, participaci\u00f3n y uso del Portal est\u00e1 regido por los t\u00e9rminos y condiciones que se incluyen a continuaci\u00f3n, los cuales se entienden conocidos y aceptados por los (las) usuarios(as) del Portal (en adelante, el \"Usuario\") al acceder y usar el mismo:\n1. INFORMACI\u00d3N CONTENIDA EN EL PORTAL\n1.1 Propiedad del contenido del portal - Copyright\nEl Portal y su contenido son de propiedad de CEET. Est\u00e1 prohibida su reproducci\u00f3n total o parcial, su traducci\u00f3n, inclusi\u00f3n, transmisi\u00f3n, almacenamiento o acceso a trav\u00e9s de medios anal\u00f3gicos, digitales o de cualquier otro sistema o tecnolog\u00eda creada o por crearse, sin autorizaci\u00f3n previa y escrita de CEET.\n\nNo obstante, es posible descargar material del Portal para su uso personal y no comercial, siempre y cuando se haga expresa menci\u00f3n de la propiedad en cabeza de CEET.\n\nLos links a otras p\u00e1ginas o portales de Internet, distintas de aquellas de las cuales CEET es propietaria, son ofrecidos como un servicio a los lectores. CEET no estuvo involucrada en la producci\u00f3n y por lo tanto no es responsable por el contenido de dichas p\u00e1ginas de Internet.\n1.2. Contenido de los usuarios\nEl visitante y/o lector del Portal (en adelante, \u201cUsuario\u201d) es titular de los derechos de autor sobre el contenido que produzca y suba al Portal. El Usuario concede a CEET en forma permanente, una licencia de uso gratuita, no exclusiva, para la reproducci\u00f3n, adaptaci\u00f3n, compilaci\u00f3n, almacenamiento y distribuci\u00f3n de los contenidos por \u00e9l suministrados a trav\u00e9s del Portal o de cualquier otro medio. CEET reconocer\u00e1 al Usuario su autor\u00eda sobre los contenidos suministrados. CEET podr\u00e1 sublicenciar a sus filiales y/o subsidiarias los mismos contenidos. El Usuario garantiza que los contenidos suministrados son de su autor\u00eda, que no est\u00e1 violando derechos de autor de terceras personas y que mantendr\u00e1 indemne a CEET y a sus sublicenciatarios frente a cualquier reclamaci\u00f3n que se presente con ocasi\u00f3n de su uso.\n\nTeniendo en cuenta la posibilidad del Usuario de incluir en el Portal fotos y/o im\u00e1genes y/o textos y/u otro tipo de material de titularidad del Usuario o bien por \u00e9ste, pero de titularidad de un tercero, se deja expresamente establecido que al incluirlo en el Portal se considerar\u00e1 que el Usuario autoriza a CEET para que ese material aparezca y quede en el Portal sin derecho a contraprestaci\u00f3n alguna por parte de CEET. En el caso de incluirlo, el Usuario lo podr\u00e1 mantener en el Portal por el lapso que considere pertinente. En relaci\u00f3n con cualquier tipo de material y/o informaci\u00f3n remitida al Portal por los Usuarios, incluyendo fotos y/o im\u00e1genes y/o textos y/u otro tipo de material de propiedad de los Usuarios o de un tercero que los hubieren facultado, se considerar\u00e1 que el Usuario es titular de los derechos de autor sobre dicho contenido y que al haber sido incluidos en el Portal el Usuario otorga licencia gratuita, incondicional y no exclusiva de uso de tal contenido a favor de CEET, sin derecho a percibir contraprestaci\u00f3n, remuneraci\u00f3n, retribuci\u00f3n o reclamo posterior alguno, cualquiera sea su tipo o \u00edndole. CEET podr\u00e1 a su vez hacer cualquier tipo de uso de dicho material, en virtud de la licencia de uso as\u00ed concedida.\n\nEl Usuario reconoce que el ingreso o suministro de contenido de su propiedad o de terceros lo realiza de manera voluntaria y teniendo en cuenta las caracter\u00edsticas del Portal y las facultades de uso por parte de CEET. En todo caso, para el suministro de cualquier tipo de material y/o informaci\u00f3n el Usuario deber\u00e1 observar y aplicar, las Condiciones de Uso y Participaci\u00f3n dentro del Portal que se se\u00f1alan m\u00e1s adelante.\n1.3. Pol\u00edtica y aviso de privacidad\nEn el enlace http://www.eltiempo.com/politica-de-privacidad se encuentran la pol\u00edtica de privacidad de CEET, contentiva del aviso de privacidad y del manual interno de tratamiento de datos personales que se acepta previa y expresamente por los Usuarios del Portal, al momento del Registro, para los fines que all\u00ed se informan de manera previa, expresa e informada.\n2. T\u00c9RMINOS GENERALES\n2.1 Sobre el portal\nCualquier lector podr\u00e1 ingresar al Portal a trav\u00e9s del uso de un explorador o a trav\u00e9s de las aplicaciones de EL TIEMPO. Para poder revisar el contenido del Portal de manera ilimitada el Usuario deber\u00e1 registrarse en el Portal y adquirir la Suscripci\u00f3n Digital de su preferencia, autorizando previamente el tratamiento de sus datos personales. Quien no realice el pago de la Suscripci\u00f3n Digital conforme a los presentes T\u00e9rminos y Condiciones no podr\u00e1 acceder de manera ilimitada al contenido del Portal, solamente podr\u00e1 acceder a un determinado n\u00famero de t\u00edtulos y/o contenido seg\u00fan lo defina CEET.\n\nCEET se reserva el derecho a modificar el contenido, tipo y formato del Portal en cualquier momento atendiendo a condiciones del mercado, mejoras en su plataforma tecnol\u00f3gica, entre otras.\n2.2 Procedimiento de registro \n\n2.2.1 Generales\nPara acceder al Portal, el Usuario deber\u00e1 registrarse diligenciando la totalidad de la informaci\u00f3n solicitada al momento del registro. Una vez el Usuario finalice el registro, el sistema le enviar\u00e1 un correo electr\u00f3nico de activaci\u00f3n con instrucciones para finalizar este proceso. Una vez ocurra lo anterior, el Usuario podr\u00e1 pagar por el paquete de la Suscripci\u00f3n Digital de su preferencia puesto a disposici\u00f3n por CEET. Excepcionalmente el Usuario podr\u00e1 obtener acceso gratuito y sin registro para leer y consultar determinado n\u00famero de t\u00edtulos y/o contenidos seg\u00fan lo defina CEET. Por lo anterior, cada contenido period\u00edstico consultado por el Usuario desde cualquier dispositivo que utilice o est\u00e9 relacionado con su registro en el Portal, ser\u00e1 inscrito y contabilizado.\n\nTranscurridos 30 d\u00edas calendario, el Portal iniciar\u00e1 nuevamente el conteo de los contenidos period\u00edsticos a los que acceda el Usuario en el Portal bajo las anteriores condiciones.\n\nEl Portal le permitir\u00e1 visualizar en su computador o dispositivo el despliegue de la Suscripci\u00f3n Digital para que seleccione el paquete de su preferencia y proceda a realizar el pago. Al adquirir la Suscripci\u00f3n Digital el Usuario autoriza de forma expresa a CEET para hacer todos los cobros a que haya lugar a trav\u00e9s del medio de pago aceptado o usado, lo cual incluir\u00e1 el cobro de la tarifa, actualizaciones, reliquidaciones de precio y dem\u00e1s valores a cargo del Usuario.\n\nSi el pago no se pudiera realizar satisfactoriamente, debido a la fecha de caducidad del medio de pago, cambio de tarjetas y/o la falta de fondos, el Usuario seguir\u00e1 siendo responsable de los montos pendientes de pago y autoriza a CEET a continuar la facturaci\u00f3n a trav\u00e9s del mismo medio de pago o de uno diferente que se provea por el Usuario y/o por su entidad bancaria. Esto podr\u00eda resultar en un cambio en las fechas de facturaci\u00f3n. El Usuario autoriza en caso de cambio del n\u00famero de la tarjeta de cr\u00e9dito autorizada como medio de pago, CEET solicite el nuevo n\u00famero a la respectiva entidad financiera, para efectuar el cobro correspondiente.\n\n2.2.2 Registro\nToda Suscripci\u00f3n Digital que el Usuario desee adquirir, requiere de forma previa el registro de los datos del Usuario, lo anterior le permitir\u00e1 crear una cuenta que lo identificar\u00e1 en los diferentes dispositivos en los que acceda al Portal al momento de consultar los contenidos period\u00edsticos del Portal.\n\n2.2.3 Ingreso a la cuenta\nEn la parte superior del Portal o en el men\u00fa, el Usuario encontrar\u00e1 en el enlace \u201cIniciar Sesi\u00f3n\u201d. Al dar clic podr\u00e1 ver los espacios para ingresar su correo electr\u00f3nico y contrase\u00f1a. Recuerde que debe escribirlos correctamente. Una vez la validaci\u00f3n se lleve a cabo con \u00e9xito, podr\u00e1 llegar a su zona de usuario en donde el Usuario podr\u00e1 administrar su cuenta. En esta zona podr\u00e1 ver toda la informaci\u00f3n incluida en el Registro, como los datos personales y la posibilidad de editar los mismos. Los Usuarios tambi\u00e9n podr\u00e1n ingresar por medio de alguna(s) red(es) social(es), dando clic en la opci\u00f3n y permitiendo los accesos.\n\n\u00danicamente se podr\u00e1 acceder a la cuenta cuatro (4) veces de manera simult\u00e1nea y desde diferentes dispositivos. Si el Usuario tiene cuatro (4) sesiones abiertas y quiere abrir otra, el sistema le pedir\u00e1 que cierre una de las sesiones activas para continuar con el ingreso.\n\nEn caso de tener una cuenta en el Portal, pero no recordar su contrase\u00f1a, podr\u00e1 ir a la opci\u00f3n \u201cIniciar Sesi\u00f3n\u201d en la parte superior, dar clic en \u201c\u00bfOlvidaste tu contrase\u00f1a?\u201d, ingresar su correo electr\u00f3nico y recibir un mensaje con instrucciones para reestablecerla.\n\nPara cambiar su correo electr\u00f3nico, el Usuario deber\u00e1 entrar a \u201cMi Suscripci\u00f3n\u201d y en la pantalla ver\u00e1 la opci\u00f3n \u201cCambiar Correo Electr\u00f3nico\u201d. All\u00ed podr\u00e1 ingresar el nuevo correo electr\u00f3nico y recibir\u00e1 un mail de activaci\u00f3n al correo que acaba de ingresar.\n\n2.2.4 Versi\u00f3n m\u00f3vil\nDesde su dispositivo m\u00f3vil o tableta podr\u00e1 ingresar a la direcci\u00f3n web www.eltiempo.com o eltiempo.com, para la consulta de toda la informaci\u00f3n de EL TIEMPO en una versi\u00f3n completa y multimedia, pensada para la experiencia de los dispositivos. Adem\u00e1s, es de f\u00e1cil consulta. A este sistema se podr\u00e1 acceder a trav\u00e9s de red WIFI o a trav\u00e9s de cualquier red de internet disponible por los operadores de telefon\u00eda celular.\n\nConsultar la versi\u00f3n m\u00f3vil para tel\u00e9fonos inteligentes tendr\u00e1 un conteo mensual al igual que la versi\u00f3n disponible para navegador. Por lo anterior, si llega a determinado n\u00famero de art\u00edculos, deber\u00e1 llevar a cabo el registro en caso de que desee consultar m\u00e1s art\u00edculos period\u00edsticos. La consulta de la versi\u00f3n m\u00f3vil para tel\u00e9fonos inteligentes le son aplicables las mismas condiciones indicadas para Suscripciones Digitales.\n\n2.2.5 Aplicaci\u00f3n EL TIEMPO\nEl Usuario podr\u00e1 descargar la aplicaci\u00f3n de EL TIEMPO para acceder a los productos ofrecidos digitalmente por CEET. Para el efecto deber\u00e1 tener en cuenta los t\u00e9rminos y condiciones que cada tienda establece para la descarga de la aplicaci\u00f3n. La descarga de esta aplicaci\u00f3n es gratuita. El Usuario deber\u00e1 registrarse para acceder a los contenidos gratuitos, los cuales estar\u00e1n habilitados o para leer y consultar determinado n\u00famero de t\u00edtulos y/o contenidos seg\u00fan lo defina CEET.\n\nPara descargarla s\u00f3lo es necesario contar con un dispositivo m\u00f3vil que cuente con alguno de los siguientes sistemas operativos: iOS 10 o superior; Android 5 o superior.\n\nEn la versi\u00f3n para tel\u00e9fonos inteligentes podr\u00e1 ver la mayor\u00eda del contenido que ve generalmente en su computador, algunos despliegues quiz\u00e1 no estar\u00e1n disponibles por cuestiones t\u00e9cnicas.\n\nEn la aplicaci\u00f3n tendr\u00e1 la opci\u00f3n de hacer personalizaciones, por ejemplo, determinar las noticias que se ajusten a los intereses del Usuario, guardar art\u00edculos para su lectura en cualquier momento, seguir de forma preferente a un columnista, entre otras. Estas preferencias de Usuario podr\u00e1n ser editadas en cualquier momento y permitir\u00e1n una navegaci\u00f3n m\u00e1s acorde con sus gustos e intereses.\n2.3 Procedimiento de Activaci\u00f3n Suscriptores del peri\u00f3dico impreso\n2.3.1 Generalidades\nEn caso de que usted sea actualmente suscriptor de la versi\u00f3n impresa del peri\u00f3dico EL TIEMPO, recibir\u00e1 un correo electr\u00f3nico u otro tipo de comunicaci\u00f3n con la informaci\u00f3n de la Suscripci\u00f3n Digital para que proceda en primer lugar a realizar el registro con su nombre, celular, correo electr\u00f3nico y contrase\u00f1a y posteriormente podr\u00e1 activarse dentro de su zona de usuario.\n\nDe otro lado quienes adquieran su Suscripci\u00f3n al peri\u00f3dico EL TIEMPO versi\u00f3n impresa, podr\u00e1n activarse con su n\u00famero de documento, junto con la primera entrega del peri\u00f3dico EL TIEMPO. La Suscripci\u00f3n Digital estar\u00e1 activa durante el mismo tiempo que dure activa la suscripci\u00f3n impresa. El registro en el Portal es necesario para activar la Suscripci\u00f3n Digital.\n\n2.3.2 Versi\u00f3n Impresa - Suscriptores El Tiempo Impreso\nLa versi\u00f3n impresa, que se puede consultar a trav\u00e9s de diferentes dispositivos, a excepci\u00f3n de la aplicaci\u00f3n, es la r\u00e9plica del peri\u00f3dico impreso en un formato digital especial (PDF). Esta opci\u00f3n se encontrar\u00e1 en la zona de usuario y estar\u00e1 \u00fanicamente disponible para aquellos usuarios que sean suscriptores y que se hayan registrado y activado previamente.\n2.4 Usuario y contrase\u00f1a\nCada una de las cuentas registradas en el Portal, tendr\u00e1 tanto un \u201cnickname\u201d - Usuario- como su clave de ingreso. Cada cuenta podr\u00e1 ser usada \u00fanicamente por el Usuario registrado. Usted es el \u00fanico responsable por la confidencialidad y el uso que se le haga a su usuario y/o a su contrase\u00f1a.\n\nUsted se compromete a informar inmediatamente a CEET sobre cualquier actividad anormal, uso no autorizado de su usuario y/o contrase\u00f1a, correo electr\u00f3nico, o cualquier contenido de los productos de CEET. De igual forma para su registro, usted se compromete a proveer a CEET de informaci\u00f3n precisa y completa y a informar a CEET sobre cualquier cambio o variaci\u00f3n.\n\nCada registro y cada Suscripci\u00f3n deben ser \u00fanicamente usados por usted, por lo cual le solicitamos no compartir ni los detalles de ingreso ni su clave a otra persona. De igual forma usted se obliga a abstenerse de compartir o transferir su Suscripci\u00f3n a otra persona. CEET no permite que m\u00faltiples usuarios interconectados o similares accedan al producto digital a trav\u00e9s de solo una cuenta y contrase\u00f1a, por lo cual CEET se reserva el derecho de cancelar o suspender su acceso al Portal o a la aplicaci\u00f3n en caso sea comprobado o se sospeche que se est\u00e1 ejecutando un acceso de tal forma.\n2.5 Paquetes de Suscripci\u00f3n Digital\nCEET pondr\u00e1 a disposici\u00f3n de los Usuarios, diferentes paquetes de Suscripci\u00f3n Digital que variar\u00e1n en producto, forma de pago, precio y/o beneficios. Por lo que el Usuario reconoce y acepta que ha seleccionado el paquete de su preferencia previa revisi\u00f3n de los productos y condiciones que lo componen. El valor de la Suscripci\u00f3n Digital podr\u00e1 variar seg\u00fan la plataforma a trav\u00e9s de la cual se adquiera el servicio, como ser\u00eda de forma directa en el Portal o a trav\u00e9s del call center que CEET disponga.\n\nTranscurrido un a\u00f1o calendario de haber adquirido el Usuario la Suscripci\u00f3n Digital, el Usuario entiende y acepta que CEET podr\u00e1 incrementar su valor en un porcentaje de hasta el 10% anual, suma que ser\u00e1 cobrada a trav\u00e9s del medio de pago que tenga activo el usuario, sin necesidad de previo aviso. En caso de que CEET decida modificar el valor de la Suscripci\u00f3n Digital en un porcentaje superior al incremento indicado anteriormente, le dar\u00e1 previo aviso al Usuario inform\u00e1ndole el nuevo valor con por lo menos 15 d\u00edas de antelaci\u00f3n a la fecha de aplicaci\u00f3n del ajuste, se\u00f1alando el mecanismo habilitado para manifestar su voluntad en relaci\u00f3n con la continuidad o terminaci\u00f3n del servicio, si fuere el caso.\n\nCEET se reserva el derecho de modificar en cualquier tiempo las tarifas oficiales de cada modalidad de Suscripci\u00f3n Digital de acuerdo con las condiciones del mercado o del producto.\n\nEl Usuario reconoce que dentro de los paquetes Digitales podr\u00e1 encontrar Suscripciones Promocionales que pueden incluir descuentos y/u obsequios y/o condiciones especiales, las cuales aplicar\u00e1n \u00fanicamente durante el tiempo se\u00f1alado en la promoci\u00f3n. Al adquirir una Suscripci\u00f3n Promocional, el Usuario acepta y reconoce que el precio y/o condiciones especiales fueron establecidas en atenci\u00f3n a los compromisos y/o condiciones especiales aceptadas por el Usuario, lo cual podr\u00e1 incluir, sin limitaci\u00f3n, el periodo de duraci\u00f3n de la Suscripci\u00f3n, la forma de pago, la periodicidad y/o el medio de pago seleccionado. En tal sentido, el Usuario entiende y acepta que, en el evento de manifestar su intenci\u00f3n de cancelar la Suscripci\u00f3n antes del vencimiento del periodo de vigencia establecido para la Promoci\u00f3n o de cualquier otra forma modificar las condiciones de la Suscripci\u00f3n que impliquen variaci\u00f3n frente a las condiciones en las que fue ofrecida la Promoci\u00f3n, CEET podr\u00e1 exigir el pago del valor diferencial entre el valor de la Suscripci\u00f3n Promocional y el que habr\u00eda tenido que pagar el usuario por una Suscripci\u00f3n bajo la modalidad no promocional.\n\nEl Usuario acepta que, vencido el periodo de vigencia de la Suscripci\u00f3n Promocional, la misma pasar\u00e1 a ser una Suscripci\u00f3n No Promocional, con las tarifas y condiciones vigentes a ese momento para dicha modalidad, salvo que el Usuario manifieste a CEET su decisi\u00f3n de dar por terminada la Suscripci\u00f3n o de continuar con el servicio bajo una modalidad diferente, en cuyo caso aplicar\u00e1n los precios y tarifas vigentes en ese momento.\n\nUna vez el Usuario seleccione el paquete de Suscripci\u00f3n Digital de su preferencia en el Portal y finalice exitosamente el pago, se le permitir\u00e1 el acceso ilimitado a los contenidos period\u00edsticos digitales de propiedad de CEET.\n\nLa adquisici\u00f3n de los paquetes de Suscripci\u00f3n Digital no conlleva necesariamente la obtenci\u00f3n de la Suscripci\u00f3n Impresa y tampoco la Tarjeta Club Vivamos El Tiempo ni de los beneficios que esta tarjeta brinda.\n\n2.5.1 Modalidad y Terminaci\u00f3n de la Suscripci\u00f3n Digital\nLa Suscripci\u00f3n Digital podr\u00e1 adquirirse con un plan de pago peri\u00f3dico (anual, mensual u otro que defina CEET) seg\u00fan las modalidades que sean ofrecidas y est\u00e9n disponibles al momento de la venta, por lo que la vigencia de la Suscripci\u00f3n Digital es indefinida.\n\na. Pago Mensual. Al adquirir una Suscripci\u00f3n Digital con pago mensual autom\u00e1tico, el Usuario autoriza a CEET a cobrarle un valor mensual de suscripci\u00f3n a la tarifa vigente en ese momento y cualquier otro cargo en el que incurra en relaci\u00f3n con el uso que haga del servicio de suscripci\u00f3n, a trav\u00e9s de los medios de pago autorizados. El valor a cobrar permanecer\u00e1 igual durante todo el a\u00f1o calendario contado a partir de la fecha de inicio de su Suscripci\u00f3n Digital. El primer pago mensual de la Suscripci\u00f3n Digital se facturar\u00e1 al comienzo de la misma y cada mes a partir de entonces, salvo que y hasta que el usuario notifique su intenci\u00f3n de terminar la Suscripci\u00f3n Digital.\n\nb. Pago Anual, Dieciocho meses y/o Veinticuatro meses. Al adquirir una Suscripci\u00f3n Digital con pago anual, dieciocho meses y/o veinticuatro meses el usuario autoriza a CEET a cobrarle un valor (i)anual, (ii) dieciocho meses, y/o (iii) veinticuatro meses de suscripci\u00f3n a la tarifa vigente en ese momento y cualquier otro cargo en el que incurra en relaci\u00f3n con el uso que haga del servicio de suscripci\u00f3n, a trav\u00e9s de los medios de pago autorizados. El valor a cobrar permanecer\u00e1 igual durante todo el periodo a\u00f1o calendario (ya sea un a\u00f1o, dieciocho meses y/o veinticuatro meses) contado a partir de la fecha de inicio de su Suscripci\u00f3n Digital. El primer pago anual de la Suscripci\u00f3n Digital se facturar\u00e1 al comienzo de la misma y cada a\u00f1o periodo (ya sea un a\u00f1o, dieciocho meses y/o veinticuatro meses) a partir de entonces, hasta que el Usuario notifique su intenci\u00f3n de terminar la Suscripci\u00f3n Digital. El cobro del valor anual se realizar\u00e1 para pago en un solo contado, cada a\u00f1o periodo en el d\u00eda calendario correspondiente al d\u00eda de pago de su suscripci\u00f3n inicial. Si la Suscripci\u00f3n comienza un d\u00eda que no est\u00e1 incluido en un determinado mes, o el d\u00eda de cobro es un d\u00eda festivo, CEET podr\u00e1 facturar el valor anual correspondiente el d\u00eda h\u00e1bil anterior y/o siguiente.\n\nUna vez finalice el periodo de cada uno de los tipos de Suscripciones, el Usuario puede notificar su intenci\u00f3n de terminar la Suscripci\u00f3n, para lo cual deber\u00e1 comunicarse con CEET a efectos de acordar la fecha efectiva de terminaci\u00f3n de la Suscripci\u00f3n y establecer si esta es procedente o no y/o si hubiere lugar a devoluci\u00f3n de dinero. La devoluci\u00f3n de dinero se har\u00e1 efectiva dentro de los sesenta (60) d\u00edas siguientes a la fecha en la que se da tr\u00e1mite a la cancelaci\u00f3n de la Suscripci\u00f3n Digital, a trav\u00e9s del medio utilizado para el pago. En caso de haber pagado la Suscripci\u00f3n en efectivo, la devoluci\u00f3n ser\u00e1 realizada mediante transferencia bancaria a la cuenta bancaria que para el efecto determine el Cliente. Lo anterior, sin perjuicio del ejercicio del derecho de retracto con el que cuenta el Usuario conforme la normativa colombiana; recuerde que usted cuenta con 5 d\u00edas h\u00e1biles para ejercer el derecho de retracto.\n\nPara terminar la suscripci\u00f3n (dar de baja) tenga en cuenta lo siguiente:\n\no Si el suscriptor se encuentra ubicado fuera de Colombia deber\u00e1 cancelarla a trav\u00e9s del correo: servicioalclienteweb@eltiempo.com o v\u00eda chat dentro del portal, horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m.\no Si el suscriptor se encuentra ubicado en Colombia, deber\u00e1 comunicarse a la l\u00ednea gratuita de atenci\u00f3n nacional 018000 110 990 y Bogot\u00e1 D.C. 426 6000; horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m.\n2.6 Renovaci\u00f3n paquetes de Suscripci\u00f3n Digital\nLa renovaci\u00f3n de las suscripciones a El Tiempo Digital operar\u00e1 de la siguiente manera: \n\n\u2022 Plan Digital Mensual: opera la renovaci\u00f3n autom\u00e1tica mensual para esta Suscripci\u00f3n. En caso de que el Cliente/Suscriptor no se encuentre interesado en renovar el Servicio, deber\u00e1 comunicarse con CEET a trav\u00e9s de las l\u00edneas de atenci\u00f3n donde exprese su deseo de suspender la renovaci\u00f3n autom\u00e1tica. El d\u00e9bito de los cobros se realizar\u00e1 mes a mes a trav\u00e9s del medio de pago seleccionado al momento de adquirir el servicio. \n\n\u2022 Plan Digital Anual: opera la renovaci\u00f3n autom\u00e1tica para esta Suscripci\u00f3n. El periodo de la Suscripci\u00f3n se renovar\u00e1 por el mismo periodo inicial, esto es, por un a\u00f1o y los cobros se realizar\u00e1 mes a mes a trav\u00e9s del medio de pago seleccionado al momento de adquirir el servicio. En caso de que el Cliente/Suscriptor no se encuentre interesado en renovar el Servicio, deber\u00e1 comunicarse con CEET a trav\u00e9s de las l\u00edneas de atenci\u00f3n donde exprese su deseo de suspender la renovaci\u00f3n autom\u00e1tica. El Cliente/Suscriptor entiende que al renovarse el a\u00f1o, el valor de la anualidad ser\u00e1 el precio full, conforme lo indicado al momento de la compra.\n\n\u2022 Planes seg\u00fan el tiempo de suscripci\u00f3n: el Cliente al haber adquirido la Suscripci\u00f3n por un tiempo espec\u00edfico (mensualidad, anualidad, etc.) deber\u00e1 comunicarse a trav\u00e9s de los diferentes canales de atenci\u00f3n de CEET manifestando su inter\u00e9s en renovar la Suscripci\u00f3n. Asimismo, autoriza a CEET a que le remita comunicaciones alertando y/u ofreciendo la renovaci\u00f3n de la Suscripci\u00f3n. Quedar\u00e1 a voluntad del suscriptor decidir si renueva la suscripci\u00f3n por el mismo periodo inicialmente adquirido o si cambia la periodicidad.\n\n\u2022 Planes promocionales: para los planes promocionales temporales (especiales por la temporada) opera la renovaci\u00f3n autom\u00e1tica para esta Suscripci\u00f3n. En caso de que el Cliente/Suscriptor no se encuentre interesado en renovar el Servicio, deber\u00e1 comunicarse con CEET a trav\u00e9s de las l\u00edneas de atenci\u00f3n donde exprese su deseo de suspender la renovaci\u00f3n autom\u00e1tica. \n2.7 Terceros Ajenos a CEET\nSi usted adquiere el producto Digital a trav\u00e9s de un tercero no autorizado por CEET, \u00e9sta no ser\u00e1 responsable frente a ning\u00fan reclamo relativo a la compra o Suscripci\u00f3n al Portal a trav\u00e9s de un tercero no autorizado por \u00e9ste.\n2.8 Preguntas y Dudas\nUsted puede recibir ayuda personalizada a trav\u00e9s de los siguientes medios:\n\u2022 Dir\u00edjase a nuestra secci\u00f3n de preguntas frecuentes.\n\u2022 Comun\u00edquese con nuestro asesor del chat en l\u00ednea, horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m.\n\u2022 Ll\u00e1menos al 4266000 en Bogot\u00e1, o al 01 8000 110 990 gratuita nacional, horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m.\n3. CONDICIONES DE USO Y PARTICIPACION DENTRO DEL PORTAL\n3.1 Condiciones de uso\n3.1.1. Por el hecho de ingresar al Portal y para garantizar el buen y adecuado uso del mismo, el Usuario reconoce en cabeza de CEET, los siguientes derechos:\n\u2022 Modificar en cualquier tiempo y por cualquier raz\u00f3n, sin previo aviso, los T\u00e9rminos y Condiciones del Portal.\n\u2022 Negar el registro o Suscripci\u00f3n a cualquier persona, en cualquier momento y por cualquier raz\u00f3n.\n\u2022 Incluir o no en el Portal, el material recibido de los Usuarios a su criterio. En el caso de incluirlo, podr\u00e1 mantener en el Portal dicho material por el lapso de tiempo que lo considere.\n\u2022 Remover contenidos, que a juicio de CEET sean ilegales, ofensivos, difamatorios o que de cualquier otra forma violen estos T\u00e9rminos y Condiciones. Asimismo, podr\u00e1n ser retirados los contenidos que violen derechos intelectuales, ya sean de CEET o de un tercero, a solicitud de \u00e9ste.\n\u2022 Utilizar la informaci\u00f3n personal y/o contenidos suministrados por los Usuarios de acuerdo con los T\u00e9rminos y Condiciones del Portal.\n\n3.1.2. El Portal, contiene links (enlaces) que remiten a otras p\u00e1ginas de internet. Teniendo en cuenta que CEET no es responsable por el funcionamiento, contenido ni por la disponibilidad de dichos sitios, el Usuario deber\u00e1 dirigirse directamente al administrador de dichos sitios en caso de tener preguntas, peticiones, quejas o reclamos y usar dichos sitios de acuerdo con los t\u00e9rminos de uso respectivos.\n\n3.1.3. El registro al Portal podr\u00e1 darse por terminado por el Usuario en cualquier momento enviando un e-mail a: servicioalclienteweb@eltiempo.com\n\n3.1.4. El Usuario deber\u00e1 cumplir los T\u00e9rminos y Condiciones del Portal, as\u00ed como toda condici\u00f3n adicional que se establezca en el Portal.\n\n3.1.5. CEET no garantiza la disponibilidad y continuidad del funcionamiento del Portal. Cuando ello sea razonablemente posible, CEET advertir\u00e1 previamente las interrupciones en el funcionamiento del Portal. CEET tampoco garantiza la utilidad del Portal para la realizaci\u00f3n de ninguna actividad en particular, ni su infalibilidad y, en particular, aunque no de modo exclusivo, que los Usuarios puedan efectivamente utilizar el Portal, acceder a las distintas p\u00e1ginas web o secciones que forman el Portal.\n\n3.1.6. CEET excluye cualquier responsabilidad por los da\u00f1os y perjuicios de toda naturaleza que puedan deberse a la falta de disponibilidad o de continuidad del funcionamiento del Portal, a la defraudaci\u00f3n de la utilidad que los Usuarios hubieren podido atribuir al Portal y a los servicios, a la falibilidad del Portal, y en particular, aunque no de modo exclusivo, a las fallas en el acceso a las distintas p\u00e1ginas web o secciones del Portal.\n\n3.1.7. CEET no controla ni garantiza, y por lo tanto no se hace responsable por la presencia de virus ni de otros elementos en los contenidos del Portal que puedan producir alteraciones en el sistema inform\u00e1tico (software y hardware) del Usuario o en los documentos electr\u00f3nicos y ficheros almacenados en el sistema inform\u00e1tico del Usuario. Se entiende por c\u00f3digo malicioso el nombre que se le da a cualquier programa que ingresa a un computador sin el conocimiento y la autorizaci\u00f3n expl\u00edcita del responsable del mismo, dentro de los cuales se encuentran, los denominados VIRUS; TROYANOS; GUSANOS; PHISHING; PHARMING; ROOTKITS; BACKDOOR (PUERTAS TRASERAS), KEYLOGGERS (CAPTURADORES DE TECLADO), SCREEN LOGGERS, BOOTNETS, SNIFFERS (HUSMEADORES DE TR\u00c1FICO DE LA RED), entre otros.\n\nTeniendo en consideraci\u00f3n la anterior definici\u00f3n, los Usuarios se obligan incondicional e irrevocablemente a garantizar que la informaci\u00f3n y documentaci\u00f3n (incluidas im\u00e1genes, fotograf\u00edas, animaci\u00f3n, v\u00eddeo, audio, m\u00fasica, texto y otros elementos que forman parte del portal) que entregue a CEET, se encuentran libres de C\u00f3digo Malicioso. Asimismo, se comprometen a tomar las medidas necesarias para efectuar el control del C\u00f3digo Malicioso.\n\n3.1.8. Es inter\u00e9s de CEET ser una fuente de informaci\u00f3n con contenido de actualidad y de inter\u00e9s para los Usuarios. No obstante, CEET no puede garantizar que dicho contenido est\u00e9 exento de errores o imprecisiones, en cuyo caso podr\u00e1n solicitarse las aclaraciones o correcciones que sean del caso. CEET tampoco puede garantizar que el contenido del Portal sea suficiente y/o \u00fatil para el Usuario.\n\n3.1.9. CEET no garantiza y por lo tanto no es responsable de la licitud, fiabilidad, exactitud, exhaustividad, actualidad y utilidad de las columnas de opini\u00f3n y/o las opiniones o contenidos de los Usuarios incluidos en el Portal.\n\n3.1.10. Estos T\u00e9rminos y Condiciones han sido dispuestos de conformidad con las leyes colombianas. Cualquier acci\u00f3n o reclamaci\u00f3n deber\u00e1 hacerse ante los Tribunales de Colombia.\n3.2 Reglas para la participaci\u00f3n del usuario\nPor el hecho de ingresar al Portal y para garantizar el buen y adecuado uso del mismo, el Usuario deber\u00e1 cumplir con lo siguiente:\n\n\u2022 Observar el C\u00f3digo de \u00c9tica, los T\u00e9rminos y Condiciones y cualquier otra condici\u00f3n establecida en este Portal.\n\u2022 Ser responsable por cualquier actividad que se lleve a cabo bajo su registro.\n\u2022 Ser responsable de la seguridad de su contrase\u00f1a.\n\u2022 No abusar, acosar, amenazar o intimidar a otros Usuarios del Portal, a trav\u00e9s de los chats, foros, blogs o cualquier otro espacio de participaci\u00f3n.\n\u2022 No usar el Portal como medio para desarrollar actividades ilegales o no autorizadas tanto en Colombia, como en cualquier otro pa\u00eds.\n\u2022 Ser el \u00fanico responsable por su conducta y por el contenido de textos, gr\u00e1ficos, fotos, videos o cualquier otro tipo de informaci\u00f3n de la cual haga uso o incluya en el Portal.\n\u2022 Utilizar el Portal \u00fanica y exclusivamente para uso personal. Cualquier uso para beneficio corporativo o colectivo est\u00e1 prohibido.\n\u2022 Abstenerse de enviar correo electr\u00f3nico no deseado (SPAM) a otros Usuarios de esta p\u00e1gina, as\u00ed como tambi\u00e9n le est\u00e1 prohibido transmitir virus o cualquier c\u00f3digo de naturaleza destructiva.\n\u2022 Canalizar sus quejas, reclamos y denuncias a trav\u00e9s de la secci\u00f3n de Contacto en el Portal.\n\u2022 Mientras en el Portal est\u00e9n prohibidas estas conductas, CEET no ser\u00e1 responsable por su cumplimiento y el Usuario lo mantendr\u00e1 indemne por todo concepto.\n3.3 Promociones, concursos y eventos\nLas promociones, concursos, sorteos y eventos que se implementen en el Portal estar\u00e1n sujetos a las reglas y condiciones que en cada oportunidad se establezca por parte de CEET, siendo necesario como requisito m\u00ednimo para acceder a tales oportunidades o beneficios comerciales, que el Usuario se encuentre debidamente registrado como Usuario del Portal. CEET no se responsabiliza por cualquier tipo de da\u00f1o -incluyendo moral, f\u00edsico, material, ni de cualquier otra \u00edndole- que pudiera invocarse como relacionado con la recepci\u00f3n por parte del Usuario registrado de cualquier tipo de obsequios y/o regalos remitidos por CEET. Asimismo, CEET no ser\u00e1 responsable por las consecuencias que pudieren causar el ingreso al Portal y/o la presencia en cualquier evento y/o reuni\u00f3n organizada por \u00e9ste. El Usuario reconoce que CEET no asume responsabilidad alguna que corresponda a un anunciante y/o el proveedor de los servicios que se ofrezcan en el Portal, siendo entendido que CEET no se responsabiliza por la calidad ni la entrega de los productos o prestaci\u00f3n de servicios que se publican en este sitio. Por tal motivo no ser\u00e1 responsable por cualquier problema, queja o reclamo de los Usuarios por cuestiones atinentes a dichos productos y/o servicios.\n\nCada promoci\u00f3n, concurso o evento que se promueva o realice a trav\u00e9s del Portal, estar\u00e1 sujeto a las reglas de Privacidad que para el mismo se indiquen, por lo que la participaci\u00f3n en los mismos deber\u00e1 atenerse a lo que en cada caso se se\u00f1ale, lo cual ser\u00e1 complementario a las pol\u00edticas de privacidad se\u00f1aladas anteriormente, siempre y que no sea excluyente.\n3.4 Foros, blogs, chats, comentarios, y otros espacios de participaci\u00f3n\nEl Usuario reconoce que su participaci\u00f3n en cualquier foro, chat, comentario, blog y/o cualquier otro espacio de participaci\u00f3n del Portal, ser\u00e1 bajo su exclusiva responsabilidad, por lo cual deber\u00e1 ser mayor de edad, y que de igual forma, las opiniones y/o acciones y/o comportamiento de otros Usuarios en tales espacios son responsabilidad exclusiva de quienes las emiten o realizan, por lo cual CEET no se hace responsable ni garantiza la calidad o idoneidad de tales conductas u opiniones, ni por las consecuencias que ellas pudieren acarrear a favor y/ o en contra de otros Usuarios o de terceros. Particularmente los Usuarios deber\u00e1n tener en cuenta las recomendaciones que se incluyan en el Portal encaminadas a propiciar una adecuada convivencia y participaci\u00f3n en tales espacios de participaci\u00f3n.\n\nEl dise\u00f1o, manejo, finalidad y caracter\u00edsticas de los diferentes espacios de participaci\u00f3n del Portal es discrecional de CEET, quien podr\u00e1 en cualquier momento modificarlos y/o eliminarlos, y/o determinar la cantidad de participantes admitidos en cada uno de ellos.\n\nPara un correcto manejo de los Foros, Blogs, Chats, Comentarios y otros espacios de participaci\u00f3n es necesario hacer un correcto seguimiento del C\u00f3digo de \u00c9tica manejado en Casa Editorial El Tiempo y que encontrar\u00e1n m\u00e1s abajo.\n3.5 Gu\u00eda de principios y recomendaciones para una sana participaci\u00f3n\nLa presente gu\u00eda debe ser le\u00edda en forma detenida y peri\u00f3dica por parte de los Usuarios interesados en participar en las actividades y servicios del Portal.\n\nLa participaci\u00f3n en los foros, chats, comentarios y otros espacios similares de participaci\u00f3n dentro del Portal (en adelante \"los Espacios\") implican la aceptaci\u00f3n y conocimiento por parte del Usuario de los T\u00e9rminos y Condiciones del Portal, as\u00ed como el compromiso irrevocable de cada Usuario de respetar dichos T\u00e9rminos y Condiciones, siendo entendido y aceptado que eximen a CEET y mantendr\u00e1n indemne a CEET de cualquier responsabilidad que se derive del incumplimiento a tal compromiso, lo cual incluye da\u00f1os y perjuicios causados a otros Usuarios y/o cualquier tercero afectado. Si un Usuario no est\u00e1 conforme o de acuerdo con los presentes T\u00e9rminos y Condiciones del Portal, CEET le sugiere no participar en \u00e9l y/o en los Espacios.\n\nEl Usuario entiende que a trav\u00e9s del Portal se invita y promueve una activa y libre participaci\u00f3n, comunicaci\u00f3n y expresi\u00f3n por parte de los Usuarios, hasta donde la Constituci\u00f3n y la Ley lo permiten. De igual forma el Usuario entiende y acepta que es de todo inter\u00e9s de CEET y de la comunidad en general, que el Portal sea un medio amigable, pac\u00edfico y sano de convivencia y participaci\u00f3n, por lo que, tanto CEET como la comunidad de Usuarios espera de cada Usuario el comportamiento y conducta que permita lograr tal prop\u00f3sito, a lo cual se compromete cada Usuario con el solo acceso al Portal. Cada Usuario acepta y faculta expresa e irrevocablemente a CEET para revisar los comentarios u opiniones vertidos en los Espacios y/o suprimir los que no se adecuen a las normas de convivencia plasmadas en los T\u00e9rminos y Condiciones del Portal, as\u00ed como a interrumpir la comunicaci\u00f3n en caso que lo considere conveniente por tales motivos. De igual forma CEET se reserva el derecho de ejercer tal facultad cuando as\u00ed lo estime conveniente, a su discreci\u00f3n, sin que por tal raz\u00f3n sea factible imputar responsabilidad alguna a CEET por el no ejercicio de la facultad y/o por la existencia, ingreso, participaci\u00f3n de Usuarios no deseables y/o de comentarios u opiniones que no atienden estas recomendaciones.\n\nTeniendo en cuenta que los comentarios y opiniones vertidas en los foros, comentarios y Blogs no provendr\u00e1n de CEET sino de terceros absolutamente ajenos, CEET no se responsabiliza por el tenor de los mismos, as\u00ed como tampoco presta conformidad ni discrepa con ellos, siendo entendido que emanan exclusivamente de su autor, y quedan bajo su completa responsabilidad.\nCEET entiende que cada uno de los comentarios, mensajes, opiniones, informaci\u00f3n o similares que se viertan en los Espacios son de autor\u00eda exclusiva de quienes los ingresen.\n\nAsimismo, queda absolutamente prohibido ingresar comentarios, mensajes, opiniones, informaci\u00f3n, o similares, de contenido difamatorio, abusivo, contrario a la moral y las buenas costumbres, discriminatorio, ofensivo, obsceno, intimidatorio, calumnioso, injurioso, inapropiado, ilegal, violatorio de derechos de terceros de cualquier \u00edndole, incluidos los derechos de los menores de edad, que cause da\u00f1os y/o perjuicios, o impida o limite el derecho propio o ajeno a usar los Espacios y dem\u00e1s cap\u00edtulos del sitio, constituya un delito o apolog\u00eda a un delito y/o incite a la violencia y/o a la comisi\u00f3n de delitos. Tampoco est\u00e1 permitido publicitar productos y/o servicios de cualquier tipo dentro de \"los espacios\", ni utilizar o enviar virus, o desviarse de los temas propuestos en los foros.\n\nAhora bien, en el supuesto de que este tipo de comentarios, mensajes, opiniones, informaci\u00f3n, o similares, ingrese en los Espacios, los Usuarios, aceptan en forma expresa e incondicionada que CEET, sus empleados, proveedores, o anunciantes, NO ser\u00e1n responsables en modo alguno por las consecuencias de cualquier tipo y alcance que los mismos pudieran generar, frente a cualquier tercero, ya sea en virtud de su inclusi\u00f3n dentro de \u00e9stos o por cualquier causa relacionada directa o indirectamente con el uso de los mismos.\n\nAsimismo, CEET, sus empleados, proveedores o anunciantes, NO ser\u00e1n responsables de modo alguno en el supuesto que los comentarios, informaci\u00f3n, mensajes, opiniones, o similares, se vean afectados, eliminados, alterados, o modificados de alguna manera.\n\nLos Usuarios se abstendr\u00e1n de iniciar cualquier acci\u00f3n o reclamaci\u00f3n contra CEET relacionada con, o derivada de, la informaci\u00f3n, contenido, opini\u00f3n o comentario proveniente de otro Usuario y/o de un tercero ajeno a CEET, siendo aceptado por los Usuarios que tales acciones o reclamaciones solo podr\u00e1n ser iniciadas contra su directo responsable, para lo cual deber\u00e1n promover las acciones legales pertinentes, bajo los procedimientos legalmente establecidos para el efecto. CEET podr\u00e1 abstenerse de suministrar la informaci\u00f3n disponible sobre el presunto infractor cuando a su juicio tal informaci\u00f3n est\u00e9 protegida por la confidencialidad ofrecida a los Usuarios, en cuyo caso, el suministro estar\u00e1 condicionado a la solicitud de una autoridad competente.\n\nCEET, a su s\u00f3lo juicio, se reserva el derecho de excluir de los Espacios, a aquellos Usuarios que no se atengan a las presentes reglas o que no respeten los principios b\u00e1sicos de sana convivencia. As\u00ed como tambi\u00e9n de interrumpir y/o eliminar y/o excluir, total o parcialmente, en todos los casos, todo aquel mensaje, opini\u00f3n, informaci\u00f3n o similares que no se adecuen o resulten violatorios de las reglas y/o principios antes indicados.\n\nCEET asume que cada Usuario se obliga a cumplir y respetar las presentes reglas y que asume todo tipo de consecuencias que su indebido uso pudiere ocasionar. Ello tanto frente a CEET como frente a cualquier tercero.\n\nLos Usuarios deber\u00e1n denunciar cualquier violaci\u00f3n a los T\u00e9rminos y Condiciones del Portal por parte de otros Usuarios, de la que tenga conocimiento, para lo cual remitir\u00e1n un e - mail a participacion@eltiempo.com a fin de que CEET tome las medidas que est\u00e9n a su alcance respecto del Portal.\n\nCuando haga comentarios en el blog de otra persona, y siempre que sea posible, identif\u00edquense con un nombre real y un e-mail. Esto fomenta un discurso positivo y retroalimentaciones sanas.\n3.6 C\u00f3digo de \u00e9tica\n3.6.1 Generalidades\nAl hacer parte de los Blogueros del Portal o en cualquiera de los productos CASA EDITORIAL EL TIEMPO, los Usuarios deben respetar y ayudar a cumplir las normas de uso de la comunidad. Adem\u00e1s:\n\u2022 La cr\u00edtica es muy importante, pero se debe procurar que sea constructiva.\n\u2022 Es necesario ayudar a construir la comunidad filtrando los malos comentarios, visitando el trabajo de los dem\u00e1s y respondiendo a los mensajes que otros Usuarios dejan en su blog de manera coherente y respetuosa. El objetivo es construir un di\u00e1logo abierto sobre los temas que proponen en cada una de sus entradas.\n\u2022 Si ve algo en contra de las normas de uso aqu\u00ed contempladas o un mal manejo de los comentarios, blogs, reportajes, notas, etc. rep\u00f3rtelo a participacion@eltiempo.com.co y servicioalclienteweb@eltiempo.com\n\u2022 Recuerde mantener la frecuencia de sus publicaciones. Al menos una vez por semana.\n\u2022 Este es un espacio que ofrece CEET libremente, por lo que esperamos contar con el compromiso de cada uno de los participantes.\n\n3.6.2 Promueva el contacto con tus lectores\nEs importante darle la oportunidad a los dem\u00e1s lectores de interactuar con usted a trav\u00e9s de correos electr\u00f3nicos, comentarios, cajas de chat o alguna otra forma para as\u00ed fomentar un dialogo correcto y una continua interacci\u00f3n. Esto es bien visto por la comunidad. Esta posibilidad permite posicionar su espacio, generar discusi\u00f3n y atraer m\u00e1s seguidores.\n\n3.6.3 Cite sus fuentes y respete los derechos de autor\nCuando utilice informaci\u00f3n de terceros es necesario que le den los cr\u00e9ditos al autor. En el caso de la informaci\u00f3n proveniente de otros blogs o art\u00edculos en la web, es recomendable compartir los enlaces con los dem\u00e1s lectores. No utilice fotos que no son suyas sin el permiso del propietario. Es muy importante seguir las leyes de autor, sean de copyleft o copyright.\n\nPara mayor informaci\u00f3n sobre derechos de autor consulte: http://www.derechodeautor.gov.co/\n\n3.6.4 Respete las gu\u00edas de uso de los enlaces directos\nLos enlaces directos pueden ser incluidos por un bloguero o reportero gr\u00e1fico desde su usuario. Usualmente se pueden enlazar im\u00e1genes y sitios web sin permiso de su autor, pero cada persona debe tener sus reglas con respecto a los enlaces directos que incluye. Si no est\u00e1 seguro, recuerde que la mayor\u00eda de sitios o blogs no dejan hacer esto sin previo aviso.\n\n3.6.5 Verifique la veracidad de su informaci\u00f3n\nSiempre verifique sus fuentes. Si no est\u00e1 seguro de la validez de la informaci\u00f3n y aun as\u00ed quiere publicarla, comparta sus dudas con los lectores en vez de presentarlo como un hecho, siempre ser\u00e1 preferible ser transparente con la audiencia. Recuerde que ser\u00e1 el \u00fanico responsable de lo que escriba y la ley penaliza la injuria y la calumnia.\n\n3.6.6 Tenga cuidado con los temas relacionados con la salud\nEvite sugerir tratamientos y prescripciones m\u00e9dicas y en caso de hacerlo recuerde advertir a los lectores que siempre deben contar con la supervisi\u00f3n de un especialista.\n\n3.6.7 Nunca deje comentarios de spam\nSe considera spam a todos los comentarios que no aportan algo relevante a la discusi\u00f3n, as\u00ed que no solo aquellos que ofrecen productos lo son. Si hace comentarios como \"visita mi blog\" estar\u00e1 creando spam y perder\u00e1 credibilidad en sus contenidos.\n\n3.6.8 Corrija errores y aclare cuando sea necesario\nCuando cometa errores ac\u00e9ptelos y publique los cambios y/o actualizaciones a los que haya lugar. Si tiene alg\u00fan conflicto de intereses o est\u00e1 apoyando un proyecto personal, siempre es mejor decirlo de frente. Los lectores merecen saber la verdad y sentir que ser\u00e1n responsables con lo que publiquen.\n4. ESCUELA DE PERIODISMO MULTIMEDIA EL TIEMPO\n4.1 Acerca de la Escuela Multimedia de periodismo de EL TIEMPO\n4.1.1 Objetivo general u naturaleza de la Escuela:\nInstaurar un semillero de nuevos talentos y un espacio de formaci\u00f3n continuada que haga sostenible la excelencia y que provea para el pa\u00eds, periodistas de alta calidad. La Escuela es una iniciativa de CASA EDITORIAL EL TIEMPO que est\u00e1 dirigida a los mejores estudiantes de universidades en el pa\u00eds, que quieran hacer la pr\u00e1ctica profesional en la Escuela y est\u00e9n interesados en hacer una carrera period\u00edstica.\n\nEsta iniciativa no es un programa de educaci\u00f3n formal, superior o de formaci\u00f3n para el trabajo y el desarrollo humano. La Escuela est\u00e1 dirigida \u00fanicamente a estudiantes que, previa postulaci\u00f3n de su Universidad y un proceso interno de selecci\u00f3n que realiza CASA EDITORIAL EL TIEMPO, pueden optar para hacer su pr\u00e1ctica profesional o pasant\u00eda remunerada, de seis (6) meses, en la Empresa.\n\nAl finalizar el semestre de pr\u00e1ctica o pasant\u00eda, los participantes recibir\u00e1n un certificado de asistencia y participaci\u00f3n.\n\n4.1.2 Filosof\u00eda y principios:\nInculcar en los participantes de la Escuela, un modelo de aprendizaje period\u00edstico, din\u00e1mico, flexible y adaptativo para proveer a las redacciones de CASA EDITORIAL EL TIEMPO del mejor\n\ntalento posible con el fin de enfrentar los retos de la organizaci\u00f3n en t\u00e9rminos de contenido. Proveer formaci\u00f3n de calidad y excelencia period\u00edstica para que la Escuela se convierta en referente de formaci\u00f3n en el pa\u00eds y en la regi\u00f3n. Generar un modelo de innovaci\u00f3n period\u00edstica con el fin de aportar nuevas maneras de producir contenido que se adapten con \u00e9xito a las necesidades de la organizaci\u00f3n.\n\n4.1.3 Ubicaci\u00f3n:\nLa Escuela est\u00e1 ubicada en el edificio de la redacci\u00f3n de EL TIEMPO, Avenida Calle 26 # 68B \u2013 70 Bogot\u00e1 D.C.\n4.2 Requisitos, selecci\u00f3n y admisi\u00f3n de los estudiantes elegidos\n4.2.1 Acerca de los participantes\nLos alumnos que deben ser postulados deben cumplir con los siguientes criterios:\n\n* La Escuela est\u00e1 dirigida a estudiantes de \u00faltimos semestres de Instituciones de Educaci\u00f3n Superior, que tengan y cumplan los requisitos para hacer la pr\u00e1ctica profesional en la Escuela.\n* Los participantes ingresar\u00e1n a la Escuela dentro del convenio de pr\u00e1cticas profesionales que las universidades firmen con CASA EDITORIAL EL TIEMPO.\n\n4.2.2 Los requisitos para los aspirantes que sean estudiantes de comunicaci\u00f3n social y periodismo\n* Un promedio acumulado en la carrera de m\u00ednimo 3,9.\n* Que cumpla todos los requisitos exigidos por el centro educativo para ingresar al periodo de pr\u00e1cticas. Entre estos, que hayan terminado todas las materias, se encuentre en su semestre de pr\u00e1ctica, debido a que se pide dedicaci\u00f3n de tiempo completo.\n* Debe estar vinculado a medios de comunicaci\u00f3n internos o externos de la Universidad (blogs, p\u00e1ginas web, programas de radio, etc), por lo que tendr\u00e1 que presentar al menos tres (3) piezas publicadas en el \u00faltimo a\u00f1o.\n* Debe tener r\u00e9cord intachable, sin antecedentes disciplinarios.\n* El estudiante deber\u00e1 presentar un escrito de m\u00e1ximo 1.500 caracteres con espacios, en el que explique por qu\u00e9 quiere ingresar a la Escuela.\n\n4.2.3 Los requisitos para aspirantes que sean estudiantes de una carrera distinta a la de Comunicaci\u00f3n social y periodismo\n* Un promedio acumulado en la carrera de m\u00ednimo 3,9\n* Se valorar\u00e1 que los participantes hayan escogido como \u00e9nfasis asignaturas de periodismo para los casos en los que las universidades tengan dicha opci\u00f3n.\n* Que cumplan todos los requisitos exigidos por el centro educativo para ingresar al periodo de pr\u00e1cticas profesionales. Entre estos, que haya terminado todas las materias, se encuentre en su semestre de pr\u00e1ctica, debido a que se pide que dedicaci\u00f3n de tiempo completo.\n* Debe estar vinculado o haber participado en medios de comunicaci\u00f3n internos o externos de la Universidad (blogs, p\u00e1ginas web, programas de radio, etc), por lo que tendr\u00e1 que presentar al menos una pieza period\u00edstica publicada en el \u00faltimo a\u00f1o.\n* Debe tener r\u00e9cord intachable, sin antecedentes disciplinarios.\n* El estudiante deber\u00e1 presentar un escrito de m\u00e1ximo 1.500 caracteres con espacios, en el que explique por qu\u00e9 quiere ingresar a la Escuela.\n\nLos requisitos para ambos casos (periodistas y no periodistas) podr\u00e1n cambiar con el fin de adaptarse a los nuevos requerimientos que tenga la Escuela.\n\n4.2.4 Acerca de la selecci\u00f3n y admisi\u00f3n de los participantes de la Escuela\n\u2022 La postulaci\u00f3n de los aspirantes la har\u00e1 cada universidad que ha sido invitada a participar, siempre y cuando el participante cumpla con los requisitos anteriormente comentados.\n\u2022 En la selecci\u00f3n se evaluar\u00e1n los siguientes criterios:\n\no Habilidades y criterio period\u00edstico.\no Manejo de herramientas y lenguajes Digitales.\no Manejo de uno o m\u00e1s idiomas.\no Habilidades para la improvisaci\u00f3n.\no Ortograf\u00eda, gram\u00e1tica y redacci\u00f3n.\no Actitud y disposici\u00f3n para participar en la Escuela.\n\n\u2022 La metodolog\u00eda del proceso de selecci\u00f3n de los participantes se puede modificar dependiendo de las necesidades y requerimientos de la Escuela.\n\u2022 Los aspirantes ser\u00e1n considerados admitidos despu\u00e9s de que hayan cumplido a cabalidad todos los procesos que exige la Escuela y hayan firmado voluntariamente los contratos de vinculaci\u00f3n en pr\u00e1cticas profesionales.\n\u2022 Al finalizar la contrataci\u00f3n del estudiante, la Escuela tiene el deber de proporcionar la informaci\u00f3n a las universidades sobre el rendimiento de su o sus estudiantes durante el semestre acad\u00e9mico para sus asuntos internos.\n\nPara ser aspirante y hacer parte de la Escuela, no es necesario pagar suma alguna a terceros, las Universidades o a CASA EDITORIAL EL TIEMPO. El procedimiento para ingresar es el indicado anteriormente y no requiere el pago de ning\u00fan valor.\n\nLos interesados pueden comunicarse con la Escuela escribiendo al siguiente correo electr\u00f3nico: escuelaperiodismo@eltiempo.com o ingresando a http://www.eltiempo.com/escuela-de-periodismo/contacto/\n4.3 Informaci\u00f3n contenida en el Portal\n4.3.1 Propiedad del contenido del Portal\nEste Portal y su contenido son de propiedad de CASA EDITORIAL EL TIEMPO S.A. Est\u00e1 prohibida su reproducci\u00f3n total o parcial, su traducci\u00f3n, inclusi\u00f3n, transmisi\u00f3n, almacenamiento o acceso a trav\u00e9s de medios anal\u00f3gicos, digitales o de cualquier otro sistema o tecnolog\u00eda creada o por crearse, sin autorizaci\u00f3n previa y escrita de CASA EDITORIAL EL TIEMPO.\n\nNo obstante, es posible descargar material del Portal para uso personal y no comercial, siempre y cuando se haga expresa menci\u00f3n de la propiedad en cabeza de CASA EDITORIAL EL TIEMPO..\n\n4.3.2 Pol\u00edtica y aviso de privacidad\nEn el enlace http://www.eltiempo.com/politica-privacidad se encuentran la pol\u00edtica de privacidad de CASA EDITORIAL EL TIEMPO, contentiva del aviso de privacidad y del manual interno de tratamiento de datos personales.\n4.4 Informaci\u00f3n de contacto\nLos interesados pueden comunicarse con la Escuela escribiendo al siguiente correo electr\u00f3nico: escuelaperiodismo@eltiempo.com o ingresando a http://www.eltiempo.com/escuela-de-periodismo/contacto/\n5. T\u00c9RMINOS Y CONDICIONES SUSCRIPCI\u00d3N IMPRESA. CONSULTAR\n6. T\u00c9RMINOS Y CONDICIONES OFERTAS SUSCRIPCI\u00d3N DIGITAL\n6.1 Oferta Plan Digital Mensual del Portal www.eltiempo.com\nEl portal www.eltiempo.com (en adelante, el \"Portal\") es de propiedad de CASA EDITORIAL EL TIEMPO S.A. (en adelante, \"CEET\"). El acceso, participaci\u00f3n y uso del Portal est\u00e1 regido por los t\u00e9rminos y condiciones que se incluyen a continuaci\u00f3n m\u00e1s los que se encuentran en https://www.eltiempo.com/terminos-condiciones, los cuales se entienden conocidos y aceptados por el visitante y/o lector del Portal (en adelante, el \"Usuario\") al acceder y usar el mismo.\n\nCEET, puede modificar estos T\u00e9rminos y Condiciones en cualquier momento. Usted deber\u00e1 leer el contenido peri\u00f3dicamente para revisar las normativas aqu\u00ed establecidas y los cambios efectuados, debido a que las mismas le son vinculantes.\n\nEsta Oferta consiste en que el primer mes de suscripci\u00f3n usted pagar\u00e1 un valor de NOVECIENTOS PESOS M/CTE ($900). A partir del 2 mes, se pagar\u00e1 la tarifa plena mensual que es de DIESEIS MIL NOVECIENTOS PESOS M/CTE ($16.900).\n\nMedio de pago:\n\u2022 Tarjeta cr\u00e9dito\n\nVigencia de la campa\u00f1a:\nA partir del 21 de octubre de 2020 y hasta el 31 de diciembre de 2021\nSe podr\u00e1 terminar a potestad de CEET, cuando as\u00ed lo estime pertinente.\n\nCondiciones y restricciones:\n\u2022 Esta oferta aplica solo para suscripciones digitales nuevas.\n\u2022 No se permite m\u00e1s de una compra por suscriptor.\n\u2022 Solo se permite adquirir la presente oferta una sola vez. En ese orden de ideas, si usted decide cancelar su suscripci\u00f3n, y con posterioridad desea volver a adquirirla no podr\u00e1 volver a ser beneficiario de la oferta y deber\u00e1 cancelar tarifa plena.\n\u2022 Solo aplica para suscripciones que se realicen a trav\u00e9s de www.eltiempo.com/suscripcion-digital y call center.\n\u2022 Se entiende y acepta que, al suscribirse mediante Plan Digital Mensual, que el plan se renovar\u00e1 autom\u00e1ticamente y descontar\u00e1 de la tarjeta que ha autorizado, con anterioridad al vencimiento de la suscripci\u00f3n.\n\u2022 Para cancelar la suscripci\u00f3n (dar de baja) tenga en cuenta lo siguiente:\n\no Si el suscriptor se encuentra ubicado fuera de Colombia deber\u00e1 cancelarla v\u00eda chat dentro del portal o a trav\u00e9s del correo: servicioalclienteweb@eltiempo.com\no Si el suscriptor se encuentra ubicado en Colombia, deber\u00e1 comunicarse a la l\u00ednea gratuita de atenci\u00f3n nacional 018000 110 990 o y en Bogot\u00e1 D.C. 426 6000 horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m.\n6.2 Oferta Plan Digital Anual del Portal www.eltiempo.com\nEl portal www.eltiempo.com (en adelante, el \"Portal\") es de propiedad de CASA EDITORIAL EL TIEMPO S.A. (en adelante, \"CEET\"). El acceso, participaci\u00f3n y uso del Portal est\u00e1 regido por los t\u00e9rminos y condiciones que se incluyen a continuaci\u00f3n m\u00e1s los que se encuentran enhttps://www.eltiempo.com/terminos-condiciones, los cuales se entienden conocidos y aceptados por el visitante y/o lector del Portal (en adelante, el \"Usuario\") al acceder y usar el mismo.\n\nCEET, puede modificar estos T\u00e9rminos y Condiciones en cualquier momento, lo cual le ser\u00e1 informado. Usted deber\u00e1 leer lo contenido en este instrumento legal peri\u00f3dicamente para revisar las normativas aqu\u00ed establecidas y los cambios efectuados, debido a que las mismas le son vinculantes.\n\nEsta Oferta consiste en un descuento del 35% en la tarifa de la suscripci\u00f3n anual, por tal motivo el usuario pagar\u00e1 la suma de CIENTO DIECINUEVE MIL NOVECIENTOS M/CTE ($ 119.900) por un a\u00f1o de suscripci\u00f3n digital anual.\n\nMedio de pago:\n\u2022 Tarjeta cr\u00e9dito\n\u2022 PSE\n\nVigencia de la campa\u00f1a:\nDesde el 21 de octubre de 2020 y hasta el 31 de diciembre de 2021\nSe podr\u00e1 terminar a potestad de CEET, cuando as\u00ed lo estime pertinente.\n\nCondiciones y restricciones\n\u2022 Esta oferta aplica solo para suscripciones digitales.\n\u2022 Solo se permite adquirir la presente oferta una sola vez. En ese orden de ideas, si usted decide cancelar su suscripci\u00f3n, y con posterioridad desea volver a adquirirla no podr\u00e1 volver a ser beneficiario de la oferta y deber\u00e1 cancelar tarifa plena.\n\u2022 Solo aplica para suscripciones que se realicen a trav\u00e9s de www.eltiempo.com/suscripcion-digital y call center.\n\u2022 Para cancelar la suscripci\u00f3n (dar de baja) tenga en cuenta lo siguiente:\n\no Si el suscriptor se encuentra ubicado fuera de Colombia deber\u00e1 cancelarla v\u00eda chat dentro del portal o a trav\u00e9s del correo: servicioalclienteweb@eltiempo.com\no Si el suscriptor se encuentra ubicado en Colombia, deber\u00e1 comunicarse a la l\u00ednea gratuita de atenci\u00f3n nacional 018000 110 990 y Bogot\u00e1 D.C. 426 6000; horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m.\n6.3 Oferta Plan Digital Promo 18 meses del Portal www.eltiempo.com\nEl portal www.eltiempo.com (en adelante, el \"Portal\") es de propiedad de CASA EDITORIAL EL TIEMPO S.A. (en adelante, \"CEET\"). El acceso, participaci\u00f3n y uso del Portal est\u00e1 regido por los t\u00e9rminos y condiciones que se incluyen a continuaci\u00f3n m\u00e1s los que se encuentran enhttps://www.eltiempo.com/terminos-condiciones, los cuales se entienden conocidos y aceptados por el visitante y/o lector del Portal (en adelante, el \"Usuario\") al acceder y usar el mismo.\n\nCEET, puede modificar estos T\u00e9rminos y Condiciones en cualquier momento, lo cual le ser\u00e1 informado. Usted deber\u00e1 leer lo contenido en este instrumento legal peri\u00f3dicamente para revisar las normativas aqu\u00ed establecidas y los cambios efectuados, debido a que las mismas le son vinculantes.\n\nEsta Oferta consiste en un descuento del 44,8% en la tarifa de la suscripci\u00f3n por 18 meses, por tal motivo el usuario pagar\u00e1 la suma de CIENTO SESENTA Y SIETE MIL NOVECIENTOS M/CTE ($ 167.900) por 18 meses de suscripci\u00f3n digital.\n\nMedio de pago:\n\u2022 Tarjeta cr\u00e9dito\n\u2022 PSE\n\nVigencia de la campa\u00f1a:\nDesde el 12 de enero de 2021 y hasta el 31 de diciembre de 2021\nSe podr\u00e1 terminar a potestad de CEET, cuando as\u00ed lo estime pertinente.\n\nCondiciones y restricciones\n\u2022 Esta oferta aplica solo para suscripciones digitales.\n\u2022 Solo se permite adquirir la presente oferta una sola vez. En ese orden de ideas, si usted decide cancelar su suscripci\u00f3n, y con posterioridad desea volver a adquirirla no podr\u00e1 volver a ser beneficiario de la oferta y deber\u00e1 cancelar tarifa plena.\n\u2022 Solo aplica para suscripciones que se realicen a trav\u00e9s de www.eltiempo.com/suscripcion-digital y call center.\n\u2022 Para cancelar la suscripci\u00f3n (dar de baja) tenga en cuenta lo siguiente:\n\no Si el suscriptor se encuentra ubicado fuera de Colombia deber\u00e1 cancelarla v\u00eda chat dentro del portal o a trav\u00e9s del correo: servicioalclienteweb@eltiempo.com\no Si el suscriptor se encuentra ubicado en Colombia, deber\u00e1 comunicarse a la l\u00ednea gratuita de atenci\u00f3n nacional 018000 110 990 y Bogot\u00e1 D.C. 426 6000; horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m.\n6.4 Oferta Plan Digital Promo 24 meses del Portal www.eltiempo.com\nEl portal www.eltiempo.com (en adelante, el \"Portal\") es de propiedad de CASA EDITORIAL EL TIEMPO S.A. (en adelante, \"CEET\"). El acceso, participaci\u00f3n y uso del Portal est\u00e1 regido por los t\u00e9rminos y condiciones que se incluyen a continuaci\u00f3n m\u00e1s los que se encuentran enhttps://www.eltiempo.com/terminos-condiciones, los cuales se entienden conocidos y aceptados por el visitante y/o lector del Portal (en adelante, el \"Usuario\") al acceder y usar el mismo.\n\nCEET, puede modificar estos T\u00e9rminos y Condiciones en cualquier momento, lo cual le ser\u00e1 informado. Usted deber\u00e1 leer lo contenido en este instrumento legal peri\u00f3dicamente para revisar las normativas aqu\u00ed establecidas y los cambios efectuados, debido a que las mismas le son vinculantes.\n\nEsta Oferta consiste en un descuento del 50,7% en la tarifa de la suscripci\u00f3n por 24 meses, por tal motivo el usuario pagar\u00e1 la suma de CIENTO NOVENTA Y NUEVE MIL NOVECIENTOS M/CTE ($ 199.900) por 24 meses de suscripci\u00f3n digital.\n\nMedio de pago:\n\u2022 Tarjeta cr\u00e9dito\n\u2022 PSE\n\nVigencia de la campa\u00f1a:\nDesde el 12 de enero de 2021 y hasta el 31 de diciembre de 2021\nSe podr\u00e1 terminar a potestad de CEET, cuando as\u00ed lo estime pertinente.\n\nCondiciones y restricciones\n\u2022 Esta oferta aplica solo para suscripciones digitales.\n\u2022 Solo se permite adquirir la presente oferta una sola vez. En ese orden de ideas, si usted decide cancelar su suscripci\u00f3n, y con posterioridad desea volver a adquirirla no podr\u00e1 volver a ser beneficiario de la oferta y deber\u00e1 cancelar tarifa plena.\n\u2022 Solo aplica para suscripciones que se realicen a trav\u00e9s de www.eltiempo.com/suscripcion-digital y call center.\n\u2022 Para cancelar la suscripci\u00f3n (dar de baja) tenga en cuenta lo siguiente:\n\no Si el suscriptor se encuentra ubicado fuera de Colombia deber\u00e1 cancelarla v\u00eda chat dentro del portal o a trav\u00e9s del correo: servicioalclienteweb@eltiempo.com\no Si el suscriptor se encuentra ubicado en Colombia, deber\u00e1 comunicarse a la l\u00ednea gratuita de atenci\u00f3n nacional 018000 110 990 y Bogot\u00e1 D.C. 426 6000; horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m.\n6.5 Oferta Plan Digital San Valentin mensual del Portal www.eltiempo.com\nEl portal www.eltiempo.com (en adelante, el \"Portal\") es de propiedad de CASA EDITORIAL EL TIEMPO S.A. (en adelante, \"CEET\"). El acceso, participaci\u00f3n y uso del Portal est\u00e1 regido por los t\u00e9rminos y condiciones que se incluyen a continuaci\u00f3n m\u00e1s los que se encuentran enhttps://www.eltiempo.com/terminos-condiciones, los cuales se entienden conocidos y aceptados por el visitante y/o lector del Portal (en adelante, el \"Usuario\") al acceder y usar el mismo. \n\nCEET, puede modificar estos T\u00e9rminos y Condiciones en cualquier momento, lo cual le ser\u00e1 informado. Usted deber\u00e1 leer lo contenido en este instrumento legal peri\u00f3dicamente para revisar las normativas aqu\u00ed establecidas y los cambios efectuados, debido a que las mismas le son vinculantes. \n\nEsta Oferta consiste en un descuento del 50% en la tarifa de los primeros 3 meses pag\u00e1ndolos anticipadamente por un valor de VEINTICINCO MIL TRESCIENTOS CINCUENTA ($25.350) M/CTE luego, en el mes 4 el valor mensual a pagar ser\u00e1 de DIECIS\u00c9IS MIL NOVECIENTOS M/CTE ( $16.900)\n\nMedio de pago:\n\u2022 Tarjeta cr\u00e9dito\n\u2022 PSE\n\nVigencia de la campa\u00f1a:\nDesde el 12 de febrero de 2021 y hasta el 5 de marzo de 2021\nSe podr\u00e1 terminar a potestad de CEET, cuando as\u00ed lo estime pertinente.\n\nCondiciones y restricciones\n\u2022 Esta oferta aplica solo para suscripciones digitales. \n\u2022 Solo se permite adquirir la presente oferta una sola vez. En ese orden de ideas, si usted decide cancelar su suscripci\u00f3n, y con posterioridad desea volver a adquirirla no podr\u00e1 volver a ser beneficiario de la oferta y deber\u00e1 cancelar tarifa plena. \n\u2022 Solo aplica para suscripciones que se realicen a trav\u00e9s de www.eltiempo.com/suscripcion-digital y call center.\n\u2022 Para cancelar la suscripci\u00f3n (dar de baja) tenga en cuenta lo siguiente:\n\no Si el suscriptor se encuentra ubicado fuera de Colombia deber\u00e1 cancelarla v\u00eda chat dentro del portal o a trav\u00e9s del correo: servicioalclienteweb@eltiempo.com \no Si el suscriptor se encuentra ubicado en Colombia, deber\u00e1 comunicarse a la l\u00ednea gratuita de atenci\u00f3n nacional 018000 110 990 y Bogot\u00e1 D.C. 426 6000; horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m.\n6.6 Oferta Plan Digital San Valentin pague 12 lleve 16 del Portal www.eltiempo.com\nEl portal www.eltiempo.com (en adelante, el \"Portal\") es de propiedad de CASA EDITORIAL EL TIEMPO S.A. (en adelante, \"CEET\"). El acceso, participaci\u00f3n y uso del Portal est\u00e1 regido por los t\u00e9rminos y condiciones que se incluyen a continuaci\u00f3n m\u00e1s los que se encuentran enhttps://www.eltiempo.com/terminos-condiciones, los cuales se entienden conocidos y aceptados por el visitante y/o lector del Portal (en adelante, el \"Usuario\") al acceder y usar el mismo. \n\nCEET, puede modificar estos T\u00e9rminos y Condiciones en cualquier momento, lo cual le ser\u00e1 informado. Usted deber\u00e1 leer lo contenido en este instrumento legal peri\u00f3dicamente para revisar las normativas aqu\u00ed establecidas y los cambios efectuados, debido a que las mismas le son vinculantes. \n\nEsta Oferta consiste en paga 12 meses con precio promoci\u00f3n de $119.900 CIENTO DIECINUEVE MIL NOVECIENTEOS y lleva 16 meses, es decir, lleva 4 meses gratis adicionales.\n\nMedio de pago:\n\u2022 Tarjeta cr\u00e9dito\n\u2022 PSE\n\nVigencia de la campa\u00f1a:\nDesde el 10 de febrero de 2021 y hasta el 5 de marzo de 2021\nSe podr\u00e1 terminar a potestad de CEET, cuando as\u00ed lo estime pertinente.\n\nCondiciones y restricciones\n\u2022 Esta oferta aplica solo para suscripciones digitales. \n\u2022 Solo se permite adquirir la presente oferta una sola vez. En ese orden de ideas, si usted decide cancelar su suscripci\u00f3n, y con posterioridad desea volver a adquirirla no podr\u00e1 volver a ser beneficiario de la oferta y deber\u00e1 cancelar tarifa plena. \n\u2022 Solo aplica para suscripciones que se realicen a trav\u00e9s de www.eltiempo.com/suscripcion-digital y call center.\n\u2022 Para cancelar la suscripci\u00f3n (dar de baja) tenga en cuenta lo siguiente:\n\no Si el suscriptor se encuentra ubicado fuera de Colombia deber\u00e1 cancelarla v\u00eda chat dentro del portal o a trav\u00e9s del correo: servicioalclienteweb@eltiempo.com \no Si el suscriptor se encuentra ubicado en Colombia, deber\u00e1 comunicarse a la l\u00ednea gratuita de atenci\u00f3n nacional 018000 110 990 y Bogot\u00e1 D.C. 426 6000; horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m. \n6.7 Oferta Plan Digital Aniversario\nEsta Oferta consiste en tres opciones constituidas de la siguiente manera:\n\nOferta suscripci\u00f3n Precio de referencia %Dto. Valor final \n12 meses 184.900 45,97% 99.900 \n18 meses 299.900 53,35% 139.900 \n24 meses 399.900 58,265% 166.900 \n\nMedio de pago:\n\u2022 Tarjeta cr\u00e9dito\n\u2022 PSE\n\nVigencia de la campa\u00f1a:\nDesde el 15 al 31 de marzo del 2021 y/o se podr\u00e1 extender o terminar a discreci\u00f3n de CEET, cuando as\u00ed lo estime pertinente.\n\nCondiciones y restricciones\n\u2022 Esta oferta aplica solo para suscripciones digitales. \n\u2022 Solo se permite adquirir la presente oferta una sola vez. En ese orden de ideas, si usted decide cancelar su suscripci\u00f3n, y con posterioridad desea volver a adquirirla no podr\u00e1 volver a ser beneficiario de la oferta y deber\u00e1 cancelar tarifa plena. \n\u2022 Solo aplica para suscripciones que se realicen a trav\u00e9s de www.eltiempo.com/suscripcion-digital y call center.\n\u2022 Para cancelar la suscripci\u00f3n tenga en cuenta lo siguiente:\n\no Si el suscriptor se encuentra ubicado fuera de Colombia deber\u00e1 cancelarla v\u00eda chat dentro del portal o a trav\u00e9s del correo: servicioalclienteweb@eltiempo.com \no Si el suscriptor se encuentra ubicado en Colombia, deber\u00e1 comunicarse a la l\u00ednea gratuita de atenci\u00f3n nacional 018000 110 990 y Bogot\u00e1 D.C. 426 6000; horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m. \n\nCEET, puede modificar estos T\u00e9rminos y Condiciones en cualquier momento, lo cual le ser\u00e1 informado. Usted deber\u00e1 leer lo contenido en este instrumento legal peri\u00f3dicamente para revisar las normativas aqu\u00ed establecidas y los cambios efectuados, debido a que las mismas le son vinculantes. \n6.7. Oferta Planes Digitales Aniversario\nEsta Oferta consiste en tres opciones constituidas de la siguiente manera:\n\nOferta suscripci\u00f3n Precio de referencia %Dto. Valor final \n12 meses 184.900 45,97% 99.900 \n18 meses 299.900 53,35% 139.900 \n24 meses 399.900 58,26% 166.900 \n\nMedio de pago:\n\u2022 Tarjeta cr\u00e9dito\n\u2022 PSE\n\nVigencia de la campa\u00f1a:\nDesde el 15 al 31 de marzo del 2021 y/o se podr\u00e1 extender o terminar a discreci\u00f3n de CEET, cuando as\u00ed lo estime pertinente.\n\nCondiciones y restricciones\n\u2022 Esta oferta aplica solo para suscripciones digitales. \n\u2022 Solo se permite adquirir la presente oferta una sola vez. En ese orden de ideas, si usted decide cancelar su suscripci\u00f3n, y con posterioridad desea volver a adquirirla no podr\u00e1 volver a ser beneficiario de la oferta y deber\u00e1 cancelar tarifa plena. \n\u2022 Solo aplica para suscripciones que se realicen a trav\u00e9s de www.eltiempo.com/suscripcion-digital y call center.\n\u2022 Para cancelar la suscripci\u00f3n tenga en cuenta lo siguiente:\n\no Si el suscriptor se encuentra ubicado fuera de Colombia deber\u00e1 cancelarla v\u00eda chat dentro del portal o a trav\u00e9s del correo: servicioalclienteweb@eltiempo.com \no Si el suscriptor se encuentra ubicado en Colombia, deber\u00e1 comunicarse a la l\u00ednea gratuita de atenci\u00f3n nacional 018000 110 990 y Bogot\u00e1 D.C. 426 6000; horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m. \n\nCEET, puede modificar estos T\u00e9rminos y Condiciones en cualquier momento, lo cual le ser\u00e1 informado. Usted deber\u00e1 leer lo contenido en este instrumento legal peri\u00f3dicamente para revisar las normativas aqu\u00ed establecidas y los cambios efectuados, debido a que las mismas le son vinculantes. \n6.8. Oferta Planes Digitales de Aniversario Diferenciales\nEl portal www.eltiempo.com (en adelante, el \"Portal\") es de propiedad de CASA EDITORIAL EL TIEMPO S.A. (en adelante, \"CEET\"). El acceso, participaci\u00f3n y uso del Portal est\u00e1 regido por los t\u00e9rminos y condiciones que se incluyen a continuaci\u00f3n m\u00e1s los que se encuentran enhttps://www.eltiempo.com/terminos-condiciones, los cuales se entienden conocidos y aceptados por el visitante y/o lector del Portal (en adelante, el \"Usuario\") al acceder y usar el mismo. \n\nEsta Oferta consiste en cuatro opciones constituidas de la siguiente manera:\n\nFactura Precio de referencia %Dto. Valor final \n1 MES $ 16.900 94,675% $ 900 x 3 meses\n12 MESES $ 184.900 69,767% $ 55.900 \n18 MESES $ 299.900 69,023% $ 92.900 \n24 MESES $ 399.900 69,517% $ 121.900 \n\n\nMedios de pago aplicables a la promoci\u00f3n:\n\u2022 Tarjeta cr\u00e9dito\n\u2022 PSE\n\nVigencia de la campa\u00f1a:\nPromoci\u00f3n vigente del 1\u00ba de abril de 2021 y hasta el 30 de abril del 2021.\nEsta oferta se extender\u00e1 hasta el 31 de mayo de 2021.\nCEET podr\u00e1 extender o terminar la promoci\u00f3n cuando as\u00ed lo estime pertinente conforme ser\u00e1 comunicado a trav\u00e9s de los presentes t\u00e9rminos y condiciones. \n\nCondiciones y restricciones\n\u2022 Esta oferta aplica solo para suscripciones digitales. \n\u2022 Solo se permite adquirir la presente oferta una sola vez. En ese orden de ideas, si usted decide cancelar su suscripci\u00f3n, y con posterioridad desea volver a adquirirla no podr\u00e1 volver a ser beneficiario de la oferta y deber\u00e1 cancelar tarifa plena. \n\u2022 Solo aplica para suscripciones que se realicen a trav\u00e9s de www.eltiempo.com/suscripcion-digital y call center.\n\u2022 Para cancelar la suscripci\u00f3n tenga en cuenta lo siguiente:\n\no Si el suscriptor se encuentra ubicado fuera de Colombia deber\u00e1 cancelarla v\u00eda chat dentro del portal o a trav\u00e9s del correo: servicioalclienteweb@eltiempo.com \no Si el suscriptor se encuentra ubicado en Colombia, deber\u00e1 comunicarse a la l\u00ednea gratuita de atenci\u00f3n nacional 018000 110 990 y Bogot\u00e1 D.C. 426 6000; horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m. \n\nCEET, puede modificar estos T\u00e9rminos y Condiciones en cualquier momento, lo cual le ser\u00e1 informado. Usted deber\u00e1 leer lo contenido en este instrumento legal peri\u00f3dicamente para revisar las normativas aqu\u00ed establecidas y los cambios efectuados, debido a que las mismas le son vinculantes. \n6.9. Planes Digitales CyberLunes\nEl portal www.eltiempo.com (en adelante, el \"Portal\") es de propiedad de CASA EDITORIAL EL TIEMPO S.A. (en adelante, \"CEET\"). El acceso, participaci\u00f3n y uso del Portal est\u00e1 regido por los t\u00e9rminos y condiciones que se incluyen a continuaci\u00f3n m\u00e1s los que se encuentran en https://www.eltiempo.com/terminos-condiciones, los cuales se entienden conocidos y aceptados por el visitante y/o lector del Portal (en adelante, el \"Usuario\") al acceder y usar el mismo. \n\nEsta Oferta consiste en dos opciones constituidas de la siguiente manera:\n\nPlan Digital Mensual CyberLunes\n6 eros MESES por $5.400, a partir de 7mo MES $16.900 cada mes. \n12 MESES por $ 184.900 con un descuento de 80,043% 12 MESES por $ 36.900 \n*La suscripci\u00f3n digital est\u00e1 disponible las 24 horas del d\u00eda, los 7 d\u00edas de la semana.\n\nMedio de pago:\n\u2022 Tarjeta cr\u00e9dito\n\u2022 PSE\n\nVigencia de la campa\u00f1a:\nDesde el 18 al 30 de Junio del 2021 y/o se podr\u00e1 extender o terminar a discreci\u00f3n de CEET, cuando as\u00ed lo estime pertinente.\n\nCondiciones y restricciones\n\u2022 La oferta mensual por los primeros seis meses ($5.400) deber\u00e1 ser pagada de manera anticipada con tarjeta de cr\u00e9dito. Los $5.400 son equivalentes a $900 por cada uno de los seis primeros meses.\n\u2022 No aplica cl\u00e1usula de permanencia para esta promoci\u00f3n.\n\u2022 Esta oferta aplica solo para suscripciones digitales. \n\u2022 Solo se permite adquirir la presente oferta una sola vez. En ese orden de ideas, si usted decide cancelar su suscripci\u00f3n, y con posterioridad desea volver a adquirirla no podr\u00e1 volver a ser beneficiario de la oferta y deber\u00e1 cancelar tarifa plena. \n\u2022 Solo aplica para suscripciones que se realicen a trav\u00e9s de www.eltiempo.com/suscripcion-digital y call center.\n\u2022 Para cancelar la suscripci\u00f3n tenga en cuenta lo siguiente:\n\no Si el suscriptor se encuentra ubicado fuera de Colombia deber\u00e1 cancelarla v\u00eda chat dentro del portal o a trav\u00e9s del correo: servicioalclienteweb@eltiempo.com \no Si el suscriptor se encuentra ubicado en Colombia, deber\u00e1 comunicarse a la l\u00ednea gratuita de atenci\u00f3n nacional 018000 110 990 y Bogot\u00e1 D.C. 426 6000; horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m. \n\nCEET, puede modificar estos T\u00e9rminos y Condiciones en cualquier momento, lo cual le ser\u00e1 informado. Usted deber\u00e1 leer lo contenido en este instrumento legal peri\u00f3dicamente para revisar las normativas aqu\u00ed establecidas y los cambios efectuados, debido a que las mismas le son vinculantes.\n\n\nOferta Plan Digital Anual + Rappi Prime Anual, sin costo adicional\nEl portal www.eltiempo.com (en adelante, el \"Portal\") es de propiedad de CASA EDITORIAL EL TIEMPO S.A. (en adelante, \"CEET\"). El acceso, participaci\u00f3n y uso del Portal est\u00e1 regido por los t\u00e9rminos y condiciones que se incluyen a continuaci\u00f3n m\u00e1s los que se encuentran en https://www.eltiempo.com/terminos-condiciones, los cuales se entienden conocidos y aceptados por el visitante y/o lector del Portal (en adelante, el \"Usuario\") al acceder y usar el mismo. \n\nEsta Oferta consiste en el siguiente costo:\nPlan Digital Anual (12 Meses) a $184.900 + Rappi Prime sin costo adicional\n\nPor la compra de la suscripci\u00f3n a Plan Digital Anual, el usuario recibir\u00e1 un c\u00f3digo de redenci\u00f3n a Rappi Prime Anual, sin costo adicional como se indica a continuaci\u00f3n.\n\nPromoci\u00f3n v\u00e1lida para las zonas de cobertura de la Plataforma Rappi en la Rep\u00fablica de Colombia, a partir del 1 al 31 de julio del 2021, 1.000 unidades disponibles. El c\u00f3digo de activaci\u00f3n de Rappi Prime, podr\u00e1 redimirse hasta 2 meses despu\u00e9s de recibido, y se entregar\u00e1 al correo inscrito y confirmado por parte del usuario, 72 horas h\u00e1biles despu\u00e9s de registrada la compra, este c\u00f3digo ser\u00e1 enviado a trav\u00e9s de correo electr\u00f3nico, que deber\u00e1 ser registrado/confirmado al momento de la compra. Env\u00edos gratis ilimitados aplican por compras superiores a $15.000 pagando con tarjeta de cr\u00e9dito registrada en la aplicaci\u00f3n, para pedidos por un valor inferior, se cobrar\u00e1 el valor del servicio de domicilio al usuario en cada orden.\n\nMedio de pago:\n\u2022 Tarjeta cr\u00e9dito\n\u2022 PSE\n\nVigencia de la campa\u00f1a:\nDesde el 1 al 31 de julio del 2021 o hasta agotar existencias (1.000 accesos a Rappi Prime disponibles) y/o se podr\u00e1 extender o terminar a discreci\u00f3n de CEET, cuando as\u00ed lo estime pertinente.\n\nCondiciones y restricciones\n\u2022 Esta oferta aplica solo para suscripciones digitales. \n\u2022 Solo se permite adquirir la presente oferta una sola vez. En ese orden de ideas, si usted decide cancelar su suscripci\u00f3n, y con posterioridad desea volver a adquirirla no podr\u00e1 ser beneficiario de la presente y deber\u00e1 cancelar tarifa plena. \n\u2022 Solo aplica para suscripciones que se realicen a trav\u00e9s de www.eltiempo.com/suscripcion-digital y call center.\n\u2022 Para cancelar la suscripci\u00f3n tenga en cuenta lo siguiente:\n\no Si el suscriptor se encuentra ubicado fuera de Colombia deber\u00e1 cancelarla v\u00eda chat dentro del portal o a trav\u00e9s del correo: servicioalclienteweb@eltiempo.com \no Si el suscriptor se encuentra ubicado en Colombia, deber\u00e1 comunicarse a la l\u00ednea gratuita de atenci\u00f3n nacional 018000 110 990 y Bogot\u00e1 D.C. 426 6000; horarios de atenci\u00f3n de lunes a viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados, Domingos y festivos 6:00 a.m. a 2:00 p.m. \n\nCEET, puede modificar estos T\u00e9rminos y Condiciones en cualquier momento, lo cual le ser\u00e1 informado. Usted deber\u00e1 leer lo contenido en este instrumento legal peri\u00f3dicamente para revisar las normativas aqu\u00ed establecidas y los cambios efectuados, debido a que las mismas le son vinculantes. \n\n\n### Speaker Locations\n\n- Americas\n- Latin America and the Caribbean\n- Colombia\n\n\n### Sizes\n\n- 0.0772 % of total\n- 1.8373 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -4446,7 +4438,7 @@ "subject": "general news", "owner": "proceso" }, - "data_card": "# proceso\n\n- Dataset uid: `pseudocrawl-filtered_409_www_proceso_com_mx`\n\n## Sizes\n\n- 0.0727 % of total\n- 1.7296 % of es\n\n## Description\n\nwebsite: mexico -general news\n\n## Homepage\n\nhttps://www.proceso.com.mx/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nmexico\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# proceso\n\n- Dataset uid: `pseudocrawl-filtered_409_www_proceso_com_mx`\n\n### Description\n\nwebsite: mexico -general news\n\n### Homepage\n\nhttps://www.proceso.com.mx/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nmexico\n\n### Sizes\n\n- 0.0727 % of total\n- 1.7296 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -4557,7 +4549,7 @@ }, "fname": "the_times_of_india.json" }, - "data_card": "# The Times of India\n\n- Dataset uid: `pseudocrawl-filtered_510_timesofindia_indiatimes_com`\n\n## Sizes\n\n- 0.0702 % of total\n- 0.3801 % of en\n\n## Description\n\n\n\n## Homepage\n\nhttps://timesofindia.indiatimes.com/\n\n## Licensing\n\n- copyright - all rights reserved\n- unknown: License information unavailable\n\n\n## Speaker Locations\n\n- Southern Asia\n- India\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# The Times of India\n\n- Dataset uid: `pseudocrawl-filtered_510_timesofindia_indiatimes_com`\n\n### Description\n\n\n\n### Homepage\n\nhttps://timesofindia.indiatimes.com/\n\n### Licensing\n\n- copyright - all rights reserved\n- unknown: License information unavailable\n\nUnless otherwise stated, copyright and all intellectual property rights in all material presented on the Site (including but not limited to text, audio, video or graphical images), trademarks and logos appearing on this Site are the property of Times Internet Limited, its parent, affiliates and associates and are protected under applicable Indian laws. You agree not to use any framing techniques to enclose any trademark or logo or other proprietary information of TIL; or remove, conceal or obliterate any copyright or other proprietary notice or any credit-line or date-line on other mark or source identifier included on the Site / Service, including without limitation, the size, color, location or style of all proprietary marks. Any infringement shall be vigorously defended and pursued to the fullest extent permitted by law.\n\n\n### Speaker Locations\n\n- Southern Asia\n- India\n\n\n### Sizes\n\n- 0.0702 % of total\n- 0.3801 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -4674,7 +4666,7 @@ }, "fname": "indonesian_news_articles_2017.json" }, - "data_card": "# Indonesian News Articles 2017\n\n- Dataset uid: `indonesian_news_articles_2017`\n\n## Sizes\n\n- 0.0688 % of total\n- 26.1751 % of id\n\n## Description\n\nIndonesian news articles published at 2017 contains published date, content, title, and source.\n\n\n## Homepage\n\nkaggle.com/aashari/indonesian-news-articles-published-at-2017\n\n## Licensing\n\n- public domain\n- cc0-1.0: Creative Commons Zero v1.0 Universal\n\n\n## Speaker Locations\n\n- Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Indonesian News Articles 2017\n\n- Dataset uid: `indonesian_news_articles_2017`\n\n### Description\n\nIndonesian news articles published at 2017 contains published date, content, title, and source.\n\n\n### Homepage\n\nkaggle.com/aashari/indonesian-news-articles-published-at-2017\n\n### Licensing\n\n- public domain\n- cc0-1.0: Creative Commons Zero v1.0 Universal\n\nCC0: Public Domain\n\n\n### Speaker Locations\n\n- Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0688 % of total\n- 26.1751 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -4700,7 +4692,7 @@ "subject": "general news", "owner": "el comercio per\u00fa" }, - "data_card": "# el comercio per\u00fa\n\n- Dataset uid: `pseudocrawl-filtered_255_elcomercio_pe`\n\n## Sizes\n\n- 0.0675 % of total\n- 1.6076 % of es\n\n## Description\n\nwebsite: peru -general news\n\n## Homepage\n\nhttps://elcomercio.pe/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nperu\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el comercio per\u00fa\n\n- Dataset uid: `pseudocrawl-filtered_255_elcomercio_pe`\n\n### Description\n\nwebsite: peru -general news\n\n### Homepage\n\nhttps://elcomercio.pe/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nperu\n\n### Sizes\n\n- 0.0675 % of total\n- 1.6076 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -4804,7 +4796,7 @@ }, "fname": "aaj_tak.json" }, - "data_card": "# Aaj Tak\n\n- Dataset uid: `pseudocrawl-filtered_515_www_aajtak_in`\n\n## Sizes\n\n- 0.0622 % of total\n- 2.7294 % of indic-hi\n\n## Description\n\nHindi news production\n\n## Homepage\n\nhttps://www.aajtak.in/\n\n## Licensing\n\n- copyright - all rights reserved\n\n\n## Speaker Locations\n\n- Southern Asia\n- India\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-hi\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Aaj Tak\n\n- Dataset uid: `pseudocrawl-filtered_515_www_aajtak_in`\n\n### Description\n\nHindi news production\n\n### Homepage\n\nhttps://www.aajtak.in/\n\n### Licensing\n\n- copyright - all rights reserved\n\n\n### Speaker Locations\n\n- Southern Asia\n- India\n\n\n### Sizes\n\n- 0.0622 % of total\n- 2.7294 % of indic-hi\n\n### BigScience processing steps\n\n#### Filters applied to: indic-hi\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -4830,7 +4822,7 @@ "subject": "general news", "owner": "la informacion" }, - "data_card": "# la informacion\n\n- Dataset uid: `pseudocrawl-filtered_215_www_lainformacion_com`\n\n## Sizes\n\n- 0.0617 % of total\n- 1.4678 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.lainformacion.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la informacion\n\n- Dataset uid: `pseudocrawl-filtered_215_www_lainformacion_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.lainformacion.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0617 % of total\n- 1.4678 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -4936,7 +4928,7 @@ "homepage": "http://preon.iiit.ac.in/~jerin/bhasha/", "hf_id": "pib" }, - "data_card": "# pib\n\n- Dataset uid: `pib`\n\n## Sizes\n\n- 0.0609 % of total\n- 0.6301 % of indic-hi\n- 3.2610 % of indic-ur\n- 0.6029 % of indic-ta\n- 3.0834 % of indic-or\n- 1.9757 % of indic-mr\n- 0.2181 % of indic-bn\n- 1.8901 % of indic-pa\n- 1.5457 % of indic-gu\n- 0.4695 % of indic-ml\n- 0.5767 % of indic-te\n\n## Description\n\nSentence aligned parallel corpus between 11 Indian Languages, crawled and extracted from the press information bureau\nwebsite.\n\n\n## Homepage\n\n- https://huggingface.co/datasets/pib\n- http://preon.iiit.ac.in/~jerin/bhasha/\n\n## Licensing\n\nCreative Commons Attribution-ShareAlike 4.0 International\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-mr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# pib\n\n- Dataset uid: `pib`\n\n### Description\n\nSentence aligned parallel corpus between 11 Indian Languages, crawled and extracted from the press information bureau\nwebsite.\n\n\n### Homepage\n\n- https://huggingface.co/datasets/pib\n- http://preon.iiit.ac.in/~jerin/bhasha/\n\n### Licensing\n\nCreative Commons Attribution-ShareAlike 4.0 International\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0609 % of total\n- 0.6301 % of indic-hi\n- 3.2610 % of indic-ur\n- 0.6029 % of indic-ta\n- 3.0834 % of indic-or\n- 1.9757 % of indic-mr\n- 0.2181 % of indic-bn\n- 1.8901 % of indic-pa\n- 1.5457 % of indic-gu\n- 0.4695 % of indic-ml\n- 0.5767 % of indic-te\n\n### BigScience processing steps\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-mr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -4961,7 +4953,7 @@ "homepage": "", "hf_id": "urdu_leipzig_news016" }, - "data_card": "# leipzig_wortschatz_urdu_newscrawl_2016_sentences\n\n- Dataset uid: `leipzig_wortschatz_urdu_newscrawl_2016_sentences`\n\n## Sizes\n\n- 0.0587 % of total\n- 20.7635 % of indic-ur\n\n## Description\n\nLeipzig Wortschatz Crawl\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# leipzig_wortschatz_urdu_newscrawl_2016_sentences\n\n- Dataset uid: `leipzig_wortschatz_urdu_newscrawl_2016_sentences`\n\n### Description\n\nLeipzig Wortschatz Crawl\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0587 % of total\n- 20.7635 % of indic-ur\n\n### BigScience processing steps\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -4987,7 +4979,7 @@ "subject": "general news", "owner": "el peri\u00f3dico" }, - "data_card": "# el peri\u00f3dico\n\n- Dataset uid: `pseudocrawl-filtered_267_www_elperiodico_com_es`\n\n## Sizes\n\n- 0.0572 % of total\n- 1.3618 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttp://www.elperiodico.com/es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el peri\u00f3dico\n\n- Dataset uid: `pseudocrawl-filtered_267_www_elperiodico_com_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttp://www.elperiodico.com/es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0572 % of total\n- 1.3618 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -5013,7 +5005,7 @@ "subject": "general news", "owner": "cadenaser-tv news" }, - "data_card": "# cadenaser-tv news\n\n- Dataset uid: `pseudocrawl-filtered_429_cadenaser_com`\n\n## Sizes\n\n- 0.0510 % of total\n- 1.2128 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://cadenaser.com\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# cadenaser-tv news\n\n- Dataset uid: `pseudocrawl-filtered_429_cadenaser_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://cadenaser.com\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0510 % of total\n- 1.2128 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -5083,7 +5075,7 @@ }, "fname": "scielo___scientific_electronic_library_online.json" }, - "data_card": "# SciELO \u2013 Scientific Electronic Library Online\n\n- Dataset uid: `scielo`\n\n## Sizes\n\n- 0.0477 % of total\n- 2.1000 % of pt\n- 0.0491 % of es\n- 0.0013 % of en\n\n## Description\n\nSciELO (Scientific Electronic Library Online) is a bibliographic database, digital library, and cooperative electronic publishing model of open access journals. SciELO was created to meet the scientific communication needs of developing countries and provides an efficient way to increase visibility and access to scientific literature. Originally established in Brazil in 1997, today there are 16 countries in the SciELO network and its journal collections: Argentina, Bolivia, Brazil, Chile, Colombia, Costa Rica, Cuba, Ecuador, Mexico, Paraguay, Peru, Portugal, South Africa, Spain, Uruguay, and Venezuela.\n\nSciELO was initially supported by the S\u00e3o Paulo Research Foundation (FAPESP) and the Brazilian National Council for Scientific and Technological Development (CNPq), along with the Latin American and Caribbean Center on Health Sciences Information (BIREME). SciELO provides a portal that integrates and provides access to all of the SciELO network sites. Users can search across all SciELO collections or limit the search by a single country collection, or browse by subject area, publisher, or journal title. \n\n## Homepage\n\nhttps://scielo.org/\n\n## Licensing\n\n\n\n## Speaker Locations\n\n- Latin America and the Caribbean\n\n\n## BigScience processing steps\n\n#### Filters applied to: pt\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: es\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: en\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# SciELO \u2013 Scientific Electronic Library Online\n\n- Dataset uid: `scielo`\n\n### Description\n\nSciELO (Scientific Electronic Library Online) is a bibliographic database, digital library, and cooperative electronic publishing model of open access journals. SciELO was created to meet the scientific communication needs of developing countries and provides an efficient way to increase visibility and access to scientific literature. Originally established in Brazil in 1997, today there are 16 countries in the SciELO network and its journal collections: Argentina, Bolivia, Brazil, Chile, Colombia, Costa Rica, Cuba, Ecuador, Mexico, Paraguay, Peru, Portugal, South Africa, Spain, Uruguay, and Venezuela.\n\nSciELO was initially supported by the S\u00e3o Paulo Research Foundation (FAPESP) and the Brazilian National Council for Scientific and Technological Development (CNPq), along with the Latin American and Caribbean Center on Health Sciences Information (BIREME). SciELO provides a portal that integrates and provides access to all of the SciELO network sites. Users can search across all SciELO collections or limit the search by a single country collection, or browse by subject area, publisher, or journal title. \n\n### Homepage\n\nhttps://scielo.org/\n\n### Licensing\n\n\n\n### Speaker Locations\n\n- Latin America and the Caribbean\n\n\n### Sizes\n\n- 0.0477 % of total\n- 2.1000 % of pt\n- 0.0491 % of es\n- 0.0013 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: pt\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: es\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: en\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -5254,7 +5246,7 @@ } ], "total": 0.5606329849999999, - "data_card": "# wikiquote_filtered\n\n- Dataset uid: `wikiquote_filtered`\n\n## Sizes\n\n- 0.0462 % of total\n- 0.1697 % of en\n- 0.0326 % of fr\n- 0.0216 % of ar\n- 0.0066 % of zh\n- 0.0833 % of pt\n- 0.0357 % of es\n- 0.0783 % of indic-ta\n- 0.0361 % of indic-hi\n- 0.0518 % of ca\n- 0.0405 % of vi\n- 0.0834 % of indic-ml\n- 0.0542 % of indic-te\n- 0.1172 % of indic-gu\n- 0.0634 % of indic-kn\n- 0.0539 % of id\n- 0.0454 % of indic-ur\n- 0.0337 % of indic-mr\n- 0.0347 % of eu\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_en\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_fr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ar\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zh\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_zhs\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_es\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-ta\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ta\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-hi\n- dedup_template_soft\n- filter_small_docs_bytes_300\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ca\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: vi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_vi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ml\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-te\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-gu\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-kn\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: id\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_id\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ur\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-mr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_eu\n- dedup_template_soft\n- replace_newline_with_space\n\n" + "data_card": "# wikiquote_filtered\n\n- Dataset uid: `wikiquote_filtered`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0462 % of total\n- 0.1697 % of en\n- 0.0326 % of fr\n- 0.0216 % of ar\n- 0.0066 % of zh\n- 0.0833 % of pt\n- 0.0357 % of es\n- 0.0783 % of indic-ta\n- 0.0361 % of indic-hi\n- 0.0518 % of ca\n- 0.0405 % of vi\n- 0.0834 % of indic-ml\n- 0.0542 % of indic-te\n- 0.1172 % of indic-gu\n- 0.0634 % of indic-kn\n- 0.0539 % of id\n- 0.0454 % of indic-ur\n- 0.0337 % of indic-mr\n- 0.0347 % of eu\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_en\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_fr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ar\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zh\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_zhs\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_es\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-ta\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ta\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-hi\n- dedup_template_soft\n- filter_small_docs_bytes_300\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ca\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: vi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_vi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ml\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-te\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-gu\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-kn\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: id\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_id\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ur\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-mr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_eu\n- dedup_template_soft\n- replace_newline_with_space\n\n" } ], [ @@ -5280,7 +5272,7 @@ "subject": "general news", "owner": "el comercio" }, - "data_card": "# el comercio\n\n- Dataset uid: `pseudocrawl-filtered_211_www_elcomercio_com`\n\n## Sizes\n\n- 0.0454 % of total\n- 1.0818 % of es\n\n## Description\n\nwebsite: ecuador -general news\n\n## Homepage\n\nhttp://www.elcomercio.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\necuador\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el comercio\n\n- Dataset uid: `pseudocrawl-filtered_211_www_elcomercio_com`\n\n### Description\n\nwebsite: ecuador -general news\n\n### Homepage\n\nhttp://www.elcomercio.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\necuador\n\n### Sizes\n\n- 0.0454 % of total\n- 1.0818 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -5487,7 +5479,7 @@ } ], "total": 0.537876518, - "data_card": "# aggregated\n\n- Dataset uid: `aggregated`\n\n## Sizes\n\n- 0.0444 % of total\n- 100.0000 % of nigercongo-sw\n- 100.0000 % of nigercongo-yo\n- 100.0000 % of nigercongo-rw\n- 100.0000 % of nigercongo-ig\n- 100.0000 % of nigercongo-xh\n- 100.0000 % of nigercongo-zu\n- 100.0000 % of nigercongo-sn\n- 100.0000 % of nigercongo-fon\n- 100.0000 % of nigercongo-lg\n- 100.0000 % of nigercongo-wo\n- 100.0000 % of nigercongo-rn\n- 100.0000 % of nigercongo-ln\n- 100.0000 % of nigercongo-nso\n- 100.0000 % of nigercongo-tw\n- 100.0000 % of nigercongo-tn\n- 100.0000 % of nigercongo-ny\n- 100.0000 % of nigercongo-ak\n- 100.0000 % of nigercongo-st\n- 100.0000 % of nigercongo-ts\n- 100.0000 % of nigercongo-bm\n- 100.0000 % of nigercongo-ki\n- 100.0000 % of nigercongo-tum\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: nigercongo-sw\n\n\n\n#### Filters applied to: nigercongo-yo\n\n\n\n#### Filters applied to: nigercongo-rw\n\n\n\n#### Filters applied to: nigercongo-ig\n\n\n\n#### Filters applied to: nigercongo-xh\n\n\n\n#### Filters applied to: nigercongo-zu\n\n\n\n#### Filters applied to: nigercongo-sn\n\n\n\n#### Filters applied to: nigercongo-fon\n\n\n\n#### Filters applied to: nigercongo-lg\n\n\n\n#### Filters applied to: nigercongo-wo\n\n\n\n#### Filters applied to: nigercongo-rn\n\n\n\n#### Filters applied to: nigercongo-ln\n\n\n\n#### Filters applied to: nigercongo-nso\n\n\n\n#### Filters applied to: nigercongo-tw\n\n\n\n#### Filters applied to: nigercongo-tn\n\n\n\n#### Filters applied to: nigercongo-ny\n\n\n\n#### Filters applied to: nigercongo-ak\n\n\n\n#### Filters applied to: nigercongo-st\n\n\n\n#### Filters applied to: nigercongo-ts\n\n\n\n#### Filters applied to: nigercongo-bm\n\n\n\n#### Filters applied to: nigercongo-ki\n\n\n\n#### Filters applied to: nigercongo-tum\n\n\n\n" + "data_card": "# aggregated\n\n- Dataset uid: `aggregated`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0444 % of total\n- 100.0000 % of nigercongo-sw\n- 100.0000 % of nigercongo-yo\n- 100.0000 % of nigercongo-rw\n- 100.0000 % of nigercongo-ig\n- 100.0000 % of nigercongo-xh\n- 100.0000 % of nigercongo-zu\n- 100.0000 % of nigercongo-sn\n- 100.0000 % of nigercongo-fon\n- 100.0000 % of nigercongo-lg\n- 100.0000 % of nigercongo-wo\n- 100.0000 % of nigercongo-rn\n- 100.0000 % of nigercongo-ln\n- 100.0000 % of nigercongo-nso\n- 100.0000 % of nigercongo-tw\n- 100.0000 % of nigercongo-tn\n- 100.0000 % of nigercongo-ny\n- 100.0000 % of nigercongo-ak\n- 100.0000 % of nigercongo-st\n- 100.0000 % of nigercongo-ts\n- 100.0000 % of nigercongo-bm\n- 100.0000 % of nigercongo-ki\n- 100.0000 % of nigercongo-tum\n\n### BigScience processing steps\n\n#### Filters applied to: nigercongo-sw\n\n\n\n#### Filters applied to: nigercongo-yo\n\n\n\n#### Filters applied to: nigercongo-rw\n\n\n\n#### Filters applied to: nigercongo-ig\n\n\n\n#### Filters applied to: nigercongo-xh\n\n\n\n#### Filters applied to: nigercongo-zu\n\n\n\n#### Filters applied to: nigercongo-sn\n\n\n\n#### Filters applied to: nigercongo-fon\n\n\n\n#### Filters applied to: nigercongo-lg\n\n\n\n#### Filters applied to: nigercongo-wo\n\n\n\n#### Filters applied to: nigercongo-rn\n\n\n\n#### Filters applied to: nigercongo-ln\n\n\n\n#### Filters applied to: nigercongo-nso\n\n\n\n#### Filters applied to: nigercongo-tw\n\n\n\n#### Filters applied to: nigercongo-tn\n\n\n\n#### Filters applied to: nigercongo-ny\n\n\n\n#### Filters applied to: nigercongo-ak\n\n\n\n#### Filters applied to: nigercongo-st\n\n\n\n#### Filters applied to: nigercongo-ts\n\n\n\n#### Filters applied to: nigercongo-bm\n\n\n\n#### Filters applied to: nigercongo-ki\n\n\n\n#### Filters applied to: nigercongo-tum\n\n\n\n" } ], [ @@ -5512,7 +5504,7 @@ "homepage": "https://www.kaggle.com/Cornell-University/arxiv", "hf_id": "urdu_monolingual_corpus" }, - "data_card": "# urdu-monolingual-corpus\n\n- Dataset uid: `urdu-monolingual-corpus`\n\n## Sizes\n\n- 0.0419 % of total\n- 14.8201 % of indic-ur\n\n## Description\n\nWe release a sizeable monolingual Urdu corpus automatically tagged with part-of-speech tags. We extend the work of Jawaid and Bojar (2012) who use three different taggers and then apply a voting scheme to disambiguate among the different choices suggested by each tagger. We run this complex ensemble on a large monolingual corpus and release the both plain and tagged corpora.\n\n\n## Homepage\n\nhttps://www.kaggle.com/Cornell-University/arxiv\n\n## Licensing\n\nMixed\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# urdu-monolingual-corpus\n\n- Dataset uid: `urdu-monolingual-corpus`\n\n### Description\n\nWe release a sizeable monolingual Urdu corpus automatically tagged with part-of-speech tags. We extend the work of Jawaid and Bojar (2012) who use three different taggers and then apply a voting scheme to disambiguate among the different choices suggested by each tagger. We run this complex ensemble on a large monolingual corpus and release the both plain and tagged corpora.\n\n\n### Homepage\n\nhttps://www.kaggle.com/Cornell-University/arxiv\n\n### Licensing\n\nMixed\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0419 % of total\n- 14.8201 % of indic-ur\n\n### BigScience processing steps\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -5538,7 +5530,7 @@ "subject": "general news", "owner": "el mostrador" }, - "data_card": "# el mostrador\n\n- Dataset uid: `pseudocrawl-filtered_103_www_elmostrador_cl`\n\n## Sizes\n\n- 0.0417 % of total\n- 0.9938 % of es\n\n## Description\n\nwebsite: cl -general news\n\n## Homepage\n\nhttp://www.elmostrador.cl/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ncl\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el mostrador\n\n- Dataset uid: `pseudocrawl-filtered_103_www_elmostrador_cl`\n\n### Description\n\nwebsite: cl -general news\n\n### Homepage\n\nhttp://www.elmostrador.cl/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ncl\n\n### Sizes\n\n- 0.0417 % of total\n- 0.9938 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -5564,7 +5556,7 @@ "subject": "general news", "owner": "el economista" }, - "data_card": "# el economista\n\n- Dataset uid: `pseudocrawl-filtered_189_www_eleconomista_com_mx`\n\n## Sizes\n\n- 0.0410 % of total\n- 0.9761 % of es\n\n## Description\n\nwebsite: mexico -general news\n\n## Homepage\n\nhttps://www.eleconomista.com.mx/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nmexico\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el economista\n\n- Dataset uid: `pseudocrawl-filtered_189_www_eleconomista_com_mx`\n\n### Description\n\nwebsite: mexico -general news\n\n### Homepage\n\nhttps://www.eleconomista.com.mx/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nmexico\n\n### Sizes\n\n- 0.0410 % of total\n- 0.9761 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -5590,7 +5582,7 @@ "subject": "general news", "owner": "marca" }, - "data_card": "# marca\n\n- Dataset uid: `pseudocrawl-filtered_288_www_marca_com`\n\n## Sizes\n\n- 0.0391 % of total\n- 0.9298 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.marca.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# marca\n\n- Dataset uid: `pseudocrawl-filtered_288_www_marca_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.marca.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0391 % of total\n- 0.9298 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -5694,7 +5686,7 @@ }, "fname": "vietai___style_augmented_translation.json" }, - "data_card": "# VietAI - Style Augmented Translation\n\n- Dataset uid: `vietai_sat`\n\n## Sizes\n\n- 0.0380 % of total\n- 2.7752 % of vi\n\n## Description\n\nThe Our data contains roughly 3.3 million pairs of texts. After augmentation, the data is of size 26.7 million pairs of texts. A more detail breakdown of our data is shown in the table below. This is parallel text for English-Vietnamese that can be used for Machine Translation training.\n\n## Homepage\n\nhttps://github.com/vietai/sat\n\n## Licensing\n\n\n\n## Speaker Locations\n\n- South-eastern Asia\n\n\n## BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# VietAI - Style Augmented Translation\n\n- Dataset uid: `vietai_sat`\n\n### Description\n\nThe Our data contains roughly 3.3 million pairs of texts. After augmentation, the data is of size 26.7 million pairs of texts. A more detail breakdown of our data is shown in the table below. This is parallel text for English-Vietnamese that can be used for Machine Translation training.\n\n### Homepage\n\nhttps://github.com/vietai/sat\n\n### Licensing\n\n\n\n### Speaker Locations\n\n- South-eastern Asia\n\n\n### Sizes\n\n- 0.0380 % of total\n- 2.7752 % of vi\n\n### BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -5720,7 +5712,7 @@ "subject": "general news", "owner": "telecinco - spanish tv news" }, - "data_card": "# telecinco - spanish tv news\n\n- Dataset uid: `pseudocrawl-filtered_249_www_telecinco_es`\n\n## Sizes\n\n- 0.0378 % of total\n- 0.8990 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.telecinco.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# telecinco - spanish tv news\n\n- Dataset uid: `pseudocrawl-filtered_249_www_telecinco_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.telecinco.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0378 % of total\n- 0.8990 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -5746,7 +5738,7 @@ "subject": "general news", "owner": "levante-emv" }, - "data_card": "# levante-emv\n\n- Dataset uid: `pseudocrawl-filtered_58_www_levante_emv_com`\n\n## Sizes\n\n- 0.0372 % of total\n- 0.8855 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.levante-emv.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# levante-emv\n\n- Dataset uid: `pseudocrawl-filtered_58_www_levante_emv_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.levante-emv.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0372 % of total\n- 0.8855 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -5772,7 +5764,7 @@ "subject": "financial news", "owner": "el economista [spain]" }, - "data_card": "# el economista [spain]\n\n- Dataset uid: `pseudocrawl-filtered_198_www_eleconomista_es`\n\n## Sizes\n\n- 0.0371 % of total\n- 0.8829 % of es\n\n## Description\n\nwebsite: spain -financial news\n\n## Homepage\n\nhttp://www.eleconomista.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el economista [spain]\n\n- Dataset uid: `pseudocrawl-filtered_198_www_eleconomista_es`\n\n### Description\n\nwebsite: spain -financial news\n\n### Homepage\n\nhttp://www.eleconomista.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0371 % of total\n- 0.8829 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -5844,7 +5836,7 @@ } ], "total": 0.4454639040000001, - "data_card": "# wikiversity_filtered\n\n- Dataset uid: `wikiversity_filtered`\n\n## Sizes\n\n- 0.0367 % of total\n- 0.1050 % of en\n- 0.1178 % of fr\n- 0.1231 % of pt\n- 0.0073 % of zh\n- 0.0393 % of es\n- 0.0076 % of ar\n- 0.0069 % of indic-hi\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_en\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_fr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zh\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_zhs\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_es\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ar\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-hi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n" + "data_card": "# wikiversity_filtered\n\n- Dataset uid: `wikiversity_filtered`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0367 % of total\n- 0.1050 % of en\n- 0.1178 % of fr\n- 0.1231 % of pt\n- 0.0072 % of zh\n- 0.0393 % of es\n- 0.0076 % of ar\n- 0.0069 % of indic-hi\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_en\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_fr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zh\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_zhs\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_es\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ar\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-hi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -5870,7 +5862,7 @@ "subject": "general news", "owner": "noticias de navarra" }, - "data_card": "# noticias de navarra\n\n- Dataset uid: `pseudocrawl-filtered_245_www_noticiasdenavarra_com`\n\n## Sizes\n\n- 0.0348 % of total\n- 0.8282 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttp://www.noticiasdenavarra.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# noticias de navarra\n\n- Dataset uid: `pseudocrawl-filtered_245_www_noticiasdenavarra_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttp://www.noticiasdenavarra.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0348 % of total\n- 0.8282 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -5896,7 +5888,7 @@ "subject": "general news", "owner": "faro de vigo" }, - "data_card": "# faro de vigo\n\n- Dataset uid: `pseudocrawl-filtered_373_www_farodevigo_es`\n\n## Sizes\n\n- 0.0337 % of total\n- 0.8017 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttp://www.farodevigo.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# faro de vigo\n\n- Dataset uid: `pseudocrawl-filtered_373_www_farodevigo_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttp://www.farodevigo.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0337 % of total\n- 0.8017 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -5977,7 +5969,7 @@ } ], "total": 0.405534517, - "data_card": "# wikivoyage_filtered\n\n- Dataset uid: `wikivoyage_filtered`\n\n## Sizes\n\n- 0.0334 % of total\n- 0.1097 % of en\n- 0.0432 % of fr\n- 0.0863 % of es\n- 0.0085 % of zh\n- 0.0892 % of vi\n- 0.0464 % of indic-bn\n- 0.0443 % of pt\n- 0.0130 % of indic-hi\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_en\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_fr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_es\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: zh\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_zhs\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: vi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_vi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-bn\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-hi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n" + "data_card": "# wikivoyage_filtered\n\n- Dataset uid: `wikivoyage_filtered`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0334 % of total\n- 0.1097 % of en\n- 0.0432 % of fr\n- 0.0863 % of es\n- 0.0084 % of zh\n- 0.0892 % of vi\n- 0.0464 % of indic-bn\n- 0.0443 % of pt\n- 0.0130 % of indic-hi\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_en\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_fr\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_es\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: zh\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_zhs\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: vi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_vi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-bn\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-hi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -6088,7 +6080,7 @@ }, "fname": "royal_society_corpus.json" }, - "data_card": "# Royal Society Corpus\n\n- Dataset uid: `royal_society_corpus`\n\n## Sizes\n\n- 0.0334 % of total\n- 0.1808 % of en\n\n## Description\n\nThe Royal Society Corpus (RSC) 6.0 Open is based on the first centuries of the Philosophical Transactions of the Royal Society of London from its beginning in 1665 to 1920. It includes all publications of the journal written in English and containing running text. The Philosophical Transactions was the first periodical of scientific writing in England. Founded in 1665 by Henry Oldenburg, the first secretary of the Royal Society, it initially contained excerpts of letters of his scientific correspondence, reviews and summaries of recently-published books, and accounts of observations and experiments.\n\n## Homepage\n\nhttps://fedora.clarin-d.uni-saarland.de/rsc_v6/index.html\n\n## Licensing\n\n- public domain\n- cc0-1.0: Creative Commons Zero v1.0 Universal\n\n\n## Speaker Locations\n\n- Northern Europe\n- United Kingdom\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Royal Society Corpus\n\n- Dataset uid: `royal_society_corpus`\n\n### Description\n\nThe Royal Society Corpus (RSC) 6.0 Open is based on the first centuries of the Philosophical Transactions of the Royal Society of London from its beginning in 1665 to 1920. It includes all publications of the journal written in English and containing running text. The Philosophical Transactions was the first periodical of scientific writing in England. Founded in 1665 by Henry Oldenburg, the first secretary of the Royal Society, it initially contained excerpts of letters of his scientific correspondence, reviews and summaries of recently-published books, and accounts of observations and experiments.\n\n### Homepage\n\nhttps://fedora.clarin-d.uni-saarland.de/rsc_v6/index.html\n\n### Licensing\n\n- public domain\n- cc0-1.0: Creative Commons Zero v1.0 Universal\n\n\n### Speaker Locations\n\n- Northern Europe\n- United Kingdom\n\n\n### Sizes\n\n- 0.0334 % of total\n- 0.1808 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6114,7 +6106,7 @@ "subject": "general news", "owner": "la provincia" }, - "data_card": "# la provincia\n\n- Dataset uid: `pseudocrawl-filtered_256_www_laprovincia_es`\n\n## Sizes\n\n- 0.0333 % of total\n- 0.7924 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttp://www.laprovincia.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la provincia\n\n- Dataset uid: `pseudocrawl-filtered_256_www_laprovincia_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttp://www.laprovincia.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0333 % of total\n- 0.7924 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6140,7 +6132,7 @@ "subject": "general news", "owner": "valencia plaza - noticias, informaci\u00f3n y opini\u00f3n sobre la sociedad, econom\u00eda, cultura y deportes de la comunitat valenciana - valencia plaza" }, - "data_card": "# valencia plaza - noticias, informaci\u00f3n y opini\u00f3n sobre la sociedad, econom\u00eda, cultura y deportes de la comunitat valenciana - valencia plaza\n\n- Dataset uid: `pseudocrawl-filtered_136_valenciaplaza_com`\n\n## Sizes\n\n- 0.0331 % of total\n- 0.7880 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://valenciaplaza.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# valencia plaza - noticias, informaci\u00f3n y opini\u00f3n sobre la sociedad, econom\u00eda, cultura y deportes de la comunitat valenciana - valencia plaza\n\n- Dataset uid: `pseudocrawl-filtered_136_valenciaplaza_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://valenciaplaza.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0331 % of total\n- 0.7880 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6166,7 +6158,7 @@ "subject": "general news", "owner": "la nueva espa\u00f1a" }, - "data_card": "# la nueva espa\u00f1a\n\n- Dataset uid: `pseudocrawl-filtered_299_www_lne_es`\n\n## Sizes\n\n- 0.0316 % of total\n- 0.7518 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.lne.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la nueva espa\u00f1a\n\n- Dataset uid: `pseudocrawl-filtered_299_www_lne_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.lne.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0316 % of total\n- 0.7518 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6192,7 +6184,7 @@ "subject": "general news", "owner": "diario expansi\u00f3n" }, - "data_card": "# diario expansi\u00f3n\n\n- Dataset uid: `pseudocrawl-filtered_229_www_expansion_com`\n\n## Sizes\n\n- 0.0312 % of total\n- 0.7428 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.expansion.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# diario expansi\u00f3n\n\n- Dataset uid: `pseudocrawl-filtered_229_www_expansion_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.expansion.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0312 % of total\n- 0.7428 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6218,7 +6210,7 @@ "subject": "general news", "owner": "la opini\u00f3n de murcia" }, - "data_card": "# la opini\u00f3n de murcia\n\n- Dataset uid: `pseudocrawl-filtered_79_www_laopiniondemurcia_es`\n\n## Sizes\n\n- 0.0310 % of total\n- 0.7374 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttp://www.laopiniondemurcia.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la opini\u00f3n de murcia\n\n- Dataset uid: `pseudocrawl-filtered_79_www_laopiniondemurcia_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttp://www.laopiniondemurcia.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0310 % of total\n- 0.7374 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6299,7 +6291,7 @@ } ], "total": 0.37167523199999997, - "data_card": "# wikinews_filtered\n\n- Dataset uid: `wikinews_filtered`\n\n## Sizes\n\n- 0.0307 % of total\n- 0.0701 % of ar\n- 0.3036 % of pt\n- 0.0271 % of en\n- 0.0405 % of fr\n- 0.2119 % of indic-ta\n- 0.0081 % of zh\n- 0.0510 % of es\n- 0.0725 % of ca\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ar\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: en\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_en\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-ta\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ta\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zh\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_zhs\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_es\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ca\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# wikinews_filtered\n\n- Dataset uid: `wikinews_filtered`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0307 % of total\n- 0.0701 % of ar\n- 0.3036 % of pt\n- 0.0271 % of en\n- 0.0405 % of fr\n- 0.2119 % of indic-ta\n- 0.0081 % of zh\n- 0.0510 % of es\n- 0.0725 % of ca\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ar\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: en\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_en\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-ta\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-ta\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zh\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_zhs\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_es\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ca\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6592,7 +6584,7 @@ }, "fname": "wit_ted_talks.json" }, - "data_card": "# WIT Ted Talks\n\n- Dataset uid: `ted_talks_iwslt`\n\n## Sizes\n\n- 0.0305 % of total\n- 0.0736 % of ar\n- 0.2002 % of pt\n- 0.0129 % of zh\n- 0.2236 % of vi\n- 0.0330 % of fr\n- 0.0545 % of es\n- 0.0122 % of en\n- 0.3704 % of id\n- 0.0373 % of indic-hi\n- 0.0330 % of indic-ta\n- 0.1393 % of indic-mr\n- 0.0305 % of ca\n- 0.1179 % of indic-ur\n- 0.0147 % of indic-bn\n- 0.0240 % of indic-ml\n- 0.0244 % of indic-te\n- 0.0503 % of indic-gu\n- 0.0211 % of indic-kn\n- 0.0274 % of eu\n- 0.0023 % of indic-as\n- 0.0001 % of indic-pa\n\n## Description\n\nThe Web Inventory Talk is a collection of the original Ted talks and their translated version. The translations are available in more than 109+ languages, though the distribution is not uniform.\n\n## Homepage\n\nhttps://github.com/huggingface/datasets/blob/master/datasets/ted_talks_iwslt/README.md\n\n## Licensing\n\n- open license\n- cc-by-nc-4.0: Creative Commons Attribution Non Commercial 4.0 International\n\n\n## Speaker Locations\n\n- Southern Europe\n- Italy\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zh\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: vi\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: id\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: ca\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- dedup_document\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-as\n\n- dedup_document\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-pa\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# WIT Ted Talks\n\n- Dataset uid: `ted_talks_iwslt`\n\n### Description\n\nThe Web Inventory Talk is a collection of the original Ted talks and their translated version. The translations are available in more than 109+ languages, though the distribution is not uniform.\n\n### Homepage\n\nhttps://github.com/huggingface/datasets/blob/master/datasets/ted_talks_iwslt/README.md\n\n### Licensing\n\n- open license\n- cc-by-nc-4.0: Creative Commons Attribution Non Commercial 4.0 International\n\nTED makes its collection of video recordings and transcripts of talks available under the Creative Commons BY-NC-ND license (look here). WIT3 acknowledges the authorship of TED talks (BY condition) and does not redistribute transcripts for commercial purposes (NC). As regards the integrity of the work (ND), WIT3 only changes the format of the container, while preserving the original contents. WIT3 aims to support research on human language processing as well as the diffusion of TED Talks!\n\n\n### Speaker Locations\n\n- Southern Europe\n- Italy\n\n\n### Sizes\n\n- 0.0305 % of total\n- 0.0736 % of ar\n- 0.2002 % of pt\n- 0.0128 % of zh\n- 0.2236 % of vi\n- 0.0330 % of fr\n- 0.0545 % of es\n- 0.0122 % of en\n- 0.3704 % of id\n- 0.0373 % of indic-hi\n- 0.0330 % of indic-ta\n- 0.1393 % of indic-mr\n- 0.0305 % of ca\n- 0.1179 % of indic-ur\n- 0.0147 % of indic-bn\n- 0.0240 % of indic-ml\n- 0.0244 % of indic-te\n- 0.0503 % of indic-gu\n- 0.0211 % of indic-kn\n- 0.0274 % of eu\n- 0.0023 % of indic-as\n- 0.0001 % of indic-pa\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zh\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: vi\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: id\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: ca\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- dedup_document\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-as\n\n- dedup_document\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-pa\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -6618,7 +6610,7 @@ "subject": "general news", "owner": "la sexta tv" }, - "data_card": "# la sexta tv\n\n- Dataset uid: `pseudocrawl-filtered_263_www_lasexta_com`\n\n## Sizes\n\n- 0.0305 % of total\n- 0.7261 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.lasexta.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la sexta tv\n\n- Dataset uid: `pseudocrawl-filtered_263_www_lasexta_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.lasexta.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0305 % of total\n- 0.7261 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6644,7 +6636,7 @@ "subject": "general news", "owner": "perfil" }, - "data_card": "# perfil\n\n- Dataset uid: `pseudocrawl-filtered_146_www_perfil_com`\n\n## Sizes\n\n- 0.0302 % of total\n- 0.7185 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttp://www.perfil.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# perfil\n\n- Dataset uid: `pseudocrawl-filtered_146_www_perfil_com`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttp://www.perfil.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.0302 % of total\n- 0.7185 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6769,7 +6761,7 @@ }, "fname": "el_espectador.json" }, - "data_card": "# El Espectador\n\n- Dataset uid: `pseudocrawl-filtered_675_www_elespectador_com`\n\n## Sizes\n\n- 0.0298 % of total\n- 0.7086 % of es\n\n## Description\n\nEl Espectador (meaning \"The Spectator\") is a newspaper with national circulation within Colombia, founded by Fidel Cano Guti\u00e9rrez on 22 March 1887 in Medell\u00edn and published since 1915 in Bogot\u00e1. It changed from a daily to a weekly edition in 2001, following a financial crisis, and became a daily again on 11 May 2008,[2][3] a comeback which had been long rumoured,[4][5] in tabloid format (28 x 39.5 cm). From 1997 to 2011 its main shareholder was Julio Mario Santo Domingo.[6]\n\nIt is the oldest newspaper in Colombia. Since its first issue its motto has been \"El Espectador will work for the good of the country with liberal criteria and for the good of the liberal principles with patriotic criteria\". It was initially published twice a week, 500 issues each. It defined itself as a \"political, literary, news and industrial newspaper\". Years later it became a daily and in 2001 became a weekly. Since then, the paper uses the slogan \"El Espectador. Opinion is news\", implying it now focuses in opinion articles, not in breaking news. This focus was kept when it regained its daily format on 11 May 2008.[7]\n\nAccording to the latest Estudio General de Medios (EGM \u2013 Segunda Ola 2007 (II-2007)), El Espectador has 687,900 readers every week.[8] It is a member of the Inter American Press Association and the Asociaci\u00f3n de Diarios Colombianos (ANDIARIOS).\n\nIn 2007, its publisher Fidel Cano Correa said he did not agree with former President \u00c1lvaro Uribe V\u00e9lez's personal behaviour and government style, but he specified that was his own position and not the newspaper's.[9]\n\n## Homepage\n\nhttps://www.elespectador.com\n\n## Licensing\n\n- copyright - all rights reserved\n- unknown: License information unavailable\n\n\n## Speaker Locations\n\n- Latin America and the Caribbean\n- Americas\n- Colombia\n\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# El Espectador\n\n- Dataset uid: `pseudocrawl-filtered_675_www_elespectador_com`\n\n### Description\n\nEl Espectador (meaning \"The Spectator\") is a newspaper with national circulation within Colombia, founded by Fidel Cano Guti\u00e9rrez on 22 March 1887 in Medell\u00edn and published since 1915 in Bogot\u00e1. It changed from a daily to a weekly edition in 2001, following a financial crisis, and became a daily again on 11 May 2008,[2][3] a comeback which had been long rumoured,[4][5] in tabloid format (28 x 39.5 cm). From 1997 to 2011 its main shareholder was Julio Mario Santo Domingo.[6]\n\nIt is the oldest newspaper in Colombia. Since its first issue its motto has been \"El Espectador will work for the good of the country with liberal criteria and for the good of the liberal principles with patriotic criteria\". It was initially published twice a week, 500 issues each. It defined itself as a \"political, literary, news and industrial newspaper\". Years later it became a daily and in 2001 became a weekly. Since then, the paper uses the slogan \"El Espectador. Opinion is news\", implying it now focuses in opinion articles, not in breaking news. This focus was kept when it regained its daily format on 11 May 2008.[7]\n\nAccording to the latest Estudio General de Medios (EGM \u2013 Segunda Ola 2007 (II-2007)), El Espectador has 687,900 readers every week.[8] It is a member of the Inter American Press Association and the Asociaci\u00f3n de Diarios Colombianos (ANDIARIOS).\n\nIn 2007, its publisher Fidel Cano Correa said he did not agree with former President \u00c1lvaro Uribe V\u00e9lez's personal behaviour and government style, but he specified that was his own position and not the newspaper's.[9]\n\n### Homepage\n\nhttps://www.elespectador.com\n\n### Licensing\n\n- copyright - all rights reserved\n- unknown: License information unavailable\n\nGracias por visitar la p\u00e1gina web de EL ESPECTADOR y por revisar los t\u00e9rminos y condiciones de uso, as\u00ed como la Pol\u00edtica de Privacidad y Manejo de Informaci\u00f3n del website www.elespectador.com.\n\n \n\nEl usuario del website www.elespectador.com al ingresar o utilizar los servicios ofrecidos en este portal, acepta expresamente los T\u00e9rminos de Uso, Pol\u00edtica de Privacidad y Derechos de Autor de este sitio web. Al acceder a los servicios ofrecidos en este portal, el usuario acepta (i) ser mayor de edad y con capacidad legal para asumir cualquier tipo de obligaci\u00f3n, y (ii) actuar de buena fe y con principios morales y buenas costumbres.\n\n \n\nEsta p\u00e1gina de Internet y su contenido son de propiedad de COMUNICAN S.A., empresa propietaria y editora del peri\u00f3dico EL ESPECTADOR. Salvo las excepciones de ley, est\u00e1 prohibida su reproducci\u00f3n total o parcial, su traducci\u00f3n, inclusi\u00f3n, transmisi\u00f3n, transformaci\u00f3n, almacenamiento o acceso a trav\u00e9s de medios anal\u00f3gicos, digitales o de cualquier otro sistema o tecnolog\u00eda creada o por crearse, sin autorizaci\u00f3n previa y escrita de COMUNICAN S.A..\n\n \n\nCOMUNICAN S.A., ofrece los contenidos incluidos en esta p\u00e1gina de Internet en su nombre y por cuenta propia, sin que el proveedor de servicio de internet (ISP) o el operador de la web, asuman responsabilidad alguna sobre la licitud, fiabilidad, utilidad, veracidad, exactitud, exhaustividad y actualidad de los mismos.\n\n \n\nLos contenidos de este sitio, sus componentes, links y cualquier contenido del mismo no podr\u00e1 ser copiado. Bajo ninguna circunstancia el contenido de este sitio podr\u00e1 venderse, rentarse, duplicarse, publicarse, distribuirse por cualquier medio, almacenarse, retransmitirse o de cualquier otra forma transferirse independientemente que sea de forma onerosa o gratuita, sin contar con la previa y expresa autorizaci\u00f3n de COMUNICAN S.A.\n\n \n\nEl sitio no podr\u00e1 usarse para ning\u00fan fin inmoral o ilegal. Los datos que se ingresen para dichos fines ser\u00e1n eliminados inmediatamente.\n\n \n\nDerechos de Autor y Propiedad Industrial\n\n \n\nEl material que se contiene en este sitio son licenciados o son propiedad exclusiva de COMUNICAN S.A.. Todo el material utilizado dentro de www.elespectador.com est\u00e1 protegido bajo los Derechos de Autor COMUNICAN S.A. / ELESPECTADOR \u00a9 2017.\n\n \n\nUsted acepta que cualquier copia de material (parcial o completo) que usted pueda retener ser\u00e1 gobernado por los Derechos de Autor y Copyright y as\u00ed mismo deber\u00e1 exponer informaci\u00f3n de dichos Derechos de Autor y otra informaci\u00f3n correspondiente a la propiedad intelectual aqu\u00ed mencionada. La publicaci\u00f3n sin autorizaci\u00f3n expresa del titular, mediante cualquier medio bien sea impreso o electr\u00f3nico est\u00e9 estrictamente prohibido.\n\n \n\nTodas las marcas comerciales y logotipos que aparecen en la p\u00e1gina son propiedad de COMUNICAN S.A. o de terceros que nos han autorizado a incluir y utilizar dichas marcas y logotipos. Queda prohibido su uso sin previa autorizaci\u00f3n expresa del correspondiente titular. La infracci\u00f3n de estos derechos se perseguir\u00e1 civil y, en su caso, penalmente, de acuerdo con las Leyes Nacionales y Tratados Internacionales aplicables.\n\n \n\nLa protecci\u00f3n de los derechos alcanza tambi\u00e9n a los derechos de Propiedad Industrial e Intelectual de los que sea titular COMUNICAN S.A.- EL ESPECTADOR tales como nombres comerciales, logotipos \u00f3 todos aquellos susceptibles de utilizaci\u00f3n industrial o comercial. El usuario acepta respetar las condiciones establecidas por COMUNICAN S.A. para el acceso a esta p\u00e1gina, as\u00ed como las relativas a su uso, en los t\u00e9rminos que aqu\u00ed exponemos, siempre acordes a la legislaci\u00f3n vigente y en concreto a lo estipulado en la ley 23 de 1982, Decisi\u00f3n 351 de 1993, Decisi\u00f3n 486 de la C.A.N, Ley 545 de 1999 (la cual ratifica el Tratado de derechos de Autor - TDA) y la ley 545 de 1999 (la cual ratifica el Tratado sobre Interpretaci\u00f3n o ejecuci\u00f3n y sobre fonogramas \u2013 TIEF) y dem\u00e1s normas concordantes.\n\n \n\nLa elusi\u00f3n de las medidas tecnol\u00f3gicas de protecci\u00f3n, el acceso no autorizado a los contenidos, bases de datos \u00f3 servicios de www.elespectador.com ser\u00e1 considerado como una intromisi\u00f3n il\u00edcita, conservado COMUNICAN S.A. todas aquellas acciones legales que tanto la legislaci\u00f3n vigente en Colombia as\u00ed como la Legislaci\u00f3n Internacional aplicable puedan conferirle.\n\n \n\nSalvo las excepciones de ley, se proh\u00edbe expresamente, sin autorizaci\u00f3n formal de COMUNICAN S.A., modificar, transmitir o usar los contenidos de esta p\u00e1gina para prop\u00f3sitos comerciales o de difusi\u00f3n p\u00fablica, a menos que se haya formalizado alg\u00fan acuerdo expreso de colaboraci\u00f3n y/o comercializaci\u00f3n.\n\n \n\nPara obtener licencias o permisos de uso de art\u00edculos, fotograf\u00edas, ilustraciones, caricaturas, ilustraciones gr\u00e1ficos, reportajes y cualquier otro contenido de www.elespectador.com, por favor comun\u00edquese con el editor enviando un e-mail a servicioalcliente@elespectador.com o llamando al tel\u00e9fono (57)(1) 4232300 o enviando una comunicaci\u00f3n a la Calle 103 No. 69B-43 Torre V, Bogot\u00e1, Colombia.\n\n \n\nResponsabilidad\n\n \n\nLos materiales contenidos en la p\u00e1gina web de EL ESPECTADOR son proporcionados \u201cen estado original\u201d y sin garant\u00edas de ninguna clase, ya sean expresas o impl\u00edcitas. Dentro de los t\u00e9rminos de las leyes aplicables, COMUNICAN S.A. no ser\u00e1 responsable de ninguna garant\u00eda, expresa o impl\u00edcita, incluyendo, pero sin limitaci\u00f3n a garant\u00edas impl\u00edcitas de comerciabilidad y adecuaci\u00f3n para un prop\u00f3sito en particular. COMUNICAN S.A. no garantiza que las funciones contenidas en los materiales ser\u00e1n ininterrumpidas o libres de errores, que los defectos ser\u00e1n corregidos, o que EL ESPECTADOR o el servidor que permite su disponibilidad estar\u00e1n libres de virus u otros componentes da\u00f1inos.\n\n \n\nCOMUNICAN S.A. no garantiza ni ofrece ninguna representaci\u00f3n con respecto al uso o los resultados del uso de los materiales en la presente p\u00e1gina web, en t\u00e9rminos de su correcci\u00f3n, exactitud, confiabilidad, o cualquier otra forma. El material le\u00eddo por los visitantes en la p\u00e1gina \u00e9sta web es proporcionado \u00fanicamente para fines noticiosos, informativos, promocionales y de entretenimiento.\n\n \n\nCOMUNICAN S.A. se exime expresamente de cualquier responsabilidad por los materiales que se encuentran en esta p\u00e1gina, que puedan ser inapropiados seg\u00fan la legislaci\u00f3n de terceros pa\u00edses. Est\u00e1 prohibido el acceso a dichos materiales desde pa\u00edses o zonas donde sus contenidos sean ilegales o perseguidos civil o penalmente.\n\n \n\nQuienes accedan a esta p\u00e1gina desde otros pa\u00edses o territorios lo hacen bajo su propia iniciativa y ser\u00e1n responsables del estricto cumplimiento de las Leyes Locales y/o Internacionales que resulten aplicables. COMUNICAN S.A. no aceptar\u00e1 ninguna responsabilidad por el acceso de terceros a cualquier apartado o contenido de \u00e9sta p\u00e1gina, como consecuencia de enlaces a la misma. COMUNICAN S.A. excluye cualquier responsabilidad por da\u00f1os y perjuicios de toda naturaleza que puedan deberse a la utilizaci\u00f3n ilegal que los usuarios puedan realizar de los contenidos de \u00e9sta p\u00e1gina.\n\n \n\nEn ning\u00fan caso COMUNICAN S.A., sus proveedores, distribuidores o dem\u00e1s terceros ser\u00e1n responsables por da\u00f1os de cualquier tipo, (incluyendo, con car\u00e1cter enunciativo y no limitativo los da\u00f1os resultantes de p\u00e9rdidas de beneficio, p\u00e9rdida de datos, o interrupci\u00f3n de negocio) que resulten del uso, imposibilidad del uso o de los resultados del uso de esta p\u00e1gina.\n\n \n\nLa informaci\u00f3n adjunta puede contener fallos de funcionamiento, errores, problemas u otras limitaciones. COMUNICAN S.A. no asume ninguna responsabilidad sobre los errores o sobre las omisiones en el contenido.\n\n \n\nCOMUNICAN S.A. pondr\u00e1 todos los medios a su alcance y la mayor diligencia debida, para prevenir y evitar la presencia de virus en los contenidos, la presencia de otros elementos que puedan producir alteraciones en los sistemas inform\u00e1ticos, o en los documentos electr\u00f3nicos, digitales y ficheros almacenados en un sistema inform\u00e1tico. COMUNICAN S.A. excluye cualquier responsabilidad por da\u00f1os y perjuicios de toda naturaleza que puedan deberse a la presencia de virus o la de otros elementos lesivos en los contenidos.\n\n \n\nCOMUNICAN S.A. no garantiza que la informaci\u00f3n transmitida por el usuario a su site, sea obtenida por un tercero no autorizado, raz\u00f3n por la cual el usuario acepta, que transmitir\u00e1 su Informaci\u00f3n de Identificaci\u00f3n Personal por su propia cuenta y riesgo.\n\n \n\nEnlaces a Sitios de Terceros\n\n \n\nSe permiten enlaces (links) a este sitio sin permiso escrito previo, siempre y cuando se identifique que el usuario est\u00e1 vinculado a www.elespectador.com. COMUNICAN S.A. se reserva el derecho de prohibir cualquier v\u00ednculo a este sitio si el mismo se considera inapropiado por cualquier raz\u00f3n.\n\n \n\nEl sitio de EL ESPECTADOR contiene enlaces a sitios operados y mantenidos por terceras partes. Las pol\u00edticas de confidencialidad de tales sitios de internet pueden ser diferentes a las pol\u00edticas de confidencialidad de EL ESPECTADOR. EL ESPECTADOR no ejerce ning\u00fan control sobre los sitios operados y mantenidos por terceras partes, sus sitios de internet, sus productos o servicios. El usuario est\u00e1 en la obligaci\u00f3n de leer la pol\u00edtica de confidencialidad de los sitios de internet enlazados a trav\u00e9s del site de EL ESPECTADOR.\n\n \n\nEL ESPECTADOR, est\u00e9 o no afiliada con p\u00e1ginas que puedan estar enlazadas con esta p\u00e1gina, no ser\u00e1 responsable por el contenido de \u00e9stas (\u201cP\u00e1ginas Enlazadas\u201d). Las P\u00e1ginas Enlazadas son s\u00f3lo para la conveniencia del visitante, quien las contacta por su propia voluntad y bajo su exclusivo riesgo.\n\n \n\nBlogs, Tableros de Mensajes, Foros de Charlas y similares\n\n \n\nLa informaci\u00f3n y opiniones expresadas en los Tableros de Mensajes, Foros de Charlas, u otros foros conducidos en esta p\u00e1gina (\u201cForos\u201d) no son necesariamente compartidas por EL ESPECTADOR, no ofreciendo EL ESPECTADOR ninguna representaci\u00f3n o garant\u00eda con respecto a dicha informaci\u00f3n o dichas opiniones. EL ESPECTADOR no es responsable de cualquier p\u00e9rdida, da\u00f1o (ya sea real, a consecuencia, punitivo u otro), perjuicio, reclamo, responsabilidad u otra causa de clase o car\u00e1cter alguno basado en, o resultante de, cualquier informaci\u00f3n u opiniones proporcionadas en la p\u00e1gina en el web.\n\n \n\nEL ESPECTADOR no orienta a los bloggers y/o foristas sobre los t\u00f3picos respecto de los cuales deben opinar, ni determina el sentido de esa opini\u00f3n, ni interviene en los procesos de investigaci\u00f3n que estos realicen para sustentar t\u00e1cticamente sus opiniones. No existe ninguna actividad de control editorial previo sobre las opiniones de los bloggers o los foristas, limit\u00e1ndose el medio de comunicaci\u00f3n a brindar un espacio para la publicaci\u00f3n, garantizando de paso la pluralidad de opiniones en nuestros blogs y foros.\n\n \n\nNo obstante lo anterior, el usuario deber\u00e1 garantizar que no remitir\u00e1 o de otra manera publicar\u00e1 a trav\u00e9s de los Blogs, Tableros de Mensajes, Foros de Charlas y similares, cualquier contenido que:\n\n \n\n* Difame, invada la privacidad, o sea obsceno, pornogr\u00e1fico, abusivo o amenazador, contrario a la moral y las buenas costumbres, discriminatorio, ofensivo, intimidatorio, calumnioso, injurioso, inapropiado, ilegal, violatorio de derechos de terceros de cualquier \u00edndole, incluidos los derechos de los menores de edad, que cause da\u00f1os y/o perjuicios, o impida o limite el derecho propio o ajeno a usar los medios de participaci\u00f3n de la p\u00e1gina de internet, constituya un delito o apolog\u00eda a un delito y/o incite a la violencia y/o a la comisi\u00f3n de delitos.\n\n \n\n* Infrinja cualquier propiedad intelectual u otro derecho de cualquier entidad o persona, incluyendo, pero sin limitaci\u00f3n, a la violaci\u00f3n de los derechos de autor o marcas registradas de cualquier persona. Una vez sea notificado EL ESPECTADOR de la infracci\u00f3n del blogger o forista a los derechos de autor sobre un contenido de titularidad de un tercero publicado en el blog o foro, proceder\u00e1 en forma inmediata a bloquear el acceso o a bajar dicho contenido, notificando al presunto infractor de dicho requerimiento para que de considerarlo, demuestre la legitimidad de su acto, y de hacerlo, volver\u00e1 a publicarse el contenido inicial;\n\n \n\n* Viole cualquier ley;\n\n \n\n* Promueva actividades ilegales;\n\n \n\n* Publicite o de otra manera solicite fondos o sea una solicitaci\u00f3n para bienes o servicios; (colectivamente \u201cMaterial No-Aprobado\u201d).\n\n \n\nEl usuario acepta y faculta expresa e irrevocablemente a EL ESPECTADOR para revisar los comentarios u opiniones vertidos en los medios de participaci\u00f3n y/o suprimir los que no se adecuen a sus Pol\u00edticas, as\u00ed como a interrumpir la comunicaci\u00f3n en caso que lo considere conveniente por tales motivos. De igual forma, EL ESPECTADOR se reserva el derecho de ejercer tal facultad cuando as\u00ed lo estime conveniente, a su discreci\u00f3n, sin que por tal raz\u00f3n sea factible imputarle responsabilidad alguna, por el no ejercicio de la facultad y/o por la existencia, ingreso, participaci\u00f3n de usuarios no deseables y/o de comentarios u opiniones que no atienden estas recomendaciones.\n\n \n\nContenido patrocinado\n\n \n\nEl \u201ccontenido patrocinado\u201d es un espacio dedicado dentro del portal www.elespectador.com, destinado a la promoci\u00f3n de marcas directamente por sus titulares, quienes bajo el concepto de Content Marketing, crean y distribuyen contenidos relevantes para sus clientes.\n\n \n\nEn esta secci\u00f3n, los editores de cada una de las marcas, pretenden trasmitir su conocimiento, dar consejos, sugerir temas de inter\u00e9s de una manera que el usuario se sienta identificado con sus marcas, formando un v\u00ednculo con las mismas, pretendiendo ser parte activa de la comunidad para aportar su opini\u00f3n y tambi\u00e9n su conocimiento. En tal sentido, las palabras, frases, contenidos editoriales y las caracter\u00edsticas y propiedades referidas y atribuidas a los bienes y servicios promocionados en la secci\u00f3n \u201ccontenido patrocinado\u201d, pertenecen \u00fanica y exclusivamente a su editor.\n\n \n\nEl editor de cada una de las marcas, garantiza que ning\u00fan material utilizado en esta secci\u00f3n, contiene utilizaciones de marcas de propiedad de terceros u de obras protegidas en exceso de los l\u00edmites autorizados por Ley o en contravenci\u00f3n a derechos de terceros. En consecuencia, es el \u00fanico responsable de cualquier violaci\u00f3n o desconocimiento de la propiedad industrial o el Derecho de Autor, y de las afirmaciones que pudieren llevar a la configuraci\u00f3n de posibles il\u00edcitos. En estos t\u00e9rminos, la informaci\u00f3n y opiniones expresadas en este sitio por los editores de cada una de las marcas, no comprometen a COMUNICAN S.A.\n\n \n\nPol\u00edtica de uso de cookies para elespectador.com\n\n \n\nEn su p\u00e1gina web El Espectador utiliza cookies propias y de terceros con la finalidad de: (i) optimizar los servicios ofrecidos, (ii) ofrecer una mejor experiencia de navegaci\u00f3n al usuario, y (iii) brindarle informaci\u00f3n de todo tipo al usuario conforme con sus preferencias, previo an\u00e1lisis de sus h\u00e1bitos de navegaci\u00f3n.\n\n \n\nEstas cookies pueden ser de varios tipos: 1) Por su duraci\u00f3n: (i) cookie de sesi\u00f3n, esto es, aquellas que \u00fanicamente permanecen activas mientras el usuario registrado haga uso de un determinado espacio web, permitiendo identificar al usuario con el fin de personalizar su experiencia. Finalizada la sesi\u00f3n, esta cookie desaparecer\u00e1 sin que sean almacenadas en el disco duro del dispositivo, (ii) cookie permanente, esto es, aquella programada directamente por el portal web con el fin de realizar el seguimiento al usuario cada vez que se genera una nueva visita. 2) Por su finalidad: (i) cookies esenciales o t\u00e9cnicas, esto es, aquellas indispensables para garantizar la adecuada navegaci\u00f3n, permitiendo el correcto tr\u00e1fico y reconocimiento de datos, (ii) cookies de personalizaci\u00f3n, aquellas que almacenan las preferencias de cierto dispositivo como por ejemplo, el idioma, el tipo de navegador, las caracter\u00edsticas que tiene el portal dependiendo el lugar del mundo desde el que se acceda a \u00e9l, etc., (iii) cookies de an\u00e1lisis, aquellas que permiten la creaci\u00f3n de un perfil de navegaci\u00f3n por usuario, analizando el comportamiento de este y sus preferencias, y (iv) cookies publicitarias, esto es, aquellas usadas para campa\u00f1as de marketing propias o de terceros, desinadas a dar a conocer al usuario productos y/o servicios en espacios previamente definidos por El Espectador para el efecto. Las cookies publicitarias, podr\u00e1n ser almacenadas y/o entregadas a anunciantes de EL ESPECTADOR para que sean utilizadas por estos en sus campa\u00f1as de mercadeo y publicidad. Estas cookies pueden ser de tipo comportamental, es decir, que se dise\u00f1an para almacenar informaci\u00f3n sobre las visitas frecuentes del usuario y la observaci\u00f3n continuada de sus h\u00e1bitos de navegaci\u00f3n, esto a su vez, permite crear un perfil para mostrar publicidad de acuerdo al an\u00e1lisis realizado.\n\n \n\nEl usuario puede escoger visitar el sitio web de EL ESPECTADOR sin \u201ccookies\u201d, pero sin estos archivos de identificaci\u00f3n no podr\u00e1 beneficiarse de algunas interesantes funciones del site de EL ESPECTADOR. Entre dichas funciones se incluye la de ofrecer una experiencia en l\u00ednea personalizada.\n\n \n\nPara visitar la web sin \u201ccookies\u201d, puede configurar su navegador para que rechace todas las \u201ccookies\u201d, o para que le avise cuando se cree una \u201ccookie\u201d. (Cada navegador es diferente, de modo que deber\u00e1 consultar el men\u00fa \u201cAyuda\u201d del suyo para saber c\u00f3mo modificar sus preferencias con relaci\u00f3n a las \u201ccookies\u201d.)\n\n \n\nLa NAI Opt-out es una herramienta que le permite al usuario optar por que su comportamiento en el internet no sea registrado. Como alternativa, puede activar la casilla\u2019 Seleccionar todo\u2019 y as\u00ed no habr\u00e1 cookie de publicidad en su computadora y se le excluir\u00e1 de cualquier programa de publicidad por comportamiento. Haga click aqu\u00ed si no desea ser registrado por cookies.\n\n \n\nCesiones \u2013 Licencia Creative Commons\n\n \n\nCon la aceptaci\u00f3n expresa de los t\u00e9rminos legales establecidos para la p\u00e1gina www.elespectador.com, el visitante concede sobre cualquier nota, mensaje/anotaci\u00f3n en el tablero de mensajes, idea, sugerencia, concepto u otro material remitido, una licencia con cobertura mundial, sin l\u00edmite de tiempo y sin esperar a cambio remuneraci\u00f3n alguna, limitada a los siguientes derechos: Derecho de reproducci\u00f3n, transformaci\u00f3n, distribuci\u00f3n y comunicaci\u00f3n p\u00fablica de la obra. Esta cesi\u00f3n tendr\u00e1 las siguientes restricciones para cualquier tercero que acepte esta licencia: a. En cada reproducci\u00f3n, transformaci\u00f3n, distribuci\u00f3n y comunicaci\u00f3n p\u00fablica de la obra, el tercero deber\u00e1 incluir una copia de esta licencia; b. El tercero no podr\u00e1 imponer ning\u00fan t\u00e9rmino sobre la obra que restrinja los t\u00e9rminos de esta licencia por parte de los cesionarios de la misma; c. El tercero no podr\u00e1 sublicenciar la obra, ni hacer uso de cualquiera de los derechos concedidos mediante el uso de medidas tecnol\u00f3gicas que controlen el acceso o uso de la obra; y d. Si el tercero decide incluir la obra en alguna base de datos o recopilaci\u00f3n, de ser este tercero propietario o gestor de esta base de datos, tendr\u00e1 que renunciar a cualquier derecho relacionado con esta inclusi\u00f3n.\n\n \n\nCOMUNICAN S.A. en su sitio web www.elespectador.com, suprimir\u00e1 toda informaci\u00f3n entregada, digitada, adjuntada que a su juicio sea considerada obscena, pornogr\u00e1fica, abusiva o amenazante, o de cualquier forma atente contra la moralidad y respeto de los dem\u00e1s usuarios o visitantes.\n\n \n\nOtros aspectos\n\n \n\nSalvo que se cuente con la licencia Creative Commons, toda utilizaci\u00f3n de esta p\u00e1gina o de su contenido, diferente a la permitida, o con fines comerciales o lucrativos, requerir\u00e1 de la previa y expresa autorizaci\u00f3n de www.elespectador.com, seg\u00fan el caso, so pena de constituir violaci\u00f3n a las normas de derechos de autor.\n\n \n\nPol\u00edtica de Privacidad y Manejo de Informaci\u00f3n\n\n \n\nEl usuario acepta la presente pol\u00edtica de privacidad y tratamiento de la informaci\u00f3n facultando a COMUNICAN S.A. para el tratamiento de datos personales (recolecci\u00f3n, almacenamiento, uso, circulaci\u00f3n y supresi\u00f3n de datos), de la siguiente forma: (i) mediante su consentimiento expl\u00edcito, esto es, una manifestaci\u00f3n expresa otorgada por el usuario al momento de su registro en la p\u00e1gina web, (ii) mediante su consentimiento inequ\u00edvoco, esto es, aquel que se ha prestado por el usuario mediante la acci\u00f3n afirmativa de continuar navegando en el sitio, previa advertencia de la recopilaci\u00f3n de datos personales.\n\n \n\nUna vez manifestado el consentimiento por el usuario para el tratamiento de datos por parte de COMUNICAN S.A., \u00e9sta obtendr\u00e1 y conservar\u00e1 todo o parte de los siguientes datos personales: nombre y apellidos, usuario, documento de identidad, edad, domicilio, regi\u00f3n, pa\u00eds, ciudad, c\u00f3digo postal, n\u00famero de tel\u00e9fono fijo, n\u00famero de tel\u00e9fono m\u00f3vil, direcci\u00f3n, direcci\u00f3n de correo electr\u00f3nico, IP, ubicaci\u00f3n, preferencias publicitarias y de consumo, preferencias de canales, quejas y reclamos, novedades de servicio, la fecha y hora de acceso a nuestro web (nos permite averiguar las horas de m\u00e1s afluencia, y hacer los ajustes precisos para evitar problemas de saturaci\u00f3n en nuestras horas punta), la direcci\u00f3n de Internet desde la que parti\u00f3 el link que dirige a nuestro web (con este dato podemos conocer la efectividad de los distintos banners y enlaces que apuntan a nuestro servidor, con el fin de potenciar los que ofrezcan mejores resultados). Esta informaci\u00f3n es agrupada en datos b\u00e1sicos y personales, datos de contacto, datos demogr\u00e1ficos, datos de gustos, preferencias y h\u00e1bitos.\n\n \n\nDe acuerdo con la legislaci\u00f3n vigente en materia de protecci\u00f3n de datos, Ley 1581 de 2012, Decreto 1377 de 2013 y dem\u00e1s decretos reglamentarios, las normas concordantes, el Usuario o Cliente autoriza a en forma expresa a COMUNICAN S.A. y INVERSIONES CROMOS S.A.S., as\u00ed como a sus filiales y subsidiarias, a la recolecci\u00f3n, almacenamiento, depuraci\u00f3n, uso, an\u00e1lisis, circulaci\u00f3n, actualizaci\u00f3n y cruce con informaci\u00f3n propia o de terceros, en cualquier tecnolog\u00eda conocida o por conocer, de los datos personales aportados en el momento de su registro, o cualquier otro facilitado a COMUNICAN S.A. para su acceso a algunos de los servicios del web site (descarga de videos, consulta de informaci\u00f3n, suscripci\u00f3n, foros, chats, concursos, etc.), para los siguientes fines:\n\n \n\n(i) gestionar tareas de administraci\u00f3n, (ii) que le sean otorgados los beneficios comerciales de todas o algunas de ellas, filiales, subsidiarias, as\u00ed como de sus anunciantes, aliados estrat\u00e9gicos y proveedores, (iii) realizar estudios estrat\u00e9gicos de marketing, segmentaci\u00f3n de mercados, nivel satisfacci\u00f3n de cliente entre otros, (iv) elaboraci\u00f3n de perfiles (perfilar de audiencias), (v) optimizar los servicios ofrecidos, ofrecer una mejor experiencia de navegaci\u00f3n al usuario mediante la configuraci\u00f3n y mejora de nuestro sitio y brindarle informaci\u00f3n de todo tipo al usuario conforme con sus preferencias, previo an\u00e1lisis de sus h\u00e1bitos de navegaci\u00f3n, (vi) transferencia o transmisi\u00f3n internacional de datos, (vii) determinar el n\u00famero de visitantes diarios de cada secci\u00f3n, lo que nos permite conocer las \u00e1reas de m\u00e1s \u00e9xito y aumentar y mejorar su contenido, con el fin de que los usuarios obtengan un resultado m\u00e1s satisfactorio), (viii) licencia de bases de datos, y (ix) realizar actividades de mercadeo de sus productos y servicios, y de los productos y servicios de sus filiales y/o aliados comerciales, autorizando la recepci\u00f3n de informaci\u00f3n por cualquier medio conocido o por conocer, sobre suscripciones, promociones, novedades, productos y servicios relacionados con los eventos y productos editoriales editados y/o comercializados por Comunican S.A. (El Espectador) e Inversiones Cromos S.A.S. y sus aliados estrat\u00e9gicos.\n\n \n\nCon el otorgamiento de la autorizaci\u00f3n, el Usuario tiene para s\u00ed los derechos ARCO (acceso, rectificaci\u00f3n, cancelaci\u00f3n y oposici\u00f3n de datos personales), lo cual implica:\n\n \n\n\u2022 Conocer, actualizar y solicitar la rectificaci\u00f3n de datos.\n\n \n\n\u2022 Solicitar prueba del otorgamiento de la presente autorizaci\u00f3n;\n\n \n\n\u2022 Saber del uso que COMUNICAN S.A. e INVERSIONES CROMOS S.A.S. han hecho de sus datos personales;\n\n \n\n\u2022 Revocar en cualquier momento la autorizaci\u00f3n de inclusi\u00f3n de sus datos personales en las bases de datos de COMUNICAN S.A. e INVERSIONES CROMOS S.A.S.;\n\n \n\n\u2022 Solicitar sin costo alguno acceso a sus datos personales previamente autorizados.\n\n \n\nEl responsable del tratamiento de datos es Comunican S.A. y como encargado de dicho tratamiento podr\u00e1 haber terceros proveedores de servicios contratados directamente por Comunican S.A., compa\u00f1\u00edas e individuos que podr\u00e1n realizar servicios en nombre de Comunican S.A., tales como: tratamiento de la informaci\u00f3n, env\u00edo de correos electr\u00f3nicos, e-marketing, limpieza de bases de datos y determinaci\u00f3n y preferencias de consumo. Comunican S.A. y los terceros proveedores de servicios deber\u00e1n tratar la informaci\u00f3n personal dentro del \u00e1mbito y para los fines comprendidos en el presente item, de acuerdo con lo previsto en la Ley 1581 de 2012, Decreto 1377 de 2013 y dem\u00e1s decretos reglamentarios y las normas que los modifiquen sobre protecci\u00f3n de datos personales, y conforme con la presente Pol\u00edtica de Privacidad y Protecci\u00f3n de Datos Personales. De ser encargado a un tercero el tratamiento de los datos personales, constar\u00e1 la referencia de los datos de identificaci\u00f3n de estos terceros a quienes se encargue el tratamiento.\n\n \n\nPara mayor informaci\u00f3n, el usuario puede contactarse a la l\u00ednea de ATENCION AL CLIENTE: 01 8000 510903 o en Bogot\u00e1 al 4055540, o ejercer los derechos anteriormente referidos, particularmente para conocer, actualizar, rectificar, suprimir y revocar la autorizaci\u00f3n prestada o solicitar la supresi\u00f3n de mis datos personales, escribiendo directamente a Comunican S.A. al correo electr\u00f3nico databasemarketing@elespectador-cromos.com o por escrito a la Calle 103 N\u00b0 69B-43 Torre 5 en Bogot\u00e1, atenci\u00f3n Se\u00f1ores Inteligencia de Mercados, se\u00f1alando el asunto \u201cTratamiento de Datos Personales\u201d indicando los datos de contacto para recibir una respuesta a m\u00e1s tardar dentro de los 10 d\u00edas h\u00e1biles siguientes a su recepci\u00f3n, prorrogables por otros 5 d\u00edas m\u00e1s, previa justificaci\u00f3n del incidente. De existir alg\u00fan reclamo sin solucionar, se acompa\u00f1ar\u00e1n los datos personales registrados del Usuario o Cliente con la siguiente leyenda: \u201cReclamo en Tr\u00e1mite\u201d. El titular de los datos personales s\u00f3lo podr\u00e1 elevar queja ante la Superintendencia de Industria y Comercio una vez haya agotado el tr\u00e1mite de consulta o reclamo ante COMUNICAN S.A..\n\n \n\nCOMUNICAN S.A. almacenar\u00e1 la informaci\u00f3n del Usuario o Cliente de manera segura y, por lo tanto, tomar\u00e1 todas las medidas de precauci\u00f3n para proteger su informaci\u00f3n contra adulteraciones, p\u00e9rdidas, consultas, uso o acceso no autorizado o fraudulento. Los subcontratistas y proveedores de COMUNICAN S.A. e INVERSIONES CROMOS S.A.S. que de una u otra forma accedan a datos personales de Usuarios por raz\u00f3n de alg\u00fan encargo especial (encargado del tratamiento) para la informaci\u00f3n de promociones, novedades, productos y servicios relacionados con los eventos y productos editoriales editados y/o comercializados por COMUNICAN S.A. y por la sociedad INVERSIONES CROMOS S.A.S., est\u00e1n obligados contractualmente a mantener dicha informaci\u00f3n confidencialmente y no podr\u00e1n utilizar esta informaci\u00f3n para ning\u00fan otro fin.\n\n \n\nCOMUNICAN S.A. e INVERSIONES CROMOS S.A.S. no desean recopilar datos personales de menores de 18 a\u00f1os, a menos que se cuente con la expresa autorizaci\u00f3n de sus padres o acudientes legales. Presumimos que los menores cuentan con la autorizaci\u00f3n de sus acudientes legales para suministrar informaci\u00f3n personal. Sin embargo, si los padres u otro tutor legal descubre que los ni\u00f1os bajo su supervisi\u00f3n han suministrado informaci\u00f3n personal a COMUNICAN S.A. sin su autorizaci\u00f3n, y desean eliminarla, les solicitamos que se pongan en contacto con nosotros y nos informen e instruyan en forma inmediata.\n\n \n\nEl usuario responder\u00e1, en cualquier caso, de la veracidad de los datos facilitados, reserv\u00e1ndose COMUNICAN S.A. el derecho a excluir de los servicios registrados a todo usuario que haya facilitado datos falsos, sin perjuicio de las dem\u00e1s acciones que procedan en Derecho.\n\n \n\nCOMUNICAN S.A. podr\u00e1 transferir la Informaci\u00f3n de Identificaci\u00f3n Personal como parte de los activos de COMUNICAN S.A. en caso de que la Compa\u00f1\u00eda o partes del negocio fuesen vendidas, fusionadas o adquiridas por terceros.\n\n \n\nLa presente pol\u00edtica de tratamiento de informaci\u00f3n tiene una vigencia contada a partir del 27 de julio de 2013. La vigencia de la base de datos ser\u00e1 por el t\u00e9rmino m\u00e1ximo permitido la ley.\n\n \n\nRequerimientos de las Autoridades:\n\n \n\nCOMUNICAN S.A. cooperar\u00e1 con las autoridades competentes para garantizar el cumplimiento de las leyes, en materia de protecci\u00f3n de la propiedad intelectual, prevenci\u00f3n del fraude y otras materias.\n\n \n\nEl usuario del web site www.elespectador.com autoriza expresamente COMUNICAN S.A. a suministrar cualquier Informaci\u00f3n Personal sobre \u00e9l, con la finalidad de dar cumplimiento a cualquier requerimiento de autoridad competente, y con el fin de cooperar con las autoridades competentes en la medida en que discrecionalmente lo entendamos necesario y adecuado en relaci\u00f3n con cualquier investigaci\u00f3n de un il\u00edcito o un fraude, infracci\u00f3n de derechos de propiedad intelectual, u otra actividad que sea ilegal o que pueda exponer a COMUNICAN S.A. a cualquier responsabilidad legal. Adem\u00e1s, el usuario nos autoriza a comunicar su Nombre de Usuario, nombre y apellidos, domicilio, ciudad, regi\u00f3n, c\u00f3digo postal, pa\u00eds, n\u00famero de tel\u00e9fono, direcci\u00f3n de correo electr\u00f3nico, y nombre de su compa\u00f1\u00eda a las autoridades competentes, en relaci\u00f3n con la investigaci\u00f3n del fraude, infracci\u00f3n de derechos de propiedad intelectual, pirater\u00eda, o cualquier otra actividad ilegal.\n\n \n\nSeguridad\n\n \n\nCOMUNICAN S.A. est\u00e1 obligada a cumplir con toda la legislaci\u00f3n aplicable en materia de medidas de seguridad aplicables a su Informaci\u00f3n Personal. Adicionalmente, COMUNICAN S.A. usa los est\u00e1ndares de la industria en materia de protecci\u00f3n de la confidencialidad de su Informaci\u00f3n Personal, incluyendo, en otras medidas, cortafuegos (\u201cfirewalls\u201d) y Secure Socket Layers (\u201cSSL\u201d).\n\n \n\nPol\u00edtica de pagos en l\u00ednea - T\u00e9rminos y Condiciones de Compradores\n\n \n\nCOMUNICAN S.A., ha celebrado un acuerdo con PayU el servicio de plataforma de pagos electr\u00f3nicos (en adelante \u201cel proveedor del sistema de pago\u201d), para que a trav\u00e9s del uso de tarjetas de cr\u00e9dito y d\u00e9bito, sea posible la adquisici\u00f3n de cualquier tipo de producto suministrado por COMUNICAN S.A. en su website www.elespectador.com.\n\n \n\nPayU es un proveedor de servicios de pago que presta a COMUNICAN S.A. los siguientes servicios: (i) le concede una licencia exclusiva y revocable para el uso de una plataforma tecnol\u00f3gica destinada al procesamiento en l\u00ednea de pagos resultantes de la venta en l\u00ednea de bienes y servicios (la \u201cPlataforma PayU\u201d). (ii) le habilita el pago de los bienes y servicios ofrecidos a sus compradores a trav\u00e9s de diversos medios de pago. (iii) ejecuta la validaci\u00f3n de transacciones pagadas con tarjeta de cr\u00e9dito a fin de mitigar el riesgo de fraude por suplantaci\u00f3n de identidad de tarjetahabientes. iv) recauda, en representaci\u00f3n y por cuenta de COMUNICAN S.A., los pagos resultantes de las transacciones en cuesti\u00f3n; y (v) transfiere, a la Cuenta bancaria de COMUNICAN S.A., los montos recaudados con ocasi\u00f3n de dichos pagos (en adelante los \u201cServicios PayU\u201d).\n\n \n\nEl comprador de los bienes y/o servicios de COMUNICAN S.A. entiende y acepta: (a) Que utiliza el sistema de pago por su cuenta y riesgo; (b) Que el proveedor del sistema de pago no garantiza la disponibilidad o las demoras de la plataforma procesando las transacciones; (c) Que el proveedor del sistema de pago no garantiza la seguridad de la plataforma, y en particular la no ocurrencia de fraudes con la informaci\u00f3n del tarjetahabiente; (d) Que el proveedor del sistema de pago no garantiza el correcto ni oportuno procesamiento de las transacciones a trav\u00e9s de la plataforma; (e) Que el proveedor del sistema de pago se exime de responsabilidad en relaci\u00f3n con los bienes y/o servicios ofrecidos, su calidad, seguridad, idoneidad y tiempo de entrega; (f) Que el proveedor del sistema de pago no se hace responsable por el pago de los tributos que se causen como consecuencia de la relaci\u00f3n contractual entre el Comercio y el Pagador; (g) Que el proveedor del sistema de pago se exime de responsabilidad por el incumplimiento de COMUNICAN S.A. de sus obligaciones relacionadas con el manejo de datos personales. (h) Que el pagador autoriza al proveedor del sistema de pago para utilizar sus datos personales a fin de mitigar el riesgo de suplantaci\u00f3n de identidad de los tarjetahabientes, enviarles informaci\u00f3n promocional y publicitaria PayU, de los comercios registrados en la Plataforma PayU y de terceros que incluyan promociones para la compra de bienes o servicios a trav\u00e9s de la Plataforma PayU, enviar cupones de descuento, afiliar a programas de lealtad, crear perfiles de consumo del pagador, entre otros materiales promocionales y publicitarios que puedan llegar a ser de inter\u00e9s del pagador. (i) Que el pagador podr\u00e1 solicitar al proveedor del sistema de pago, en cualquier momento, que no se le env\u00ede informaci\u00f3n promocional o publicitaria, o que se le env\u00ede s\u00f3lo cierta informaci\u00f3n que sea de su inter\u00e9s.\n\n \n\nEl portal de pagos de PayU, previa solicitud de COMUNICAN S.A. y autorizaci\u00f3n del pagador, habilitar\u00e1 la posibilidad de hacer d\u00e9bitos autom\u00e1ticos peri\u00f3dicos de las cuentas bancarias cualquiera sea su modalidad y de las tarjetas de cr\u00e9dito, a fin de pagar el suministro sucesivo de bienes o servicios (\u201cD\u00e9bitos Recurrentes\u201d).\n\n \n\nTras la conexi\u00f3n con la plataforma de PayU, la informaci\u00f3n personal del usuario se codificar\u00e1 de forma segura y autom\u00e1tica, antes de enviarse a trav\u00e9s de Internet. PayU garantiza que la informaci\u00f3n personal del usuario se registra de forma segura (codificada) a sus servidores web y no a un servidor desconocido y no autorizado.\n\n \n\nLa informaci\u00f3n personal suministrada por el banco para el uso de d\u00e9bitos por internet es administrada y custodiada por el banco emisor. El usuario deber\u00e1 mantener dicha informaci\u00f3n en secreto; por ning\u00fan motivo COMUNICAN S.A. y PayU solicitar\u00e1n claves ni n\u00fameros de cuentas bancarias al usuario pagador. Esta informaci\u00f3n s\u00f3lo ser\u00e1 registrada al momento en que el usuario accede a la sucursal virtual de su banco adquiriente, entidad que est\u00e1 en la obligaci\u00f3n de custodiar y administrar las claves de sus clientes.\n\n \n\nJurisdicci\u00f3n y Legislaci\u00f3n Aplicable\n\n \n\nEstos t\u00e9rminos de uso se regir\u00e1n, interpretar\u00e1n y aplicar\u00e1n seg\u00fan las leyes de la Rep\u00fablica de Colombia.\n\n \n\nCambios de Pol\u00edtica\n\n \n\nCOMUNICAN S.A. www.elespectador.com se reserva la facultad de revisar en cualquier momento estos TERMINOS DE USO DE LA PAGINA. Los usuarios quedan obligados por dichas revisiones. COMUNICAN S.A. publicar\u00e1 mediante aviso en su site, cualquier cambio en su pol\u00edtica de confidencialidad.\n\n\n### Speaker Locations\n\n- Latin America and the Caribbean\n- Americas\n- Colombia\n\n\n### Sizes\n\n- 0.0298 % of total\n- 0.7086 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6795,7 +6787,7 @@ "subject": "general news", "owner": "noticias sin" }, - "data_card": "# noticias sin\n\n- Dataset uid: `pseudocrawl-filtered_181_noticiassin_com`\n\n## Sizes\n\n- 0.0266 % of total\n- 0.6343 % of es\n\n## Description\n\nwebsite: domenican republic -general news\n\n## Homepage\n\nhttps://noticiassin.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ndomenican republic\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# noticias sin\n\n- Dataset uid: `pseudocrawl-filtered_181_noticiassin_com`\n\n### Description\n\nwebsite: domenican republic -general news\n\n### Homepage\n\nhttps://noticiassin.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ndomenican republic\n\n### Sizes\n\n- 0.0266 % of total\n- 0.6343 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6905,7 +6897,7 @@ }, "fname": "tecla__text_classification_catalan_dataset.json" }, - "data_card": "# TeCla: Text Classification Catalan dataset\n\n- Dataset uid: `tecla`\n\n## Sizes\n\n- 0.0266 % of total\n- 2.2433 % of ca\n\n## Description\n\nTeCla is a Catalan News corpus for thematic Text Classification tasks. It contains 153.265 articles classified under 30 different categories.\n\nThe source data is crawled from the ACN (Catalan News Agency) site: http://www.acn.cat, and used under CC-BY-NC-ND 4.0 licence. The dataset is released under the same licence, and is intended exclusively for training Machine Learning models.\n\nThis dataset was developed by BSC TeMU as part of the AINA project, and intended as part of CLUB (Catalan Language Understanding Benchmark).\n\n## Homepage\n\nhttps://zenodo.org/record/4761505\n\n## Licensing\n\n- non-commercial use\n- do not distribute\n- cc-by-nc-nd-1.0: Creative Commons Attribution Non Commercial No Derivatives 1.0 Generic\n\n\n## Speaker Locations\n\n- Spain\n\n\n## BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# TeCla: Text Classification Catalan dataset\n\n- Dataset uid: `tecla`\n\n### Description\n\nTeCla is a Catalan News corpus for thematic Text Classification tasks. It contains 153.265 articles classified under 30 different categories.\n\nThe source data is crawled from the ACN (Catalan News Agency) site: http://www.acn.cat, and used under CC-BY-NC-ND 4.0 licence. The dataset is released under the same licence, and is intended exclusively for training Machine Learning models.\n\nThis dataset was developed by BSC TeMU as part of the AINA project, and intended as part of CLUB (Catalan Language Understanding Benchmark).\n\n### Homepage\n\nhttps://zenodo.org/record/4761505\n\n### Licensing\n\n- non-commercial use\n- do not distribute\n- cc-by-nc-nd-1.0: Creative Commons Attribution Non Commercial No Derivatives 1.0 Generic\n\n\n### Speaker Locations\n\n- Spain\n\n\n### Sizes\n\n- 0.0266 % of total\n- 2.2433 % of ca\n\n### BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6931,7 +6923,7 @@ "subject": "general news", "owner": "p\u00e1gina 7" }, - "data_card": "# p\u00e1gina 7\n\n- Dataset uid: `pseudocrawl-filtered_320_www_paginasiete_bo`\n\n## Sizes\n\n- 0.0265 % of total\n- 0.6314 % of es\n\n## Description\n\nwebsite: bolivia -general news\n\n## Homepage\n\nhttp://www.paginasiete.bo/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nbolivia\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# p\u00e1gina 7\n\n- Dataset uid: `pseudocrawl-filtered_320_www_paginasiete_bo`\n\n### Description\n\nwebsite: bolivia -general news\n\n### Homepage\n\nhttp://www.paginasiete.bo/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nbolivia\n\n### Sizes\n\n- 0.0265 % of total\n- 0.6314 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6957,7 +6949,7 @@ "subject": "general news", "owner": "qu\u00e9!" }, - "data_card": "# qu\u00e9!\n\n- Dataset uid: `pseudocrawl-filtered_203_www_que_es`\n\n## Sizes\n\n- 0.0264 % of total\n- 0.6293 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.que.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# qu\u00e9!\n\n- Dataset uid: `pseudocrawl-filtered_203_www_que_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.que.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0264 % of total\n- 0.6293 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -6983,7 +6975,7 @@ "subject": "news", "owner": "" }, - "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_503_www_zaobao_com_sg`\n\n## Sizes\n\n- 0.0264 % of total\n- 0.0933 % of zh\n\n## Description\n\nwebsite: singapore -news\n\n## Homepage\n\nhttps://www.zaobao.com.sg/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: zh\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_503_www_zaobao_com_sg`\n\n### Description\n\nwebsite: singapore -news\n\n### Homepage\n\nhttps://www.zaobao.com.sg/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0264 % of total\n- 0.0925 % of zh\n\n### BigScience processing steps\n\n#### Filters applied to: zh\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7009,7 +7001,7 @@ "subject": "general news", "owner": "vanguardia" }, - "data_card": "# vanguardia\n\n- Dataset uid: `pseudocrawl-filtered_220_www_vanguardia_com_mx`\n\n## Sizes\n\n- 0.0246 % of total\n- 0.5866 % of es\n\n## Description\n\nwebsite: mexico -general news\n\n## Homepage\n\nhttp://www.vanguardia.com.mx/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nmexico\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# vanguardia\n\n- Dataset uid: `pseudocrawl-filtered_220_www_vanguardia_com_mx`\n\n### Description\n\nwebsite: mexico -general news\n\n### Homepage\n\nhttp://www.vanguardia.com.mx/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nmexico\n\n### Sizes\n\n- 0.0246 % of total\n- 0.5866 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7035,7 +7027,7 @@ "subject": "general news", "owner": "radio televisi\u00f3n espa\u00f1ola" }, - "data_card": "# radio televisi\u00f3n espa\u00f1ola\n\n- Dataset uid: `pseudocrawl-filtered_71_www_rtve_es`\n\n## Sizes\n\n- 0.0243 % of total\n- 0.5776 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttp://www.rtve.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# radio televisi\u00f3n espa\u00f1ola\n\n- Dataset uid: `pseudocrawl-filtered_71_www_rtve_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttp://www.rtve.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0243 % of total\n- 0.5776 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7061,7 +7053,7 @@ "subject": "general news", "owner": "todo noticias" }, - "data_card": "# todo noticias\n\n- Dataset uid: `pseudocrawl-filtered_232_tn_com_ar`\n\n## Sizes\n\n- 0.0236 % of total\n- 0.5618 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttps://tn.com.ar/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# todo noticias\n\n- Dataset uid: `pseudocrawl-filtered_232_tn_com_ar`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttps://tn.com.ar/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.0236 % of total\n- 0.5618 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7087,7 +7079,7 @@ "subject": "general news", "owner": "america economia" }, - "data_card": "# america economia\n\n- Dataset uid: `pseudocrawl-filtered_406_www_americaeconomia_com`\n\n## Sizes\n\n- 0.0233 % of total\n- 0.5544 % of es\n\n## Description\n\nwebsite: cl -general news\n\n## Homepage\n\nhttps://www.americaeconomia.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ncl\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# america economia\n\n- Dataset uid: `pseudocrawl-filtered_406_www_americaeconomia_com`\n\n### Description\n\nwebsite: cl -general news\n\n### Homepage\n\nhttps://www.americaeconomia.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ncl\n\n### Sizes\n\n- 0.0233 % of total\n- 0.5544 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7113,7 +7105,7 @@ "subject": "general news", "owner": "andalucia informacion" }, - "data_card": "# andalucia informacion\n\n- Dataset uid: `pseudocrawl-filtered_130_www_elperiodicomediterraneo_com`\n\n## Sizes\n\n- 0.0233 % of total\n- 0.5543 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.elperiodicomediterraneo.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# andalucia informacion\n\n- Dataset uid: `pseudocrawl-filtered_130_www_elperiodicomediterraneo_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.elperiodicomediterraneo.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0233 % of total\n- 0.5543 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7139,7 +7131,7 @@ "subject": "general news", "owner": "telesur" }, - "data_card": "# telesur\n\n- Dataset uid: `pseudocrawl-filtered_248_www_telesurtv_net`\n\n## Sizes\n\n- 0.0233 % of total\n- 0.5537 % of es\n\n## Description\n\nwebsite: venezuela -general news\n\n## Homepage\n\nhttp://www.telesurtv.net/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nvenezuela\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# telesur\n\n- Dataset uid: `pseudocrawl-filtered_248_www_telesurtv_net`\n\n### Description\n\nwebsite: venezuela -general news\n\n### Homepage\n\nhttp://www.telesurtv.net/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nvenezuela\n\n### Sizes\n\n- 0.0233 % of total\n- 0.5537 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7253,7 +7245,7 @@ }, "fname": "cnnindonesia_com.json" }, - "data_card": "# cnnindonesia.com\n\n- Dataset uid: `pseudocrawl-filtered_549_www_cnnindonesia_com`\n\n## Sizes\n\n- 0.0228 % of total\n- 8.6805 % of id\n\n## Description\n\nCable News Network Indonesia (known as CNN Indonesia) is a 24-hour Indonesian digital free-to-air and cable television news channel owned by Trans Media in collaboration with AT&T's WarnerMedia under its CNN license. Broadcasting from Trans Media studios in South Jakarta, the local franchise presents national and international content, focusing on general news, business, sports and technology.\n\n## Homepage\n\nhttps://www.cnnindonesia.com/\n\n## Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\n\n## Speaker Locations\n\n- Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" + "data_card": "# cnnindonesia.com\n\n- Dataset uid: `pseudocrawl-filtered_549_www_cnnindonesia_com`\n\n### Description\n\nCable News Network Indonesia (known as CNN Indonesia) is a 24-hour Indonesian digital free-to-air and cable television news channel owned by Trans Media in collaboration with AT&T's WarnerMedia under its CNN license. Broadcasting from Trans Media studios in South Jakarta, the local franchise presents national and international content, focusing on general news, business, sports and technology.\n\n### Homepage\n\nhttps://www.cnnindonesia.com/\n\n### Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\nhttps://www.cnnindonesia.com/disclaimer\n\n\n### Speaker Locations\n\n- Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0228 % of total\n- 8.6805 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -7279,7 +7271,7 @@ "subject": "general news", "owner": "el debate" }, - "data_card": "# el debate\n\n- Dataset uid: `pseudocrawl-filtered_253_www_debate_com_mx`\n\n## Sizes\n\n- 0.0227 % of total\n- 0.5398 % of es\n\n## Description\n\nwebsite: mexico -general news\n\n## Homepage\n\nhttp://www.debate.com.mx/index.html\n\n## Licensing\n\n\n\n## Speaker Locations\n\nmexico\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el debate\n\n- Dataset uid: `pseudocrawl-filtered_253_www_debate_com_mx`\n\n### Description\n\nwebsite: mexico -general news\n\n### Homepage\n\nhttp://www.debate.com.mx/index.html\n\n### Licensing\n\n\n\n### Speaker Locations\n\nmexico\n\n### Sizes\n\n- 0.0227 % of total\n- 0.5398 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7392,7 +7384,7 @@ }, "fname": "catalan_government_crawling.json" }, - "data_card": "# Catalan Government Crawling\n\n- Dataset uid: `catalan_government_crawling`\n\n## Sizes\n\n- 0.0219 % of total\n- 1.8426 % of ca\n\n## Description\n\nThe Catalan Government Crawling Corpus is a 39-million-token web corpus of Catalan built from the web. It has been obtained by crawling the .gencat domain and subdomains, belonging to the Catalan Government during September and October 2020. It consists of 39.117.909 tokens, 1.565.433 sentences and 71.043 documents. Documents are separated by single new lines. It is a subcorpus of the Catalan Textual Corpus.\n\n## Homepage\n\nhttps://zenodo.org/record/4636486\n\n## Licensing\n\n- open license\n- cc0-1.0: Creative Commons Zero v1.0 Universal\n\n\n## Speaker Locations\n\n- Southern Europe\n- Spain\n\n\n## BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Catalan Government Crawling\n\n- Dataset uid: `catalan_government_crawling`\n\n### Description\n\nThe Catalan Government Crawling Corpus is a 39-million-token web corpus of Catalan built from the web. It has been obtained by crawling the .gencat domain and subdomains, belonging to the Catalan Government during September and October 2020. It consists of 39.117.909 tokens, 1.565.433 sentences and 71.043 documents. Documents are separated by single new lines. It is a subcorpus of the Catalan Textual Corpus.\n\n### Homepage\n\nhttps://zenodo.org/record/4636486\n\n### Licensing\n\n- open license\n- cc0-1.0: Creative Commons Zero v1.0 Universal\n\n\n### Speaker Locations\n\n- Southern Europe\n- Spain\n\n\n### Sizes\n\n- 0.0219 % of total\n- 1.8426 % of ca\n\n### BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7418,7 +7410,7 @@ "subject": "general news", "owner": "la gaceta" }, - "data_card": "# la gaceta\n\n- Dataset uid: `pseudocrawl-filtered_354_www_lagaceta_com_ar`\n\n## Sizes\n\n- 0.0217 % of total\n- 0.5168 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttp://www.lagaceta.com.ar/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la gaceta\n\n- Dataset uid: `pseudocrawl-filtered_354_www_lagaceta_com_ar`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttp://www.lagaceta.com.ar/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.0217 % of total\n- 0.5168 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7697,7 +7689,7 @@ }, "fname": "opus_100.json" }, - "data_card": "# OPUS-100\n\n- Dataset uid: `opus100`\n\n## Sizes\n\n- 0.0213 % of total\n- 0.0556 % of ar\n- 0.2189 % of indic-bn\n- 2.6293 % of eu\n- 0.2514 % of indic-ml\n- 0.4731 % of indic-ur\n- 0.0328 % of indic-hi\n- 1.5992 % of indic-as\n- 0.0316 % of pt\n- 0.0521 % of indic-ta\n- 0.0785 % of indic-or\n- 0.0682 % of indic-gu\n- 0.0499 % of id\n- 0.0147 % of indic-kn\n- 0.0171 % of indic-pa\n- 0.0047 % of indic-te\n- 0.0016 % of vi\n- 0.0011 % of ca\n- 0.0045 % of indic-mr\n\n## Description\n\nOPUS-100 is an English-centric multilingual corpus covering 100 languages.\n\n## Homepage\n\nhttps://github.com/EdinburghNLP/opus-100-corpus\n\n## Licensing\n\n\n\n## Speaker Locations\n\n- Netherlands\n- Switzerland\n- Scotland\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-as\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: pt\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-gu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-mr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# OPUS-100\n\n- Dataset uid: `opus100`\n\n### Description\n\nOPUS-100 is an English-centric multilingual corpus covering 100 languages.\n\n### Homepage\n\nhttps://github.com/EdinburghNLP/opus-100-corpus\n\n### Licensing\n\n\n\n### Speaker Locations\n\n- Netherlands\n- Switzerland\n- Scotland\n\n\n### Sizes\n\n- 0.0213 % of total\n- 0.0556 % of ar\n- 0.2189 % of indic-bn\n- 2.6293 % of eu\n- 0.2514 % of indic-ml\n- 0.4731 % of indic-ur\n- 0.0328 % of indic-hi\n- 1.5992 % of indic-as\n- 0.0316 % of pt\n- 0.0521 % of indic-ta\n- 0.0785 % of indic-or\n- 0.0682 % of indic-gu\n- 0.0499 % of id\n- 0.0147 % of indic-kn\n- 0.0171 % of indic-pa\n- 0.0047 % of indic-te\n- 0.0016 % of vi\n- 0.0011 % of ca\n- 0.0045 % of indic-mr\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: eu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-as\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: pt\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-gu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-kn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-pa\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-mr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -7723,7 +7715,7 @@ "subject": "general news", "owner": "ladiaria" }, - "data_card": "# ladiaria\n\n- Dataset uid: `pseudocrawl-filtered_44_ladiaria_com_uy`\n\n## Sizes\n\n- 0.0212 % of total\n- 0.5035 % of es\n\n## Description\n\nwebsite: uruguay -general news\n\n## Homepage\n\nhttps://ladiaria.com.uy/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nuruguay\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# ladiaria\n\n- Dataset uid: `pseudocrawl-filtered_44_ladiaria_com_uy`\n\n### Description\n\nwebsite: uruguay -general news\n\n### Homepage\n\nhttps://ladiaria.com.uy/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nuruguay\n\n### Sizes\n\n- 0.0212 % of total\n- 0.5035 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7749,7 +7741,7 @@ "subject": "financial news", "owner": "gesti\u00f3n" }, - "data_card": "# gesti\u00f3n\n\n- Dataset uid: `pseudocrawl-filtered_324_gestion_pe`\n\n## Sizes\n\n- 0.0211 % of total\n- 0.5022 % of es\n\n## Description\n\nwebsite: peru -financial news\n\n## Homepage\n\nhttp://gestion.pe/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nperu\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# gesti\u00f3n\n\n- Dataset uid: `pseudocrawl-filtered_324_gestion_pe`\n\n### Description\n\nwebsite: peru -financial news\n\n### Homepage\n\nhttp://gestion.pe/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nperu\n\n### Sizes\n\n- 0.0211 % of total\n- 0.5022 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7858,7 +7850,7 @@ }, "fname": "nairaland.json" }, - "data_card": "# pseudocrawl-filtered_534_www_nairaland_com\n\n- Dataset uid: `pseudocrawl-filtered_534_www_nairaland_com`\n\n## Sizes\n\n- 0.0210 % of total\n- 0.1138 % of en\n\n## Description\n\nNairaland is Nigeria's biggest forum and has existed since 2005\n\n## Homepage\n\nhttps://www.nairaland.com/\n\n## Licensing\n\n- copyright - all rights reserved\n- unknown: License information unavailable\n\n\n## Speaker Locations\n\n- Africa\n- Nigeria\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# pseudocrawl-filtered_534_www_nairaland_com\n\n- Dataset uid: `pseudocrawl-filtered_534_www_nairaland_com`\n\n### Description\n\nNairaland is Nigeria's biggest forum and has existed since 2005\n\n### Homepage\n\nhttps://www.nairaland.com/\n\n### Licensing\n\n- copyright - all rights reserved\n- unknown: License information unavailable\n\nNairaland - Copyright \u00a9 2005 - 2021 Oluwaseun Osewa. All rights reserved.\n\n\n### Speaker Locations\n\n- Africa\n- Nigeria\n\n\n### Sizes\n\n- 0.0210 % of total\n- 0.1138 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7884,7 +7876,7 @@ "subject": "general news", "owner": "hola" }, - "data_card": "# hola\n\n- Dataset uid: `pseudocrawl-filtered_213_www_hola_com`\n\n## Sizes\n\n- 0.0210 % of total\n- 0.4987 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.hola.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# hola\n\n- Dataset uid: `pseudocrawl-filtered_213_www_hola_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.hola.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0210 % of total\n- 0.4987 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7910,7 +7902,7 @@ "subject": "general news", "owner": "fayerwayer" }, - "data_card": "# fayerwayer\n\n- Dataset uid: `pseudocrawl-filtered_28_www_fayerwayer_com`\n\n## Sizes\n\n- 0.0208 % of total\n- 0.4957 % of es\n\n## Description\n\nwebsite: usa -general news\n\n## Homepage\n\nhttp://www.fayerwayer.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nusa\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# fayerwayer\n\n- Dataset uid: `pseudocrawl-filtered_28_www_fayerwayer_com`\n\n### Description\n\nwebsite: usa -general news\n\n### Homepage\n\nhttp://www.fayerwayer.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nusa\n\n### Sizes\n\n- 0.0208 % of total\n- 0.4957 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7936,7 +7928,7 @@ "subject": "general news", "owner": "el sol de mexico" }, - "data_card": "# el sol de mexico\n\n- Dataset uid: `pseudocrawl-filtered_157_www_elsoldemexico_com_mx`\n\n## Sizes\n\n- 0.0204 % of total\n- 0.4865 % of es\n\n## Description\n\nwebsite: mexico -general news\n\n## Homepage\n\nhttps://www.elsoldemexico.com.mx/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nmexico\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el sol de mexico\n\n- Dataset uid: `pseudocrawl-filtered_157_www_elsoldemexico_com_mx`\n\n### Description\n\nwebsite: mexico -general news\n\n### Homepage\n\nhttps://www.elsoldemexico.com.mx/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nmexico\n\n### Sizes\n\n- 0.0204 % of total\n- 0.4865 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -7980,13 +7972,9 @@ "--filter-short-documents": "filter_small_docs_bytes_300" }, { - "ln_code": "zhs", - "dataset_name": "lm_zhs_qedcorpus", - "size": 0.009638131, - "--filters": "", - "--dedups": "dedup_document dedup_template_soft filter_remove_empty_docs", - "--maps-and-filters argument": "", - "--filter-short-documents": "filter_small_docs_bytes_1024" + "ln_code": "zh", + "dataset_name": "lm_zh_qedcorpus", + "size": 0.009638131 }, { "ln_code": "fr", @@ -8007,17 +7995,13 @@ "--filter-short-documents": "filter_small_docs_bytes_300" }, { - "ln_code": "zht", - "dataset_name": "lm_zht_qedcorpus", - "size": 0.008360492, - "--filters": "", - "--dedups": "dedup_document dedup_template_soft filter_remove_empty_docs", - "--maps-and-filters argument": "", - "--filter-short-documents": "filter_small_docs_bytes_1024" + "ln_code": "zh", + "dataset_name": "lm_zh_qedcorpus", + "size": 0.008360492 } ], "total": 0.24637058699999997, - "data_card": "# qedcorpus\n\n- Dataset uid: `qedcorpus`\n\n## Sizes\n\n- 0.0203 % of total\n- 0.0604 % of en\n- 0.0575 % of es\n- 0.0217 % of ar\n- 0.0663 % of pt\n- 100.0000 % of zhs\n- 0.0087 % of fr\n- 0.0323 % of indic-hi\n- 100.0000 % of zht\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zhs\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zht\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# qedcorpus\n\n- Dataset uid: `qedcorpus`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0203 % of total\n- 0.0604 % of en\n- 0.0575 % of es\n- 0.0217 % of ar\n- 0.0663 % of pt\n- 0.0028 % of zh\n- 0.0087 % of fr\n- 0.0323 % of indic-hi\n- 0.0024 % of zh\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: es\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: pt\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zh\n\n\n\n#### Filters applied to: fr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: zh\n\n\n\n" } ], [ @@ -8043,7 +8027,7 @@ "subject": "general news", "owner": "ol\u00e9" }, - "data_card": "# ol\u00e9\n\n- Dataset uid: `pseudocrawl-filtered_226_www_ole_com_ar`\n\n## Sizes\n\n- 0.0200 % of total\n- 0.4766 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttp://www.ole.com.ar/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# ol\u00e9\n\n- Dataset uid: `pseudocrawl-filtered_226_www_ole_com_ar`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttp://www.ole.com.ar/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.0200 % of total\n- 0.4766 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8069,7 +8053,7 @@ "subject": "general news", "owner": "cibercuba" }, - "data_card": "# cibercuba\n\n- Dataset uid: `pseudocrawl-filtered_287_www_cibercuba_com`\n\n## Sizes\n\n- 0.0200 % of total\n- 0.4754 % of es\n\n## Description\n\nwebsite: cuba -general news\n\n## Homepage\n\nhttps://www.cibercuba.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ncuba\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# cibercuba\n\n- Dataset uid: `pseudocrawl-filtered_287_www_cibercuba_com`\n\n### Description\n\nwebsite: cuba -general news\n\n### Homepage\n\nhttps://www.cibercuba.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ncuba\n\n### Sizes\n\n- 0.0200 % of total\n- 0.4754 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8095,7 +8079,7 @@ "subject": "general news", "owner": "r\u00edo negro" }, - "data_card": "# r\u00edo negro\n\n- Dataset uid: `pseudocrawl-filtered_172_www_rionegro_com_ar`\n\n## Sizes\n\n- 0.0198 % of total\n- 0.4725 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttp://www.rionegro.com.ar/diario/inicio.aspx\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# r\u00edo negro\n\n- Dataset uid: `pseudocrawl-filtered_172_www_rionegro_com_ar`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttp://www.rionegro.com.ar/diario/inicio.aspx\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.0198 % of total\n- 0.4725 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8121,7 +8105,7 @@ "subject": "general news", "owner": "la tribuna" }, - "data_card": "# la tribuna\n\n- Dataset uid: `pseudocrawl-filtered_116_www_latribuna_hn`\n\n## Sizes\n\n- 0.0197 % of total\n- 0.4690 % of es\n\n## Description\n\nwebsite: honduras -general news\n\n## Homepage\n\nhttp://www.latribuna.hn/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nhonduras\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la tribuna\n\n- Dataset uid: `pseudocrawl-filtered_116_www_latribuna_hn`\n\n### Description\n\nwebsite: honduras -general news\n\n### Homepage\n\nhttp://www.latribuna.hn/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nhonduras\n\n### Sizes\n\n- 0.0197 % of total\n- 0.4690 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8235,7 +8219,7 @@ }, "fname": "tirto_id.json" }, - "data_card": "# tirto.id\n\n- Dataset uid: `pseudocrawl-filtered_572_tirto_id`\n\n## Sizes\n\n- 0.0191 % of total\n- 7.2821 % of id\n\n## Description\n\nTirto.id is a news, article, opinion, and infographic website in Indonesia. First broadcast in February 2016 and inaugurated on August 3, 2016. Tirto's name is taken from the national hero of the press, Tirto Adhi Soerjo, who at that time founded the newspapers Soenda Berita, Medan Prijaji, and Poetri Indies as well as the formation of the Sarekat Dagang Islam (SDI).\n\n## Homepage\n\nhttps://tirto.id/\n\n## Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\n\n## Speaker Locations\n\n- Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" + "data_card": "# tirto.id\n\n- Dataset uid: `pseudocrawl-filtered_572_tirto_id`\n\n### Description\n\nTirto.id is a news, article, opinion, and infographic website in Indonesia. First broadcast in February 2016 and inaugurated on August 3, 2016. Tirto's name is taken from the national hero of the press, Tirto Adhi Soerjo, who at that time founded the newspapers Soenda Berita, Medan Prijaji, and Poetri Indies as well as the formation of the Sarekat Dagang Islam (SDI).\n\n### Homepage\n\nhttps://tirto.id/\n\n### Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\nhttps://tirto.id/insider/faq\n\n\n### Speaker Locations\n\n- Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0191 % of total\n- 7.2821 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -8261,7 +8245,7 @@ "subject": "general news", "owner": "el cronista" }, - "data_card": "# el cronista\n\n- Dataset uid: `pseudocrawl-filtered_237_www_cronista_com`\n\n## Sizes\n\n- 0.0190 % of total\n- 0.4529 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttp://www.cronista.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el cronista\n\n- Dataset uid: `pseudocrawl-filtered_237_www_cronista_com`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttp://www.cronista.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.0190 % of total\n- 0.4529 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8287,7 +8271,7 @@ "subject": "general news", "owner": "la naci\u00f3n - costa rica" }, - "data_card": "# la naci\u00f3n - costa rica\n\n- Dataset uid: `pseudocrawl-filtered_286_www_nacion_com`\n\n## Sizes\n\n- 0.0181 % of total\n- 0.4302 % of es\n\n## Description\n\nwebsite: cr -general news\n\n## Homepage\n\nhttps://www.nacion.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ncr\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la naci\u00f3n - costa rica\n\n- Dataset uid: `pseudocrawl-filtered_286_www_nacion_com`\n\n### Description\n\nwebsite: cr -general news\n\n### Homepage\n\nhttps://www.nacion.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ncr\n\n### Sizes\n\n- 0.0181 % of total\n- 0.4302 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8313,7 +8297,7 @@ "subject": "general news", "owner": "elpais - costa rica" }, - "data_card": "# elpais - costa rica\n\n- Dataset uid: `pseudocrawl-filtered_67_www_elpais_cr`\n\n## Sizes\n\n- 0.0180 % of total\n- 0.4296 % of es\n\n## Description\n\nwebsite: cr -general news\n\n## Homepage\n\nhttp://www.elpais.cr\n\n## Licensing\n\n\n\n## Speaker Locations\n\ncr\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# elpais - costa rica\n\n- Dataset uid: `pseudocrawl-filtered_67_www_elpais_cr`\n\n### Description\n\nwebsite: cr -general news\n\n### Homepage\n\nhttp://www.elpais.cr\n\n### Licensing\n\n\n\n### Speaker Locations\n\ncr\n\n### Sizes\n\n- 0.0180 % of total\n- 0.4296 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8339,7 +8323,7 @@ "subject": "general news", "owner": "correo peru" }, - "data_card": "# correo peru\n\n- Dataset uid: `pseudocrawl-filtered_317_diariocorreo_pe`\n\n## Sizes\n\n- 0.0180 % of total\n- 0.4286 % of es\n\n## Description\n\nwebsite: peru -general news\n\n## Homepage\n\nhttp://diariocorreo.pe/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nperu\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# correo peru\n\n- Dataset uid: `pseudocrawl-filtered_317_diariocorreo_pe`\n\n### Description\n\nwebsite: peru -general news\n\n### Homepage\n\nhttp://diariocorreo.pe/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nperu\n\n### Sizes\n\n- 0.0180 % of total\n- 0.4286 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8365,7 +8349,7 @@ "subject": "general news", "owner": "emol" }, - "data_card": "# emol\n\n- Dataset uid: `pseudocrawl-filtered_405_www_emol_com`\n\n## Sizes\n\n- 0.0179 % of total\n- 0.4259 % of es\n\n## Description\n\nwebsite: cl -general news\n\n## Homepage\n\nhttp://www.emol.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ncl\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# emol\n\n- Dataset uid: `pseudocrawl-filtered_405_www_emol_com`\n\n### Description\n\nwebsite: cl -general news\n\n### Homepage\n\nhttp://www.emol.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ncl\n\n### Sizes\n\n- 0.0179 % of total\n- 0.4259 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8391,7 +8375,7 @@ "subject": "general news", "owner": "revista semana" }, - "data_card": "# revista semana\n\n- Dataset uid: `pseudocrawl-filtered_304_www_semana_com`\n\n## Sizes\n\n- 0.0177 % of total\n- 0.0960 % of en\n\n## Description\n\nwebsite: colombia -general news\n\n## Homepage\n\nhttps://www.semana.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ncolombia\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# revista semana\n\n- Dataset uid: `pseudocrawl-filtered_304_www_semana_com`\n\n### Description\n\nwebsite: colombia -general news\n\n### Homepage\n\nhttps://www.semana.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ncolombia\n\n### Sizes\n\n- 0.0177 % of total\n- 0.0960 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8417,7 +8401,7 @@ "subject": "general news", "owner": "prensa libre" }, - "data_card": "# prensa libre\n\n- Dataset uid: `pseudocrawl-filtered_386_www_prensalibre_com`\n\n## Sizes\n\n- 0.0177 % of total\n- 0.4203 % of es\n\n## Description\n\nwebsite: gt -general news\n\n## Homepage\n\nhttp://www.prensalibre.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ngt\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# prensa libre\n\n- Dataset uid: `pseudocrawl-filtered_386_www_prensalibre_com`\n\n### Description\n\nwebsite: gt -general news\n\n### Homepage\n\nhttp://www.prensalibre.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ngt\n\n### Sizes\n\n- 0.0177 % of total\n- 0.4203 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8530,7 +8514,7 @@ }, "fname": "kumparan_com.json" }, - "data_card": "# kumparan.com\n\n- Dataset uid: `pseudocrawl-filtered_512_kumparan_com`\n\n## Sizes\n\n- 0.0174 % of total\n- 6.6413 % of id\n\n## Description\n\nLaunched in 2017, kumparan is an Indonesia's Leading Digital News Media Platform. Leveraging data and innovation to deliver fresh content to millions of readers daily through world-class storytelling and journalism. \n\n## Homepage\n\nhttps://kumparan.com/\n\n## Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\n\n## Speaker Locations\n\n- Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" + "data_card": "# kumparan.com\n\n- Dataset uid: `pseudocrawl-filtered_512_kumparan_com`\n\n### Description\n\nLaunched in 2017, kumparan is an Indonesia's Leading Digital News Media Platform. Leveraging data and innovation to deliver fresh content to millions of readers daily through world-class storytelling and journalism. \n\n### Homepage\n\nhttps://kumparan.com/\n\n### Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\nhttps://showcase.kumparan.com/ketentuan-dan-kebijakan-privasi\n\n\n### Speaker Locations\n\n- Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0174 % of total\n- 6.6413 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -8647,7 +8631,7 @@ }, "fname": "indonesian_news_corpus.json" }, - "data_card": "# Indonesian News Corpus\n\n- Dataset uid: `indonesian_news_corpus`\n\n## Sizes\n\n- 0.0172 % of total\n- 6.5603 % of id\n\n## Description\n\nCrawled news in 2015 from:\n- kompas.com\n- tempo.co\n- merdeka.com\n- republika.co.id \n- viva.co.id\n- tribunnews.com\n\n## Homepage\n\nhttps://data.mendeley.com/datasets/2zpbjs22k3/1\n\n## Licensing\n\n- open license\n- cc-by-4.0: Creative Commons Attribution 4.0 International\n\n\n## Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Indonesian News Corpus\n\n- Dataset uid: `indonesian_news_corpus`\n\n### Description\n\nCrawled news in 2015 from:\n- kompas.com\n- tempo.co\n- merdeka.com\n- republika.co.id \n- viva.co.id\n- tribunnews.com\n\n### Homepage\n\nhttps://data.mendeley.com/datasets/2zpbjs22k3/1\n\n### Licensing\n\n- open license\n- cc-by-4.0: Creative Commons Attribution 4.0 International\n\n\n### Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0172 % of total\n- 6.5603 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -8673,7 +8657,7 @@ "subject": "General News", "owner": "El Peri\u00f3dico de Arag\u00f3n. Noticias de Arag\u00f3n, Zaragoza, Huesca y Teruel." }, - "data_card": "# El Peri\u00f3dico de Arag\u00f3n. Noticias de Arag\u00f3n, Zaragoza, Huesca y Teruel.\n\n- Dataset uid: `pseudocrawl-filtered_21_www_elperiodicodearagon_com`\n\n## Sizes\n\n- 0.0166 % of total\n- 0.3961 % of es\n\n## Description\n\nwebsite: Spain -General News\n\n## Homepage\n\nhttps://www.elperiodicodearagon.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nSpain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# El Peri\u00f3dico de Arag\u00f3n. Noticias de Arag\u00f3n, Zaragoza, Huesca y Teruel.\n\n- Dataset uid: `pseudocrawl-filtered_21_www_elperiodicodearagon_com`\n\n### Description\n\nwebsite: Spain -General News\n\n### Homepage\n\nhttps://www.elperiodicodearagon.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nSpain\n\n### Sizes\n\n- 0.0166 % of total\n- 0.3961 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8699,7 +8683,7 @@ "subject": "news", "owner": "" }, - "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_498_www_channelnewsasia_com`\n\n## Sizes\n\n- 0.0163 % of total\n- 0.0883 % of en\n\n## Description\n\nwebsite: singapore -news\n\n## Homepage\n\nhttps://www.channelnewsasia.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_498_www_channelnewsasia_com`\n\n### Description\n\nwebsite: singapore -news\n\n### Homepage\n\nhttps://www.channelnewsasia.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0163 % of total\n- 0.0883 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8717,7 +8701,7 @@ } ], "total": 0.197190305, - "data_card": "# kalimat\n\n- Dataset uid: `kalimat`\n\n## Sizes\n\n- 0.0163 % of total\n- 0.1499 % of ar\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- filter_remove_empty_docs\n- replace_newline_with_space\n- split_sentences_ar\n- dedup_template_soft\n- replace_newline_with_space\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# kalimat\n\n- Dataset uid: `kalimat`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0163 % of total\n- 0.1499 % of ar\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- filter_remove_empty_docs\n- replace_newline_with_space\n- split_sentences_ar\n- dedup_template_soft\n- replace_newline_with_space\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -8743,7 +8727,7 @@ "subject": "general news", "owner": "radio la primer\u00edsima" }, - "data_card": "# radio la primer\u00edsima\n\n- Dataset uid: `pseudocrawl-filtered_417_www_radiolaprimerisima_com`\n\n## Sizes\n\n- 0.0161 % of total\n- 0.3838 % of es\n\n## Description\n\nwebsite: nicaragua -general news\n\n## Homepage\n\nhttp://www.radiolaprimerisima.com\n\n## Licensing\n\n\n\n## Speaker Locations\n\nnicaragua\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# radio la primer\u00edsima\n\n- Dataset uid: `pseudocrawl-filtered_417_www_radiolaprimerisima_com`\n\n### Description\n\nwebsite: nicaragua -general news\n\n### Homepage\n\nhttp://www.radiolaprimerisima.com\n\n### Licensing\n\n\n\n### Speaker Locations\n\nnicaragua\n\n### Sizes\n\n- 0.0161 % of total\n- 0.3838 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8769,7 +8753,7 @@ "subject": "general news", "owner": "el carabobe\u00f1o" }, - "data_card": "# el carabobe\u00f1o\n\n- Dataset uid: `pseudocrawl-filtered_169_www_el_carabobeno_com`\n\n## Sizes\n\n- 0.0157 % of total\n- 0.3731 % of es\n\n## Description\n\nwebsite: venezuela -general news\n\n## Homepage\n\nhttps://www.el-carabobeno.com\n\n## Licensing\n\n\n\n## Speaker Locations\n\nvenezuela\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el carabobe\u00f1o\n\n- Dataset uid: `pseudocrawl-filtered_169_www_el_carabobeno_com`\n\n### Description\n\nwebsite: venezuela -general news\n\n### Homepage\n\nhttps://www.el-carabobeno.com\n\n### Licensing\n\n\n\n### Speaker Locations\n\nvenezuela\n\n### Sizes\n\n- 0.0157 % of total\n- 0.3731 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8795,7 +8779,7 @@ "subject": "general news", "owner": "el diario" }, - "data_card": "# el diario\n\n- Dataset uid: `pseudocrawl-filtered_254_diario_mx`\n\n## Sizes\n\n- 0.0153 % of total\n- 0.3650 % of es\n\n## Description\n\nwebsite: mexico -general news\n\n## Homepage\n\nhttp://diario.mx/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nmexico\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el diario\n\n- Dataset uid: `pseudocrawl-filtered_254_diario_mx`\n\n### Description\n\nwebsite: mexico -general news\n\n### Homepage\n\nhttp://diario.mx/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nmexico\n\n### Sizes\n\n- 0.0153 % of total\n- 0.3650 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8821,7 +8805,7 @@ "subject": "General News", "owner": "El Peri\u00f3dico Extremadura" }, - "data_card": "# El Peri\u00f3dico Extremadura\n\n- Dataset uid: `pseudocrawl-filtered_431_www_elperiodicoextremadura_com`\n\n## Sizes\n\n- 0.0153 % of total\n- 0.3634 % of es\n\n## Description\n\nwebsite: Spain -General News\n\n## Homepage\n\nhttps://www.elperiodicoextremadura.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nSpain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# El Peri\u00f3dico Extremadura\n\n- Dataset uid: `pseudocrawl-filtered_431_www_elperiodicoextremadura_com`\n\n### Description\n\nwebsite: Spain -General News\n\n### Homepage\n\nhttps://www.elperiodicoextremadura.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nSpain\n\n### Sizes\n\n- 0.0153 % of total\n- 0.3634 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8847,7 +8831,7 @@ "subject": "general news", "owner": "t\u00e9lam" }, - "data_card": "# t\u00e9lam\n\n- Dataset uid: `pseudocrawl-filtered_404_www_telam_com_ar`\n\n## Sizes\n\n- 0.0152 % of total\n- 0.3609 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttp://www.telam.com.ar/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# t\u00e9lam\n\n- Dataset uid: `pseudocrawl-filtered_404_www_telam_com_ar`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttp://www.telam.com.ar/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.0152 % of total\n- 0.3609 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8873,7 +8857,7 @@ "subject": "general news", "owner": "entorno inteligente" }, - "data_card": "# entorno inteligente\n\n- Dataset uid: `pseudocrawl-filtered_277_www_entornointeligente_com`\n\n## Sizes\n\n- 0.0149 % of total\n- 0.3551 % of es\n\n## Description\n\nwebsite: venezuela -general news\n\n## Homepage\n\nhttp://www.entornointeligente.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nvenezuela\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# entorno inteligente\n\n- Dataset uid: `pseudocrawl-filtered_277_www_entornointeligente_com`\n\n### Description\n\nwebsite: venezuela -general news\n\n### Homepage\n\nhttp://www.entornointeligente.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nvenezuela\n\n### Sizes\n\n- 0.0149 % of total\n- 0.3551 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8899,7 +8883,7 @@ "subject": "general news", "owner": "list\u00edn diario digital" }, - "data_card": "# list\u00edn diario digital\n\n- Dataset uid: `pseudocrawl-filtered_78_www_listindiario_com`\n\n## Sizes\n\n- 0.0145 % of total\n- 0.3461 % of es\n\n## Description\n\nwebsite: domenican republic -general news\n\n## Homepage\n\nhttp://www.listindiario.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ndomenican republic\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# list\u00edn diario digital\n\n- Dataset uid: `pseudocrawl-filtered_78_www_listindiario_com`\n\n### Description\n\nwebsite: domenican republic -general news\n\n### Homepage\n\nhttp://www.listindiario.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ndomenican republic\n\n### Sizes\n\n- 0.0145 % of total\n- 0.3461 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8972,7 +8956,7 @@ "update_time": "10_19_2021__15_34_54", "fname": "global_voices-validated-10_19_2021__15_34_54.json" }, - "data_card": "# Global Voices\n\n- Dataset uid: `pseudocrawl-filtered_638_globalvoices_org`\n\n## Sizes\n\n- 0.0144 % of total\n- 0.0779 % of en\n\n## Description\n\nGlobal Voices is an international, multilingual, primarily volunteer community of writers, translators, academics, and human rights activists. Together, we leverage the power of the internet to build understanding across borders. \n\n## Homepage\n\nhttps://globalvoices.org/\n\n## Licensing\n\n\n\n## Speaker Locations\n\n- World-Wide\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Global Voices\n\n- Dataset uid: `pseudocrawl-filtered_638_globalvoices_org`\n\n### Description\n\nGlobal Voices is an international, multilingual, primarily volunteer community of writers, translators, academics, and human rights activists. Together, we leverage the power of the internet to build understanding across borders. \n\n### Homepage\n\nhttps://globalvoices.org/\n\n### Licensing\n\n\n\n### Speaker Locations\n\n- World-Wide\n\n\n### Sizes\n\n- 0.0144 % of total\n- 0.0779 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -8998,7 +8982,7 @@ "subject": "general news", "owner": "formulatv" }, - "data_card": "# formulatv\n\n- Dataset uid: `pseudocrawl-filtered_422_www_formulatv_com`\n\n## Sizes\n\n- 0.0142 % of total\n- 0.3378 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttp://www.formulatv.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# formulatv\n\n- Dataset uid: `pseudocrawl-filtered_422_www_formulatv_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttp://www.formulatv.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0142 % of total\n- 0.3378 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9024,7 +9008,7 @@ "subject": "general news", "owner": "el correo de andaluc\u00eda" }, - "data_card": "# el correo de andaluc\u00eda\n\n- Dataset uid: `pseudocrawl-filtered_367_elcorreoweb_es`\n\n## Sizes\n\n- 0.0138 % of total\n- 0.3276 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://elcorreoweb.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el correo de andaluc\u00eda\n\n- Dataset uid: `pseudocrawl-filtered_367_elcorreoweb_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://elcorreoweb.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0138 % of total\n- 0.3276 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9050,7 +9034,7 @@ "subject": "general news", "owner": "diario expreso de guayaquil" }, - "data_card": "# diario expreso de guayaquil\n\n- Dataset uid: `pseudocrawl-filtered_53_www_expreso_ec`\n\n## Sizes\n\n- 0.0137 % of total\n- 0.3255 % of es\n\n## Description\n\nwebsite: ecuador -general news\n\n## Homepage\n\nhttps://www.expreso.ec/\n\n## Licensing\n\n\n\n## Speaker Locations\n\necuador\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# diario expreso de guayaquil\n\n- Dataset uid: `pseudocrawl-filtered_53_www_expreso_ec`\n\n### Description\n\nwebsite: ecuador -general news\n\n### Homepage\n\nhttps://www.expreso.ec/\n\n### Licensing\n\n\n\n### Speaker Locations\n\necuador\n\n### Sizes\n\n- 0.0137 % of total\n- 0.3255 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9076,7 +9060,7 @@ "subject": "general news", "owner": "diari de tarragona" }, - "data_card": "# diari de tarragona\n\n- Dataset uid: `pseudocrawl-filtered_257_www_diaridetarragona_com`\n\n## Sizes\n\n- 0.0134 % of total\n- 0.3198 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.diaridetarragona.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# diari de tarragona\n\n- Dataset uid: `pseudocrawl-filtered_257_www_diaridetarragona_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.diaridetarragona.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0134 % of total\n- 0.3198 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9102,7 +9086,7 @@ "subject": "general news", "owner": "motorpasion" }, - "data_card": "# motorpasion\n\n- Dataset uid: `pseudocrawl-filtered_86_www_motorpasion_com`\n\n## Sizes\n\n- 0.0133 % of total\n- 0.3167 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.motorpasion.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# motorpasion\n\n- Dataset uid: `pseudocrawl-filtered_86_www_motorpasion_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.motorpasion.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0133 % of total\n- 0.3167 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9128,7 +9112,7 @@ "subject": "general news", "owner": "postcrescent" }, - "data_card": "# postcrescent\n\n- Dataset uid: `pseudocrawl-filtered_159_www_postcrescent_com`\n\n## Sizes\n\n- 0.0131 % of total\n- 0.0711 % of en\n\n## Description\n\nwebsite: usa -general news\n\n## Homepage\n\nhttp://www.postcrescent.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nusa\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# postcrescent\n\n- Dataset uid: `pseudocrawl-filtered_159_www_postcrescent_com`\n\n### Description\n\nwebsite: usa -general news\n\n### Homepage\n\nhttp://www.postcrescent.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nusa\n\n### Sizes\n\n- 0.0131 % of total\n- 0.0711 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9154,7 +9138,7 @@ "subject": "general news", "owner": "nuevo d\u00eda santa cruz" }, - "data_card": "# nuevo d\u00eda santa cruz\n\n- Dataset uid: `pseudocrawl-filtered_246_www_eldiarionuevodia_com_ar`\n\n## Sizes\n\n- 0.0131 % of total\n- 0.3119 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttp://www.eldiarionuevodia.com.ar/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# nuevo d\u00eda santa cruz\n\n- Dataset uid: `pseudocrawl-filtered_246_www_eldiarionuevodia_com_ar`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttp://www.eldiarionuevodia.com.ar/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.0131 % of total\n- 0.3119 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9227,7 +9211,7 @@ "update_time": "10_19_2021__15_34_54", "fname": "global_voices-validated-10_19_2021__15_34_54.json" }, - "data_card": "# Global Voices\n\n- Dataset uid: `pseudocrawl-filtered_641_es_globalvoices_org`\n\n## Sizes\n\n- 0.0129 % of total\n- 0.3060 % of es\n\n## Description\n\nGlobal Voices is an international, multilingual, primarily volunteer community of writers, translators, academics, and human rights activists. Together, we leverage the power of the internet to build understanding across borders. \n\n## Homepage\n\nhttps://globalvoices.org/\n\n## Licensing\n\n\n\n## Speaker Locations\n\n- World-Wide\n\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Global Voices\n\n- Dataset uid: `pseudocrawl-filtered_641_es_globalvoices_org`\n\n### Description\n\nGlobal Voices is an international, multilingual, primarily volunteer community of writers, translators, academics, and human rights activists. Together, we leverage the power of the internet to build understanding across borders. \n\n### Homepage\n\nhttps://globalvoices.org/\n\n### Licensing\n\n\n\n### Speaker Locations\n\n- World-Wide\n\n\n### Sizes\n\n- 0.0129 % of total\n- 0.3060 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9253,7 +9237,7 @@ "subject": "general news", "owner": "misiones online" }, - "data_card": "# misiones online\n\n- Dataset uid: `pseudocrawl-filtered_209_misionesonline_net`\n\n## Sizes\n\n- 0.0128 % of total\n- 0.3044 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttp://misionesonline.net/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# misiones online\n\n- Dataset uid: `pseudocrawl-filtered_209_misionesonline_net`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttp://misionesonline.net/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.0128 % of total\n- 0.3044 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9357,7 +9341,7 @@ }, "fname": "vietnamese_poetry_from_fsoft_ai_lab.json" }, - "data_card": "# Vietnamese poetry from fsoft AI lab\n\n- Dataset uid: `vietnamese_poetry`\n\n## Sizes\n\n- 0.0127 % of total\n- 0.9285 % of vi\n\n## Description\n\n171188 poems with different genres: luc-bat, 5-chu, 7-chu, 8-chu, 4-chu\n\n## Homepage\n\nhttps://github.com/fsoft-ailab/Poem-Generator#dataset\n\n## Licensing\n\n- open license\n- mit: MIT License\n\n\n## Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n## BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Vietnamese poetry from fsoft AI lab\n\n- Dataset uid: `vietnamese_poetry`\n\n### Description\n\n171188 poems with different genres: luc-bat, 5-chu, 7-chu, 8-chu, 4-chu\n\n### Homepage\n\nhttps://github.com/fsoft-ailab/Poem-Generator#dataset\n\n### Licensing\n\n- open license\n- mit: MIT License\n\n\n### Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n### Sizes\n\n- 0.0127 % of total\n- 0.9285 % of vi\n\n### BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -9383,7 +9367,7 @@ "subject": "european news", "owner": "salamanca rtv al d\u00eda" }, - "data_card": "# salamanca rtv al d\u00eda\n\n- Dataset uid: `pseudocrawl-filtered_280_salamancartvaldia_es`\n\n## Sizes\n\n- 0.0125 % of total\n- 0.2975 % of es\n\n## Description\n\nwebsite: spain -european news\n\n## Homepage\n\nhttps://salamancartvaldia.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# salamanca rtv al d\u00eda\n\n- Dataset uid: `pseudocrawl-filtered_280_salamancartvaldia_es`\n\n### Description\n\nwebsite: spain -european news\n\n### Homepage\n\nhttps://salamancartvaldia.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0125 % of total\n- 0.2975 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9409,7 +9393,7 @@ "subject": "general news", "owner": "ticbeat" }, - "data_card": "# ticbeat\n\n- Dataset uid: `pseudocrawl-filtered_165_www_ticbeat_com`\n\n## Sizes\n\n- 0.0121 % of total\n- 0.2879 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.ticbeat.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# ticbeat\n\n- Dataset uid: `pseudocrawl-filtered_165_www_ticbeat_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.ticbeat.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0121 % of total\n- 0.2879 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9435,7 +9419,7 @@ "subject": "financial news", "owner": "coin telegraph - en espagnol" }, - "data_card": "# coin telegraph - en espagnol\n\n- Dataset uid: `pseudocrawl-filtered_341_es_cointelegraph_com`\n\n## Sizes\n\n- 0.0119 % of total\n- 0.2832 % of es\n\n## Description\n\nwebsite: usa -financial news\n\n## Homepage\n\nhttps://es.cointelegraph.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nusa\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url_lm_es_pseudocrawl-filtered_341_es_cointelegraph_com\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# coin telegraph - en espagnol\n\n- Dataset uid: `pseudocrawl-filtered_341_es_cointelegraph_com`\n\n### Description\n\nwebsite: usa -financial news\n\n### Homepage\n\nhttps://es.cointelegraph.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nusa\n\n### Sizes\n\n- 0.0119 % of total\n- 0.2832 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url_lm_es_pseudocrawl-filtered_341_es_cointelegraph_com\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9461,7 +9445,7 @@ "subject": "european news", "owner": "comentarios en cuartopoder" }, - "data_card": "# comentarios en cuartopoder\n\n- Dataset uid: `pseudocrawl-filtered_381_www_cuartopoder_es`\n\n## Sizes\n\n- 0.0117 % of total\n- 0.2781 % of es\n\n## Description\n\nwebsite: spain -european news\n\n## Homepage\n\nhttps://www.cuartopoder.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# comentarios en cuartopoder\n\n- Dataset uid: `pseudocrawl-filtered_381_www_cuartopoder_es`\n\n### Description\n\nwebsite: spain -european news\n\n### Homepage\n\nhttps://www.cuartopoder.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0117 % of total\n- 0.2781 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9579,7 +9563,7 @@ }, "fname": "el_colombiano.json" }, - "data_card": "# El Colombiano\n\n- Dataset uid: `pseudocrawl-filtered_518_www_elcolombiano_com`\n\n## Sizes\n\n- 0.0116 % of total\n- 0.2756 % of es\n\n## Description\n\nEl Colombiano (The Colombian) is the leading newspaper in Antioquia Department in Colombia whose headquarters are located in Medell\u00edn.\nThe first edition of this newspaper was published on February 6, 1912 which only had one page, 13 advertisements, but no news articles. In 1976, the first color pictures were added and in 1980, the content of this newspaper changed from 8 to 6 columns. On February 16, 2001 it was released with its current layout.\nEl Colombiano is part of Peri\u00f3dicos Asociados Latinoamericanos (Latin American Newspaper Association), an organization of fourteen leading newspapers in South America.\n\n## Homepage\n\nhttps://www.elcolombiano.com\n\n## Licensing\n\n- copyright - all rights reserved\n- unknown: License information unavailable\n\n\n## Speaker Locations\n\n- Americas\n- Colombia\n\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# El Colombiano\n\n- Dataset uid: `pseudocrawl-filtered_518_www_elcolombiano_com`\n\n### Description\n\nEl Colombiano (The Colombian) is the leading newspaper in Antioquia Department in Colombia whose headquarters are located in Medell\u00edn.\nThe first edition of this newspaper was published on February 6, 1912 which only had one page, 13 advertisements, but no news articles. In 1976, the first color pictures were added and in 1980, the content of this newspaper changed from 8 to 6 columns. On February 16, 2001 it was released with its current layout.\nEl Colombiano is part of Peri\u00f3dicos Asociados Latinoamericanos (Latin American Newspaper Association), an organization of fourteen leading newspapers in South America.\n\n### Homepage\n\nhttps://www.elcolombiano.com\n\n### Licensing\n\n- copyright - all rights reserved\n- unknown: License information unavailable\n\nT\u00e9rminos y condiciones Portales, productos y servicios de EL COLOMBIANO S.A.S\n\nEL COLOMBIANO S.A.S, es una empresa period\u00edstica, que genera y elabora contenidos de car\u00e1cter informativo, period\u00edstico, editorial, de opini\u00f3n, de entretenimiento y/o de car\u00e1cter cient\u00edfico o cultural entre otros. Especialmente edita y expende el peri\u00f3dico \u201cEL COLOMBIANO\u201d, as\u00ed como otros diferentes t\u00edtulos tanto en sus versiones impresas como digitales.\n \nUsted es importante para la empresa EL COLOMBIANO S.A.S en adelante \u201cEC\u201d de modo que aunque sea cliente y/o usuario nuevo o de largo tiempo, por favor, t\u00f3mese un momento para conocer nuestros t\u00e9rminos y condiciones para cada clase de productos y/o servicios que le prestamos y para su participaci\u00f3n en los diferentes espacios de interacci\u00f3n y/o participaci\u00f3n disponibles en los portales de propiedad de la sociedad EL COLOMBIANO S.A.S\n\nEn caso de que usted sea una persona menor de edad, se informa que los servicios de EC, no est\u00e1n dirigidos a ni\u00f1os, ni\u00f1as y adolescentes por lo que se le solicita abstenerse de contratar el producto, servicio o registrarse en los portales de \u201cEC\u201d para participar en cualquier espacio de Interacci\u00f3n y/o participaci\u00f3n. De hacerlo, usted deber\u00e1 contar con la autorizaci\u00f3n sus representantes o tutores.\n\nDEFINICIONES\n\nPortal: Se entender\u00e1n las actuales y futuras p\u00e1ginas Web, plataformas, aplicaciones y redes de propiedad y/o operados por la sociedad EL COLOMBIANO S.A.S incluyendo y sin limitarse aquellos portales especificados en concreto en estos t\u00e9rminos y condiciones y todos aquellos creados en un futuro para proveer contenidos, bienes y/o servicios entre otros.\n\nPartes Afiliadas: Se entender\u00e1n los terceros con quienes se establezcan alianzas o convenios comerciales con los cuales es necesario compartir la informaci\u00f3n del cliente y/o usuario.\n\nCliente y/o Usuario : Es la persona que se vincula comercialmente con \u201cEC\u201d, adquiriendo uno de sus productos, servicios, o la persona que accede a cualquiera de los servicios o espacios de interacci\u00f3n de los portales de propiedad de \u201cEC\u201d\n\nEspacios de Interacci\u00f3n y/o participaci\u00f3n: Los portales podr\u00e1n contener espacios para que los usuarios interact\u00faen o participen en secciones de comentarios, foros de discusi\u00f3n, propuesta de contenidos noticiosos, preguntas o discusiones en l\u00ednea en aquellos casos en donde se hagan entrevistas o reportajes streaming, blogs, redes sociales entre otros. En general espacios en donde se pueda compartir contenidos.\n\nEspacio transaccional: Es aquel espacio dentro del portal donde el usuario puede acceder a bienes y/o servicios ofrecidos por \u201cEC\u201d y de terceros, y en donde eventualmente se deber\u00e1 hacer el pago a trav\u00e9s de una pasarela de pago de un tercero, por ejemplo la compra del servicio de suscripci\u00f3n y/o la publicaci\u00f3n de avisos.\n\nSe entender\u00e1 entre otros por contenidos: Textos, avisos, im\u00e1genes fijas y con movimiento, animaciones, videos, infograf\u00edas, caricaturas, gr\u00e1ficos, bases de datos, crucigramas, y en general informaci\u00f3n y derechos de propiedad intelectual, que se encuentren en el \u201cPortal\u201d\n\nPetici\u00f3n, Queja y/o Reclamo y/o PQR: Dentro de algunos de los portales de \u201cEC\u201d entre ellos www.elcolombiano.com.co, usted podr\u00e1 presentar en l\u00ednea, una petici\u00f3n, queja o reclamo. Para dichos efectos, usted deber\u00e1 tener presente las siguientes definiciones.\n\nPetici\u00f3n: Cualquier solicitud respetuosa de informaci\u00f3n o de reconocimiento de un derecho presentada por un consumidor y/o usuario de bienes o servicios comercializados y/o prestados por El Colombiano. As\u00ed mismo se entender\u00e1 la solicitud de informaci\u00f3n que hace una persona sobre sus datos personales que reposan en las bases de datos de EL COLOMBIANO.\n\nQueja: Cualquier manifestaci\u00f3n de inconformidad en donde no se reclama el cumplimiento de un derecho por parte de un consumidor y/o usuario de bienes o servicios comercializados o prestados por EL COLOMBIANO. As\u00ed mismo, se entender\u00e1 la inconformidad sobre la atenci\u00f3n prestada por EL COLOMBIANO o sobre el uso de sus datos personales que reposan en las bases de datos de EL COLOMBIANO.\n\nReclamo: Es cualquier oposici\u00f3n, reclamo o contrariedad presentada por un consumidor y/o usuario de los bienes o servicios comercializados o prestados por EL COLOMBIANO en donde se evidencia la inconformidad de este en torno a la calidad del bien o servicio y espera el cumplimiento de su derecho con o sin exigencias de tipo econ\u00f3mico o prestacional.\n\n1. CONDICIONES GENERALES DEL PORTAL\n\nEste portal www.elcolombiano.com (en adelante, el \"Portal\") y/o otros portales como https://www.qhubomedellin.com/, https://gente.com.co/, son de propiedad de la sociedad EL COLOMBIANO S.A.S identificada con NIT 890.901.352-3, (en adelante, \"EC\").\n \nEl acceso para la lectura de los contenidos noticiosos y/o informativos, seg\u00fan decisi\u00f3n editorial, requerir\u00e1 en algunos portales de la compa\u00f1\u00eda de la previa inscripci\u00f3n por parte del lector y/o una suscripci\u00f3n digital en el caso de www.elcolombiano.com conforme los t\u00e9rminos planteados en el contrato de suscripci\u00f3n. As\u00ed mismo y a discreci\u00f3n de EL COLOMBIANO S.A.S para el acceso a algunos espacios de interacci\u00f3n y/o participaci\u00f3n se requerir\u00e1 inscripci\u00f3n, sin limitarse a ello para hacer comentarios, proponer contenidos, informar sobre los hechos y/o acontecimientos de actualidad, informar errores en los contenidos, enviar quejas, reclamos en relaci\u00f3n a los contenidos noticiosos y/o informativos, escribir al defensor del lector, interactuar en los blogs y por otro lado para la contrataci\u00f3n de bienes y/o servicios disponibles al consumidor eventualmente se solicitar\u00e1 datos personales como nombre, apellido, correo electr\u00f3nico entre otros o requerir\u00e1 de su previa inscripci\u00f3n, los cuales ser\u00e1n protegidos y/o tratados conforme a la pol\u00edtica de tratamiento y uso de informaci\u00f3n personal de EL COLOMBIANO S.A.S EL COLOMBIANO S.A.S se reserva el derecho de implementar los mecanismos tendientes a la actualizaci\u00f3n de los datos personales de sus usuarios registrados y en todo caso con fundamento en los requerimientos de ley, por lo que es posible que en el proceso de actualizaci\u00f3n de las bases datos, se requiera un nuevo registro que implique que el nombre de usuario bajo el cual interact\u00faa el usuario del portal sea cambiado por uno nuevo; por lo que \u201cEC\u201d no ser\u00e1 responsable si otro usuario se apropia del nombre anteriormente usado. As\u00ed mismo, es posible que los usuarios dentro de los espacios de interacci\u00f3n, participaci\u00f3n y/o transacci\u00f3n requieran constantemente el ingreso y/o mantener los datos actualizados, por lo tanto \u201cEC\u201d se reserva el derecho de exigir nuevo registro para aquellos usuarios que no se mantengan activos dentro del portal.\n \nLos usuarios del portal podr\u00e1n acceder a los espacios de participaci\u00f3n y/o interacci\u00f3n previo registro a trav\u00e9s de su usuario y contrase\u00f1a; as\u00ed mismo, eventualmente podr\u00e1n hacerlo a trav\u00e9s de su usuario e informaci\u00f3n registrada en las redes sociales como pero sin limitarse a ello, Facebook, Twitter, google.\n\nEl uso y/o participaci\u00f3n de este portal estar\u00e1 regido por los t\u00e9rminos y condiciones que se incluyen a continuaci\u00f3n, as\u00ed como por las leyes de la Rep\u00fablica de Colombia aplicables a la materia. Los t\u00e9rminos y condiciones se entienden conocidos y aceptados por los (las) usuarios(as) del Portal (en adelante, el \"Usuario\"),\n\nSi un Usuario no est\u00e1 conforme o de acuerdo con los presentes T\u00e9rminos y Condiciones del Portal, \u201cEC\u201d le sugiere no participar en \u00e9l y/o en los Espacios de participaci\u00f3n.\n\nEl usuario es responsable de mantener la confidencialidad y seguridad de su nombre y de su contrase\u00f1a.\n\n2. PROPIEDAD DE LOS CONTENIDOS\n\nLos contenidos de \u00e9sta p\u00e1gina de Internet o son de propiedad de \u201cEC\u201d o pertenecen a terceras personas naturales o jur\u00eddicas que licencian dichos contenidos en forma legal a \u201cEC\u201d, tales como los contenidos de las agencias de noticias, nacionales e internacionales por ejemplo. Est\u00e1 prohibida su reproducci\u00f3n total o parcial, su traducci\u00f3n, inclusi\u00f3n, transmisi\u00f3n, almacenamiento o acceso a trav\u00e9s de medios anal\u00f3gicos, digitales o de cualquier otro sistema o tecnolog\u00eda creada o por crearse, sin la autorizaci\u00f3n previa y escrita de su titular.\n\nNo obstante, es posible descargar material de propiedad de \u201cEC\u201d para uso personal y no comercial, siempre y cuando se haga expresa menci\u00f3n de la titularidad propiedad en cabeza de \u201cEC\u201d.\n\n\u2022 Contenidos proporcionados por los usuarios de los portales de \u201cEC\u201d\nEl Usuario es titular de los derechos de autor sobre su contenido. El Usuario concede a \u201cEC\u201d espec\u00edficamente el siguiente permiso, licencia no exclusiva para la reproducci\u00f3n, adaptaci\u00f3n, compilaci\u00f3n, almacenamiento y distribuci\u00f3n, transferible, con derechos de sublicencia, gratuita y aplicable en todo el mundo para utilizar cualquier contenido que publique el usuario en cualquiera de los portales de \u201cEC\u201d.\n\n\u201cEC\u201d en la medida de lo posible reconocer\u00e1 al Usuario su autor\u00eda sobre los contenidos suministrados. El Usuario garantiza que los contenidos suministrados y publicados en \u201cEC\u201d son de su autor\u00eda, que no est\u00e1 violando derechos de autor de terceras personas y que mantendr\u00e1 indemne a \u201cEC\u201d y a sus sublicenciatarios frente a cualquier reclamaci\u00f3n que se presente con ocasi\u00f3n de su uso.\n\nEl usuario es el propietario de la informaci\u00f3n que publica en cualquiera de los portales de \u201cEC\u201d, sin embargo, autoriza a que otros usuarios compartan con otros usuarios y/o a trav\u00e9s de redes sociales o portales por ejemplo los contenidos por este publicados en los portales de \u201cEC\u201d.\n\n\u2022 Contenidos de avisos y/o anuncios publicitarios.\n\nLa publicidad, clasificados, ofertas y productos que aparece en \u201cEl Portal\u201d y que no sean de propiedad de EL COLOMBIANO S.A.S son responsabilidad \u00fanicamente del anunciante y/o oferente. \u201cEC\u201d no se hace responsable de su contenido, calidad, veracidad, uso, garant\u00edas y El Usuario acepta y entiende que cualquier reclamaci\u00f3n le deber\u00e1 ser presentada al anunciante u ordenante del aviso.\n\n3. FUNCIONAMIENTO DEL PORTAL.\n\n\u201cEC\u201d no garantiza la disponibilidad y continuidad del funcionamiento del Portal. Cuando ello sea razonablemente posible, \u201cEC\u201d advertir\u00e1 previamente las interrupciones en el funcionamiento del Portal.\n \n\u201cEC\u201d tampoco garantiza la utilidad del Portal para la realizaci\u00f3n de ninguna actividad en particular, ni su infalibilidad y, en particular, aunque no de modo exclusivo, que los Usuarios puedan efectivamente utilizar el Portal, acceder a las distintas p\u00e1ginas web o secciones que forman el Portal. En consecuencia \u201cEC\u201d no se hace responsable por los da\u00f1os y perjuicios de toda naturaleza que puedan deberse a la falta de disponibilidad o de continuidad del funcionamiento del Portal, a la defraudaci\u00f3n de la utilidad que los Usuarios hubieren podido atribuir al Portal y a los servicios, a la falibilidad del Portal, y en particular, aunque no de modo exclusivo, a las fallas en el acceso a las distintas p\u00e1ginas web o secciones del Portal.\n\n\u201cEC\u201d no controla ni garantiza, y por lo tanto no se hace responsable por, la presencia de virus ni de otros elementos en los contenidos del Portal que puedan producir alteraciones en el sistema inform\u00e1tico (software y hardware) del Usuario o en los documentos electr\u00f3nicos y ficheros almacenados en el sistema inform\u00e1tico del Usuario.\n\n\u2022 Links, Enlaces o Hiperv\u00ednculos\n\n\u201cEC\u201d no se har\u00e1 responsable ni ejercer\u00e1 control sobre enlaces o hiperv\u00ednculos -p\u00e1ginas de internet- que puedan accederse desde sus sitios, si estas no pertenecen a \u201cEC\u201d. As\u00ed mismo, tampoco garantizar\u00e1 la seguridad, calidad, fiabilidad, veracidad, el soporte t\u00e9cnico, y los contenidos que se encuentre en esos sitios Web. No puede entenderse que la existencia de un hiperv\u00ednculo que no es propiedad de \u201cEC\u201d, genera para \u00e9ste v\u00ednculos de asociaci\u00f3n, colaboraci\u00f3n o participaci\u00f3n con los titulares y/o responsable de estos enlaces.\n\n\n\u2022 Conducta de los usuarios en los espacios de participaci\u00f3n e interacci\u00f3n de \u201cEC\u201d\n\nEn el eventual caso de EL COLOMBIANO S.A Y CIA S.C.A. habilite espacios de interacci\u00f3n en sus diferentes portales, El Portal respectivo, promueve una activa y libre participaci\u00f3n por parte de los Usuarios, de tal manera que este sea un medio amigable, pac\u00edfico, sano y enriquecedor para todos sus participantes.\n\n\u201cEC\u201d espera de cada Usuario el comportamiento y conducta que permita lograr tal prop\u00f3sito, por lo que el Usuario acepta y faculta expresa e irrevocablemente a \u201cEC\u201d para revisar los comentarios u opiniones vertidos en los Espacios y/o suprimir los que no se adecuen a las normas de convivencia plasmadas en los T\u00e9rminos y Condiciones del Portal, as\u00ed como a interrumpir la comunicaci\u00f3n entre usuarios en caso que lo considere conveniente, sin que por ello se genere responsabilidad alguna para \u201cEC\u201d por aquello eliminado y/o interrumpido o por aquello dejado de revisar y/o eliminar por \u201cEC\u201d y que no atiendan los t\u00e9rminos y condiciones del \u201cPortal\u201d, como se ver\u00e1 en este t\u00edtulo.\n\nLa participaci\u00f3n en los foros, chats, comentarios y otros espacios similares de participaci\u00f3n dentro del Portal, implican la aceptaci\u00f3n y conocimiento por parte del Usuario de los T\u00e9rminos y Condiciones del Portal, as\u00ed como el compromiso irrevocable de cada Usuario de respetar dichos T\u00e9rminos y Condiciones del Portal, siendo entendido y aceptado que el usuario es el responsable por cualquier actividad que se lleve a cabo bajo su registro y que exime y mantendr\u00e1 indemne a \u201cEC\u201d de cualquier responsabilidad que se derive del incumplimiento a tal compromiso, lo cual incluye da\u00f1os y perjuicios causados a otros Usuarios y/o cualquier tercero afectado.\n \nQuien ostente la calidad de Usuario debe ser mayor de edad y con capacidad legal para asumir obligaciones, adem\u00e1s, se compromete a que en el momento de hacer uso de alguna herramienta o servicio que provee \u201cEC\u201d en su \u201cPortal\u201d actuar\u00e1 de buena fe, conforme a la ley y a principios como la moral, el orden p\u00fablico y las buenas costumbres.\n\nPor el uso de los espacios de interacci\u00f3n en los portales, el usuario puede estar expuesto a contenidos que pueda encontrar ofensivo, da\u00f1ino, inexacto o enga\u00f1oso; tambi\u00e9n puede existir el riesgo de tratar con personas menores de edad, personas que act\u00faan bajo una identidad falsa o personas malintencionadas entre otros; por tanto por el uso de los portales el usuario asume estos riesgos y los dem\u00e1s asociados a ellos.\n\nPor el hecho de ingresar al Portal y participar en cualquiera de los espacios de participaci\u00f3n o interacci\u00f3n del mismo, y para garantizar el buen y adecuado uso, el Usuario deber\u00e1 cumplir estrictamente con lo siguiente:\n\n\u2022 No abusar, acosar, amenazar o intimidar a otros usuarios del \u201cPortal\u201d ya sea a trav\u00e9s de los chats, foros, blogs o cualquier otro espacio de participaci\u00f3n.\n\u2022 No usar el \u201cPortal\u201d como un medio para desarrollar actividades ilegales o no autorizadas tanto en Colombia, como en cualquier otro pa\u00eds.\n\u2022 Abstenerse de enviar correo electr\u00f3nico no deseado (SPAM), as\u00ed como tambi\u00e9n le est\u00e1 prohibido transmitir virus o cualquier c\u00f3digo de naturaleza destructiva.\n\u2022 Abstenerse de compartir y/o ofrecer en el portal productos o servicios no autorizados por \u201cEC\u201d\n\u2022 Abstenerse de compartir informaci\u00f3n no pertinente con las caracter\u00edsticas del espacio de Interacci\u00f3n y/o participaci\u00f3n.\n\u2022 No publicar contenidos que inciten, promuevan, apoyen, defiendan o tengan el car\u00e1cter de racistas, xenof\u00f3bicos, discriminatorios, terroristas, pornogr\u00e1ficos o atentatorios del buen nombre, la honra y el honor de las personas y, en general, que atenten contra los derechos fundamentales de terceras personas.\n\u2022 No utilizar materiales protegidos por derechos de autor u otro material de cualquier clase sin el permiso expreso del propietario del material.\n\u2022 No utilizar un lenguaje vulgar, difamatorio, amenazante, denigrante, burdo, falso, enga\u00f1oso, fraudulento, inexacto, injusto, contenga exageraciones o aseveraciones no confirmadas, sea irrazonablemente da\u00f1ino u ofensivo contra cualquier persona, individuo o comunidad, as\u00ed sea solo identificable.\n\u2022 No utilizar textos, fotograf\u00edas o ilustraciones de mal gusto, violatorios del derecho a la vida privada y/o intimidad.\n\u2022 No violar o promover la violaci\u00f3n de cualquier ley, norma, regulaci\u00f3n internacional, nacional, departamental o municipal.\n\u2022 Abstenerse de usar cualquier tecnolog\u00eda que supere los controles o l\u00edmites que establezca \u201cEC\u201d para compartir contenidos dentro de sus espacios de interacci\u00f3n.\n\nMientras en el Portal est\u00e9n prohibidas estas conductas, \u201cEC\u201d no tendr\u00e1 la obligaci\u00f3n del seguimiento para verificar su cumplimiento, por cuanto el usuario al acceder al Portal y eventualmente participar en cualquiera de los espacios de participaci\u00f3n o interacci\u00f3n del mismo, tiene la obligaci\u00f3n de cumplirlas y asume la responsabilidad legal de lo que escribe y/o exprese.\n\nSi alg\u00fan Usuario incumple \u00e9stas pr\u00e1cticas de uso, \u201cEC\u201d se encuentra facultado y se reserva el derecho, de retirar y/o eliminar el registro del Usuario, as\u00ed como de los chats, blogs, foros, discusiones, sistemas de comentarios, sondeos, o cualquier otra herramienta o espacio de participaci\u00f3n del Portal.\n \n\u201cEC\u201d tendr\u00e1 el derecho pero no la obligaci\u00f3n de monitorear, moderar y/o validar los contenidos compartidos por los usuarios dentro del portal para la verificaci\u00f3n del cumplimiento con estos t\u00e9rminos y condiciones y para adaptarse a la legislaci\u00f3n aplicable o por solicitud de quien se sienta afectado con dicha informaci\u00f3n.\n\nAdem\u00e1s y aunque \u201cEC\u201d no tiene la obligaci\u00f3n de monitorear o moderar los contenidos cargados por los usuarios, se reserva el derecho en cualquier momento y por cualquier motivo de examinar, editar, negarse a publicar o eliminar sin previo aviso cualquier contenido. El usuario es el \u00fanico responsable de crear copias de seguridad de sus contenidos bajo su propio costo y gasto. La decisi\u00f3n de \u201cEC\u201d para monitorear, modificar, eliminar, moderar y/o validar el contenido, no constituye ni se considerara que constituye responsabilidad alguna por parte de \u201cEC\u201d. \u201cEC\u201d no se hace responsable por lo que no reemplaz\u00f3 y se public\u00f3, aun siendo contrario a los presentes t\u00e9rminos y condiciones.\n\nEs derecho de \u201cEC\u201d, incluir o no en el Portal el material recibido de los usuarios a su criterio. \u201cEC\u201d se reserva el derecho de mantener o no en el Portal dicho material por el lapso que considere pertinente.\n \nEl dise\u00f1o, manejo, finalidad y caracter\u00edsticas de los diferentes espacios de participaci\u00f3n e interacci\u00f3n del Portal son elementos discrecionales de \u201cEC\u201d, quien podr\u00e1 en cualquier momento cambiarlos y/o eliminarlos, y/o determinar la cantidad de participantes admitidos en cada uno de ellos.\n\n\u2022 Art\u00edculos y Comentarios De Opini\u00f3n\n\nLos art\u00edculos y comentarios de opini\u00f3n que se encuentren en los portales de \u201cEC\u201d, son libres y de ellos son responsables \u00fanica y exclusivamente sus autores, por lo tanto, no comprometen el pensamiento editorial de \u201cEC\u201d. Es as\u00ed, como las solicitudes de rectificaci\u00f3n deben ser dirigidas al responsable y no a \u201cEC\u201d. Sin embargo, enti\u00e9ndase que sobre \u00e9stas no procede la Rectificaci\u00f3n, ya que por expresa manifestaci\u00f3n de la Corte Constitucional la opini\u00f3n \u201cno conoce restricciones\u201d, por tratarse de apreciaciones personales de quien escribe, de conformidad con el convencimiento que el autor se ha formado sobre un acontecimiento, persona o lugar.\n\n\u201cEC\u201d, no es responsable de la licitud, exactitud, exhaustividad, actualidad y certeza de los hechos sobre los que se opinen o se comente por parte de los columnistas, colaboradores y de los usuarios y que sean publicados en el Portal.\n\u2022 Par\u00e1metros de comportamiento para los blogger\nPara cualquiera de los blogs alojados en el Portal, usted como blogger se compromete a mantener su blog actualizado y por tanto en mantener su frecuencia y a respetar y ayudar a cumplir las normas de uso de la comunidad. Por favor tenga en cuenta lo siguiente:\n\u2022 No escriba textos, ni suba im\u00e1genes o cualquier otro material que atenten contra la integridad humana.\n\u2022 Ayude a construir la comunidad, filtrando los malos comentarios; visitando el trabajo de los dem\u00e1s para que otros visiten el suyo; respondiendo a los comentarios que otros usuarios hacen dentro de su blog de manera coherente y respetuosa, el objetivo es construir un di\u00e1logo alrededor de los temas propuestos.\n\u2022 Si ve algo anormal en los comentarios, blogs, reportajes, notas, etc h\u00e1ganoslo saber.\n\u2022 Escriba en un formato claro y sencillo.\n\u2022 No escriba en may\u00fasculas, en la comunidad online es considerado como gritar.\n\u2022 No use formas no convencionales de escribir, no genera confianza.\n\u2022 Cuando utilice alguna parte de un art\u00edculo o blog es muy importante que le d\u00e9 los cr\u00e9ditos necesarios a su autor. Tambi\u00e9n es buena pr\u00e1ctica mencionar la fuente y compartir su enlace con el lector.\n\u2022 No publique textos escritos por otras personas en su blog sin cita bibliogr\u00e1fica.\n\u2022 Sea prudente con la informaci\u00f3n, recomendaciones o prescripciones relacionadas con la salud o tratamientos m\u00e9dicos.\n\u2022 No utilice fotos, videos o materiales que no sean suyos sin conseguir el permiso del autor.\n\u2022 Verifique sus fuentes. Si no est\u00e1 seguro de la validez de la informaci\u00f3n pero igual la quiere publicar, comparta su duda en vez de publicarlo como un hecho.\n\u2022 Verifique si para hacer enlaces de im\u00e1genes y sitios web requiere permiso previo de su autor. Si no est\u00e1 seguro, recuerde que la mayor\u00eda de sitios o blogs no dejan hacer esto sin previo aviso.\n\u2022 Corrija sus errores, publicar las actualizaciones y aclaraciones cuando sea necesario. Cuando ocurren estos errores, ac\u00e9ptelos y publique los cambios y/o actualizaciones.\n\u2022 Si tiene alg\u00fan conflicto de inter\u00e9s o est\u00e1 apoyando un proyecto personal, es mejor decirlo de frente. Sus lectores merecen saber la verdad.\n\n\u2022 Sobre el contenido noticioso propuesto por el usuario\nEs posible que El portal le posibilita al usuario proporcionar informaci\u00f3n adicional sobre los contenidos noticiosos que se publican, as\u00ed como sugerir nueva informaci\u00f3n sobre hechos y/o noticias de actualidad. En la medida de lo posible, el usuario deber\u00e1 proporcionar los datos de las fuentes id\u00f3neas para complementar la informaci\u00f3n o que posibiliten a \u201cEC\u201d, hacer trabajo de investigaci\u00f3n period\u00edstica. Para todo lo anterior, usted debe identificarse plenamente. \u201cEC\u201d se reserva el derecho de adicionar la informaci\u00f3n y/o hacer su propio trabajo de investigaci\u00f3n sobre los hechos por el usuario mencionados y/o sugeridos. En caso que EL COLOMBIANO opte por reproducir el contenido propuesto por el usuario del portal en cualquiera de sus medios impresos y/o digitales, el usuario garantiza a \u201cEC\u201d que es titular de los derechos de autor sobre su contenido y concede a \u201cEC\u201d en forma permanente, una licencia de uso gratuita, exclusiva, para la reproducci\u00f3n, adaptaci\u00f3n, compilaci\u00f3n, almacenamiento y distribuci\u00f3n de los contenidos por \u00e9l suministrados y autoriza expresamente la publicaci\u00f3n de los mismos en la versi\u00f3n impresa de cualquiera de las publicaciones de \u201cEC\u201d, as\u00ed como en sus plataformas digitales. \u201cEC\u201d reconocer\u00e1 al Usuario su autor\u00eda sobre los contenidos suministrados en la medida en que el usuario se identifique plenamente.\n \nEl usuario debe tener presente que la informaci\u00f3n que proporciona debe ser veraz e imparcial y en todo caso deber\u00e1 ser respetuosa de los derechos fundamentales de las personas naturales o jur\u00eddicas respecto de las cuales se informa.\n \nEn el eventual caso de que EC haga trabajo period\u00edstico propio con la informaci\u00f3n suministrada por el Usuario, este se reserva el derecho de preservar o no la identidad de la fuente (Usuario).\n\nEn todo caso el usuario deber\u00e1 tener presente las dem\u00e1s normas establecidas en estos t\u00e9rminos y condiciones que sean aplicables, as\u00ed como que, la informaci\u00f3n suministrada la est\u00e1 proporcionando a un medio de comunicaci\u00f3n por lo que tiene vocaci\u00f3n para su publicaci\u00f3n por lo que no ser\u00e1 considerada en ning\u00fan caso como informaci\u00f3n confidencial.\n\n\u2022 Redes sociales\n\nLa informaci\u00f3n emitida por EL COLOMBIANO a trav\u00e9s de las redes sociales ser\u00e1 responsabilidad de \u201cEC\u201d, siempre que se hagan a trav\u00e9s de sus canales oficiales, por Facebook o Twitter. EL COLOMBIANO S.A.S, no se hace responsable de las opiniones que los empleados realicen a trav\u00e9s de sus cuentas personales, as\u00ed como tampoco de los comentarios de terceras personas, en estos canales.\n\n4. OFERTAS, PROMOCIONES, CONCURSOS, SORTEOS EVENTOS PROMOCIONALES.\n\nEn el Portal podr\u00e1n implementarse ofertas, promociones, concursos, sorteos y eventos de terceros y/o de EL COLOMBIANO S.A.S\n\nLas ofertas, promociones, concursos, sorteos y eventos de terceros que sean publicitados en los portales de \u201cEC\u201d son responsabilidad \u00fanica y exclusiva del titular de los mismos, por lo que cualquier petici\u00f3n, queja o reclamo deber\u00e1 ser presentado por el usuario al tercero responsable y no a \u201cEC\u201d.\n \nEl Usuario reconoce que \u201cEC\u201d no asume responsabilidad alguna que corresponda a un anunciante y/o el proveedor de bienes y/o servicios, promociones, sorteos, etc que se ofrezcan en el Portal, siendo entendido que \u201cEC\u201d no se responsabiliza por las transacciones, calidad, ni la entrega de los productos o servicios que se ofertan en los portales de \u201cEC\u201d. Por tal motivo no ser\u00e1 responsable por cualquier problema, queja o reclamo de los usuarios por cuestiones atinentes a dichos productos o servicios. As\u00ed mismo no responde por los problemas que se generen en las pasarelas de pago.\n\nLas promociones, concursos, sorteos y eventos de \u201cEC\u201d que se implementen en el Portal estar\u00e1n sujetas a las reglas y condiciones que en cada oportunidad se establezca por parte de \u201cEC\u201d, siendo necesario como requisito m\u00ednimo para acceder a tales oportunidades o beneficios comerciales, que el Usuario se encuentre debidamente registrado como usuario del Portal.\n\n5. Los t\u00e9rminos ac\u00e1 previstos ser\u00e1n aplicables al tipo de suscripci\u00f3n contratada con cada uno de los clientes de la compa\u00f1\u00eda EL COLOMBIANO S.A.S\n \nCONTRATO DE SUSCRIPCI\u00d3N\nPeri\u00f3dico EL COLOMBIANO\nVersi\u00f3n Impresa\n \nT\u00e9rminos y condiciones vigentes a partir del 15 de enero de 2021\n(Aplican para renovaciones de suscripciones vigentes que se hagan a partir del 15 de enero de 2021).\n \n \n \nCONDICIONES GENERALES\nEL COLOMBIANO S.A.S establece los t\u00e9rminos y condiciones del contrato de suscripci\u00f3n, por favor l\u00e9alos cuidadosamente. El contrato de suscripci\u00f3n se regir\u00e1 bajo las condiciones que aqu\u00ed se describen y usted acuerda vincularse jur\u00eddicamente por estas condiciones. Estas condiciones sustituyen expresamente los acuerdos o compromisos previos con usted. EL COLOMBIANO S.A.S puede modificar estos T\u00e9rminos y Condiciones en cualquier momento sin previo aviso. Usted deber\u00e1 leer lo contenido en este instrumento legal peri\u00f3dicamente para revisar las normativas aqu\u00ed establecidas y los cambios efectuados, debido a que las mismas son obligatorias para usted. Al aceptar estos t\u00e9rminos y condiciones usted reconoce y declara que es mayor de edad y est\u00e1 en plena capacidad de aceptar y quedar sujeto a lo descrito en el presente documento. En ese sentido y por el principio de la buena fe, se entiende que al aceptar el presente documento usted es mayor de edad.\n \nProducto Objeto de Suscripci\u00f3n: Es el peri\u00f3dico EL COLOMBIANO que se edita y expende en Medell\u00edn, el \u00c1rea Metropolitana del Valle de Aburra y en algunos Municipios del Departamento de Antioquia por cuenta de la sociedad EL COLOMBIANO S.A.S\nTitular de la publicaci\u00f3n: Es la sociedad EL COLOMBIANO S.A.S con NIT: 890.901.352-3 en adelante La Organizaci\u00f3n y/o La Compa\u00f1\u00eda.\nCliente/Comprador: Persona a cuyo nombre se factura el servicio de suscripci\u00f3n.\nSuscriptor/Titular: Persona a nombre de quien se encuentra una Suscripci\u00f3n, es el destinatario del Producto.\nDirecci\u00f3n de Entrega: Es la direcci\u00f3n exacta, completa y actualizada del predio o lugar que el Cliente informa a La Compa\u00f1\u00eda en el momento de solicitar su suscripci\u00f3n como lugar de entrega del Producto objeto de la Suscripci\u00f3n. Su actualizaci\u00f3n depende \u00fanicamente del Cliente y/o Suscriptor y cualquier inconveniente que se presente por la falta de actualizaci\u00f3n, ser\u00e1 responsabilidad exclusiva del Cliente y/o Suscriptor. La Direcci\u00f3n de Entrega se compone de: ciudad, direcci\u00f3n (calle, placa-n\u00famero), interior, No. de casa, apartamento u oficina y cualquier otra informaci\u00f3n espec\u00edfica que permita de manera inequ\u00edvoca efectuar la entrega. Cuando la direcci\u00f3n corresponda a una casa que haga parte de un conjunto residencial, o a un apartamento, La Compa\u00f1\u00eda podr\u00e1 realizar la entrega en la porter\u00eda del conjunto residencial o edificio respectivo, entendi\u00e9ndose tales lugares, como el lugar de domicilio del Suscriptor y por tanto como Direcci\u00f3n de Entrega. Toda suscripci\u00f3n tendr\u00e1 una (1) Direcci\u00f3n de Entrega, salvo que se contrate la modalidad de suscripci\u00f3n con Direcci\u00f3n Alterna, en la que pueden registrarse hasta dos (2) Direcciones de Entrega, seg\u00fan condiciones aplicables a dicha modalidad.\nProducto: se refiere a la publicaci\u00f3n y/o medio de comunicaci\u00f3n de propiedad de EL COLOMBIANO S.A.S, cuyo contenido, dise\u00f1o, secciones, insertos, revistas anexas y periodo/calendario de circulaci\u00f3n son definidos por La Compa\u00f1\u00eda, pudiendo ser modificados en cualquier tiempo, seg\u00fan los criterios editoriales, informativos y/o comerciales que libremente escoja La Compa\u00f1\u00eda.\nPeri\u00f3dico: Es el peri\u00f3dico EL COLOMBIANO que edita y expende la compa\u00f1\u00eda EL COLOMBIANO S.A.S\nSuscripci\u00f3n/Servicio de Suscripci\u00f3n: Es el servicio de entrega a domicilio de un Producto en la Direcci\u00f3n de Entrega, con la periodicidad de circulaci\u00f3n del mismo o con la periodicidad de entrega seleccionada por el Cliente, el cual estar\u00e1 vigente desde el momento de su activaci\u00f3n hasta la fecha en que se d\u00e9 por terminada la Suscripci\u00f3n por el Cliente o por La Compa\u00f1\u00eda (t\u00e9rmino indefinido) conforme al procedimiento previsto por la misma.\nCompra de una suscripci\u00f3n: Una persona puede adquirir el servicio de suscripci\u00f3n a su nombre o a nombre de un tercero a trav\u00e9s de: (i) Call Center tel\u00e9fono (4) 3393333, (ii) p\u00e1gina Web http://www.elcolombiano.com.co; (iii) cualquiera de los Centros de Venta de la compa\u00f1\u00eda (Oficinas de EL COLOMBIANO), o (iv) a trav\u00e9s de la venta presencial del personal o empresa autorizada por La Compa\u00f1\u00eda. Cada canal de compra puede tener condiciones y medios de pago diferentes, consulte a su asesor o comun\u00edquese al (4) 3393333 en Medell\u00edn. En el proceso de compra de suscripci\u00f3n por canal telef\u00f3nico, el asesor comercial no solicitar\u00e1 el c\u00f3digo de seguridad de la tarjeta de cr\u00e9dito; \u00e9ste deber\u00e1 ser digitado por el Cliente cuando el sistema de audio respuesta lo solicite.\nMedios de pago: El Cliente puede escoger el medio de pago de su preferencia, siempre y cuando \u00e9ste se encuentre disponible en su sector y/o el canal a trav\u00e9s del cual se realiza la compra, todo lo cual le ser\u00e1 informado al momento de la venta. La Compa\u00f1\u00eda se reserva el derecho de incluir otros medios de pago y/o de eliminar algunos cuando lo estime conveniente. Al adquirir la Suscripci\u00f3n, el Cliente autoriza de forma expresa a EL COLOMBIANO S.A.S para hacer todos los cobros a que haya lugar a trav\u00e9s del medio de pago seleccionado. Cuando se trate de renovaciones autom\u00e1ticas con cargo a la tarjeta de cr\u00e9dito registrada en la compa\u00f1\u00eda, no se requiere previo aviso o confirmaci\u00f3n de su autorizaci\u00f3n, lo cual incluir\u00e1 el cobro de la tarifa, actualizaciones, reliquidaciones de precio, recargo por medios de pago, y dem\u00e1s valores a cargo del Cliente/Suscriptor. El Cliente podr\u00e1 en cualquier momento solicitar la modificaci\u00f3n del medio de pago a trav\u00e9s de los canales de venta y/o servicio al cliente establecidos por La Compa\u00f1\u00eda. Si el pago no se pudiera realizar satisfactoriamente, debido a la fecha de caducidad del medio de pago, cambio de tarjetas y/o la falta de fondos, el Cliente seguir\u00e1 siendo responsable de los montos pendientes de pago. Esto podr\u00eda resultar en un cambio en las fechas de facturaci\u00f3n.\nModalidades de Suscripci\u00f3n: Seg\u00fan la periodicidad de entrega y el t\u00e9rmino de la misma: al adquirir la Suscripci\u00f3n, el Cliente seleccionar\u00e1 la periodicidad con la que desea recibir el Producto: Con la periodicidad de circulaci\u00f3n del mismo o con la periodicidad de entrega disponible de acuerdo con las alternativas ofrecidas por La Compa\u00f1\u00eda en cada caso al momento de la venta.\nElementos esenciales del Contrato de Suscripci\u00f3n: Ser\u00e1n elementos esenciales del contrato de suscripci\u00f3n los siguientes:\n \nSUSCRIPCI\u00d3N IMPRESA\n \nDURACI\u00d3N EN MESES Y FRECUENCIA\nUn (1) mes (Duraci\u00f3n indefinida, Renovaci\u00f3n Autom\u00e1tica \u2013 pago con tarjeta de cr\u00e9dito)\nLunes a Domingo\nSeis (6) \u2013 Puede ser con Renovaci\u00f3n Autom\u00e1tica (tarjeta de cr\u00e9dito) y sin Renovaci\u00f3n Autom\u00e1tica\nLunes a Domingo y/o\nViernes, s\u00e1bado y domingo\nDoce (12) meses - Puede ser con Renovaci\u00f3n Autom\u00e1tica (Tarjeta de cr\u00e9dito) y sin Renovaci\u00f3n Autom\u00e1tica\nLunes a Domingo y/o\nViernes, s\u00e1bado y domingo\n \nLa duraci\u00f3n de la suscripci\u00f3n se cuenta a partir el primer d\u00eda de entrega de la suscripci\u00f3n y hasta el d\u00eda inmediatamente anterior (12:00 AM) del d\u00eda en que se cumpla el t\u00e9rmino de la misma.\n \nD\u00cdAS DE NO CIRCULACI\u00d3N\n1 de enero\nViernes Santo\n25 de diciembre\nQUE INCLUYE LA EDICI\u00d3N IMPRESA\nPeri\u00f3dico EL COLOMBIANO impreso en el lugar definido como lugar de entrega.\nAcceso a Kiosko digital con versi\u00f3n r\u00e9plica del peri\u00f3dico EL COLOMBIANO\nMembres\u00eda a Club Intelecto\nFORMAS DE CONTRATACI\u00d3N\nCall Center (Todas las formas de pago)\nP\u00e1gina de Internet (Solo se admite Tarjeta de Cr\u00e9dito)\nPresencial (Todas las formas de pago)\nCARACTERISTICAS Y FORMAS DE PAGO.\nCon Renovaci\u00f3n Autom\u00e1tica con cargo a la tarjeta de cr\u00e9dito registrada en la compa\u00f1\u00eda. Todas las suscripciones de Un (1) mes ser\u00e1n con renovaci\u00f3n autom\u00e1tica, para lo cual el Suscriptor necesariamente deber\u00e1 proporcionar los datos de la tarjeta de cr\u00e9dito para cargar el valor del mes siguiente a este medio de pago y as\u00ed sucesivamente.\nLas suscripciones que se compran por la web www.elcolombiano.com, ser\u00e1n necesariamente con renovaci\u00f3n autom\u00e1tica.\nLa renovaci\u00f3n autom\u00e1tica no genera la obligaci\u00f3n para EL COLOMBIANO de avisar previo al vencimiento de la suscripci\u00f3n la continuidad de la suscripci\u00f3n por el mismo periodo inicialmente contratado, por lo que EL COLOMBIANO podr\u00e1 cargar el valor (Valor vigente en el momento \u2013 precio de lista) de la siguiente suscripci\u00f3n a la Tarjeta de Cr\u00e9dito registrada sin previo aviso. \nEl contrato de suscripci\u00f3n con renovaci\u00f3n autom\u00e1tica podr\u00e1 terminarse por el suscriptor con treinta (30) d\u00edas h\u00e1biles de anticipaci\u00f3n al vencimiento de la misma.\nEl contrato de suscripci\u00f3n mensual (T\u00e9rmino indefinido) podr\u00e1 terminarse por parte del suscriptor con quince (15) d\u00edas de antelaci\u00f3n a la fecha de activaci\u00f3n del siguiente mes de prestaci\u00f3n del servicio de suscripci\u00f3n y siempre que no se haya cargado el valor a la tarjeta de cr\u00e9dito registrada, de lo contrario, la terminaci\u00f3n aplicar\u00e1 para el mes siguiente.\n \nSin Renovaci\u00f3n Autom\u00e1tica, se encuentran habilitados para el pago los siguientes medios de pago:\nTarjeta Debito\nTarjeta de Cr\u00e9dito\nTransferencia a la cuenta bancaria de la compa\u00f1\u00eda\nPago por consignaci\u00f3n\nPago presencial en oficinas\nNo es posible la terminaci\u00f3n anticipada de cualquier modalidad de suscripci\u00f3n por parte del Suscriptor y/o Cliente.\nCOBERTURA PERI\u00d3DICO IMPRESO\nSujeto a cobertura/Cualquiera sea el motivo, los t\u00e9rminos de cobertura podr\u00e1n cambiar en cualquier momento durante el tiempo de vigencia de la suscripci\u00f3n, tanto para incluir nuevas \u00e1reas de cobertura como para eliminaci\u00f3n de las ya existentes.\nFACTURACI\u00d3N Y PAGO\nSe factura y carga el valor de la suscripci\u00f3n a su forma de pago en el momento de la venta y para procesos de renovaci\u00f3n se factura y carga a la forma de pago dentro de los diez (10) d\u00edas anteriores a la fecha de vencimiento para suscripciones con renovaci\u00f3n autom\u00e1tica y dentro de los cinco (5) d\u00edas siguientes al vencimiento de la respectiva suscripci\u00f3n para suscripciones sin renovaci\u00f3n autom\u00e1tica.\nMEMBRES\u00cdA \u2013 CLUB INTELECTO\nEl titular de la suscripci\u00f3n tendr\u00e1 derecho a pertenecer al Club Intelecto desde la vinculaci\u00f3n como suscriptor del peri\u00f3dico Impreso siempre que se pague el valor de la suscripci\u00f3n en t\u00e9rminos corrientes. \nTERMINOS INTELECTO\nLa membres\u00eda se entrega dentro de los diez (10) d\u00edas h\u00e1biles siguientes a la contrataci\u00f3n de la suscripci\u00f3n. En todo caso, El Colombiano podr\u00e1 convertir la tarjeta que identifica a sus suscriptores como miembros del Club, en una tarjeta digital a la que se brindar\u00e1 acceso a trav\u00e9s de una aplicaci\u00f3n adecuada. En ese caso, el suscriptor ser\u00e1 notificado al correo electr\u00f3nico registrado.\nDerecho a una membres\u00eda por suscripci\u00f3n\nBeneficios para el titular de la suscripci\u00f3n\nLos paquetes de suscripci\u00f3n corporativa no tendr\u00edan acceso a Intelecto\nPara suscripciones mensuales \u2013 t\u00e9rmino indefinido deber\u00e1 por lo menos tener una permanencia m\u00ednima de tres (3) meses consecutivos para obtener la membres\u00eda.\nA discreci\u00f3n de EL COLOMBIANO Invitaciones exclusivas y/o precios diferenciales para vivir el mundo de experiencias INTELECTO \u2013 EL COLOMBIANO\nDescuentos en establecimientos aliados, en mega alianzas, productos optativos de EL COLOMBIANO, a discreci\u00f3n del aliado comercial, previa aprobaci\u00f3n de El Colombiano\nLos t\u00e9rminos comerciales y/o beneficios que otorga la membres\u00eda Intelecto, durante la vigencia de la suscripci\u00f3n podr\u00e1n ser cambiados, eliminados, modificados y/o adicionados por EL COLOMBIANO, sin que por ello se presente un incumplimiento al contrato de suscripci\u00f3n.\n \nALCANCE:\nRespecto de la forma de pago: Al adquirir una Suscripci\u00f3n el Cliente autoriza a La Compa\u00f1\u00eda a cobrarle en forma mensual (para suscripciones mensuales \u2013 duraci\u00f3n indefinida) o una cuota conforme la duraci\u00f3n de la suscripci\u00f3n, a la tarifa vigente en ese momento y cualquier otro cargo en el que incurra en relaci\u00f3n con el uso que haga del servicio de suscripci\u00f3n, a trav\u00e9s de los medios de pago descritos en este documento.\n \nEl valor a cobrar permanecer\u00e1 igual durante toda la vigencia de la Suscripci\u00f3n (salvo para la suscripci\u00f3n mensual \u2013 duraci\u00f3n indefinida que en cualquier momento y a discreci\u00f3n de La Compa\u00f1\u00eda podr\u00e1 variar la cuota mensual conforme los t\u00e9rminos de este contrato).\n \nLa primera cuota de la Suscripci\u00f3n se facturar\u00e1 al comienzo de la misma.\n \nEl cobro del valor respectivo se realizar\u00e1 para pago en un solo contado, o todos los meses para suscripciones mensuales - duraci\u00f3n indefinida. En el caso de la suscripci\u00f3n mensual \u2013 duraci\u00f3n indefinida dentro de los diez (10) d\u00edas antes del cumplimiento de la vigencia de la respectiva suscripci\u00f3n, con la finalidad de hacer efectivo el mismo de forma anticipada para evitar la suspensi\u00f3n de la Suscripci\u00f3n. Por ejemplo, si comenz\u00f3 su suscripci\u00f3n con cargo a partir del 30 de marzo, el cobro del mes siguiente ser\u00e1 entre los siguientes d\u00edas 20 de abril y el 30 de abril y se facturar\u00e1 su pago en esa fecha.\n \nPara procesos de renovaci\u00f3n de suscripciones: Se factura y carga su valor a la forma de pago dentro de los 10 d\u00edas anteriores a la fecha de vencimiento para suscripciones con renovaci\u00f3n autom\u00e1tica y dentro de los cinco (5) d\u00edas siguientes al vencimiento de la respectiva suscripci\u00f3n para suscripciones sin renovaci\u00f3n autom\u00e1tica.\n \nLa fecha de cobro puede cambiar debido a los cambios en el pago de la Suscripci\u00f3n. Si la Suscripci\u00f3n comienza un d\u00eda que no est\u00e1 incluido en un determinado mes, o el d\u00eda de cobro es un d\u00eda festivo, La Compa\u00f1\u00eda podr\u00e1 facturar el valor mensual correspondiente el d\u00eda h\u00e1bil anterior y/o siguiente.\n \nSi durante el periodo de la suscripci\u00f3n el Suscriptor solicita la suspensi\u00f3n de su Suscripci\u00f3n, como por ejemplo, por vacaciones del Suscriptor, esto origina que el cobro y pago corresponda adecuarlos seg\u00fan el plazo en que estuvo suspendida la Suscripci\u00f3n. En caso de que un Suscriptor que haya tenido suspendida su Suscripci\u00f3n desee conocer su fecha de cobro, puede contactarse a la l\u00ednea de atenci\u00f3n al cliente que se encuentra en este documento.\n \nSuscripci\u00f3n Promocional: Es aquella Suscripci\u00f3n que adquiere el Cliente en respuesta a una campa\u00f1a promocional puntual realizada por La Compa\u00f1\u00eda, que puede incluir descuentos y/o obsequios y/o condiciones especiales, las cuales aplicar\u00e1n \u00fanicamente durante el tiempo se\u00f1alado en la promoci\u00f3n. Al adquirir una Suscripci\u00f3n Promocional, el Cliente y/o El Suscriptor acepta y reconoce que el precio y/o condiciones especiales fueron establecidas en atenci\u00f3n a los compromisos y/o condiciones especiales aceptadas por el Cliente, lo cual podr\u00e1 incluir, sin limitaci\u00f3n, el periodo de duraci\u00f3n de la Suscripci\u00f3n, la forma de pago, la periodicidad y/o el medio de pago seleccionado. En tal sentido, el Cliente/Suscriptor entiende y acepta que, en el evento de manifestar su intenci\u00f3n de cancelar la Suscripci\u00f3n antes del vencimiento del periodo de vigencia establecido para la Promoci\u00f3n o de cualquier otra forma modificar las condiciones de la Suscripci\u00f3n que impliquen variaci\u00f3n frente a las condiciones en las que fue ofrecida la Promoci\u00f3n, La Compa\u00f1\u00eda podr\u00e1 exigir el pago del valor diferencial entre el valor de la Suscripci\u00f3n Promocional y el que habr\u00eda tenido que pagar el Cliente/Suscriptor por una Suscripci\u00f3n bajo la modalidad no promocional. El Cliente acepta que vencido el periodo de vigencia de la Suscripci\u00f3n Promocional, la misma pasar\u00e1 a ser una Suscripci\u00f3n No Promocional, con las tarifas y condiciones vigentes a ese momento para dicha modalidad, salvo que el Cliente manifieste su decisi\u00f3n de dar por terminada la Suscripci\u00f3n o de continuar con el servicio bajo una modalidad diferente, en cuyo caso aplicar\u00e1n los precios y tarifas vigentes en ese momento.\n \nSuscripci\u00f3n con Direcci\u00f3n Alterna (no aplica para la suscripci\u00f3n de mes \u2013 duraci\u00f3n indefinida): modalidad de suscripci\u00f3n en la que pueden registrarse hasta dos (2) Direcciones de Entrega, una para entrega de lunes a viernes y a otra (Direcci\u00f3n Alterna), para los d\u00edas s\u00e1bados y domingos.\n \nTerminaci\u00f3n anticipada de la Suscripci\u00f3n: EL COLOMBIANO S.A.S se reserva el derecho de la terminaci\u00f3n unilateral de la suscripci\u00f3n con la \u00fanica obligaci\u00f3n de devolver la suma de dinero que corresponde a los ejemplares no despachados, al mismo precio de adquisici\u00f3n por parte de EL SUSCRIPTOR. Para el efecto, ser\u00e1 v\u00e1lida la consignaci\u00f3n a la cuenta bancaria reportada por EL SUSCRIPTOR, o en caso de no existir esta, al aviso de devoluci\u00f3n a nombre de EL SUSCRIPTOR para que se presente en las oficinas de EL COLOMBIANO a retirar el dinero. La cancelaci\u00f3n unilateral de EL SUSCRIPTOR no da derecho a la devoluci\u00f3n de dinero.\n \nDevoluciones de Dinero: EL COMBIANO S.A. Y CIA S.C.A. proceder\u00e1 con devoluci\u00f3n de dinero por el tiempo que faltare para el cumplimiento de la vigencia del contrato en los siguientes casos: 1. Cuando se presenten fallas en el servicio de forma reiterativa que impidan al Suscriptor acceder al contenido impreso, debidamente probadas y que hayan sido comunicadas por El Suscriptor en debida forma. 2. Con ocasi\u00f3n del derecho de retracto que le asiste al Suscriptor. 3. Cuando La Compa\u00f1\u00eda de por terminado en forma anticipa el contrato de Suscripci\u00f3n.\n \nFuerza Mayor: La Compa\u00f1\u00eda no se hace responsable por la no entrega del peri\u00f3dico en casos de fuerza mayor o caso fortuito, o en eventos tales como, pero sin limitarse a ello: incendio, atentado, paro, inundaci\u00f3n, huelga, pandemias, falta de materia prima no imputable a La Compa\u00f1\u00eda, problemas de transporte, fallas en las m\u00e1quinas de impresi\u00f3n que no pudieren ser resueltas, problemas de orden p\u00fablico y/o amenazas a los repartidores en las \u00e1reas de cobertura.\n \nSuspensi\u00f3n: El Suscriptor puede suspender la suscripci\u00f3n en caso de que, por un periodo de tiempo (no superior a un mes), no vaya a estar en su casa, empresa o lugar de entrega. Para suscripciones de seis (6) meses solo podr\u00e1 suspenderse por dos veces y para suscripciones de doce (12) meses podr\u00e1n ser solicitadas hasta cuatro suspensiones. Por motivos de orden p\u00fablico o fuerza mayor La Compa\u00f1\u00eda podr\u00e1 suspender el cumplimiento del contrato de suscripci\u00f3n mientras dure la causa que d\u00e9 origen a la suspensi\u00f3n y/o hasta cuando en su consideraci\u00f3n pueda reactivar la entrega. La vigencia del contrato se ampl\u00eda por el mismo t\u00e9rmino que dure la suspensi\u00f3n.\n \nActivaci\u00f3n de la suscripci\u00f3n: El servicio quedar\u00e1 activo dentro de los cinco (5) d\u00edas h\u00e1biles siguientes a la fecha en que se haga efectivo el pago, lo cual depender\u00e1 del medio de pago utilizado y el proceso del tercero involucrado en dicho medio de pago. En el evento de identificar que los Datos de Entrega son err\u00f3neos, La Compa\u00f1\u00eda proceder\u00e1 a solicitar al suscriptor la confirmaci\u00f3n o validaci\u00f3n de los mismos como prerrequisito para activar la Suscripci\u00f3n.\n \nEl servicio de la Suscripci\u00f3n se har\u00e1 \u00fanica y exclusivamente en la Direcci\u00f3n de Entrega (y Direcci\u00f3n Alterna, si fuera el caso), siempre que esta se encuentre en la ciudad, municipio, y zonas cubiertas por la red de distribuci\u00f3n de La compa\u00f1\u00eda. Al momento de adquirir la Suscripci\u00f3n, el Cliente deber\u00e1 suministrar la Direcci\u00f3n de Entrega, con lo cual se podr\u00e1 verificar si la misma est\u00e1 dentro de las \u00e1reas de cobertura de la red. En caso que la Direcci\u00f3n de Entrega suministrada por el Cliente al adquirir la Suscripci\u00f3n o la que modifique en forma posterior, no se encuentre dentro de las \u00e1reas de cubrimiento que de tiempo en tiempo tenga establecidas La compa\u00f1\u00eda, ello ser\u00e1 una causal para dar por terminada la Suscripci\u00f3n y por tanto La Compa\u00f1\u00eda proceder\u00e1 con el rembolso de los valores pagados por el Cliente correspondiente al periodo no servido. En caso de haber pagado la Suscripci\u00f3n en efectivo, la devoluci\u00f3n ser\u00e1 realizada mediante transferencia bancaria a la cuenta bancaria que para el efecto determine el Cliente y/o en oficina de EL COLOMBIANO previo acuerdo a trav\u00e9s del n\u00famero de servicio al cliente. Para dar de baja comun\u00edquese la l\u00ednea de atenci\u00f3n al cliente (4) 3393333; horarios de atenci\u00f3n de lunes a Viernes de 6:00 a.m. 6:00 p.m. S\u00e1bados 7:00 a.m. a 12:00 m y Domingos y festivos de 8:00 am a 12:00 m. La compa\u00f1\u00eda tiene definidas las \u00e1reas de cobertura espec\u00edficas dentro del los municipios del \u00c1rea Metropolitana del Valle de Aburra y Rionegro (Oriente Antioque\u00f1o). La compa\u00f1\u00eda se reserva el derecho de verificar en forma posterior a la transacci\u00f3n de compra de una suscripci\u00f3n la disponibilidad y cobertura, por lo que dar\u00e1 aviso al Suscriptor en forma posterior en caso que no exista cobertura en el lugar de entrega asignado por este.\n \nLa modalidad de entrega de los peri\u00f3dicos, revistas y coleccionables en general es bajo/frente a puerta \u00f3 en porter\u00eda seg\u00fan sea la Direcci\u00f3n de Entrega. En consecuencia no existe comprobante de entrega. De manera excepcional, La Compa\u00f1\u00eda podr\u00e1 decidir certificar algunas entregas cuando lo considere pertinente. En el caso de suscripciones empaquetadas, los Productos incluidos en dicha suscripci\u00f3n ser\u00e1n entregados en la misma Direcci\u00f3n de Entrega. La modalidad de entrega de los obsequios a los cuales el suscriptor se haga acreedor como producto de la compra de la suscripci\u00f3n \u00f3 discrecionales de La Compa\u00f1\u00eda, que no se puedan dejar bajo puerta, ser\u00e1n entregados de manera CERTIFICADA, ya sea directamente \u00f3 a trav\u00e9s de una empresa de mensajer\u00eda \u00f3 Courier que La Compa\u00f1\u00eda defina. Se define como ENTREGA CERTIFICADA, aquella donde hay una prueba de entrega alguien - que puede ser diferente del Cliente- firma en se\u00f1al de recibido en la Direcci\u00f3n de Entrega. La compa\u00f1\u00eda entregar\u00e1 la Suscripci\u00f3n de acuerdo con el calendario de circulaci\u00f3n del Producto, y en los horarios de distribuci\u00f3n determinados por La compa\u00f1\u00eda para cada Producto. La compa\u00f1\u00eda se reserva el derecho de cambiar el calendario de circulaci\u00f3n de sus Productos y modificar o eliminar cualquiera de sus Productos y/o cualquiera de las secciones que hagan parte de los mismos, de acuerdo con las condiciones y exigencias del mercado. Cualquier modificaci\u00f3n de este tipo ser\u00e1 informada al Suscriptor a trav\u00e9s de cualquier medio de contacto y/o a trav\u00e9s de comunicado dentro del mismo Producto objeto de la Suscripci\u00f3n.\n \nNovedades en la entrega \u2013 T\u00e9rmino de la Garant\u00eda: Se entender\u00e1 que el peri\u00f3dico del d\u00eda de entrega, es un bien perecedero. La Compa\u00f1\u00eda presumir\u00e1 entregado el producto salvo que el Suscriptor manifieste de manera expresa, no haberlo recibido dentro del d\u00eda en que debi\u00f3 haber sido entregado. El Suscriptor deber\u00e1 llamar a la l\u00ednea de atenci\u00f3n al cliente (4) 3393333 para los reclamos y/o quejas y reporte de cualquier novedad. Los reclamos relacionados con la no entrega deber\u00e1n hacerse antes del medio d\u00eda para que sean resueltos el mismo d\u00eda en que debi\u00f3 entregarse el producto. Reclamos que se hagan despu\u00e9s del medio d\u00eda ser\u00e1n resueltos o satisfechos por La compa\u00f1\u00eda el d\u00eda h\u00e1bil inmediatamente siguiente a la fecha en que debi\u00f3 haberse entregado el producto.\n \nEn caso de falla en dicho Producto (Se entender\u00e1 como una falla en el Producto, aquella que tenga que ver directamente con la calidad o integridad del Producto) aplica igual procedimiento establecido en el numeral anterior.\n \nEstas solicitudes deber\u00e1n hacerse a trav\u00e9s de las l\u00edneas telef\u00f3nicas de servicio al Cliente. Pasado este tiempo, se da por entendido que el Cliente indica conformidad del estado adecuado del producto entregado.\n \nEn el evento en que se haga uso de la facultad de retracto, se resolver\u00e1 el contrato y La Compa\u00f1\u00eda proceder\u00e1 con el reintegro el dinero que el Cliente hubiese pagado. El Cliente/ Suscriptor deber\u00e1 devolver el producto por los mismos medios y en las mismas condiciones en que lo recibi\u00f3. Los costos de transporte y los dem\u00e1s que conlleve la devoluci\u00f3n del bien ser\u00e1n cubiertos por el Cliente / Suscriptor.\n \nT\u00c9RMINOS Y CONDICIONES GENERALES - SUSCRIPCI\u00d3NES CON OPCIONES DIGITALES\n \nSUSCRIPCI\u00d3N DIGITAL \u2013 EL COLOMBIANO\n \nSUSCRIPCI\u00d3N IMPRESA + DIGITAL\n \nEL COLOMBIANO S.A.S, empresa propietaria y editora del peri\u00f3dico EL COLOMBIANO, persona jur\u00eddica legalmente constituida bajo las Leyes de la Rep\u00fablica de Colombia, con domicilio en la ciudad de Medell\u00edn, (en adelante EL COLOMBIANO), presenta oferta comercial para el acceso a contenidos digitales de EL COLOMBIANO conforme los siguientes T\u00e9rminos y Condiciones Generales que regulan la relaci\u00f3n contractual entre EL COLOMBIANO S.A.S y El Suscriptor de la edici\u00f3n digital del peri\u00f3dico EL COLOMBIANO, en el portal web www.elcolombiano.com, en adelante, \u201cEL COLOMBIANO DIGITAL\u201d y/o \u201cLa Suscripci\u00f3n\u201d.\n \nEstos T\u00e9rminos y Condiciones son vinculantes para EL COLOMBIANO S.A.S y para \u201cEl Suscriptor\u201d.\n \nACCESO Y CONTRATACI\u00d3N DEL SERVICIO \u201cSUSCRIPCI\u00d3N DIGITAL\u201d.\n \nPara acceder al servicio \u201cSUSCRIPCI\u00d3N DIGITAL\u201d los equipos del Suscriptor deber\u00e1n contar con los siguientes requerimientos t\u00e9cnicos:\n \nConexi\u00f3n a Internet.\nDisponer de los siguientes dispositivos o navegadores que soportan la calidad del servicio \u201cSUSCRIPCI\u00d3N DIGITAL\u201d:\nPuede accederse desde dispositivos Smartphone, Tablets y computadora escritorio de 32 Bits o 64 bits con sistemas operativo Windows, Linux o Mac que tengan las \u00faltimas versiones de los navegadores Chrome, Firefox o Microsoft Edge.\nDESCRIPCI\u00d3N DEL SERVICIO \u201cSUSCRIPCI\u00d3N DIGITAL\u201d.\n \nActualmente EL COLOMBIANO, es titular de la p\u00e1gina de internet www.elcolombiano.com.co, la cual puede ser accedida por las audiencias a trav\u00e9s de desktop y/o dispositivos m\u00f3viles como tabletas y smartphones.\n \nAlgunos contenidos b\u00e1sicos como noticias (Contenido de servicio), son accesibles por las audiencias sin necesidad de registro previo, otros contenidos un registro previo por parte del lector con la finalidad de que una vez digite su usuario y su contrase\u00f1a pueda acceder a dichos contenidos, y por \u00faltimo, otros contenidos necesitar\u00e1n que el lector se suscriba y pague peri\u00f3dicamente a EL COLOMBIANO el derecho de acceso a los mismos y poder disfrutar de ellos, esto es. \u201cSUSCRIPCI\u00d3N DIGITAL\u201d y/o \u201cLa Suscripci\u00f3n\u201d\n \nOBJETO\n \nCon la aceptaci\u00f3n del presente documento por parte del \u201cSuscriptor\u201d, EL COLOMBIANO le otorga el disfrute de la \u201cSuscripci\u00f3n Digital\u201d por \u00e9l seleccionada y pagada, legitim\u00e1ndolo a acceder a los contenidos referidos en el numeral 6 siguiente, de acuerdo con los t\u00e9rminos establecidos en el presente contrato y con los t\u00e9rminos y condiciones de uso de EL COLOMBIANO contenidos en la URL:\n \nhttps://www.elcolombiano.com/terminos-y-condiciones.\n \nQuien tiene una \u201cSuscripci\u00f3n Digital\u201d tendr\u00e1 los siguientes servicios: Acceso ilimitado a www.ecolombiano.com, servicio de alerta de noticias, acceso a contenidos de actualidad noticiosa, titulares cada ma\u00f1ana en el email registrado, acceso a contenido exclusivo (Premium) para suscriptores (investigaciones, columnas, cr\u00f3nicas, reportajes, informes especiales, multimedia, perfiles, entrevistas, entre otros \u2013 contenidos exclusivos para suscriptores digitales), acceso a la versi\u00f3n replica digital del peri\u00f3dico EL COLOMBIANO (Kiosko digital \u2013 Epaper) y/o otros eventuales beneficios. Quien tiene una suscripci\u00f3n netamente digital tendr\u00e1 derecho a la membres\u00eda a Club Intelecto luego de tres meses de permanencia, por lo que se le entregar\u00e1 documento f\u00edsico o digital que lo acredite como titular de una tarjeta Cl\u00e1sica con la cual tendr\u00e1 acceso a beneficios preferenciales en Establecimientos de Comercio aliados de EL COLOMBIANO, experiencias creadas para nuestros suscriptores y eventos de ciudad que se vinculen al Club Intelecto.\n \nLa suscripci\u00f3n digital al peri\u00f3dico EL COLOMBIANO continuar\u00e1 hasta que se cancele conforme los t\u00e9rminos ac\u00e1 establecidos.\n \nPara disfrutar de los contenidos de su suscripci\u00f3n digital debe tener acceso a internet y un dispositivo para ello, y proporcionar una forma de pago a la cual se le cargar\u00e1 el valor de Suscripci\u00f3n digital a EL COLOMBIANO. \n \nA menos que cancele su suscripci\u00f3n antes de la fecha de facturaci\u00f3n, nos autoriza a cobrarle el valor de la suscripci\u00f3n del siguiente ciclo de facturaci\u00f3n a la forma de pago registrada por usted en la compa\u00f1\u00eda en el momento de la vinculaci\u00f3n.\n \n \n \n \n\n4. OPCIONES DE SUSCRIPCI\u00d3N\n \nSUSCRIPCI\u00d3N DIGITAL\n \nFRECUENCIA\nLunes a Domingo\nDURACI\u00d3N\nMensual con renovaci\u00f3n autom\u00e1tica con cargo a la tarjeta de cr\u00e9dito que deber\u00e1 registrar en la compa\u00f1\u00eda.\nFORMA DE CONTRATACI\u00d3N\nCall Center (Solo Tarjeta de cr\u00e9dito)\nInternet (www.elcolombiano .com \u2013 solo tarjeta de cr\u00e9dito)\nPresencial (Tarjeta de cr\u00e9dito)\nCARACTERISTICAS Y REQUISITOS NECESARIOS\nSe activa mensualmente con cargo a la tarjeta de cr\u00e9dito necesariamente registrada en la compa\u00f1\u00eda al momento de la primera vinculaci\u00f3n como Suscriptor\nFACTURACI\u00d3N Y PAGO\nSe factura y se carga a la Tarjeta de Cr\u00e9dito registrada el valor mes anticipado dentro de los diez (10) d\u00edas anteriores a la fecha de inicio del siguiente periodo.\nMODALIDADES Y FORMAS DE PAGO\nCon Renovaci\u00f3n Autom\u00e1tica con cargo a la tarjeta de cr\u00e9dito registrada en la compa\u00f1\u00eda. Todas las suscripciones de Un (1) mes ser\u00e1n con renovaci\u00f3n autom\u00e1tica, para lo cual el Suscriptor necesariamente deber\u00e1 proporcionar los datos de la tarjeta de cr\u00e9dito para cargar el valor del mes siguiente a este medio de pago y as\u00ed sucesivamente.\nLa renovaci\u00f3n autom\u00e1tica no genera la obligaci\u00f3n para EL COLOMBIANO de avisar previo al vencimiento de la suscripci\u00f3n la continuidad de la suscripci\u00f3n por el mismo periodo inicialmente contratado, por lo que EL COLOMBIANO podr\u00e1 cargar el valor (Valor vigente en el momento \u2013 precio de lista) de la siguiente suscripci\u00f3n a la Tarjeta de Cr\u00e9dito registrada sin previo aviso. \nEl contrato de suscripci\u00f3n mensual podr\u00e1 terminarse por parte del suscriptor con quince (15) d\u00edas de antelaci\u00f3n a la fecha de activaci\u00f3n del siguiente mes de prestaci\u00f3n del servicio de suscripci\u00f3n y siempre que no se haya cargado el valor a la tarjeta de cr\u00e9dito registrada, de lo contrario, la terminaci\u00f3n aplicar\u00e1 para el mes siguiente.\nPLAN DE FIDELIZACI\u00d3N\nDerecho a la membres\u00eda Club Intelecto despu\u00e9s del tercer (3) mes de vinculaci\u00f3n y siempre que se pague el valor de la suscripci\u00f3n en t\u00e9rminos corrientes.\nDerecho a una membres\u00eda por suscripci\u00f3n\nBeneficios solo para el titular de la suscripci\u00f3n\nSe entrega tarjeta cl\u00e1sica. En todo caso, El Colombiano podr\u00e1 convertir la tarjeta que identifica a sus suscriptores como miembros del Club, en una tarjeta digital a la que se brindar\u00e1 acceso a trav\u00e9s de una aplicaci\u00f3n adecuada. En ese caso, el suscriptor ser\u00e1 notificado al correo electr\u00f3nico registrado.\nLa membres\u00eda incluye a discreci\u00f3n de EL COLOMBIANO Invitaciones exclusivas y/o precios diferenciales para vivir el mundo de experiencias INTELECTO \u2013 EL COLOMBIANO\nDescuentos en establecimientos aliados, en mega alianzas, productos optativos de EL COLOMBIANO, a discreci\u00f3n del aliado comercial, previa aprobaci\u00f3n de El Colombiano\nLos t\u00e9rminos comerciales y/o beneficios que otorga la membres\u00eda Intelecto, durante la vigencia de la suscripci\u00f3n podr\u00e1n ser cambiados, eliminados, modificados y/o adicionados por EL COLOMBIANO, sin que por ello se presente un incumplimiento al contrato de suscripci\u00f3n.\nLos paquetes de suscripci\u00f3n corporativa no tendr\u00edan acceso a Intelecto\n \n \nSUSCRIPCI\u00d3N EL COLOMBIANO IMPRESO (peri\u00f3dico impreso en tu domicilio) + DIGITAL\n \nDURACI\u00d3N EN MESES Y FRECUENCIA\nUn (1) (Duraci\u00f3n indefinida \u2013 Renovaci\u00f3n Autom\u00e1tica \u2013 con cargo a la Tarjeta de Cr\u00e9dito registrada en el momento de la contrataci\u00f3n de la primera suscripci\u00f3n)\nLunes a Domingo\nSeis (6) (Puede ser con Renovaci\u00f3n Autom\u00e1tica o sin Renovaci\u00f3n Autom\u00e1tica)\nLunes a Domingo y/o\nViernes, s\u00e1bado y domingo\nDoce (12) meses (Puede ser con Renovaci\u00f3n Autom\u00e1tica o sin Renovaci\u00f3n Autom\u00e1tica)\nLunes a Domingo y/o\nViernes, s\u00e1bado y domingo\nFORMAS DE CONTRATACI\u00d3N\nCall Center (Tarjeta de cr\u00e9dito para la de un mes y todas las formas de pago para las suscripciones de 6 y 12 meses)\nInternet (www.elcolombiano .com \u2013 solo tarjeta de cr\u00e9dito)\nPresencial (Todas las formas de pago, salvo para las suscripciones de un mes)\nCARACTERISTICAS Y REQUISITOS NECESARIOS\nPeri\u00f3dico impreso en tu direcci\u00f3n de entrega.\nAcceso ilimitado a www.elcolombiano.com\nAcceso Kiosko digital con versi\u00f3n r\u00e9plica del peri\u00f3dico impreso.\nInvestigaciones, columnas y contenidos exclusivos para suscripciones digitales\nMODALIDADES Y FORMAS DE PAGO\nCon Renovaci\u00f3n Autom\u00e1tica con cargo a la tarjeta de cr\u00e9dito registrada en la compa\u00f1\u00eda. Todas las suscripciones de Un (1) mes ser\u00e1n con renovaci\u00f3n autom\u00e1tica, para lo cual el Suscriptor necesariamente deber\u00e1 proporcionar los datos de la tarjeta de cr\u00e9dito para cargar el valor del mes siguiente a este medio de pago y as\u00ed sucesivamente.\nLa renovaci\u00f3n autom\u00e1tica no genera la obligaci\u00f3n para EL COLOMBIANO de avisar previo al vencimiento de la suscripci\u00f3n la continuidad de la suscripci\u00f3n por el mismo periodo inicialmente contratado, por lo que EL COLOMBIANO podr\u00e1 cargar el valor (Valor vigente en el momento \u2013 precio de lista) de la siguiente suscripci\u00f3n a la Tarjeta de Cr\u00e9dito registrada sin previo aviso. \nTodas las suscripciones contratadas por internet en la p\u00e1gina www.elcolombiano.com ser\u00e1n con renovaci\u00f3n autom\u00e1tica.\nEl contrato de suscripci\u00f3n con renovaci\u00f3n autom\u00e1tica podr\u00e1 terminarse por el suscriptor con treinta (30) d\u00edas h\u00e1biles de anticipaci\u00f3n al vencimiento de la misma.\nEl contrato de suscripci\u00f3n mensual podr\u00e1 terminarse por parte del suscriptor con quince (15) d\u00edas de antelaci\u00f3n a la fecha de activaci\u00f3n del siguiente mes de prestaci\u00f3n del servicio de suscripci\u00f3n y siempre que no se haya cargado el valor a la tarjeta de cr\u00e9dito registrada, de lo contrario, la terminaci\u00f3n aplicar\u00e1 para el mes siguiente.\nSin Renovaci\u00f3n Autom\u00e1tica, se encuentran habilitados para el pago los siguientes medios de pago:\n \nTarjeta Debito\nTarjeta de Cr\u00e9dito\nConsignaci\u00f3n\nTransferencia a la cuenta bancaria de la compa\u00f1\u00eda\nPago presencial\nNo es posible la terminaci\u00f3n anticipada de cualquier modalidad de suscripci\u00f3n por parte del Suscriptor y/o Cliente.\nCOBERTURA PERI\u00d3DICO IMPRESO\nSujeto a cobertura/Cualquiera sea el motivo, los t\u00e9rminos de cobertura podr\u00e1n cambiar en cualquier momento durante el tiempo de vigencia de la suscripci\u00f3n, tanto para incluir nuevas \u00e1reas de cobertura como para eliminaci\u00f3n de las ya existentes.\nFACTURACI\u00d3N Y PAGO\nSe factura y carga su valor a su forma de pago en el momento de la venta y para procesos de renovaci\u00f3n se factura y carga a la forma de pago dentro de los diez (10) d\u00edas anteriores a la fecha de vencimiento para suscripciones con renovaci\u00f3n autom\u00e1tica y dentro de los cinco (5) d\u00edas siguientes al vencimiento de la respectiva suscripci\u00f3n para suscripciones sin renovaci\u00f3n autom\u00e1tica.\nPLAN DE FIDELIZACI\u00d3N \u2013 MEMBRESIA INTELECTO CL\u00c1SICA\nDerecho a membres\u00eda Intelecto desde la vinculaci\u00f3n siempre que se pague el valor de la suscripci\u00f3n en t\u00e9rminos corrientes. \n.Derecho a dos tarjetas cl\u00e1sicas, la del suscriptor y la de un beneficiario, que podr\u00e1n ser f\u00edsicas y/o digitales, a discreci\u00f3n de El Colombiano\n \nTERMINOS INTELECTO\nLa membres\u00eda se entrega dentro de los diez (10) d\u00edas h\u00e1biles siguientes a la contrataci\u00f3n de la suscripci\u00f3n. En todo caso, El Colombiano podr\u00e1 convertir la tarjeta que identifica a sus suscriptores como miembros del Club, en una tarjeta digital a la que se brindar\u00e1 acceso a trav\u00e9s de una aplicaci\u00f3n adecuada. En ese caso, el suscriptor ser\u00e1 notificado al correo electr\u00f3nico registrado.\nDerecho a una membres\u00eda por suscripci\u00f3n + un beneficiario\nBeneficios para el titular de la suscripci\u00f3n + un beneficiario\nLos paquetes de suscripci\u00f3n corporativa no tendr\u00edan acceso a Intelecto\nPara suscripciones mensuales \u2013 t\u00e9rmino indefinido deber\u00e1 por lo menos tener una permanencia m\u00ednima de tres (3) meses consecutivos para obtener la membres\u00eda.\nA discreci\u00f3n de EL COLOMBIANO Invitaciones exclusivas y/o precios diferenciales para vivir el mundo de experiencias INTELECTO \u2013 EL COLOMBIANO\nDescuentos en establecimientos aliados, en mega alianzas, productos optativos de EL COLOMBIANO, a discreci\u00f3n del aliado comercial, previa aprobaci\u00f3n de El Colombiano\nLos t\u00e9rminos comerciales y/o beneficios que otorga la membres\u00eda Intelecto, durante la vigencia de la suscripci\u00f3n podr\u00e1n ser cambiados, eliminados, modificados y/o adicionados por EL COLOMBIANO, sin que por ello se presente un incumplimiento al contrato de suscripci\u00f3n.\nNORMAS ESPECIALES\nNo podr\u00e1 cancelarse, ni suspenderse los productos en forma separada.\nEn lo relacionado con la entrega del peri\u00f3dico impreso aplican los t\u00e9rminos del contrato de suscripci\u00f3n del peri\u00f3dico EL COLOMBIANO versi\u00f3n impresa en lo relacionado con: Direcci\u00f3n de entrega, producto, servicio de suscripci\u00f3n, medios de pago en lo que no sea contrario con los t\u00e9rminos ac\u00e1 establecidos, cobertura, suscripci\u00f3n promocional, direcci\u00f3n alterna de entrega, terminaci\u00f3n anticipada, devoluciones de dinero, fuerza mayor, suspensi\u00f3n, activaci\u00f3n suscripci\u00f3n, novedades en la entrega, ver en https://www.elcolombiano.com/terminos-y-condiciones\n \n5. EN RELACI\u00d3N A LAS DIFERENTES OPCIONES DE SUSCRIPCI\u00d3N:\n \nLa suscripci\u00f3n mensual, se entender\u00e1 como mes calendario, por lo que el primer cargo a la suscripci\u00f3n se har\u00e1 de acuerdo al d\u00eda en que se suscriba el Suscriptor.\nLas suscripciones de seis (6) y doce (12) meses permiten al Suscriptor acceder al servicio durante dicho periodo, contado de fecha a fecha, es decir, desde el d\u00eda en que se contrata la suscripci\u00f3n hasta la misma fecha del mes correspondiente al vencimiento, por ejemplo, si se contrata el servicio el 27 de diciembre, la suscripci\u00f3n finalizar\u00e1 el 26 de diciembre del a\u00f1o siguiente para el caso de suscripciones a doce (12) meses. En caso de que en el a\u00f1o siguiente no exista la fecha correlativa la suscripci\u00f3n expira a la misma hora del \u00faltimo d\u00eda del a\u00f1o siguiente.\nTodas las contrataciones de suscripci\u00f3n f\u00edsicas (peri\u00f3dico impreso) vigentes a la fecha del presente documento, incluir\u00e1n por una sola vez (por el periodo faltante de la suscripci\u00f3n vigente), la entrega de una Suscripci\u00f3n Digital en adelante (SUSCRIPCI\u00d3N DIGITAL) y se rigen por los t\u00e9rminos y condiciones establecidos en el momento de la contrataci\u00f3n de la suscripci\u00f3n f\u00edsica junto con los cambios que se hayan establecido durante su vigencia y posteriores renovaciones.\n \nREGISTRO\n \nSalvo ya se encuentre registrado en la Base de Datos de usuarios de la p\u00e1gina de internet www.elcolombiano.com, previo a la compra de la \u201cSuscripci\u00f3n Digital\u201d, el \u201cSuscriptor\u201d deber\u00e1 proceder con su registro mediante el diligenciamiento de un formulario en la plataforma digital de EL COLOMBIANO.\n \nEl \u201cSuscriptor\u201d es responsable de todos los datos personales que incluya en su registro, por lo que responder\u00e1 por la veracidad de los datos facilitados.\n \nDERECHOS DEL \u201cSUSCRIPTOR\u201d:\n \nEl \u201cSuscriptor\u201d tendr\u00e1 Acceso ilimitado a la totalidad del contenido del portal web \u201cEL COLOMBIANO\u201d, por lo que podr\u00e1 acceder a \u201cContenido Premium y/o exclusivo para suscriptores\u201d en m\u00faltiples formatos (Video, galer\u00eda, art\u00edculo, infograf\u00eda, audio) contenido, en una web cerrada en versi\u00f3n desktop y en cualquier plataforma m\u00f3vil (que no est\u00e1 disponible en los contenidos de libre acceso o mediante registro en la misma web www.elcolombiano.com).\n \nEspec\u00edficamente tendr\u00e1 derecho cada d\u00eda y a discreci\u00f3n de EL COLOMBIANO a:\n \nNoticias\nReportajes\nCr\u00f3nicas\nPerfiles\nColumnas de opini\u00f3n\nEntrevistas exclusivas\nEn general contenido exclusivo de la Suscripci\u00f3n Digital\n \nBeneficios adicionales\n \nAcceder a los beneficios despu\u00e9s de tres meses de vinculaci\u00f3n a la membrec\u00eda Club Intelecto, salvo que haya adquirido la Suscripci\u00f3n Digital + Impreso, para cuyo caso empezar\u00e1 conforme los compromisos de entrega de la membres\u00eda cuando se contrata una suscripci\u00f3n f\u00edsica;\nAcceder a contenidos especiales de aliados estrat\u00e9gicos de EL COLOMBIANO;\nAcceso digital a la lectura en pdf de la edici\u00f3n impresa del diario El COLOMBIANO, revistas y suplementos gratuitos.\n \nPRECIO E IMPUESTOS:\n \nEl precio de La Suscripci\u00f3n Digital se encuentra establecido en las Condiciones Particulares.\nLos precios de las suscripciones digitales ofertados por EL COLOMBIANO est\u00e1n en pesos colombianos. No se discrimina el IVA por ser un producto exento de este impuesto. En caso de gravarse a futuro con IVA el producto, este se agregar\u00e1 al valor de la suscripci\u00f3n discrimin\u00e1ndose en la factura y siendo asumido por el \u201cSuscriptor\u201d en su calidad de consumidor final.\n \nEl valor de la suscripci\u00f3n para cada vigencia de la misma ser\u00e1 la vigente para el momento respectivo, esto es, al momento de la vinculaci\u00f3n por primera vez y al momento de la renovaci\u00f3n de la suscripci\u00f3n. El Suscriptor entiende que el valor a cargar a su Forma de Pago, al momento de la renovaci\u00f3n ser\u00e1 el vigente en ese momento. EL COLOMBIANO no tendr\u00e1 que solicitar autorizaci\u00f3n previa al Suscriptor.\n \nSalvo en caso de reversi\u00f3n del pago, derecho de retracto, terminaci\u00f3n por incumplimiento por parte del Suscriptor, error de EL COLOMBIANO en los cargos aplicables al medio de pago se\u00f1alado por el Suscriptor, EL COLOMBIANO no har\u00e1 en ning\u00fan caso reembolsos del valor de la Suscripci\u00f3n Digital en ning\u00fan caso.\n \nFACTURACI\u00d3N Y CANCELACI\u00d3N.\n \nCiclo de facturaci\u00f3n. Los cargos del valor de la Suscripci\u00f3n Digital y otros como impuestos y posibles gastos de transacci\u00f3n, se cobrar\u00e1n a su Forma de pago en la fecha de facturaci\u00f3n espec\u00edfica respecto de su suscripci\u00f3n.\n \nLa duraci\u00f3n de su ciclo de facturaci\u00f3n depender\u00e1 del tipo de suscripci\u00f3n que seleccione al suscribirse al servicio. En ciertos casos, su fecha de pago podr\u00eda cambiar, por ejemplo si su Forma de pago no se estableci\u00f3 satisfactoriamente.\n\nFormas de pago. Para suscribirse necesariamente debe proveer una Forma de pago que este alineada con la forma de pago exigida por el producto al cual se suscribe (Opciones de Suscripci\u00f3n) y por el medio a trav\u00e9s del cual se hace la contrataci\u00f3n. Usted autoriza a hacer los cargos que le corresponden conforme la Suscripci\u00f3n Digital adquirida. Si el pago no se pudiera hacer satisfactoriamente, debido a la fecha de vencimiento, la falta de fondos o cualquier otro motivo, y si usted no cancela su cuenta, podemos suspender su acceso al servicio hasta que podamos cargar el valor correspondiente y/o obtengamos una Forma de pago v\u00e1lida.\n \nPara algunas Formas de pago, el emisor puede cobrarle ciertos cargos, como cargos de transacci\u00f3n extranjera u otros cargos relacionados con el procesamiento de su Forma de pago.\n\nActualizaci\u00f3n de sus Formas de pago. Se puede actualizar su Forma de pago conforme formas de pago permitidas de la siguiente manera:\n \nA trav\u00e9s de Internet en cuenta\nA trav\u00e9s del tel\u00e9fono de contacto de Servicio al Cliente\n \nLuego de cualquier actualizaci\u00f3n, nos autoriza a hacer cargos a las Formas de pago correspondientes.\n \n \n \n\n \nACTIVACI\u00d3N DE LA SUSCRIPCI\u00d3N DIGITAL:\n \nPerfeccionado y verificado el pago, la activaci\u00f3n de la \u201cSuscripci\u00f3n Digital\u201d se llevar\u00e1 a cabo en forma inmediata y se har\u00e1n las gestiones tendientes a la entrega del peri\u00f3dico impreso conforme los t\u00e9rminos de su suscripci\u00f3n en caso de haber tomado la modalidad Suscripci\u00f3n Digital + Impreso.\n \nUna vez activada la suscripci\u00f3n digital, el Suscriptor acepta que no ser\u00e1 posible solicitar ning\u00fan tipo de reembolso ni de pr\u00f3rroga a EL COLOMBIANO por el hecho de no hacer uso de su suscripci\u00f3n durante la vigencia de la misma, sin perjuicio del ejercicio del derecho de retracto o de reversi\u00f3n de pago referidos en los numerales siguientes.\n \nPLAZO Y RESOLUCI\u00d3N DEL CONTRATO:\n \nEl plazo de la \u201cSuscripci\u00f3n Digital\u201d corresponder\u00e1 al plan de suscripci\u00f3n adquirido por el \u201cSuscriptor\u201d al momento de perfeccionarse la compra de la \u201cSuscripci\u00f3n Digital\u201d. Cumplido el plazo de vigencia de la \u201cSuscripci\u00f3n Digital\u201d esta se renovar\u00e1 por un plazo adicional igual al que se establece para el tipo de suscripci\u00f3n inicialmente adquirida, salvo se haya cancelado la suscripci\u00f3n por parte del \u201cSuscriptor\u201d de acuerdo a los t\u00e9rminos ac\u00e1 establecidos. \n \nNo obstante, EL COLOMBIANO se reserva el derecho a terminar en forma inmediata el servicio contratado, cuando El Suscriptor contravenga lo dispuesto en los presentes t\u00e9rminos y condiciones, sin posibilidad alguna de reembolso. As\u00ed mismo, cuando el Suscriptor incurra en alguno de los siguientes casos: (i) cuando el acceso se utilice con fines ileg\u00edtimos, incluyendo por tales los enumerados en los presentes t\u00e9rminos y condiciones y en los t\u00e9rminos y condiciones de uso de EL COLOMBIANO contenidos en la URL https://www.elcolombiano.com/terminos-y-condiciones, (ii) cuando los datos de cobro proporcionados en la contrataci\u00f3n sean err\u00f3neos o imposibiliten la facturaci\u00f3n y/o cobro del servicio contratado; (iii) en caso de incumplimiento de las obligaciones del Suscriptor establecidas en el presente documento.\n \nCANCELACI\u00d3N DE LA SUSCRIPCI\u00d3N.\n \nPara cancelar la suscripci\u00f3n el Suscriptor deber\u00e1 ponerse en contacto con el Servicio de Atenci\u00f3n al Cliente y seguir las instrucciones que se le indiquen.\n \nEn el caso de que EL COLOMBIANO S.A Y CIA S.C.A. decida dar de baja alguna de las opciones de suscripci\u00f3n por razones empresariales o de otra \u00edndole que no sea por incumplimiento del Suscriptor, lo notificar\u00e1, con una antelaci\u00f3n de treinta (30) d\u00edas a la fecha de la cancelaci\u00f3n. En caso de que esto suceda, EL COLOMBIANO devolver\u00e1 los importes correspondientes al per\u00edodo restante de suscripci\u00f3n.\n \n SUSCRIPCIONES CON RENOVACI\u00d3N AUTOM\u00c1TICA:\n \nAl realizar la compra, el \u201cSuscriptor\u201d acepta que el plan de la \u201cSuscripci\u00f3n Digital\u201d que adquiere se renovar\u00e1 de forma autom\u00e1tica y sucesiva por per\u00edodos iguales al inicialmente pactado, sin perjuicio del ejercicio del derecho de retracto o de reversi\u00f3n de pago. \n \nUna vez proceda la renovaci\u00f3n autom\u00e1tica, EL COLOMBIANO redireccionar\u00e1 la nueva compra correspondiente al mismo plan inicialmente escogido por el \u201cSuscriptor\u201d, con la tarifa vigente para el d\u00eda calendario siguiente al vencimiento de la suscripci\u00f3n anterior e inicio del nuevo periodo por un t\u00e9rmino igual al inicialmente pactado. As\u00ed mismo, en caso de que se causaren impuestos a cargo del \u201cSuscriptor\u201d al momento de hacer la renovaci\u00f3n, los mismos deber\u00e1n ser asumidos y pagados por \u00e9ste.\n \nEn caso de que en el momento de realizarse la renovaci\u00f3n autom\u00e1tica, la tarjeta registrada no posea fondos, no se encuentre activa, EL COLOMBIANO proceder\u00e1 a comunicarse con el \u201cSuscriptor\u201d para que \u00e9ste le brinde los datos para el pago, como por ejemplo una tarjeta de cr\u00e9dito activa y que se pueda emplear para el respectivo pago. En todo caso, tambi\u00e9n podr\u00e1 EL COLOMBIANO comunicarse con el \u201cSuscriptor\u201d, con anterioridad al vencimiento de la suscripci\u00f3n, en caso de que se percate con antelaci\u00f3n de que la tarjeta de cr\u00e9dito o medio registrado para el pago ya estar\u00e1 vencida y/o inactiva para el momento de realizar el proceso de renovaci\u00f3n. En todo caso EL COLOMBIANO se reserva el derecho de intentar en diferentes ocasiones con cargo al m\u00e9todo de pago el pago respectivo.\n \nSi el \u201cSuscriptor\u201d cancela la Suscripci\u00f3n Digital con la antelaci\u00f3n se\u00f1alada en este contrato, la \u201cSuscripci\u00f3n Digital\u201d terminar\u00e1 al momento de cumplirse el periodo inicialmente contratado.\n\n14. CAMBIOS EN EL PRECIO\n \nPodemos cambiar nuestros planes de suscripci\u00f3n y el precio de nuestro servicio sin necesidad de informar previamente al Suscriptor. Los precios de las diferentes opciones de Suscripci\u00f3n Digital ser\u00e1n publicados y actualizados permanentemente en la web www.elcolombiano.com.\n \nLos suscriptores tendr\u00e1n acceso al servicio solo a partir del momento en que el realice de forma efectiva el pago.\n \n15. OBLIGACIONES ESPECIALES DEL SUSCRIPTOR\n \nDebe tener 18 a\u00f1os, o la mayor\u00eda de edad en su pa\u00eds, para adquirir una suscripci\u00f3n digital.\nEl servicio y todo el contenido es para uso personal, no comercial, y no debe compartirse con personas que no sean miembros de su hogar.\nDurante el tiempo de la suscripci\u00f3n digital, le otorgamos un derecho limitado, no exclusivo e intransferible con el prop\u00f3sito de acceder a los contenidos en su totalidad de SUSCRIPCI\u00d3N DIGITAL. M\u00e1s all\u00e1 de esto, no se le transferir\u00e1 ning\u00fan otro derecho, t\u00edtulo o inter\u00e9s.\nEl Suscriptor deber\u00e1 mantener el control de la cuenta que use para acceder al servicio y no revelar\u00e1 a nadie ni la contrase\u00f1a ni los detalles del m\u00e9todo de pago asociados a su cuenta.\nQuienes est\u00e9n fuera de la zona de cobertura del peri\u00f3dico impreso, no podr\u00e1n contratar la suscripci\u00f3n Peri\u00f3dico Impreso + digital, deber\u00e1n contratar solo la primera opci\u00f3n Suscripci\u00f3n Digital.\n \n16. INCUMPLIMIENTO Y RESOLUCI\u00d3N.\nSin perjuicio de cualquier otra causa de terminaci\u00f3n establecida en estos T\u00e9rminos y Condiciones, EL COLOMBIANO S.A.S tendr\u00e1 derecho a resolver el Acuerdo con efecto inmediato y, al mismo tiempo, hacer el Servicio indisponible para el Suscriptor cuando:\nCuando el Suscriptor no atienda el pago correspondiente.\nExista un uso no autorizado del servicio \u201cSUSCRIPCI\u00d3N DIGITAL\u201d por el Suscriptor;\nEl Suscriptor haya cometido de cualquier otra manera un incumplimiento sustancial o reiterado del contrato. \nEn el caso que El Suscriptor hubiera realizado alg\u00fan pago, no tendr\u00e1 derecho al reembolso de las cantidades abonadas. En el caso que el incumplimiento fuera por impago del Suscriptor, EL COLOMBIANO se reserva el derecho de tomar las medidas que en Derecho resulten necesarias con el fin de dar cumplimiento a las obligaciones pecuniarias derivadas de la contrataci\u00f3n.\n \nEn caso de incumplimiento del presente Contrato por parte de EL COLOMBIANO S.A.S debido a una incidencia que \u00e9ste no haya resuelto, El Suscriptor estar\u00e1 legitimado para resolver el mismo, comprometi\u00e9ndose EL COLOMBIANO a devolverle el importe la parte proporcional de lo que hubiera abonado correspondiente al per\u00edodo restante de su suscripci\u00f3n. El Suscriptor deber\u00e1 comunicar su voluntad de resolver el contrato y acreditar la incidencia, dirigi\u00e9ndose al Servicio de Atenci\u00f3n al Cliente.\n \n3. MISCELANEOS Y COMUNES A TODAS LAS SUSCRIPCIONES DE EL COLOMBIANO S.A.S\n3.1. El Suscriptor ser\u00e1 el \u00fanico responsable del uso del servicio\nNo podr\u00e1 usar el servicio de suscripci\u00f3n con fines comerciales o p\u00fablicos ni compartir con terceros.\n \nEL COLOMBIANO S.A.S. no se hace responsable cuando el acceso al mismo se vea limitado debido al mal funcionamiento o sobrecarga de Internet u otras redes, fallos o problemas relacionados con ordenadores u otros dispositivos o sistemas de comunicaci\u00f3n.\n \n \nMODIFICACI\u00d3N DE LOS T\u00c9RMINOS Y CONDICIONES DEL SERVICIO\n \nEL COLOMBIANO S.A.S se reserva el derecho de modificar unilateralmente estos T\u00e9rminos y Condiciones en cualquier momento. No obstante, dichos cambios ser\u00e1n notificados a trav\u00e9s de la p\u00e1gina de internet www.elcolombiano.com.\n \n PROTECCI\u00d3N DE DATOS PERSONALES\n \n \nCon el registro de sus datos personales en el presente contrato, usted est\u00e1 manifestando su consentimiento libre, expreso e informado, en los t\u00e9rminos de la Ley de Protecci\u00f3n de Datos Personales en la Rep\u00fablica de Colombia (Ley 1581 de 2012.) y dem\u00e1s normas reglamentarias, para que EL COLOMBIANO S.A.S , realice el tratamiento de los datos suministrados por Usted, de acuerdo a las finalidades descritas en la pol\u00edtica de tratamiento de datos personales a la cual puede acceder a trav\u00e9s de https://www.elcolombiano.com.co y en especial, de Informar por cualquier medio y mantener una eficiente comunicaci\u00f3n, acerca de las promociones, novedades y productos y servicios relacionados con los eventos y productos editoriales editados y/o comercializados por EL COLOMBIANO, as\u00ed como productos y servicios promovidos directamente por EL COLOMBIANO, aliados estrat\u00e9gicos de EL COLOMBIANO, especialmente en aquello relacionados con la membres\u00eda Intelecto, que generen valor agregado para el titular. Usted declara expresamente que la finalidad de la utilizaci\u00f3n por EL COLOMBIANO de sus datos personales, le ha sido plenamente informada y autoriza de modo expreso que sus datos puedan ser compartidos, transmitidos y/o transferidos con aliados estrat\u00e9gicos, debidamente autorizados por EL COLOMBIANO, y entregados conforme a las disposiciones de la ley. Recuerde que como titular usted tiene derecho a Conocer, actualizar, rectificar, suprimir sus datos personales y revocar su autorizaci\u00f3n a trav\u00e9s de los canales descritos en la pol\u00edtica de tratamiento de datos. \n \nLa Pol\u00edtica de Privacidad puede consultarse en este enlace:\nhttps://www.elcolombiano.com/politica-de-privacidad\nNotificaciones\n \nEL COLOMBIANO S.A.S puede enviar notificaciones al Suscriptor por correo electr\u00f3nico, SMS, correo postal, factura, entre otros canales habilitados en el proceso de registro y compra. Tales avisos pueden, por ejemplo, incluir informaci\u00f3n relevante en relaci\u00f3n con la suscripci\u00f3n/cuenta, por ejemplo, actualizaciones y modificaciones del servicio y cambios en el servicio. Las notificaciones al Suscriptor se considerar\u00e1n recibidas por \u00e9l inmediatamente cuando se env\u00eden por el medio indicado.\nCesi\u00f3n\n \nEL COLOMBIANO S.A.S podr\u00e1, sin autorizaci\u00f3n del Suscriptor, ceder el contrato y los derechos y obligaciones contenidas en el mismo a cualquier empresa perteneciente a su grupo empresarial as\u00ed como a cualquier tercero.\nEl Suscriptor no podr\u00e1 ceder este contrato sin autorizaci\u00f3n previa y escrita de EL COLOMBIANO S.A.S\nNulidad\nEn el caso que cualquiera de las Condiciones Generales del servicio se declare inaplicable o nula, dicha declaraci\u00f3n no afectar\u00e1 a las dem\u00e1s Condiciones de este contrato.\nAtenci\u00f3n al Cliente \u2013 fallas, quejas, reclamos del servicio\nCorreo electr\u00f3nico: servicio@elcolombiano.com.co\nTel\u00e9fono de Servicio al Cliente: (4) 3393333\nLey aplicable y jurisdicci\u00f3n\nLas presentes Condiciones se interpretar\u00e1n y regir\u00e1n conforme a la legislaci\u00f3n Colombiana. EL COLOMBIANO S.A.S y El Suscriptor se comprometen a intentar resolver, de manera amistosa, cualquier desacuerdo que pudiera surgir en el desarrollo del servicio contratado, de forma previa al inicio de acciones legales en contra de EL COLOMBIANO S.A.S a tal efecto, las partes, con expresa renuncia a cualquier jurisdicci\u00f3n que pudiera corresponderles, se someten a los Jueces de la Republica, cuyo domicilio es de Medell\u00edn, Antioquia, Rep\u00fablica de Colombia.\n \nDerecho de retracto\n \nEl derecho de retracto se concibe en la ley 1480 de 2011 (estatuto del consumidor) como una potestad unilateral del consumidor de terminar un contrato de compraventa a su arbitrio y sin que el proveedor deba estar de acuerdo o se lo permita, es decir, es una facultad para que usted como comprador pueda arrepentirse o \u201cecharse para atr\u00e1s\u201d despu\u00e9s de la compra de un producto o de un servicio.\n \nSin embargo, tenga en cuenta que este derecho no puede ejercerse en todas las ocasiones. De acuerdo con lo establecido en el art\u00edculo 47 del estatuto, se podr\u00e1 solicitar el retracto cuando: (i) la venta se haya realizado a trav\u00e9s de sistemas de financiaci\u00f3n otorgadas directamente por el empresario, (ii) se est\u00e9 frente a la venta de tiempos compartidos, (iii) en ventas que utilizan m\u00e9todos no tradicionales como las ventas que se realizan en su casa u oficina y, (iv) las ventas a distancia en donde no se tenga contacto directo previo con el producto como cuando se adquiere un producto o servicio a trav\u00e9s de correo, tel\u00e9fono, cat\u00e1logo o comercio electr\u00f3nico.\n \nPerfeccion\u00e1ndose la adquisici\u00f3n de la suscripci\u00f3n mediante una venta a distancia, el Suscriptor tendr\u00e1 la facultad de resolver el contrato en un t\u00e9rmino que no exceder\u00e1 de cinco (5) d\u00edas h\u00e1biles contados a partir de la fecha en que queda activa su suscripci\u00f3n y reciba el primer ejemplar impreso, sin que para ello deba existir justificaci\u00f3n alguna. \n \nEn dicho caso, EL COLOMBIANO proceder\u00e1 con la devoluci\u00f3n del dinero al Suscriptor en un plazo m\u00e1ximo de treinta (30) d\u00edas calendario contados a partir del ejercicio de dicho derecho, sin que procedan para el efecto descuentos o retenciones por concepto alguno.\n \nPara el efecto, el \u201cSuscriptor\u201d deber\u00e1 ejercer su derecho mediante un mensaje de datos remitido al correo electr\u00f3nico servicio@elcolombiano.com.co, o llamando a la L\u00cdNEA DE ATENCI\u00d3N AL CLIENTE EN MEDELL\u00cdN 3393333.\n \nREVERSI\u00d3N DE PAGO:\n \nDesde el 11 de octubre de 2016 entr\u00f3 en vigor el Decreto 587 de 2016, con el cual se reglament\u00f3 las condiciones y procedimientos para la reversi\u00f3n de los pagos solicitada por los consumidores, seg\u00fan lo previsto en el art\u00edculo 51 de la Ley 1480 de 2011.\n \nEs por esta raz\u00f3n que EL COLOMBIANO S.A.S, pone a disposici\u00f3n de sus consumidores que hayan realizado pagos con tarjeta de cr\u00e9dito, d\u00e9bito o cualquier otro instrumento de pago electr\u00f3nico para la adquisici\u00f3n de productos o servicios en operaciones de comercio electr\u00f3nico tales como: Internet, PSE, Call Center o cualquier otro mecanismo de televenta o tienda virtual.\n \nEs por esta raz\u00f3n que los consumidores de EL COLOMBIANO pueden tramitar sus solicitudes de reversi\u00f3n teniendo en cuenta los siguientes puntos:\n \n\u00bfEn qu\u00e9 situaciones aplica la Reversi\u00f3n? Cuando se presente alguno de los siguientes casos:\n \nCuando el consumidor sea objeto de fraude.\nCuando corresponda a una operaci\u00f3n no solicitada.\nCuando el producto adquirido no sea recibido.\nCuando el producto entregado no corresponda a lo solicitado, no cumpla con las caracter\u00edsticas inherentes o las atribuidas por la informaci\u00f3n que se suministr\u00f3 sobre \u00e9l.\nCuando el producto entregado se encuentre defectuoso.\n \n\u00bfCu\u00e1nto tiempo tengo para presentar la solicitud? La solicitud deber\u00e1 ser presentada dentro los cinco (5) d\u00edas h\u00e1biles siguientes a la fecha en que tuvo noticia de la operaci\u00f3n fraudulenta o no solicitada, o en que debi\u00f3 haber recibido el producto o lo recibi\u00f3 defectuoso o sin que correspondiera a lo solicitado.\n \n\u00bfC\u00f3mo puedo presentar mi solicitud de reversi\u00f3n? Esta se puede presentar a trav\u00e9s de los siguientes medios:\n \nA trav\u00e9s de la l\u00ednea de atenci\u00f3n al cliente al tel\u00e9fono 3393333 y/o al email servicio@elcolombiano.com.co, debiendo adem\u00e1s, notificar de la reclamaci\u00f3n al emisor del instrumento de pago electr\u00f3nico utilizado para realizar la compra, el cual, en conjunto con los dem\u00e1s participantes del proceso de pago, de ser justificado, proceder\u00e1n a reversar la transacci\u00f3n al \u201cSuscriptor\u201d.\n \n\u00bfQu\u00e9 debe contener mi solicitud? Tenga en cuenta que como m\u00ednimo su queja debe contener:\nManifestaci\u00f3n expresa de las razones que fundamentan la solicitud de reversi\u00f3n del pago.\nIndicaci\u00f3n de la causal que sustenta la petici\u00f3n, que deber\u00e1 corresponder a alguna o algunas de las se\u00f1aladas en el numeral primero de este documento y/o cualquier otra que consagre la norma aplicable.\nCuando el consumidor del bien o servicio no sea el mismo titular del instrumento de pago, la solicitud deber\u00e1 ser presentada por el titular del producto financiero, sin perjuicio de que el consumidor presente la queja ante EL COLOMBIANO.\n \nTr\u00e1mite de la reversi\u00f3n de pago: Una vez presentada su solicitud de reversi\u00f3n los participantes del proceso de pago (emisor del instrumento de pago y proveedor) dispondremos de un t\u00e9rmino de quince (15) d\u00edas h\u00e1biles para hacerla efectiva. Para lo cual, usted deber\u00e1 verificar con su emisor del instrumento de pago los tiempos que maneja para estos procesos. La reversi\u00f3n de la transacci\u00f3n se har\u00e1 de manera parcial cuando no existan recursos suficientes en la cuenta del proveedor. En estos casos, el proveedor deber\u00e1 reembolsar directamente al consumidor del producto el valor de la transacci\u00f3n o el monto faltante. En todo caso, el emisor del instrumento de pago deber\u00e1 informarle esta situaci\u00f3n.\n \nPara mayor informaci\u00f3n sobre la reversi\u00f3n de pagos, consulte el Decreto 1074 de 2015, adicionado por el Decreto 587 de 2016 del Ministerio de Comercio, Industria y Turismo.\n \nLos t\u00e9rminos y condiciones establecidos en https://www.elcolombiano.com/terminos-y-condiciones, son complementarios a estos t\u00e9rminos y condiciones en lo que no sea contrario a los mismos.\n\n6. CONDICIONES Y POL\u00cdTICAS DE PUBLICACI\u00d3N DE AVISOS.\n\n\u201cEC\u201d le ofrece a los clientes y/o usuarios la posibilidad de contratar la publicaci\u00f3n de avisos en los medios informativos de EL COLOMBIANO S.A.S habilitados para ellos.\n\nEs as\u00ed como los avisos se podr\u00e1n comprar o en forma presencial, tel\u00e9fono y/o a trav\u00e9s de sus diferentes Portales.\n\nLos avisos son un medio efectivo para la difusi\u00f3n y comercializaci\u00f3n de productos y servicios de transacci\u00f3n inmediata. A lo largo de la historia, los avisos publicitarios ha dado un gran impulso a importantes sectores de la econom\u00eda, dejando indicadores de alta efectividad e importante retorno de la inversi\u00f3n en nuestros clientes. Por ello, los avisos de EL COLOMBIANO son una opci\u00f3n eficaz de difusi\u00f3n de oferta y demanda de bienes.\n\nPagos.\n\n\u201cEC\u201d cobrar\u00e1 por la prestaci\u00f3n de los servicios de avisos junto con las tasas o impuestos a los que haya lugar, as\u00ed como los cargos asociados por concepto de transferencias electr\u00f3nicas.\n\n\u201cEC\u201d no es responsable por las transacciones realizadas por los usuarios, por lo tanto, son las entidades financieras con las que el Usuario realice la transacci\u00f3n las encargadas de responder por las operaciones efectuadas.\n\nSe entender\u00e1 que el Usuario es el leg\u00edtimo titular de las tarjetas debito o cr\u00e9dito que utilice para el pago de los servicios, o que est\u00e1 debidamente autorizado para usarlas, en caso de no estarlo ser\u00e1 el \u00fanico responsable por su uso.\n\u201cEC\u201d en caso de no recibir el pago efectuado por un Usuario podr\u00e1 suspender o cancelar el servicio o el acceso al portal para el Usuario hasta tanto no haya pagado la totalidad de las sumas debidas.\n\nEl Usuario es responsable por conservar los registros y/o cualquier dato o informaci\u00f3n de las operaciones realizadas en el Portal.\n\nPol\u00edticas de Publicaci\u00f3n de Avisos.\n\n\u201cEC\u201d se reserva el derecho de rechazar a discreci\u00f3n cualquier aviso si contrar\u00eda los presentes t\u00e9rminos y condiciones. De acuerdo con lo anterior, \u201cEC\u201d no ser\u00e1 responsable por los perjuicios ocasionados por la no publicaci\u00f3n de un aviso o parte de \u00e9ste.\n \nLos avisos una vez sean recibidos por \u201cEC\u201d est\u00e1n sujetos a aprobaci\u00f3n posterior y podr\u00e1n ser modificados ya sea en cuanto a su ortograf\u00eda o normas de clasificaci\u00f3n.\n\nEl Usuario acepta sin perjuicio de lo anteriormente dispuesto en estos T\u00e9rminos y Condiciones, que al publicar un aviso de su propiedad en cualquiera de las publicaciones de \u201cEC\u201d, le concede a \u00e9ste una licencia y/o autorizaci\u00f3n para publicar, reproducir, exhibir, adaptar, transmitir, incluir, en los medios ordenados por el Usuario. Autoriza as\u00ed mismo, a \u201cEC\u201d el archivo en bases de datos de toda la informaci\u00f3n atinente a la orden de publicaci\u00f3n del aviso, el contenido de los mismos, los datos suministrados por el Usuario como pero sin limitarse a ello su identificaci\u00f3n personal.\n \nPor solicitud de autoridad competente, \u201cEC\u201d podr\u00e1 suministrar la informaci\u00f3n atinente al Usuario, al aviso. Es el Usuario quien se hace responsable por las consecuencias que se deriven del contenido del mismo.\n\nEl Usuario asume la totalidad de la responsabilidad en cuanto a la creaci\u00f3n de los avisos que \u00e9l mismo hace o contrata con un tercero para ser publicados en cualquiera de los medios de EC, en virtud de lo cual se responsabiliza por las consecuencias civiles, comerciales y penales que se puedan desprender de la publicaci\u00f3n que se haga de un aviso y que resulte ser enga\u00f1oso, fraudulento, il\u00edcito, copia o plagio de obra que pertenece a una tercera persona. As\u00ed, el anunciante ser\u00e1 responsable por toda reclamaci\u00f3n, valor, tasa, canon, indemnizaci\u00f3n, o cualquier otro concepto que pueda presentarse con ocasi\u00f3n de la publicaci\u00f3n del aviso.\n\nEl Usuario garantiza que cualquier texto entregado a EL COLOMBIANO para su publicaci\u00f3n es veraz, suficiente, no viola derechos individuales, colectivos o fundamentales de cualquier persona, as\u00ed como que las marcas, las leyendas y la propaganda comercial corresponda a la realidad y por tanto no induce a error respecto a la naturaleza, el origen, el modo de fabricaci\u00f3n, los componentes, los usos, el volumen, el peso o medida, los precios, la forma de empleo, las caracter\u00edsticas, las propiedades, la calidad, la idoneidad o la cantidad de los bienes y servicios ofrecidos. As\u00ed mismo, garantiza que sobre el aviso presentado para su publicaci\u00f3n posee los derechos de propiedad intelectual y de autor y por tanto con la orden de publicaci\u00f3n no vulnera ning\u00fan derecho, ni inter\u00e9s alguno de tercero. Si con la publicaci\u00f3n del aviso se vulnera alg\u00fan derecho de tercero o da originen a cualquier tipo de procedimiento civil, penal y/o administrativo, el Usuario ser\u00e1 el \u00fanico responsable del aviso publicado y deber\u00e1 salir en defensa de \u201cEC\u201d y asumir debidamente los derechos de defensa de \u00e9ste, pagando si es del caso, los gastos y costos del proceso y los apoderados que \"EC\" designe, haci\u00e9ndose parte de la respectiva reclamaci\u00f3n si no ha sido llamado a ella y si legalmente es posible.\n\nEl Usuario acepta indemnizar a EL COLOMBIANO por todos los gastos, costos, reclamos, da\u00f1os, perjuicios y responsabilidad resultante de la publicaci\u00f3n de un aviso o texto ordenado por \u00e9l. \"EC\" estar\u00e1 facultado a pedir las indemnizaciones que considere pertinente de acuerdo con la naturaleza del da\u00f1o causado por el anunciante por un aviso.\n\n\u201cEC\u201d se reserva el derecho de eliminar cualquier contenido y/o a eliminar, cancelar o suspender el registro de un Usuario, as\u00ed como a suspender o cancelar el acceso a cualquier parte del Servicio y al portal, si determina, a su exclusiva discreci\u00f3n, que el Usuario, su Contenido, o los bienes o servicios ofrecidos violan o suponen una amenaza para otros Usuarios y/o para la Plataforma y/o para cualquier tercero. Si la cuenta de un Usuario se elimina o su acceso se restringe, suspende o rescinde por la raz\u00f3n aqu\u00ed se\u00f1alada, el Contenido podr\u00e1 ser removido de inmediato y su acceso puede ser restringido, suspendido, o terminado sin lugar a reconocer indemnizaci\u00f3n alguna.\n\nEl Usuario acepta que una vez dispuesto por el contenido de un aviso para su publicaci\u00f3n, si ya estuvo o est\u00e1 en proceso de producci\u00f3n, no podr\u00e1 suspenderse por parte de EC por orden del Usuario.\n\nCuando se ordena la publicaci\u00f3n de un aviso en un producto que incluye varias fechas, El Usuario entiende que adquiri\u00f3 un producto que implica varias fechas, por lo tanto si suspende la publicaci\u00f3n de una o m\u00e1s de las fechas previstas por el c\u00f3mo fechas de publicaci\u00f3n de su aviso, ya se empez\u00f3 a Ejecutar el contrato y/o servicio por parte de EL COLOMBIANO y por tanto no habr\u00e1 lugar a la devoluci\u00f3n de su precio.\n \nEl Usuario asume las consecuencias de los errores por el cometidos en las \u00f3rdenes de publicaci\u00f3n de avisos y que posteriormente se reflejen en las publicaciones de EC.\n\nPara avisos clasificados:\n \nGarant\u00eda (producto varias fechas): Si se detectan errores en clasificados ordenados para productos que incluyen la publicaci\u00f3n del mismo en varias fechas, el Usuario debe avisar sobre el error inmediatamente despu\u00e9s de la primera publicaci\u00f3n, al tel\u00e9fono 339-33-33 o a la secci\u00f3n \u201ccont\u00e1ctenos\u201d del Portal. Si el usuario no avisa del error, es su responsabilidad que los dem\u00e1s avisos salgan igualmente defectuosos.\n\nEn todo caso cuando el Usuario ordene la publicaci\u00f3n de un aviso para una sola fecha, deber\u00e1 informar y/o reclamar en caso de presentarse errores en la publicaci\u00f3n cuya responsabilidad pueda radicar en \u201cEC\u201d, dentro de los tres d\u00edas siguientes a la fecha de publicaci\u00f3n del aviso.\n \nCondiciones espec\u00edficas sobre los clasificados.\n\nEst\u00e1 prohibida la publicaci\u00f3n de textos con contenido sexual o que inciten a la violencia, discriminaci\u00f3n o maltrato de cualquier \u00edndole; sean calumniosos o injuriosos, amenazantes o provocadores, o que en cualquier forma atenten contra la dignidad, honra y buen nombre de una persona; que lesionen la moral, el orden p\u00fablico o las buenas costumbres; que inciten, promuevan, ofrezcan o faciliten la ilegalidad o violaci\u00f3n de cualquier norma o derecho; que comercialicen objetos prohibidos, como ser\u00edan, entre otros: \u00f3rganos del cuerpo, fauna y flora silvestre, armas de fuego y municiones, sustancias alucin\u00f3genas o psicoactivas.\n\nEn el evento de que la persona que ordene un clasificado sea distinta a la persona identificada como anunciante, se entender\u00e1 que ha sido facultada por \u00e9ste para ordenar la publicaci\u00f3n respectiva. En todo caso, \"EC\" entiende que quien se registra, ingresa y ordena un aviso y por tanto hace transacciones en el Portal, es la persona y/o usuario que dice que es y que est\u00e1 facultado legalmente para ello.\n\nEventos de Fuerza Mayor\n\nEL COLOMBIANO no se hace responsable por la no publicaci\u00f3n de un aviso y de la distribuci\u00f3n de cualquiera de sus publicaciones en casos de fuerza mayor o caso fortuito, o en eventos tales como pero sin limitarse a ellos: incendio, atentado, paro, inundaci\u00f3n, huelga, pandemia, falta de materia prima no imputable a \u201cEC\u201d, problemas de transporte, fallas en las m\u00e1quinas de impresi\u00f3n que no pudieren ser resueltas. En tal caso, todo lo contemplado en la orden de publicaci\u00f3n se aplaza por un periodo igual al perdido.\n\n\u201cEC\u201d podr\u00e1 cambiar, modificar, eliminar y/o adicionar cualquier aspecto, servicio o caracter\u00edstica de sus portales en cualquier tiempo, incluyendo pero sin limitarse contenido, horario y/o disponibilidad y requerimiento de los equipos para acceder o usar los portales.\n \nMasificados: Los avisos clasificados que se contraten a trav\u00e9s del portal www.masificados.com, se regir\u00e1n por sus propios t\u00e9rminos y condiciones y por todo lo manifestado en este apartado que no sean contrarios a dichos t\u00e9rminos.\n\nPol\u00edticas espec\u00edficas de publicaci\u00f3n de avisos publicitarios de juegos de suerte y azar y operadores de juegos operados en Internet (Apuestas).\n\nSea que la publicidad se contrate directamente con EL COLOMBIANO S.A.S, a trav\u00e9s de intermediarios en la forma tradicional de contrataci\u00f3n y/o a trav\u00e9s de formas no tradicionales de contrataci\u00f3n, como pero sin limitarse a ellos por program\u00e1tica, en los medios de EL COLOMBIANO S.A.S solo podr\u00e1n anunciar aquellas personas jur\u00eddicas nacionales y/o extranjeras que cumplan los siguientes requisitos:\n1. Debe tratarse de Operadores autorizados por Coljuegos o la autoridad departamental correspondiente independientemente que se trate de operadores de juegos novedosos y/o de suerte y azar tradicionales.\n2. Solo podr\u00e1 ser contratada por personas jur\u00eddicas y/ naturales mayores de edad (18 a\u00f1os en Colombia) y/o mayor\u00eda de edad del anunciante respeto del pa\u00eds de residencia del anunciante.\n3. Para que se emita en Colombia, debe reunir las siguientes condiciones:\n\u00b7 Solo se puede hacer por operadores autorizados por Coljuegos o la autoridad departamental respectiva en Colombia.\n\u00b7 No debe contener dise\u00f1os y contenidos publicitarios dirigidos a menores de edad.\n\u00b7 Est\u00e1 prohibida la publicidad en la que intervenga la participaci\u00f3n de menores de edad en su desarrollo independientemente del medio de comunicaci\u00f3n que se utilice para ello.\n\u00b7 No debe incentivar falsas expectativas de ganancia a los jugadores.\n\u00b7 La publicidad debe advertir de los riesgos de la adicci\u00f3n al juego e incluir un mensaje de juego responsable y de actividad limitada a la mayor\u00eda de edad en Colombia.\nPor otro lado el operador podr\u00e1 realizar actividades de publicidad para la oferta de los juegos por internet y ofrecer bonificaciones o iniciativas promocionales para la inscripci\u00f3n o participaci\u00f3n del jugador siempre que tales pr\u00e1cticas:\nNo sean contrarias a la ley\n\u00b7 No alteren la din\u00e1mica del juego ni induzcan a la confusi\u00f3n del jugador respecto de la naturaleza del juego\n\u00b7 Se informe al jugador de las condiciones aplicables a las bonificaciones o iniciativas promocionales que se le ofrezcan.\nEL COLOMBIANO S.A.S se reserva el derecho de verificaci\u00f3n de las piezas publicitarias antes de la publicaci\u00f3n y a\u00fan despu\u00e9s, por lo que podr\u00e1 en cualquier tiempo sin previa explicaci\u00f3n al anunciante y/o intermediario bloquear estos anuncios publicitarios de sus medios de informaci\u00f3n.\nEL COLOMBIANO S.A.S no asume responsabilidad legal alguna por aquellos avisos que a pesar de no cumplir los criterios legales de publicaci\u00f3n fueron inadvertidos por EL COLOMBIANO. El anunciante asume la responsabilidad legal que ello implica.\n\n7. Pol\u00edtica de Privacidad\n\nEL COLOMBIANO S.A.S\n\nEL COLOMBIANO S.A.S cumple la legislaci\u00f3n de Protecci\u00f3n de Datos de Car\u00e1cter Personal vigente en cada momento, y vela por garantizar un correcto uso y tratamiento de los datos personales. Para ello, en cada proceso de recabo de datos de car\u00e1cter personal, en los que EL COLOMBIANO lo hace se le har\u00e1 saber la existencia y aceptaci\u00f3n de las condiciones particulares del tratamiento de sus datos, inform\u00e1ndole de la responsabilidad de EL COLOMBIANO, la direcci\u00f3n del responsable, la posibilidad de ejercer sus derechos de acceso, rectificaci\u00f3n, cancelaci\u00f3n u oposici\u00f3n, la finalidad del tratamiento. Estas pol\u00edticas de privacidad est\u00e1n dirigidas a todas aquellas personas titulares de datos personales que sean clientes, proveedores, aliados estrat\u00e9gicos, usuarios, contactos comerciales y sociales, empleados, accionistas y/o administradores de la compa\u00f1\u00eda, entre otros que se encuentren registrados en las bases de datos de EL COLOMBIANO.\nUsted acepta expresamente la Pol\u00edtica de Privacidad y las Condiciones de los Servicios EL COLOMBIANO S.A.S como Usuario o suscriptor de cualquiera de los medios o servicios y/o productos, ya sean gratuitos o de pago, que consisten en el acceso a diferentes informaciones, contenidos, programas, apps, tiendas, sitios web de \u2018e-commerce\u2019, v\u00eddeo bajo demanda o similares que EL COLOMBIANO S.A.S pone a disposici\u00f3n de los Usuarios en Internet. As\u00ed mismo si usted es un proveedor, cliente, empleado, personal provisto por terceras partes, contacto comercial o social, aliado estrat\u00e9gico etc.\nPor lo tanto, el objetivo de la presente Pol\u00edtica es comunicarle el tipo de datos que se recaban, las finalidades del Tratamiento para hacer posible la prestaci\u00f3n de nuestros servicios, la protecci\u00f3n y los derechos que le asisten como Titular de la informaci\u00f3n y los procedimientos para ejercerlos.\nSu privacidad es importante para la casa editorial EL COLOMBIANO S.A.S en adelante \u201cEC,\u201d de modo que aunque sea nuevo o un titular de datos personales de largo tiempo, por favor, t\u00f3mese un momento para conocer nuestras pr\u00e1cticas y/o pol\u00edticas de privacidad y de tratamiento de datos personales y si tiene alguna pregunta comun\u00edquese con nosotros.\nLa persona jur\u00eddica responsable de sus datos personales y por tanto de la base de datos en la cual se encuentren ubicados los mismos, es la sociedad EL COLOMBIANO S.A.S Sociedad con Domicilio principal en la ciudad de Medell\u00edn, Departamento de Antioquia, Rep\u00fablica de Colombia.\nLos productos y servicios de EC, no est\u00e1n dirigidos a ni\u00f1os, ni\u00f1as y adolescentes por lo que se le solicita, abstenerse de seguir adelante con el registro y/o servicio en caso de que usted sea una persona menor de dieciocho (18) a\u00f1os.\nLos datos personales recabados por EL COLOMBIANO en alguno de los procesos para prestaci\u00f3n de servicios, contrataci\u00f3n de productos, contrataci\u00f3n con proveedores y clientes, laborales, contactos comerciales o sociales, ser\u00e1n incorporados a una base de datos responsabilidad de EL COLOMBIANO S.A.S\nSon varios los medios y/o las razones por los cuales la sociedad responsable de sus datos personales puede recabar los mismos; esto es, para la prestaci\u00f3n de servicios y/o vinculaci\u00f3n a los diferentes productos de la compa\u00f1\u00eda, por lo que es posible que usted proporcione datos en diferentes procesos para vinculaci\u00f3n de diferentes productos y/o servicios y que por tanto se encuentre en diferentes bases de datos de EC. Esto por tanto, implica que usted se encuentre en diferentes bases de datos, por lo que deber\u00e1 tener esto en cuenta tanto en el momento de la vinculaci\u00f3n, registro, actualizaci\u00f3n y/o retiro, pues si usted se retira de una base de datos de la compa\u00f1\u00eda, no sea eliminado o inactivado de la totalidad de las bases de datos en donde se encuentra registrado, siendo posible que por ejemplo al retirarse de una base de datos le llegue a trav\u00e9s de los canales de contacto por usted informados en el momento del recaudo informaci\u00f3n de productos de otra de las bases de datos.\nCuando para la vinculaci\u00f3n a un servicio y/o producto de la compa\u00f1\u00eda se le solicite datos, es importante que usted conozca que la pol\u00edtica de privacidad y tratamiento de datos personales de EL COLOMBIANO es una sola y est\u00e1 amparada bajo la sociedad responsable EL COLOMBIANO S.A.S y adem\u00e1s, que el uso que se le dar\u00e1 a sus datos personales principalmente se enmarca dentro del servicio o producto que usted solicit\u00f3, pero se le dar\u00e1n a sus datos otros usos, por lo que es importante que usted identifique cuando ejerza sus derechos qu\u00e9 es lo que usted quiere que cambie respecto de esos usos y lo manifieste porque es posible que usted si quiera estar en las bases de datos de EL COLOMBIANO S.A.S pero que no se usen sus datos de una forma u otra.\nTambi\u00e9n es posible que usted se retire en su totalidad de las bases de datos de EL COLOMBIANO pero que posteriormente vuelva a vincularse a un producto y/o servicio como por ejemplo en un proceso de reserva a un producto promocional y por tanto quedar\u00e1 registrado en la base de datos respectiva y habilitar\u00e1 el uso de sus datos conforme estas pol\u00edticas.\nSi usted hace un registro en una base de datos de la sociedad EL COLOMBIANO S.A.S, en principio se le dar\u00e1 un tratamiento directamente relacionado con la finalidad de la recolecci\u00f3n del dato, pero autoriza a EL COLOMBIANO S.A.S a que le haga ofrecimientos y/o proporcione informaci\u00f3n de cualquiera de los productos y/o servicios de su portafolio.\nPor otro lado, es importante que usted sea consciente que cuando se establezcan vinculaciones entre usted y EL COLOMBIANO S.A.S como vinculaciones de tipo comercial, laboral y/o relaci\u00f3n de consumo, es absolutamente indispensable contar con algunos datos personales que usted debe proporcionar a EL COLOMBIANO S.A.S con el fin de que los recabe, los almacene y/o conserve para poder cumplir EL COLOMBIANO entre otras razones con sus obligaciones contractuales y tambi\u00e9n para el cumplimiento de obligaciones legales.\nDefinici\u00f3n.\nTitular del Dato Personal: Es la persona que se registra en un espacio de interacci\u00f3n de www.elcolombiano.com o en cualquiera de sus otros portales, en alguna red social en donde EL COLOMBIANO S.A.S tenga presencia, en cualquiera de sus portales, el suscriptor, el anunciante, el cliente de nuestros productos y servicios, beneficiarios ocasionales de productos o servicios, quienes asisten o participan de eventos organizados por EC. Estas pol\u00edticas aplican as\u00ed mismo a proveedores y contactos comerciales de EC, socios estrat\u00e9gicos de EC, empleados y personal provisto por terceras partes, as\u00ed como respecto de aquellas personas por cualquier raz\u00f3n se hayan registrado y/o participado en cualquiera de los eventos sociales realizados por EC.\n\nPortales y/o p\u00e1ginas web: Se entienden los portales de propiedad de EL COLOMBIANO S.A.S a quienes aplican estas pol\u00edticas.\n \nAceptaci\u00f3n de esta pol\u00edtica de privacidad. Para efectos de esta Pol\u00edtica, se entiende por \u201cTratamiento\u201d cualquier operaci\u00f3n o conjunto de operaciones sobre datos personales tales como la recolecci\u00f3n, almacenamiento, uso, circulaci\u00f3n o supresi\u00f3n de los mismos.\nLa aceptaci\u00f3n de esta Pol\u00edtica de Privacidad y del Tratamiento de los datos personales conforme en los t\u00e9rminos de la misma, ocurre cuando el titular del dato personal, proporciona sus datos personales a trav\u00e9s de cualquier canal o medio establecido por EC, como: puntos de atenci\u00f3n y venta, incluyendo Call Center, cuando adquiere o utiliza cualquiera de nuestros productos, o cuando hace uso de cualquiera de nuestros medios digitales; la prueba de cualquiera de esos hechos, ser\u00e1 prueba inequ\u00edvoca de la aceptaci\u00f3n de esta Pol\u00edtica de Privacidad y del Tratamiento de los Datos Personales.\nAl aceptar esta Pol\u00edtica de Privacidad, cada uno de los titulares del datos personal, en su calidad de Titulares de la informaci\u00f3n, autorizan que EC realice el Tratamiento de los mismos, de forma parcial o total, incluyendo la recolecci\u00f3n, almacenamiento, grabaci\u00f3n, uso, circulaci\u00f3n, procesamiento, supresi\u00f3n, transmisi\u00f3n, y trasferencia dentro del pa\u00eds y/o a terceros pa\u00edses dentro de los t\u00e9rminos establecidos en la presente Pol\u00edtica de Privacidad y para las finalidades de Tratamiento descritas en este documento.\n\nSobre sus datos personales. Para acceder a los productos, servicios, beneficios, espacios de interacci\u00f3n de \u201cEC\u201d, interactuar en ellos, ser proveedor de productos y/o servicios y en general establecer alguna relaci\u00f3n comercial, informativa y/o social con EC, deber\u00e1 suministrar voluntaria y libremente, sus datos ciertos, sensibles en casos excepcionales y/o no sensibles de identificaci\u00f3n personal, como son: nombre, apellidos, identificaci\u00f3n, edad, g\u00e9nero, tel\u00e9fono, direcci\u00f3n f\u00edsica y electr\u00f3nica, pa\u00eds, ciudad y dem\u00e1s datos necesarios que le sean solicitados en el proceso de registro. Es as\u00ed como podr\u00e1 obtenerse los siguientes datos, lo cual puede variar en raz\u00f3n de requerimientos de las necesidades espec\u00edficas para la recolecci\u00f3n del dato, facilidades tecnol\u00f3gicas, naturaleza del producto y/o servicio a suministrar, entre otros, para tales efectos, podemos recolectar la siguiente informaci\u00f3n personal, la cual puede ser almacenada y/o procesada en servidores ubicados en centros de c\u00f3mputo, ya sean propios o contratados con terceros, localizados en distintos pa\u00edses, de acuerdo al principio de transparencia hemos realizado una lista de datos personales que son Tratados por \u201cEC\u201d:\n\u00b7 Datos Generales de Identificaci\u00f3n.\nDatos de Ubicaci\u00f3n.\n\u00b7 Datos de contenido socioecon\u00f3mico.\n\u00b7 Datos sensibles: datos biom\u00e9tricos, incluyendo im\u00e1genes, fotograf\u00edas, videos, voces y/o sonidos, huellas digitales, entre otros.\n\u00b7 Otros datos: IP del cliente, a trav\u00e9s de cookies, informaci\u00f3n sobre transacciones y actividades relacionadas con el Programa Intelecto Club de suscriptores.\n\u00b7 Informaci\u00f3n y datos personales recolectados a trav\u00e9s de encuestas, focus groups u otros m\u00e9todos de investigaci\u00f3n de mercado.\n\u00b7 Informaci\u00f3n requerida por funcionarios o representantes de EC, tales como los representantes de las \u00e1reas de ventas y/o de relaciones con el cliente, con la finalidad de atender solicitudes o reclamos.\nLos Titulares de la informaci\u00f3n y los datos personales no estar\u00e1n obligados en ning\u00fan evento a autorizar el tratamiento de datos sensibles. Sin perjuicio de lo anterior, en los casos en que para hacer posible la prestaci\u00f3n del servicio, los Titulares suministren alg\u00fan dato personal sensible a EC, deber\u00e1n consentir expresamente a EC el tratamiento de la informaci\u00f3n o dato personal sensible conforme la presente Pol\u00edtica de Privacidad.\n\nInformaci\u00f3n de ni\u00f1os, ni\u00f1as y adolescentes menores de edad.\n\nEC por regla general no recauda datos de menores de edad, excepcionalmente lo podr\u00e1 hacer. EC reconoce el nivel especial de protecci\u00f3n que merecen los datos personales los menores de edad-ni\u00f1os, ni\u00f1as y adolescentes, por lo tanto en el caso que estos sean usuarios de los productos y servicios que ofrece, se entender\u00e1 que act\u00faan a trav\u00e9s de su representante legal, la persona debidamente autorizada, sus padres o por quienes tengan la patria potestad o representaci\u00f3n legal del menor atendiendo a las especificadas de la regi\u00f3n o el pa\u00eds donde se traten los datos del menor. En el evento en que los padres o representantes legales de estos menores detecten un tratamiento de datos no autorizado podr\u00e1n presentar sus consultas o reclamaciones al canal habilitado correo electr\u00f3nico.\nEL COLOMBIANO tiene el compromiso de velar por el uso adecuado de los datos personales de los ni\u00f1os, ni\u00f1as y adolescentes menores de edad, garantizando que en el tratamiento de sus datos se respeten las leyes que les sean aplicables, as\u00ed como el inter\u00e9s superior de ellos, y sus derechos fundamentales en lo posible, teniendo en cuenta su opini\u00f3n como titulares de sus datos personales.\n\nSeguridad de la informaci\u00f3n.\n \nNos esforzamos en proteger los datos personales de los titulares de datos que se encuentran en cualquiera de las bases de datos que tiene EL COLOMBIANO frente al acceso no autorizado o cualquier modificaci\u00f3n, divulgaci\u00f3n o destrucci\u00f3n no autorizada de la informaci\u00f3n que poseemos.\nEn particular, entre otros:\n\u00b7 Encriptamos algunos de nuestros servicios usando el protocolo de seguridad SSL.\n\u00b7 Encriptamos la contrase\u00f1a determinada por el usuario o cliente cuando para el registro y acceso se solicite.\n\u00b7 Poseemos ciertos controles sobre nuestros sistemas de informaci\u00f3n que nos permite mantener una mejor calidad de su informaci\u00f3n.\n\u00b7 Revisamos nuestras pr\u00e1cticas de recopilaci\u00f3n, almacenamiento y procesamiento de informaci\u00f3n, incluidas nuestras medidas de seguridad f\u00edsicas, para protegernos frente al acceso no autorizado a los sistemas.\n\u00b7 Restringimos el acceso a la informaci\u00f3n personal que poseemos de los titulares del dato personal que se encuentran en nuestras bases de datos por parte de terceros que necesitan conocerla para procesarla y/o tratarla por nosotros. Por lo que est\u00e1n sujetos a estrictas obligaciones contractuales de confidencialidad y sanciones si no cumplen con estas obligaciones.\n\nAlmacenamiento de sus datos personales.\n \nLos datos personales de todos nuestros Titulares del Datos Personal se almacenar\u00e1n en una base de datos que se encuentra detr\u00e1s de un firewall para mayor seguridad. El servidor en donde reposa la base de datos est\u00e1 protegido f\u00edsicamente en un lugar seguro. S\u00f3lo personal autorizado puede acceder a \u00e9l y por tanto a los datos personales de nuestros titulares del dato personal.\n\nRecepci\u00f3n de su informaci\u00f3n / uso de su Informaci\u00f3n.\n \nLa informaci\u00f3n privada y/o el dato personal de los titulares del dato personal en principio est\u00e1 destinada a ser tratada para el cumplimiento de la finalidad por causa de la cual proporcion\u00f3 el dato personal a EC, por lo que por ejemplo si es suscriptor es indispensable contar con sus datos personales con el fin de dar cumplimiento a las obligaciones surgidas del contrato de suscripci\u00f3n.\n \nCuando env\u00eda una solicitud de asistencia y/o reclamo es posible que le pidamos informaci\u00f3n personal.\n \nPodemos recibir en forma autom\u00e1tica y registrar la informaci\u00f3n en registros de nuestro servidor desde su navegador, incluyendo su direcci\u00f3n IP, su nombre de equipo, el tipo y la versi\u00f3n de su navegador web, direcciones de referencia entre otros. Tambi\u00e9n podemos grabar las visitas que usted haga a cualquiera de los sitios web o aplicaciones a los cuales usted ingrese que sean de propiedad de \u201cEC\u201d\n\nPuede haber circunstancias en las que es posible que tengamos que revelar informaci\u00f3n personal de nuestros titulares del dato personal, estas razones son: El empleo de otras empresas para realizar funciones en nuestro nombre, tales como el cumplimiento de pedidos, proporcionar servicio al cliente, env\u00edo de correo electr\u00f3nico y correspondencia, procesamiento de pagos con tarjeta de cr\u00e9dito, procesamiento de conversiones de moneda, contrataci\u00f3n de servidores ubicados dentro o fuera del Pa\u00eds (Colombia), u otras funciones necesarias para nuestro negocio.\n\nLas obligaciones incluidas en estas pr\u00e1cticas sobre el cuidado o manejo que \u201cEC\u201d le debe dar a la informaci\u00f3n personal no aplican cuando la informaci\u00f3n sea requerida por una entidad p\u00fablica o administrativa en ejercicio de sus funciones legales o por orden judicial.\n\nLa Informaci\u00f3n proporcionada por los titulares del dato personal en cada caso, podr\u00e1 ser usada por \u201cEC\u201d de acuerdo con lo establecido en estas pr\u00e1cticas y con el fin de:\n\u00b7 Cumplir las obligaciones adquiridas con clientes, proveedores, empleados, entre otros;\n\u00b7 Mantener contacto con el titular del dato para sumin\u00edstrales informaci\u00f3n editorial, comercial, publicitaria o promocional, concursos, eventos, por cualquiera de los medios informados en el proceso de registro y/o actualizaci\u00f3n de datos y respecto de cualquier producto y/o servicio de la compa\u00f1\u00eda;\n\u00b7 Contactarlo para pedirle informaci\u00f3n sobre sus productos o servicios;\n\u00b7 Evaluar h\u00e1bitos de consumo, hacer an\u00e1lisis y/o segmentaci\u00f3n de mercado y/o estad\u00edsticos;\n\u00b7 Solicitar su opini\u00f3n sobre productos y/o servicios incluyendo de informaci\u00f3n (Contenidos);\n\u00b7 Permitir el acceso a la informaci\u00f3n y datos personales a los auditores o terceros contratados por la Compa\u00f1\u00eda para llevar a cabo procesos de auditor\u00eda interna o externa propios de la actividad comercial que se desarrolla por la Organizaci\u00f3n.\n\u00b7 Transmitir los datos a terceros dentro o fuera de Colombia, que provean servicios tecnol\u00f3gicos, log\u00edsticos, administrativos, de distribuci\u00f3n y/o Contact Center a EC;\n\u00b7 Transferir y transmitir dentro o fuera de Colombia, los datos a empresas vinculadas de EC o con las que EC llegue a acuerdos comerciales legalmente permitidos;\n\u00b7 Transferir datos personales a terceros cuando ello sea necesario para el cumplimiento de obligaciones contractuales, de ley, prestar un buen servicio al cliente o cuando por razones tecnol\u00f3gicas ello sea indispensable para mantener un buen servicio;\n\u00b7 Si por el ingreso y/o registro de datos personales en las plataformas digitales de EC, los espacios de Interacci\u00f3n de \u201cEC\u201d, entre otros, \u201cEC\u201d est\u00e1 en la facultad de determinar sus h\u00e1bitos de uso, la informaci\u00f3n sobre los art\u00edculos que lee, los productos y/o servicios que adquiere, los comentarios que realiza, cuanto tiempo permanece en un portal o usa una aplicaci\u00f3n, el navegador o plataforma m\u00f3vil que utiliza, la publicidad a la que accede o consulta, la direcci\u00f3n IP del dispositivo que utilice, su ubicaci\u00f3n geogr\u00e1fica, informaci\u00f3n de cookies, entre otros, el usuario est\u00e1 de acuerdo con ello y por tanto \u201cEC\u201d como las empresas afiliadas a esta est\u00e1n plenamente facultadas y/o autorizadas para ello.\n\u00b7 Brindar una experiencia personal dentro de sus portales web o aplicaciones ya sea a trav\u00e9s de contenidos informativos o publicitarios personalizados o no;\n\u00b7 Proporcionar funciones y servicios relacionados con los gustos, ubicaci\u00f3n y preferencias;\n\u00b7 Conocer o comprender la eficacia de los anuncios que lee;\n\u00b7 Vincular a terceros con las actividades que realiza, como ser\u00edan el compartir una noticia, evento o situaci\u00f3n, comentarla, enviarla por correo electr\u00f3nico a un tercero, se\u00f1alar que es de su agrado o inter\u00e9s para que sus contactos/amigos la vean en las redes sociales en las que se encuentre inscrito el Usuario; en operaciones internas, incluidos la soluci\u00f3n de problemas, el an\u00e1lisis de datos, la investigaci\u00f3n, el desarrollo y la mejora del servicio.\n\u00b7 En caso de una venta de la mayor\u00eda de los activos de la empresa, la informaci\u00f3n de los clientes y/o usuarios puede ser transferida al comprador como parte del establecimiento de comercio;\n\nFinalidades exclusivas Gesti\u00f3n Humana EL COLOMBIANO S.A.S\n\nAdem\u00e1s de lo anterior, la aceptaci\u00f3n de esta Pol\u00edtica de Privacidad y del Tratamiento de los datos personales conforme a los t\u00e9rminos de la misma, ocurre cuando el Candidato y/o Aspirante, Colaborador Vinculado mediante contrato de trabajo, Tercero Vinculado, Colaborador Pensionado y/o Jubilado, proporciona sus datos personales a trav\u00e9s de cualquier canal o medio establecido por EC, para la correcta ejecuci\u00f3n de los diferentes procesos y procedimientos de Gesti\u00f3n Humana.\nEl Empleado vinculado mediante contrato de trabajo y/o los terceros vinculados, que suministren datos personales propios y/o datos personales de Titulares pertenecientes a su grupo familiar y/o de sus beneficiarios, conoce y acepta que EC realiza Tratamiento de informaci\u00f3n personal, para las finalidades previstas en esta Pol\u00edtica y la ley. Cuando el Trabajador vinculado a la Compa\u00f1\u00eda mediante contrato de trabajo y/o los terceros vinculados act\u00fae mediante representaci\u00f3n o estipulaci\u00f3n en favor de otro o por otro, se entiende que lo hacen bajo el principio de buena fe.\nAl aceptar esta Pol\u00edtica de Privacidad, y al momento de firmar la autorizaci\u00f3n respectiva, cada uno de los Titulares de la informaci\u00f3n (incluyendo los del grupo familiar y/o beneficiarios del Colaborador vinculado mediante contrato de trabajo y/o los terceros vinculados), autorizan que EC realice el Tratamiento de su informaci\u00f3n personal de forma parcial o total, incluyendo su recolecci\u00f3n, almacenamiento, uso, circulaci\u00f3n, grabaci\u00f3n, procesamiento, transmisi\u00f3n y/o transferencia nacional e internacional, y \u00fanicamente para las finalidades descritas.\n\nGesti\u00f3n de los Procesos relacionados con Gesti\u00f3n Humana dentro de EC.\n\nTratar la informaci\u00f3n personal para el adecuado manejo de los procesos relacionados con Gesti\u00f3n Humana dentro de la Compa\u00f1\u00eda, esto es:\n\u00b7 Promover los procedimientos de verificaci\u00f3n y evaluaci\u00f3n de los aspirantes en procesos de selecci\u00f3n;\n\u00b7 Control y seguimiento del proceso de contrataci\u00f3n, soporte y ejecuci\u00f3n de los beneficios colectivos derivados de un contrato de trabajo (Inscripci\u00f3n del colaborador y sus beneficiarios dentro de los beneficios legales y/o extralegales de la compa\u00f1\u00eda) desprendibles de n\u00f3mina, pagos, afiliaci\u00f3n y pago del sistema integral de seguridad social, as\u00ed como respecto de los beneficiarios.\nFormaci\u00f3n del personal;\n\u00b7 Actividades de bienestar, gestionar el sistema de seguridad y salud en el trabajo en el ejercicio de las diferentes actividades laborales y/o cualquier otro tipo de informaci\u00f3n relacionada directa e indirectamente el cumplimiento de las obligaciones derivadas de contrato de trabajo, contrato civil o comercial y con la administraci\u00f3n del Talento Humano.\n\u00b7 As\u00ed mismo, EC podr\u00e1 suministrar la informaci\u00f3n personal a las autoridades de control y vigilancia, administrativas, de polic\u00eda y judiciales, nacionales e internacionales, en virtud de un requerimiento legal o reglamentario, en defensa de los derechos y/o de la propiedad de la Compa\u00f1\u00eda, de sus clientes, usuarios o de sus sitios web.\n\u00b7 Permitir el acceso a la informaci\u00f3n y datos personales a los auditores o terceros contratados para llevar a cabo procesos de auditor\u00eda interna o externa.\n\nFinalidades exclusivas Proveedores.\n \n\u00b7 Llevar a cabo evaluaciones y selecci\u00f3n de proveedores.\n\u00b7 Cumplimiento de aspectos fiscales y legales con entidades de gobierno y regulatorias.\n\u00b7 Establecer relaciones de negocio para adquirir bienes o servicios.\n\u00b7 Control y pagos por los bienes y servicios recibidos.\n\u00b7 Evaluaciones de los niveles de servicio recibidos de los proveedores.\n\u00b7 Comunicaci\u00f3n de Pol\u00edticas y procedimientos sobre la forma de hacer negocios con los proveedores.\n\u00b7 Proceso de control y registro contable de las obligaciones contra\u00eddas con los proveedores.\n\u00b7 Consultas, auditorias y revisiones derivadas de la relaci\u00f3n de negocio con el proveedor.\n\u00b7 Cualquier otra actividad necesaria para el efectivo cumplimiento de la relaci\u00f3n comercial entre el proveedor y EC.\n\u00b7 Verificaci\u00f3n en listas de riesgo\n\u00b7 An\u00e1lisis financiero (para los proveedores que aplique por pol\u00edtica de compras\n\nEmpleo de cookies.\n \n\u201cEC\u201d podr\u00e1 utilizar cookies para personalizar y facilitar al m\u00e1ximo la navegaci\u00f3n en Internet por parte de los usuarios de sus p\u00e1ginas web. Las cookies se asocian \u00fanicamente a un usuario an\u00f3nimo y su ordenador y no proporcionan referencias que permitan deducir datos personales del usuario. Ver pol\u00edtica de Cookies, dar Click: Pol\u00edtica de Cookies\n \nConocimiento, actualizaci\u00f3n y rectificaci\u00f3n de Informaci\u00f3n Personal\n \nEn cualquier momento los clientes y/o usuarios podr\u00e1n solicitarle a \u201cEC\u201d como responsable de los datos personales, que proporcione informaci\u00f3n sobre los mismos, que los actualice, los rectifique, as\u00ed mismo podr\u00e1 incluir nuevos datos si es su deseo, suprimirlos o excluirlos de la base de datos salvo que el dato sea absolutamente necesario para la prestaci\u00f3n del servicio al cual se encuentra registrado y/o inscrito el cliente y/o usuario y quiera permanecer en \u00e9l, de lo contrario, se desvincular\u00e1 y/o inactivara totalmente del mismo.\nSi el usuario y/o cliente desea ejercer sus derechos y por tanto actualizar, rectificar suprimir entre otros deber\u00e1 enviar un correo electr\u00f3nico a servicio@elcolombiano.com.co.\n\nDerechos de los clientes y/o usuarios (1581 de 2012, art\u00edculo 8).\n\n\u00b7 Conocer, actualizar y rectificar sus datos personales frente a los Responsables del Tratamiento o Encargados del Tratamiento. Este derecho se podr\u00e1 ejercer, entre otros frente a datos parciales, inexactos, incompletos, fraccionados, que induzcan a error, o aquellos cuyo Tratamiento est\u00e9 expresamente prohibido o no haya sido autorizado;\n\u00b7 Solicitar prueba de la autorizaci\u00f3n otorgada al Responsable del Tratamiento salvo cuando expresamente se except\u00fae como requisito para el Tratamiento, de conformidad con lo previsto en el art\u00edculo 10 de la presente ley;\n\u00b7 Ser informado por el Responsable del Tratamiento o el Encargado del Tratamiento, previa solicitud, respecto del uso que le ha dado a sus datos personales;\n\u00b7 Presentar ante la Superintendencia de Industria y Comercio quejas por infracciones a lo dispuesto en la presente ley y las dem\u00e1s normas que la modifiquen, adicionen o complementen;\n\u00b7 Revocar la autorizaci\u00f3n y/o solicitar la supresi\u00f3n del dato cuando en el Tratamiento no se respeten los principios, derechos y garant\u00edas constitucionales y legales. La revocatoria y/o supresi\u00f3n proceder\u00e1 cuando la Superintendencia de Industria y Comercio haya determinado que en el Tratamiento el Responsable o Encargado han incurrido en conductas contrarias a esta ley y a la Constituci\u00f3n;\n\u00b7 Acceder en forma gratuita a sus datos personales que hayan sido objeto de Tratamiento previa solicitud a la compa\u00f1\u00eda, en los t\u00e9rminos de la normatividad vigente que le sea aplicable.\nPara consultas cuya periodicidad sea mayor a una por cada mes calendario, La Compa\u00f1\u00eda a su discreci\u00f3n y siempre que se presenten gastos cobrar\u00e1 al Titular que solicite dicha informaci\u00f3n, los gastos de env\u00edo, reproducci\u00f3n y, en su caso, certificaci\u00f3n de documentos.\nEs importante para EL COLOMBIANO mantener contacto con usted, por eso en el proceso de desvinculaci\u00f3n o retiro de una base de datos debe informarse respecto de que producto o servicio no desea informaci\u00f3n y as\u00ed poder evidenciar si su deseo de retiro es respecto de una de las bases de datos en la que se encuentra registrado o si por el contrario no desea recibir informaci\u00f3n de uno de nuestros productos y/o servicios. Por ejemplo por la vinculaci\u00f3n como suscriptor de EL COLOMBIANO usted habilita la posibilidad de que le enviemos informaci\u00f3n y/o comunicaciones del peri\u00f3dico GENTE, si lo que usted desea es que no le enviemos informaci\u00f3n del peri\u00f3dico GENTE deber\u00e1 manifestarlo en el proceso de desafiliaci\u00f3n con la finalidad de no perder contacto con usted, m\u00e1xime cuando algunos productos y/o servicios requieren de su informaci\u00f3n para la continuidad de la prestaci\u00f3n del mismo.\nEl proceso de retiro de una base de datos o de un servicio de contacto no es inmediato por lo que recibir\u00e1 informaci\u00f3n hasta tanto se perfeccione la solicitud respectiva dentro de los sistemas de EC.\n\nVeracidad de la informaci\u00f3n\n\nLos titulares del dato personal est\u00e1n en el deber de suministrar a EC informaci\u00f3n personal veraz con el fin de poder cumplir la finalidad para la cual se hace el recabo de informaci\u00f3n del titular del dato. EC presume la veracidad de la informaci\u00f3n suministrada por los Clientes, proveedores, usuarios, empleados, accionistas y dem\u00e1s titulares de informaci\u00f3n y no asumir\u00e1n la obligaci\u00f3n de verificar la identidad de los mismos, ni la veracidad, vigencia, suficiencia y autenticidad de los datos que cada uno de ellos proporcione. Por tanto, no asumir\u00e1n responsabilidad por da\u00f1os y/o perjuicios de cualquier naturaleza que pudieran tener origen en la falta de veracidad, vigencia, suficiencia o autenticidad de la informaci\u00f3n y datos personales, incluyendo da\u00f1os y perjuicios que puedan deberse a la homonimia o a la suplantaci\u00f3n de la identidad.\n \nEjercicio de los derechos.\n\nProcedimientos De Acceso, Consulta Y Reclamaci\u00f3n\n\nLa Ley 1581 de 2012 proporciona a toda persona titular de datos personales una serie de garant\u00edas, de verdaderos poderes jur\u00eddicos frente al responsable de los datos, los cuales, tanto le garantizan el poder de decisi\u00f3n y control que tiene sobre la informaci\u00f3n que le concierne, como su derecho a la protecci\u00f3n de la misma. En adici\u00f3n, act\u00faan como complemento del deber del responsable de cumplir con las obligaciones que le son impuestas en la Ley, permiti\u00e9ndole identificar aquellos casos en los que el tratamiento pudiera no resultar ajustado a los mismos.\nPara el ejercicio de los derechos, quienes podr\u00e1n actuar de conformidad con lo establecido en el art\u00edculo 14 de la Ley 1581 de 2012 y el decreto 1377 de 2013 son las siguientes personas: los titulares, los causahabientes, su representante o apoderado o las personas que act\u00faen a favor de otro o para otro.\nCuando la solicitud sea formulada por persona distinta del titular y no se acredite que la misma act\u00faa en representaci\u00f3n de aqu\u00e9l, se tendr\u00e1 por no presentada.\nPara consultas, reclamos, quejas o para el ejercicio de los derechos del usuario o cliente, podr\u00e1 comunicarse con \u201cEL COLOMBIANO\u201d al correo electr\u00f3nico servicio@elcolombiano.com.co , o llamar a la l\u00ednea de atenci\u00f3n al cliente (57) 4 339 33 33 en el horario de lunes a viernes de 6:00 a.m. a 7:30 p.m; s\u00e1bados de 7:00 a.m. a 12:00 m; y domingos y festivos de 8:00 a.m. a 12:00 m.\n\n \nDerecho de acceso.\n\nEl poder de disposici\u00f3n o decisi\u00f3n que tiene el titular sobre la informaci\u00f3n que le concierne, conlleva necesariamente el derecho de acceder y conocer si su informaci\u00f3n personal est\u00e1 siendo objeto de tratamiento, as\u00ed como el alcance, condiciones y generalidades de dicho tratamiento. De esta manera, EL COLOMBIANO S.A.S garantiza al titular su derecho de acceso en tres v\u00edas:\na) La primera implica que el titular pueda conocer la efectiva existencia del tratamiento a que son sometidos sus datos personales.\nb) La segunda, que el titular pueda tener acceso a sus datos personales que est\u00e1n en posesi\u00f3n del responsable.\nc) La tercera, supone el derecho a conocer las circunstancias esenciales del tratamiento, lo cual se traduce en el deber de EL COLOMBIANO S.A.S de informar al titular sobre el tipo de datos personales tratados y todas y cada una de las finalidades que justifican el tratamiento.\n\nPar\u00e1grafo: EL COLOMBIANO S.A.S garantizar\u00e1 el derecho de acceso cuando, previa acreditaci\u00f3n de la identidad del titular o personalidad de su representante, se ponga a disposici\u00f3n de \u00e9ste, de manera gratuita, el detalle de los datos personales a trav\u00e9s de medios electr\u00f3nicos que permitan el acceso directo del Titular a ellos. Dicho acceso deber\u00e1 ofrecerse sin l\u00edmite de plazo y deber\u00e1 permitir al titular la posibilidad de conocerlos y actualizarlos en l\u00ednea.\n\nConsultas.\n\nDe conformidad con lo establecido en el art\u00edculo 14 de la Ley 1581 de 2012 y el art\u00edculo 21 del Decreto 1377 de 2013, los Titulares o sus causahabientes podr\u00e1n consultar la informaci\u00f3n personal del Titular que repose en cualquier base de datos. En consecuencia, EC garantizar\u00e1 el derecho de consulta, suministrando a los Titulares, toda la informaci\u00f3n contenida en el registro individual o que est\u00e9 vinculada con la identificaci\u00f3n del titular.\nPara la atenci\u00f3n de solicitudes de consulta de datos personales EL COLOMBIANO S.A Y CIA S.C.A. garantiza:\na) Que existen medios de comunicaci\u00f3n electr\u00f3nica y telef\u00f3nica.\nb) Utilizar los servicios de atenci\u00f3n al cliente o de reclamaciones que tiene en operaci\u00f3n.\nEn cualquier caso, independientemente del mecanismo implementado para la atenci\u00f3n de solicitudes de consulta, las mismas ser\u00e1n atendidas en un t\u00e9rmino m\u00e1ximo de diez (10) d\u00edas h\u00e1biles contados a partir de la fecha de su recibo. Cuando no fuere posible atender la consulta dentro de dicho t\u00e9rmino, se informar\u00e1 al interesado antes del vencimiento de los 10 d\u00edas, expresando los motivos de la demora y se\u00f1alando la fecha en que se atender\u00e1 su consulta, la cual en ning\u00fan caso podr\u00e1 superar los cinco (5) d\u00edas h\u00e1biles siguientes al vencimiento del primer plazo.\n\n\n \n \n \nReclamos .\n\nDe conformidad con lo establecido en el art\u00edculo 15 de la Ley 1581 de 2012, el Titular o sus causahabientes que consideren que la informaci\u00f3n contenida en una base de datos debe ser objeto de correcci\u00f3n, actualizaci\u00f3n o supresi\u00f3n, o cuando adviertan el presunto incumplimiento de cualquiera de los deberes contenidos en la Ley 1581 de 2012, el Decreto 1377 de 2013 u cualquier otra norma aplicable, podr\u00e1n presentar un reclamo ante el Responsable del Tratamiento, el cual ser\u00e1 tramitado bajo las siguientes reglas:\na) El reclamo lo podr\u00e1 presentar el Titular, teniendo en cuenta la informaci\u00f3n se\u00f1alada en el art\u00edculo 15 de la Ley 1581 de 2012 y en el art\u00edculo 9 del Decreto 1377 de 2013. Si el reclamo recibido no cuenta con informaci\u00f3n completa que permita darle tr\u00e1mite, esto es, con la identificaci\u00f3n del Titular, la descripci\u00f3n de los hechos que dan lugar al reclamo, la direcci\u00f3n, y acompa\u00f1ando los documentos que se quiera hacer valer, se requerir\u00e1 al interesado dentro de los cinco (5) d\u00edas siguientes a su recepci\u00f3n para que subsane las fallas. Transcurridos dos (2) meses desde la fecha del requerimiento sin que el solicitante presente la informaci\u00f3n requerida, se entender\u00e1 que ha desistido del reclamo.\nb) Si por alguna circunstancia se recibe un reclamo que en realidad no deber\u00eda ir dirigido contra EC, \u00e9ste dar\u00e1 traslado, en la medida de sus posibilidades, a quien corresponda en un t\u00e9rmino m\u00e1ximo de dos (2) d\u00edas h\u00e1biles, e informar\u00e1 de la situaci\u00f3n al interesado.\nc) Una vez recibido el reclamo completo, se incluir\u00e1 en la base de datos que mantiene el Responsable una leyenda que diga \"reclamo en tr\u00e1mite\" y el motivo del mismo, en un t\u00e9rmino no mayor a dos (2) d\u00edas h\u00e1biles de recibido el reclamo completo. Dicha leyenda deber\u00e1 mantenerse hasta que el reclamo sea decidido.\nd) El t\u00e9rmino m\u00e1ximo para atender el reclamo ser\u00e1 de quince (15) d\u00edas h\u00e1biles contados a partir del d\u00eda siguiente a la fecha de su recibo. Cuando no fuere posible atenderlo dentro de dicho t\u00e9rmino se informar\u00e1 al interesado antes del vencimiento del referido plazo los motivos de la demora y la fecha en que se atender\u00e1 su reclamo, la cual en ning\u00fan caso podr\u00e1 superar los ocho (8) d\u00edas h\u00e1biles siguientes al vencimiento del primer t\u00e9rmino.\n\nImplementaci\u00f3n de procedimientos para garantizar el derecho a presentar reclamos.\n \nEn cualquier momento y de manera gratuita el titular o su representante podr\u00e1n solicitar a EC la rectificaci\u00f3n, actualizaci\u00f3n o supresi\u00f3n de sus datos personales, previa acreditaci\u00f3n de su titular.\n1) Los derechos de rectificaci\u00f3n, actualizaci\u00f3n o supresi\u00f3n se podr\u00e1n ejercer por:\na) El Titular o sus causahabientes, previa acreditaci\u00f3n de su identidad, o a trav\u00e9s de instrumentos electr\u00f3nicos que le permitan identificarse.\nb) Por el representante y/o apoderado del Titular, previa acreditaci\u00f3n de la representaci\u00f3n o apoderamiento.\nc) Por estipulaci\u00f3n a favor de otro o para otro.\nd) Los derechos de los ni\u00f1os, ni\u00f1as o adolescentes se ejercer\u00e1n por las personas que est\u00e9n facultadas para representarlos. Cuando la solicitud sea formulada por persona distinta del Titular y no se acredite que la misma act\u00faa en representaci\u00f3n de aqu\u00e9l, se tendr\u00e1 por no presentada.\n2) La solicitud de rectificaci\u00f3n, actualizaci\u00f3n o supresi\u00f3n debe ser presentada a trav\u00e9s de los medios habilitados por EC se\u00f1alados en el aviso de privacidad y contener, como m\u00ednimo, la siguiente informaci\u00f3n:\n\u00b7 El nombre y domicilio del Titular o cualquier otro medio para recibir la respuesta\n\u00b7 Los documentos que acrediten la identidad o la personalidad de su representante.\n\u00b7 La descripci\u00f3n clara y precisa de los datos personales respecto de los cuales el Titular busca ejercer alguno de los derechos.\n\u00b7 En caso dado otros elementos o documentos que faciliten la localizaci\u00f3n de los datos personales.\n\u00b7 Lo dem\u00e1s establecido en estas pol\u00edticas.\n\nRectificaci\u00f3n Y Actualizaci\u00f3n De Datos.\nEC tiene la obligaci\u00f3n de rectificar y actualizar a solicitud del Titular, la informaci\u00f3n de \u00e9ste que resulte ser incompleta o inexacta, de conformidad con el procedimiento y los t\u00e9rminos arriba se\u00f1alados. En las solicitudes de rectificaci\u00f3n y actualizaci\u00f3n de datos personales el Titular debe indicar las correcciones a realizar y aportar la documentaci\u00f3n que avale su petici\u00f3n. EC tiene plena libertad de habilitar mecanismos que le faciliten el ejercicio de este derecho, siempre y cuando \u00e9stos beneficien al Titular. En consecuencia, se podr\u00e1n habilitar medios electr\u00f3nicos u otros que considere pertinentes. EC podr\u00e1 establecer formularios, sistemas y otros m\u00e9todos simplificados, mismos que deben ser informados en el aviso de privacidad y que se pondr\u00e1n a disposici\u00f3n de los interesados en la p\u00e1gina web. Cada vez que EC ponga a disposici\u00f3n una herramienta nueva para facilitar el ejercicio de sus derechos por parte de los Titulares de informaci\u00f3n o modifique las existentes, lo informar\u00e1 a trav\u00e9s de su p\u00e1gina web.\n\nSupresi\u00f3n de datos.\nEl Titular tiene el derecho, en todo momento, a solicitar a EC la supresi\u00f3n (eliminaci\u00f3n) de sus datos personales cuando:\na) Considere que los mismos no est\u00e1n siendo tratados conforme a los principios, deberes y obligaciones previstas en la Ley 1581 de 2012 y el Decreto 1377 de 2013.\nb) Hayan dejado de ser necesarios o pertinentes para la finalidad para la cual fueron recabados.\nc) Se haya superado el periodo necesario para el cumplimiento de los fines para los que fueron recabados.\n\nEjercicio Del Derecho De Supresi\u00f3n.\n \nEsta supresi\u00f3n implica la eliminaci\u00f3n total o parcial de la informaci\u00f3n personal de acuerdo con lo solicitado por el Titular en los registros, archivos, bases de datos o tratamientos realizados por EC. Es importante tener en cuenta que el derecho de cancelaci\u00f3n no es absoluto y el Responsable puede negar el ejercicio del mismo cuando:\na) El Titular tenga un deber legal o contractual de permanecer en la base de datos.\nb) La eliminaci\u00f3n de datos obstaculice actuaciones judiciales o administrativas vinculadas a obligaciones fiscales, la investigaci\u00f3n y persecuci\u00f3n de delitos o la actualizaci\u00f3n de sanciones administrativas.\nc) Los datos sean necesarios para proteger los intereses jur\u00eddicamente tutelados del Titular; para realizar una acci\u00f3n en funci\u00f3n del inter\u00e9s p\u00fablico, o para cumplir con una obligaci\u00f3n legalmente adquirida por el Titular. En caso de resultar procedente la cancelaci\u00f3n de los datos personales, EC debe realizar operativamente la supresi\u00f3n de tal manera que la eliminaci\u00f3n no permita la recuperaci\u00f3n de la informaci\u00f3n.\n\n \nRevocatoria de la autorizaci\u00f3n.\n\nLos Titulares de los datos personales pueden revocar el consentimiento al tratamiento de sus datos personales en cualquier momento, siempre y cuando no lo impida una disposici\u00f3n legal o contractual. Para ello, EC deber\u00e1 establecer mecanismos sencillos, de f\u00e1cil acceso y gratuitos que permitan al Titular revocar su consentimiento, al menos por el mismo medio por el que lo otorg\u00f3 y en los t\u00e9rminos estipulados en la ley 1581 de 2012, sus Decretos reglamentarios y normas modificatorias o complementarias.\nSe deber\u00e1 tener en cuenta que existen dos modalidades en las que la revocaci\u00f3n del consentimiento puede darse. La primera, puede ser sobre la totalidad de las finalidades consentidas, esto es, que EC deba dejar de tratar por completo los datos del Titular; la segunda, puede ocurrir sobre tipos de tratamiento determinados, como por ejemplo para fines publicitarios o de estudios de mercado. Con la segunda modalidad, esto es, la revocaci\u00f3n parcial del consentimiento, se mantienen a salvo otros fines del tratamientos que el Responsable, de conformidad con la autorizaci\u00f3n otorgada, puede llevar a cabo y con los que el Titular est\u00e1 de acuerdo.\nPor lo anterior, ser\u00e1 necesario que el Titular al momento de elevar la solicitud de revocatoria, indique en \u00e9sta si la revocaci\u00f3n que pretende realizar es total o parcial. En la segunda hip\u00f3tesis se deber\u00e1 indicar con cu\u00e1l tratamiento el Titular no est\u00e1 conforme.\nHabr\u00e1 casos en que el consentimiento, por su car\u00e1cter necesario en la relaci\u00f3n entre Titular y Responsable por el cumplimiento de un contrato, por disposici\u00f3n legal no podr\u00e1 ser revocado.\nLos mecanismos o procedimientos que EC establezca para atender las solicitudes de revocatoria del consentimiento otorgado no podr\u00e1n exceder los plazos previstos para atender las reclamaciones conforme se se\u00f1ala en el art\u00edculo 15 de la ley 1581 de 2012.\nPor otro lado, son varios los medios y/o las razones por los cuales la sociedad EL COLOMBIANO S.A.S recolecta datos personales; esto es, para la prestaci\u00f3n de servicios y/o vinculaci\u00f3n a los diferentes productos de la compa\u00f1\u00eda, por lo que es posible que el titular del dato personal proporcione datos en diferentes procesos para vinculaci\u00f3n de diferentes productos y/o servicios y que por tanto se encuentre en diferentes bases de datos de la misma sociedad. Esto por tanto, implica que el titular se encuentre en diferentes bases de datos, por lo que deber\u00e1 tener esto en cuenta tanto en el momento de la vinculaci\u00f3n, registro, actualizaci\u00f3n y/o retiro, pues si se retira de una base de datos de la compa\u00f1\u00eda y no de las dem\u00e1s es posible que por ejemplo le llegue a trav\u00e9s de los canales de contacto informados en el momento del recaudo informaci\u00f3n de los dem\u00e1s productos respecto de los cuales no se retir\u00f3 de la base de datos. Por favor ser muy preciso al momento de la desvinculaci\u00f3n de las bases de datos precisando de cuales se retira.\n\nProcedimiento de quejas ante la ante la Superintendencia de Industria y Comercio:\n\nEl Titular o causahabiente s\u00f3lo podr\u00e1 elevar queja ante la Superintendencia de Industria y Comercio una vez haya agotado el tr\u00e1mite de consulta o reclamo ante EL COLOMBIANO S.A.S, de acuerdo al procedimiento anteriormente mencionado.\n \nVigencia Datos Personales - autorizaci\u00f3n.\n \nEl titular del dato personal acepta y reconoce que esta autorizaci\u00f3n estar\u00e1 vigente a partir del momento en que la acept\u00f3 y durante el tiempo en que EL COLOMBIANO S.A.S ejerza las actividades propias de su objeto social y/o cuando el titular del dato decida revocar la autorizaci\u00f3n sobre los mismos. En todo caso es necesario contar con el dato para permitirnos el cumplimiento de las obligaciones legales y/o contractuales a cargo de EC especialmente en materia contable, fiscal y tributaria o por todo el tiempo necesario para atender las disposiciones aplicables a la materia de que se trate, los aspectos administrativos, contables, fiscales, jur\u00eddicos e hist\u00f3ricos de la informaci\u00f3n, o en todo evento previsto en la ley.\nPor regla general, el t\u00e9rmino de las autorizaciones sobre el uso de los datos personales por los clientes y/o usuarios se entiende por el t\u00e9rmino de la relaci\u00f3n comercial o de la vinculaci\u00f3n al servicio y durante el ejercicio del objeto social de la compa\u00f1\u00eda.\n\nLos t\u00e9rminos de las autorizaciones sobre uso de los datos personales a los titulares de las cortes\u00edas, son por el t\u00e9rmino de un (1) a\u00f1o a partir del env\u00edo de la cortes\u00eda.\n\nLas autorizaciones sobre los datos de los clientes y/o usuarios podr\u00e1n terminar por voluntad de los mismos en cualquier momento. Si la persona es un cliente activo de EL COLOMBIANO S.A.S no se podr\u00e1n usar sus datos para nada diferente a la prestaci\u00f3n del producto o servicio y para el ofrecimiento de renovaciones posteriores cuando el servicio tenga esta modalidad.\n\nCuando los t\u00e9rminos de las pol\u00edticas de privacidad y uso de informaci\u00f3n personal de cualquier de los servicios o productos contratados por un titular, cambien en lo esencial, por regla general, en los servicios que tengan la opci\u00f3n de renovaci\u00f3n se podr\u00e1 en esta obtenerse una nueva autorizaci\u00f3n. Para los dem\u00e1s casos, se obtendr\u00e1 la autorizaci\u00f3n en la forma establecida para cada producto y/o servicio o a trav\u00e9s del medio usual de contacto entre la empresa y los titulares.\n\nAtenci\u00f3n al Cliente.\n\nPara consultas, reclamos, quejas o para el ejercicio de los derechos del usuario o cliente, podr\u00e1 comunicarse con \u201cEC\u201d al correo electr\u00f3nico servicio@elcolombiano.com.co o llamar a la l\u00ednea de atenci\u00f3n al cliente (57) 4 339 33 33 en el horario de lunes a viernes de 6:00 a.m. a 7:30 p.m; s\u00e1bados de 7:00 a.m. a 12:00 m; y domingos y festivos de 8:00 a.m. a 12:00 m. Una vez el Usuario y/o cliente presente una solicitud de las mencionadas anteriormente, \u201cEC\u201d tendr\u00e1 hasta quince (15) d\u00edas h\u00e1biles. En todo caso \u201cEC\u201d podr\u00e1 sujetarse a los t\u00e9rminos establecidos en la ley.\n\nResponsable del tratamiento de mis datos\n\nEL COLOMBIANO S.A.S\nNit. 890.901.352-3\nDirecci\u00f3n: Carrera 48 Nro. 30 sur 119 Envigado, Antioquia, Colombia\nEmail: servicio@elcolombiano.com.co\nTel\u00e9fono: (4) 331-52-52\nTel\u00e9fono Call Center: (4) 339-33-33\nEL COLOMBIANO S.A.S puede cambiar unilateralmente su pol\u00edtica de privacidad y de uso de datos personales. No limitaremos sus derechos derivados de la presente Pol\u00edtica de privacidad y de uso de datos personales sin su expreso consentimiento. Publicaremos cualquier modificaci\u00f3n de la presente Pol\u00edtica de privacidad y de uso de datos personales en esta p\u00e1gina.\nVer Manual de Protecci\u00f3n de Datos personales y procedimientos de datos personales de EL COLOMBIANO, dando CLICK aqu\u00ed: Manual de Protecci\u00f3n de Datos personales.\nAdem\u00e1s, conservaremos las versiones anteriores de la presente Pol\u00edtica de privacidad y de uso de datos personales.\nEl presente documento rige a partir del 10 de julio de 2018, el cual consolida las versiones publicadas anteriormente de aviso de privacidad (abril de 2013 y los t\u00e9rminos y condiciones de www.elcolombiano.com, publicados con anterioridad y el 19 de septiembre de 2017 y tendr\u00e1 modificaciones de vez en vez.\n\n8. VARIOS\n\nResponsabilidades:\n\n\u2022 Sin perjuicio de lo establecido en estos t\u00e9rminos y condiciones, El usuario est\u00e1 de acuerdo en que el uso de cualquiera de los servicios o espacios de participaci\u00f3n y/o interacci\u00f3n de los portales de \u201cEC\u201d se realiza bajo su propio riesgo. \u201cEC\u201d no garantiza satisfacer al cien por ciento los requerimientos del Usuario, o que los servicios de \u201cEC\u201d se mantengan siempre ininterrumpidos, en tiempo, seguros o libres de errores. Por lo anterior, \u201cEC\u201d no controla ni garantiza, y por lo tanto no se hace responsable por la presencia de virus ni de otros elementos en los contenidos del Portal que puedan producir alteraciones en el sistema inform\u00e1tico (software y hardware) del Usuario.\n\n\u2022 \u201cEC\u201d no garantiza la utilidad de los portales para la realizaci\u00f3n de ninguna actividad en particular, ni su infalibilidad y, en particular, que los Usuarios puedan efectivamente utilizar el Portal o alguna de sus secciones.\n\n\u2022 \u201cEC\u201d no tiene obligaci\u00f3n de controlar lo que los Usuarios hacen en sus portales. \u201cEC\u201d conf\u00eda en que los usuarios har\u00e1n un uso adecuado de estos de acuerdo con los T\u00e9rminos y Condiciones aqu\u00ed descritos.\n\n\u2022 \u201cEC\u201d no se har\u00e1 responsable ni ejercer\u00e1 control sobre enlaces o hiperv\u00ednculos -p\u00e1ginas de internet- que puedan accederse desde \u201cEC\u201d, si estas no pertenecen a \u201cEC\u201d o alguna de sus filiales o subsidiarias. As\u00ed mismo, tampoco garantizar\u00e1 la seguridad, calidad, fiabilidad, veracidad, el soporte t\u00e9cnico y los contenidos que se encuentre en esos sitios WEB. No puede entenderse que la existencia de un hiperv\u00ednculo que no es propiedad de \u201cEC\u201d, genera para este v\u00ednculos de asociaci\u00f3n, colaboraci\u00f3n o participaci\u00f3n con los titulares y/o responsable de estos enlaces. EC no garantiza ni se responsabiliza del funcionamiento o accesibilidad de los sitios enlazados; ni sugiere, invita o recomienda la visita a los mismos, por lo que tampoco ser\u00e1 responsable del resultado obtenido. EC no se responsabiliza del establecimiento de hiperv\u00ednculos por parte de terceros.\n \n\u2022 \u201cEC\u201d podr\u00e1 en cualquier momento y cuando lo considere conveniente, sin necesidad de aviso al Usuario, realizar correcciones, adiciones, mejoras o modificaciones al contenido, presentaci\u00f3n, informaci\u00f3n, servicios, \u00e1reas, bases de datos y dem\u00e1s elementos de \u201cEC\u201d sin que ello de lugar ni derecho a ninguna reclamaci\u00f3n o indemnizaci\u00f3n, ni que lo mismo implique reconocimiento de responsabilidad alguna a favor del Usuario.\n\n\u2022 El dise\u00f1o, manejo, finalidad y caracter\u00edsticas de los diferentes espacios de participaci\u00f3n de \u201cEC\u201d es discrecional de \u201cEC\u201d, quien podr\u00e1 en cualquier momento cambiarlos y/o eliminarlos y/o determinar la cantidad de participantes admitidos en cada uno de ellos.\n\n\u2022 \u201cEC\u201d no se hace responsable de las actuaciones de terceros que vulneren derechos de propiedad intelectual e industrial, secretos empresariales, derechos al honor, a la intimidad personal y familiar y a la propia imagen, entre otros.\n\n\u2022 \u201cEC\u201d no tiene responsabilidad respecto a la informaci\u00f3n que se halle fuera de esta web y no sea gestionada directamente por el webmaster y/o periodistas vinculados a la casa editorial.\n\n\u2022 El contenido informativo y/o noticioso del presente sitio web es de car\u00e1cter general y tiene una finalidad meramente informativa, sin que se garantice plenamente el acceso a todos los contenidos por pare de los usuarios, ni su vigencia o actualidad, ni su idoneidad o utilidad para un objetivo espec\u00edfico.\n \n\u2022 Aunque en nuestros portales proporcionamos normas para la conducta de los usuarios, no tenemos el control total de las acciones de los usuarios en el portal respectivo en el que el usuario est\u00e9 interactuando.\n\nIndemnizaci\u00f3n\n\nEl Usuario y/o cliente est\u00e1 de acuerdo en indemnizar a \u201cEC\u201d, las empresas que hagan parte de su grupo Editorial, sus directivos, empleados, proveedores, Anunciantes y Establecimientos vinculados a \u201cEC\u201d, de cualquier acci\u00f3n, demanda o reclamaci\u00f3n (incluso de honorarios de abogados y de costas judiciales) derivadas del incumplimiento total o parcial de la ley y de los presentes T\u00e9rminos y Condiciones.\n\nConflictos\n\nLos tribunales competentes para resolver cualquier demanda, causa o conflicto que el usuario y/o cliente tenga con EL COLOMBIANO S.A.S surgida de los presentes t\u00e9rminos y condiciones y relacionada con el uso de sus portales, servicios o productos ser\u00e1 resuelta \u00fanicamente en los Tribunales de la Rep\u00fablica de Colombia, por lo que el usuario y/o cliente acepta que sean los competentes a la hora de resolver los litigios de dichos conflictos.\n\nSi alguien interpone una demanda contra EL COLOMBIANO S.A.S relacionada con las acciones, el contenido o la informaci\u00f3n del usuario en los portales, el usuario indemnizar\u00e1 y librar\u00e1 de responsabilidad por todos los posibles da\u00f1os, p\u00e9rdidas y gastos de cualquier tipo (incluidas las costas y tasas procesales razonables) relacionados con dicha demanda a EL COLOMBIANO S.A Y CIA S.C.A.\n\nPOL\u00cdTICAS BLOGS\nEL COLOMBIANO S.A.S\n \nLas siguientes pol\u00edticas son aplicables a todos los blogs, blogueros y usuarios de los portales licenciados o de propiedad de la sociedad EL COLOMBIANO S.A.S, en adelante EC, y se entender\u00e1n integradas a ellas las pol\u00edticas de uso generales de los portales de EC.\n \nEC no se hace responsable por los contenidos que publiquen los blogueros y usuarios de los blogs, ni por el uso que terceros hagan de esta informaci\u00f3n.\nQuien ostente la calidad de bloguero o Usuario debe ser mayor de edad y con capacidad legal para asumir obligaciones.\n\nBLOGUEROS : Usuarios registrados y con el permiso de EC para tener un espacio propio de creaci\u00f3n de contenido que a su juicio considera pertinente difundir, el cual se almacenar\u00e1 cronol\u00f3gicamente por cada bloguero. Dichos blogueros autorizan a EC para publicar, almacenar digitalmente, reproducir, comunicar, traducir, compartir de manera gratuita, sin l\u00edmite de territorio y perpetuamente, los textos, videos y fotograf\u00edas de su autor\u00eda sin que ello d\u00e9 lugar a reclamaci\u00f3n legal alguna y sin que deje de ser el titular de los derechos patrimoniales de autor de reproducci\u00f3n y publicaci\u00f3n de las obras.\n \nSi usted ha decidido y EC le ha permitido pertenecer al grupo de blogueros alojados dentro de las p\u00e1ginas web y/o portales de EC deber\u00e1 tener presente las siguientes pol\u00edticas de uso y participaci\u00f3n establecidas por la compa\u00f1\u00eda. As\u00ed mismo, debe saber que las posibilidades que le da EC son con el fin de generar opini\u00f3n a trav\u00e9s de terceros y crear en torno a ella comunidades virtuales. Es su deber entonces alimentar con contenidos de su propiedad peri\u00f3dicamente su blog de tal manera que no pierda actualidad y/o caiga en el olvido. En caso de que pase m\u00e1s de una semana calendario sin que usted actualice la informaci\u00f3n de su Blog, EC podr\u00e1 cancelar la posibilidad de ocupar el espacio por su parte dentro de los portales de EC.\n\nLas opiniones expresadas en sus textos son libres, son sus opiniones y de ellas es responsable \u00fanicamente usted. No comprometen el pensamiento de EC, de sus publicaciones, p\u00e1ginas web y/o portales ni de las dem\u00e1s personas que con usted interact\u00faan y/o comparten espacio.\n\nPOL\u00cdTICAS DE PRIVACIDAD Y USO DE INFORMACI\u00d3N PERSONAL.\n \n\u00b7 Hacer Link a las pol\u00edticas de PRIVACIDAD Y USO DE INFORMACI\u00d3N PERSONAL DE EL COLOMBIANO S.A.S alojadas en www.elcolombiano.com\n\u00b7 Si el usuario o bloguero env\u00eda informaci\u00f3n desde el exterior y teniendo en cuenta que la informaci\u00f3n ser\u00e1 publicada en la Rep\u00fablica de Colombia, el procesamiento de la misma se sujetar\u00e1 a las pol\u00edticas de uso y privacidad aqu\u00ed detallas y a los t\u00e9rminos y condiciones de uso de los portales de EC .\n\u00b7 Las pol\u00edticas de uso y privacidad aqu\u00ed detalladas pueden ser modificadas y actualizadas en cualquier momento sin previo aviso por parte de EC. La fecha de actualizaci\u00f3n ser\u00e1 se\u00f1alada expresamente en este documento. En consecuencia, el usuario deber\u00e1 consultarlas permanentemente.\n\u00b7 Si usted no est\u00e1 de acuerdo con las pol\u00edticas de uso y privacidad aqu\u00ed se\u00f1aladas por favor no ingrese al(los) portal(es) de la(s) comunidad(es) ni se registre como usuario.\n\nPOL\u00cdTICAS DE USO GENERALES (PARA BLOGUEROS Y USUARIOS)\n\n\u00b7 Con el fin de participar y compartir informaci\u00f3n como bloguero de EC, es necesario que usted se registre como \u201cbloguero\u201d en el formulario de registro dise\u00f1ado para tal fin, y que acepte estas Pol\u00edticas de Uso y Privacidad. Cualquier informaci\u00f3n personal entregada por un bloguero ser\u00e1 recolectada, guardada y tratada de acuerdo con las pol\u00edticas de privacidad establecidas en este portal y de acuerdo con lo establecido por la legislaci\u00f3n Colombiana.\n\u00b7 Si usted es menor de edad de acuerdo con la legislaci\u00f3n colombiana, debe obtener el consentimiento de sus padres o representantes legales para enviarnos contenidos. EC proh\u00edbe que cualquier usuario menor de edad se registre en nuestra web sin el previo consentimiento de sus padres y/o representantes.\n\u00b7 Usted acepta ser bloguero de EC en conformidad con las siguientes reglas, las cuales podr\u00e1n ser modificadas en cualquier momento a discreci\u00f3n de EC, por lo cual le solicitamos que est\u00e9 atento a cualquier modificaci\u00f3n, la cual ser\u00e1 comunicada mediante la actualizaci\u00f3n de la fecha que se encuentra al inicio de este documento.\n\u00b7 En caso que usted no cumpla con estas Pol\u00edticas, o demuestre un comportamiento inapropiado como bloguero, EC se reserva el derecho de impedirle el acceso a nuestras p\u00e1ginas web y/o portales de propiedad de EC.\n\u00b7 Usted no difamar\u00e1, abusar\u00e1, acosar\u00e1, amenazar\u00e1 o violar\u00e1 cualquier libertad p\u00fablica o derecho civil o humano ni cualquier otro derecho de propiedad privada incluyendo cualquier tipo de propiedad intelectual, ni de privacidad y/o publicidad de los dem\u00e1s usuarios o de terceros.\n\u00b7 Tampoco alojar\u00e1 en los portales de EC ning\u00fan material o contenido que sea violatorio de las leyes colombianas o de cualquier legislaci\u00f3n internacional, o que sea considerado como profano, indecente, pornogr\u00e1fico o de naturaleza similar, incluidos textos, gr\u00e1ficos, fotograf\u00edas, video, programas o audio.\n\u00b7 No suplantar\u00e1 la identidad de ning\u00fan tercero, ni utilizar\u00e1 nombres de usuarios vulgares u ofensivos.\n\u00b7 No cargar\u00e1 en el portal, material protegido por las leyes de propiedad intelectual a menos que el propietario de dichos derechos lo haya autorizado.\n\u00b7 No cargar\u00e1 en el portal archivos contentivos de virus, o cualquier otro archivo o programa de computaci\u00f3n que afecte la programaci\u00f3n de otros computadores o de los portales de EC.\n\u00b7 En ning\u00fan caso el blog podr\u00e1 ser utilizado para fines comerciales por lo cual se proh\u00edbe cualquier tipo de publicidad que se pretenda alojar en el portal por parte del Usuario (a trav\u00e9s de comentarios) o Bloguero. Esto incluye las promociones de eventos o el re direccionamiento a otros portales con fines publicitarios.\n\u00b7 El blog tampoco puede ser un espacio para la autopromoci\u00f3n de productos personales.\n\u00b7 No podr\u00e1 llevar a cabo concursos o juegos de pir\u00e1mides a trav\u00e9s de los espacios ofrecidos en los blogs.\n\u00b7 No descargar\u00e1 material alojado por otros usuarios dentro de otros blogs sin la autorizaci\u00f3n respectiva de su autor. Si a pesar de esta advertencia usted lo hace EC no se hace responsable por las consecuencias que ello podr\u00eda acarrear.\n\u00b7 Todas las cuentas deben registrarse con una direcci\u00f3n de e-mail personal v\u00e1lida. Si una cuenta se registra con una direcci\u00f3n e-mail temporal o de un tercero, EC se reserva el derecho de cerrar la cuenta sin notificaci\u00f3n previa.\n\u00b7 No podr\u00e1 publicar material que atente contra derechos de menores de edad regulados en legislaciones especiales.\n\u00b7 Cuando el bloguero y/o usuario aloja informaci\u00f3n en EC, se entiende que otorga a EC una licencia de uso gratuita, no exclusiva e indefinida sobre el material alojado, incluido material fotogr\u00e1fico, videos, audios, art\u00edculos, ensayos, opiniones, o cualquier otro material alojado en las comunidades. En consecuencia, EC podr\u00e1 utilizar el material de cualquier manera, sin l\u00edmite territorial y podr\u00e1 compartirla con terceros.\n\u00b7 El bloguero y/o usuario autoriza a EC para archivar el material alojado y mantenerlo en archivo de manera indefinida.\n\u00b7 Con el fin de que EC pueda usar la informaci\u00f3n y el material enviado por el bloguero y/o usuario, \u00e9ste garantiza que es de su autor\u00eda o que tiene el derecho para autorizar a EC su publicaci\u00f3n, por lo tanto asume toda la responsabilidad por el contenido, informaci\u00f3n y material enviado o subido a las comunidades.\n\u00b7 El usuario registrado como bloguero deber\u00e1 cumplir con la periodicidad de textos que EC determine. En caso de que no se cumplan estos tiempos, EC se reserva el derecho de excluir el blog al usuario registrado en cualquier momento sin que por ello deba asumir alg\u00fan tipo de prestaci\u00f3n y/o indemnizaci\u00f3n. En todo caso EC se reserva el derecho de terminar la secci\u00f3n de blogs de los portales.\n\u00b7 EC podr\u00e1 reclamar al autor (Usuario y/o bloguero) en caso de que deba asumir indemnizaciones, multas, sanciones o cualquier pago como consecuencia de calumnias, injurias o cualquier otro tipo de vulneraci\u00f3n de derechos de terceros.\n\nESPECIFICACIONES GENERALES PARA LA PUBLICACI\u00d3N DE CONTENIDOS POR PARTE DE LOS BLOGUEROS.\n \nPara cualquiera de los blogs alojados en el Portal o portales de EC, usted como blogger se compromete a mantener su blog actualizado y por tanto en mantener su frecuencia y a respetar y ayudar a cumplir las normas de uso de la comunidad. Por favor tenga en cuenta lo siguiente:\n\u00b7 EC se reserva el derecho de revisar el contenido alojado por los blogueros con el fin de determinar su publicaci\u00f3n o no. Igualmente, se reserva el derecho a bloquear el acceso o retirar cualquier material o contenido que considere violatorio de estas pol\u00edticas, o lesivo de derechos de terceros, bien sea por notificaci\u00f3n de un tercero, o por iniciativa propia.\n\u00b7 No escriba textos, ni suba im\u00e1genes o cualquier otro material que atenten contra la integridad humana.\n\u00b7 Ayude a construir la comunidad, filtrando los malos comentarios; visitando el trabajo de los dem\u00e1s para que otros visiten el suyo; respondiendo a los comentarios que otros usuarios hacen dentro de su blog de manera coherente y respetuosa, el objetivo es construir un di\u00e1logo alrededor de los temas propuestos.\n\u00b7 Si ve algo anormal en los comentarios, blogs, reportajes, notas, etc h\u00e1ganoslo saber.\n\u00b7 Escriba en un formato claro y sencillo.\n\u00b7 No escriba en may\u00fasculas, en la comunidad online es considerado como gritar.\n\u00b7 No enga\u00f1e al lector con t\u00edtulos que no corresponden al contenido.\n\u00b7 No deje sus post a medias para redireccionar a otros portales. Debe desarrollar todo el tema en el post.\n\u00b7 Cuando utilice alguna parte de un art\u00edculo o blog es muy importante que le d\u00e9 los cr\u00e9ditos necesarios a su autor. Tambi\u00e9n es buena pr\u00e1ctica mencionar la fuente y compartir su enlace con el lector.\n\u00b7 No publique textos escritos por otras personas en su blog sin cita bibliogr\u00e1fica.\n\u00b7 Sea prudente con la informaci\u00f3n, recomendaciones o prescripciones relacionadas con la salud o tratamientos m\u00e9dicos.\n\u00b7 No utilice fotos, videos o materiales que no sean suyos sin conseguir el permiso del autor.\n\u00b7 Verifique sus fuentes. Si no est\u00e1 seguro de la validez de la informaci\u00f3n pero igual la quiere publicar, comparta su duda en vez de publicarlo como un hecho.\nVerifique si para hacer enlaces de im\u00e1genes y sitios web requiere permiso previo de su autor. Si no est\u00e1 seguro, recuerde que la mayor\u00eda de sitios o blogs no dejan hacer esto sin previo aviso.\n\u00b7 Corrija sus errores, publicar las actualizaciones y aclaraciones cuando sea necesario. Cuando ocurren estos errores, ac\u00e9ptelos y publique los cambios y/o actualizaciones.\n\u00b7 Si tiene alg\u00fan conflicto de inter\u00e9s o est\u00e1 apoyando un proyecto personal, es mejor decirlo de frente. Sus lectores merecen saber la verdad.\n\u00b7 Velar para que en este espacio de participaci\u00f3n est\u00e9n asuntos afines a las tem\u00e1ticas de esta casa editorial\n\u00b7 No puede lucrarse o sacar alg\u00fan beneficio comercial con sus publicaciones.\n\u00b7 Es importante que les brinde a sus lectores un email o dato de contacto para que puedan contactarlo.\n\u00b7 Abst\u00e9ngase de sugerir tratamientos, prescripciones m\u00e9dicas o sugerencia sobre medicamentos as\u00ed sean caseros.\n\u00b7 Es necesario verificar la veracidad de la informaci\u00f3n que da y la que encuentra. No publique chismes o rumores.\n\u00b7 Por ninguna raz\u00f3n deje comentarios de spam.\n\u00b7 Corrija sus errores y haga aclaraciones cuando sea necesario.\n \nPOLITICAS PARA USUARIOS DE LOS BLOGS ALOJADOS EN LOS PORTALES DE EC\n \n\u00b7 La participaci\u00f3n en los Blogs implican la aceptaci\u00f3n y conocimiento por parte del Usuario de los T\u00e9rminos y Condiciones del Portal (Link t\u00e9rminos y condiciones www.elcolombiano.com) , as\u00ed como el compromiso irrevocable de cada Usuario de respetar dichos T\u00e9rminos y Condiciones del Portal, siendo entendido y aceptado que el usuario es el responsable por cualquier actividad que se lleve a cabo bajo su registro y que exime y mantendr\u00e1 indemne a \u201cEC\u201d de cualquier responsabilidad que se derive del incumplimiento a tal compromiso, lo cual incluye da\u00f1os y perjuicios causados a otros Usuarios y/o cualquier tercero afectado (Aplica adicionalmente para el Bloguero).\n\u00b7 Por el uso de los espacios de interacci\u00f3n en los portales, el usuario puede estar expuesto a contenidos que pueda encontrar ofensivo, da\u00f1ino, inexacto o enga\u00f1oso; tambi\u00e9n puede existir el riesgo de tratar con personas menores de edad, personas que act\u00faan bajo una identidad falsa o personas malintencionadas entre otros; por tanto por el uso de los blogs el usuario asume estos riesgos y los dem\u00e1s asociados a ellos.\n\u00b7 El usuario acepta compartir en los blogs de EC exclusivamente material de su propia autor\u00eda o titularidad. Por lo tanto, est\u00e1 prohibida cualquier transmisi\u00f3n de material que atente contra los derechos de propiedad industrial, intelectual, del consumidor, de libre competencia, o de privacidad de datos personales, de EC o de cualquier tercero, incluidos derechos de autor, marcas, secretos profesionales.\n\u00b7 Por el hecho de ingresar al Portal y participar en los blogs, para garantizar el buen y adecuado uso, el Usuario y el Bloguero deber\u00e1 cumplir estrictamente con lo siguiente:\n\u00b7 No abusar, acosar, amenazar o intimidar a otros usuarios.\n\u00b7 No usar el \u201cPortal\u201d como un medio para desarrollar actividades ilegales o no autorizadas tanto en Colombia, como en cualquier otro pa\u00eds.\n\u00b7 Abstenerse de enviar correo electr\u00f3nico no deseado (SPAM), as\u00ed como tambi\u00e9n le est\u00e1 prohibido transmitir virus o cualquier c\u00f3digo de naturaleza destructiva.\n\u00b7 Abstenerse de compartir y/o ofrecer productos o servicios no autorizados por \u201cEC\u201d.\n\u00b7 No publicar contenidos que inciten, promuevan, apoyen, defiendan o tengan el car\u00e1cter de racistas, xenof\u00f3bicos, discriminatorios, terroristas, pornogr\u00e1ficos o atentatorios del buen nombre, la honra y el honor de las personas y, en general, que atenten contra los derechos fundamentales de terceras personas.\n\u00b7 No utilizar materiales protegidos por derechos de autor u otro material de cualquier clase sin el permiso expreso del propietario del material.\n\u00b7 No utilizar un lenguaje vulgar, difamatorio, amenazante, denigrante, burdo, falso, enga\u00f1oso, fraudulento, inexacto, injusto, contenga exageraciones o aseveraciones no confirmadas, sea irrazonablemente da\u00f1ino u ofensivo contra cualquier persona, individuo o comunidad, as\u00ed sea solo identificable\n\u00b7 No utilizar textos, fotograf\u00edas o ilustraciones de mal gusto, violatorios del derecho a la vida privada y/o intimidad.\n\u00b7 No violar o promover la violaci\u00f3n de cualquier ley, norma, regulaci\u00f3n internacional, nacional, departamental o municipal.\n\u00b7 Abstenerse de usar cualquier tecnolog\u00eda que supere los controles o l\u00edmites que establezca \u201cEC\u201d para compartir contenidos dentro de sus espacios de interacci\u00f3n.\n\nMISCEL\u00c1NEOS\n \n\u00b7 Mientras en el Portal est\u00e9n prohibidas conductas por parte de usuarios y blogueros, EC no tendr\u00e1 la obligaci\u00f3n del seguimiento para verificar su cumplimiento, por cuanto al acceder y participar en los diferentes blogs habilitados, tiene la obligaci\u00f3n de cumplirlas y asume la responsabilidad legal de lo que escribe y/o exprese.\n\u00b7 \u201cEC\u201d tendr\u00e1 el derecho pero no la obligaci\u00f3n de monitorear, moderar y/o validar los contenidos compartidos por los usuarios y/o Blogueros dentro del portal para la verificaci\u00f3n del cumplimiento con estos t\u00e9rminos y condiciones y para adaptarse a la legislaci\u00f3n aplicable o por solicitud de quien se sienta afectado con dicha informaci\u00f3n.\n\u00b7 EC no tiene la obligaci\u00f3n de monitorear o moderar los contenidos cargados por los blogueros y/o usuarios, se reserva el derecho en cualquier momento y por cualquier motivo de examinar, editar, negarse a publicar o eliminar sin previo aviso cualquier contenido. El usuario es el \u00fanico responsable de crear copias de seguridad de sus contenidos bajo su propio costo y gasto. La decisi\u00f3n de \u201cEC\u201d para monitorear, modificar, eliminar, moderar y/o validar el contenido, no constituye ni se considerara que constituye responsabilidad alguna por parte de EC. EC no se hace responsable por lo que no reemplaz\u00f3 y se public\u00f3, aun siendo contrario a los presentes t\u00e9rminos y condiciones.\n\u00b7 Es derecho de EC, incluir o no en el Portal el material recibido de los blogs y/o usuarios a su criterio. EC se reserva el derecho de mantener o no en el Portal dicho material por el lapso que considere pertinente.\n\u00b7 Los espacios para los Blogs, el dise\u00f1o, manejo, finalidad y caracter\u00edsticas de los portales en donde est\u00e1n los Blogs son elementos discrecionales de \u201cEC\u201d, quien podr\u00e1 en cualquier momento cambiarlos y/o eliminarlos, y/o determinar la cantidad de participantes admitidos en cada uno de ellos.\n\u00b7 Si alg\u00fan Usuario o bloguero incumple estas pr\u00e1cticas de uso, EC se encuentra facultado y se reserva el derecho, de retirar y/o eliminar el registro del Usuario.\n\n\n### Speaker Locations\n\n- Americas\n- Colombia\n\n\n### Sizes\n\n- 0.0116 % of total\n- 0.2756 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9605,7 +9589,7 @@ "subject": "general news", "owner": "efeverde" }, - "data_card": "# efeverde\n\n- Dataset uid: `pseudocrawl-filtered_359_www_efeverde_com`\n\n## Sizes\n\n- 0.0115 % of total\n- 0.2729 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.efeverde.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# efeverde\n\n- Dataset uid: `pseudocrawl-filtered_359_www_efeverde_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.efeverde.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0115 % of total\n- 0.2729 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9631,7 +9615,7 @@ "subject": "general news", "owner": "las noticias de tu localidad, comarca, barrio" }, - "data_card": "# las noticias de tu localidad, comarca, barrio\n\n- Dataset uid: `pseudocrawl-filtered_125_www_noticiasde_es`\n\n## Sizes\n\n- 0.0113 % of total\n- 0.2678 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.noticiasde.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# las noticias de tu localidad, comarca, barrio\n\n- Dataset uid: `pseudocrawl-filtered_125_www_noticiasde_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.noticiasde.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0113 % of total\n- 0.2678 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9657,7 +9641,7 @@ "subject": "General News", "owner": "elc onfidencial digital" }, - "data_card": "# elc onfidencial digital\n\n- Dataset uid: `pseudocrawl-filtered_23_www_elconfidencialdigital_com`\n\n## Sizes\n\n- 0.0106 % of total\n- 0.2526 % of es\n\n## Description\n\nwebsite: Spain -General News\n\n## Homepage\n\nhttps://www.elconfidencialdigital.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nSpain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# elc onfidencial digital\n\n- Dataset uid: `pseudocrawl-filtered_23_www_elconfidencialdigital_com`\n\n### Description\n\nwebsite: Spain -General News\n\n### Homepage\n\nhttps://www.elconfidencialdigital.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nSpain\n\n### Sizes\n\n- 0.0106 % of total\n- 0.2526 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9683,7 +9667,7 @@ "subject": "general news", "owner": "peru'" }, - "data_card": "# peru'\n\n- Dataset uid: `pseudocrawl-filtered_90_peru_com`\n\n## Sizes\n\n- 0.0105 % of total\n- 0.2501 % of es\n\n## Description\n\nwebsite: peru -general news\n\n## Homepage\n\nhttp://peru.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nperu\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# peru'\n\n- Dataset uid: `pseudocrawl-filtered_90_peru_com`\n\n### Description\n\nwebsite: peru -general news\n\n### Homepage\n\nhttp://peru.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nperu\n\n### Sizes\n\n- 0.0105 % of total\n- 0.2501 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9709,7 +9693,7 @@ "subject": "general news", "owner": "los andes" }, - "data_card": "# los andes\n\n- Dataset uid: `pseudocrawl-filtered_34_www_losandes_com_ar`\n\n## Sizes\n\n- 0.0103 % of total\n- 0.2441 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttps://www.losandes.com.ar/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# los andes\n\n- Dataset uid: `pseudocrawl-filtered_34_www_losandes_com_ar`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttps://www.losandes.com.ar/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.0103 % of total\n- 0.2441 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9735,7 +9719,7 @@ "subject": "general news", "owner": "la opini\u00f3n" }, - "data_card": "# la opini\u00f3n\n\n- Dataset uid: `pseudocrawl-filtered_294_www_laopinion_com_co`\n\n## Sizes\n\n- 0.0101 % of total\n- 0.2403 % of es\n\n## Description\n\nwebsite: colombia -general news\n\n## Homepage\n\nhttp://www.laopinion.com.co/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ncolombia\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la opini\u00f3n\n\n- Dataset uid: `pseudocrawl-filtered_294_www_laopinion_com_co`\n\n### Description\n\nwebsite: colombia -general news\n\n### Homepage\n\nhttp://www.laopinion.com.co/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ncolombia\n\n### Sizes\n\n- 0.0101 % of total\n- 0.2403 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9870,7 +9854,7 @@ }, "fname": "la_silla_vac\u00eda.json" }, - "data_card": "# La Silla Vac\u00eda\n\n- Dataset uid: `pseudocrawl-filtered_315_lasillavacia_com`\n\n## Sizes\n\n- 0.0099 % of total\n- 0.2359 % of es\n\n## Description\n\nLa Silla Vac\u00eda (Spanish: \"The Empty Chair\") is a Colombian news website founded by journalist and writer Juanita Le\u00f3n in 2009.[2] The site focuses primarily on Colombian politics.\n\nLa Silla Vac\u00eda describes itself as an \"informative and interactive medium for people interested in Colombian political current issues,\" by focusing on \"stories which actually describe the way power is exercised in Colombia: on political figures who pull the strings of power, strategies in order to reach and keep it, on ideas and interests which underlie the big decisions taken in the country,\" aiming to do \"good journalism.\"[3]\n\n## Homepage\n\nhttps://www.lasillavacia.com/\n\n## Licensing\n\n- copyright - all rights reserved\n- unknown: License information unavailable\n\n\n## Speaker Locations\n\n- Americas\n- Latin America and the Caribbean\n- South America\n- Colombia\n\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# La Silla Vac\u00eda\n\n- Dataset uid: `pseudocrawl-filtered_315_lasillavacia_com`\n\n### Description\n\nLa Silla Vac\u00eda (Spanish: \"The Empty Chair\") is a Colombian news website founded by journalist and writer Juanita Le\u00f3n in 2009.[2] The site focuses primarily on Colombian politics.\n\nLa Silla Vac\u00eda describes itself as an \"informative and interactive medium for people interested in Colombian political current issues,\" by focusing on \"stories which actually describe the way power is exercised in Colombia: on political figures who pull the strings of power, strategies in order to reach and keep it, on ideas and interests which underlie the big decisions taken in the country,\" aiming to do \"good journalism.\"[3]\n\n### Homepage\n\nhttps://www.lasillavacia.com/\n\n### Licensing\n\n- copyright - all rights reserved\n- unknown: License information unavailable\n\nCopyright 2021 \u00a9 BLOGOSFERA PRODUCCIONES SAS - La Silla Vac\u00eda. Todos los derechos reservados.\n\n\n### Speaker Locations\n\n- Americas\n- Latin America and the Caribbean\n- South America\n- Colombia\n\n\n### Sizes\n\n- 0.0099 % of total\n- 0.2359 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9896,7 +9880,7 @@ "subject": "general news", "owner": "tal cual digital" }, - "data_card": "# tal cual digital\n\n- Dataset uid: `pseudocrawl-filtered_374_www_talcualdigital_com`\n\n## Sizes\n\n- 0.0099 % of total\n- 0.2357 % of es\n\n## Description\n\nwebsite: nicaragua -general news\n\n## Homepage\n\nhttps://www.talcualdigital.com\n\n## Licensing\n\n\n\n## Speaker Locations\n\nnicaragua\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# tal cual digital\n\n- Dataset uid: `pseudocrawl-filtered_374_www_talcualdigital_com`\n\n### Description\n\nwebsite: nicaragua -general news\n\n### Homepage\n\nhttps://www.talcualdigital.com\n\n### Licensing\n\n\n\n### Speaker Locations\n\nnicaragua\n\n### Sizes\n\n- 0.0099 % of total\n- 0.2357 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9922,7 +9906,7 @@ "subject": "general news", "owner": "diario y radio uchile" }, - "data_card": "# diario y radio uchile\n\n- Dataset uid: `pseudocrawl-filtered_276_radio_uchile_cl`\n\n## Sizes\n\n- 0.0098 % of total\n- 0.2344 % of es\n\n## Description\n\nwebsite: cl -general news\n\n## Homepage\n\nhttp://radio.uchile.cl/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ncl\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# diario y radio uchile\n\n- Dataset uid: `pseudocrawl-filtered_276_radio_uchile_cl`\n\n### Description\n\nwebsite: cl -general news\n\n### Homepage\n\nhttp://radio.uchile.cl/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ncl\n\n### Sizes\n\n- 0.0098 % of total\n- 0.2344 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9948,7 +9932,7 @@ "subject": "general news", "owner": "la prensa - honduras" }, - "data_card": "# la prensa - honduras\n\n- Dataset uid: `pseudocrawl-filtered_325_www_laprensa_hn`\n\n## Sizes\n\n- 0.0098 % of total\n- 0.2341 % of es\n\n## Description\n\nwebsite: honduras -general news\n\n## Homepage\n\nhttp://www.laprensa.hn/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nhonduras\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la prensa - honduras\n\n- Dataset uid: `pseudocrawl-filtered_325_www_laprensa_hn`\n\n### Description\n\nwebsite: honduras -general news\n\n### Homepage\n\nhttp://www.laprensa.hn/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nhonduras\n\n### Sizes\n\n- 0.0098 % of total\n- 0.2341 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -9974,7 +9958,7 @@ "subject": "general news", "owner": "el impulso" }, - "data_card": "# el impulso\n\n- Dataset uid: `pseudocrawl-filtered_207_elimpulso_com`\n\n## Sizes\n\n- 0.0097 % of total\n- 0.2307 % of es\n\n## Description\n\nwebsite: venezuela -general news\n\n## Homepage\n\nhttp://elimpulso.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nvenezuela\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el impulso\n\n- Dataset uid: `pseudocrawl-filtered_207_elimpulso_com`\n\n### Description\n\nwebsite: venezuela -general news\n\n### Homepage\n\nhttp://elimpulso.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nvenezuela\n\n### Sizes\n\n- 0.0097 % of total\n- 0.2307 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10000,7 +9984,7 @@ "subject": "general news", "owner": "el universo" }, - "data_card": "# el universo\n\n- Dataset uid: `pseudocrawl-filtered_56_www_eluniverso_com`\n\n## Sizes\n\n- 0.0094 % of total\n- 0.2227 % of es\n\n## Description\n\nwebsite: ecuador -general news\n\n## Homepage\n\nhttps://www.eluniverso.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\necuador\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el universo\n\n- Dataset uid: `pseudocrawl-filtered_56_www_eluniverso_com`\n\n### Description\n\nwebsite: ecuador -general news\n\n### Homepage\n\nhttps://www.eluniverso.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\necuador\n\n### Sizes\n\n- 0.0094 % of total\n- 0.2227 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10026,7 +10010,7 @@ "subject": "general news", "owner": "radio cooperativa" }, - "data_card": "# radio cooperativa\n\n- Dataset uid: `pseudocrawl-filtered_250_www_cooperativa_cl`\n\n## Sizes\n\n- 0.0092 % of total\n- 0.2198 % of es\n\n## Description\n\nwebsite: cl -general news\n\n## Homepage\n\nhttp://www.cooperativa.cl/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ncl\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# radio cooperativa\n\n- Dataset uid: `pseudocrawl-filtered_250_www_cooperativa_cl`\n\n### Description\n\nwebsite: cl -general news\n\n### Homepage\n\nhttp://www.cooperativa.cl/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ncl\n\n### Sizes\n\n- 0.0092 % of total\n- 0.2198 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10052,7 +10036,7 @@ "subject": "general news", "owner": "correo del sur" }, - "data_card": "# correo del sur\n\n- Dataset uid: `pseudocrawl-filtered_182_correodelsur_com`\n\n## Sizes\n\n- 0.0090 % of total\n- 0.2144 % of es\n\n## Description\n\nwebsite: bolivia -general news\n\n## Homepage\n\nhttp://correodelsur.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nbolivia\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# correo del sur\n\n- Dataset uid: `pseudocrawl-filtered_182_correodelsur_com`\n\n### Description\n\nwebsite: bolivia -general news\n\n### Homepage\n\nhttp://correodelsur.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nbolivia\n\n### Sizes\n\n- 0.0090 % of total\n- 0.2144 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10078,7 +10062,7 @@ "subject": "general news", "owner": "dinero" }, - "data_card": "# dinero\n\n- Dataset uid: `pseudocrawl-filtered_233_www_dinero_com`\n\n## Sizes\n\n- 0.0087 % of total\n- 0.2061 % of es\n\n## Description\n\nwebsite: colombia -general news\n\n## Homepage\n\nhttp://www.dinero.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\ncolombia\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# dinero\n\n- Dataset uid: `pseudocrawl-filtered_233_www_dinero_com`\n\n### Description\n\nwebsite: colombia -general news\n\n### Homepage\n\nhttp://www.dinero.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\ncolombia\n\n### Sizes\n\n- 0.0087 % of total\n- 0.2061 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10104,7 +10088,7 @@ "subject": "general news", "owner": "el heraldo" }, - "data_card": "# el heraldo\n\n- Dataset uid: `pseudocrawl-filtered_118_www_elheraldo_hn`\n\n## Sizes\n\n- 0.0085 % of total\n- 0.2029 % of es\n\n## Description\n\nwebsite: honduras -general news\n\n## Homepage\n\nhttp://www.elheraldo.hn/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nhonduras\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el heraldo\n\n- Dataset uid: `pseudocrawl-filtered_118_www_elheraldo_hn`\n\n### Description\n\nwebsite: honduras -general news\n\n### Homepage\n\nhttp://www.elheraldo.hn/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nhonduras\n\n### Sizes\n\n- 0.0085 % of total\n- 0.2029 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10130,7 +10114,7 @@ "subject": "science", "owner": "wind energy and the electric vehicle" }, - "data_card": "# wind energy and the electric vehicle\n\n- Dataset uid: `pseudocrawl-filtered_395_www_evwind_es`\n\n## Sizes\n\n- 0.0085 % of total\n- 0.0458 % of en\n\n## Description\n\nwebsite: spain -science\n\n## Homepage\n\nhttp://www.evwind.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# wind energy and the electric vehicle\n\n- Dataset uid: `pseudocrawl-filtered_395_www_evwind_es`\n\n### Description\n\nwebsite: spain -science\n\n### Homepage\n\nhttp://www.evwind.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0085 % of total\n- 0.0458 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10241,7 +10225,7 @@ }, "fname": "global_voices_french.json" }, - "data_card": "# Global Voices French\n\n- Dataset uid: `pseudocrawl-filtered_599_fr_globalvoices_org`\n\n## Sizes\n\n- 0.0083 % of total\n- 0.0981 % of fr\n\n## Description\n\nGlobal Voices pages in French\n\n## Homepage\n\nhttps://fr.globalvoices.org/\n\n## Licensing\n\n- open license\n- cc-by-3.0: Creative Commons Attribution 3.0 Unported\n\n\n## Speaker Locations\n\n- Americas\n- Europe\n\n\n## BigScience processing steps\n\n#### Filters applied to: fr\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Global Voices French\n\n- Dataset uid: `pseudocrawl-filtered_599_fr_globalvoices_org`\n\n### Description\n\nGlobal Voices pages in French\n\n### Homepage\n\nhttps://fr.globalvoices.org/\n\n### Licensing\n\n- open license\n- cc-by-3.0: Creative Commons Attribution 3.0 Unported\n\nhttps://globalvoices.org/about/global-voices-attribution-policy/\n\n\n### Speaker Locations\n\n- Americas\n- Europe\n\n\n### Sizes\n\n- 0.0083 % of total\n- 0.0981 % of fr\n\n### BigScience processing steps\n\n#### Filters applied to: fr\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10346,7 +10330,7 @@ }, "fname": "berria.json" }, - "data_card": "# berria\n\n- Dataset uid: `pseudocrawl-filtered_635_www_berria_eus`\n\n## Sizes\n\n- 0.0082 % of total\n- 5.0380 % of eu\n\n## Description\n\nBasque newspaper\n\n## Homepage\n\nhttps://www.berria.eus/\n\n## Licensing\n\n- open license\n- cc-by-sa-2.0: Creative Commons Attribution Share Alike 2.0 Generic\n\n\n## Speaker Locations\n\n- Western Europe\n- Spain\n\n\n## BigScience processing steps\n\n#### Filters applied to: eu\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n\n" + "data_card": "# berria\n\n- Dataset uid: `pseudocrawl-filtered_635_www_berria_eus`\n\n### Description\n\nBasque newspaper\n\n### Homepage\n\nhttps://www.berria.eus/\n\n### Licensing\n\n- open license\n- cc-by-sa-2.0: Creative Commons Attribution Share Alike 2.0 Generic\n\n\n### Speaker Locations\n\n- Western Europe\n- Spain\n\n\n### Sizes\n\n- 0.0082 % of total\n- 5.0380 % of eu\n\n### BigScience processing steps\n\n#### Filters applied to: eu\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n\n" } ], [ @@ -10444,7 +10428,7 @@ }, "fname": "VNTQcorpus_big.json" }, - "data_card": "# Vietnam Thu Quan Corpus (Big)\n\n- Dataset uid: `vntq_corpus_big`\n\n## Sizes\n\n- 0.0081 % of total\n- 0.5919 % of vi\n\n## Description\n\n\n\n## Homepage\n\nhttp://viet.jnlp.org/download-du-lieu-tu-vung-corpus\n\n## Licensing\n\n\n\n## Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n## BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Vietnam Thu Quan Corpus (Big)\n\n- Dataset uid: `vntq_corpus_big`\n\n### Description\n\n\n\n### Homepage\n\nhttp://viet.jnlp.org/download-du-lieu-tu-vung-corpus\n\n### Licensing\n\n\n\n### Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n### Sizes\n\n- 0.0081 % of total\n- 0.5919 % of vi\n\n### BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -10470,7 +10454,7 @@ "subject": "general news", "owner": "ambientum" }, - "data_card": "# ambientum\n\n- Dataset uid: `pseudocrawl-filtered_167_www_ambientum_com`\n\n## Sizes\n\n- 0.0081 % of total\n- 0.1917 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.ambientum.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# ambientum\n\n- Dataset uid: `pseudocrawl-filtered_167_www_ambientum_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.ambientum.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0081 % of total\n- 0.1917 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10496,7 +10480,7 @@ "subject": "general news", "owner": "nuevo ojo" }, - "data_card": "# nuevo ojo\n\n- Dataset uid: `pseudocrawl-filtered_231_ojo_pe`\n\n## Sizes\n\n- 0.0077 % of total\n- 0.1837 % of es\n\n## Description\n\nwebsite: peru -general news\n\n## Homepage\n\nhttp://ojo.pe/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nperu\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# nuevo ojo\n\n- Dataset uid: `pseudocrawl-filtered_231_ojo_pe`\n\n### Description\n\nwebsite: peru -general news\n\n### Homepage\n\nhttp://ojo.pe/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nperu\n\n### Sizes\n\n- 0.0077 % of total\n- 0.1837 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10522,7 +10506,7 @@ "subject": "general news", "owner": "muypymes" }, - "data_card": "# muypymes\n\n- Dataset uid: `pseudocrawl-filtered_392_www_muypymes_com`\n\n## Sizes\n\n- 0.0077 % of total\n- 0.1835 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttp://www.muypymes.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# muypymes\n\n- Dataset uid: `pseudocrawl-filtered_392_www_muypymes_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttp://www.muypymes.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0077 % of total\n- 0.1835 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10548,7 +10532,7 @@ "subject": "general news", "owner": "diario de le\u00f3n" }, - "data_card": "# diario de le\u00f3n\n\n- Dataset uid: `pseudocrawl-filtered_158_www_diariodeleon_es`\n\n## Sizes\n\n- 0.0076 % of total\n- 0.1817 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttps://www.diariodeleon.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# diario de le\u00f3n\n\n- Dataset uid: `pseudocrawl-filtered_158_www_diariodeleon_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttps://www.diariodeleon.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0076 % of total\n- 0.1817 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10566,7 +10550,7 @@ } ], "total": 0.092217936, - "data_card": "# labr\n\n- Dataset uid: `labr`\n\n## Sizes\n\n- 0.0076 % of total\n- 0.0701 % of ar\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# labr\n\n- Dataset uid: `labr`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0076 % of total\n- 0.0701 % of ar\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -10670,7 +10654,7 @@ }, "fname": "data_on_covid_19_news_coverage_in_vietnam.json" }, - "data_card": "# Data on COVID-19 News Coverage in Vietnam\n\n- Dataset uid: `data_on_covid_19_news_coverage_in_vietnam`\n\n## Sizes\n\n- 0.0074 % of total\n- 0.5425 % of vi\n\n## Description\n\nThe dataset extracted from the AI-enabled news crawler contains the following information:\n\n Date: The date of publication of the crawled news articles.\n Title: The title of the crawled news articles.\n Url: The Uniform Resource Locators (URLs), or the web addresses, of the crawled news articles.\n Detail: The content of the crawled news articles\n\n## Homepage\n\nhttps://www.mdpi.com/2306-5729/6/7/70/htm\n\n## Licensing\n\nUnclear\n\n## Speaker Locations\n\n- South-eastern Asia\n\n\n## BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Data on COVID-19 News Coverage in Vietnam\n\n- Dataset uid: `data_on_covid_19_news_coverage_in_vietnam`\n\n### Description\n\nThe dataset extracted from the AI-enabled news crawler contains the following information:\n\n Date: The date of publication of the crawled news articles.\n Title: The title of the crawled news articles.\n Url: The Uniform Resource Locators (URLs), or the web addresses, of the crawled news articles.\n Detail: The content of the crawled news articles\n\n### Homepage\n\nhttps://www.mdpi.com/2306-5729/6/7/70/htm\n\n### Licensing\n\nUnclear\n\n### Speaker Locations\n\n- South-eastern Asia\n\n\n### Sizes\n\n- 0.0074 % of total\n- 0.5425 % of vi\n\n### BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -10772,7 +10756,7 @@ }, "fname": "goiena_magazine.json" }, - "data_card": "# newspaper in Basque of a region\n\n- Dataset uid: `pseudocrawl-filtered_506_goiena_eus`\n\n## Sizes\n\n- 0.0069 % of total\n- 4.2227 % of eu\n\n## Description\n\nIt is a Basque language magazine published by the Goiena Communication Group in the Debagoiena region of Gipuzkoa.\n\n\n\n## Homepage\n\nhttps://goiena.eus/\n\n## Licensing\n\n- open license\n- cc-by-3.0: Creative Commons Attribution 3.0 Unported\n\n\n## Speaker Locations\n\n- Europe\n- Spain\n\n\n## BigScience processing steps\n\n#### Filters applied to: eu\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n\n" + "data_card": "# newspaper in Basque of a region\n\n- Dataset uid: `pseudocrawl-filtered_506_goiena_eus`\n\n### Description\n\nIt is a Basque language magazine published by the Goiena Communication Group in the Debagoiena region of Gipuzkoa.\n\n\n\n### Homepage\n\nhttps://goiena.eus/\n\n### Licensing\n\n- open license\n- cc-by-3.0: Creative Commons Attribution 3.0 Unported\n\nCreative Commons Aitortu-Partekatu\n\n2011ko ekainaren 27tik aurrerako goiena.eus-eko testuak lizentzia honekin daude babestuak: Creative Commons Aitortu-Partekatu, cc-by-sa. Iritzigileek, erantzunetan mezua lagatzen dutenek, argazkiak igotzen dituztenek... edozer bidaltzen dutela ere, lizentzia hau esleitzen diotela onartu behar dute. Hala ere, goiena.eus-ek ez ditu salbuespenak baztertzen eta, gertatzen badira, testu horiek argitaratzen direnean argi zehaztuko da hori. Jarri gurekin harremanetan kontaktu orriaren bidez hemen argitaratu nahi dituzun testuak salbuespen horien artean sartu behar direla uste baduzu. Blog komunitateko blog bakoitzak du jabe bat eta salbuetsita daude goiena.eus-eko lizentziapetik.\n\nCC-by-sa laburdurak Creative Commons Aitortu-Partekatu lizentzia adierazten du. Definizio gehientsuenen arabera, eduki librea edo/eta copyleft terminoak aplika dakizkieke hemengo CC-by-sa testuei. Era berean, lizentzia honek Approved for Free Cultural Use etiketa darama, Erabilpen Kultural Librerako Baimendua. Etiketa hori Creative Commons erakundeak aukeratutako termino bat da, Wikipediarekin eta eduki libreen munduarekin bateragarria den edukia zehatz definitzeko sortua. The Open Knowledge Foundation delakoak argitaratutako Jakintza askearen definizioan ere (testua euskaraz) sartzen da gure lizentzia.\n\nFuntsean honek zera esan nahi du: edonork erabil ditzake hemen agertzen diren testuak. Eskubidea duzu:\n\u2022 Hemengo testuak norberak nahi duen tokian berrargitaratzeko.\n\u2022 Testuen kopiak egiteko.\n\u2022 Testuotan oinarritutako lan eratorriak egiteko, erabilpen komertzialak barne (liburu batean bildumaren bat egiteko, adibidez).\n\u2022 Testuak, argazkiak, bideoak... erabiltzeko euskarazko Wikipedian artikuluak dokumentatzeko, hemen deskribatutako prozesua bururaino iristen denean.\n\nBaina eskubide horiekin batera, betebeharrak daude:\n\u2022 Egiletza aitortu behar duzu. Artikuluaren sinatzaileari zor zaio egiletza hori eta baita Goienari ere.\n\u2022 Baldintza berean banatu behar duzu lan eratorria edo egiten duzun kopia edo dena delakoa.\n\nEgiletza aitortu eta lizentziaren baldintzekin zuzen jokatzeko modu zuzen bat izan daiteke erabiltzaile izena aipatzea, lizentziaren aipu eta lotura eskaintzea. Adibidez, paperean inprimatuko bazenu, honela:\n\u00a9 Jose Maria Arizmendiarrieta\ncc-by-sa Creative Commons Aitortu Partekatu\nhttp://creativecommons.org/licenses/by-sa/3.0/deed.eu\ngoiena.eus-etik hartua: http://goiena.eus/xxxx-xxxx-xxxx\n\nInterneten bada, estekak eginda URL horiekin:\n\u00a9 cc-by-sa Jose Maria Arizmendiarrieta: Creative Commons Aitortu-Partekatu. Hemendik hartua: goiena.eus\n\nAitortza eta eskubideak artikulugileei zor zaizkiela uste dugu, baina goiena.eus-eko jatorria aipatzea zuzena eta jatorra izango litzateke, eta eskertuko dizugu.\n\n\n### Speaker Locations\n\n- Europe\n- Spain\n\n\n### Sizes\n\n- 0.0069 % of total\n- 4.2227 % of eu\n\n### BigScience processing steps\n\n#### Filters applied to: eu\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n\n" } ], [ @@ -10790,7 +10774,7 @@ } ], "total": 0.079677752, - "data_card": "# habibi\n\n- Dataset uid: `habibi`\n\n## Sizes\n\n- 0.0066 % of total\n- 0.0606 % of ar\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# habibi\n\n- Dataset uid: `habibi`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0066 % of total\n- 0.0606 % of ar\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -10816,7 +10800,7 @@ "subject": "medical", "owner": "financial food" }, - "data_card": "# financial food\n\n- Dataset uid: `pseudocrawl-filtered_153_financialfood_es`\n\n## Sizes\n\n- 0.0064 % of total\n- 0.1519 % of es\n\n## Description\n\nwebsite: spain -medical\n\n## Homepage\n\nhttps://financialfood.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# financial food\n\n- Dataset uid: `pseudocrawl-filtered_153_financialfood_es`\n\n### Description\n\nwebsite: spain -medical\n\n### Homepage\n\nhttps://financialfood.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0064 % of total\n- 0.1519 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10842,7 +10826,7 @@ "subject": "general news", "owner": "retema" }, - "data_card": "# retema\n\n- Dataset uid: `pseudocrawl-filtered_420_www_retema_es`\n\n## Sizes\n\n- 0.0059 % of total\n- 0.1416 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttp://www.retema.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# retema\n\n- Dataset uid: `pseudocrawl-filtered_420_www_retema_es`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttp://www.retema.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0059 % of total\n- 0.1416 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10868,7 +10852,7 @@ "subject": "blog, multi", "owner": "" }, - "data_card": "# Curated blog\n\n- Dataset uid: `pseudocrawl-filtered_487_thesmartlocal_com`\n\n## Sizes\n\n- 0.0059 % of total\n- 0.0320 % of en\n\n## Description\n\nwebsite: singapore -blog, multi\n\n## Homepage\n\nhttps://thesmartlocal.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Curated blog\n\n- Dataset uid: `pseudocrawl-filtered_487_thesmartlocal_com`\n\n### Description\n\nwebsite: singapore -blog, multi\n\n### Homepage\n\nhttps://thesmartlocal.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0059 % of total\n- 0.0320 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10894,7 +10878,7 @@ "subject": "general news", "owner": "el diario de ecuador" }, - "data_card": "# el diario de ecuador\n\n- Dataset uid: `pseudocrawl-filtered_430_www_eldiario_ec`\n\n## Sizes\n\n- 0.0058 % of total\n- 0.1389 % of es\n\n## Description\n\nwebsite: ecuador -general news\n\n## Homepage\n\nhttps://www.eldiario.ec/\n\n## Licensing\n\n\n\n## Speaker Locations\n\necuador\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el diario de ecuador\n\n- Dataset uid: `pseudocrawl-filtered_430_www_eldiario_ec`\n\n### Description\n\nwebsite: ecuador -general news\n\n### Homepage\n\nhttps://www.eldiario.ec/\n\n### Licensing\n\n\n\n### Speaker Locations\n\necuador\n\n### Sizes\n\n- 0.0058 % of total\n- 0.1389 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10920,7 +10904,7 @@ "subject": "news", "owner": "" }, - "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_501_theindependent_sg`\n\n## Sizes\n\n- 0.0054 % of total\n- 0.0294 % of en\n\n## Description\n\nwebsite: singapore -news\n\n## Homepage\n\nhttps://theindependent.sg/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_501_theindependent_sg`\n\n### Description\n\nwebsite: singapore -news\n\n### Homepage\n\nhttps://theindependent.sg/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0054 % of total\n- 0.0294 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -10938,7 +10922,7 @@ } ], "total": 0.065418965, - "data_card": "# pseudocrawl-filtered_637_www_argia_eus\n\n- Dataset uid: `pseudocrawl-filtered_637_www_argia_eus`\n\n## Sizes\n\n- 0.0054 % of total\n- 3.3198 % of eu\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: eu\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n\n" + "data_card": "# pseudocrawl-filtered_637_www_argia_eus\n\n- Dataset uid: `pseudocrawl-filtered_637_www_argia_eus`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0054 % of total\n- 3.3198 % of eu\n\n### BigScience processing steps\n\n#### Filters applied to: eu\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n\n" } ], [ @@ -11050,7 +11034,7 @@ }, "fname": "detik_com.json" }, - "data_card": "# detik.com\n\n- Dataset uid: `pseudocrawl-filtered_545_www_detik_com`\n\n## Sizes\n\n- 0.0051 % of total\n- 1.9450 % of id\n\n## Description\n\nDetikcom (stylized as detikcom) is an Indonesian digital media company owned by CT Corp subsidiary Trans Media. Detikcom is an online news portal and publishes breaking news. The portal is consistently ranked among Indonesia's 10 most-visited websites and is among the top 250 in the world. It receives approximately 180 million visits per day.\n\n## Homepage\n\nhttps://www.detik.com/\n\n## Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\n\n## Speaker Locations\n\n- Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" + "data_card": "# detik.com\n\n- Dataset uid: `pseudocrawl-filtered_545_www_detik_com`\n\n### Description\n\nDetikcom (stylized as detikcom) is an Indonesian digital media company owned by CT Corp subsidiary Trans Media. Detikcom is an online news portal and publishes breaking news. The portal is consistently ranked among Indonesia's 10 most-visited websites and is among the top 250 in the world. It receives approximately 180 million visits per day.\n\n### Homepage\n\nhttps://www.detik.com/\n\n### Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\nhttps://www.detik.com/copyright\n\n\n### Speaker Locations\n\n- Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0051 % of total\n- 1.9450 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -11076,7 +11060,7 @@ "subject": "news", "owner": "" }, - "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_499_www_today_com_news`\n\n## Sizes\n\n- 0.0051 % of total\n- 0.0275 % of en\n\n## Description\n\nwebsite: singapore -news\n\n## Homepage\n\nhttps://www.today.com/news/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_499_www_today_com_news`\n\n### Description\n\nwebsite: singapore -news\n\n### Homepage\n\nhttps://www.today.com/news/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0051 % of total\n- 0.0275 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -11190,7 +11174,7 @@ }, "fname": "remezcla_com.json" }, - "data_card": "# Remezcla.com\n\n- Dataset uid: `pseudocrawl-filtered_548_remezcla_com`\n\n## Sizes\n\n- 0.0051 % of total\n- 0.0275 % of en\n\n## Description\n\nRemezcla is an American media company focusing on the Latin American cultural sphere. It serves the millennial market.\n\nRemezcla started as a grassroots project among writers and creatives that was led by co-founders Claire Frisbie, Nuria Net, and Andrew Herrera. We shared one common point of view: there were so many great stories about new Latin music, culture, and events that no one was covering. Traditional Latin media was not for us. We were called \u201calternative,\u201d but to us, what we were covering was our new mainstream. Along the way we met so many like-minded friends in other cities and countries that it sparked a movement. Answering \u201cWhat is Remezcla?\u201d is difficult for me because what started in living rooms and coffee shops among friends has grown to be so much more; today we reach millions of readers and have built a brand that goes beyond our publication.\n\n## Homepage\n\nhttps://remezcla.com/\n\n## Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\n\n## Speaker Locations\n\n- United States of America\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Remezcla.com\n\n- Dataset uid: `pseudocrawl-filtered_548_remezcla_com`\n\n### Description\n\nRemezcla is an American media company focusing on the Latin American cultural sphere. It serves the millennial market.\n\nRemezcla started as a grassroots project among writers and creatives that was led by co-founders Claire Frisbie, Nuria Net, and Andrew Herrera. We shared one common point of view: there were so many great stories about new Latin music, culture, and events that no one was covering. Traditional Latin media was not for us. We were called \u201calternative,\u201d but to us, what we were covering was our new mainstream. Along the way we met so many like-minded friends in other cities and countries that it sparked a movement. Answering \u201cWhat is Remezcla?\u201d is difficult for me because what started in living rooms and coffee shops among friends has grown to be so much more; today we reach millions of readers and have built a brand that goes beyond our publication.\n\n### Homepage\n\nhttps://remezcla.com/\n\n### Licensing\n\n- copyright - all rights reserved\n- other: Other license\n\nhttps://remezcla.com/terms-conditions/\n\n\n### Speaker Locations\n\n- United States of America\n\n\n### Sizes\n\n- 0.0051 % of total\n- 0.0275 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -11216,7 +11200,7 @@ "subject": "general news", "owner": "la pagina" }, - "data_card": "# la pagina\n\n- Dataset uid: `pseudocrawl-filtered_62_www_lapagina_com_sv`\n\n## Sizes\n\n- 0.0049 % of total\n- 0.1170 % of es\n\n## Description\n\nwebsite: el salvador -general news\n\n## Homepage\n\nhttps://www.lapagina.com.sv/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nel salvador\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# la pagina\n\n- Dataset uid: `pseudocrawl-filtered_62_www_lapagina_com_sv`\n\n### Description\n\nwebsite: el salvador -general news\n\n### Homepage\n\nhttps://www.lapagina.com.sv/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nel salvador\n\n### Sizes\n\n- 0.0049 % of total\n- 0.1170 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -11242,7 +11226,7 @@ "subject": "general news", "owner": "diario el popular argentina" }, - "data_card": "# diario el popular argentina\n\n- Dataset uid: `pseudocrawl-filtered_376_www_elpopular_com_ar`\n\n## Sizes\n\n- 0.0048 % of total\n- 0.1151 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttp://www.elpopular.com.ar/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# diario el popular argentina\n\n- Dataset uid: `pseudocrawl-filtered_376_www_elpopular_com_ar`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttp://www.elpopular.com.ar/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.0048 % of total\n- 0.1151 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -11268,7 +11252,7 @@ "subject": "general news", "owner": "aguasresiduales" }, - "data_card": "# aguasresiduales\n\n- Dataset uid: `pseudocrawl-filtered_219_www_aguasresiduales_info`\n\n## Sizes\n\n- 0.0048 % of total\n- 0.1141 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttp://www.aguasresiduales.info/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# aguasresiduales\n\n- Dataset uid: `pseudocrawl-filtered_219_www_aguasresiduales_info`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttp://www.aguasresiduales.info/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0048 % of total\n- 0.1141 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -11294,7 +11278,7 @@ "subject": "european news", "owner": "el tambor" }, - "data_card": "# el tambor\n\n- Dataset uid: `pseudocrawl-filtered_223_www_eltambor_es`\n\n## Sizes\n\n- 0.0047 % of total\n- 0.1108 % of es\n\n## Description\n\nwebsite: spain -european news\n\n## Homepage\n\nhttp://www.eltambor.es/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el tambor\n\n- Dataset uid: `pseudocrawl-filtered_223_www_eltambor_es`\n\n### Description\n\nwebsite: spain -european news\n\n### Homepage\n\nhttp://www.eltambor.es/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0047 % of total\n- 0.1108 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -11319,7 +11303,7 @@ "homepage": "https://www.indobenchmark.com/", "hf_id": "indo4_b" }, - "data_card": "# indo4b_jw300\n\n- Dataset uid: `indo4b_jw300`\n\n## Sizes\n\n- 0.0045 % of total\n- 1.7307 % of id\n\n## Description\n\nIndo4B consists of around 4B words, with around 250M sentences. The dataset covers both formal and colloquial Indonesian sentences compiled from 12 corpus, of which two corpus cover Indonesian colloquial language, eight corpus cover formal Indonesian language, and the rest have a mixed style, both colloquial and formal.\\n\n\n## Homepage\n\nhttps://www.indobenchmark.com/\n\n## Licensing\n\nMIT License\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- KILL\n- filter_small_docs_bytes_300\n\n" + "data_card": "# indo4b_jw300\n\n- Dataset uid: `indo4b_jw300`\n\n### Description\n\nIndo4B consists of around 4B words, with around 250M sentences. The dataset covers both formal and colloquial Indonesian sentences compiled from 12 corpus, of which two corpus cover Indonesian colloquial language, eight corpus cover formal Indonesian language, and the rest have a mixed style, both colloquial and formal.\\n\n\n### Homepage\n\nhttps://www.indobenchmark.com/\n\n### Licensing\n\nMIT License\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0045 % of total\n- 1.7307 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- KILL\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -11416,7 +11400,7 @@ }, "fname": "mediapart.json" }, - "data_card": "# Mediapart\n\n- Dataset uid: `pseudocrawl-filtered_530_www_mediapart_fr`\n\n## Sizes\n\n- 0.0044 % of total\n- 0.0515 % of fr\n\n## Description\n\nFrench independent journal\n\n## Homepage\n\nhttps://www.mediapart.fr/\n\n## Licensing\n\n\n\n## Speaker Locations\n\n- Western Europe\n- France\n\n\n## BigScience processing steps\n\n#### Filters applied to: fr\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Mediapart\n\n- Dataset uid: `pseudocrawl-filtered_530_www_mediapart_fr`\n\n### Description\n\nFrench independent journal\n\n### Homepage\n\nhttps://www.mediapart.fr/\n\n### Licensing\n\n\n\n### Speaker Locations\n\n- Western Europe\n- France\n\n\n### Sizes\n\n- 0.0044 % of total\n- 0.0515 % of fr\n\n### BigScience processing steps\n\n#### Filters applied to: fr\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -11442,7 +11426,7 @@ "subject": "forum, tech", "owner": "" }, - "data_card": "# HardwareZone Forums\n\n- Dataset uid: `pseudocrawl-filtered_470_forums_hardwarezone_com_sg`\n\n## Sizes\n\n- 0.0044 % of total\n- 0.0236 % of en\n\n## Description\n\nwebsite: singapore -forum, tech\n\n## Homepage\n\nhttps://forums.hardwarezone.com.sg/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# HardwareZone Forums\n\n- Dataset uid: `pseudocrawl-filtered_470_forums_hardwarezone_com_sg`\n\n### Description\n\nwebsite: singapore -forum, tech\n\n### Homepage\n\nhttps://forums.hardwarezone.com.sg/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0044 % of total\n- 0.0236 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -11577,7 +11561,7 @@ }, "fname": "odiencorp2_0.json" }, - "data_card": "# OdiEnCorp2.0\n\n- Dataset uid: `odiencorp`\n\n## Sizes\n\n- 0.0043 % of total\n- 2.2553 % of indic-or\n- 0.0000 % of en\n\n## Description\n\nOdiEnCorp is a collection of Odia-English parallel and Odia monolingual sentences collected from different sources such as Odia Wikipedia, web sites, books, and dictionaries using different manual and machine learning techniques including web scraping and optical character recognition. OdiEnCorp 2.0 served in WAT 2020 EnglishOdia Indic Task. \n\n## Homepage\n\nhttps://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3211\n\n## Licensing\n\n- non-commercial use\n- cc-by-nc-sa-4.0: Creative Commons Attribution Non Commercial Share Alike 4.0 International\n\n\n## Speaker Locations\n\n- Southern Asia\n- India\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-or\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: en\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# OdiEnCorp2.0\n\n- Dataset uid: `odiencorp`\n\n### Description\n\nOdiEnCorp is a collection of Odia-English parallel and Odia monolingual sentences collected from different sources such as Odia Wikipedia, web sites, books, and dictionaries using different manual and machine learning techniques including web scraping and optical character recognition. OdiEnCorp 2.0 served in WAT 2020 EnglishOdia Indic Task. \n\n### Homepage\n\nhttps://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3211\n\n### Licensing\n\n- non-commercial use\n- cc-by-nc-sa-4.0: Creative Commons Attribution Non Commercial Share Alike 4.0 International\n\n\n### Speaker Locations\n\n- Southern Asia\n- India\n\n\n### Sizes\n\n- 0.0043 % of total\n- 2.2553 % of indic-or\n- 0.0000 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: indic-or\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: en\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -11603,7 +11587,7 @@ "subject": "news", "owner": "" }, - "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_500_www_asiaone_com_singapore`\n\n## Sizes\n\n- 0.0039 % of total\n- 0.0211 % of en\n\n## Description\n\nwebsite: singapore -news\n\n## Homepage\n\nhttps://www.asiaone.com/singapore\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_500_www_asiaone_com_singapore`\n\n### Description\n\nwebsite: singapore -news\n\n### Homepage\n\nhttps://www.asiaone.com/singapore\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0039 % of total\n- 0.0211 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -11629,7 +11613,7 @@ "subject": "general news", "owner": "diario26" }, - "data_card": "# diario26\n\n- Dataset uid: `pseudocrawl-filtered_91_www_diario26_com`\n\n## Sizes\n\n- 0.0037 % of total\n- 0.0892 % of es\n\n## Description\n\nwebsite: argentina -general news\n\n## Homepage\n\nhttp://www.diario26.com/general.html\n\n## Licensing\n\n\n\n## Speaker Locations\n\nargentina\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# diario26\n\n- Dataset uid: `pseudocrawl-filtered_91_www_diario26_com`\n\n### Description\n\nwebsite: argentina -general news\n\n### Homepage\n\nhttp://www.diario26.com/general.html\n\n### Licensing\n\n\n\n### Speaker Locations\n\nargentina\n\n### Sizes\n\n- 0.0037 % of total\n- 0.0892 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -11655,7 +11639,7 @@ "subject": "general news", "owner": "peri\u00f3dico el expresso de puerto rico" }, - "data_card": "# peri\u00f3dico el expresso de puerto rico\n\n- Dataset uid: `pseudocrawl-filtered_32_www_elexpresso_com`\n\n## Sizes\n\n- 0.0037 % of total\n- 0.0873 % of es\n\n## Description\n\nwebsite: porto rico -general news\n\n## Homepage\n\nhttp://www.elexpresso.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nporto rico\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# peri\u00f3dico el expresso de puerto rico\n\n- Dataset uid: `pseudocrawl-filtered_32_www_elexpresso_com`\n\n### Description\n\nwebsite: porto rico -general news\n\n### Homepage\n\nhttp://www.elexpresso.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nporto rico\n\n### Sizes\n\n- 0.0037 % of total\n- 0.0873 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -11765,7 +11749,7 @@ }, "fname": "indo4b.json" }, - "data_card": "# Indo4b\n\n- Dataset uid: `indo4b_tempo`\n\n## Sizes\n\n- 0.0036 % of total\n- 1.3535 % of id\n\n## Description\n\nA compiled Indonesian monolingual dataset. Includes OSCAR, OpenSub, and CommonCrawl\n\n## Homepage\n\nhttps://www.indobenchmark.com/\n\n## Licensing\n\nMIT License\n\n## Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- KILL\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Indo4b\n\n- Dataset uid: `indo4b_tempo`\n\n### Description\n\nA compiled Indonesian monolingual dataset. Includes OSCAR, OpenSub, and CommonCrawl\n\n### Homepage\n\nhttps://www.indobenchmark.com/\n\n### Licensing\n\nMIT License\n\n### Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0036 % of total\n- 1.3535 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- KILL\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -11875,7 +11859,7 @@ }, "fname": "indosum.json" }, - "data_card": "# Indosum\n\n- Dataset uid: `indosum`\n\n## Sizes\n\n- 0.0035 % of total\n- 1.3157 % of id\n\n## Description\n\nIndoSum: A New Benchmark Dataset for Indonesian Text Summarization\n\n## Homepage\n\nhttps://github.com/kata-ai/indosum\n\n## Licensing\n\n- apache-2.0: Apache License 2.0\n\n\n## Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Indosum\n\n- Dataset uid: `indosum`\n\n### Description\n\nIndoSum: A New Benchmark Dataset for Indonesian Text Summarization\n\n### Homepage\n\nhttps://github.com/kata-ai/indosum\n\n### Licensing\n\n- apache-2.0: Apache License 2.0\n\nApache License, Version 2.0 Apache License Version 2.0, January 2004 \nhttp://www.apache.org/licenses/\n\nTERMS AND CONDITIONS FOR USE, REPRODUCTION, AND DISTRIBUTION\n\n1. Definitions.\n\n\"License\" shall mean the terms and conditions for use, reproduction, and \ndistribution as defined by Sections 1 through 9 of this document.\n\n\"Licensor\" shall mean the copyright owner or entity authorized by the copyright \nowner that is granting the License.\n\n\"Legal Entity\" shall mean the union of the acting entity and all other entities \nthat control, are controlled by, or are under common control with that entity. \nFor the purposes of this definition, \"control\" means (i) the power, direct or \nindirect, to cause the direction or management of such entity, whether by \ncontract or otherwise, or (ii) ownership of fifty percent (50%) or more of the \noutstanding shares, or (iii) beneficial ownership of such entity.\n\n\"You\" (or \"Your\") shall mean an individual or Legal Entity exercising \npermissions granted by this License.\n\n\"Source\" form shall mean the preferred form for making modifications, including \nbut not limited to software source code, documentation source, and \nconfiguration files.\n\n\"Object\" form shall mean any form resulting from mechanical transformation or \ntranslation of a Source form, including but not limited to compiled object \ncode, generated documentation, and conversions to other media types.\n\n\"Work\" shall mean the work of authorship, whether in Source or Object form, \nmade available under the License, as indicated by a copyright notice that is \nincluded in or attached to the work (an example is provided in the Appendix \nbelow).\n\n\"Derivative Works\" shall mean any work, whether in Source or Object form, that \nis based on (or derived from) the Work and for which the editorial revisions, \nannotations, elaborations, or other modifications represent, as a whole, an \noriginal work of authorship. For the purposes of this License, Derivative Works \nshall not include works that remain separable from, or merely link (or bind by \nname) to the interfaces of, the Work and Derivative Works thereof.\n\n\"Contribution\" shall mean any work of authorship, including the original \nversion of the Work and any modifications or additions to that Work or \nDerivative Works thereof, that is intentionally submitted to Licensor for \ninclusion in the Work by the copyright owner or by an individual or Legal \nEntity authorized to submit on behalf of the copyright owner. For the purposes \nof this definition, \"submitted\" means any form of electronic, verbal, or \nwritten communication sent to the Licensor or its representatives, including \nbut not limited to communication on electronic mailing lists, source code \ncontrol systems, and issue tracking systems that are managed by, or on behalf \nof, the Licensor for the purpose of discussing and improving the Work, but \nexcluding communication that is conspicuously marked or otherwise designated in \nwriting by the copyright owner as \"Not a Contribution.\"\n\n\"Contributor\" shall mean Licensor and any individual or Legal Entity on behalf \nof whom a Contribution has been received by Licensor and subsequently \nincorporated within the Work.\n\n2. Grant of Copyright License.\n\nSubject to the terms and conditions of this License, each Contributor hereby \ngrants to You a perpetual, worldwide, non-exclusive, no-charge, royalty-free, \nirrevocable copyright license to reproduce, prepare Derivative Works of, \npublicly display, publicly perform, sublicense, and distribute the Work and \nsuch Derivative Works in Source or Object form.\n\n3. Grant of Patent License.\n\nSubject to the terms and conditions of this License, each Contributor hereby \ngrants to You a perpetual, worldwide, non-exclusive, no-charge, royalty-free, \nirrevocable (except as stated in this section) patent license to make, have \nmade, use, offer to sell, sell, import, and otherwise transfer the Work, where \nsuch license applies only to those patent claims licensable by such Contributor \nthat are necessarily infringed by their Contribution(s) alone or by combination \nof their Contribution(s) with the Work to which such Contribution(s) was \nsubmitted. If You institute patent litigation against any entity (including a \ncross-claim or counterclaim in a lawsuit) alleging that the Work or a \nContribution incorporated within the Work constitutes direct or contributory \npatent infringement, then any patent licenses granted to You under this License \nfor that Work shall terminate as of the date such litigation is filed.\n\n4. Redistribution.\n\nYou may reproduce and distribute copies of the Work or Derivative Works thereof \nin any medium, with or without modifications, and in Source or Object form, \nprovided that You meet the following conditions:\n\nYou must give any other recipients of the Work or Derivative Works a copy of \nthis License; and You must cause any modified files to carry prominent notices \nstating that You changed the files; and You must retain, in the Source form of \nany Derivative Works that You distribute, all copyright, patent, trademark, and \nattribution notices from the Source form of the Work, excluding those notices \nthat do not pertain to any part of the Derivative Works; and If the Work \nincludes a \"NOTICE\" text file as part of its distribution, then any Derivative \nWorks that You distribute must include a readable copy of the attribution \nnotices contained within such NOTICE file, excluding those notices that do not \npertain to any part of the Derivative Works, in at least one of the following \nplaces: within a NOTICE text file distributed as part of the Derivative Works; \nwithin the Source form or documentation, if provided along with the Derivative \nWorks; or, within a display generated by the Derivative Works, if and wherever \nsuch third-party notices normally appear. The contents of the NOTICE file are \nfor informational purposes only and do not modify the License. You may add Your \nown attribution notices within Derivative Works that You distribute, alongside \nor as an addendum to the NOTICE text from the Work, provided that such \nadditional attribution notices cannot be construed as modifying the License. \nYou may add Your own copyright statement to Your modifications and may provide \nadditional or different license terms and conditions for use, reproduction, or \ndistribution of Your modifications, or for any such Derivative Works as a \nwhole, provided Your use, reproduction, and distribution of the Work otherwise \ncomplies with the conditions stated in this License.\n\n5. Submission of Contributions.\n\nUnless You explicitly state otherwise, any Contribution intentionally submitted \nfor inclusion in the Work by You to the Licensor shall be under the terms and \nconditions of this License, without any additional terms or conditions. \nNotwithstanding the above, nothing herein shall supersede or modify the terms \nof any separate license agreement you may have executed with Licensor regarding \nsuch Contributions.\n\n6. Trademarks.\n\nThis License does not grant permission to use the trade names, trademarks, \nservice marks, or product names of the Licensor, except as required for \nreasonable and customary use in describing the origin of the Work and \nreproducing the content of the NOTICE file.\n\n7. Disclaimer of Warranty.\n\nUnless required by applicable law or agreed to in writing, Licensor provides \nthe Work (and each Contributor provides its Contributions) on an \"AS IS\" BASIS, \nWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied, \nincluding, without limitation, any warranties or conditions of TITLE, \nNON-INFRINGEMENT, MERCHANTABILITY, or FITNESS FOR A PARTICULAR PURPOSE. You are \nsolely responsible for determining the appropriateness of using or \nredistributing the Work and assume any risks associated with Your exercise of \npermissions under this License.\n\n8. Limitation of Liability.\n\nIn no event and under no legal theory, whether in tort (including negligence), \ncontract, or otherwise, unless required by applicable law (such as deliberate \nand grossly negligent acts) or agreed to in writing, shall any Contributor be \nliable to You for damages, including any direct, indirect, special, incidental, \nor consequential damages of any character arising as a result of this License \nor out of the use or inability to use the Work (including but not limited to \ndamages for loss of goodwill, work stoppage, computer failure or malfunction, \nor any and all other commercial damages or losses), even if such Contributor \nhas been advised of the possibility of such damages.\n\n9. Accepting Warranty or Additional Liability.\n\nWhile redistributing the Work or Derivative Works thereof, You may choose to \noffer, and charge a fee for, acceptance of support, warranty, indemnity, or \nother liability obligations and/or rights consistent with this License. \nHowever, in accepting such obligations, You may act only on Your own behalf and \non Your sole responsibility, not on behalf of any other Contributor, and only \nif You agree to indemnify, defend, and hold each Contributor harmless for any \nliability incurred by, or claims asserted against, such Contributor by reason \nof your accepting any such warranty or additional liability.\n\nEND OF TERMS AND CONDITIONS\n\nAPPENDIX: How to apply the Apache License to your work\n\nTo apply the Apache License to your work, attach the following boilerplate \nnotice, with the fields enclosed by brackets \"[]\" replaced with your own \nidentifying information. (Don't include the brackets!) The text should be \nenclosed in the appropriate comment syntax for the file format. We also \nrecommend that a file or class name and description of purpose be included on \nthe same \"printed page\" as the copyright notice for easier identification \nwithin third-party archives.\n\nCopyright [yyyy] [name of copyright owner]\n\nLicensed under the Apache License, Version 2.0 (the \"License\"); you may not use \nthis file except in compliance with the License. You may obtain a copy of the \nLicense at\n\nhttp://www.apache.org/licenses/LICENSE-2.0\n\nUnless required by applicable law or agreed to in writing, software distributed \nunder the License is distributed on an \"AS IS\" BASIS, WITHOUT WARRANTIES OR \nCONDITIONS OF ANY KIND, either express or implied. See the License for the \nspecific language governing permissions and limitations under the License.\n\n\n### Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0035 % of total\n- 1.3157 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -11981,7 +11965,7 @@ }, "fname": "ahotsak.json" }, - "data_card": "# ahotsak\n\n- Dataset uid: `pseudocrawl-filtered_563_ahotsak_eus`\n\n## Sizes\n\n- 0.0033 % of total\n- 2.0361 % of eu\n\n## Description\n\nCatalogue of Basque Oral Heritage, interviews to elderly people about their experiences. \n\n## Homepage\n\nhttps://ahotsak.eus/\n\n## Licensing\n\n- open license\n- cc-by-sa-4.0: Creative Commons Attribution Share Alike 4.0 International\n\n\n## Speaker Locations\n\n- Western Europe\n- Spain\n\n\n## BigScience processing steps\n\n#### Filters applied to: eu\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n\n" + "data_card": "# ahotsak\n\n- Dataset uid: `pseudocrawl-filtered_563_ahotsak_eus`\n\n### Description\n\nCatalogue of Basque Oral Heritage, interviews to elderly people about their experiences. \n\n### Homepage\n\nhttps://ahotsak.eus/\n\n### Licensing\n\n- open license\n- cc-by-sa-4.0: Creative Commons Attribution Share Alike 4.0 International\n\n\n### Speaker Locations\n\n- Western Europe\n- Spain\n\n\n### Sizes\n\n- 0.0033 % of total\n- 2.0361 % of eu\n\n### BigScience processing steps\n\n#### Filters applied to: eu\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n\n" } ], [ @@ -12092,7 +12076,7 @@ }, "fname": "bengali_question_answering_dataset.json" }, - "data_card": "# Bengali Question Answering Dataset\n\n- Dataset uid: `bengali_question_answering`\n\n## Sizes\n\n- 0.0030 % of total\n- 0.1401 % of indic-bn\n\n## Description\n\nThis dataset contains the data for the paper \"Deep learning-based question answering system in Bengali\". It is a translated version of SQuAD 2.0 dataset to the Bengali language. Preprocessing details can be found in the paper.\n\nLink : https://zenodo.org/record/4557874#.YDVGxegzZPZ\nPaper : https://www.tandfonline.com/doi/full/10.1080/24751839.2020.1833136\n\n## Homepage\n\nhttps://www.kaggle.com/mayeesha/bengali-question-answering-dataset\n\n## Licensing\n\nCreative Commons Attribution 4.0 International\n\n## Speaker Locations\n\n- Southern Asia\n- Bangladesh\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Bengali Question Answering Dataset\n\n- Dataset uid: `bengali_question_answering`\n\n### Description\n\nThis dataset contains the data for the paper \"Deep learning-based question answering system in Bengali\". It is a translated version of SQuAD 2.0 dataset to the Bengali language. Preprocessing details can be found in the paper.\n\nLink : https://zenodo.org/record/4557874#.YDVGxegzZPZ\nPaper : https://www.tandfonline.com/doi/full/10.1080/24751839.2020.1833136\n\n### Homepage\n\nhttps://www.kaggle.com/mayeesha/bengali-question-answering-dataset\n\n### Licensing\n\nCreative Commons Attribution 4.0 International\n\n### Speaker Locations\n\n- Southern Asia\n- Bangladesh\n\n\n### Sizes\n\n- 0.0030 % of total\n- 0.1401 % of indic-bn\n\n### BigScience processing steps\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -12118,7 +12102,7 @@ "subject": "european news", "owner": "acta sanitaria" }, - "data_card": "# acta sanitaria\n\n- Dataset uid: `pseudocrawl-filtered_339_www_actasanitaria_com`\n\n## Sizes\n\n- 0.0030 % of total\n- 0.0164 % of en\n\n## Description\n\nwebsite: spain -european news\n\n## Homepage\n\nhttps://www.actasanitaria.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# acta sanitaria\n\n- Dataset uid: `pseudocrawl-filtered_339_www_actasanitaria_com`\n\n### Description\n\nwebsite: spain -european news\n\n### Homepage\n\nhttps://www.actasanitaria.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0030 % of total\n- 0.0164 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -12231,7 +12215,7 @@ }, "fname": "global_voices_portuguese.json" }, - "data_card": "# Global Voices Portuguese\n\n- Dataset uid: `pseudocrawl-filtered_672_pt_globalvoices_org`\n\n## Sizes\n\n- 0.0029 % of total\n- 0.1321 % of pt\n\n## Description\n\nGlobal Voices pages in Portuguese\n\n## Homepage\n\nhttps://pt.globalvoices.org/\n\n## Licensing\n\n- open license\n- cc-by-3.0: Creative Commons Attribution 3.0 Unported\n\n\n## Speaker Locations\n\n- Americas\n- Europe\n- Western Africa\n- Timor-Leste\n\n\n## BigScience processing steps\n\n#### Filters applied to: pt\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Global Voices Portuguese\n\n- Dataset uid: `pseudocrawl-filtered_672_pt_globalvoices_org`\n\n### Description\n\nGlobal Voices pages in Portuguese\n\n### Homepage\n\nhttps://pt.globalvoices.org/\n\n### Licensing\n\n- open license\n- cc-by-3.0: Creative Commons Attribution 3.0 Unported\n\nhttps://globalvoices.org/about/global-voices-attribution-policy/\n\n\n### Speaker Locations\n\n- Americas\n- Europe\n- Western Africa\n- Timor-Leste\n\n\n### Sizes\n\n- 0.0029 % of total\n- 0.1321 % of pt\n\n### BigScience processing steps\n\n#### Filters applied to: pt\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -12341,7 +12325,7 @@ }, "fname": "indo4b.json" }, - "data_card": "# Indo4b\n\n- Dataset uid: `indo4b_kompas`\n\n## Sizes\n\n- 0.0022 % of total\n- 0.8459 % of id\n\n## Description\n\nA compiled Indonesian monolingual dataset. Includes OSCAR, OpenSub, and CommonCrawl\n\n## Homepage\n\nhttps://www.indobenchmark.com/\n\n## Licensing\n\nMIT License\n\n## Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- KILL\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Indo4b\n\n- Dataset uid: `indo4b_kompas`\n\n### Description\n\nA compiled Indonesian monolingual dataset. Includes OSCAR, OpenSub, and CommonCrawl\n\n### Homepage\n\nhttps://www.indobenchmark.com/\n\n### Licensing\n\nMIT License\n\n### Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0022 % of total\n- 0.8459 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- KILL\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -12367,7 +12351,7 @@ "subject": "blog, multi", "owner": "" }, - "data_card": "# Personal blog\n\n- Dataset uid: `pseudocrawl-filtered_483_alvinology_com`\n\n## Sizes\n\n- 0.0022 % of total\n- 0.0117 % of en\n\n## Description\n\nwebsite: singapore -blog, multi\n\n## Homepage\n\nhttps://alvinology.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Personal blog\n\n- Dataset uid: `pseudocrawl-filtered_483_alvinology_com`\n\n### Description\n\nwebsite: singapore -blog, multi\n\n### Homepage\n\nhttps://alvinology.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0022 % of total\n- 0.0117 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -12470,7 +12454,7 @@ }, "fname": "oer_commons.json" }, - "data_card": "# OER Commons\n\n- Dataset uid: `pseudocrawl-filtered_696_www_oercommons_org`\n\n## Sizes\n\n- 0.0020 % of total\n- 0.0109 % of en\n\n## Description\n\nOER Commons (OER for open educational resources) is a freely accessible online library that allows teachers and others to search and discover open educational resources (OER) and other freely available instructional materials. \n\n## Homepage\n\nhttps://www.oercommons.org/\n\n## Licensing\n\n- open license\n- cc-by-nc-sa-4.0: Creative Commons Attribution Non Commercial Share Alike 4.0 International\n\n\n## Speaker Locations\n\n- Northern America\n- United States of America\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# OER Commons\n\n- Dataset uid: `pseudocrawl-filtered_696_www_oercommons_org`\n\n### Description\n\nOER Commons (OER for open educational resources) is a freely accessible online library that allows teachers and others to search and discover open educational resources (OER) and other freely available instructional materials. \n\n### Homepage\n\nhttps://www.oercommons.org/\n\n### Licensing\n\n- open license\n- cc-by-nc-sa-4.0: Creative Commons Attribution Non Commercial Share Alike 4.0 International\n\n\n### Speaker Locations\n\n- Northern America\n- United States of America\n\n\n### Sizes\n\n- 0.0020 % of total\n- 0.0109 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -12496,7 +12480,7 @@ "subject": "blog, beauty", "owner": "" }, - "data_card": "# Curated blog\n\n- Dataset uid: `pseudocrawl-filtered_488_dailyvanity_sg`\n\n## Sizes\n\n- 0.0020 % of total\n- 0.0106 % of en\n\n## Description\n\nwebsite: singapore -blog, beauty\n\n## Homepage\n\nhttps://dailyvanity.sg/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Curated blog\n\n- Dataset uid: `pseudocrawl-filtered_488_dailyvanity_sg`\n\n### Description\n\nwebsite: singapore -blog, beauty\n\n### Homepage\n\nhttps://dailyvanity.sg/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0020 % of total\n- 0.0106 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -12522,7 +12506,7 @@ "subject": "blog, finance", "owner": "" }, - "data_card": "# Curated blog\n\n- Dataset uid: `pseudocrawl-filtered_485_blog_moneysmart_sg`\n\n## Sizes\n\n- 0.0019 % of total\n- 0.0104 % of en\n\n## Description\n\nwebsite: singapore -blog, finance\n\n## Homepage\n\nhttps://blog.moneysmart.sg/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Curated blog\n\n- Dataset uid: `pseudocrawl-filtered_485_blog_moneysmart_sg`\n\n### Description\n\nwebsite: singapore -blog, finance\n\n### Homepage\n\nhttps://blog.moneysmart.sg/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0019 % of total\n- 0.0104 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -12540,7 +12524,7 @@ } ], "total": 0.023119104, - "data_card": "# pseudocrawl-filtered_674_ai_baidu_com\n\n- Dataset uid: `pseudocrawl-filtered_674_ai_baidu_com`\n\n## Sizes\n\n- 0.0019 % of total\n- 0.0067 % of zh\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: zh\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# pseudocrawl-filtered_674_ai_baidu_com\n\n- Dataset uid: `pseudocrawl-filtered_674_ai_baidu_com`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0019 % of total\n- 0.0067 % of zh\n\n### BigScience processing steps\n\n#### Filters applied to: zh\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -12681,7 +12665,7 @@ "fname": "arabench-validated-03_22_2022__15_23_21.json", "update_time": "03_22_2022__15_23_21" }, - "data_card": "# arabench\n\n- Dataset uid: `arabench`\n\n## Sizes\n\n- 0.0018 % of total\n- 0.0165 % of ar\n\n## Description\n\nAraBench is an evaluation suite for dialectal Arabic to English machine translation. AraBench offers 4 coarse, 15 fine-grained and 25 city-level dialect categories, belonging to diverse genres, such as media, chat, religion and travel with varying level of dialectness.\n\n## Homepage\n\nhttps://alt.qcri.org/resources1/mt/arabench/\n\n## Licensing\n\n- open license\n- cc-by-4.0: Creative Commons Attribution 4.0 International\n\n\n## Speaker Locations\n\n- Northern Africa\n- Western Asia\n- Algeria\n- Egypt\n- Morocco\n- Jordan\n- Sudan\n- Tunisia\n- Lebanon\n- Libya\n- Iraq\n- Qatar\n- Yemen\n- Oman\n- Saudi Arabia\n- Syria\n- Palestine\n\n\n## BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# arabench\n\n- Dataset uid: `arabench`\n\n### Description\n\nAraBench is an evaluation suite for dialectal Arabic to English machine translation. AraBench offers 4 coarse, 15 fine-grained and 25 city-level dialect categories, belonging to diverse genres, such as media, chat, religion and travel with varying level of dialectness.\n\n### Homepage\n\nhttps://alt.qcri.org/resources1/mt/arabench/\n\n### Licensing\n\n- open license\n- cc-by-4.0: Creative Commons Attribution 4.0 International\n\n\n### Speaker Locations\n\n- Northern Africa\n- Western Asia\n- Algeria\n- Egypt\n- Morocco\n- Jordan\n- Sudan\n- Tunisia\n- Lebanon\n- Libya\n- Iraq\n- Qatar\n- Yemen\n- Oman\n- Saudi Arabia\n- Syria\n- Palestine\n\n\n### Sizes\n\n- 0.0018 % of total\n- 0.0165 % of ar\n\n### BigScience processing steps\n\n#### Filters applied to: ar\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -12707,7 +12691,7 @@ "subject": "general news", "owner": "diario financiero" }, - "data_card": "# diario financiero\n\n- Dataset uid: `pseudocrawl-filtered_244_www_df_cl`\n\n## Sizes\n\n- 0.0017 % of total\n- 0.0393 % of es\n\n## Description\n\nwebsite: cl -general news\n\n## Homepage\n\nhttp://www.df.cl\n\n## Licensing\n\n\n\n## Speaker Locations\n\ncl\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# diario financiero\n\n- Dataset uid: `pseudocrawl-filtered_244_www_df_cl`\n\n### Description\n\nwebsite: cl -general news\n\n### Homepage\n\nhttp://www.df.cl\n\n### Licensing\n\n\n\n### Speaker Locations\n\ncl\n\n### Sizes\n\n- 0.0017 % of total\n- 0.0393 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -12733,7 +12717,7 @@ "subject": "blog, beauty", "owner": "" }, - "data_card": "# Personal blog\n\n- Dataset uid: `pseudocrawl-filtered_492_www_vivawoman_net`\n\n## Sizes\n\n- 0.0014 % of total\n- 0.0074 % of en\n\n## Description\n\nwebsite: singapore -blog, beauty\n\n## Homepage\n\nhttps://www.vivawoman.net/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Personal blog\n\n- Dataset uid: `pseudocrawl-filtered_492_www_vivawoman_net`\n\n### Description\n\nwebsite: singapore -blog, beauty\n\n### Homepage\n\nhttps://www.vivawoman.net/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0014 % of total\n- 0.0074 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -12853,7 +12837,7 @@ }, "fname": "ester.json" }, - "data_card": "# ESTER Evaluation de Systemes de Transcription enrichie d\u2019Emissions Radiophoniques\n\n- Dataset uid: `ester`\n\n## Sizes\n\n- 0.0013 % of total\n- 0.0152 % of fr\n\n## Description\n\nThe ESTER Corpus is a subset of the ESTER Evaluation Package (catalogue ref. ELRA-E0021), which was produced within the French national project ESTER (Evaluation of Broadcast News enriched transcription systems), as part of the Technolangue programme funded by the French Ministry of Research and New Technologies (MRNT). The ESTER project enabled to carry out a campaign for the evaluation of Broadcast News enriched transcription systems using French data.\n\nThis corpus includes the material that was used for the ESTER evaluation campaign, excluding the textual data (available in this catalogue and referenced ELRA-W0015 and ELRA-W0023):\n\n1) About 100 hours of orthographically transcribed news broadcast, including annotations of named entities.\n2) The evaluation tools allow to evaluation each task defined above.\n3) Two guides and manuals were produced and are provided in the package distributed by ELDA :\no Guide for the annotation of named entities\no Specifications and evaluation protocol\n\nAn extra corpus of 1,700 hours of non-transcribed radio broadcast news recordings can also be provided upon request, on hard disk, as an adding to this package at a cost of 100 Euro (plus shipment fee).\n\n## Homepage\n\nhttp://www.lrec-conf.org/proceedings/lrec2006/pdf/646_pdf.pdf\n\n## Licensing\n\n- non-commercial use\n- other: Other license\n\n\n## Speaker Locations\n\n- Northern Africa\n- Western Europe\n- France\n- Morocco\n\n\n## BigScience processing steps\n\n#### Filters applied to: fr\n\n- concatenate_lm_fr_ester\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# ESTER Evaluation de Systemes de Transcription enrichie d\u2019Emissions Radiophoniques\n\n- Dataset uid: `ester`\n\n### Description\n\nThe ESTER Corpus is a subset of the ESTER Evaluation Package (catalogue ref. ELRA-E0021), which was produced within the French national project ESTER (Evaluation of Broadcast News enriched transcription systems), as part of the Technolangue programme funded by the French Ministry of Research and New Technologies (MRNT). The ESTER project enabled to carry out a campaign for the evaluation of Broadcast News enriched transcription systems using French data.\n\nThis corpus includes the material that was used for the ESTER evaluation campaign, excluding the textual data (available in this catalogue and referenced ELRA-W0015 and ELRA-W0023):\n\n1) About 100 hours of orthographically transcribed news broadcast, including annotations of named entities.\n2) The evaluation tools allow to evaluation each task defined above.\n3) Two guides and manuals were produced and are provided in the package distributed by ELDA :\no Guide for the annotation of named entities\no Specifications and evaluation protocol\n\nAn extra corpus of 1,700 hours of non-transcribed radio broadcast news recordings can also be provided upon request, on hard disk, as an adding to this package at a cost of 100 Euro (plus shipment fee).\n\n### Homepage\n\nhttp://www.lrec-conf.org/proceedings/lrec2006/pdf/646_pdf.pdf\n\n### Licensing\n\n- non-commercial use\n- other: Other license\n\nhttp://www.elra.info/media/filer_public/2015/04/13/enduser_150325.pdf\n\n\n### Speaker Locations\n\n- Northern Africa\n- Western Europe\n- France\n- Morocco\n\n\n### Sizes\n\n- 0.0013 % of total\n- 0.0152 % of fr\n\n### BigScience processing steps\n\n#### Filters applied to: fr\n\n- concatenate_lm_fr_ester\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -12950,7 +12934,7 @@ "homepage": "http://preon.iiit.ac.in/~jerin/bhasha/", "hf_id": "mkb" }, - "data_card": "# mkb\n\n- Dataset uid: `mkb`\n\n## Sizes\n\n- 0.0009 % of total\n- 0.0174 % of indic-ta\n- 0.0252 % of indic-ml\n- 0.0416 % of indic-mr\n- 0.0601 % of indic-gu\n- 0.0047 % of indic-bn\n- 0.0040 % of indic-hi\n- 0.0185 % of indic-te\n- 0.0162 % of indic-or\n- 0.0026 % of indic-ur\n\n## Description\n\nThe Prime Ministers speeches - Mann Ki Baat, on All India Radio, translated into many languages.\n\n\n## Homepage\n\n- https://huggingface.co/datasets/mkb\n- http://preon.iiit.ac.in/~jerin/bhasha/\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# mkb\n\n- Dataset uid: `mkb`\n\n### Description\n\nThe Prime Ministers speeches - Mann Ki Baat, on All India Radio, translated into many languages.\n\n\n### Homepage\n\n- https://huggingface.co/datasets/mkb\n- http://preon.iiit.ac.in/~jerin/bhasha/\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0009 % of total\n- 0.0174 % of indic-ta\n- 0.0252 % of indic-ml\n- 0.0416 % of indic-mr\n- 0.0601 % of indic-gu\n- 0.0047 % of indic-bn\n- 0.0040 % of indic-hi\n- 0.0185 % of indic-te\n- 0.0162 % of indic-or\n- 0.0026 % of indic-ur\n\n### BigScience processing steps\n\n#### Filters applied to: indic-ta\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-ml\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-mr\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-gu\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-te\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-or\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n\n#### Filters applied to: indic-ur\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -12976,7 +12960,7 @@ "subject": "general news", "owner": "radiocable" }, - "data_card": "# radiocable\n\n- Dataset uid: `pseudocrawl-filtered_30_www_radiocable_com`\n\n## Sizes\n\n- 0.0008 % of total\n- 0.0180 % of es\n\n## Description\n\nwebsite: spain -general news\n\n## Homepage\n\nhttp://www.radiocable.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nspain\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# radiocable\n\n- Dataset uid: `pseudocrawl-filtered_30_www_radiocable_com`\n\n### Description\n\nwebsite: spain -general news\n\n### Homepage\n\nhttp://www.radiocable.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nspain\n\n### Sizes\n\n- 0.0008 % of total\n- 0.0180 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -13021,7 +13005,7 @@ } ], "total": 0.006035856000000001, - "data_card": "# wikimedia_filtered\n\n- Dataset uid: `wikimedia_filtered`\n\n## Sizes\n\n- 0.0005 % of total\n- 0.0835 % of id\n- 0.0126 % of ca\n- 0.0054 % of pt\n- 0.0005 % of indic-hi\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_id\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ca\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-hi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n" + "data_card": "# wikimedia_filtered\n\n- Dataset uid: `wikimedia_filtered`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0005 % of total\n- 0.0835 % of id\n- 0.0126 % of ca\n- 0.0054 % of pt\n- 0.0005 % of indic-hi\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_id\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: ca\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_ca\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: pt\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_pt\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n#### Filters applied to: indic-hi\n\n- filter_wiki_user_titles\n- filter_wiki_non_text_type\n- dedup_document\n- filter_remove_empty_docs\n- split_sentences_indic-hi\n- dedup_template_soft\n- replace_newline_with_space\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -13133,7 +13117,7 @@ }, "fname": "recibrew.json" }, - "data_card": "# Recibrew\n\n- Dataset uid: `recibrew`\n\n## Sizes\n\n- 0.0005 % of total\n- 0.1792 % of id\n\n## Description\n\nFood recipe in Indonesian\n\n## Homepage\n\nhttps://github.com/haryoa/recibrew/blob/master/data/raw/indonesia_food_recipe.csv\n\n## Licensing\n\n- open license\n- mit: MIT License\n\n\n## Speaker Locations\n\n- Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Recibrew\n\n- Dataset uid: `recibrew`\n\n### Description\n\nFood recipe in Indonesian\n\n### Homepage\n\nhttps://github.com/haryoa/recibrew/blob/master/data/raw/indonesia_food_recipe.csv\n\n### Licensing\n\n- open license\n- mit: MIT License\n\n\n### Speaker Locations\n\n- Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0005 % of total\n- 0.1792 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -13159,7 +13143,7 @@ "subject": "news", "owner": "" }, - "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_502_www_ricemedia_co`\n\n## Sizes\n\n- 0.0004 % of total\n- 0.0023 % of en\n\n## Description\n\nwebsite: singapore -news\n\n## Homepage\n\nhttps://www.ricemedia.co/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nsingapore\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# News outlet\n\n- Dataset uid: `pseudocrawl-filtered_502_www_ricemedia_co`\n\n### Description\n\nwebsite: singapore -news\n\n### Homepage\n\nhttps://www.ricemedia.co/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nsingapore\n\n### Sizes\n\n- 0.0004 % of total\n- 0.0023 % of en\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -13184,7 +13168,7 @@ "homepage": "https://vinbigdata.org/en/events/vinbigdata-shares-100-hour-data-for-the-community/", "hf_id": "vin_bigdata_mt_vlsp2020_lm" }, - "data_card": "# vinbigdata_mt_vlsp_2020\n\n- Dataset uid: `vinbigdata_mt_vlsp_2020`\n\n## Sizes\n\n- 0.0004 % of total\n- 0.0263 % of vi\n\n## Description\n\nEnglish-Vietnamese Machine Translation dataset.\n\nThe Machine Translation shared-task includes only one track: text translation from English to Vietnamese in the NEWS\ndomain. Training data consists of two corpora: Parallel corpora, which are in UTF-8 plaintexts, 1-to-1 sentence aligned,\none sentence per line, and include in-domain NEWS dataset of size 20k samples with 80% in the training set, 10% in the\ndev set and 10% in the test set; and out-of-domain parallel datasets roughly of size 4M samples, such as openSub (3.5M),\nted-like (55k), evbcorpus (45k), wiki-alt (20k), and basic (8.8k) datasets.\n\n\n## Homepage\n\nhttps://vinbigdata.org/en/events/vinbigdata-shares-100-hour-data-for-the-community/\n\n## Licensing\n\nUnknown\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# vinbigdata_mt_vlsp_2020\n\n- Dataset uid: `vinbigdata_mt_vlsp_2020`\n\n### Description\n\nEnglish-Vietnamese Machine Translation dataset.\n\nThe Machine Translation shared-task includes only one track: text translation from English to Vietnamese in the NEWS\ndomain. Training data consists of two corpora: Parallel corpora, which are in UTF-8 plaintexts, 1-to-1 sentence aligned,\none sentence per line, and include in-domain NEWS dataset of size 20k samples with 80% in the training set, 10% in the\ndev set and 10% in the test set; and out-of-domain parallel datasets roughly of size 4M samples, such as openSub (3.5M),\nted-like (55k), evbcorpus (45k), wiki-alt (20k), and basic (8.8k) datasets.\n\n\n### Homepage\n\nhttps://vinbigdata.org/en/events/vinbigdata-shares-100-hour-data-for-the-community/\n\n### Licensing\n\nUnknown\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0004 % of total\n- 0.0263 % of vi\n\n### BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -13294,7 +13278,7 @@ }, "fname": "indo4b.json" }, - "data_card": "# Indo4b\n\n- Dataset uid: `indo4b_bppt`\n\n## Sizes\n\n- 0.0003 % of total\n- 0.1147 % of id\n\n## Description\n\nA compiled Indonesian monolingual dataset. Includes OSCAR, OpenSub, and CommonCrawl\n\n## Homepage\n\nhttps://www.indobenchmark.com/\n\n## Licensing\n\nMIT License\n\n## Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- KILL\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Indo4b\n\n- Dataset uid: `indo4b_bppt`\n\n### Description\n\nA compiled Indonesian monolingual dataset. Includes OSCAR, OpenSub, and CommonCrawl\n\n### Homepage\n\nhttps://www.indobenchmark.com/\n\n### Licensing\n\nMIT License\n\n### Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0003 % of total\n- 0.1147 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- KILL\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -13404,7 +13388,7 @@ }, "fname": "indo4b.json" }, - "data_card": "# Indo4b\n\n- Dataset uid: `indo4b_parallel`\n\n## Sizes\n\n- 0.0003 % of total\n- 0.1115 % of id\n\n## Description\n\nA compiled Indonesian monolingual dataset. Includes OSCAR, OpenSub, and CommonCrawl\n\n## Homepage\n\nhttps://www.indobenchmark.com/\n\n## Licensing\n\nMIT License\n\n## Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- KILL\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Indo4b\n\n- Dataset uid: `indo4b_parallel`\n\n### Description\n\nA compiled Indonesian monolingual dataset. Includes OSCAR, OpenSub, and CommonCrawl\n\n### Homepage\n\nhttps://www.indobenchmark.com/\n\n### Licensing\n\nMIT License\n\n### Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0003 % of total\n- 0.1115 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- KILL\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -13515,7 +13499,7 @@ }, "fname": "vinbigdata_asr_vlsp_2020.json" }, - "data_card": "# VinBigData ASR VLSP 2020\n\n- Dataset uid: `vinbigdata_asr_vlsp_2020`\n\n## Sizes\n\n- 0.0003 % of total\n- 0.0199 % of vi\n\n## Description\n\n100 hours of speech data in Vietnamese provided by VinBigData for the VLSP ASR Challenge 2020\n\n## Homepage\n\nhttps://vinbigdata.org/events/vinbigdata-chia-se-100-gio-du-lieu-tieng-noi-cho-cong-dong/\n\n## Licensing\n\nUnknown\n\n## Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n## BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# VinBigData ASR VLSP 2020\n\n- Dataset uid: `vinbigdata_asr_vlsp_2020`\n\n### Description\n\n100 hours of speech data in Vietnamese provided by VinBigData for the VLSP ASR Challenge 2020\n\n### Homepage\n\nhttps://vinbigdata.org/events/vinbigdata-chia-se-100-gio-du-lieu-tieng-noi-cho-cong-dong/\n\n### Licensing\n\nUnknown\n\n### Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n### Sizes\n\n- 0.0003 % of total\n- 0.0199 % of vi\n\n### BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -13630,7 +13614,7 @@ }, "fname": "bangla_sentiment_classification_datasets.json" }, - "data_card": "# Bangla Sentiment Classification Datasets\n\n- Dataset uid: `bangla_sentiment_classification_datasets`\n\n## Sizes\n\n- 0.0002 % of total\n- 0.0074 % of indic-bn\n\n## Description\n\nMultiple sentiment classification datasets for Bengali, which can also be used for training LMs. The Datasets are the following:\n\nABSA_datasets -- This dataset has developed to per\u00adform aspect \u00adbased sentiment analysis task in Bangla.\nLicense: CC BY 4.0\n\nSAIL_data -- This dataset, consists of tweet posts, has developed in the Shared task on Sentiment Analysis in Indian Languages (SAIL) 2015. [2]\nLicense: Non-profit\n\nmultichannel_bsentiment -- This data was collected from several newspapers, TV news, books, blogs, and social me\u00addia.\nLicense: NA (N.B.: We have the permission to share this dataset.)\n\nyoutube_sentiment -- This dataset was devel\u00adoped by extracting comments from various YouTube videos.\nLicense: NA\n\n## Homepage\n\nhttps://github.com/banglanlp/bnlp-resources/tree/main/sentiment\n\n## Licensing\n\n- research use\n- cc-by-4.0: Creative Commons Attribution 4.0 International\n\n\n## Speaker Locations\n\n- Southern Asia\n- Bangladesh\n\n\n## BigScience processing steps\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Bangla Sentiment Classification Datasets\n\n- Dataset uid: `bangla_sentiment_classification_datasets`\n\n### Description\n\nMultiple sentiment classification datasets for Bengali, which can also be used for training LMs. The Datasets are the following:\n\nABSA_datasets -- This dataset has developed to per\u00adform aspect \u00adbased sentiment analysis task in Bangla.\nLicense: CC BY 4.0\n\nSAIL_data -- This dataset, consists of tweet posts, has developed in the Shared task on Sentiment Analysis in Indian Languages (SAIL) 2015. [2]\nLicense: Non-profit\n\nmultichannel_bsentiment -- This data was collected from several newspapers, TV news, books, blogs, and social me\u00addia.\nLicense: NA (N.B.: We have the permission to share this dataset.)\n\nyoutube_sentiment -- This dataset was devel\u00adoped by extracting comments from various YouTube videos.\nLicense: NA\n\n### Homepage\n\nhttps://github.com/banglanlp/bnlp-resources/tree/main/sentiment\n\n### Licensing\n\n- research use\n- cc-by-4.0: Creative Commons Attribution 4.0 International\n\nThe work is licensed under https://creativecommons.org/licenses/by-nc/4.0/. However, for each dataset, please see the license information associated with it. Any private dataset can be accessed by contacting with the respective authors.\n\n\n### Speaker Locations\n\n- Southern Asia\n- Bangladesh\n\n\n### Sizes\n\n- 0.0002 % of total\n- 0.0074 % of indic-bn\n\n### BigScience processing steps\n\n#### Filters applied to: indic-bn\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -13748,7 +13732,7 @@ }, "fname": "uit_viquad.json" }, - "data_card": "# UIT-ViQuAD \u2013\u00a0A Vietnamese Dataset for Evaluating Machine Reading Comprehension.\n\n- Dataset uid: `vilaquad`\n\n## Sizes\n\n- 0.0001 % of total\n- 0.0065 % of ca\n\n## Description\n\nVietnamese Question Answering Dataset (UIT-ViQuAD), a new\ndataset for the low-resource language as Vietnamese to evaluate MRC models. This dataset comprises over 23,000 human-generated question-answer pairs based on 5,109 passages of 174 Vietnamese articles from Wikipedia.\n\n## Homepage\n\nhttps://sites.google.com/uit.edu.vn/uit-nlp/datasets-projects\n\n## Licensing\n\n- open license\n- cc-by-nc-sa-4.0: Creative Commons Attribution Non Commercial Share Alike 4.0 International\n\n\n## Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n## BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# UIT-ViQuAD \u2013\u00a0A Vietnamese Dataset for Evaluating Machine Reading Comprehension.\n\n- Dataset uid: `vilaquad`\n\n### Description\n\nVietnamese Question Answering Dataset (UIT-ViQuAD), a new\ndataset for the low-resource language as Vietnamese to evaluate MRC models. This dataset comprises over 23,000 human-generated question-answer pairs based on 5,109 passages of 174 Vietnamese articles from Wikipedia.\n\n### Homepage\n\nhttps://sites.google.com/uit.edu.vn/uit-nlp/datasets-projects\n\n### Licensing\n\n- open license\n- cc-by-nc-sa-4.0: Creative Commons Attribution Non Commercial Share Alike 4.0 International\n\n Creative Commons Attribution 4.0 International License\n\n\n### Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n### Sizes\n\n- 0.0001 % of total\n- 0.0065 % of ca\n\n### BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -13866,7 +13850,7 @@ }, "fname": "uit_viquad.json" }, - "data_card": "# UIT-ViQuAD \u2013\u00a0A Vietnamese Dataset for Evaluating Machine Reading Comprehension.\n\n- Dataset uid: `viquiquad`\n\n## Sizes\n\n- 0.0001 % of total\n- 0.0047 % of ca\n\n## Description\n\nVietnamese Question Answering Dataset (UIT-ViQuAD), a new\ndataset for the low-resource language as Vietnamese to evaluate MRC models. This dataset comprises over 23,000 human-generated question-answer pairs based on 5,109 passages of 174 Vietnamese articles from Wikipedia.\n\n## Homepage\n\nhttps://sites.google.com/uit.edu.vn/uit-nlp/datasets-projects\n\n## Licensing\n\n- open license\n- cc-by-nc-sa-4.0: Creative Commons Attribution Non Commercial Share Alike 4.0 International\n\n\n## Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n## BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# UIT-ViQuAD \u2013\u00a0A Vietnamese Dataset for Evaluating Machine Reading Comprehension.\n\n- Dataset uid: `viquiquad`\n\n### Description\n\nVietnamese Question Answering Dataset (UIT-ViQuAD), a new\ndataset for the low-resource language as Vietnamese to evaluate MRC models. This dataset comprises over 23,000 human-generated question-answer pairs based on 5,109 passages of 174 Vietnamese articles from Wikipedia.\n\n### Homepage\n\nhttps://sites.google.com/uit.edu.vn/uit-nlp/datasets-projects\n\n### Licensing\n\n- open license\n- cc-by-nc-sa-4.0: Creative Commons Attribution Non Commercial Share Alike 4.0 International\n\n Creative Commons Attribution 4.0 International License\n\n\n### Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n### Sizes\n\n- 0.0001 % of total\n- 0.0047 % of ca\n\n### BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -13978,7 +13962,7 @@ }, "fname": "indonli.json" }, - "data_card": "# IndoNLI\n\n- Dataset uid: `indonli`\n\n## Sizes\n\n- 0.0000 % of total\n- 0.0151 % of id\n\n## Description\n\nA Natural Language Inference Dataset for Indonesian. \n\n## Homepage\n\nhttps://github.com/ir-nlp-csui/indonli\n\n## Licensing\n\n- multiple licenses\n- cc-by-sa-3.0: Creative Commons Attribution Share Alike 3.0 Unported\n- cc-by-sa-4.0: Creative Commons Attribution Share Alike 4.0 International\n- apache-2.0: Apache License 2.0\n\n\n## Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# IndoNLI\n\n- Dataset uid: `indonli`\n\n### Description\n\nA Natural Language Inference Dataset for Indonesian. \n\n### Homepage\n\nhttps://github.com/ir-nlp-csui/indonli\n\n### Licensing\n\n- multiple licenses\n- cc-by-sa-3.0: Creative Commons Attribution Share Alike 3.0 Unported\n- cc-by-sa-4.0: Creative Commons Attribution Share Alike 4.0 International\n- apache-2.0: Apache License 2.0\n\n\n### Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0000 % of total\n- 0.0151 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -14082,7 +14066,7 @@ "fname": "indonesian_frog_storytelling_corpus-validated-11_18_2021__12_12_12.json", "update_time": "11_18_2021__12_12_12" }, - "data_card": "# Indonesian Frog Storytelling Corpus\n\n- Dataset uid: `indonesian_frog_storytelling_corpus`\n\n## Sizes\n\n- 0.0000 % of total\n- 0.0047 % of id\n\n## Description\n\nIndonesian written and spoken corpus, based on the [twenty-eight pictures](http://compling.hss.ntu.edu.sg/who/david/corpus/pictures.pdf)\n\nThe storytelling survey was conducted in Malang in August 2011 and in Tokyo in September \nand October 2011. The consultants were from different backgrounds (as for age, place of birth, place \nof growing up, and mother tongue). All had received a high school-level or university-level education. \nAll could be classified as belonging to the middle class socially.\n\nhttp://www.tufs.ac.jp/st/personal/13/david/papers/APLL5_davidmoeljadi.pdf\n\n## Homepage\n\nhttps://github.com/davidmoeljadi/corpus-frog-storytelling\n\n## Licensing\n\n- open license\n- cc-by-sa-4.0: Creative Commons Attribution Share Alike 4.0 International\n\n\n## Speaker Locations\n\n- Indonesia\n- Japan\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- no\n- processing\n- at\n- all\n- as\n- unnecessary\n- dedup\n- was\n- caught\n- late\n\n" + "data_card": "# Indonesian Frog Storytelling Corpus\n\n- Dataset uid: `indonesian_frog_storytelling_corpus`\n\n### Description\n\nIndonesian written and spoken corpus, based on the [twenty-eight pictures](http://compling.hss.ntu.edu.sg/who/david/corpus/pictures.pdf)\n\nThe storytelling survey was conducted in Malang in August 2011 and in Tokyo in September \nand October 2011. The consultants were from different backgrounds (as for age, place of birth, place \nof growing up, and mother tongue). All had received a high school-level or university-level education. \nAll could be classified as belonging to the middle class socially.\n\nhttp://www.tufs.ac.jp/st/personal/13/david/papers/APLL5_davidmoeljadi.pdf\n\n### Homepage\n\nhttps://github.com/davidmoeljadi/corpus-frog-storytelling\n\n### Licensing\n\n- open license\n- cc-by-sa-4.0: Creative Commons Attribution Share Alike 4.0 International\n\n\n### Speaker Locations\n\n- Indonesia\n- Japan\n\n\n### Sizes\n\n- 0.0000 % of total\n- 0.0047 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- no\n- processing\n- at\n- all\n- as\n- unnecessary\n- dedup\n- was\n- caught\n- late\n\n" } ], [ @@ -14108,7 +14092,7 @@ "subject": "general news", "owner": "el periodico de mexico" }, - "data_card": "# el periodico de mexico\n\n- Dataset uid: `pseudocrawl-filtered_401_www_elperiodicodemexico_com`\n\n## Sizes\n\n- 0.0000 % of total\n- 0.0003 % of es\n\n## Description\n\nwebsite: mexico -general news\n\n## Homepage\n\nhttp://www.elperiodicodemexico.com/\n\n## Licensing\n\n\n\n## Speaker Locations\n\nmexico\n\n## BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# el periodico de mexico\n\n- Dataset uid: `pseudocrawl-filtered_401_www_elperiodicodemexico_com`\n\n### Description\n\nwebsite: mexico -general news\n\n### Homepage\n\nhttp://www.elperiodicodemexico.com/\n\n### Licensing\n\n\n\n### Speaker Locations\n\nmexico\n\n### Sizes\n\n- 0.0000 % of total\n- 0.0003 % of es\n\n### BigScience processing steps\n\n#### Filters applied to: es\n\n- dedup_document_on_url\n- dedup_document\n- dedup_pseudocrawl_newspapers\n- filter_remove_empty_docs\n- remove_lines_with_code\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -14231,7 +14215,7 @@ }, "fname": "book_dash_books.json" }, - "data_card": "# Book Dash Books\n\n- Dataset uid: `book_dash_books`\n\n## Sizes\n\n- 0.0000 % of total\n- 0.0000 % of en\n- 0.0000 % of fr\n\n## Description\n\nBook Dash believes that every child should own one hundred books by the age of five.\n\nTo that end, we gather creative professionals who volunteer to create new, African storybooks that anyone can freely translate, print and distribute. In this way, we have vastly reduced the costs involved in putting high-quality books in children\u2019s hands and hearts.\n\n## Homepage\n\nhttps://bookdash.org/books/\n\n## Licensing\n\nCreative Commons Attribution 4.0\n\n## Speaker Locations\n\n- Africa\n- South Africa\n\n\n## BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Book Dash Books\n\n- Dataset uid: `book_dash_books`\n\n### Description\n\nBook Dash believes that every child should own one hundred books by the age of five.\n\nTo that end, we gather creative professionals who volunteer to create new, African storybooks that anyone can freely translate, print and distribute. In this way, we have vastly reduced the costs involved in putting high-quality books in children\u2019s hands and hearts.\n\n### Homepage\n\nhttps://bookdash.org/books/\n\n### Licensing\n\nCreative Commons Attribution 4.0\n\n### Speaker Locations\n\n- Africa\n- South Africa\n\n\n### Sizes\n\n- 0.0000 % of total\n- 0.0000 % of en\n- 0.0000 % of fr\n\n### BigScience processing steps\n\n#### Filters applied to: en\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n#### Filters applied to: fr\n\n- dedup_document\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -14345,7 +14329,7 @@ }, "fname": "xquad_ca.json" }, - "data_card": "# XQuAD-ca\n\n- Dataset uid: `xquad_ca`\n\n## Sizes\n\n- 0.0000 % of total\n- 0.0007 % of ca\n\n## Description\n\nProfessional translation into Catalan of XQuAD dataset (https://github.com/deepmind/xquad).\n\nXQuAD (Cross-lingual Question Answering Dataset) is a benchmark dataset for evaluating cross-lingual question answering performance. The dataset consists of a subset of 240 paragraphs and 1190 question-answer pairs from the development set of SQuAD v1.1 (Rajpurkar et al., 2016) together with their professional translations into ten languages: Spanish, German, Greek, Russian, Turkish, Arabic, Vietnamese, Thai, Chinese, and Hindi. Rumanian was added later. We added the 13th language to the corpus using also professional native catalan translators.\n\nXQuAD and XQuAD-Ca datasets are released under CC-by-sa licence.\n\n## Homepage\n\nhttps://zenodo.org/record/4757559\n\n## Licensing\n\n- cc-by-sa-4.0: Creative Commons Attribution Share Alike 4.0 International\n\n\n## Speaker Locations\n\n- Spain\n\n\n## BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# XQuAD-ca\n\n- Dataset uid: `xquad_ca`\n\n### Description\n\nProfessional translation into Catalan of XQuAD dataset (https://github.com/deepmind/xquad).\n\nXQuAD (Cross-lingual Question Answering Dataset) is a benchmark dataset for evaluating cross-lingual question answering performance. The dataset consists of a subset of 240 paragraphs and 1190 question-answer pairs from the development set of SQuAD v1.1 (Rajpurkar et al., 2016) together with their professional translations into ten languages: Spanish, German, Greek, Russian, Turkish, Arabic, Vietnamese, Thai, Chinese, and Hindi. Rumanian was added later. We added the 13th language to the corpus using also professional native catalan translators.\n\nXQuAD and XQuAD-Ca datasets are released under CC-by-sa licence.\n\n### Homepage\n\nhttps://zenodo.org/record/4757559\n\n### Licensing\n\n- cc-by-sa-4.0: Creative Commons Attribution Share Alike 4.0 International\n\n\n### Speaker Locations\n\n- Spain\n\n\n### Sizes\n\n- 0.0000 % of total\n- 0.0007 % of ca\n\n### BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -14451,7 +14435,7 @@ }, "fname": "uit_vsfc_vietnamese_students_feedback_corpus.json" }, - "data_card": "# UIT-VSFC (version 1.0) - Vietnamese Students\u2019 Feedback Corpus\n\n- Dataset uid: `vietnamese_students_feedback`\n\n## Sizes\n\n- 0.0000 % of total\n- 0.0005 % of vi\n\n## Description\n\nStudents\u2019 feedback is a vital resource for the interdisciplinary research involving the combining of two different research fields between sentiment analysis and education. Vietnamese Students\u2019 Feedback Corpus (UIT-VSFC) is the resource consists of over 16,000 sentences which are human-annotated with two different tasks: sentiment-based and topic-based classifications.\n\nPaper: Kiet Van Nguyen, Vu Duc Nguyen, Phu Xuan-Vinh Nguyen, Tham Thi-Hong Truong, Ngan Luu-Thuy Nguyen, UIT-VSFC: Vietnamese Students' Feedback Corpus for Sentiment Analysis, 2018 10th International Conference on Knowledge and Systems Engineering (KSE 2018), November 1-3, 2018, Ho Chi Minh City, Vietnam. \n\n## Homepage\n\nhttps://sites.google.com/uit.edu.vn/uit-nlp/datasets-projects\n\n## Licensing\n\n\n\n## Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n## BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# UIT-VSFC (version 1.0) - Vietnamese Students\u2019 Feedback Corpus\n\n- Dataset uid: `vietnamese_students_feedback`\n\n### Description\n\nStudents\u2019 feedback is a vital resource for the interdisciplinary research involving the combining of two different research fields between sentiment analysis and education. Vietnamese Students\u2019 Feedback Corpus (UIT-VSFC) is the resource consists of over 16,000 sentences which are human-annotated with two different tasks: sentiment-based and topic-based classifications.\n\nPaper: Kiet Van Nguyen, Vu Duc Nguyen, Phu Xuan-Vinh Nguyen, Tham Thi-Hong Truong, Ngan Luu-Thuy Nguyen, UIT-VSFC: Vietnamese Students' Feedback Corpus for Sentiment Analysis, 2018 10th International Conference on Knowledge and Systems Engineering (KSE 2018), November 1-3, 2018, Ho Chi Minh City, Vietnam. \n\n### Homepage\n\nhttps://sites.google.com/uit.edu.vn/uit-nlp/datasets-projects\n\n### Licensing\n\n\n\n### Speaker Locations\n\n- South-eastern Asia\n- Vietnam\n\n\n### Sizes\n\n- 0.0000 % of total\n- 0.0005 % of vi\n\n### BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -14561,7 +14545,7 @@ }, "fname": "indo4b.json" }, - "data_card": "# Indo4b\n\n- Dataset uid: `indo4b_talpco`\n\n## Sizes\n\n- 0.0000 % of total\n- 0.0018 % of id\n\n## Description\n\nA compiled Indonesian monolingual dataset. Includes OSCAR, OpenSub, and CommonCrawl\n\n## Homepage\n\nhttps://www.indobenchmark.com/\n\n## Licensing\n\nMIT License\n\n## Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n## BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- KILL\n- filter_small_docs_bytes_300\n\n" + "data_card": "# Indo4b\n\n- Dataset uid: `indo4b_talpco`\n\n### Description\n\nA compiled Indonesian monolingual dataset. Includes OSCAR, OpenSub, and CommonCrawl\n\n### Homepage\n\nhttps://www.indobenchmark.com/\n\n### Licensing\n\nMIT License\n\n### Speaker Locations\n\n- South-eastern Asia\n- Indonesia\n\n\n### Sizes\n\n- 0.0000 % of total\n- 0.0018 % of id\n\n### BigScience processing steps\n\n#### Filters applied to: id\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- KILL\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -14586,7 +14570,7 @@ "homepage": "https://sites.google.com/uit.edu.vn/uit-nlp/datasets-projects#h.p_FxJKMfavctsJ", "hf_id": "uit_vsmec" }, - "data_card": "# uit_vsmec\n\n- Dataset uid: `uit_vsmec`\n\n## Sizes\n\n- 0.0000 % of total\n- 0.0001 % of vi\n\n## Description\n\nVietnamese Social Media Emotion Corpus (UIT-VSMEC) contains about 6,927 human-annotated sentences with six emotion\nlabels, contributing to emotion recognition research in Vietnamese which is a low-resource language in Natural\nLanguage Processing (NLP)\n\n\n## Homepage\n\nhttps://sites.google.com/uit.edu.vn/uit-nlp/datasets-projects#h.p_FxJKMfavctsJ\n\n## Licensing\n\nUnknown\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" + "data_card": "# uit_vsmec\n\n- Dataset uid: `uit_vsmec`\n\n### Description\n\nVietnamese Social Media Emotion Corpus (UIT-VSMEC) contains about 6,927 human-annotated sentences with six emotion\nlabels, contributing to emotion recognition research in Vietnamese which is a low-resource language in Natural\nLanguage Processing (NLP)\n\n\n### Homepage\n\nhttps://sites.google.com/uit.edu.vn/uit-nlp/datasets-projects#h.p_FxJKMfavctsJ\n\n### Licensing\n\nUnknown\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0000 % of total\n- 0.0001 % of vi\n\n### BigScience processing steps\n\n#### Filters applied to: vi\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_300\n\n" } ], [ @@ -14699,7 +14683,7 @@ }, "fname": "enriched_conllu_ancora_for_ml_training.json" }, - "data_card": "# Enriched CONLLU Ancora for ML training\n\n- Dataset uid: `enriched_conllu_ancora_for_ml_training`\n\n## Sizes\n\n- 0.0000 % of total\n- 0.0000 % of ca\n\n## Description\n\nThis is an enriched version for Machine Learning purposes of the CONLLU adaptation of AnCora corpus .\n\nThis version of the corpus was developed by BSC TeMU as part of the AINA project, and has been used to do multi-task learning for the Catalan language Spacy 3.0 models.\n\n## Homepage\n\nhttps://zenodo.org/record/5036651\n\n## Licensing\n\n- cc-by-4.0: Creative Commons Attribution 4.0 International\n\n\n## Speaker Locations\n\n- Spain\n\n\n## BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# Enriched CONLLU Ancora for ML training\n\n- Dataset uid: `enriched_conllu_ancora_for_ml_training`\n\n### Description\n\nThis is an enriched version for Machine Learning purposes of the CONLLU adaptation of AnCora corpus .\n\nThis version of the corpus was developed by BSC TeMU as part of the AINA project, and has been used to do multi-task learning for the Catalan language Spacy 3.0 models.\n\n### Homepage\n\nhttps://zenodo.org/record/5036651\n\n### Licensing\n\n- cc-by-4.0: Creative Commons Attribution 4.0 International\n\n\n### Speaker Locations\n\n- Spain\n\n\n### Sizes\n\n- 0.0000 % of total\n- 0.0000 % of ca\n\n### BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ], [ @@ -14717,7 +14701,7 @@ } ], "total": 1.319e-06, - "data_card": "# parlament_parla\n\n- Dataset uid: `parlament_parla`\n\n## Sizes\n\n- 0.0000 % of total\n- 0.0000 % of ca\n\n## Description\n\n\n\n## Homepage\n\n\n\n## Licensing\n\n\n\n## Speaker Locations\n\n\n\n## BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" + "data_card": "# parlament_parla\n\n- Dataset uid: `parlament_parla`\n\n### Description\n\n\n\n### Homepage\n\n\n\n### Licensing\n\n\n\n### Speaker Locations\n\n\n\n### Sizes\n\n- 0.0000 % of total\n- 0.0000 % of ca\n\n### BigScience processing steps\n\n#### Filters applied to: ca\n\n- dedup_document\n- dedup_template_soft\n- filter_remove_empty_docs\n- filter_small_docs_bytes_1024\n\n" } ] ] \ No newline at end of file