Spaces:

S-MurilloG
/

CARSE

Sleeping

S-MurilloG commited on Dec 10, 2023

Commit

2da86a5

•

1 Parent(s): bae67a9

Creating training files

Files changed (4) hide show

CARSE_00_Cleaning.ipynb CHANGED Viewed

@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 2,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -1242,34 +1242,38 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 23,
    "metadata": {},
    "outputs": [],
    "source": [
-    "def dividir_jsonl(ruta_original, num_partes):\n",
-    "    # Leer el archivo original\n",
-    "    with open(ruta_original, 'r', encoding='utf-8') as file:\n",
     "        lineas = file.readlines()\n",
     "\n",
     "    # Calcular el tamaño de cada parte\n",
-    "    total_lineas = len(lineas)\n",
-    "    tamaño_parte = math.ceil(total_lineas / num_partes)\n",
     "\n",
-    "    # Dividir y guardar las partes\n",
     "    for i in range(num_partes):\n",
-    "        parte = lineas[i*tamaño_parte:(i+1)*tamaño_parte]\n",
-    "        ruta_nueva = ruta_original.replace('.jsonl', f'_{i+1}.jsonl')\n",
-    "        with open(ruta_nueva, 'w', encoding='utf-8') as new_file:\n",
-    "            new_file.writelines(parte)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 24,
    "metadata": {},
    "outputs": [],
    "source": [
-    "dividir_jsonl('Training_Data/Training_Prompts.jsonl', 5)"
    ]
   },
   {

  "cells": [
   {
    "cell_type": "code",
+   "execution_count": 1,
    "metadata": {},
    "outputs": [],
    "source": [
   },
   {
    "cell_type": "code",
+   "execution_count": 2,
    "metadata": {},
    "outputs": [],
    "source": [
+    "def dividir_jsonl(ruta_archivo, num_partes):\n",
+    "    # Leer todas las líneas del archivo\n",
+    "    with open(ruta_archivo, 'r', encoding='utf-8') as file:\n",
     "        lineas = file.readlines()\n",
     "\n",
     "    # Calcular el tamaño de cada parte\n",
+    "    tamano_parte = len(lineas) // num_partes\n",
     "\n",
     "    for i in range(num_partes):\n",
+    "        # Calcular el inicio y el fin de cada parte\n",
+    "        inicio = i * tamano_parte\n",
+    "        fin = (i + 1) * tamano_parte if i != num_partes - 1 else len(lineas)\n",
+    "\n",
+    "        # Nombre del nuevo archivo\n",
+    "        nombre_nuevo_archivo = ruta_archivo.replace('.jsonl', f'_{i + 1}.jsonl')\n",
+    "\n",
+    "        # Escribir las líneas en el nuevo archivo\n",
+    "        with open(nombre_nuevo_archivo, 'w', encoding='utf-8') as nuevo_archivo:\n",
+    "            nuevo_archivo.writelines(lineas[inicio:fin])"
    ]
   },
   {
    "cell_type": "code",
+   "execution_count": 3,
    "metadata": {},
    "outputs": [],
    "source": [
+    "dividir_jsonl('Training_Data/Training_Prompts.jsonl', 3)"
    ]
   },
   {

Training_Data/Training_Prompts_1.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

Training_Data/Training_Prompts_2.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

Training_Data/Training_Prompts_3.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff