Training in progress, epoch 1

Browse files

Files changed (5) hide show

eval_job_output.txt +114 -6
logs/events.out.tfevents.1715485378.sphinx2 +3 -0
model.safetensors +1 -1
train_job_output.txt +0 -0
training_args.bin +1 -1

eval_job_output.txt CHANGED Viewed

@@ -1,4 +1,4 @@
-slurm submission log: 2024-05-11 08:25:31.074168
 created following sbatch script:
 ###############################
@@ -7,13 +7,13 @@ created following sbatch script:
 #SBATCH --account=nlp
 #SBATCH --cpus-per-task=16
-#SBATCH --dependency=afterok:7597680
 #SBATCH --gres=gpu:1
-#SBATCH --job-name=tthrush-job-2692470
 #SBATCH --mem=60G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_4/pythia-70m_sciq/eval_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
@@ -24,7 +24,7 @@ created following sbatch script:
 cd .
 # launch commands
-srun --unbuffered run_as_child_processes 'lm_eval --model hf --model_args pretrained=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_4/pythia-70m_sciq,revision=main,dtype=float16,trust_remote_code=True --tasks xnli_en,xnli_fr,sciq,piqa,lambada,arc_easy --device cuda --output_path /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_4/pythia-70m_sciq/perf'
 ###############################
@@ -34,7 +34,115 @@ submission to slurm complete!
 ###############################
 slurm submission output
-Submitted batch job 7597681

+slurm submission log: 2024-05-11 17:54:08.850609
 created following sbatch script:
 ###############################
 #SBATCH --account=nlp
 #SBATCH --cpus-per-task=16
+#SBATCH --dependency=afterok:
 #SBATCH --gres=gpu:1
+#SBATCH --job-name=tthrush-job-2902311
 #SBATCH --mem=60G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_5/pythia-70m_sciq/eval_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
 cd .
 # launch commands
+srun --unbuffered run_as_child_processes 'lm_eval --model hf --model_args pretrained=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_5/pythia-70m_sciq,revision=main,dtype=float16,trust_remote_code=True --tasks xnli_en,xnli_fr,sciq,piqa,lambada,arc_easy --device cuda --output_path /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_5/pythia-70m_sciq/perf'
 ###############################
 ###############################
 slurm submission output
+sbatch: error: Batch job submission failed: Job dependency problem
+###############################
+slurm submission log: 2024-05-11 17:55:07.106159
+created following sbatch script:
+###############################
+#!/bin/bash
+#SBATCH --account=nlp
+#SBATCH --cpus-per-task=16
+#SBATCH --dependency=afterok:7598873
+#SBATCH --gres=gpu:1
+#SBATCH --job-name=tthrush-job-552824
+#SBATCH --mem=60G
+#SBATCH --nodelist=sphinx2
+#SBATCH --open-mode=append
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_5/pythia-70m_sciq/eval_job_output.txt
+#SBATCH --partition=sphinx
+#SBATCH --time=14-0
+# activate your desired anaconda environment
+. /nlp/scr/tthrush/miniconda3/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
+# cd to working directory
+cd .
+# launch commands
+srun --unbuffered run_as_child_processes 'lm_eval --model hf --model_args pretrained=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_5/pythia-70m_sciq,revision=main,dtype=float16,trust_remote_code=True --tasks xnli_en,xnli_fr,sciq,piqa,lambada,arc_easy --device cuda --output_path /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_5/pythia-70m_sciq/perf'
+###############################
+submission to slurm complete!
+###############################
+slurm submission output
+Submitted batch job 7598874
+###############################
+###############################
+start time: 2024-05-11 17:58:20.674188
+machine: sphinx2
+conda env: pretraining-coreset-selection
+###############################
+running following processes
+	lm_eval --model hf --model_args pretrained=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_5/pythia-70m_sciq,revision=main,dtype=float16,trust_remote_code=True --tasks xnli_en,xnli_fr,sciq,piqa,lambada,arc_easy --device cuda --output_path /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_5/pythia-70m_sciq/perf
+###############################
+command outputs:
+2024-05-11:17:58:30,428 INFO     [utils.py:145] Note: detected 255 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+2024-05-11:17:58:30,429 INFO     [utils.py:148] Note: NumExpr detected 255 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 8.
+2024-05-11:17:58:30,429 INFO     [utils.py:160] NumExpr defaulting to 8 threads.
+2024-05-11:17:58:31,929 INFO     [config.py:58] PyTorch version 2.2.2 available.
+2024-05-11:17:58:45,100 INFO     [__main__.py:156] Verbosity set to INFO
+2024-05-11:17:59:06,539 WARNING  [__init__.py:194] Some tasks could not be loaded due to missing dependencies. Run with `--verbosity DEBUG` for full details.
+srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
+slurmstepd: error: *** JOB 7598874 ON sphinx2 CANCELLED AT 2024-05-11T17:59:25 ***
+slurmstepd: error: *** STEP 7598874.0 ON sphinx2 CANCELLED AT 2024-05-11T17:59:25 ***
+Received SIGTERM, job terminating, terminating 1 processes...
+slurm submission log: 2024-05-11 18:01:39.856307
+created following sbatch script:
+###############################
+#!/bin/bash
+#SBATCH --account=nlp
+#SBATCH --cpus-per-task=16
+#SBATCH --dependency=afterok:7598912
+#SBATCH --gres=gpu:1
+#SBATCH --job-name=tthrush-job-2986377
+#SBATCH --mem=60G
+#SBATCH --nodelist=sphinx2
+#SBATCH --open-mode=append
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_5/pythia-70m_sciq/eval_job_output.txt
+#SBATCH --partition=sphinx
+#SBATCH --time=14-0
+# activate your desired anaconda environment
+. /nlp/scr/tthrush/miniconda3/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection
+# cd to working directory
+cd .
+# launch commands
+srun --unbuffered run_as_child_processes 'lm_eval --model hf --model_args pretrained=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_5/pythia-70m_sciq,revision=main,dtype=float16,trust_remote_code=True --tasks xnli_en,xnli_fr,sciq,piqa,lambada,arc_easy --device cuda --output_path /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_5/pythia-70m_sciq/perf'
+###############################
+submission to slurm complete!
+###############################
+slurm submission output
+Submitted batch job 7598913

logs/events.out.tfevents.1715485378.sphinx2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15263a7225da1f4f0806bc2fba683d6809899abf9a452ff616540262cc4a3253
+size 10945

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f51424cb0f092588de032db63dcef771464354ab09c74d632a708c36fa8acd6
 size 281715176

 version https://git-lfs.github.com/spec/v1
+oid sha256:612536822ee693a2397fef160cdf02f61f9e2b66af69438301805f21341c83f0
 size 281715176

train_job_output.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e04bfdb92ab1879030b0d4669e0346cd3f25731fb0a293addd36be27daf958d
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:daaa4e440a16d03580dcaf76961ff26dde4440ee9c04759894a86a546a4710e0
 size 5048