custom_llm-small / log /debug_0.log
krupalkp's picture
sample model
a382e43
06/08/2023 12:24:51 - INFO - __main__ - Distributed environment: NO
Num processes: 1
Process index: 0
Local process index: 0
Device: cpu
Mixed precision type: fp16
06/08/2023 12:24:51 - WARNING - huggingface_hub.repository - /workspace/custom_llm-small/./ is already a clone of https://huggingface.co/krupalkp/custom_llm-small. Make sure you pull the latest changes with `repo.git_pull()`.
06/08/2023 12:24:51 - WARNING - huggingface_hub.repository - Revision `glorious-sound-1` does not exist. Created and checked out branch `glorious-sound-1`.
06/08/2023 12:24:51 - WARNING - huggingface_hub.repository -
06/08/2023 12:24:52 - INFO - datasets.builder - Using custom data configuration default-0f955d751e26ae0d
06/08/2023 12:24:52 - INFO - datasets.info - Loading Dataset Infos from /workspace/envs/llmenv/lib/python3.8/site-packages/datasets/packaged_modules/text
06/08/2023 12:24:52 - INFO - datasets.builder - Using custom data configuration default-da36a6bce6dd6929
06/08/2023 12:24:52 - INFO - datasets.info - Loading Dataset Infos from /workspace/envs/llmenv/lib/python3.8/site-packages/datasets/packaged_modules/text
06/08/2023 12:26:05 - INFO - __main__ - Step 1: {'lr': 0.0, 'samples': 2, 'steps': 0, 'loss/train': 9.792549133300781}
06/08/2023 12:27:03 - INFO - __main__ - Step 2: {'lr': 0.0, 'samples': 4, 'steps': 0, 'loss/train': 9.825643539428711}
06/08/2023 12:27:19 - INFO - __main__ - Step 3: {'lr': 0.0, 'samples': 6, 'steps': 0, 'loss/train': 9.78059196472168}
06/08/2023 12:27:35 - INFO - __main__ - Step 4: {'lr': 0.0, 'samples': 8, 'steps': 0, 'loss/train': 9.781628608703613}
06/08/2023 12:27:51 - INFO - __main__ - Step 5: {'lr': 0.0, 'samples': 10, 'steps': 0, 'loss/train': 9.810882568359375}
06/08/2023 12:28:06 - INFO - __main__ - Step 6: {'lr': 0.0, 'samples': 12, 'steps': 0, 'loss/train': 9.808069229125977}
06/08/2023 12:28:22 - INFO - __main__ - Step 7: {'lr': 0.0, 'samples': 14, 'steps': 0, 'loss/train': 9.817597389221191}
06/08/2023 12:28:37 - INFO - __main__ - Step 8: {'lr': 0.0, 'samples': 16, 'steps': 0, 'loss/train': 9.784443855285645}
06/08/2023 12:28:53 - INFO - __main__ - Step 9: {'lr': 0.0, 'samples': 18, 'steps': 0, 'loss/train': 9.826574325561523}
06/08/2023 12:29:08 - INFO - __main__ - Step 10: {'lr': 0.0, 'samples': 20, 'steps': 0, 'loss/train': 9.826700210571289}
06/08/2023 12:29:24 - INFO - __main__ - Step 11: {'lr': 0.0, 'samples': 22, 'steps': 0, 'loss/train': 9.811628341674805}
06/08/2023 12:29:40 - INFO - __main__ - Step 12: {'lr': 0.0, 'samples': 24, 'steps': 0, 'loss/train': 9.823099136352539}
06/08/2023 12:29:56 - INFO - __main__ - Step 13: {'lr': 0.0, 'samples': 26, 'steps': 0, 'loss/train': 9.831729888916016}
06/08/2023 12:30:12 - INFO - __main__ - Step 14: {'lr': 0.0, 'samples': 28, 'steps': 0, 'loss/train': 9.839056015014648}
06/08/2023 12:30:28 - INFO - __main__ - Step 15: {'lr': 0.0, 'samples': 30, 'steps': 0, 'loss/train': 9.804789543151855}
06/08/2023 12:30:45 - INFO - __main__ - Step 16: {'lr': 0.0, 'samples': 32, 'steps': 0, 'loss/train': 9.805603981018066}
06/08/2023 12:31:02 - INFO - __main__ - Step 17: {'lr': 2.6666666666666667e-07, 'samples': 34, 'steps': 1, 'loss/train': 9.789372444152832}
06/08/2023 12:31:18 - INFO - __main__ - Step 18: {'lr': 2.6666666666666667e-07, 'samples': 36, 'steps': 1, 'loss/train': 9.841607093811035}
06/08/2023 12:31:35 - INFO - __main__ - Step 19: {'lr': 2.6666666666666667e-07, 'samples': 38, 'steps': 1, 'loss/train': 9.838142395019531}
06/08/2023 12:31:51 - INFO - __main__ - Step 20: {'lr': 2.6666666666666667e-07, 'samples': 40, 'steps': 1, 'loss/train': 9.802177429199219}
06/08/2023 12:32:07 - INFO - __main__ - Step 21: {'lr': 2.6666666666666667e-07, 'samples': 42, 'steps': 1, 'loss/train': 9.837615013122559}
06/08/2023 12:32:23 - INFO - __main__ - Step 22: {'lr': 2.6666666666666667e-07, 'samples': 44, 'steps': 1, 'loss/train': 9.80981731414795}
06/08/2023 12:32:40 - INFO - __main__ - Step 23: {'lr': 2.6666666666666667e-07, 'samples': 46, 'steps': 1, 'loss/train': 9.793614387512207}
06/08/2023 12:32:56 - INFO - __main__ - Step 24: {'lr': 2.6666666666666667e-07, 'samples': 48, 'steps': 1, 'loss/train': 9.803434371948242}
06/08/2023 12:33:12 - INFO - __main__ - Step 25: {'lr': 2.6666666666666667e-07, 'samples': 50, 'steps': 1, 'loss/train': 9.80640697479248}
06/08/2023 12:33:28 - INFO - __main__ - Step 26: {'lr': 2.6666666666666667e-07, 'samples': 52, 'steps': 1, 'loss/train': 9.839242935180664}
06/08/2023 12:33:44 - INFO - __main__ - Step 27: {'lr': 2.6666666666666667e-07, 'samples': 54, 'steps': 1, 'loss/train': 9.837196350097656}
06/08/2023 12:34:00 - INFO - __main__ - Step 28: {'lr': 2.6666666666666667e-07, 'samples': 56, 'steps': 1, 'loss/train': 9.830636978149414}
06/08/2023 12:34:16 - INFO - __main__ - Step 29: {'lr': 2.6666666666666667e-07, 'samples': 58, 'steps': 1, 'loss/train': 9.835775375366211}
06/08/2023 12:34:32 - INFO - __main__ - Step 30: {'lr': 2.6666666666666667e-07, 'samples': 60, 'steps': 1, 'loss/train': 9.797348976135254}
06/08/2023 12:34:48 - INFO - __main__ - Step 31: {'lr': 2.6666666666666667e-07, 'samples': 62, 'steps': 1, 'loss/train': 9.817122459411621}
06/08/2023 12:35:04 - INFO - __main__ - Step 32: {'lr': 2.6666666666666667e-07, 'samples': 64, 'steps': 1, 'loss/train': 9.825984001159668}
06/08/2023 12:35:20 - INFO - __main__ - Step 33: {'lr': 5.333333333333333e-07, 'samples': 66, 'steps': 2, 'loss/train': 9.822331428527832}
06/08/2023 12:35:36 - INFO - __main__ - Step 34: {'lr': 5.333333333333333e-07, 'samples': 68, 'steps': 2, 'loss/train': 9.810147285461426}
06/08/2023 12:35:53 - INFO - __main__ - Step 35: {'lr': 5.333333333333333e-07, 'samples': 70, 'steps': 2, 'loss/train': 9.826034545898438}
06/08/2023 12:36:09 - INFO - __main__ - Step 36: {'lr': 5.333333333333333e-07, 'samples': 72, 'steps': 2, 'loss/train': 9.794151306152344}
06/08/2023 12:36:25 - INFO - __main__ - Step 37: {'lr': 5.333333333333333e-07, 'samples': 74, 'steps': 2, 'loss/train': 9.828431129455566}
06/08/2023 12:36:41 - INFO - __main__ - Step 38: {'lr': 5.333333333333333e-07, 'samples': 76, 'steps': 2, 'loss/train': 9.776195526123047}
06/08/2023 12:36:57 - INFO - __main__ - Step 39: {'lr': 5.333333333333333e-07, 'samples': 78, 'steps': 2, 'loss/train': 9.791631698608398}
06/08/2023 12:37:13 - INFO - __main__ - Step 40: {'lr': 5.333333333333333e-07, 'samples': 80, 'steps': 2, 'loss/train': 9.781876564025879}
06/08/2023 12:37:29 - INFO - __main__ - Step 41: {'lr': 5.333333333333333e-07, 'samples': 82, 'steps': 2, 'loss/train': 9.809560775756836}
06/08/2023 12:37:45 - INFO - __main__ - Step 42: {'lr': 5.333333333333333e-07, 'samples': 84, 'steps': 2, 'loss/train': 9.816283226013184}
06/08/2023 12:38:01 - INFO - __main__ - Step 43: {'lr': 5.333333333333333e-07, 'samples': 86, 'steps': 2, 'loss/train': 9.819095611572266}
06/08/2023 12:38:17 - INFO - __main__ - Step 44: {'lr': 5.333333333333333e-07, 'samples': 88, 'steps': 2, 'loss/train': 9.795587539672852}
06/08/2023 12:38:34 - INFO - __main__ - Step 45: {'lr': 5.333333333333333e-07, 'samples': 90, 'steps': 2, 'loss/train': 9.788451194763184}
06/08/2023 12:38:50 - INFO - __main__ - Step 46: {'lr': 5.333333333333333e-07, 'samples': 92, 'steps': 2, 'loss/train': 9.802919387817383}
06/08/2023 12:39:06 - INFO - __main__ - Step 47: {'lr': 5.333333333333333e-07, 'samples': 94, 'steps': 2, 'loss/train': 9.7972993850708}
06/08/2023 12:39:22 - INFO - __main__ - Step 48: {'lr': 5.333333333333333e-07, 'samples': 96, 'steps': 2, 'loss/train': 9.824687957763672}
06/08/2023 12:39:38 - INFO - __main__ - Step 49: {'lr': 8.000000000000001e-07, 'samples': 98, 'steps': 3, 'loss/train': 9.786107063293457}
06/08/2023 12:39:54 - INFO - __main__ - Step 50: {'lr': 8.000000000000001e-07, 'samples': 100, 'steps': 3, 'loss/train': 9.771675109863281}
06/08/2023 12:40:11 - INFO - __main__ - Step 51: {'lr': 8.000000000000001e-07, 'samples': 102, 'steps': 3, 'loss/train': 9.784013748168945}
06/08/2023 12:40:27 - INFO - __main__ - Step 52: {'lr': 8.000000000000001e-07, 'samples': 104, 'steps': 3, 'loss/train': 9.798379898071289}
06/08/2023 12:40:43 - INFO - __main__ - Step 53: {'lr': 8.000000000000001e-07, 'samples': 106, 'steps': 3, 'loss/train': 9.767139434814453}
06/08/2023 12:40:59 - INFO - __main__ - Step 54: {'lr': 8.000000000000001e-07, 'samples': 108, 'steps': 3, 'loss/train': 9.783173561096191}
06/08/2023 12:41:16 - INFO - __main__ - Step 55: {'lr': 8.000000000000001e-07, 'samples': 110, 'steps': 3, 'loss/train': 9.81434154510498}
06/08/2023 12:41:33 - INFO - __main__ - Step 56: {'lr': 8.000000000000001e-07, 'samples': 112, 'steps': 3, 'loss/train': 9.798585891723633}
06/08/2023 12:41:49 - INFO - __main__ - Step 57: {'lr': 8.000000000000001e-07, 'samples': 114, 'steps': 3, 'loss/train': 9.779496192932129}
06/08/2023 12:42:06 - INFO - __main__ - Step 58: {'lr': 8.000000000000001e-07, 'samples': 116, 'steps': 3, 'loss/train': 9.75149154663086}
06/08/2023 12:42:22 - INFO - __main__ - Step 59: {'lr': 8.000000000000001e-07, 'samples': 118, 'steps': 3, 'loss/train': 9.797645568847656}
06/08/2023 12:42:38 - INFO - __main__ - Step 60: {'lr': 8.000000000000001e-07, 'samples': 120, 'steps': 3, 'loss/train': 9.783336639404297}
06/08/2023 12:42:54 - INFO - __main__ - Step 61: {'lr': 8.000000000000001e-07, 'samples': 122, 'steps': 3, 'loss/train': 9.805188179016113}
06/08/2023 12:43:10 - INFO - __main__ - Step 62: {'lr': 8.000000000000001e-07, 'samples': 124, 'steps': 3, 'loss/train': 9.794000625610352}
06/08/2023 12:43:26 - INFO - __main__ - Step 63: {'lr': 8.000000000000001e-07, 'samples': 126, 'steps': 3, 'loss/train': 9.763993263244629}
06/08/2023 12:43:42 - INFO - __main__ - Step 64: {'lr': 8.000000000000001e-07, 'samples': 128, 'steps': 3, 'loss/train': 9.760546684265137}
06/08/2023 12:43:58 - INFO - __main__ - Step 65: {'lr': 1.0666666666666667e-06, 'samples': 130, 'steps': 4, 'loss/train': 9.741477966308594}
06/08/2023 12:44:14 - INFO - __main__ - Step 66: {'lr': 1.0666666666666667e-06, 'samples': 132, 'steps': 4, 'loss/train': 9.758099555969238}
06/08/2023 12:44:30 - INFO - __main__ - Step 67: {'lr': 1.0666666666666667e-06, 'samples': 134, 'steps': 4, 'loss/train': 9.758442878723145}
06/08/2023 12:44:46 - INFO - __main__ - Step 68: {'lr': 1.0666666666666667e-06, 'samples': 136, 'steps': 4, 'loss/train': 9.744771003723145}
06/08/2023 12:45:03 - INFO - __main__ - Step 69: {'lr': 1.0666666666666667e-06, 'samples': 138, 'steps': 4, 'loss/train': 9.757477760314941}
06/08/2023 12:45:19 - INFO - __main__ - Step 70: {'lr': 1.0666666666666667e-06, 'samples': 140, 'steps': 4, 'loss/train': 9.75220775604248}
06/08/2023 12:45:35 - INFO - __main__ - Step 71: {'lr': 1.0666666666666667e-06, 'samples': 142, 'steps': 4, 'loss/train': 9.75396728515625}
06/08/2023 12:45:51 - INFO - __main__ - Step 72: {'lr': 1.0666666666666667e-06, 'samples': 144, 'steps': 4, 'loss/train': 9.736096382141113}
06/08/2023 12:46:08 - INFO - __main__ - Step 73: {'lr': 1.0666666666666667e-06, 'samples': 146, 'steps': 4, 'loss/train': 9.764381408691406}
06/08/2023 12:46:24 - INFO - __main__ - Step 74: {'lr': 1.0666666666666667e-06, 'samples': 148, 'steps': 4, 'loss/train': 9.774300575256348}
06/08/2023 12:46:40 - INFO - __main__ - Step 75: {'lr': 1.0666666666666667e-06, 'samples': 150, 'steps': 4, 'loss/train': 9.743051528930664}
06/08/2023 12:46:56 - INFO - __main__ - Step 76: {'lr': 1.0666666666666667e-06, 'samples': 152, 'steps': 4, 'loss/train': 9.746865272521973}
06/08/2023 12:47:12 - INFO - __main__ - Step 77: {'lr': 1.0666666666666667e-06, 'samples': 154, 'steps': 4, 'loss/train': 9.73295783996582}
06/08/2023 12:47:28 - INFO - __main__ - Step 78: {'lr': 1.0666666666666667e-06, 'samples': 156, 'steps': 4, 'loss/train': 9.772175788879395}
06/08/2023 12:47:44 - INFO - __main__ - Step 79: {'lr': 1.0666666666666667e-06, 'samples': 158, 'steps': 4, 'loss/train': 9.710450172424316}
06/08/2023 12:48:00 - INFO - __main__ - Step 80: {'lr': 1.0666666666666667e-06, 'samples': 160, 'steps': 4, 'loss/train': 9.737425804138184}
06/08/2023 12:48:16 - INFO - __main__ - Step 81: {'lr': 1.3333333333333334e-06, 'samples': 162, 'steps': 5, 'loss/train': 9.721009254455566}
06/08/2023 12:48:32 - INFO - __main__ - Step 82: {'lr': 1.3333333333333334e-06, 'samples': 164, 'steps': 5, 'loss/train': 9.658642768859863}
06/08/2023 12:48:49 - INFO - __main__ - Step 83: {'lr': 1.3333333333333334e-06, 'samples': 166, 'steps': 5, 'loss/train': 9.73045825958252}
06/08/2023 12:49:05 - INFO - __main__ - Step 84: {'lr': 1.3333333333333334e-06, 'samples': 168, 'steps': 5, 'loss/train': 9.729884147644043}
06/08/2023 12:49:21 - INFO - __main__ - Step 85: {'lr': 1.3333333333333334e-06, 'samples': 170, 'steps': 5, 'loss/train': 9.716988563537598}
06/08/2023 12:49:37 - INFO - __main__ - Step 86: {'lr': 1.3333333333333334e-06, 'samples': 172, 'steps': 5, 'loss/train': 9.710418701171875}
06/08/2023 12:49:53 - INFO - __main__ - Step 87: {'lr': 1.3333333333333334e-06, 'samples': 174, 'steps': 5, 'loss/train': 9.705856323242188}
06/08/2023 12:50:09 - INFO - __main__ - Step 88: {'lr': 1.3333333333333334e-06, 'samples': 176, 'steps': 5, 'loss/train': 9.682978630065918}
06/08/2023 12:50:26 - INFO - __main__ - Step 89: {'lr': 1.3333333333333334e-06, 'samples': 178, 'steps': 5, 'loss/train': 9.713265419006348}
06/08/2023 12:50:42 - INFO - __main__ - Step 90: {'lr': 1.3333333333333334e-06, 'samples': 180, 'steps': 5, 'loss/train': 9.70463752746582}
06/08/2023 12:50:58 - INFO - __main__ - Step 91: {'lr': 1.3333333333333334e-06, 'samples': 182, 'steps': 5, 'loss/train': 9.685354232788086}
06/08/2023 12:51:14 - INFO - __main__ - Step 92: {'lr': 1.3333333333333334e-06, 'samples': 184, 'steps': 5, 'loss/train': 9.699443817138672}
06/08/2023 12:51:30 - INFO - __main__ - Step 93: {'lr': 1.3333333333333334e-06, 'samples': 186, 'steps': 5, 'loss/train': 9.695199966430664}
06/08/2023 12:51:46 - INFO - __main__ - Step 94: {'lr': 1.3333333333333334e-06, 'samples': 188, 'steps': 5, 'loss/train': 9.740874290466309}
06/08/2023 12:52:02 - INFO - __main__ - Step 95: {'lr': 1.3333333333333334e-06, 'samples': 190, 'steps': 5, 'loss/train': 9.701812744140625}
06/08/2023 12:52:19 - INFO - __main__ - Step 96: {'lr': 1.3333333333333334e-06, 'samples': 192, 'steps': 5, 'loss/train': 9.722161293029785}
06/08/2023 12:53:26 - INFO - __main__ - Step 97: {'lr': 1.6000000000000001e-06, 'samples': 194, 'steps': 6, 'loss/train': 9.66638469696045}
06/08/2023 12:54:12 - INFO - __main__ - Evaluating and saving model after training
06/08/2023 12:56:32 - INFO - __main__ - Step 97: {'loss/eval': 9.62712574005127, 'perplexity': 15170.7685546875}