Calculate perplexity and kld scores

Browse files

Files changed (12) hide show

scores/watt-tool-8B-IQ3_M.log +37 -0
scores/watt-tool-8B-IQ3_S.log +37 -0
scores/watt-tool-8B-IQ4_NL.log +37 -0
scores/watt-tool-8B-Q3_K_L.log +37 -0
scores/watt-tool-8B-Q3_K_M.log +37 -0
scores/watt-tool-8B-Q3_K_S.log +37 -0
scores/watt-tool-8B-Q4_K_M.log +37 -0
scores/watt-tool-8B-Q4_K_S.log +37 -0
scores/watt-tool-8B-Q5_K_M.log +37 -0
scores/watt-tool-8B-Q5_K_S.log +37 -0
scores/watt-tool-8B-Q6_K.log +37 -0
scores/watt-tool-8B-Q8_0.log +37 -0

scores/watt-tool-8B-IQ3_M.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :   8.037667 ±   0.050228
+Mean PPL(base)                :   7.534124 ±   0.048206
+Cor(ln(PPL(Q)), ln(PPL(base))):  98.76%
+Mean ln(PPL(Q)/PPL(base))     :   0.064696 ±   0.001005
+Mean PPL(Q)/PPL(base)         :   1.066835 ±   0.001072
+Mean PPL(Q)-PPL(base)         :   0.503543 ±   0.007995
+====== KL divergence statistics ======
+Mean    KLD:   0.066422 ±   0.000322
+Maximum KLD:   6.343029
+99.9%   KLD:   1.563787
+99.0%   KLD:   0.518421
+99.0%   KLD:   0.518421
+Median  KLD:   0.041650
+10.0%   KLD:   0.004530
+ 5.0%   KLD:   0.001681
+ 1.0%   KLD:   0.000255
+Minimum KLD:   0.000001
+====== Token probability statistics ======
+Mean    Δp: -2.699 ± 0.019 %
+Maximum Δp: 69.336%
+99.9%   Δp: 26.823%
+99.0%   Δp: 11.876%
+95.0%   Δp:  4.305%
+90.0%   Δp:  1.889%
+75.0%   Δp:  0.060%
+Median  Δp: -0.671%
+25.0%   Δp: -4.411%
+10.0%   Δp: -10.028%
+ 5.0%   Δp: -14.549%
+ 1.0%   Δp: -28.523%
+ 0.1%   Δp: -62.974%
+Minimum Δp: -96.416%
+RMS Δp    :  7.606 ± 0.046 %
+Same top p: 88.690 ± 0.084 %

scores/watt-tool-8B-IQ3_S.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :   8.131662 ±   0.051148
+Mean PPL(base)                :   7.534124 ±   0.048206
+Cor(ln(PPL(Q)), ln(PPL(base))):  98.65%
+Mean ln(PPL(Q)/PPL(base))     :   0.076323 ±   0.001049
+Mean PPL(Q)/PPL(base)         :   1.079311 ±   0.001132
+Mean PPL(Q)-PPL(base)         :   0.597538 ±   0.008682
+====== KL divergence statistics ======
+Mean    KLD:   0.071229 ±   0.000357
+Maximum KLD:   8.778745
+99.9%   KLD:   1.718901
+99.0%   KLD:   0.556955
+99.0%   KLD:   0.556955
+Median  KLD:   0.043398
+10.0%   KLD:   0.004498
+ 5.0%   KLD:   0.001689
+ 1.0%   KLD:   0.000269
+Minimum KLD:   0.000002
+====== Token probability statistics ======
+Mean    Δp: -2.728 ± 0.019 %
+Maximum Δp: 77.285%
+99.9%   Δp: 27.656%
+99.0%   Δp: 12.070%
+95.0%   Δp:  4.429%
+90.0%   Δp:  1.963%
+75.0%   Δp:  0.065%
+Median  Δp: -0.636%
+25.0%   Δp: -4.334%
+10.0%   Δp: -10.131%
+ 5.0%   Δp: -14.930%
+ 1.0%   Δp: -30.238%
+ 0.1%   Δp: -67.515%
+Minimum Δp: -97.118%
+RMS Δp    :  7.864 ± 0.049 %
+Same top p: 88.252 ± 0.085 %

scores/watt-tool-8B-IQ4_NL.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :   7.730788 ±   0.049731
+Mean PPL(base)                :   7.534124 ±   0.048206
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.61%
+Mean ln(PPL(Q)/PPL(base))     :   0.025768 ±   0.000567
+Mean PPL(Q)/PPL(base)         :   1.026103 ±   0.000582
+Mean PPL(Q)-PPL(base)         :   0.196664 ±   0.004583
+====== KL divergence statistics ======
+Mean    KLD:   0.019576 ±   0.000122
+Maximum KLD:   7.128579
+99.9%   KLD:   0.530688
+99.0%   KLD:   0.163194
+99.0%   KLD:   0.163194
+Median  KLD:   0.011057
+10.0%   KLD:   0.000745
+ 5.0%   KLD:   0.000248
+ 1.0%   KLD:   0.000038
+Minimum KLD:  -0.000096
+====== Token probability statistics ======
+Mean    Δp: -0.494 ± 0.010 %
+Maximum Δp: 60.888%
+99.9%   Δp: 19.533%
+99.0%   Δp:  8.890%
+95.0%   Δp:  4.150%
+90.0%   Δp:  2.365%
+75.0%   Δp:  0.435%
+Median  Δp: -0.028%
+25.0%   Δp: -1.070%
+10.0%   Δp: -3.708%
+ 5.0%   Δp: -6.092%
+ 1.0%   Δp: -14.010%
+ 0.1%   Δp: -33.372%
+Minimum Δp: -79.450%
+RMS Δp    :  3.873 ± 0.030 %
+Same top p: 93.423 ± 0.065 %

scores/watt-tool-8B-Q3_K_L.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :   7.955300 ±   0.051312
+Mean PPL(base)                :   7.534124 ±   0.048206
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.11%
+Mean ln(PPL(Q)/PPL(base))     :   0.054396 ±   0.000860
+Mean PPL(Q)/PPL(base)         :   1.055902 ±   0.000908
+Mean PPL(Q)-PPL(base)         :   0.421176 ±   0.007333
+====== KL divergence statistics ======
+Mean    KLD:   0.043200 ±   0.000262
+Maximum KLD:   8.829779
+99.9%   KLD:   1.281964
+99.0%   KLD:   0.376543
+99.0%   KLD:   0.376543
+Median  KLD:   0.023787
+10.0%   KLD:   0.001665
+ 5.0%   KLD:   0.000574
+ 1.0%   KLD:   0.000087
+Minimum KLD:  -0.000360
+====== Token probability statistics ======
+Mean    Δp: -1.119 ± 0.016 %
+Maximum Δp: 59.041%
+99.9%   Δp: 24.874%
+99.0%   Δp: 12.145%
+95.0%   Δp:  5.639%
+90.0%   Δp:  3.126%
+75.0%   Δp:  0.437%
+Median  Δp: -0.107%
+25.0%   Δp: -1.966%
+10.0%   Δp: -6.121%
+ 5.0%   Δp: -9.877%
+ 1.0%   Δp: -23.039%
+ 0.1%   Δp: -56.479%
+Minimum Δp: -96.588%
+RMS Δp    :  6.074 ± 0.047 %
+Same top p: 90.347 ± 0.078 %

scores/watt-tool-8B-Q3_K_M.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :   8.029877 ±   0.051646
+Mean PPL(base)                :   7.534124 ±   0.048206
+Cor(ln(PPL(Q)), ln(PPL(base))):  98.94%
+Mean ln(PPL(Q)/PPL(base))     :   0.063727 ±   0.000933
+Mean PPL(Q)/PPL(base)         :   1.065801 ±   0.000994
+Mean PPL(Q)-PPL(base)         :   0.495753 ±   0.008026
+====== KL divergence statistics ======
+Mean    KLD:   0.051126 ±   0.000296
+Maximum KLD:   6.852483
+99.9%   KLD:   1.491291
+99.0%   KLD:   0.440246
+99.0%   KLD:   0.440246
+Median  KLD:   0.028683
+10.0%   KLD:   0.002148
+ 5.0%   KLD:   0.000733
+ 1.0%   KLD:   0.000110
+Minimum KLD:  -0.000059
+====== Token probability statistics ======
+Mean    Δp: -1.501 ± 0.017 %
+Maximum Δp: 70.128%
+99.9%   Δp: 25.463%
+99.0%   Δp: 12.370%
+95.0%   Δp:  5.593%
+90.0%   Δp:  2.967%
+75.0%   Δp:  0.321%
+Median  Δp: -0.188%
+25.0%   Δp: -2.480%
+10.0%   Δp: -7.159%
+ 5.0%   Δp: -11.373%
+ 1.0%   Δp: -25.561%
+ 0.1%   Δp: -59.737%
+Minimum Δp: -96.409%
+RMS Δp    :  6.613 ± 0.047 %
+Same top p: 89.569 ± 0.081 %

scores/watt-tool-8B-Q3_K_S.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :   9.061287 ±   0.057476
+Mean PPL(base)                :   7.534124 ±   0.048206
+Cor(ln(PPL(Q)), ln(PPL(base))):  96.76%
+Mean ln(PPL(Q)/PPL(base))     :   0.184569 ±   0.001623
+Mean PPL(Q)/PPL(base)         :   1.202700 ±   0.001952
+Mean PPL(Q)-PPL(base)         :   1.527163 ±   0.016298
+====== KL divergence statistics ======
+Mean    KLD:   0.164457 ±   0.000676
+Maximum KLD:   9.411176
+99.9%   KLD:   2.855778
+99.0%   KLD:   1.234465
+99.0%   KLD:   1.234465
+Median  KLD:   0.104662
+10.0%   KLD:   0.009321
+ 5.0%   KLD:   0.002701
+ 1.0%   KLD:   0.000294
+Minimum KLD:   0.000001
+====== Token probability statistics ======
+Mean    Δp: -5.112 ± 0.033 %
+Maximum Δp: 77.844%
+99.9%   Δp: 38.199%
+99.0%   Δp: 18.699%
+95.0%   Δp:  6.729%
+90.0%   Δp:  2.723%
+75.0%   Δp:  0.066%
+Median  Δp: -1.070%
+25.0%   Δp: -7.642%
+10.0%   Δp: -18.119%
+ 5.0%   Δp: -27.580%
+ 1.0%   Δp: -59.212%
+ 0.1%   Δp: -82.003%
+Minimum Δp: -99.539%
+RMS Δp    : 13.476 ± 0.061 %
+Same top p: 81.696 ± 0.102 %

scores/watt-tool-8B-Q4_K_M.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :   7.706824 ±   0.049523
+Mean PPL(base)                :   7.534124 ±   0.048206
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.70%
+Mean ln(PPL(Q)/PPL(base))     :   0.022664 ±   0.000499
+Mean PPL(Q)/PPL(base)         :   1.022922 ±   0.000511
+Mean PPL(Q)-PPL(base)         :   0.172700 ±   0.004022
+====== KL divergence statistics ======
+Mean    KLD:   0.015407 ±   0.000095
+Maximum KLD:   4.300019
+99.9%   KLD:   0.426162
+99.0%   KLD:   0.128870
+99.0%   KLD:   0.128870
+Median  KLD:   0.008645
+10.0%   KLD:   0.000540
+ 5.0%   KLD:   0.000171
+ 1.0%   KLD:   0.000021
+Minimum KLD:  -0.000211
+====== Token probability statistics ======
+Mean    Δp: -0.401 ± 0.009 %
+Maximum Δp: 64.955%
+99.9%   Δp: 17.277%
+99.0%   Δp:  8.033%
+95.0%   Δp:  3.725%
+90.0%   Δp:  2.131%
+75.0%   Δp:  0.412%
+Median  Δp: -0.019%
+25.0%   Δp: -0.939%
+10.0%   Δp: -3.216%
+ 5.0%   Δp: -5.254%
+ 1.0%   Δp: -11.972%
+ 0.1%   Δp: -31.348%
+Minimum Δp: -73.628%
+RMS Δp    :  3.465 ± 0.030 %
+Same top p: 94.228 ± 0.061 %

scores/watt-tool-8B-Q4_K_S.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :   7.704878 ±   0.049402
+Mean PPL(base)                :   7.534124 ±   0.048206
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.66%
+Mean ln(PPL(Q)/PPL(base))     :   0.022411 ±   0.000529
+Mean PPL(Q)/PPL(base)         :   1.022664 ±   0.000541
+Mean PPL(Q)-PPL(base)         :   0.170754 ±   0.004204
+====== KL divergence statistics ======
+Mean    KLD:   0.017657 ±   0.000103
+Maximum KLD:   3.435874
+99.9%   KLD:   0.503178
+99.0%   KLD:   0.146417
+99.0%   KLD:   0.146417
+Median  KLD:   0.010035
+10.0%   KLD:   0.000649
+ 5.0%   KLD:   0.000208
+ 1.0%   KLD:   0.000029
+Minimum KLD:  -0.000210
+====== Token probability statistics ======
+Mean    Δp: -0.512 ± 0.010 %
+Maximum Δp: 62.473%
+99.9%   Δp: 19.128%
+99.0%   Δp:  8.391%
+95.0%   Δp:  3.809%
+90.0%   Δp:  2.168%
+75.0%   Δp:  0.373%
+Median  Δp: -0.032%
+25.0%   Δp: -1.110%
+10.0%   Δp: -3.609%
+ 5.0%   Δp: -5.771%
+ 1.0%   Δp: -12.795%
+ 0.1%   Δp: -33.912%
+Minimum Δp: -77.756%
+RMS Δp    :  3.707 ± 0.031 %
+Same top p: 93.767 ± 0.064 %

scores/watt-tool-8B-Q5_K_M.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :   7.586838 ±   0.048693
+Mean PPL(base)                :   7.534124 ±   0.048206
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.91%
+Mean ln(PPL(Q)/PPL(base))     :   0.006972 ±   0.000278
+Mean PPL(Q)/PPL(base)         :   1.006997 ±   0.000280
+Mean PPL(Q)-PPL(base)         :   0.052714 ±   0.002153
+====== KL divergence statistics ======
+Mean    KLD:   0.004726 ±   0.000029
+Maximum KLD:   1.109797
+99.9%   KLD:   0.120477
+99.0%   KLD:   0.036395
+99.0%   KLD:   0.036395
+Median  KLD:   0.002865
+10.0%   KLD:   0.000173
+ 5.0%   KLD:   0.000053
+ 1.0%   KLD:   0.000006
+Minimum KLD:  -0.000141
+====== Token probability statistics ======
+Mean    Δp: -0.024 ± 0.005 %
+Maximum Δp: 40.801%
+99.9%   Δp: 10.374%
+99.0%   Δp:  4.971%
+95.0%   Δp:  2.605%
+90.0%   Δp:  1.614%
+75.0%   Δp:  0.410%
+Median  Δp: -0.000%
+25.0%   Δp: -0.359%
+10.0%   Δp: -1.547%
+ 5.0%   Δp: -2.679%
+ 1.0%   Δp: -6.014%
+ 0.1%   Δp: -15.549%
+Minimum Δp: -67.857%
+RMS Δp    :  1.918 ± 0.020 %
+Same top p: 96.547 ± 0.048 %

scores/watt-tool-8B-Q5_K_S.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :   7.582235 ±   0.048626
+Mean PPL(base)                :   7.534124 ±   0.048206
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.90%
+Mean ln(PPL(Q)/PPL(base))     :   0.006365 ±   0.000282
+Mean PPL(Q)/PPL(base)         :   1.006386 ±   0.000284
+Mean PPL(Q)-PPL(base)         :   0.048111 ±   0.002168
+====== KL divergence statistics ======
+Mean    KLD:   0.004976 ±   0.000032
+Maximum KLD:   1.635007
+99.9%   KLD:   0.127847
+99.0%   KLD:   0.038030
+99.0%   KLD:   0.038030
+Median  KLD:   0.003028
+10.0%   KLD:   0.000180
+ 5.0%   KLD:   0.000057
+ 1.0%   KLD:   0.000006
+Minimum KLD:  -0.000153
+====== Token probability statistics ======
+Mean    Δp: -0.061 ± 0.005 %
+Maximum Δp: 42.055%
+99.9%   Δp: 10.474%
+99.0%   Δp:  5.063%
+95.0%   Δp:  2.612%
+90.0%   Δp:  1.612%
+75.0%   Δp:  0.375%
+Median  Δp: -0.001%
+25.0%   Δp: -0.410%
+10.0%   Δp: -1.671%
+ 5.0%   Δp: -2.791%
+ 1.0%   Δp: -6.049%
+ 0.1%   Δp: -16.358%
+Minimum Δp: -71.814%
+RMS Δp    :  1.956 ± 0.020 %
+Same top p: 96.417 ± 0.049 %

scores/watt-tool-8B-Q6_K.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :   7.564700 ±   0.048534
+Mean PPL(base)                :   7.534124 ±   0.048206
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.96%
+Mean ln(PPL(Q)/PPL(base))     :   0.004050 ±   0.000188
+Mean PPL(Q)/PPL(base)         :   1.004058 ±   0.000189
+Mean PPL(Q)-PPL(base)         :   0.030576 ±   0.001453
+====== KL divergence statistics ======
+Mean    KLD:   0.002095 ±   0.000015
+Maximum KLD:   1.330637
+99.9%   KLD:   0.053552
+99.0%   KLD:   0.014807
+99.0%   KLD:   0.014807
+Median  KLD:   0.001325
+10.0%   KLD:   0.000069
+ 5.0%   KLD:   0.000017
+ 1.0%   KLD:  -0.000001
+Minimum KLD:  -0.000220
+====== Token probability statistics ======
+Mean    Δp:  0.024 ± 0.003 %
+Maximum Δp: 36.481%
+99.9%   Δp:  7.433%
+99.0%   Δp:  3.550%
+95.0%   Δp:  1.840%
+90.0%   Δp:  1.165%
+75.0%   Δp:  0.306%
+Median  Δp:  0.001%
+25.0%   Δp: -0.225%
+10.0%   Δp: -1.031%
+ 5.0%   Δp: -1.774%
+ 1.0%   Δp: -3.760%
+ 0.1%   Δp: -9.008%
+Minimum Δp: -41.338%
+RMS Δp    :  1.262 ± 0.011 %
+Same top p: 97.635 ± 0.040 %

scores/watt-tool-8B-Q8_0.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :   7.539926 ±   0.048262
+Mean PPL(base)                :   7.534124 ±   0.048206
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.99%
+Mean ln(PPL(Q)/PPL(base))     :   0.000770 ±   0.000076
+Mean PPL(Q)/PPL(base)         :   1.000770 ±   0.000077
+Mean PPL(Q)-PPL(base)         :   0.005802 ±   0.000579
+====== KL divergence statistics ======
+Mean    KLD:   0.000238 ±   0.000002
+Maximum KLD:   0.151414
+99.9%   KLD:   0.005715
+99.0%   KLD:   0.001698
+99.0%   KLD:   0.001698
+Median  KLD:   0.000153
+10.0%   KLD:   0.000008
+ 5.0%   KLD:   0.000001
+ 1.0%   KLD:  -0.000007
+Minimum KLD:  -0.000144
+====== Token probability statistics ======
+Mean    Δp: -0.017 ± 0.001 %
+Maximum Δp: 14.747%
+99.9%   Δp:  2.639%
+99.0%   Δp:  1.139%
+95.0%   Δp:  0.550%
+90.0%   Δp:  0.325%
+75.0%   Δp:  0.074%
+Median  Δp: -0.000%
+25.0%   Δp: -0.100%
+10.0%   Δp: -0.387%
+ 5.0%   Δp: -0.625%
+ 1.0%   Δp: -1.236%
+ 0.1%   Δp: -2.830%
+Minimum Δp: -8.728%
+RMS Δp    :  0.415 ± 0.004 %
+Same top p: 99.218 ± 0.023 %