Spaces:
Running
Running
remove non-english examples
Browse files- demo_data/nips-2021/25953/metadata.json +0 -3
- demo_data/nips-2021/25953/transcript_whisper_large-v2.txt +0 -193
- demo_data/nips-2021/25953/transcript_whisper_large-v2.vtt +0 -581
- demo_data/nips-2021/25953/video.mp4 +0 -3
- demo_data/nips-2021/25962/metadata.json +0 -3
- demo_data/nips-2021/25962/transcript_whisper_large-v2.txt +0 -51
- demo_data/nips-2021/25962/transcript_whisper_large-v2.vtt +0 -155
- demo_data/nips-2021/25962/video.mp4 +0 -3
- demo_data/nips-2021/25964/metadata.json +0 -3
- demo_data/nips-2021/25964/transcript_whisper_large-v2.txt +0 -366
- demo_data/nips-2021/25964/transcript_whisper_large-v2.vtt +0 -1100
- demo_data/nips-2021/25964/video.mp4 +0 -3
demo_data/nips-2021/25953/metadata.json
DELETED
@@ -1,3 +0,0 @@
|
|
1 |
-
{
|
2 |
-
"title": "Sliced Mutual Information: A Scalable Measure of Statistical Dependence"
|
3 |
-
}
|
|
|
|
|
|
|
|
demo_data/nips-2021/25953/transcript_whisper_large-v2.txt
DELETED
@@ -1,193 +0,0 @@
|
|
1 |
-
Hi everyone, my name is Zyw Goldfeld and this is a joint work with Christian Greenwald about
|
2 |
-
sliced mutual information, which is a new measure of statistical dependence that has
|
3 |
-
some nice scalability properties to high dimensional settings.
|
4 |
-
And to get started, I think we're all familiar with classic mutual information that is defined
|
5 |
-
between let's say continuous high dimensional random variables, which is the regime that
|
6 |
-
we'll mostly be interested in, like SOH, basically the KL divergence between their joint distributions
|
7 |
-
and the product of their marginals.
|
8 |
-
And mutual information is indeed this fundamental measure of dependence that enjoys many good
|
9 |
-
properties such that the fact that it nullifies if and only if our random variables are independent,
|
10 |
-
it is invariant to bijections and it meets several useful representations, decompositions,
|
11 |
-
variational forms, etc.
|
12 |
-
And in fact, it can be even obtained axiomatically as the unique functional of the joint distribution
|
13 |
-
that satisfies some natural informativeness conditions.
|
14 |
-
And as such, mutual information has seen a variety of applications in information theory
|
15 |
-
and statistics more recently in machine learning.
|
16 |
-
But the problem is that all this nice structure comes with a hefty price, since computing
|
17 |
-
mutual information in high dimensions or estimating it from samples is very, very hard, effectively
|
18 |
-
infeasible.
|
19 |
-
And this is the so-called curse of dimensionality and sort of the problem that we try to tackle
|
20 |
-
in this work.
|
21 |
-
And to address this difficulty, what we propose is sliced mutual information, which is, like
|
22 |
-
I said, a new measure of statistical dependence, not necessarily a proxy of mutual information
|
23 |
-
as such, but rather an alternative notion, which is defined as this average of scalar
|
24 |
-
mutual information terms between projections of our high dimensional variables onto randomly
|
25 |
-
chosen directions from the corresponding unit spheres.
|
26 |
-
And it's of course inspired by the recent popularization of slicing techniques for statistical
|
27 |
-
divergences, in particular the Wasserstein, the sliced Wasserstein distance is a great
|
28 |
-
example.
|
29 |
-
But the way it works for sliced mutual information is roughly so, well, let's say that this is
|
30 |
-
our first high dimensional variable X and this is its distribution.
|
31 |
-
What you do is draw a projection direction uniformly from the sphere.
|
32 |
-
You then project this random variable onto that direction, do the same for your other
|
33 |
-
random variable.
|
34 |
-
And now for these two projected scalar new variables, we just compute the mutual information
|
35 |
-
between them and average everything over the choice of direction.
|
36 |
-
So that's basically the definition.
|
37 |
-
And with that, the goal of this work is effectively to show that sliced mutual information is
|
38 |
-
both a meaningful and a scalable mutual information alternative.
|
39 |
-
Meaningful, well, in the sense that it preserves many of the desired properties that make mutual
|
40 |
-
information appealing to begin with and scalable in the sense that it alleviates the set of
|
41 |
-
computational and statistical difficulties.
|
42 |
-
All right.
|
43 |
-
Yeah, and to address this first point, let me show you that, well, despite those one
|
44 |
-
dimensional projections, sliced mutual information indeed inherits many of the properties of
|
45 |
-
classic mutual information.
|
46 |
-
So we have, well, of course, non-negativity, but furthermore, identification of independence.
|
47 |
-
We have an entropy decomposition for an appropriate definition of sliced entropy.
|
48 |
-
We can represent it as a KL divergence, a sliced KL divergence.
|
49 |
-
To be more precise, we have a chain rule tensorization for independent copies, as well as a Donsker-Varadhan-like
|
50 |
-
variational form that can be readily used for neural estimation of sliced mutual information.
|
51 |
-
We actually make use of that in some of our empirical results.
|
52 |
-
And well, I mean, you are more than welcome to check the paper or visit us as a poster
|
53 |
-
if you want to know more about any of these.
|
54 |
-
But really, the upshot here is that much of the classic structure is still there after
|
55 |
-
the slicing.
|
56 |
-
Now another interesting feature of sliced mutual information comes to light when you
|
57 |
-
think of it in the context of the famous data processing inequality.
|
58 |
-
And for starters, recall that classic mutual information satisfies the DPI, which in particular
|
59 |
-
means that if you process either of your random variables with a deterministic function, say
|
60 |
-
this f over here, you can only lose the informativeness in the classic sense.
|
61 |
-
Now sliced mutual information plays differently with processing and can in some sense benefit
|
62 |
-
from nice transformations that, let's say, give rise to some nicer manifold for your
|
63 |
-
random variable.
|
64 |
-
And to understand this, keep in mind that, well, first of all, sliced mutual information
|
65 |
-
only looks at projections of random variables.
|
66 |
-
And it may very well be the case that some transformations of x, let's say, have more
|
67 |
-
informative projections about y than x itself.
|
68 |
-
And here's a simple example to that effect.
|
69 |
-
So consider a two-dimensional isotropic Gaussian x, so two coordinates, x1 and x2.
|
70 |
-
And let's take y to be, for example, its first coordinate.
|
71 |
-
Now if you look at the mutual information between two fixed projections of x and y,
|
72 |
-
well, projection does nothing to y, right, because it's a scalar.
|
73 |
-
But it does affect x.
|
74 |
-
And if you look at the mutual information between two projections of x and y, you quickly
|
75 |
-
realize that x1 really plays the role of the signal here, whereas x2 behaves like noise.
|
76 |
-
And therefore, any transformation that will effectively improve your signal-to-noise ratio,
|
77 |
-
for example, like this g sub a over here, where a is less than 1, will indeed give rise
|
78 |
-
to a higher sliced mutual information value.
|
79 |
-
So all in all, sliced mutual information can be increased from processing, which means
|
80 |
-
that, well, in particular, it validates the data processing inequality and is different
|
81 |
-
from classic mutual information in that sense.
|
82 |
-
But interestingly, and as I will show you shortly, this is actually a quite useful thing
|
83 |
-
to have, for example, for feature extraction tasks, because we can use sliced mutual information
|
84 |
-
effectively to maximize it in order to extract informative features and land on those nicer
|
85 |
-
manifolds that I mentioned a moment ago.
|
86 |
-
And here's an example theorem that kind of makes this statement precise or formal, where
|
87 |
-
we consider the maximization of sliced mutual information over linear transformations of
|
88 |
-
our random variables.
|
89 |
-
And this would, of course, not affect classic mutual information at all.
|
90 |
-
But what we can show is that for sliced mutual information, this maximization ends up extracting
|
91 |
-
the two most informative projection directions for you, which in particular will be encoded
|
92 |
-
in the optimizing matrices, these A sub x star and A sub y star.
|
93 |
-
And of course, there's nothing special about this particular setup.
|
94 |
-
And we can establish similar results for, well, first of all, rank-constrained matrices
|
95 |
-
that as opposed to what's shown here would extract the, let's say, our most informative
|
96 |
-
features or projection directions.
|
97 |
-
In the paper, we also extend this result to shallow neural networks.
|
98 |
-
And in fact, our argument can be easily extended to cover additional nonlinear cases as well.
|
99 |
-
OK, so that's pretty much for structural properties.
|
100 |
-
But like I said at the beginning, the real premise of this framework is overcoming the
|
101 |
-
curse of dimensionality.
|
102 |
-
And let me show you that this is indeed the case, that sliced mutual information is or
|
103 |
-
can be estimated in a scalable manner, effectively by combining your favorite scalar mutual information
|
104 |
-
estimator with a simple Monte Carlo average step.
|
105 |
-
And this is how it works.
|
106 |
-
So let's say we're giving n IID samples from our high-dimensional random variables.
|
107 |
-
And we're further given a scalar mutual information estimator that achieves, say, error delta
|
108 |
-
of n when applied to n IID samples of some pair of one-dimensional variables, a and b.
|
109 |
-
OK, so let's say we have these.
|
110 |
-
Now, to estimate sliced mutual information, first thing to do is sample, let's say, m
|
111 |
-
random projections from the corresponding spheres in an IID fashion, at which point
|
112 |
-
we will take our high-dimensional n samples and project them onto each of these m random
|
113 |
-
projections that we've generated.
|
114 |
-
And the thing to observe here is that the resulting n times n data set of these projections
|
115 |
-
is nothing but IID samples from the corresponding projected distribution, which is the right
|
116 |
-
thing to have here if what you're trying to estimate is sliced mutual information.
|
117 |
-
So having that, I mean, at this point, per projection direction, we can apply the scalar
|
118 |
-
mutual information estimator and then just take one big, happy Monte Carlo average of
|
119 |
-
the entire thing over the different projection directions.
|
120 |
-
And this would give rise to the proposed sliced mutual information estimator.
|
121 |
-
Now, you can compute this thing very easily, because at the end of the day, it's an average
|
122 |
-
of scalar mutual information estimates.
|
123 |
-
And as far as performance guarantees, we can show that so long that the per-sliced mutual
|
124 |
-
information is bounded, the uniform absolute error of this estimator scales like 1 over
|
125 |
-
the root of m, the number of our Monte Carlo samples, plus the error of the scalar mutual
|
126 |
-
information estimator.
|
127 |
-
And I'm just restating this informally over here.
|
128 |
-
And what this all in all shows is that sliced mutual information can therefore be estimated
|
129 |
-
the rate of scalar mutual information estimation problem plus this m to the minus half Monte
|
130 |
-
Carlo penalty.
|
131 |
-
And the thing is that under appropriate smoothness assumptions, the one-dimensional rate is in
|
132 |
-
fact parametric.
|
133 |
-
And therefore, if you just match the size of your data set and the number of Monte Carlo
|
134 |
-
samples, just equate n and m, the sliced mutual information between high-dimensional variables
|
135 |
-
can be estimated at the parametric n to the minus half rate, perhaps up to some logarithmic
|
136 |
-
factors.
|
137 |
-
And this is, of course, a significant speed up and stands in sharp contrast to the slow,
|
138 |
-
exponentially bad in dimension, curse of dimensionality rate for classic mutual information.
|
139 |
-
Yeah, now this scalability makes, in fact, running empirical experiments with sliced
|
140 |
-
mutual information quite a breeze.
|
141 |
-
So let me quickly show you some sort of proof of concept experiments, let's say.
|
142 |
-
And the first one just relies on the fact that, well, SMI, sliced mutual information
|
143 |
-
can identify independence.
|
144 |
-
And therefore, we examine it as a figure of merit for independence testing, basically
|
145 |
-
by thresholding the computed sliced mutual information value.
|
146 |
-
And the results that we have obtained, of course, we've compared them with the same
|
147 |
-
test, but based on classic mutual information.
|
148 |
-
And this figure over here shows that for a bunch of different settings, well, it presents
|
149 |
-
the area under the ROC curve as a function of the number of samples, the standard way
|
150 |
-
to represent the quality of an independence test.
|
151 |
-
And you basically want this number to be 1, which corresponds to an omniscient test.
|
152 |
-
And what we observe is that sliced mutual information performs consistently well across
|
153 |
-
different setups and across different dimensions, whereas the performance of the mutual information,
|
154 |
-
the classic mutual information-based test, quickly degrades as dimension grows.
|
155 |
-
Now, on top of that, let me also demonstrate how sliced mutual information can be used
|
156 |
-
for feature extraction.
|
157 |
-
And here, what we want to do is maximize the sliced mutual information between linear transformations
|
158 |
-
of x and y that are now chosen to be IID samples from the same MNIST class, which we restrict
|
159 |
-
to be either 0 or 1.
|
160 |
-
And the choice of class is also random, so basically just a fair coin flip.
|
161 |
-
And by observing that sliced mutual information between x and y is at most 1 bit, I mean,
|
162 |
-
it's always upper bounded by mutual information, which equals a single bit in this case, basically
|
163 |
-
the class label, the way to understand what we're doing here is that we're looking for
|
164 |
-
the linear feature that is most informative for classifying or determining this class
|
165 |
-
label.
|
166 |
-
And interestingly enough, this is what this procedure ends up learning, where the figure
|
167 |
-
shows basically the first two rows of the optimal A matrix that we obtained, rearranged
|
168 |
-
in the dimension of an MNIST image.
|
169 |
-
And this really looks like a match filter, if you're familiar, which, when applied to
|
170 |
-
the samples, would indeed be able to tell you whether the sample came from the 0 class
|
171 |
-
or not.
|
172 |
-
And as far as for the value itself, well, the maximized sliced mutual information value
|
173 |
-
ends up being roughly 0.7, which is quite close to the 1 bit upper bound, and is much,
|
174 |
-
much larger than what you would get if you would not learn A, and let's say just instantiate
|
175 |
-
it as a matrix with IID entries drawn according to some distribution.
|
176 |
-
And this is just to say that something meaningful indeed being learned here, and something meaningful
|
177 |
-
indeed happens when you maximize the sliced mutual information as your optimization objective.
|
178 |
-
OK, so yeah, that's basically it.
|
179 |
-
And just to recap, we introduced sliced mutual information, which is this average of scalar
|
180 |
-
mutual information terms between one-dimensional projections.
|
181 |
-
We've seen that it preserves much of the structure of classic mutual information.
|
182 |
-
It can be efficiently computed and estimated from samples, and can also be, in fact, increased
|
183 |
-
by our processing if, indeed, your processing gives rise to more informative projections.
|
184 |
-
And we've presented some proof of concept applications to independence testing, to feature
|
185 |
-
extraction.
|
186 |
-
We have a couple of more in the paper.
|
187 |
-
But let me say this.
|
188 |
-
While this is mostly theoretical work, and a large-scale empirical exploration is sort
|
189 |
-
of beyond its scope, we firmly believe that sliced mutual information will be extremely
|
190 |
-
useful for various such tasks, and are very excited to look into this in the future.
|
191 |
-
And yeah, with that, I'll stop.
|
192 |
-
Thank you guys for listening, and do visit us at the poster, and check out the paper
|
193 |
-
if you would like to know more.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
demo_data/nips-2021/25953/transcript_whisper_large-v2.vtt
DELETED
@@ -1,581 +0,0 @@
|
|
1 |
-
WEBVTT
|
2 |
-
|
3 |
-
00:00.000 --> 00:13.140
|
4 |
-
Hi everyone, my name is Zyw Goldfeld and this is a joint work with Christian Greenwald about
|
5 |
-
|
6 |
-
00:13.140 --> 00:18.200
|
7 |
-
sliced mutual information, which is a new measure of statistical dependence that has
|
8 |
-
|
9 |
-
00:18.200 --> 00:22.520
|
10 |
-
some nice scalability properties to high dimensional settings.
|
11 |
-
|
12 |
-
00:22.520 --> 00:26.540
|
13 |
-
And to get started, I think we're all familiar with classic mutual information that is defined
|
14 |
-
|
15 |
-
00:26.540 --> 00:30.920
|
16 |
-
between let's say continuous high dimensional random variables, which is the regime that
|
17 |
-
|
18 |
-
00:30.920 --> 00:36.240
|
19 |
-
we'll mostly be interested in, like SOH, basically the KL divergence between their joint distributions
|
20 |
-
|
21 |
-
00:36.240 --> 00:39.040
|
22 |
-
and the product of their marginals.
|
23 |
-
|
24 |
-
00:39.040 --> 00:44.520
|
25 |
-
And mutual information is indeed this fundamental measure of dependence that enjoys many good
|
26 |
-
|
27 |
-
00:44.520 --> 00:50.060
|
28 |
-
properties such that the fact that it nullifies if and only if our random variables are independent,
|
29 |
-
|
30 |
-
00:50.060 --> 00:55.200
|
31 |
-
it is invariant to bijections and it meets several useful representations, decompositions,
|
32 |
-
|
33 |
-
00:55.200 --> 00:56.600
|
34 |
-
variational forms, etc.
|
35 |
-
|
36 |
-
00:56.600 --> 01:02.440
|
37 |
-
And in fact, it can be even obtained axiomatically as the unique functional of the joint distribution
|
38 |
-
|
39 |
-
01:02.440 --> 01:07.760
|
40 |
-
that satisfies some natural informativeness conditions.
|
41 |
-
|
42 |
-
01:07.760 --> 01:11.120
|
43 |
-
And as such, mutual information has seen a variety of applications in information theory
|
44 |
-
|
45 |
-
01:11.120 --> 01:13.680
|
46 |
-
and statistics more recently in machine learning.
|
47 |
-
|
48 |
-
01:13.680 --> 01:18.920
|
49 |
-
But the problem is that all this nice structure comes with a hefty price, since computing
|
50 |
-
|
51 |
-
01:18.920 --> 01:24.520
|
52 |
-
mutual information in high dimensions or estimating it from samples is very, very hard, effectively
|
53 |
-
|
54 |
-
01:24.520 --> 01:25.520
|
55 |
-
infeasible.
|
56 |
-
|
57 |
-
01:25.520 --> 01:30.240
|
58 |
-
And this is the so-called curse of dimensionality and sort of the problem that we try to tackle
|
59 |
-
|
60 |
-
01:30.240 --> 01:31.400
|
61 |
-
in this work.
|
62 |
-
|
63 |
-
01:31.400 --> 01:37.040
|
64 |
-
And to address this difficulty, what we propose is sliced mutual information, which is, like
|
65 |
-
|
66 |
-
01:37.040 --> 01:42.520
|
67 |
-
I said, a new measure of statistical dependence, not necessarily a proxy of mutual information
|
68 |
-
|
69 |
-
01:42.520 --> 01:48.820
|
70 |
-
as such, but rather an alternative notion, which is defined as this average of scalar
|
71 |
-
|
72 |
-
01:48.820 --> 01:54.640
|
73 |
-
mutual information terms between projections of our high dimensional variables onto randomly
|
74 |
-
|
75 |
-
01:54.640 --> 01:58.520
|
76 |
-
chosen directions from the corresponding unit spheres.
|
77 |
-
|
78 |
-
01:58.520 --> 02:03.520
|
79 |
-
And it's of course inspired by the recent popularization of slicing techniques for statistical
|
80 |
-
|
81 |
-
02:03.520 --> 02:07.480
|
82 |
-
divergences, in particular the Wasserstein, the sliced Wasserstein distance is a great
|
83 |
-
|
84 |
-
02:07.480 --> 02:08.480
|
85 |
-
example.
|
86 |
-
|
87 |
-
02:08.480 --> 02:14.440
|
88 |
-
But the way it works for sliced mutual information is roughly so, well, let's say that this is
|
89 |
-
|
90 |
-
02:14.440 --> 02:19.120
|
91 |
-
our first high dimensional variable X and this is its distribution.
|
92 |
-
|
93 |
-
02:19.120 --> 02:22.480
|
94 |
-
What you do is draw a projection direction uniformly from the sphere.
|
95 |
-
|
96 |
-
02:22.480 --> 02:26.960
|
97 |
-
You then project this random variable onto that direction, do the same for your other
|
98 |
-
|
99 |
-
02:26.960 --> 02:28.200
|
100 |
-
random variable.
|
101 |
-
|
102 |
-
02:28.200 --> 02:34.360
|
103 |
-
And now for these two projected scalar new variables, we just compute the mutual information
|
104 |
-
|
105 |
-
02:34.360 --> 02:38.560
|
106 |
-
between them and average everything over the choice of direction.
|
107 |
-
|
108 |
-
02:38.560 --> 02:40.600
|
109 |
-
So that's basically the definition.
|
110 |
-
|
111 |
-
02:40.600 --> 02:45.880
|
112 |
-
And with that, the goal of this work is effectively to show that sliced mutual information is
|
113 |
-
|
114 |
-
02:45.880 --> 02:50.080
|
115 |
-
both a meaningful and a scalable mutual information alternative.
|
116 |
-
|
117 |
-
02:50.080 --> 02:56.200
|
118 |
-
Meaningful, well, in the sense that it preserves many of the desired properties that make mutual
|
119 |
-
|
120 |
-
02:56.200 --> 03:00.240
|
121 |
-
information appealing to begin with and scalable in the sense that it alleviates the set of
|
122 |
-
|
123 |
-
03:00.240 --> 03:03.800
|
124 |
-
computational and statistical difficulties.
|
125 |
-
|
126 |
-
03:03.800 --> 03:04.800
|
127 |
-
All right.
|
128 |
-
|
129 |
-
03:04.800 --> 03:11.080
|
130 |
-
Yeah, and to address this first point, let me show you that, well, despite those one
|
131 |
-
|
132 |
-
03:11.080 --> 03:15.800
|
133 |
-
dimensional projections, sliced mutual information indeed inherits many of the properties of
|
134 |
-
|
135 |
-
03:15.800 --> 03:17.700
|
136 |
-
classic mutual information.
|
137 |
-
|
138 |
-
03:17.700 --> 03:23.740
|
139 |
-
So we have, well, of course, non-negativity, but furthermore, identification of independence.
|
140 |
-
|
141 |
-
03:23.740 --> 03:28.960
|
142 |
-
We have an entropy decomposition for an appropriate definition of sliced entropy.
|
143 |
-
|
144 |
-
03:28.960 --> 03:31.840
|
145 |
-
We can represent it as a KL divergence, a sliced KL divergence.
|
146 |
-
|
147 |
-
03:31.840 --> 03:38.920
|
148 |
-
To be more precise, we have a chain rule tensorization for independent copies, as well as a Donsker-Varadhan-like
|
149 |
-
|
150 |
-
03:38.920 --> 03:44.840
|
151 |
-
variational form that can be readily used for neural estimation of sliced mutual information.
|
152 |
-
|
153 |
-
03:44.840 --> 03:49.720
|
154 |
-
We actually make use of that in some of our empirical results.
|
155 |
-
|
156 |
-
03:49.720 --> 03:53.400
|
157 |
-
And well, I mean, you are more than welcome to check the paper or visit us as a poster
|
158 |
-
|
159 |
-
03:53.400 --> 03:55.280
|
160 |
-
if you want to know more about any of these.
|
161 |
-
|
162 |
-
03:55.280 --> 04:00.480
|
163 |
-
But really, the upshot here is that much of the classic structure is still there after
|
164 |
-
|
165 |
-
04:00.480 --> 04:02.360
|
166 |
-
the slicing.
|
167 |
-
|
168 |
-
04:02.360 --> 04:06.240
|
169 |
-
Now another interesting feature of sliced mutual information comes to light when you
|
170 |
-
|
171 |
-
04:06.240 --> 04:10.400
|
172 |
-
think of it in the context of the famous data processing inequality.
|
173 |
-
|
174 |
-
04:10.400 --> 04:15.560
|
175 |
-
And for starters, recall that classic mutual information satisfies the DPI, which in particular
|
176 |
-
|
177 |
-
04:15.560 --> 04:21.440
|
178 |
-
means that if you process either of your random variables with a deterministic function, say
|
179 |
-
|
180 |
-
04:21.440 --> 04:27.400
|
181 |
-
this f over here, you can only lose the informativeness in the classic sense.
|
182 |
-
|
183 |
-
04:27.400 --> 04:33.360
|
184 |
-
Now sliced mutual information plays differently with processing and can in some sense benefit
|
185 |
-
|
186 |
-
04:33.360 --> 04:39.280
|
187 |
-
from nice transformations that, let's say, give rise to some nicer manifold for your
|
188 |
-
|
189 |
-
04:39.280 --> 04:40.280
|
190 |
-
random variable.
|
191 |
-
|
192 |
-
04:40.280 --> 04:43.880
|
193 |
-
And to understand this, keep in mind that, well, first of all, sliced mutual information
|
194 |
-
|
195 |
-
04:43.880 --> 04:47.320
|
196 |
-
only looks at projections of random variables.
|
197 |
-
|
198 |
-
04:47.320 --> 04:52.720
|
199 |
-
And it may very well be the case that some transformations of x, let's say, have more
|
200 |
-
|
201 |
-
04:52.720 --> 04:58.480
|
202 |
-
informative projections about y than x itself.
|
203 |
-
|
204 |
-
04:58.480 --> 05:01.080
|
205 |
-
And here's a simple example to that effect.
|
206 |
-
|
207 |
-
05:01.080 --> 05:06.120
|
208 |
-
So consider a two-dimensional isotropic Gaussian x, so two coordinates, x1 and x2.
|
209 |
-
|
210 |
-
05:06.120 --> 05:10.440
|
211 |
-
And let's take y to be, for example, its first coordinate.
|
212 |
-
|
213 |
-
05:10.440 --> 05:15.440
|
214 |
-
Now if you look at the mutual information between two fixed projections of x and y,
|
215 |
-
|
216 |
-
05:15.440 --> 05:18.600
|
217 |
-
well, projection does nothing to y, right, because it's a scalar.
|
218 |
-
|
219 |
-
05:18.600 --> 05:20.400
|
220 |
-
But it does affect x.
|
221 |
-
|
222 |
-
05:20.400 --> 05:24.520
|
223 |
-
And if you look at the mutual information between two projections of x and y, you quickly
|
224 |
-
|
225 |
-
05:24.520 --> 05:31.120
|
226 |
-
realize that x1 really plays the role of the signal here, whereas x2 behaves like noise.
|
227 |
-
|
228 |
-
05:31.120 --> 05:36.120
|
229 |
-
And therefore, any transformation that will effectively improve your signal-to-noise ratio,
|
230 |
-
|
231 |
-
05:36.120 --> 05:42.520
|
232 |
-
for example, like this g sub a over here, where a is less than 1, will indeed give rise
|
233 |
-
|
234 |
-
05:42.520 --> 05:45.880
|
235 |
-
to a higher sliced mutual information value.
|
236 |
-
|
237 |
-
05:45.880 --> 05:50.300
|
238 |
-
So all in all, sliced mutual information can be increased from processing, which means
|
239 |
-
|
240 |
-
05:50.300 --> 05:54.440
|
241 |
-
that, well, in particular, it validates the data processing inequality and is different
|
242 |
-
|
243 |
-
05:54.440 --> 05:56.840
|
244 |
-
from classic mutual information in that sense.
|
245 |
-
|
246 |
-
05:56.840 --> 06:03.120
|
247 |
-
But interestingly, and as I will show you shortly, this is actually a quite useful thing
|
248 |
-
|
249 |
-
06:03.120 --> 06:08.400
|
250 |
-
to have, for example, for feature extraction tasks, because we can use sliced mutual information
|
251 |
-
|
252 |
-
06:08.400 --> 06:14.240
|
253 |
-
effectively to maximize it in order to extract informative features and land on those nicer
|
254 |
-
|
255 |
-
06:14.240 --> 06:17.660
|
256 |
-
manifolds that I mentioned a moment ago.
|
257 |
-
|
258 |
-
06:17.660 --> 06:22.280
|
259 |
-
And here's an example theorem that kind of makes this statement precise or formal, where
|
260 |
-
|
261 |
-
06:22.280 --> 06:28.120
|
262 |
-
we consider the maximization of sliced mutual information over linear transformations of
|
263 |
-
|
264 |
-
06:28.120 --> 06:29.920
|
265 |
-
our random variables.
|
266 |
-
|
267 |
-
06:29.920 --> 06:34.200
|
268 |
-
And this would, of course, not affect classic mutual information at all.
|
269 |
-
|
270 |
-
06:34.200 --> 06:39.160
|
271 |
-
But what we can show is that for sliced mutual information, this maximization ends up extracting
|
272 |
-
|
273 |
-
06:39.160 --> 06:44.960
|
274 |
-
the two most informative projection directions for you, which in particular will be encoded
|
275 |
-
|
276 |
-
06:44.960 --> 06:52.200
|
277 |
-
in the optimizing matrices, these A sub x star and A sub y star.
|
278 |
-
|
279 |
-
06:52.200 --> 06:55.240
|
280 |
-
And of course, there's nothing special about this particular setup.
|
281 |
-
|
282 |
-
06:55.240 --> 07:00.720
|
283 |
-
And we can establish similar results for, well, first of all, rank-constrained matrices
|
284 |
-
|
285 |
-
07:00.720 --> 07:06.720
|
286 |
-
that as opposed to what's shown here would extract the, let's say, our most informative
|
287 |
-
|
288 |
-
07:06.720 --> 07:08.840
|
289 |
-
features or projection directions.
|
290 |
-
|
291 |
-
07:08.840 --> 07:11.120
|
292 |
-
In the paper, we also extend this result to shallow neural networks.
|
293 |
-
|
294 |
-
07:11.120 --> 07:17.840
|
295 |
-
And in fact, our argument can be easily extended to cover additional nonlinear cases as well.
|
296 |
-
|
297 |
-
07:17.840 --> 07:21.440
|
298 |
-
OK, so that's pretty much for structural properties.
|
299 |
-
|
300 |
-
07:21.440 --> 07:25.400
|
301 |
-
But like I said at the beginning, the real premise of this framework is overcoming the
|
302 |
-
|
303 |
-
07:25.400 --> 07:26.400
|
304 |
-
curse of dimensionality.
|
305 |
-
|
306 |
-
07:26.400 --> 07:32.640
|
307 |
-
And let me show you that this is indeed the case, that sliced mutual information is or
|
308 |
-
|
309 |
-
07:32.640 --> 07:38.640
|
310 |
-
can be estimated in a scalable manner, effectively by combining your favorite scalar mutual information
|
311 |
-
|
312 |
-
07:38.640 --> 07:42.200
|
313 |
-
estimator with a simple Monte Carlo average step.
|
314 |
-
|
315 |
-
07:42.200 --> 07:43.480
|
316 |
-
And this is how it works.
|
317 |
-
|
318 |
-
07:43.480 --> 07:48.260
|
319 |
-
So let's say we're giving n IID samples from our high-dimensional random variables.
|
320 |
-
|
321 |
-
07:48.260 --> 07:53.400
|
322 |
-
And we're further given a scalar mutual information estimator that achieves, say, error delta
|
323 |
-
|
324 |
-
07:53.400 --> 08:00.240
|
325 |
-
of n when applied to n IID samples of some pair of one-dimensional variables, a and b.
|
326 |
-
|
327 |
-
08:00.240 --> 08:02.040
|
328 |
-
OK, so let's say we have these.
|
329 |
-
|
330 |
-
08:02.040 --> 08:08.760
|
331 |
-
Now, to estimate sliced mutual information, first thing to do is sample, let's say, m
|
332 |
-
|
333 |
-
08:08.760 --> 08:14.680
|
334 |
-
random projections from the corresponding spheres in an IID fashion, at which point
|
335 |
-
|
336 |
-
08:14.680 --> 08:22.400
|
337 |
-
we will take our high-dimensional n samples and project them onto each of these m random
|
338 |
-
|
339 |
-
08:22.400 --> 08:24.960
|
340 |
-
projections that we've generated.
|
341 |
-
|
342 |
-
08:24.960 --> 08:30.780
|
343 |
-
And the thing to observe here is that the resulting n times n data set of these projections
|
344 |
-
|
345 |
-
08:30.780 --> 08:35.220
|
346 |
-
is nothing but IID samples from the corresponding projected distribution, which is the right
|
347 |
-
|
348 |
-
08:35.220 --> 08:39.400
|
349 |
-
thing to have here if what you're trying to estimate is sliced mutual information.
|
350 |
-
|
351 |
-
08:39.400 --> 08:43.860
|
352 |
-
So having that, I mean, at this point, per projection direction, we can apply the scalar
|
353 |
-
|
354 |
-
08:43.860 --> 08:49.400
|
355 |
-
mutual information estimator and then just take one big, happy Monte Carlo average of
|
356 |
-
|
357 |
-
08:49.400 --> 08:52.040
|
358 |
-
the entire thing over the different projection directions.
|
359 |
-
|
360 |
-
08:52.040 --> 08:55.600
|
361 |
-
And this would give rise to the proposed sliced mutual information estimator.
|
362 |
-
|
363 |
-
08:55.600 --> 08:59.780
|
364 |
-
Now, you can compute this thing very easily, because at the end of the day, it's an average
|
365 |
-
|
366 |
-
08:59.780 --> 09:03.000
|
367 |
-
of scalar mutual information estimates.
|
368 |
-
|
369 |
-
09:03.000 --> 09:09.120
|
370 |
-
And as far as performance guarantees, we can show that so long that the per-sliced mutual
|
371 |
-
|
372 |
-
09:09.120 --> 09:15.840
|
373 |
-
information is bounded, the uniform absolute error of this estimator scales like 1 over
|
374 |
-
|
375 |
-
09:15.840 --> 09:22.240
|
376 |
-
the root of m, the number of our Monte Carlo samples, plus the error of the scalar mutual
|
377 |
-
|
378 |
-
09:22.240 --> 09:23.240
|
379 |
-
information estimator.
|
380 |
-
|
381 |
-
09:23.240 --> 09:26.520
|
382 |
-
And I'm just restating this informally over here.
|
383 |
-
|
384 |
-
09:26.520 --> 09:31.240
|
385 |
-
And what this all in all shows is that sliced mutual information can therefore be estimated
|
386 |
-
|
387 |
-
09:31.240 --> 09:37.760
|
388 |
-
the rate of scalar mutual information estimation problem plus this m to the minus half Monte
|
389 |
-
|
390 |
-
09:37.760 --> 09:38.760
|
391 |
-
Carlo penalty.
|
392 |
-
|
393 |
-
09:38.760 --> 09:43.440
|
394 |
-
And the thing is that under appropriate smoothness assumptions, the one-dimensional rate is in
|
395 |
-
|
396 |
-
09:43.440 --> 09:45.200
|
397 |
-
fact parametric.
|
398 |
-
|
399 |
-
09:45.200 --> 09:49.720
|
400 |
-
And therefore, if you just match the size of your data set and the number of Monte Carlo
|
401 |
-
|
402 |
-
09:49.720 --> 09:54.640
|
403 |
-
samples, just equate n and m, the sliced mutual information between high-dimensional variables
|
404 |
-
|
405 |
-
09:54.640 --> 09:59.360
|
406 |
-
can be estimated at the parametric n to the minus half rate, perhaps up to some logarithmic
|
407 |
-
|
408 |
-
09:59.360 --> 10:00.360
|
409 |
-
factors.
|
410 |
-
|
411 |
-
10:00.360 --> 10:06.360
|
412 |
-
And this is, of course, a significant speed up and stands in sharp contrast to the slow,
|
413 |
-
|
414 |
-
10:06.360 --> 10:12.040
|
415 |
-
exponentially bad in dimension, curse of dimensionality rate for classic mutual information.
|
416 |
-
|
417 |
-
10:12.040 --> 10:17.200
|
418 |
-
Yeah, now this scalability makes, in fact, running empirical experiments with sliced
|
419 |
-
|
420 |
-
10:17.200 --> 10:18.720
|
421 |
-
mutual information quite a breeze.
|
422 |
-
|
423 |
-
10:18.720 --> 10:24.160
|
424 |
-
So let me quickly show you some sort of proof of concept experiments, let's say.
|
425 |
-
|
426 |
-
10:24.160 --> 10:28.280
|
427 |
-
And the first one just relies on the fact that, well, SMI, sliced mutual information
|
428 |
-
|
429 |
-
10:28.280 --> 10:29.840
|
430 |
-
can identify independence.
|
431 |
-
|
432 |
-
10:29.840 --> 10:34.440
|
433 |
-
And therefore, we examine it as a figure of merit for independence testing, basically
|
434 |
-
|
435 |
-
10:34.440 --> 10:38.640
|
436 |
-
by thresholding the computed sliced mutual information value.
|
437 |
-
|
438 |
-
10:38.640 --> 10:42.000
|
439 |
-
And the results that we have obtained, of course, we've compared them with the same
|
440 |
-
|
441 |
-
10:42.000 --> 10:45.360
|
442 |
-
test, but based on classic mutual information.
|
443 |
-
|
444 |
-
10:45.360 --> 10:50.320
|
445 |
-
And this figure over here shows that for a bunch of different settings, well, it presents
|
446 |
-
|
447 |
-
10:50.320 --> 10:55.040
|
448 |
-
the area under the ROC curve as a function of the number of samples, the standard way
|
449 |
-
|
450 |
-
10:55.040 --> 10:59.160
|
451 |
-
to represent the quality of an independence test.
|
452 |
-
|
453 |
-
10:59.160 --> 11:02.920
|
454 |
-
And you basically want this number to be 1, which corresponds to an omniscient test.
|
455 |
-
|
456 |
-
11:02.920 --> 11:07.520
|
457 |
-
And what we observe is that sliced mutual information performs consistently well across
|
458 |
-
|
459 |
-
11:07.520 --> 11:13.080
|
460 |
-
different setups and across different dimensions, whereas the performance of the mutual information,
|
461 |
-
|
462 |
-
11:13.080 --> 11:18.280
|
463 |
-
the classic mutual information-based test, quickly degrades as dimension grows.
|
464 |
-
|
465 |
-
11:18.280 --> 11:23.280
|
466 |
-
Now, on top of that, let me also demonstrate how sliced mutual information can be used
|
467 |
-
|
468 |
-
11:23.280 --> 11:24.680
|
469 |
-
for feature extraction.
|
470 |
-
|
471 |
-
11:24.680 --> 11:29.780
|
472 |
-
And here, what we want to do is maximize the sliced mutual information between linear transformations
|
473 |
-
|
474 |
-
11:29.780 --> 11:37.160
|
475 |
-
of x and y that are now chosen to be IID samples from the same MNIST class, which we restrict
|
476 |
-
|
477 |
-
11:37.160 --> 11:39.240
|
478 |
-
to be either 0 or 1.
|
479 |
-
|
480 |
-
11:39.240 --> 11:42.840
|
481 |
-
And the choice of class is also random, so basically just a fair coin flip.
|
482 |
-
|
483 |
-
11:42.840 --> 11:47.280
|
484 |
-
And by observing that sliced mutual information between x and y is at most 1 bit, I mean,
|
485 |
-
|
486 |
-
11:47.280 --> 11:52.560
|
487 |
-
it's always upper bounded by mutual information, which equals a single bit in this case, basically
|
488 |
-
|
489 |
-
11:52.560 --> 11:57.320
|
490 |
-
the class label, the way to understand what we're doing here is that we're looking for
|
491 |
-
|
492 |
-
11:57.320 --> 12:03.400
|
493 |
-
the linear feature that is most informative for classifying or determining this class
|
494 |
-
|
495 |
-
12:03.400 --> 12:04.760
|
496 |
-
label.
|
497 |
-
|
498 |
-
12:04.760 --> 12:08.200
|
499 |
-
And interestingly enough, this is what this procedure ends up learning, where the figure
|
500 |
-
|
501 |
-
12:08.200 --> 12:15.040
|
502 |
-
shows basically the first two rows of the optimal A matrix that we obtained, rearranged
|
503 |
-
|
504 |
-
12:15.040 --> 12:17.480
|
505 |
-
in the dimension of an MNIST image.
|
506 |
-
|
507 |
-
12:17.480 --> 12:22.720
|
508 |
-
And this really looks like a match filter, if you're familiar, which, when applied to
|
509 |
-
|
510 |
-
12:22.720 --> 12:27.480
|
511 |
-
the samples, would indeed be able to tell you whether the sample came from the 0 class
|
512 |
-
|
513 |
-
12:27.480 --> 12:28.640
|
514 |
-
or not.
|
515 |
-
|
516 |
-
12:28.640 --> 12:33.680
|
517 |
-
And as far as for the value itself, well, the maximized sliced mutual information value
|
518 |
-
|
519 |
-
12:33.680 --> 12:39.800
|
520 |
-
ends up being roughly 0.7, which is quite close to the 1 bit upper bound, and is much,
|
521 |
-
|
522 |
-
12:39.800 --> 12:44.400
|
523 |
-
much larger than what you would get if you would not learn A, and let's say just instantiate
|
524 |
-
|
525 |
-
12:44.400 --> 12:49.480
|
526 |
-
it as a matrix with IID entries drawn according to some distribution.
|
527 |
-
|
528 |
-
12:49.480 --> 12:53.640
|
529 |
-
And this is just to say that something meaningful indeed being learned here, and something meaningful
|
530 |
-
|
531 |
-
12:53.640 --> 13:00.160
|
532 |
-
indeed happens when you maximize the sliced mutual information as your optimization objective.
|
533 |
-
|
534 |
-
13:00.160 --> 13:03.400
|
535 |
-
OK, so yeah, that's basically it.
|
536 |
-
|
537 |
-
13:03.400 --> 13:09.160
|
538 |
-
And just to recap, we introduced sliced mutual information, which is this average of scalar
|
539 |
-
|
540 |
-
13:09.160 --> 13:12.160
|
541 |
-
mutual information terms between one-dimensional projections.
|
542 |
-
|
543 |
-
13:12.160 --> 13:15.880
|
544 |
-
We've seen that it preserves much of the structure of classic mutual information.
|
545 |
-
|
546 |
-
13:15.880 --> 13:22.280
|
547 |
-
It can be efficiently computed and estimated from samples, and can also be, in fact, increased
|
548 |
-
|
549 |
-
13:22.280 --> 13:28.280
|
550 |
-
by our processing if, indeed, your processing gives rise to more informative projections.
|
551 |
-
|
552 |
-
13:28.280 --> 13:32.960
|
553 |
-
And we've presented some proof of concept applications to independence testing, to feature
|
554 |
-
|
555 |
-
13:32.960 --> 13:33.960
|
556 |
-
extraction.
|
557 |
-
|
558 |
-
13:33.960 --> 13:35.800
|
559 |
-
We have a couple of more in the paper.
|
560 |
-
|
561 |
-
13:35.800 --> 13:36.960
|
562 |
-
But let me say this.
|
563 |
-
|
564 |
-
13:36.960 --> 13:41.480
|
565 |
-
While this is mostly theoretical work, and a large-scale empirical exploration is sort
|
566 |
-
|
567 |
-
13:41.480 --> 13:46.640
|
568 |
-
of beyond its scope, we firmly believe that sliced mutual information will be extremely
|
569 |
-
|
570 |
-
13:46.640 --> 13:51.360
|
571 |
-
useful for various such tasks, and are very excited to look into this in the future.
|
572 |
-
|
573 |
-
13:51.360 --> 13:52.680
|
574 |
-
And yeah, with that, I'll stop.
|
575 |
-
|
576 |
-
13:52.680 --> 13:57.220
|
577 |
-
Thank you guys for listening, and do visit us at the poster, and check out the paper
|
578 |
-
|
579 |
-
13:57.220 --> 14:12.560
|
580 |
-
if you would like to know more.
|
581 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
demo_data/nips-2021/25953/video.mp4
DELETED
@@ -1,3 +0,0 @@
|
|
1 |
-
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:06f4968133dc8ada5fd9bf717fcd61a91049cd3c3034553cb6c2490f292c8a42
|
3 |
-
size 90905227
|
|
|
|
|
|
|
|
demo_data/nips-2021/25962/metadata.json
DELETED
@@ -1,3 +0,0 @@
|
|
1 |
-
{
|
2 |
-
"title": "Locally differentially private estimation of functionals of discrete distributions"
|
3 |
-
}
|
|
|
|
|
|
|
|
demo_data/nips-2021/25962/transcript_whisper_large-v2.txt
DELETED
@@ -1,51 +0,0 @@
|
|
1 |
-
Bonjour à tous, je suis Yannis Hartel et je vais vous présenter un travail sur l'estimation
|
2 |
-
de fonctionnalité en termes de certaines contraintes particulières de la privacité.
|
3 |
-
C'est un travail en lien avec mon conseiller postdoc, le professeur Cristina Gutucia.
|
4 |
-
Nous sommes intéressés par le fonctionnalité de la somme de puissance, qui est la somme de probabilités associées
|
5 |
-
à une distribution discrète, à la puissance gamma, où gamma est un nombre réel positif.
|
6 |
-
Donc, ce fonctionnalité de la somme de puissance est un exemple d'information qui se déroule dans différents domaines
|
7 |
-
comme les statistiques, l'apprentissage de machines, la théorie de l'information, la science de la neurone, etc.
|
8 |
-
Voici donc le problème statistique standard, où l'objectif est d'estimer la somme de puissance fonctionnelle
|
9 |
-
basée sur des exemples NIID, X1, X2 jusqu'à XN, qui suivent une distribution discrète B avec une taille d'alphabet K.
|
10 |
-
Une approche beaucoup utilisée est le estimateur de plug-in, où l'on utilise un estimateur du paramètre P
|
11 |
-
pour construire un estimateur du fonctionnalité, à travers le principe de plug-in.
|
12 |
-
Cette approche n'est pas seulement simple et intuitive, mais elle est aussi théoriquement saine,
|
13 |
-
car elle satisfait une efficacité asymptotique et une néro-optimalité non-asymptote.
|
14 |
-
La question intéressante de notre paper est de savoir si cette approche de plug-in
|
15 |
-
fonctionne dans un état de séparation non standard, où l'on impose une contrainte de privé,
|
16 |
-
et plus précisément, le setup de la privé différente local.
|
17 |
-
Ce qui signifie que l'on impose un état de privé fort, où l'on n'a pas accès aux données initiales et sensibles, les XI.
|
18 |
-
Au lieu de ça, l'on a seulement accès à une version privée de XI.
|
19 |
-
Voici la représentation d'un mécanisme simple qui n'est pas interactif.
|
20 |
-
Les termes local ici reflètent le fait que le mécanisme QI ne voit que les données XI.
|
21 |
-
En d'autres mots, il n'y a pas de troisième parti confiant qui a accès à toutes les données sensibles.
|
22 |
-
C'est un mécanisme de privé non-interactif simple, mais bien sûr, nous sommes aussi intéressés par des mécanismes plus sophistiqués,
|
23 |
-
notamment le mécanisme de séquence interactif, où chaque QI voit les données privées dévoilées précédemment,
|
24 |
-
et les données privées de XI, et les données privées de XI.
|
25 |
-
Dans cette étude non-standard, nous retournons au problème original de l'estimation fonctionnelle de la power sum,
|
26 |
-
où nous n'avons qu'accès à des données privées de XI jusqu'à XL.
|
27 |
-
Notre première contribution est de donner une caractérisation tigrée et non-transomatique du erreur de caractérisation de la power sum de l'estimateur.
|
28 |
-
Ce résultat montre que l'estimateur de la power sum n'est pas optimal.
|
29 |
-
Cela contraste avec la performance de l'estimateur de la power sum dans le problème statistique standard.
|
30 |
-
Le message ici est que les bons estimateurs dans le setup standard ne sont pas toujours bons estimateurs dans le setup local privacy.
|
31 |
-
Notre deuxième contribution est la correction du estimateur de plug-in grâce à une attentionnée de troncation de Pk de petites probabilités.
|
32 |
-
Cette correction conduit à une réduction significative du risque d'erreur.
|
33 |
-
En particulier, le risque devient indépendant du size alphabétique K lorsque K est grand.
|
34 |
-
Cette deuxième contribution, par contre, se base sur un mécanisme de privé non-interactif simple.
|
35 |
-
Dans la seconde partie du document, nous examinons un mécanisme de séquence interactive plus sophistiqué,
|
36 |
-
pour lequel nous construisons une procédure de deux pas qui nous permet de réduire le risque grâce à un facteur logarithmique.
|
37 |
-
Enfin, à la fin du document, nous fournissons un lien universel en bas sur le risque d'erreur
|
38 |
-
avec respect à tous les estimateurs et tous les mécanismes non-interactifs et séquentially interactifs.
|
39 |
-
Malheureusement, ce lien bas est un lien d'accords uniquement dans certains cas,
|
40 |
-
ce qui nous laisse avec quelques questions très importantes à poser sur ce problème.
|
41 |
-
Je pense que ce premier travail sur l'estimation fonctionnelle dans le contexte de la privé locale
|
42 |
-
vous donne au moins trois points clés.
|
43 |
-
Le premier point clé est le besoin de construire une procédure statistique prudente pour la configuration de la privé locale,
|
44 |
-
puisque c'est un setup où un bon estimateur dans un cadre standard n'a pas nécessairement de fonction.
|
45 |
-
Le deuxième point clé est que l'approche de type de plug-in analysée dans ce document
|
46 |
-
sert comme un benchmark pour de futurs travaux et des procédures plus sophistiquées.
|
47 |
-
Et le dernier point clé est que notre analyse de l'approche de type de plug-in et des mécanismes non-interactifs
|
48 |
-
montrent des régimes où le problème d'estimation est difficile
|
49 |
-
et espérons que cela incite les gens à amener des développements ici.
|
50 |
-
Merci à tous, et pour plus de détails, veuillez vérifier notre document en ligne.
|
51 |
-
Bye!
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
demo_data/nips-2021/25962/transcript_whisper_large-v2.vtt
DELETED
@@ -1,155 +0,0 @@
|
|
1 |
-
WEBVTT
|
2 |
-
|
3 |
-
00:00.000 --> 00:14.000
|
4 |
-
Bonjour à tous, je suis Yannis Hartel et je vais vous présenter un travail sur l'estimation
|
5 |
-
|
6 |
-
00:14.000 --> 00:18.000
|
7 |
-
de fonctionnalité en termes de certaines contraintes particulières de la privacité.
|
8 |
-
|
9 |
-
00:18.000 --> 00:24.000
|
10 |
-
C'est un travail en lien avec mon conseiller postdoc, le professeur Cristina Gutucia.
|
11 |
-
|
12 |
-
00:24.000 --> 00:30.000
|
13 |
-
Nous sommes intéressés par le fonctionnalité de la somme de puissance, qui est la somme de probabilités associées
|
14 |
-
|
15 |
-
00:30.000 --> 00:37.000
|
16 |
-
à une distribution discrète, à la puissance gamma, où gamma est un nombre réel positif.
|
17 |
-
|
18 |
-
00:37.000 --> 00:46.000
|
19 |
-
Donc, ce fonctionnalité de la somme de puissance est un exemple d'information qui se déroule dans différents domaines
|
20 |
-
|
21 |
-
00:46.000 --> 00:54.000
|
22 |
-
comme les statistiques, l'apprentissage de machines, la théorie de l'information, la science de la neurone, etc.
|
23 |
-
|
24 |
-
00:54.000 --> 01:00.000
|
25 |
-
Voici donc le problème statistique standard, où l'objectif est d'estimer la somme de puissance fonctionnelle
|
26 |
-
|
27 |
-
01:00.000 --> 01:10.000
|
28 |
-
basée sur des exemples NIID, X1, X2 jusqu'à XN, qui suivent une distribution discrète B avec une taille d'alphabet K.
|
29 |
-
|
30 |
-
01:10.000 --> 01:19.000
|
31 |
-
Une approche beaucoup utilisée est le estimateur de plug-in, où l'on utilise un estimateur du paramètre P
|
32 |
-
|
33 |
-
01:19.000 --> 01:25.000
|
34 |
-
pour construire un estimateur du fonctionnalité, à travers le principe de plug-in.
|
35 |
-
|
36 |
-
01:25.000 --> 01:32.000
|
37 |
-
Cette approche n'est pas seulement simple et intuitive, mais elle est aussi théoriquement saine,
|
38 |
-
|
39 |
-
01:32.000 --> 01:38.000
|
40 |
-
car elle satisfait une efficacité asymptotique et une néro-optimalité non-asymptote.
|
41 |
-
|
42 |
-
01:38.000 --> 01:45.000
|
43 |
-
La question intéressante de notre paper est de savoir si cette approche de plug-in
|
44 |
-
|
45 |
-
01:45.000 --> 01:50.000
|
46 |
-
fonctionne dans un état de séparation non standard, où l'on impose une contrainte de privé,
|
47 |
-
|
48 |
-
01:50.000 --> 01:55.000
|
49 |
-
et plus précisément, le setup de la privé différente local.
|
50 |
-
|
51 |
-
01:55.000 --> 02:06.000
|
52 |
-
Ce qui signifie que l'on impose un état de privé fort, où l'on n'a pas accès aux données initiales et sensibles, les XI.
|
53 |
-
|
54 |
-
02:06.000 --> 02:12.000
|
55 |
-
Au lieu de ça, l'on a seulement accès à une version privée de XI.
|
56 |
-
|
57 |
-
02:12.000 --> 02:22.000
|
58 |
-
Voici la représentation d'un mécanisme simple qui n'est pas interactif.
|
59 |
-
|
60 |
-
02:22.000 --> 02:30.000
|
61 |
-
Les termes local ici reflètent le fait que le mécanisme QI ne voit que les données XI.
|
62 |
-
|
63 |
-
02:30.000 --> 02:38.000
|
64 |
-
En d'autres mots, il n'y a pas de troisième parti confiant qui a accès à toutes les données sensibles.
|
65 |
-
|
66 |
-
02:38.000 --> 02:48.000
|
67 |
-
C'est un mécanisme de privé non-interactif simple, mais bien sûr, nous sommes aussi intéressés par des mécanismes plus sophistiqués,
|
68 |
-
|
69 |
-
02:48.000 --> 02:55.000
|
70 |
-
notamment le mécanisme de séquence interactif, où chaque QI voit les données privées dévoilées précédemment,
|
71 |
-
|
72 |
-
02:55.000 --> 03:00.000
|
73 |
-
et les données privées de XI, et les données privées de XI.
|
74 |
-
|
75 |
-
03:00.000 --> 03:10.000
|
76 |
-
Dans cette étude non-standard, nous retournons au problème original de l'estimation fonctionnelle de la power sum,
|
77 |
-
|
78 |
-
03:10.000 --> 03:15.000
|
79 |
-
où nous n'avons qu'accès à des données privées de XI jusqu'à XL.
|
80 |
-
|
81 |
-
03:15.000 --> 03:26.000
|
82 |
-
Notre première contribution est de donner une caractérisation tigrée et non-transomatique du erreur de caractérisation de la power sum de l'estimateur.
|
83 |
-
|
84 |
-
03:26.000 --> 03:33.000
|
85 |
-
Ce résultat montre que l'estimateur de la power sum n'est pas optimal.
|
86 |
-
|
87 |
-
03:33.000 --> 03:41.000
|
88 |
-
Cela contraste avec la performance de l'estimateur de la power sum dans le problème statistique standard.
|
89 |
-
|
90 |
-
03:41.000 --> 03:50.000
|
91 |
-
Le message ici est que les bons estimateurs dans le setup standard ne sont pas toujours bons estimateurs dans le setup local privacy.
|
92 |
-
|
93 |
-
03:50.000 --> 04:00.000
|
94 |
-
Notre deuxième contribution est la correction du estimateur de plug-in grâce à une attentionnée de troncation de Pk de petites probabilités.
|
95 |
-
|
96 |
-
04:00.000 --> 04:06.000
|
97 |
-
Cette correction conduit à une réduction significative du risque d'erreur.
|
98 |
-
|
99 |
-
04:06.000 --> 04:13.000
|
100 |
-
En particulier, le risque devient indépendant du size alphabétique K lorsque K est grand.
|
101 |
-
|
102 |
-
04:13.000 --> 04:22.000
|
103 |
-
Cette deuxième contribution, par contre, se base sur un mécanisme de privé non-interactif simple.
|
104 |
-
|
105 |
-
04:22.000 --> 04:29.000
|
106 |
-
Dans la seconde partie du document, nous examinons un mécanisme de séquence interactive plus sophistiqué,
|
107 |
-
|
108 |
-
04:29.000 --> 04:40.000
|
109 |
-
pour lequel nous construisons une procédure de deux pas qui nous permet de réduire le risque grâce à un facteur logarithmique.
|
110 |
-
|
111 |
-
04:40.000 --> 04:45.000
|
112 |
-
Enfin, à la fin du document, nous fournissons un lien universel en bas sur le risque d'erreur
|
113 |
-
|
114 |
-
04:45.000 --> 04:51.000
|
115 |
-
avec respect à tous les estimateurs et tous les mécanismes non-interactifs et séquentially interactifs.
|
116 |
-
|
117 |
-
04:51.000 --> 04:56.000
|
118 |
-
Malheureusement, ce lien bas est un lien d'accords uniquement dans certains cas,
|
119 |
-
|
120 |
-
04:56.000 --> 05:02.000
|
121 |
-
ce qui nous laisse avec quelques questions très importantes à poser sur ce problème.
|
122 |
-
|
123 |
-
05:02.000 --> 05:10.000
|
124 |
-
Je pense que ce premier travail sur l'estimation fonctionnelle dans le contexte de la privé locale
|
125 |
-
|
126 |
-
05:10.000 --> 05:14.000
|
127 |
-
vous donne au moins trois points clés.
|
128 |
-
|
129 |
-
05:14.000 --> 05:23.000
|
130 |
-
Le premier point clé est le besoin de construire une procédure statistique prudente pour la configuration de la privé locale,
|
131 |
-
|
132 |
-
05:23.000 --> 05:31.000
|
133 |
-
puisque c'est un setup où un bon estimateur dans un cadre standard n'a pas nécessairement de fonction.
|
134 |
-
|
135 |
-
05:31.000 --> 05:38.000
|
136 |
-
Le deuxième point clé est que l'approche de type de plug-in analysée dans ce document
|
137 |
-
|
138 |
-
05:38.000 --> 05:43.000
|
139 |
-
sert comme un benchmark pour de futurs travaux et des procédures plus sophistiquées.
|
140 |
-
|
141 |
-
05:43.000 --> 05:51.000
|
142 |
-
Et le dernier point clé est que notre analyse de l'approche de type de plug-in et des mécanismes non-interactifs
|
143 |
-
|
144 |
-
05:51.000 --> 05:56.000
|
145 |
-
montrent des régimes où le problème d'estimation est difficile
|
146 |
-
|
147 |
-
05:56.000 --> 06:01.000
|
148 |
-
et espérons que cela incite les gens à amener des développements ici.
|
149 |
-
|
150 |
-
06:01.000 --> 06:08.000
|
151 |
-
Merci à tous, et pour plus de détails, veuillez vérifier notre document en ligne.
|
152 |
-
|
153 |
-
06:08.000 --> 06:22.000
|
154 |
-
Bye!
|
155 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
demo_data/nips-2021/25962/video.mp4
DELETED
@@ -1,3 +0,0 @@
|
|
1 |
-
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:922f83c4e8f367bc0341f90d1b55d4e3bafe1296c7cc679dc8057a844f5c38ef
|
3 |
-
size 40157100
|
|
|
|
|
|
|
|
demo_data/nips-2021/25964/metadata.json
DELETED
@@ -1,3 +0,0 @@
|
|
1 |
-
{
|
2 |
-
"title": "Reinforcement Learning in Linear MDPs: Constant Regret and Representation Selection"
|
3 |
-
}
|
|
|
|
|
|
|
|
demo_data/nips-2021/25964/transcript_whisper_large-v2.txt
DELETED
@@ -1,366 +0,0 @@
|
|
1 |
-
e la possibilità di eseguire un'operazione di modello di un'algebra.
|
2 |
-
Questo è un'operazione che è stata creata per il nostro studio,
|
3 |
-
e che è stato creato per il nostro studio.
|
4 |
-
Ciao a tutti, sono Matteo Papini,
|
5 |
-
e questo è un lavoro insieme con Andrea Tirinzoni,
|
6 |
-
Aldo Pacchiano, Marcello Restelli,
|
7 |
-
Alessandro Lazzarici e Matteo Pirotta.
|
8 |
-
Il nostro lavoro è motivato dall'efficacia
|
9 |
-
di algoritmi di imparazione di rinforzamento profondo
|
10 |
-
per risolvere tasche complesse, come i videoghi.
|
11 |
-
Una caratteristica fondamentale di questi metodi
|
12 |
-
è la possibilità di eseguire neural networks
|
13 |
-
per eseguire rappresentazioni complesse delle tasche
|
14 |
-
che permette di rappresentare e imparare
|
15 |
-
le polizie ottime efficacemente.
|
16 |
-
Capire cosa fa una rappresentazione buona
|
17 |
-
e come trovarne una
|
18 |
-
è fondamentale per disegnare
|
19 |
-
migliori algoritmi di imparazione di rinforzamento.
|
20 |
-
In questo lavoro, per prima volta,
|
21 |
-
ci sono state presentate caratterizzazioni formali
|
22 |
-
di rappresentazioni buone per l'imparazione di rinforzamento.
|
23 |
-
Abbiamo mostrato che usare una rappresentazione buona
|
24 |
-
può davvero beneficiare l'efficienza di imparazione
|
25 |
-
e fornire garantie di regretto costante.
|
26 |
-
Finalmente, abbiamo mostrato come una rappresentazione buona
|
27 |
-
può essere selezionata dall'interazione online,
|
28 |
-
un primo passaggio verso l'apprendimento di rappresentazione per RL.
|
29 |
-
Ma prima di tutto, qualche background.
|
30 |
-
Il problema di imparazione è modellato
|
31 |
-
come un processo di decisione di marco finito di orizzonte, o MDP.
|
32 |
-
In ogni passaggio di tempo, l'agente osserva un stato dell'ambiente,
|
33 |
-
prende un'azione e riceve una rinforza
|
34 |
-
e un stato successivo come risultato.
|
35 |
-
Questi sono determinati rispettivamente
|
36 |
-
da una funzione di rinforza e una funzione di transizione
|
37 |
-
che sono un'unità di tempo e un'unità di non-conoscenza.
|
38 |
-
L'interazione è dividita in due episodi
|
39 |
-
di lunghezza finita, che si chiama l'orizzonte.
|
40 |
-
All'ultimo episodio, il stato è risalto
|
41 |
-
a seconda della distribuzione fissata.
|
42 |
-
Il comportamento dell'agente è modellato da una polizia,
|
43 |
-
che è una mappatura da stati all'azione
|
44 |
-
che può anche essere dipendente del tempo.
|
45 |
-
La funzione di valore, o funzione Q della polizia Pi,
|
46 |
-
dà la rinforza aspettata totale
|
47 |
-
ottenuta prendendo l'azione A in stato S a tempo H
|
48 |
-
e poi seguendo la polizia fino all'ultimo episodio.
|
49 |
-
Un'ottima polizia è garantita
|
50 |
-
che la funzione Q si massima su tutti i stati.
|
51 |
-
Facciamo un'assumzione extra
|
52 |
-
che ogni stato admette un'azione ottima unica.
|
53 |
-
Quando il numero di stati è molto grande o anche infinito,
|
54 |
-
imparare l'ottima polizia può essere molto difficile.
|
55 |
-
Quindi guardiamo i linear MDPs
|
56 |
-
dove l'agente ha accesso a una rappresentazione compatta.
|
57 |
-
Questa è una mappatura di caratteristiche
|
58 |
-
da stati e azioni a vectori d-dimensional
|
59 |
-
dove D è più piccolo.
|
60 |
-
Potete vedere queste caratteristiche
|
61 |
-
come l'ultimo strato scoperto di un'intera rete neurale.
|
62 |
-
Nell'apprendimento di rinforzamento profondo
|
63 |
-
impariamo tutti i pesi della rete simultaneamente.
|
64 |
-
Qui mantendremo la rappresentazione fissa
|
65 |
-
e impareremo solo i finali parametri
|
66 |
-
che sono i pesi di una combinazione lineare.
|
67 |
-
Questa funzione lineare, almeno,
|
68 |
-
deve essere in grado di rappresentare la funzione Q ottima
|
69 |
-
in modo da poterla usare per prendere azioni ottime.
|
70 |
-
Ma, infine,
|
71 |
-
essere in grado di rappresentare la funzione Q ottima
|
72 |
-
non è abbastanza per l'apprendimento efficace
|
73 |
-
perché un numero esponenziale di esempi
|
74 |
-
può ancora essere richiesto.
|
75 |
-
Per evitare questo,
|
76 |
-
ci sono necessità di assumizioni strutturali extra
|
77 |
-
sull'MDP,
|
78 |
-
e alcune sono state proposte nella literatura.
|
79 |
-
Nel MDP di basso rango,
|
80 |
-
sia la funzione di rinforzamento che la funzione di transizione
|
81 |
-
sono lineari nelle stesse funzioni.
|
82 |
-
Queste funzioni possono essere tempo-indipendenti.
|
83 |
-
Assumiamo solo per semplicità
|
84 |
-
che le due funzioni condividono la stessa dimensione D.
|
85 |
-
Una prima conseguenza della struttura di basso rango
|
86 |
-
è che la funzione Q di ogni polizia
|
87 |
-
può essere rappresentata come una funzione lineare delle funzioni.
|
88 |
-
Una assumzione strutturale più forte è la rinforzamento di Bellman.
|
89 |
-
In questi MDP,
|
90 |
-
tutte le funzioni lineare delle funzioni
|
91 |
-
devono essere chiuse sotto l'operatore di optimità di Bellman.
|
92 |
-
La struttura di basso rango implica la chiusura di Bellman,
|
93 |
-
ma l'opposto non è vero.
|
94 |
-
Indeed, nelle MDP di chiusura di Bellman,
|
95 |
-
solo l'ottima funzione Q
|
96 |
-
è garantita di essere realizzabile lineariamente.
|
97 |
-
Le algoritmi di imparazione di rinforzamento efficace
|
98 |
-
sono state proposte per questi settimenti.
|
99 |
-
Possiamo evaluare le funzioni
|
100 |
-
usando il concetto di risalto,
|
101 |
-
che è l'amounto totale di sub-optimità
|
102 |
-
che viene sofferto dall'agente
|
103 |
-
durante il processo di imparazione
|
104 |
-
rispetto alla polizia ottima.
|
105 |
-
Nelle MDP di basso rango,
|
106 |
-
l'algoritmo LSVI-UCB
|
107 |
-
soffre solo un regalo sublineare
|
108 |
-
nel caso più grave.
|
109 |
-
Eleanor è una versione raffinata
|
110 |
-
che funziona nel caso più generale
|
111 |
-
della chiusura di Bellman
|
112 |
-
e ha una migliore dipendenza
|
113 |
-
sulla dimensione di caratteristiche.
|
114 |
-
Doveva essere notato, però,
|
115 |
-
che Eleanor è computazionale intrattabile.
|
116 |
-
Per il LSVI-UCB
|
117 |
-
abbiamo anche un regalo
|
118 |
-
di base di istanze
|
119 |
-
che è logaritmico
|
120 |
-
nel numero totale di interazioni.
|
121 |
-
Qui Delta denuncia
|
122 |
-
il capo di sub-optimità
|
123 |
-
di una pariera di attesa statale
|
124 |
-
che è assumato di avere
|
125 |
-
un minimo ben definito.
|
126 |
-
Tutti questi regali di base
|
127 |
-
ignorano la qualità della rappresentazione,
|
128 |
-
a parte le assumazioni strutturali
|
129 |
-
che sono necessarie
|
130 |
-
per la sua gestione.
|
131 |
-
La domanda che cercheremo di rispondere è questa.
|
132 |
-
Possiamo raggiungere
|
133 |
-
anche piccoli dolori
|
134 |
-
con una buona rappresentazione?
|
135 |
-
Per rendere questo concetto
|
136 |
-
di buona rappresentazione formale
|
137 |
-
introduciamo la proprietà Unisoft.
|
138 |
-
Una rappresentazione è Unisoft
|
139 |
-
se le caratteristiche ottime
|
140 |
-
spostano l'intero spazio di caratteristiche.
|
141 |
-
Le caratteristiche ottime sono
|
142 |
-
le caratteristiche delle azioni ottime
|
143 |
-
in stati che sono raggiuntibili
|
144 |
-
alla propria politica ottimale.
|
145 |
-
Intuitivamente, la proprietà Unisoft
|
146 |
-
garantisce che le caratteristiche ottime
|
147 |
-
sono diverse abbastanza
|
148 |
-
per che l'agente
|
149 |
-
cominci rapidamente alla politica ottimale
|
150 |
-
senza ridurre
|
151 |
-
l'amounto di informazioni che riceve
|
152 |
-
sulla tasca in generale.
|
153 |
-
Possiamo anche misurare
|
154 |
-
il grado di diversità della rappresentazione
|
155 |
-
guardando i più piccoli valori
|
156 |
-
degli eigenvali
|
157 |
-
della matrica di covarianza delle caratteristiche ottime.
|
158 |
-
Questo parametro di Lambda
|
159 |
-
porterà un ruolo importante
|
160 |
-
nelle nostre regrette.
|
161 |
-
Notate che un valore più alto di Lambda
|
162 |
-
è migliore perché denota
|
163 |
-
più diversità di caratteristiche
|
164 |
-
e che Lambda può essere al massimo
|
165 |
-
una sotto assumizioni comuni
|
166 |
-
sulla magnitude di caratteristiche.
|
167 |
-
Ma in quale senso sono queste rappresentazioni
|
168 |
-
ottime?
|
169 |
-
Ciò che abbiamo mostrato in MDP lineari
|
170 |
-
è che Unisoft è sinonimo
|
171 |
-
con regrette costanti.
|
172 |
-
Per prima cosa, abbiamo mostrato
|
173 |
-
che la proprietà di Unisoft
|
174 |
-
è necessaria per raggiungere
|
175 |
-
regrette costanti in MDP
|
176 |
-
con regretti lineari.
|
177 |
-
Questo appartiene a MDPs di basso rango,
|
178 |
-
Bellman closure,
|
179 |
-
e anche a MDPs di mixtura lineare
|
180 |
-
che sono un'altra
|
181 |
-
assumazione strutturale comune.
|
182 |
-
Ma Unisoft è anche sufficiente
|
183 |
-
per regrette costanti
|
184 |
-
in casi interessanti.
|
185 |
-
In MDPs di basso rango,
|
186 |
-
SVI-UCB raggiunge
|
187 |
-
regrette costanti se e solo se
|
188 |
-
la rappresentazione è Unisoft.
|
189 |
-
Con una alta probabilità,
|
190 |
-
un numero finito
|
191 |
-
di interaczioni è sufficiente
|
192 |
-
per l'agente imparare
|
193 |
-
perfettamente la polizia ottimale.
|
194 |
-
Quindi, la regrette può essere
|
195 |
-
rilassata in termini di questo tempo costante
|
196 |
-
regardless of the
|
197 |
-
total number of episodes k.
|
198 |
-
In altri parole, la regrette
|
199 |
-
è costante.
|
200 |
-
Notate come il tempo τ
|
201 |
-
dipende inversamente
|
202 |
-
sul parametro λ.
|
203 |
-
Indeed, con una mappa di
|
204 |
-
più diversità di caratteristiche, possiamo imparare
|
205 |
-
la polizia ottimale più velocemente.
|
206 |
-
Abbiamo un risultato simile
|
207 |
-
per Eleanor nel caso più generale
|
208 |
-
di MDPs di Bellman closure,
|
209 |
-
con anche una migliore
|
210 |
-
dipendenza sulla dimensione d
|
211 |
-
della caratteristica.
|
212 |
-
Infine, la mancanza di
|
213 |
-
lombari per Eleanor
|
214 |
-
dà questa polinomiale
|
215 |
-
dipendenza sul parametro λ
|
216 |
-
rispetto a una dipendenza logaritmica
|
217 |
-
nel caso di LSVI-UCB.
|
218 |
-
Ma questo potrebbe ben essere
|
219 |
-
un artefatto del nostro provo.
|
220 |
-
Per ricapitulare, abbiamo mostrato
|
221 |
-
che l'Unisoft è
|
222 |
-
sia necessario che sufficiente
|
223 |
-
per raggiungere regrette costanti
|
224 |
-
in MDPs di Bellman closure
|
225 |
-
e di low rank, e ha
|
226 |
-
provvinto regrette costanti
|
227 |
-
per i bounds superiori per algoritmi comuni.
|
228 |
-
Nella ultima parte del
|
229 |
-
talco, mostriamo come
|
230 |
-
le representazioni buone possono essere
|
231 |
-
scelte online.
|
232 |
-
Ci concentriamo su MDPs di low rank
|
233 |
-
per semplicità.
|
234 |
-
L'agente è dato un set
|
235 |
-
di N rappresentazioni candidate
|
236 |
-
che rappresentano
|
237 |
-
la stessa MDP di low rank
|
238 |
-
senza misspecificazione.
|
239 |
-
Le rappresentazioni possono avere
|
240 |
-
diverse dimensioni.
|
241 |
-
Questo differe dall'approccio tipico
|
242 |
-
di rappresentazione di lezione in RL
|
243 |
-
dove si cercano di trovare
|
244 |
-
una rappresentazione accurata
|
245 |
-
da una classe di funzioni realizzabili.
|
246 |
-
Questo permette di
|
247 |
-
risolvere le misspecificazioni, ma
|
248 |
-
è tipicamente fatto offline.
|
249 |
-
Il nostro obiettivo è
|
250 |
-
imparare così efficientemente
|
251 |
-
come se usassimo la migliore
|
252 |
-
rappresentazione candidata nel set
|
253 |
-
senza sapere in avanzo.
|
254 |
-
Ovviamente, se una delle candidate
|
255 |
-
è Unisoft, vorremmo
|
256 |
-
ottenere un regalo costante.
|
257 |
-
L'algoritmo che proponiamo
|
258 |
-
è LSVI Leader.
|
259 |
-
Si guida
|
260 |
-
N istanze parallele di LSVI UCB,
|
261 |
-
una per ogni rappresentazione
|
262 |
-
candidata.
|
263 |
-
Per ogni rappresentazione, usiamo
|
264 |
-
tutte le date collezionate
|
265 |
-
dall'agente per esimerare
|
266 |
-
il parametro dell'ottima
|
267 |
-
funzione Q accordo
|
268 |
-
a questa rappresentazione.
|
269 |
-
Questo è fatto con una combinazione
|
270 |
-
di square e induzione sbattuta.
|
271 |
-
Un bonus di esplorazione
|
272 |
-
viene aggiunto all'estimato
|
273 |
-
del parametro per rendere
|
274 |
-
l'estimato ottimista, come nel caso di LSVI UCB.
|
275 |
-
Ma ora
|
276 |
-
abbiamo un parametro ottimista
|
277 |
-
per ogni rappresentazione
|
278 |
-
e l'azione viene scelta
|
279 |
-
per maximizzare il più piccolo
|
280 |
-
parametro ottimista,
|
281 |
-
che è anche l'estimato più tico.
|
282 |
-
Notate come questo
|
283 |
-
è in realtà più potente
|
284 |
-
dell'algoritmo di selezione del modello
|
285 |
-
perché possiamo usare
|
286 |
-
una rappresentazione diversa
|
287 |
-
per ogni stato.
|
288 |
-
Vediamo che il regalo del leader di LSVI
|
289 |
-
è superiore
|
290 |
-
a quello di LSVI UCB
|
291 |
-
se è condannato con la rappresentazione
|
292 |
-
migliore dei candidati,
|
293 |
-
a meno di un fattore,
|
294 |
-
che è il numero di candidati
|
295 |
-
in square.
|
296 |
-
Questo significa che se abbiamo
|
297 |
-
una rappresentazione di Unisoft nel set,
|
298 |
-
il leader di LSVI
|
299 |
-
raggiunge il regalo di selezione.
|
300 |
-
Ma il leader di LSVI
|
301 |
-
può combinare rappresentazioni
|
302 |
-
attraverso stagi, stati e azioni,
|
303 |
-
e quindi
|
304 |
-
a volte può raggiungere
|
305 |
-
il regalo di selezione
|
306 |
-
anche se non c'è una rappresentazione di candidati
|
307 |
-
di Unisoft.
|
308 |
-
I nostri risultati teoretici sono anche supportati
|
309 |
-
dai risultati empirici
|
310 |
-
in MDPs di piccolo regalo di selezione.
|
311 |
-
Questi plotti mostrano il regalo di selezione
|
312 |
-
come funzione del numero di episodi.
|
313 |
-
A sinistra abbiamo
|
314 |
-
il regalo di LSVI-UCB
|
315 |
-
che è gestito con
|
316 |
-
diverse rappresentazioni.
|
317 |
-
Di queste, l'unica rappresentazione
|
318 |
-
in grigio nel plotto
|
319 |
-
è Unisoft, e solo in questo caso
|
320 |
-
LSVI-UCB è in grado
|
321 |
-
di raggiungere regali costanti.
|
322 |
-
A sinistra abbiamo il regalo
|
323 |
-
del leader di LSVI
|
324 |
-
che è gestito con vari set di candidati.
|
325 |
-
In tutti questi casi,
|
326 |
-
il leader di LSVI raggiunge
|
327 |
-
regali costanti.
|
328 |
-
Ovviamente, senza sapere
|
329 |
-
la migliore rappresentazione in avanzo,
|
330 |
-
ci serve più tempo per imparare la polizia ottima,
|
331 |
-
ma questo è stato anche aspettato
|
332 |
-
dalla nostra regola di selezione.
|
333 |
-
Il plotto arancione è particolarmente
|
334 |
-
interessante, perché in questo caso
|
335 |
-
l'unica rappresentazione di Unisoft,
|
336 |
-
numero 1,
|
337 |
-
non è nel set di candidati,
|
338 |
-
ma ancora LSVI-leader è in grado
|
339 |
-
di raggiungere regali costanti
|
340 |
-
combinando le representazioni rimaste.
|
341 |
-
Nel lavoro futuro,
|
342 |
-
vorremmo migliorare questo fattore
|
343 |
-
di sqvrtn nel regalo del leader di LSVI,
|
344 |
-
perché nel caso dei banditi lineari
|
345 |
-
la dipendenza sull'umare
|
346 |
-
delle rappresentazioni è solo logaritmica.
|
347 |
-
Vorremmo anche
|
348 |
-
estendere il leader di LSVI
|
349 |
-
per gestire le rappresentazioni
|
350 |
-
di candidati che sono miscele.
|
351 |
-
Tuttavia, questa
|
352 |
-
selezione delle rappresentazioni è
|
353 |
-
solo un passaggio verso
|
354 |
-
il learning of representation,
|
355 |
-
che significa imparare
|
356 |
-
la rappresentazione online da scratch.
|
357 |
-
Questo è già fatto
|
358 |
-
in pratica con il learning di
|
359 |
-
rinforzamento profondo, ma la teoria
|
360 |
-
di questo è scomoda.
|
361 |
-
Finalmente, possiamo considerare
|
362 |
-
il learning di rinforzamento multitasca,
|
363 |
-
dove una singola rappresentazione
|
364 |
-
potrebbe essere buona per un
|
365 |
-
composto di MDPs che condividono
|
366 |
-
una struttura. Grazie.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
demo_data/nips-2021/25964/transcript_whisper_large-v2.vtt
DELETED
@@ -1,1100 +0,0 @@
|
|
1 |
-
WEBVTT
|
2 |
-
|
3 |
-
00:00.000 --> 00:04.000
|
4 |
-
e la possibilità di eseguire un'operazione di modello di un'algebra.
|
5 |
-
|
6 |
-
00:04.000 --> 00:07.000
|
7 |
-
Questo è un'operazione che è stata creata per il nostro studio,
|
8 |
-
|
9 |
-
00:07.000 --> 00:09.000
|
10 |
-
e che è stato creato per il nostro studio.
|
11 |
-
|
12 |
-
00:09.000 --> 00:11.000
|
13 |
-
Ciao a tutti, sono Matteo Papini,
|
14 |
-
|
15 |
-
00:11.000 --> 00:13.000
|
16 |
-
e questo è un lavoro insieme con Andrea Tirinzoni,
|
17 |
-
|
18 |
-
00:13.000 --> 00:15.000
|
19 |
-
Aldo Pacchiano, Marcello Restelli,
|
20 |
-
|
21 |
-
00:15.000 --> 00:18.000
|
22 |
-
Alessandro Lazzarici e Matteo Pirotta.
|
23 |
-
|
24 |
-
00:18.000 --> 00:21.000
|
25 |
-
Il nostro lavoro è motivato dall'efficacia
|
26 |
-
|
27 |
-
00:21.000 --> 00:23.000
|
28 |
-
di algoritmi di imparazione di rinforzamento profondo
|
29 |
-
|
30 |
-
00:23.000 --> 00:26.000
|
31 |
-
per risolvere tasche complesse, come i videoghi.
|
32 |
-
|
33 |
-
00:26.000 --> 00:28.000
|
34 |
-
Una caratteristica fondamentale di questi metodi
|
35 |
-
|
36 |
-
00:28.000 --> 00:30.000
|
37 |
-
è la possibilità di eseguire neural networks
|
38 |
-
|
39 |
-
00:30.000 --> 00:33.000
|
40 |
-
per eseguire rappresentazioni complesse delle tasche
|
41 |
-
|
42 |
-
00:33.000 --> 00:36.000
|
43 |
-
che permette di rappresentare e imparare
|
44 |
-
|
45 |
-
00:36.000 --> 00:39.000
|
46 |
-
le polizie ottime efficacemente.
|
47 |
-
|
48 |
-
00:39.000 --> 00:42.000
|
49 |
-
Capire cosa fa una rappresentazione buona
|
50 |
-
|
51 |
-
00:42.000 --> 00:44.000
|
52 |
-
e come trovarne una
|
53 |
-
|
54 |
-
00:44.000 --> 00:46.000
|
55 |
-
è fondamentale per disegnare
|
56 |
-
|
57 |
-
00:46.000 --> 00:48.000
|
58 |
-
migliori algoritmi di imparazione di rinforzamento.
|
59 |
-
|
60 |
-
00:48.000 --> 00:50.000
|
61 |
-
In questo lavoro, per prima volta,
|
62 |
-
|
63 |
-
00:50.000 --> 00:52.000
|
64 |
-
ci sono state presentate caratterizzazioni formali
|
65 |
-
|
66 |
-
00:52.000 --> 00:55.000
|
67 |
-
di rappresentazioni buone per l'imparazione di rinforzamento.
|
68 |
-
|
69 |
-
00:55.000 --> 00:58.000
|
70 |
-
Abbiamo mostrato che usare una rappresentazione buona
|
71 |
-
|
72 |
-
00:58.000 --> 01:01.000
|
73 |
-
può davvero beneficiare l'efficienza di imparazione
|
74 |
-
|
75 |
-
01:01.000 --> 01:03.000
|
76 |
-
e fornire garantie di regretto costante.
|
77 |
-
|
78 |
-
01:03.000 --> 01:06.000
|
79 |
-
Finalmente, abbiamo mostrato come una rappresentazione buona
|
80 |
-
|
81 |
-
01:06.000 --> 01:09.000
|
82 |
-
può essere selezionata dall'interazione online,
|
83 |
-
|
84 |
-
01:09.000 --> 01:13.000
|
85 |
-
un primo passaggio verso l'apprendimento di rappresentazione per RL.
|
86 |
-
|
87 |
-
01:13.000 --> 01:16.000
|
88 |
-
Ma prima di tutto, qualche background.
|
89 |
-
|
90 |
-
01:16.000 --> 01:18.000
|
91 |
-
Il problema di imparazione è modellato
|
92 |
-
|
93 |
-
01:18.000 --> 01:22.000
|
94 |
-
come un processo di decisione di marco finito di orizzonte, o MDP.
|
95 |
-
|
96 |
-
01:22.000 --> 01:26.000
|
97 |
-
In ogni passaggio di tempo, l'agente osserva un stato dell'ambiente,
|
98 |
-
|
99 |
-
01:26.000 --> 01:28.000
|
100 |
-
prende un'azione e riceve una rinforza
|
101 |
-
|
102 |
-
01:28.000 --> 01:31.000
|
103 |
-
e un stato successivo come risultato.
|
104 |
-
|
105 |
-
01:31.000 --> 01:33.000
|
106 |
-
Questi sono determinati rispettivamente
|
107 |
-
|
108 |
-
01:33.000 --> 01:36.000
|
109 |
-
da una funzione di rinforza e una funzione di transizione
|
110 |
-
|
111 |
-
01:36.000 --> 01:39.000
|
112 |
-
che sono un'unità di tempo e un'unità di non-conoscenza.
|
113 |
-
|
114 |
-
01:39.000 --> 01:42.000
|
115 |
-
L'interazione è dividita in due episodi
|
116 |
-
|
117 |
-
01:42.000 --> 01:46.000
|
118 |
-
di lunghezza finita, che si chiama l'orizzonte.
|
119 |
-
|
120 |
-
01:46.000 --> 01:49.000
|
121 |
-
All'ultimo episodio, il stato è risalto
|
122 |
-
|
123 |
-
01:49.000 --> 01:52.000
|
124 |
-
a seconda della distribuzione fissata.
|
125 |
-
|
126 |
-
01:52.000 --> 01:55.000
|
127 |
-
Il comportamento dell'agente è modellato da una polizia,
|
128 |
-
|
129 |
-
01:55.000 --> 01:58.000
|
130 |
-
che è una mappatura da stati all'azione
|
131 |
-
|
132 |
-
01:58.000 --> 02:01.000
|
133 |
-
che può anche essere dipendente del tempo.
|
134 |
-
|
135 |
-
02:01.000 --> 02:04.000
|
136 |
-
La funzione di valore, o funzione Q della polizia Pi,
|
137 |
-
|
138 |
-
02:04.000 --> 02:07.000
|
139 |
-
dà la rinforza aspettata totale
|
140 |
-
|
141 |
-
02:07.000 --> 02:11.000
|
142 |
-
ottenuta prendendo l'azione A in stato S a tempo H
|
143 |
-
|
144 |
-
02:11.000 --> 02:15.000
|
145 |
-
e poi seguendo la polizia fino all'ultimo episodio.
|
146 |
-
|
147 |
-
02:15.000 --> 02:18.000
|
148 |
-
Un'ottima polizia è garantita
|
149 |
-
|
150 |
-
02:18.000 --> 02:22.000
|
151 |
-
che la funzione Q si massima su tutti i stati.
|
152 |
-
|
153 |
-
02:22.000 --> 02:25.000
|
154 |
-
Facciamo un'assumzione extra
|
155 |
-
|
156 |
-
02:25.000 --> 02:28.000
|
157 |
-
che ogni stato admette un'azione ottima unica.
|
158 |
-
|
159 |
-
02:28.000 --> 02:31.000
|
160 |
-
Quando il numero di stati è molto grande o anche infinito,
|
161 |
-
|
162 |
-
02:31.000 --> 02:35.000
|
163 |
-
imparare l'ottima polizia può essere molto difficile.
|
164 |
-
|
165 |
-
02:35.000 --> 02:38.000
|
166 |
-
Quindi guardiamo i linear MDPs
|
167 |
-
|
168 |
-
02:38.000 --> 02:42.000
|
169 |
-
dove l'agente ha accesso a una rappresentazione compatta.
|
170 |
-
|
171 |
-
02:42.000 --> 02:44.000
|
172 |
-
Questa è una mappatura di caratteristiche
|
173 |
-
|
174 |
-
02:44.000 --> 02:47.000
|
175 |
-
da stati e azioni a vectori d-dimensional
|
176 |
-
|
177 |
-
02:47.000 --> 02:50.000
|
178 |
-
dove D è più piccolo.
|
179 |
-
|
180 |
-
02:50.000 --> 02:52.000
|
181 |
-
Potete vedere queste caratteristiche
|
182 |
-
|
183 |
-
02:52.000 --> 02:55.000
|
184 |
-
come l'ultimo strato scoperto di un'intera rete neurale.
|
185 |
-
|
186 |
-
02:55.000 --> 02:57.000
|
187 |
-
Nell'apprendimento di rinforzamento profondo
|
188 |
-
|
189 |
-
02:57.000 --> 03:01.000
|
190 |
-
impariamo tutti i pesi della rete simultaneamente.
|
191 |
-
|
192 |
-
03:01.000 --> 03:04.000
|
193 |
-
Qui mantendremo la rappresentazione fissa
|
194 |
-
|
195 |
-
03:04.000 --> 03:07.000
|
196 |
-
e impareremo solo i finali parametri
|
197 |
-
|
198 |
-
03:07.000 --> 03:10.000
|
199 |
-
che sono i pesi di una combinazione lineare.
|
200 |
-
|
201 |
-
03:10.000 --> 03:13.000
|
202 |
-
Questa funzione lineare, almeno,
|
203 |
-
|
204 |
-
03:13.000 --> 03:16.000
|
205 |
-
deve essere in grado di rappresentare la funzione Q ottima
|
206 |
-
|
207 |
-
03:16.000 --> 03:20.000
|
208 |
-
in modo da poterla usare per prendere azioni ottime.
|
209 |
-
|
210 |
-
03:20.000 --> 03:22.000
|
211 |
-
Ma, infine,
|
212 |
-
|
213 |
-
03:22.000 --> 03:24.000
|
214 |
-
essere in grado di rappresentare la funzione Q ottima
|
215 |
-
|
216 |
-
03:24.000 --> 03:27.000
|
217 |
-
non è abbastanza per l'apprendimento efficace
|
218 |
-
|
219 |
-
03:27.000 --> 03:29.000
|
220 |
-
perché un numero esponenziale di esempi
|
221 |
-
|
222 |
-
03:29.000 --> 03:31.000
|
223 |
-
può ancora essere richiesto.
|
224 |
-
|
225 |
-
03:31.000 --> 03:33.000
|
226 |
-
Per evitare questo,
|
227 |
-
|
228 |
-
03:33.000 --> 03:35.000
|
229 |
-
ci sono necessità di assumizioni strutturali extra
|
230 |
-
|
231 |
-
03:35.000 --> 03:37.000
|
232 |
-
sull'MDP,
|
233 |
-
|
234 |
-
03:37.000 --> 03:40.000
|
235 |
-
e alcune sono state proposte nella literatura.
|
236 |
-
|
237 |
-
03:40.000 --> 03:42.000
|
238 |
-
Nel MDP di basso rango,
|
239 |
-
|
240 |
-
03:42.000 --> 03:45.000
|
241 |
-
sia la funzione di rinforzamento che la funzione di transizione
|
242 |
-
|
243 |
-
03:45.000 --> 03:48.000
|
244 |
-
sono lineari nelle stesse funzioni.
|
245 |
-
|
246 |
-
03:48.000 --> 03:51.000
|
247 |
-
Queste funzioni possono essere tempo-indipendenti.
|
248 |
-
|
249 |
-
03:51.000 --> 03:53.000
|
250 |
-
Assumiamo solo per semplicità
|
251 |
-
|
252 |
-
03:53.000 --> 03:56.000
|
253 |
-
che le due funzioni condividono la stessa dimensione D.
|
254 |
-
|
255 |
-
03:56.000 --> 03:59.000
|
256 |
-
Una prima conseguenza della struttura di basso rango
|
257 |
-
|
258 |
-
03:59.000 --> 04:02.000
|
259 |
-
è che la funzione Q di ogni polizia
|
260 |
-
|
261 |
-
04:02.000 --> 04:06.000
|
262 |
-
può essere rappresentata come una funzione lineare delle funzioni.
|
263 |
-
|
264 |
-
04:06.000 --> 04:09.000
|
265 |
-
Una assumzione strutturale più forte è la rinforzamento di Bellman.
|
266 |
-
|
267 |
-
04:09.000 --> 04:11.000
|
268 |
-
In questi MDP,
|
269 |
-
|
270 |
-
04:11.000 --> 04:13.000
|
271 |
-
tutte le funzioni lineare delle funzioni
|
272 |
-
|
273 |
-
04:13.000 --> 04:16.000
|
274 |
-
devono essere chiuse sotto l'operatore di optimità di Bellman.
|
275 |
-
|
276 |
-
04:16.000 --> 04:19.000
|
277 |
-
La struttura di basso rango implica la chiusura di Bellman,
|
278 |
-
|
279 |
-
04:19.000 --> 04:21.000
|
280 |
-
ma l'opposto non è vero.
|
281 |
-
|
282 |
-
04:21.000 --> 04:24.000
|
283 |
-
Indeed, nelle MDP di chiusura di Bellman,
|
284 |
-
|
285 |
-
04:24.000 --> 04:26.000
|
286 |
-
solo l'ottima funzione Q
|
287 |
-
|
288 |
-
04:26.000 --> 04:29.000
|
289 |
-
è garantita di essere realizzabile lineariamente.
|
290 |
-
|
291 |
-
04:29.000 --> 04:32.000
|
292 |
-
Le algoritmi di imparazione di rinforzamento efficace
|
293 |
-
|
294 |
-
04:32.000 --> 04:34.000
|
295 |
-
sono state proposte per questi settimenti.
|
296 |
-
|
297 |
-
04:34.000 --> 04:36.000
|
298 |
-
Possiamo evaluare le funzioni
|
299 |
-
|
300 |
-
04:36.000 --> 04:38.000
|
301 |
-
usando il concetto di risalto,
|
302 |
-
|
303 |
-
04:38.000 --> 04:41.000
|
304 |
-
che è l'amounto totale di sub-optimità
|
305 |
-
|
306 |
-
04:41.000 --> 04:43.000
|
307 |
-
che viene sofferto dall'agente
|
308 |
-
|
309 |
-
04:43.000 --> 04:45.000
|
310 |
-
durante il processo di imparazione
|
311 |
-
|
312 |
-
04:45.000 --> 04:47.000
|
313 |
-
rispetto alla polizia ottima.
|
314 |
-
|
315 |
-
04:47.000 --> 04:49.000
|
316 |
-
Nelle MDP di basso rango,
|
317 |
-
|
318 |
-
04:49.000 --> 04:52.000
|
319 |
-
l'algoritmo LSVI-UCB
|
320 |
-
|
321 |
-
04:52.000 --> 04:54.000
|
322 |
-
soffre solo un regalo sublineare
|
323 |
-
|
324 |
-
04:54.000 --> 04:56.000
|
325 |
-
nel caso più grave.
|
326 |
-
|
327 |
-
04:56.000 --> 04:58.000
|
328 |
-
Eleanor è una versione raffinata
|
329 |
-
|
330 |
-
04:58.000 --> 05:00.000
|
331 |
-
che funziona nel caso più generale
|
332 |
-
|
333 |
-
05:00.000 --> 05:02.000
|
334 |
-
della chiusura di Bellman
|
335 |
-
|
336 |
-
05:02.000 --> 05:04.000
|
337 |
-
e ha una migliore dipendenza
|
338 |
-
|
339 |
-
05:04.000 --> 05:06.000
|
340 |
-
sulla dimensione di caratteristiche.
|
341 |
-
|
342 |
-
05:06.000 --> 05:08.000
|
343 |
-
Doveva essere notato, però,
|
344 |
-
|
345 |
-
05:08.000 --> 05:10.000
|
346 |
-
che Eleanor è computazionale intrattabile.
|
347 |
-
|
348 |
-
05:10.000 --> 05:12.000
|
349 |
-
Per il LSVI-UCB
|
350 |
-
|
351 |
-
05:12.000 --> 05:14.000
|
352 |
-
abbiamo anche un regalo
|
353 |
-
|
354 |
-
05:14.000 --> 05:16.000
|
355 |
-
di base di istanze
|
356 |
-
|
357 |
-
05:16.000 --> 05:18.000
|
358 |
-
che è logaritmico
|
359 |
-
|
360 |
-
05:18.000 --> 05:20.000
|
361 |
-
nel numero totale di interazioni.
|
362 |
-
|
363 |
-
05:20.000 --> 05:22.000
|
364 |
-
Qui Delta denuncia
|
365 |
-
|
366 |
-
05:22.000 --> 05:24.000
|
367 |
-
il capo di sub-optimità
|
368 |
-
|
369 |
-
05:24.000 --> 05:26.000
|
370 |
-
di una pariera di attesa statale
|
371 |
-
|
372 |
-
05:26.000 --> 05:28.000
|
373 |
-
che è assumato di avere
|
374 |
-
|
375 |
-
05:28.000 --> 05:30.000
|
376 |
-
un minimo ben definito.
|
377 |
-
|
378 |
-
05:30.000 --> 05:32.000
|
379 |
-
Tutti questi regali di base
|
380 |
-
|
381 |
-
05:32.000 --> 05:34.000
|
382 |
-
ignorano la qualità della rappresentazione,
|
383 |
-
|
384 |
-
05:34.000 --> 05:36.000
|
385 |
-
a parte le assumazioni strutturali
|
386 |
-
|
387 |
-
05:36.000 --> 05:38.000
|
388 |
-
che sono necessarie
|
389 |
-
|
390 |
-
05:38.000 --> 05:40.000
|
391 |
-
per la sua gestione.
|
392 |
-
|
393 |
-
05:40.000 --> 05:42.000
|
394 |
-
La domanda che cercheremo di rispondere è questa.
|
395 |
-
|
396 |
-
05:42.000 --> 05:44.000
|
397 |
-
Possiamo raggiungere
|
398 |
-
|
399 |
-
05:44.000 --> 05:46.000
|
400 |
-
anche piccoli dolori
|
401 |
-
|
402 |
-
05:46.000 --> 05:48.000
|
403 |
-
con una buona rappresentazione?
|
404 |
-
|
405 |
-
05:48.000 --> 05:50.000
|
406 |
-
Per rendere questo concetto
|
407 |
-
|
408 |
-
05:50.000 --> 05:52.000
|
409 |
-
di buona rappresentazione formale
|
410 |
-
|
411 |
-
05:52.000 --> 05:54.000
|
412 |
-
introduciamo la proprietà Unisoft.
|
413 |
-
|
414 |
-
05:54.000 --> 05:56.000
|
415 |
-
Una rappresentazione è Unisoft
|
416 |
-
|
417 |
-
05:56.000 --> 05:58.000
|
418 |
-
se le caratteristiche ottime
|
419 |
-
|
420 |
-
05:58.000 --> 06:00.000
|
421 |
-
spostano l'intero spazio di caratteristiche.
|
422 |
-
|
423 |
-
06:00.000 --> 06:02.000
|
424 |
-
Le caratteristiche ottime sono
|
425 |
-
|
426 |
-
06:02.000 --> 06:04.000
|
427 |
-
le caratteristiche delle azioni ottime
|
428 |
-
|
429 |
-
06:04.000 --> 06:06.000
|
430 |
-
in stati che sono raggiuntibili
|
431 |
-
|
432 |
-
06:06.000 --> 06:08.000
|
433 |
-
alla propria politica ottimale.
|
434 |
-
|
435 |
-
06:08.000 --> 06:10.000
|
436 |
-
Intuitivamente, la proprietà Unisoft
|
437 |
-
|
438 |
-
06:10.000 --> 06:12.000
|
439 |
-
garantisce che le caratteristiche ottime
|
440 |
-
|
441 |
-
06:12.000 --> 06:14.000
|
442 |
-
sono diverse abbastanza
|
443 |
-
|
444 |
-
06:14.000 --> 06:16.000
|
445 |
-
per che l'agente
|
446 |
-
|
447 |
-
06:16.000 --> 06:18.000
|
448 |
-
cominci rapidamente alla politica ottimale
|
449 |
-
|
450 |
-
06:18.000 --> 06:20.000
|
451 |
-
senza ridurre
|
452 |
-
|
453 |
-
06:20.000 --> 06:22.000
|
454 |
-
l'amounto di informazioni che riceve
|
455 |
-
|
456 |
-
06:22.000 --> 06:24.000
|
457 |
-
sulla tasca in generale.
|
458 |
-
|
459 |
-
06:24.000 --> 06:26.000
|
460 |
-
Possiamo anche misurare
|
461 |
-
|
462 |
-
06:26.000 --> 06:28.000
|
463 |
-
il grado di diversità della rappresentazione
|
464 |
-
|
465 |
-
06:28.000 --> 06:30.000
|
466 |
-
guardando i più piccoli valori
|
467 |
-
|
468 |
-
06:30.000 --> 06:32.000
|
469 |
-
degli eigenvali
|
470 |
-
|
471 |
-
06:32.000 --> 06:34.000
|
472 |
-
della matrica di covarianza delle caratteristiche ottime.
|
473 |
-
|
474 |
-
06:34.000 --> 06:36.000
|
475 |
-
Questo parametro di Lambda
|
476 |
-
|
477 |
-
06:36.000 --> 06:38.000
|
478 |
-
porterà un ruolo importante
|
479 |
-
|
480 |
-
06:38.000 --> 06:40.000
|
481 |
-
nelle nostre regrette.
|
482 |
-
|
483 |
-
06:40.000 --> 06:42.000
|
484 |
-
Notate che un valore più alto di Lambda
|
485 |
-
|
486 |
-
06:42.000 --> 06:44.000
|
487 |
-
è migliore perché denota
|
488 |
-
|
489 |
-
06:44.000 --> 06:46.000
|
490 |
-
più diversità di caratteristiche
|
491 |
-
|
492 |
-
06:46.000 --> 06:48.000
|
493 |
-
e che Lambda può essere al massimo
|
494 |
-
|
495 |
-
06:48.000 --> 06:50.000
|
496 |
-
una sotto assumizioni comuni
|
497 |
-
|
498 |
-
06:50.000 --> 06:52.000
|
499 |
-
sulla magnitude di caratteristiche.
|
500 |
-
|
501 |
-
06:52.000 --> 06:54.000
|
502 |
-
Ma in quale senso sono queste rappresentazioni
|
503 |
-
|
504 |
-
06:54.000 --> 06:56.000
|
505 |
-
ottime?
|
506 |
-
|
507 |
-
06:56.000 --> 06:58.000
|
508 |
-
Ciò che abbiamo mostrato in MDP lineari
|
509 |
-
|
510 |
-
06:58.000 --> 07:00.000
|
511 |
-
è che Unisoft è sinonimo
|
512 |
-
|
513 |
-
07:00.000 --> 07:02.000
|
514 |
-
con regrette costanti.
|
515 |
-
|
516 |
-
07:02.000 --> 07:04.000
|
517 |
-
Per prima cosa, abbiamo mostrato
|
518 |
-
|
519 |
-
07:04.000 --> 07:06.000
|
520 |
-
che la proprietà di Unisoft
|
521 |
-
|
522 |
-
07:06.000 --> 07:08.000
|
523 |
-
è necessaria per raggiungere
|
524 |
-
|
525 |
-
07:08.000 --> 07:10.000
|
526 |
-
regrette costanti in MDP
|
527 |
-
|
528 |
-
07:10.000 --> 07:12.000
|
529 |
-
con regretti lineari.
|
530 |
-
|
531 |
-
07:12.000 --> 07:14.000
|
532 |
-
Questo appartiene a MDPs di basso rango,
|
533 |
-
|
534 |
-
07:14.000 --> 07:16.000
|
535 |
-
Bellman closure,
|
536 |
-
|
537 |
-
07:16.000 --> 07:18.000
|
538 |
-
e anche a MDPs di mixtura lineare
|
539 |
-
|
540 |
-
07:18.000 --> 07:20.000
|
541 |
-
che sono un'altra
|
542 |
-
|
543 |
-
07:20.000 --> 07:22.000
|
544 |
-
assumazione strutturale comune.
|
545 |
-
|
546 |
-
07:22.000 --> 07:24.000
|
547 |
-
Ma Unisoft è anche sufficiente
|
548 |
-
|
549 |
-
07:24.000 --> 07:26.000
|
550 |
-
per regrette costanti
|
551 |
-
|
552 |
-
07:26.000 --> 07:28.000
|
553 |
-
in casi interessanti.
|
554 |
-
|
555 |
-
07:28.000 --> 07:30.000
|
556 |
-
In MDPs di basso rango,
|
557 |
-
|
558 |
-
07:30.000 --> 07:32.000
|
559 |
-
SVI-UCB raggiunge
|
560 |
-
|
561 |
-
07:32.000 --> 07:34.000
|
562 |
-
regrette costanti se e solo se
|
563 |
-
|
564 |
-
07:34.000 --> 07:36.000
|
565 |
-
la rappresentazione è Unisoft.
|
566 |
-
|
567 |
-
07:36.000 --> 07:38.000
|
568 |
-
Con una alta probabilità,
|
569 |
-
|
570 |
-
07:38.000 --> 07:40.000
|
571 |
-
un numero finito
|
572 |
-
|
573 |
-
07:40.000 --> 07:42.000
|
574 |
-
di interaczioni è sufficiente
|
575 |
-
|
576 |
-
07:42.000 --> 07:44.000
|
577 |
-
per l'agente imparare
|
578 |
-
|
579 |
-
07:44.000 --> 07:46.000
|
580 |
-
perfettamente la polizia ottimale.
|
581 |
-
|
582 |
-
07:46.000 --> 07:48.000
|
583 |
-
Quindi, la regrette può essere
|
584 |
-
|
585 |
-
07:48.000 --> 07:50.000
|
586 |
-
rilassata in termini di questo tempo costante
|
587 |
-
|
588 |
-
07:50.000 --> 07:52.000
|
589 |
-
regardless of the
|
590 |
-
|
591 |
-
07:52.000 --> 07:54.000
|
592 |
-
total number of episodes k.
|
593 |
-
|
594 |
-
07:54.000 --> 07:56.000
|
595 |
-
In altri parole, la regrette
|
596 |
-
|
597 |
-
07:56.000 --> 07:58.000
|
598 |
-
è costante.
|
599 |
-
|
600 |
-
07:58.000 --> 08:00.000
|
601 |
-
Notate come il tempo τ
|
602 |
-
|
603 |
-
08:00.000 --> 08:02.000
|
604 |
-
dipende inversamente
|
605 |
-
|
606 |
-
08:02.000 --> 08:04.000
|
607 |
-
sul parametro λ.
|
608 |
-
|
609 |
-
08:04.000 --> 08:06.000
|
610 |
-
Indeed, con una mappa di
|
611 |
-
|
612 |
-
08:06.000 --> 08:08.000
|
613 |
-
più diversità di caratteristiche, possiamo imparare
|
614 |
-
|
615 |
-
08:08.000 --> 08:10.000
|
616 |
-
la polizia ottimale più velocemente.
|
617 |
-
|
618 |
-
08:10.000 --> 08:12.000
|
619 |
-
Abbiamo un risultato simile
|
620 |
-
|
621 |
-
08:12.000 --> 08:14.000
|
622 |
-
per Eleanor nel caso più generale
|
623 |
-
|
624 |
-
08:14.000 --> 08:16.000
|
625 |
-
di MDPs di Bellman closure,
|
626 |
-
|
627 |
-
08:16.000 --> 08:18.000
|
628 |
-
con anche una migliore
|
629 |
-
|
630 |
-
08:18.000 --> 08:20.000
|
631 |
-
dipendenza sulla dimensione d
|
632 |
-
|
633 |
-
08:20.000 --> 08:22.000
|
634 |
-
della caratteristica.
|
635 |
-
|
636 |
-
08:22.000 --> 08:24.000
|
637 |
-
Infine, la mancanza di
|
638 |
-
|
639 |
-
08:24.000 --> 08:26.000
|
640 |
-
lombari per Eleanor
|
641 |
-
|
642 |
-
08:26.000 --> 08:28.000
|
643 |
-
dà questa polinomiale
|
644 |
-
|
645 |
-
08:28.000 --> 08:30.000
|
646 |
-
dipendenza sul parametro λ
|
647 |
-
|
648 |
-
08:30.000 --> 08:32.000
|
649 |
-
rispetto a una dipendenza logaritmica
|
650 |
-
|
651 |
-
08:32.000 --> 08:34.000
|
652 |
-
nel caso di LSVI-UCB.
|
653 |
-
|
654 |
-
08:34.000 --> 08:36.000
|
655 |
-
Ma questo potrebbe ben essere
|
656 |
-
|
657 |
-
08:36.000 --> 08:38.000
|
658 |
-
un artefatto del nostro provo.
|
659 |
-
|
660 |
-
08:38.000 --> 08:40.000
|
661 |
-
Per ricapitulare, abbiamo mostrato
|
662 |
-
|
663 |
-
08:40.000 --> 08:42.000
|
664 |
-
che l'Unisoft è
|
665 |
-
|
666 |
-
08:42.000 --> 08:44.000
|
667 |
-
sia necessario che sufficiente
|
668 |
-
|
669 |
-
08:44.000 --> 08:46.000
|
670 |
-
per raggiungere regrette costanti
|
671 |
-
|
672 |
-
08:46.000 --> 08:48.000
|
673 |
-
in MDPs di Bellman closure
|
674 |
-
|
675 |
-
08:48.000 --> 08:50.000
|
676 |
-
e di low rank, e ha
|
677 |
-
|
678 |
-
08:50.000 --> 08:52.000
|
679 |
-
provvinto regrette costanti
|
680 |
-
|
681 |
-
08:52.000 --> 08:54.000
|
682 |
-
per i bounds superiori per algoritmi comuni.
|
683 |
-
|
684 |
-
08:54.000 --> 08:56.000
|
685 |
-
Nella ultima parte del
|
686 |
-
|
687 |
-
08:56.000 --> 08:58.000
|
688 |
-
talco, mostriamo come
|
689 |
-
|
690 |
-
08:58.000 --> 09:00.000
|
691 |
-
le representazioni buone possono essere
|
692 |
-
|
693 |
-
09:00.000 --> 09:02.000
|
694 |
-
scelte online.
|
695 |
-
|
696 |
-
09:02.000 --> 09:04.000
|
697 |
-
Ci concentriamo su MDPs di low rank
|
698 |
-
|
699 |
-
09:04.000 --> 09:06.000
|
700 |
-
per semplicità.
|
701 |
-
|
702 |
-
09:06.000 --> 09:08.000
|
703 |
-
L'agente è dato un set
|
704 |
-
|
705 |
-
09:08.000 --> 09:10.000
|
706 |
-
di N rappresentazioni candidate
|
707 |
-
|
708 |
-
09:10.000 --> 09:12.000
|
709 |
-
che rappresentano
|
710 |
-
|
711 |
-
09:12.000 --> 09:14.000
|
712 |
-
la stessa MDP di low rank
|
713 |
-
|
714 |
-
09:14.000 --> 09:16.000
|
715 |
-
senza misspecificazione.
|
716 |
-
|
717 |
-
09:16.000 --> 09:18.000
|
718 |
-
Le rappresentazioni possono avere
|
719 |
-
|
720 |
-
09:18.000 --> 09:20.000
|
721 |
-
diverse dimensioni.
|
722 |
-
|
723 |
-
09:20.000 --> 09:22.000
|
724 |
-
Questo differe dall'approccio tipico
|
725 |
-
|
726 |
-
09:22.000 --> 09:24.000
|
727 |
-
di rappresentazione di lezione in RL
|
728 |
-
|
729 |
-
09:24.000 --> 09:26.000
|
730 |
-
dove si cercano di trovare
|
731 |
-
|
732 |
-
09:26.000 --> 09:28.000
|
733 |
-
una rappresentazione accurata
|
734 |
-
|
735 |
-
09:28.000 --> 09:30.000
|
736 |
-
da una classe di funzioni realizzabili.
|
737 |
-
|
738 |
-
09:30.000 --> 09:32.000
|
739 |
-
Questo permette di
|
740 |
-
|
741 |
-
09:32.000 --> 09:34.000
|
742 |
-
risolvere le misspecificazioni, ma
|
743 |
-
|
744 |
-
09:34.000 --> 09:36.000
|
745 |
-
è tipicamente fatto offline.
|
746 |
-
|
747 |
-
09:36.000 --> 09:38.000
|
748 |
-
Il nostro obiettivo è
|
749 |
-
|
750 |
-
09:38.000 --> 09:40.000
|
751 |
-
imparare così efficientemente
|
752 |
-
|
753 |
-
09:40.000 --> 09:42.000
|
754 |
-
come se usassimo la migliore
|
755 |
-
|
756 |
-
09:42.000 --> 09:44.000
|
757 |
-
rappresentazione candidata nel set
|
758 |
-
|
759 |
-
09:44.000 --> 09:46.000
|
760 |
-
senza sapere in avanzo.
|
761 |
-
|
762 |
-
09:46.000 --> 09:48.000
|
763 |
-
Ovviamente, se una delle candidate
|
764 |
-
|
765 |
-
09:48.000 --> 09:50.000
|
766 |
-
è Unisoft, vorremmo
|
767 |
-
|
768 |
-
09:50.000 --> 09:52.000
|
769 |
-
ottenere un regalo costante.
|
770 |
-
|
771 |
-
09:52.000 --> 09:54.000
|
772 |
-
L'algoritmo che proponiamo
|
773 |
-
|
774 |
-
09:54.000 --> 09:56.000
|
775 |
-
è LSVI Leader.
|
776 |
-
|
777 |
-
09:56.000 --> 09:58.000
|
778 |
-
Si guida
|
779 |
-
|
780 |
-
09:58.000 --> 10:00.000
|
781 |
-
N istanze parallele di LSVI UCB,
|
782 |
-
|
783 |
-
10:00.000 --> 10:02.000
|
784 |
-
una per ogni rappresentazione
|
785 |
-
|
786 |
-
10:02.000 --> 10:04.000
|
787 |
-
candidata.
|
788 |
-
|
789 |
-
10:04.000 --> 10:06.000
|
790 |
-
Per ogni rappresentazione, usiamo
|
791 |
-
|
792 |
-
10:06.000 --> 10:08.000
|
793 |
-
tutte le date collezionate
|
794 |
-
|
795 |
-
10:08.000 --> 10:10.000
|
796 |
-
dall'agente per esimerare
|
797 |
-
|
798 |
-
10:10.000 --> 10:12.000
|
799 |
-
il parametro dell'ottima
|
800 |
-
|
801 |
-
10:12.000 --> 10:14.000
|
802 |
-
funzione Q accordo
|
803 |
-
|
804 |
-
10:14.000 --> 10:16.000
|
805 |
-
a questa rappresentazione.
|
806 |
-
|
807 |
-
10:16.000 --> 10:18.000
|
808 |
-
Questo è fatto con una combinazione
|
809 |
-
|
810 |
-
10:18.000 --> 10:20.000
|
811 |
-
di square e induzione sbattuta.
|
812 |
-
|
813 |
-
10:20.000 --> 10:22.000
|
814 |
-
Un bonus di esplorazione
|
815 |
-
|
816 |
-
10:22.000 --> 10:24.000
|
817 |
-
viene aggiunto all'estimato
|
818 |
-
|
819 |
-
10:24.000 --> 10:26.000
|
820 |
-
del parametro per rendere
|
821 |
-
|
822 |
-
10:26.000 --> 10:28.000
|
823 |
-
l'estimato ottimista, come nel caso di LSVI UCB.
|
824 |
-
|
825 |
-
10:28.000 --> 10:30.000
|
826 |
-
Ma ora
|
827 |
-
|
828 |
-
10:30.000 --> 10:32.000
|
829 |
-
abbiamo un parametro ottimista
|
830 |
-
|
831 |
-
10:32.000 --> 10:34.000
|
832 |
-
per ogni rappresentazione
|
833 |
-
|
834 |
-
10:34.000 --> 10:36.000
|
835 |
-
e l'azione viene scelta
|
836 |
-
|
837 |
-
10:36.000 --> 10:38.000
|
838 |
-
per maximizzare il più piccolo
|
839 |
-
|
840 |
-
10:38.000 --> 10:40.000
|
841 |
-
parametro ottimista,
|
842 |
-
|
843 |
-
10:40.000 --> 10:42.000
|
844 |
-
che è anche l'estimato più tico.
|
845 |
-
|
846 |
-
10:42.000 --> 10:44.000
|
847 |
-
Notate come questo
|
848 |
-
|
849 |
-
10:44.000 --> 10:46.000
|
850 |
-
è in realtà più potente
|
851 |
-
|
852 |
-
10:46.000 --> 10:48.000
|
853 |
-
dell'algoritmo di selezione del modello
|
854 |
-
|
855 |
-
10:48.000 --> 10:50.000
|
856 |
-
perché possiamo usare
|
857 |
-
|
858 |
-
10:50.000 --> 10:52.000
|
859 |
-
una rappresentazione diversa
|
860 |
-
|
861 |
-
10:52.000 --> 10:54.000
|
862 |
-
per ogni stato.
|
863 |
-
|
864 |
-
10:54.000 --> 10:56.000
|
865 |
-
Vediamo che il regalo del leader di LSVI
|
866 |
-
|
867 |
-
10:56.000 --> 10:58.000
|
868 |
-
è superiore
|
869 |
-
|
870 |
-
10:58.000 --> 11:00.000
|
871 |
-
a quello di LSVI UCB
|
872 |
-
|
873 |
-
11:00.000 --> 11:02.000
|
874 |
-
se è condannato con la rappresentazione
|
875 |
-
|
876 |
-
11:02.000 --> 11:04.000
|
877 |
-
migliore dei candidati,
|
878 |
-
|
879 |
-
11:04.000 --> 11:06.000
|
880 |
-
a meno di un fattore,
|
881 |
-
|
882 |
-
11:06.000 --> 11:08.000
|
883 |
-
che è il numero di candidati
|
884 |
-
|
885 |
-
11:08.000 --> 11:10.000
|
886 |
-
in square.
|
887 |
-
|
888 |
-
11:10.000 --> 11:12.000
|
889 |
-
Questo significa che se abbiamo
|
890 |
-
|
891 |
-
11:12.000 --> 11:14.000
|
892 |
-
una rappresentazione di Unisoft nel set,
|
893 |
-
|
894 |
-
11:14.000 --> 11:16.000
|
895 |
-
il leader di LSVI
|
896 |
-
|
897 |
-
11:16.000 --> 11:18.000
|
898 |
-
raggiunge il regalo di selezione.
|
899 |
-
|
900 |
-
11:18.000 --> 11:20.000
|
901 |
-
Ma il leader di LSVI
|
902 |
-
|
903 |
-
11:20.000 --> 11:22.000
|
904 |
-
può combinare rappresentazioni
|
905 |
-
|
906 |
-
11:22.000 --> 11:24.000
|
907 |
-
attraverso stagi, stati e azioni,
|
908 |
-
|
909 |
-
11:24.000 --> 11:26.000
|
910 |
-
e quindi
|
911 |
-
|
912 |
-
11:26.000 --> 11:28.000
|
913 |
-
a volte può raggiungere
|
914 |
-
|
915 |
-
11:28.000 --> 11:30.000
|
916 |
-
il regalo di selezione
|
917 |
-
|
918 |
-
11:30.000 --> 11:32.000
|
919 |
-
anche se non c'è una rappresentazione di candidati
|
920 |
-
|
921 |
-
11:32.000 --> 11:34.000
|
922 |
-
di Unisoft.
|
923 |
-
|
924 |
-
11:34.000 --> 11:36.000
|
925 |
-
I nostri risultati teoretici sono anche supportati
|
926 |
-
|
927 |
-
11:36.000 --> 11:38.000
|
928 |
-
dai risultati empirici
|
929 |
-
|
930 |
-
11:38.000 --> 11:40.000
|
931 |
-
in MDPs di piccolo regalo di selezione.
|
932 |
-
|
933 |
-
11:40.000 --> 11:42.000
|
934 |
-
Questi plotti mostrano il regalo di selezione
|
935 |
-
|
936 |
-
11:42.000 --> 11:44.000
|
937 |
-
come funzione del numero di episodi.
|
938 |
-
|
939 |
-
11:44.000 --> 11:46.000
|
940 |
-
A sinistra abbiamo
|
941 |
-
|
942 |
-
11:46.000 --> 11:48.000
|
943 |
-
il regalo di LSVI-UCB
|
944 |
-
|
945 |
-
11:48.000 --> 11:50.000
|
946 |
-
che è gestito con
|
947 |
-
|
948 |
-
11:50.000 --> 11:52.000
|
949 |
-
diverse rappresentazioni.
|
950 |
-
|
951 |
-
11:52.000 --> 11:54.000
|
952 |
-
Di queste, l'unica rappresentazione
|
953 |
-
|
954 |
-
11:54.000 --> 11:56.000
|
955 |
-
in grigio nel plotto
|
956 |
-
|
957 |
-
11:56.000 --> 11:58.000
|
958 |
-
è Unisoft, e solo in questo caso
|
959 |
-
|
960 |
-
11:58.000 --> 12:00.000
|
961 |
-
LSVI-UCB è in grado
|
962 |
-
|
963 |
-
12:00.000 --> 12:02.000
|
964 |
-
di raggiungere regali costanti.
|
965 |
-
|
966 |
-
12:02.000 --> 12:04.000
|
967 |
-
A sinistra abbiamo il regalo
|
968 |
-
|
969 |
-
12:04.000 --> 12:06.000
|
970 |
-
del leader di LSVI
|
971 |
-
|
972 |
-
12:06.000 --> 12:08.000
|
973 |
-
che è gestito con vari set di candidati.
|
974 |
-
|
975 |
-
12:08.000 --> 12:10.000
|
976 |
-
In tutti questi casi,
|
977 |
-
|
978 |
-
12:10.000 --> 12:12.000
|
979 |
-
il leader di LSVI raggiunge
|
980 |
-
|
981 |
-
12:12.000 --> 12:14.000
|
982 |
-
regali costanti.
|
983 |
-
|
984 |
-
12:14.000 --> 12:16.000
|
985 |
-
Ovviamente, senza sapere
|
986 |
-
|
987 |
-
12:16.000 --> 12:18.000
|
988 |
-
la migliore rappresentazione in avanzo,
|
989 |
-
|
990 |
-
12:18.000 --> 12:20.000
|
991 |
-
ci serve più tempo per imparare la polizia ottima,
|
992 |
-
|
993 |
-
12:20.000 --> 12:22.000
|
994 |
-
ma questo è stato anche aspettato
|
995 |
-
|
996 |
-
12:22.000 --> 12:24.000
|
997 |
-
dalla nostra regola di selezione.
|
998 |
-
|
999 |
-
12:24.000 --> 12:26.000
|
1000 |
-
Il plotto arancione è particolarmente
|
1001 |
-
|
1002 |
-
12:26.000 --> 12:28.000
|
1003 |
-
interessante, perché in questo caso
|
1004 |
-
|
1005 |
-
12:28.000 --> 12:30.000
|
1006 |
-
l'unica rappresentazione di Unisoft,
|
1007 |
-
|
1008 |
-
12:30.000 --> 12:32.000
|
1009 |
-
numero 1,
|
1010 |
-
|
1011 |
-
12:32.000 --> 12:34.000
|
1012 |
-
non è nel set di candidati,
|
1013 |
-
|
1014 |
-
12:34.000 --> 12:36.000
|
1015 |
-
ma ancora LSVI-leader è in grado
|
1016 |
-
|
1017 |
-
12:36.000 --> 12:38.000
|
1018 |
-
di raggiungere regali costanti
|
1019 |
-
|
1020 |
-
12:38.000 --> 12:40.000
|
1021 |
-
combinando le representazioni rimaste.
|
1022 |
-
|
1023 |
-
12:40.000 --> 12:42.000
|
1024 |
-
Nel lavoro futuro,
|
1025 |
-
|
1026 |
-
12:42.000 --> 12:44.000
|
1027 |
-
vorremmo migliorare questo fattore
|
1028 |
-
|
1029 |
-
12:44.000 --> 12:46.000
|
1030 |
-
di sqvrtn nel regalo del leader di LSVI,
|
1031 |
-
|
1032 |
-
12:46.000 --> 12:48.000
|
1033 |
-
perché nel caso dei banditi lineari
|
1034 |
-
|
1035 |
-
12:48.000 --> 12:50.000
|
1036 |
-
la dipendenza sull'umare
|
1037 |
-
|
1038 |
-
12:50.000 --> 12:52.000
|
1039 |
-
delle rappresentazioni è solo logaritmica.
|
1040 |
-
|
1041 |
-
12:52.000 --> 12:54.000
|
1042 |
-
Vorremmo anche
|
1043 |
-
|
1044 |
-
12:54.000 --> 12:56.000
|
1045 |
-
estendere il leader di LSVI
|
1046 |
-
|
1047 |
-
12:56.000 --> 12:58.000
|
1048 |
-
per gestire le rappresentazioni
|
1049 |
-
|
1050 |
-
12:58.000 --> 13:00.000
|
1051 |
-
di candidati che sono miscele.
|
1052 |
-
|
1053 |
-
13:00.000 --> 13:02.000
|
1054 |
-
Tuttavia, questa
|
1055 |
-
|
1056 |
-
13:02.000 --> 13:04.000
|
1057 |
-
selezione delle rappresentazioni è
|
1058 |
-
|
1059 |
-
13:04.000 --> 13:06.000
|
1060 |
-
solo un passaggio verso
|
1061 |
-
|
1062 |
-
13:06.000 --> 13:08.000
|
1063 |
-
il learning of representation,
|
1064 |
-
|
1065 |
-
13:08.000 --> 13:10.000
|
1066 |
-
che significa imparare
|
1067 |
-
|
1068 |
-
13:10.000 --> 13:12.000
|
1069 |
-
la rappresentazione online da scratch.
|
1070 |
-
|
1071 |
-
13:12.000 --> 13:14.000
|
1072 |
-
Questo è già fatto
|
1073 |
-
|
1074 |
-
13:14.000 --> 13:16.000
|
1075 |
-
in pratica con il learning di
|
1076 |
-
|
1077 |
-
13:16.000 --> 13:18.000
|
1078 |
-
rinforzamento profondo, ma la teoria
|
1079 |
-
|
1080 |
-
13:18.000 --> 13:20.000
|
1081 |
-
di questo è scomoda.
|
1082 |
-
|
1083 |
-
13:20.000 --> 13:22.000
|
1084 |
-
Finalmente, possiamo considerare
|
1085 |
-
|
1086 |
-
13:22.000 --> 13:24.000
|
1087 |
-
il learning di rinforzamento multitasca,
|
1088 |
-
|
1089 |
-
13:24.000 --> 13:26.000
|
1090 |
-
dove una singola rappresentazione
|
1091 |
-
|
1092 |
-
13:26.000 --> 13:28.000
|
1093 |
-
potrebbe essere buona per un
|
1094 |
-
|
1095 |
-
13:28.000 --> 13:30.000
|
1096 |
-
composto di MDPs che condividono
|
1097 |
-
|
1098 |
-
13:30.000 --> 13:36.000
|
1099 |
-
una struttura. Grazie.
|
1100 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
demo_data/nips-2021/25964/video.mp4
DELETED
@@ -1,3 +0,0 @@
|
|
1 |
-
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:21aef3b31235ac9e8a4e96500589de83c27b58f96e98f6a6c50b46d1fedd106e
|
3 |
-
size 87305378
|
|
|
|
|
|
|
|