retkowski commited on
Commit
4f73702
1 Parent(s): 9383286

remove non-english examples

Browse files
demo_data/nips-2021/25953/metadata.json DELETED
@@ -1,3 +0,0 @@
1
- {
2
- "title": "Sliced Mutual Information: A Scalable Measure of Statistical Dependence"
3
- }
 
 
 
 
demo_data/nips-2021/25953/transcript_whisper_large-v2.txt DELETED
@@ -1,193 +0,0 @@
1
- Hi everyone, my name is Zyw Goldfeld and this is a joint work with Christian Greenwald about
2
- sliced mutual information, which is a new measure of statistical dependence that has
3
- some nice scalability properties to high dimensional settings.
4
- And to get started, I think we're all familiar with classic mutual information that is defined
5
- between let's say continuous high dimensional random variables, which is the regime that
6
- we'll mostly be interested in, like SOH, basically the KL divergence between their joint distributions
7
- and the product of their marginals.
8
- And mutual information is indeed this fundamental measure of dependence that enjoys many good
9
- properties such that the fact that it nullifies if and only if our random variables are independent,
10
- it is invariant to bijections and it meets several useful representations, decompositions,
11
- variational forms, etc.
12
- And in fact, it can be even obtained axiomatically as the unique functional of the joint distribution
13
- that satisfies some natural informativeness conditions.
14
- And as such, mutual information has seen a variety of applications in information theory
15
- and statistics more recently in machine learning.
16
- But the problem is that all this nice structure comes with a hefty price, since computing
17
- mutual information in high dimensions or estimating it from samples is very, very hard, effectively
18
- infeasible.
19
- And this is the so-called curse of dimensionality and sort of the problem that we try to tackle
20
- in this work.
21
- And to address this difficulty, what we propose is sliced mutual information, which is, like
22
- I said, a new measure of statistical dependence, not necessarily a proxy of mutual information
23
- as such, but rather an alternative notion, which is defined as this average of scalar
24
- mutual information terms between projections of our high dimensional variables onto randomly
25
- chosen directions from the corresponding unit spheres.
26
- And it's of course inspired by the recent popularization of slicing techniques for statistical
27
- divergences, in particular the Wasserstein, the sliced Wasserstein distance is a great
28
- example.
29
- But the way it works for sliced mutual information is roughly so, well, let's say that this is
30
- our first high dimensional variable X and this is its distribution.
31
- What you do is draw a projection direction uniformly from the sphere.
32
- You then project this random variable onto that direction, do the same for your other
33
- random variable.
34
- And now for these two projected scalar new variables, we just compute the mutual information
35
- between them and average everything over the choice of direction.
36
- So that's basically the definition.
37
- And with that, the goal of this work is effectively to show that sliced mutual information is
38
- both a meaningful and a scalable mutual information alternative.
39
- Meaningful, well, in the sense that it preserves many of the desired properties that make mutual
40
- information appealing to begin with and scalable in the sense that it alleviates the set of
41
- computational and statistical difficulties.
42
- All right.
43
- Yeah, and to address this first point, let me show you that, well, despite those one
44
- dimensional projections, sliced mutual information indeed inherits many of the properties of
45
- classic mutual information.
46
- So we have, well, of course, non-negativity, but furthermore, identification of independence.
47
- We have an entropy decomposition for an appropriate definition of sliced entropy.
48
- We can represent it as a KL divergence, a sliced KL divergence.
49
- To be more precise, we have a chain rule tensorization for independent copies, as well as a Donsker-Varadhan-like
50
- variational form that can be readily used for neural estimation of sliced mutual information.
51
- We actually make use of that in some of our empirical results.
52
- And well, I mean, you are more than welcome to check the paper or visit us as a poster
53
- if you want to know more about any of these.
54
- But really, the upshot here is that much of the classic structure is still there after
55
- the slicing.
56
- Now another interesting feature of sliced mutual information comes to light when you
57
- think of it in the context of the famous data processing inequality.
58
- And for starters, recall that classic mutual information satisfies the DPI, which in particular
59
- means that if you process either of your random variables with a deterministic function, say
60
- this f over here, you can only lose the informativeness in the classic sense.
61
- Now sliced mutual information plays differently with processing and can in some sense benefit
62
- from nice transformations that, let's say, give rise to some nicer manifold for your
63
- random variable.
64
- And to understand this, keep in mind that, well, first of all, sliced mutual information
65
- only looks at projections of random variables.
66
- And it may very well be the case that some transformations of x, let's say, have more
67
- informative projections about y than x itself.
68
- And here's a simple example to that effect.
69
- So consider a two-dimensional isotropic Gaussian x, so two coordinates, x1 and x2.
70
- And let's take y to be, for example, its first coordinate.
71
- Now if you look at the mutual information between two fixed projections of x and y,
72
- well, projection does nothing to y, right, because it's a scalar.
73
- But it does affect x.
74
- And if you look at the mutual information between two projections of x and y, you quickly
75
- realize that x1 really plays the role of the signal here, whereas x2 behaves like noise.
76
- And therefore, any transformation that will effectively improve your signal-to-noise ratio,
77
- for example, like this g sub a over here, where a is less than 1, will indeed give rise
78
- to a higher sliced mutual information value.
79
- So all in all, sliced mutual information can be increased from processing, which means
80
- that, well, in particular, it validates the data processing inequality and is different
81
- from classic mutual information in that sense.
82
- But interestingly, and as I will show you shortly, this is actually a quite useful thing
83
- to have, for example, for feature extraction tasks, because we can use sliced mutual information
84
- effectively to maximize it in order to extract informative features and land on those nicer
85
- manifolds that I mentioned a moment ago.
86
- And here's an example theorem that kind of makes this statement precise or formal, where
87
- we consider the maximization of sliced mutual information over linear transformations of
88
- our random variables.
89
- And this would, of course, not affect classic mutual information at all.
90
- But what we can show is that for sliced mutual information, this maximization ends up extracting
91
- the two most informative projection directions for you, which in particular will be encoded
92
- in the optimizing matrices, these A sub x star and A sub y star.
93
- And of course, there's nothing special about this particular setup.
94
- And we can establish similar results for, well, first of all, rank-constrained matrices
95
- that as opposed to what's shown here would extract the, let's say, our most informative
96
- features or projection directions.
97
- In the paper, we also extend this result to shallow neural networks.
98
- And in fact, our argument can be easily extended to cover additional nonlinear cases as well.
99
- OK, so that's pretty much for structural properties.
100
- But like I said at the beginning, the real premise of this framework is overcoming the
101
- curse of dimensionality.
102
- And let me show you that this is indeed the case, that sliced mutual information is or
103
- can be estimated in a scalable manner, effectively by combining your favorite scalar mutual information
104
- estimator with a simple Monte Carlo average step.
105
- And this is how it works.
106
- So let's say we're giving n IID samples from our high-dimensional random variables.
107
- And we're further given a scalar mutual information estimator that achieves, say, error delta
108
- of n when applied to n IID samples of some pair of one-dimensional variables, a and b.
109
- OK, so let's say we have these.
110
- Now, to estimate sliced mutual information, first thing to do is sample, let's say, m
111
- random projections from the corresponding spheres in an IID fashion, at which point
112
- we will take our high-dimensional n samples and project them onto each of these m random
113
- projections that we've generated.
114
- And the thing to observe here is that the resulting n times n data set of these projections
115
- is nothing but IID samples from the corresponding projected distribution, which is the right
116
- thing to have here if what you're trying to estimate is sliced mutual information.
117
- So having that, I mean, at this point, per projection direction, we can apply the scalar
118
- mutual information estimator and then just take one big, happy Monte Carlo average of
119
- the entire thing over the different projection directions.
120
- And this would give rise to the proposed sliced mutual information estimator.
121
- Now, you can compute this thing very easily, because at the end of the day, it's an average
122
- of scalar mutual information estimates.
123
- And as far as performance guarantees, we can show that so long that the per-sliced mutual
124
- information is bounded, the uniform absolute error of this estimator scales like 1 over
125
- the root of m, the number of our Monte Carlo samples, plus the error of the scalar mutual
126
- information estimator.
127
- And I'm just restating this informally over here.
128
- And what this all in all shows is that sliced mutual information can therefore be estimated
129
- the rate of scalar mutual information estimation problem plus this m to the minus half Monte
130
- Carlo penalty.
131
- And the thing is that under appropriate smoothness assumptions, the one-dimensional rate is in
132
- fact parametric.
133
- And therefore, if you just match the size of your data set and the number of Monte Carlo
134
- samples, just equate n and m, the sliced mutual information between high-dimensional variables
135
- can be estimated at the parametric n to the minus half rate, perhaps up to some logarithmic
136
- factors.
137
- And this is, of course, a significant speed up and stands in sharp contrast to the slow,
138
- exponentially bad in dimension, curse of dimensionality rate for classic mutual information.
139
- Yeah, now this scalability makes, in fact, running empirical experiments with sliced
140
- mutual information quite a breeze.
141
- So let me quickly show you some sort of proof of concept experiments, let's say.
142
- And the first one just relies on the fact that, well, SMI, sliced mutual information
143
- can identify independence.
144
- And therefore, we examine it as a figure of merit for independence testing, basically
145
- by thresholding the computed sliced mutual information value.
146
- And the results that we have obtained, of course, we've compared them with the same
147
- test, but based on classic mutual information.
148
- And this figure over here shows that for a bunch of different settings, well, it presents
149
- the area under the ROC curve as a function of the number of samples, the standard way
150
- to represent the quality of an independence test.
151
- And you basically want this number to be 1, which corresponds to an omniscient test.
152
- And what we observe is that sliced mutual information performs consistently well across
153
- different setups and across different dimensions, whereas the performance of the mutual information,
154
- the classic mutual information-based test, quickly degrades as dimension grows.
155
- Now, on top of that, let me also demonstrate how sliced mutual information can be used
156
- for feature extraction.
157
- And here, what we want to do is maximize the sliced mutual information between linear transformations
158
- of x and y that are now chosen to be IID samples from the same MNIST class, which we restrict
159
- to be either 0 or 1.
160
- And the choice of class is also random, so basically just a fair coin flip.
161
- And by observing that sliced mutual information between x and y is at most 1 bit, I mean,
162
- it's always upper bounded by mutual information, which equals a single bit in this case, basically
163
- the class label, the way to understand what we're doing here is that we're looking for
164
- the linear feature that is most informative for classifying or determining this class
165
- label.
166
- And interestingly enough, this is what this procedure ends up learning, where the figure
167
- shows basically the first two rows of the optimal A matrix that we obtained, rearranged
168
- in the dimension of an MNIST image.
169
- And this really looks like a match filter, if you're familiar, which, when applied to
170
- the samples, would indeed be able to tell you whether the sample came from the 0 class
171
- or not.
172
- And as far as for the value itself, well, the maximized sliced mutual information value
173
- ends up being roughly 0.7, which is quite close to the 1 bit upper bound, and is much,
174
- much larger than what you would get if you would not learn A, and let's say just instantiate
175
- it as a matrix with IID entries drawn according to some distribution.
176
- And this is just to say that something meaningful indeed being learned here, and something meaningful
177
- indeed happens when you maximize the sliced mutual information as your optimization objective.
178
- OK, so yeah, that's basically it.
179
- And just to recap, we introduced sliced mutual information, which is this average of scalar
180
- mutual information terms between one-dimensional projections.
181
- We've seen that it preserves much of the structure of classic mutual information.
182
- It can be efficiently computed and estimated from samples, and can also be, in fact, increased
183
- by our processing if, indeed, your processing gives rise to more informative projections.
184
- And we've presented some proof of concept applications to independence testing, to feature
185
- extraction.
186
- We have a couple of more in the paper.
187
- But let me say this.
188
- While this is mostly theoretical work, and a large-scale empirical exploration is sort
189
- of beyond its scope, we firmly believe that sliced mutual information will be extremely
190
- useful for various such tasks, and are very excited to look into this in the future.
191
- And yeah, with that, I'll stop.
192
- Thank you guys for listening, and do visit us at the poster, and check out the paper
193
- if you would like to know more.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
demo_data/nips-2021/25953/transcript_whisper_large-v2.vtt DELETED
@@ -1,581 +0,0 @@
1
- WEBVTT
2
-
3
- 00:00.000 --> 00:13.140
4
- Hi everyone, my name is Zyw Goldfeld and this is a joint work with Christian Greenwald about
5
-
6
- 00:13.140 --> 00:18.200
7
- sliced mutual information, which is a new measure of statistical dependence that has
8
-
9
- 00:18.200 --> 00:22.520
10
- some nice scalability properties to high dimensional settings.
11
-
12
- 00:22.520 --> 00:26.540
13
- And to get started, I think we're all familiar with classic mutual information that is defined
14
-
15
- 00:26.540 --> 00:30.920
16
- between let's say continuous high dimensional random variables, which is the regime that
17
-
18
- 00:30.920 --> 00:36.240
19
- we'll mostly be interested in, like SOH, basically the KL divergence between their joint distributions
20
-
21
- 00:36.240 --> 00:39.040
22
- and the product of their marginals.
23
-
24
- 00:39.040 --> 00:44.520
25
- And mutual information is indeed this fundamental measure of dependence that enjoys many good
26
-
27
- 00:44.520 --> 00:50.060
28
- properties such that the fact that it nullifies if and only if our random variables are independent,
29
-
30
- 00:50.060 --> 00:55.200
31
- it is invariant to bijections and it meets several useful representations, decompositions,
32
-
33
- 00:55.200 --> 00:56.600
34
- variational forms, etc.
35
-
36
- 00:56.600 --> 01:02.440
37
- And in fact, it can be even obtained axiomatically as the unique functional of the joint distribution
38
-
39
- 01:02.440 --> 01:07.760
40
- that satisfies some natural informativeness conditions.
41
-
42
- 01:07.760 --> 01:11.120
43
- And as such, mutual information has seen a variety of applications in information theory
44
-
45
- 01:11.120 --> 01:13.680
46
- and statistics more recently in machine learning.
47
-
48
- 01:13.680 --> 01:18.920
49
- But the problem is that all this nice structure comes with a hefty price, since computing
50
-
51
- 01:18.920 --> 01:24.520
52
- mutual information in high dimensions or estimating it from samples is very, very hard, effectively
53
-
54
- 01:24.520 --> 01:25.520
55
- infeasible.
56
-
57
- 01:25.520 --> 01:30.240
58
- And this is the so-called curse of dimensionality and sort of the problem that we try to tackle
59
-
60
- 01:30.240 --> 01:31.400
61
- in this work.
62
-
63
- 01:31.400 --> 01:37.040
64
- And to address this difficulty, what we propose is sliced mutual information, which is, like
65
-
66
- 01:37.040 --> 01:42.520
67
- I said, a new measure of statistical dependence, not necessarily a proxy of mutual information
68
-
69
- 01:42.520 --> 01:48.820
70
- as such, but rather an alternative notion, which is defined as this average of scalar
71
-
72
- 01:48.820 --> 01:54.640
73
- mutual information terms between projections of our high dimensional variables onto randomly
74
-
75
- 01:54.640 --> 01:58.520
76
- chosen directions from the corresponding unit spheres.
77
-
78
- 01:58.520 --> 02:03.520
79
- And it's of course inspired by the recent popularization of slicing techniques for statistical
80
-
81
- 02:03.520 --> 02:07.480
82
- divergences, in particular the Wasserstein, the sliced Wasserstein distance is a great
83
-
84
- 02:07.480 --> 02:08.480
85
- example.
86
-
87
- 02:08.480 --> 02:14.440
88
- But the way it works for sliced mutual information is roughly so, well, let's say that this is
89
-
90
- 02:14.440 --> 02:19.120
91
- our first high dimensional variable X and this is its distribution.
92
-
93
- 02:19.120 --> 02:22.480
94
- What you do is draw a projection direction uniformly from the sphere.
95
-
96
- 02:22.480 --> 02:26.960
97
- You then project this random variable onto that direction, do the same for your other
98
-
99
- 02:26.960 --> 02:28.200
100
- random variable.
101
-
102
- 02:28.200 --> 02:34.360
103
- And now for these two projected scalar new variables, we just compute the mutual information
104
-
105
- 02:34.360 --> 02:38.560
106
- between them and average everything over the choice of direction.
107
-
108
- 02:38.560 --> 02:40.600
109
- So that's basically the definition.
110
-
111
- 02:40.600 --> 02:45.880
112
- And with that, the goal of this work is effectively to show that sliced mutual information is
113
-
114
- 02:45.880 --> 02:50.080
115
- both a meaningful and a scalable mutual information alternative.
116
-
117
- 02:50.080 --> 02:56.200
118
- Meaningful, well, in the sense that it preserves many of the desired properties that make mutual
119
-
120
- 02:56.200 --> 03:00.240
121
- information appealing to begin with and scalable in the sense that it alleviates the set of
122
-
123
- 03:00.240 --> 03:03.800
124
- computational and statistical difficulties.
125
-
126
- 03:03.800 --> 03:04.800
127
- All right.
128
-
129
- 03:04.800 --> 03:11.080
130
- Yeah, and to address this first point, let me show you that, well, despite those one
131
-
132
- 03:11.080 --> 03:15.800
133
- dimensional projections, sliced mutual information indeed inherits many of the properties of
134
-
135
- 03:15.800 --> 03:17.700
136
- classic mutual information.
137
-
138
- 03:17.700 --> 03:23.740
139
- So we have, well, of course, non-negativity, but furthermore, identification of independence.
140
-
141
- 03:23.740 --> 03:28.960
142
- We have an entropy decomposition for an appropriate definition of sliced entropy.
143
-
144
- 03:28.960 --> 03:31.840
145
- We can represent it as a KL divergence, a sliced KL divergence.
146
-
147
- 03:31.840 --> 03:38.920
148
- To be more precise, we have a chain rule tensorization for independent copies, as well as a Donsker-Varadhan-like
149
-
150
- 03:38.920 --> 03:44.840
151
- variational form that can be readily used for neural estimation of sliced mutual information.
152
-
153
- 03:44.840 --> 03:49.720
154
- We actually make use of that in some of our empirical results.
155
-
156
- 03:49.720 --> 03:53.400
157
- And well, I mean, you are more than welcome to check the paper or visit us as a poster
158
-
159
- 03:53.400 --> 03:55.280
160
- if you want to know more about any of these.
161
-
162
- 03:55.280 --> 04:00.480
163
- But really, the upshot here is that much of the classic structure is still there after
164
-
165
- 04:00.480 --> 04:02.360
166
- the slicing.
167
-
168
- 04:02.360 --> 04:06.240
169
- Now another interesting feature of sliced mutual information comes to light when you
170
-
171
- 04:06.240 --> 04:10.400
172
- think of it in the context of the famous data processing inequality.
173
-
174
- 04:10.400 --> 04:15.560
175
- And for starters, recall that classic mutual information satisfies the DPI, which in particular
176
-
177
- 04:15.560 --> 04:21.440
178
- means that if you process either of your random variables with a deterministic function, say
179
-
180
- 04:21.440 --> 04:27.400
181
- this f over here, you can only lose the informativeness in the classic sense.
182
-
183
- 04:27.400 --> 04:33.360
184
- Now sliced mutual information plays differently with processing and can in some sense benefit
185
-
186
- 04:33.360 --> 04:39.280
187
- from nice transformations that, let's say, give rise to some nicer manifold for your
188
-
189
- 04:39.280 --> 04:40.280
190
- random variable.
191
-
192
- 04:40.280 --> 04:43.880
193
- And to understand this, keep in mind that, well, first of all, sliced mutual information
194
-
195
- 04:43.880 --> 04:47.320
196
- only looks at projections of random variables.
197
-
198
- 04:47.320 --> 04:52.720
199
- And it may very well be the case that some transformations of x, let's say, have more
200
-
201
- 04:52.720 --> 04:58.480
202
- informative projections about y than x itself.
203
-
204
- 04:58.480 --> 05:01.080
205
- And here's a simple example to that effect.
206
-
207
- 05:01.080 --> 05:06.120
208
- So consider a two-dimensional isotropic Gaussian x, so two coordinates, x1 and x2.
209
-
210
- 05:06.120 --> 05:10.440
211
- And let's take y to be, for example, its first coordinate.
212
-
213
- 05:10.440 --> 05:15.440
214
- Now if you look at the mutual information between two fixed projections of x and y,
215
-
216
- 05:15.440 --> 05:18.600
217
- well, projection does nothing to y, right, because it's a scalar.
218
-
219
- 05:18.600 --> 05:20.400
220
- But it does affect x.
221
-
222
- 05:20.400 --> 05:24.520
223
- And if you look at the mutual information between two projections of x and y, you quickly
224
-
225
- 05:24.520 --> 05:31.120
226
- realize that x1 really plays the role of the signal here, whereas x2 behaves like noise.
227
-
228
- 05:31.120 --> 05:36.120
229
- And therefore, any transformation that will effectively improve your signal-to-noise ratio,
230
-
231
- 05:36.120 --> 05:42.520
232
- for example, like this g sub a over here, where a is less than 1, will indeed give rise
233
-
234
- 05:42.520 --> 05:45.880
235
- to a higher sliced mutual information value.
236
-
237
- 05:45.880 --> 05:50.300
238
- So all in all, sliced mutual information can be increased from processing, which means
239
-
240
- 05:50.300 --> 05:54.440
241
- that, well, in particular, it validates the data processing inequality and is different
242
-
243
- 05:54.440 --> 05:56.840
244
- from classic mutual information in that sense.
245
-
246
- 05:56.840 --> 06:03.120
247
- But interestingly, and as I will show you shortly, this is actually a quite useful thing
248
-
249
- 06:03.120 --> 06:08.400
250
- to have, for example, for feature extraction tasks, because we can use sliced mutual information
251
-
252
- 06:08.400 --> 06:14.240
253
- effectively to maximize it in order to extract informative features and land on those nicer
254
-
255
- 06:14.240 --> 06:17.660
256
- manifolds that I mentioned a moment ago.
257
-
258
- 06:17.660 --> 06:22.280
259
- And here's an example theorem that kind of makes this statement precise or formal, where
260
-
261
- 06:22.280 --> 06:28.120
262
- we consider the maximization of sliced mutual information over linear transformations of
263
-
264
- 06:28.120 --> 06:29.920
265
- our random variables.
266
-
267
- 06:29.920 --> 06:34.200
268
- And this would, of course, not affect classic mutual information at all.
269
-
270
- 06:34.200 --> 06:39.160
271
- But what we can show is that for sliced mutual information, this maximization ends up extracting
272
-
273
- 06:39.160 --> 06:44.960
274
- the two most informative projection directions for you, which in particular will be encoded
275
-
276
- 06:44.960 --> 06:52.200
277
- in the optimizing matrices, these A sub x star and A sub y star.
278
-
279
- 06:52.200 --> 06:55.240
280
- And of course, there's nothing special about this particular setup.
281
-
282
- 06:55.240 --> 07:00.720
283
- And we can establish similar results for, well, first of all, rank-constrained matrices
284
-
285
- 07:00.720 --> 07:06.720
286
- that as opposed to what's shown here would extract the, let's say, our most informative
287
-
288
- 07:06.720 --> 07:08.840
289
- features or projection directions.
290
-
291
- 07:08.840 --> 07:11.120
292
- In the paper, we also extend this result to shallow neural networks.
293
-
294
- 07:11.120 --> 07:17.840
295
- And in fact, our argument can be easily extended to cover additional nonlinear cases as well.
296
-
297
- 07:17.840 --> 07:21.440
298
- OK, so that's pretty much for structural properties.
299
-
300
- 07:21.440 --> 07:25.400
301
- But like I said at the beginning, the real premise of this framework is overcoming the
302
-
303
- 07:25.400 --> 07:26.400
304
- curse of dimensionality.
305
-
306
- 07:26.400 --> 07:32.640
307
- And let me show you that this is indeed the case, that sliced mutual information is or
308
-
309
- 07:32.640 --> 07:38.640
310
- can be estimated in a scalable manner, effectively by combining your favorite scalar mutual information
311
-
312
- 07:38.640 --> 07:42.200
313
- estimator with a simple Monte Carlo average step.
314
-
315
- 07:42.200 --> 07:43.480
316
- And this is how it works.
317
-
318
- 07:43.480 --> 07:48.260
319
- So let's say we're giving n IID samples from our high-dimensional random variables.
320
-
321
- 07:48.260 --> 07:53.400
322
- And we're further given a scalar mutual information estimator that achieves, say, error delta
323
-
324
- 07:53.400 --> 08:00.240
325
- of n when applied to n IID samples of some pair of one-dimensional variables, a and b.
326
-
327
- 08:00.240 --> 08:02.040
328
- OK, so let's say we have these.
329
-
330
- 08:02.040 --> 08:08.760
331
- Now, to estimate sliced mutual information, first thing to do is sample, let's say, m
332
-
333
- 08:08.760 --> 08:14.680
334
- random projections from the corresponding spheres in an IID fashion, at which point
335
-
336
- 08:14.680 --> 08:22.400
337
- we will take our high-dimensional n samples and project them onto each of these m random
338
-
339
- 08:22.400 --> 08:24.960
340
- projections that we've generated.
341
-
342
- 08:24.960 --> 08:30.780
343
- And the thing to observe here is that the resulting n times n data set of these projections
344
-
345
- 08:30.780 --> 08:35.220
346
- is nothing but IID samples from the corresponding projected distribution, which is the right
347
-
348
- 08:35.220 --> 08:39.400
349
- thing to have here if what you're trying to estimate is sliced mutual information.
350
-
351
- 08:39.400 --> 08:43.860
352
- So having that, I mean, at this point, per projection direction, we can apply the scalar
353
-
354
- 08:43.860 --> 08:49.400
355
- mutual information estimator and then just take one big, happy Monte Carlo average of
356
-
357
- 08:49.400 --> 08:52.040
358
- the entire thing over the different projection directions.
359
-
360
- 08:52.040 --> 08:55.600
361
- And this would give rise to the proposed sliced mutual information estimator.
362
-
363
- 08:55.600 --> 08:59.780
364
- Now, you can compute this thing very easily, because at the end of the day, it's an average
365
-
366
- 08:59.780 --> 09:03.000
367
- of scalar mutual information estimates.
368
-
369
- 09:03.000 --> 09:09.120
370
- And as far as performance guarantees, we can show that so long that the per-sliced mutual
371
-
372
- 09:09.120 --> 09:15.840
373
- information is bounded, the uniform absolute error of this estimator scales like 1 over
374
-
375
- 09:15.840 --> 09:22.240
376
- the root of m, the number of our Monte Carlo samples, plus the error of the scalar mutual
377
-
378
- 09:22.240 --> 09:23.240
379
- information estimator.
380
-
381
- 09:23.240 --> 09:26.520
382
- And I'm just restating this informally over here.
383
-
384
- 09:26.520 --> 09:31.240
385
- And what this all in all shows is that sliced mutual information can therefore be estimated
386
-
387
- 09:31.240 --> 09:37.760
388
- the rate of scalar mutual information estimation problem plus this m to the minus half Monte
389
-
390
- 09:37.760 --> 09:38.760
391
- Carlo penalty.
392
-
393
- 09:38.760 --> 09:43.440
394
- And the thing is that under appropriate smoothness assumptions, the one-dimensional rate is in
395
-
396
- 09:43.440 --> 09:45.200
397
- fact parametric.
398
-
399
- 09:45.200 --> 09:49.720
400
- And therefore, if you just match the size of your data set and the number of Monte Carlo
401
-
402
- 09:49.720 --> 09:54.640
403
- samples, just equate n and m, the sliced mutual information between high-dimensional variables
404
-
405
- 09:54.640 --> 09:59.360
406
- can be estimated at the parametric n to the minus half rate, perhaps up to some logarithmic
407
-
408
- 09:59.360 --> 10:00.360
409
- factors.
410
-
411
- 10:00.360 --> 10:06.360
412
- And this is, of course, a significant speed up and stands in sharp contrast to the slow,
413
-
414
- 10:06.360 --> 10:12.040
415
- exponentially bad in dimension, curse of dimensionality rate for classic mutual information.
416
-
417
- 10:12.040 --> 10:17.200
418
- Yeah, now this scalability makes, in fact, running empirical experiments with sliced
419
-
420
- 10:17.200 --> 10:18.720
421
- mutual information quite a breeze.
422
-
423
- 10:18.720 --> 10:24.160
424
- So let me quickly show you some sort of proof of concept experiments, let's say.
425
-
426
- 10:24.160 --> 10:28.280
427
- And the first one just relies on the fact that, well, SMI, sliced mutual information
428
-
429
- 10:28.280 --> 10:29.840
430
- can identify independence.
431
-
432
- 10:29.840 --> 10:34.440
433
- And therefore, we examine it as a figure of merit for independence testing, basically
434
-
435
- 10:34.440 --> 10:38.640
436
- by thresholding the computed sliced mutual information value.
437
-
438
- 10:38.640 --> 10:42.000
439
- And the results that we have obtained, of course, we've compared them with the same
440
-
441
- 10:42.000 --> 10:45.360
442
- test, but based on classic mutual information.
443
-
444
- 10:45.360 --> 10:50.320
445
- And this figure over here shows that for a bunch of different settings, well, it presents
446
-
447
- 10:50.320 --> 10:55.040
448
- the area under the ROC curve as a function of the number of samples, the standard way
449
-
450
- 10:55.040 --> 10:59.160
451
- to represent the quality of an independence test.
452
-
453
- 10:59.160 --> 11:02.920
454
- And you basically want this number to be 1, which corresponds to an omniscient test.
455
-
456
- 11:02.920 --> 11:07.520
457
- And what we observe is that sliced mutual information performs consistently well across
458
-
459
- 11:07.520 --> 11:13.080
460
- different setups and across different dimensions, whereas the performance of the mutual information,
461
-
462
- 11:13.080 --> 11:18.280
463
- the classic mutual information-based test, quickly degrades as dimension grows.
464
-
465
- 11:18.280 --> 11:23.280
466
- Now, on top of that, let me also demonstrate how sliced mutual information can be used
467
-
468
- 11:23.280 --> 11:24.680
469
- for feature extraction.
470
-
471
- 11:24.680 --> 11:29.780
472
- And here, what we want to do is maximize the sliced mutual information between linear transformations
473
-
474
- 11:29.780 --> 11:37.160
475
- of x and y that are now chosen to be IID samples from the same MNIST class, which we restrict
476
-
477
- 11:37.160 --> 11:39.240
478
- to be either 0 or 1.
479
-
480
- 11:39.240 --> 11:42.840
481
- And the choice of class is also random, so basically just a fair coin flip.
482
-
483
- 11:42.840 --> 11:47.280
484
- And by observing that sliced mutual information between x and y is at most 1 bit, I mean,
485
-
486
- 11:47.280 --> 11:52.560
487
- it's always upper bounded by mutual information, which equals a single bit in this case, basically
488
-
489
- 11:52.560 --> 11:57.320
490
- the class label, the way to understand what we're doing here is that we're looking for
491
-
492
- 11:57.320 --> 12:03.400
493
- the linear feature that is most informative for classifying or determining this class
494
-
495
- 12:03.400 --> 12:04.760
496
- label.
497
-
498
- 12:04.760 --> 12:08.200
499
- And interestingly enough, this is what this procedure ends up learning, where the figure
500
-
501
- 12:08.200 --> 12:15.040
502
- shows basically the first two rows of the optimal A matrix that we obtained, rearranged
503
-
504
- 12:15.040 --> 12:17.480
505
- in the dimension of an MNIST image.
506
-
507
- 12:17.480 --> 12:22.720
508
- And this really looks like a match filter, if you're familiar, which, when applied to
509
-
510
- 12:22.720 --> 12:27.480
511
- the samples, would indeed be able to tell you whether the sample came from the 0 class
512
-
513
- 12:27.480 --> 12:28.640
514
- or not.
515
-
516
- 12:28.640 --> 12:33.680
517
- And as far as for the value itself, well, the maximized sliced mutual information value
518
-
519
- 12:33.680 --> 12:39.800
520
- ends up being roughly 0.7, which is quite close to the 1 bit upper bound, and is much,
521
-
522
- 12:39.800 --> 12:44.400
523
- much larger than what you would get if you would not learn A, and let's say just instantiate
524
-
525
- 12:44.400 --> 12:49.480
526
- it as a matrix with IID entries drawn according to some distribution.
527
-
528
- 12:49.480 --> 12:53.640
529
- And this is just to say that something meaningful indeed being learned here, and something meaningful
530
-
531
- 12:53.640 --> 13:00.160
532
- indeed happens when you maximize the sliced mutual information as your optimization objective.
533
-
534
- 13:00.160 --> 13:03.400
535
- OK, so yeah, that's basically it.
536
-
537
- 13:03.400 --> 13:09.160
538
- And just to recap, we introduced sliced mutual information, which is this average of scalar
539
-
540
- 13:09.160 --> 13:12.160
541
- mutual information terms between one-dimensional projections.
542
-
543
- 13:12.160 --> 13:15.880
544
- We've seen that it preserves much of the structure of classic mutual information.
545
-
546
- 13:15.880 --> 13:22.280
547
- It can be efficiently computed and estimated from samples, and can also be, in fact, increased
548
-
549
- 13:22.280 --> 13:28.280
550
- by our processing if, indeed, your processing gives rise to more informative projections.
551
-
552
- 13:28.280 --> 13:32.960
553
- And we've presented some proof of concept applications to independence testing, to feature
554
-
555
- 13:32.960 --> 13:33.960
556
- extraction.
557
-
558
- 13:33.960 --> 13:35.800
559
- We have a couple of more in the paper.
560
-
561
- 13:35.800 --> 13:36.960
562
- But let me say this.
563
-
564
- 13:36.960 --> 13:41.480
565
- While this is mostly theoretical work, and a large-scale empirical exploration is sort
566
-
567
- 13:41.480 --> 13:46.640
568
- of beyond its scope, we firmly believe that sliced mutual information will be extremely
569
-
570
- 13:46.640 --> 13:51.360
571
- useful for various such tasks, and are very excited to look into this in the future.
572
-
573
- 13:51.360 --> 13:52.680
574
- And yeah, with that, I'll stop.
575
-
576
- 13:52.680 --> 13:57.220
577
- Thank you guys for listening, and do visit us at the poster, and check out the paper
578
-
579
- 13:57.220 --> 14:12.560
580
- if you would like to know more.
581
-
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
demo_data/nips-2021/25953/video.mp4 DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:06f4968133dc8ada5fd9bf717fcd61a91049cd3c3034553cb6c2490f292c8a42
3
- size 90905227
 
 
 
 
demo_data/nips-2021/25962/metadata.json DELETED
@@ -1,3 +0,0 @@
1
- {
2
- "title": "Locally differentially private estimation of functionals of discrete distributions"
3
- }
 
 
 
 
demo_data/nips-2021/25962/transcript_whisper_large-v2.txt DELETED
@@ -1,51 +0,0 @@
1
- Bonjour à tous, je suis Yannis Hartel et je vais vous présenter un travail sur l'estimation
2
- de fonctionnalité en termes de certaines contraintes particulières de la privacité.
3
- C'est un travail en lien avec mon conseiller postdoc, le professeur Cristina Gutucia.
4
- Nous sommes intéressés par le fonctionnalité de la somme de puissance, qui est la somme de probabilités associées
5
- à une distribution discrète, à la puissance gamma, où gamma est un nombre réel positif.
6
- Donc, ce fonctionnalité de la somme de puissance est un exemple d'information qui se déroule dans différents domaines
7
- comme les statistiques, l'apprentissage de machines, la théorie de l'information, la science de la neurone, etc.
8
- Voici donc le problème statistique standard, où l'objectif est d'estimer la somme de puissance fonctionnelle
9
- basée sur des exemples NIID, X1, X2 jusqu'à XN, qui suivent une distribution discrète B avec une taille d'alphabet K.
10
- Une approche beaucoup utilisée est le estimateur de plug-in, où l'on utilise un estimateur du paramètre P
11
- pour construire un estimateur du fonctionnalité, à travers le principe de plug-in.
12
- Cette approche n'est pas seulement simple et intuitive, mais elle est aussi théoriquement saine,
13
- car elle satisfait une efficacité asymptotique et une néro-optimalité non-asymptote.
14
- La question intéressante de notre paper est de savoir si cette approche de plug-in
15
- fonctionne dans un état de séparation non standard, où l'on impose une contrainte de privé,
16
- et plus précisément, le setup de la privé différente local.
17
- Ce qui signifie que l'on impose un état de privé fort, où l'on n'a pas accès aux données initiales et sensibles, les XI.
18
- Au lieu de ça, l'on a seulement accès à une version privée de XI.
19
- Voici la représentation d'un mécanisme simple qui n'est pas interactif.
20
- Les termes local ici reflètent le fait que le mécanisme QI ne voit que les données XI.
21
- En d'autres mots, il n'y a pas de troisième parti confiant qui a accès à toutes les données sensibles.
22
- C'est un mécanisme de privé non-interactif simple, mais bien sûr, nous sommes aussi intéressés par des mécanismes plus sophistiqués,
23
- notamment le mécanisme de séquence interactif, où chaque QI voit les données privées dévoilées précédemment,
24
- et les données privées de XI, et les données privées de XI.
25
- Dans cette étude non-standard, nous retournons au problème original de l'estimation fonctionnelle de la power sum,
26
- où nous n'avons qu'accès à des données privées de XI jusqu'à XL.
27
- Notre première contribution est de donner une caractérisation tigrée et non-transomatique du erreur de caractérisation de la power sum de l'estimateur.
28
- Ce résultat montre que l'estimateur de la power sum n'est pas optimal.
29
- Cela contraste avec la performance de l'estimateur de la power sum dans le problème statistique standard.
30
- Le message ici est que les bons estimateurs dans le setup standard ne sont pas toujours bons estimateurs dans le setup local privacy.
31
- Notre deuxième contribution est la correction du estimateur de plug-in grâce à une attentionnée de troncation de Pk de petites probabilités.
32
- Cette correction conduit à une réduction significative du risque d'erreur.
33
- En particulier, le risque devient indépendant du size alphabétique K lorsque K est grand.
34
- Cette deuxième contribution, par contre, se base sur un mécanisme de privé non-interactif simple.
35
- Dans la seconde partie du document, nous examinons un mécanisme de séquence interactive plus sophistiqué,
36
- pour lequel nous construisons une procédure de deux pas qui nous permet de réduire le risque grâce à un facteur logarithmique.
37
- Enfin, à la fin du document, nous fournissons un lien universel en bas sur le risque d'erreur
38
- avec respect à tous les estimateurs et tous les mécanismes non-interactifs et séquentially interactifs.
39
- Malheureusement, ce lien bas est un lien d'accords uniquement dans certains cas,
40
- ce qui nous laisse avec quelques questions très importantes à poser sur ce problème.
41
- Je pense que ce premier travail sur l'estimation fonctionnelle dans le contexte de la privé locale
42
- vous donne au moins trois points clés.
43
- Le premier point clé est le besoin de construire une procédure statistique prudente pour la configuration de la privé locale,
44
- puisque c'est un setup où un bon estimateur dans un cadre standard n'a pas nécessairement de fonction.
45
- Le deuxième point clé est que l'approche de type de plug-in analysée dans ce document
46
- sert comme un benchmark pour de futurs travaux et des procédures plus sophistiquées.
47
- Et le dernier point clé est que notre analyse de l'approche de type de plug-in et des mécanismes non-interactifs
48
- montrent des régimes où le problème d'estimation est difficile
49
- et espérons que cela incite les gens à amener des développements ici.
50
- Merci à tous, et pour plus de détails, veuillez vérifier notre document en ligne.
51
- Bye!
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
demo_data/nips-2021/25962/transcript_whisper_large-v2.vtt DELETED
@@ -1,155 +0,0 @@
1
- WEBVTT
2
-
3
- 00:00.000 --> 00:14.000
4
- Bonjour à tous, je suis Yannis Hartel et je vais vous présenter un travail sur l'estimation
5
-
6
- 00:14.000 --> 00:18.000
7
- de fonctionnalité en termes de certaines contraintes particulières de la privacité.
8
-
9
- 00:18.000 --> 00:24.000
10
- C'est un travail en lien avec mon conseiller postdoc, le professeur Cristina Gutucia.
11
-
12
- 00:24.000 --> 00:30.000
13
- Nous sommes intéressés par le fonctionnalité de la somme de puissance, qui est la somme de probabilités associées
14
-
15
- 00:30.000 --> 00:37.000
16
- à une distribution discrète, à la puissance gamma, où gamma est un nombre réel positif.
17
-
18
- 00:37.000 --> 00:46.000
19
- Donc, ce fonctionnalité de la somme de puissance est un exemple d'information qui se déroule dans différents domaines
20
-
21
- 00:46.000 --> 00:54.000
22
- comme les statistiques, l'apprentissage de machines, la théorie de l'information, la science de la neurone, etc.
23
-
24
- 00:54.000 --> 01:00.000
25
- Voici donc le problème statistique standard, où l'objectif est d'estimer la somme de puissance fonctionnelle
26
-
27
- 01:00.000 --> 01:10.000
28
- basée sur des exemples NIID, X1, X2 jusqu'à XN, qui suivent une distribution discrète B avec une taille d'alphabet K.
29
-
30
- 01:10.000 --> 01:19.000
31
- Une approche beaucoup utilisée est le estimateur de plug-in, où l'on utilise un estimateur du paramètre P
32
-
33
- 01:19.000 --> 01:25.000
34
- pour construire un estimateur du fonctionnalité, à travers le principe de plug-in.
35
-
36
- 01:25.000 --> 01:32.000
37
- Cette approche n'est pas seulement simple et intuitive, mais elle est aussi théoriquement saine,
38
-
39
- 01:32.000 --> 01:38.000
40
- car elle satisfait une efficacité asymptotique et une néro-optimalité non-asymptote.
41
-
42
- 01:38.000 --> 01:45.000
43
- La question intéressante de notre paper est de savoir si cette approche de plug-in
44
-
45
- 01:45.000 --> 01:50.000
46
- fonctionne dans un état de séparation non standard, où l'on impose une contrainte de privé,
47
-
48
- 01:50.000 --> 01:55.000
49
- et plus précisément, le setup de la privé différente local.
50
-
51
- 01:55.000 --> 02:06.000
52
- Ce qui signifie que l'on impose un état de privé fort, où l'on n'a pas accès aux données initiales et sensibles, les XI.
53
-
54
- 02:06.000 --> 02:12.000
55
- Au lieu de ça, l'on a seulement accès à une version privée de XI.
56
-
57
- 02:12.000 --> 02:22.000
58
- Voici la représentation d'un mécanisme simple qui n'est pas interactif.
59
-
60
- 02:22.000 --> 02:30.000
61
- Les termes local ici reflètent le fait que le mécanisme QI ne voit que les données XI.
62
-
63
- 02:30.000 --> 02:38.000
64
- En d'autres mots, il n'y a pas de troisième parti confiant qui a accès à toutes les données sensibles.
65
-
66
- 02:38.000 --> 02:48.000
67
- C'est un mécanisme de privé non-interactif simple, mais bien sûr, nous sommes aussi intéressés par des mécanismes plus sophistiqués,
68
-
69
- 02:48.000 --> 02:55.000
70
- notamment le mécanisme de séquence interactif, où chaque QI voit les données privées dévoilées précédemment,
71
-
72
- 02:55.000 --> 03:00.000
73
- et les données privées de XI, et les données privées de XI.
74
-
75
- 03:00.000 --> 03:10.000
76
- Dans cette étude non-standard, nous retournons au problème original de l'estimation fonctionnelle de la power sum,
77
-
78
- 03:10.000 --> 03:15.000
79
- où nous n'avons qu'accès à des données privées de XI jusqu'à XL.
80
-
81
- 03:15.000 --> 03:26.000
82
- Notre première contribution est de donner une caractérisation tigrée et non-transomatique du erreur de caractérisation de la power sum de l'estimateur.
83
-
84
- 03:26.000 --> 03:33.000
85
- Ce résultat montre que l'estimateur de la power sum n'est pas optimal.
86
-
87
- 03:33.000 --> 03:41.000
88
- Cela contraste avec la performance de l'estimateur de la power sum dans le problème statistique standard.
89
-
90
- 03:41.000 --> 03:50.000
91
- Le message ici est que les bons estimateurs dans le setup standard ne sont pas toujours bons estimateurs dans le setup local privacy.
92
-
93
- 03:50.000 --> 04:00.000
94
- Notre deuxième contribution est la correction du estimateur de plug-in grâce à une attentionnée de troncation de Pk de petites probabilités.
95
-
96
- 04:00.000 --> 04:06.000
97
- Cette correction conduit à une réduction significative du risque d'erreur.
98
-
99
- 04:06.000 --> 04:13.000
100
- En particulier, le risque devient indépendant du size alphabétique K lorsque K est grand.
101
-
102
- 04:13.000 --> 04:22.000
103
- Cette deuxième contribution, par contre, se base sur un mécanisme de privé non-interactif simple.
104
-
105
- 04:22.000 --> 04:29.000
106
- Dans la seconde partie du document, nous examinons un mécanisme de séquence interactive plus sophistiqué,
107
-
108
- 04:29.000 --> 04:40.000
109
- pour lequel nous construisons une procédure de deux pas qui nous permet de réduire le risque grâce à un facteur logarithmique.
110
-
111
- 04:40.000 --> 04:45.000
112
- Enfin, à la fin du document, nous fournissons un lien universel en bas sur le risque d'erreur
113
-
114
- 04:45.000 --> 04:51.000
115
- avec respect à tous les estimateurs et tous les mécanismes non-interactifs et séquentially interactifs.
116
-
117
- 04:51.000 --> 04:56.000
118
- Malheureusement, ce lien bas est un lien d'accords uniquement dans certains cas,
119
-
120
- 04:56.000 --> 05:02.000
121
- ce qui nous laisse avec quelques questions très importantes à poser sur ce problème.
122
-
123
- 05:02.000 --> 05:10.000
124
- Je pense que ce premier travail sur l'estimation fonctionnelle dans le contexte de la privé locale
125
-
126
- 05:10.000 --> 05:14.000
127
- vous donne au moins trois points clés.
128
-
129
- 05:14.000 --> 05:23.000
130
- Le premier point clé est le besoin de construire une procédure statistique prudente pour la configuration de la privé locale,
131
-
132
- 05:23.000 --> 05:31.000
133
- puisque c'est un setup où un bon estimateur dans un cadre standard n'a pas nécessairement de fonction.
134
-
135
- 05:31.000 --> 05:38.000
136
- Le deuxième point clé est que l'approche de type de plug-in analysée dans ce document
137
-
138
- 05:38.000 --> 05:43.000
139
- sert comme un benchmark pour de futurs travaux et des procédures plus sophistiquées.
140
-
141
- 05:43.000 --> 05:51.000
142
- Et le dernier point clé est que notre analyse de l'approche de type de plug-in et des mécanismes non-interactifs
143
-
144
- 05:51.000 --> 05:56.000
145
- montrent des régimes où le problème d'estimation est difficile
146
-
147
- 05:56.000 --> 06:01.000
148
- et espérons que cela incite les gens à amener des développements ici.
149
-
150
- 06:01.000 --> 06:08.000
151
- Merci à tous, et pour plus de détails, veuillez vérifier notre document en ligne.
152
-
153
- 06:08.000 --> 06:22.000
154
- Bye!
155
-
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
demo_data/nips-2021/25962/video.mp4 DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:922f83c4e8f367bc0341f90d1b55d4e3bafe1296c7cc679dc8057a844f5c38ef
3
- size 40157100
 
 
 
 
demo_data/nips-2021/25964/metadata.json DELETED
@@ -1,3 +0,0 @@
1
- {
2
- "title": "Reinforcement Learning in Linear MDPs: Constant Regret and Representation Selection"
3
- }
 
 
 
 
demo_data/nips-2021/25964/transcript_whisper_large-v2.txt DELETED
@@ -1,366 +0,0 @@
1
- e la possibilità di eseguire un'operazione di modello di un'algebra.
2
- Questo è un'operazione che è stata creata per il nostro studio,
3
- e che è stato creato per il nostro studio.
4
- Ciao a tutti, sono Matteo Papini,
5
- e questo è un lavoro insieme con Andrea Tirinzoni,
6
- Aldo Pacchiano, Marcello Restelli,
7
- Alessandro Lazzarici e Matteo Pirotta.
8
- Il nostro lavoro è motivato dall'efficacia
9
- di algoritmi di imparazione di rinforzamento profondo
10
- per risolvere tasche complesse, come i videoghi.
11
- Una caratteristica fondamentale di questi metodi
12
- è la possibilità di eseguire neural networks
13
- per eseguire rappresentazioni complesse delle tasche
14
- che permette di rappresentare e imparare
15
- le polizie ottime efficacemente.
16
- Capire cosa fa una rappresentazione buona
17
- e come trovarne una
18
- è fondamentale per disegnare
19
- migliori algoritmi di imparazione di rinforzamento.
20
- In questo lavoro, per prima volta,
21
- ci sono state presentate caratterizzazioni formali
22
- di rappresentazioni buone per l'imparazione di rinforzamento.
23
- Abbiamo mostrato che usare una rappresentazione buona
24
- può davvero beneficiare l'efficienza di imparazione
25
- e fornire garantie di regretto costante.
26
- Finalmente, abbiamo mostrato come una rappresentazione buona
27
- può essere selezionata dall'interazione online,
28
- un primo passaggio verso l'apprendimento di rappresentazione per RL.
29
- Ma prima di tutto, qualche background.
30
- Il problema di imparazione è modellato
31
- come un processo di decisione di marco finito di orizzonte, o MDP.
32
- In ogni passaggio di tempo, l'agente osserva un stato dell'ambiente,
33
- prende un'azione e riceve una rinforza
34
- e un stato successivo come risultato.
35
- Questi sono determinati rispettivamente
36
- da una funzione di rinforza e una funzione di transizione
37
- che sono un'unità di tempo e un'unità di non-conoscenza.
38
- L'interazione è dividita in due episodi
39
- di lunghezza finita, che si chiama l'orizzonte.
40
- All'ultimo episodio, il stato è risalto
41
- a seconda della distribuzione fissata.
42
- Il comportamento dell'agente è modellato da una polizia,
43
- che è una mappatura da stati all'azione
44
- che può anche essere dipendente del tempo.
45
- La funzione di valore, o funzione Q della polizia Pi,
46
- dà la rinforza aspettata totale
47
- ottenuta prendendo l'azione A in stato S a tempo H
48
- e poi seguendo la polizia fino all'ultimo episodio.
49
- Un'ottima polizia è garantita
50
- che la funzione Q si massima su tutti i stati.
51
- Facciamo un'assumzione extra
52
- che ogni stato admette un'azione ottima unica.
53
- Quando il numero di stati è molto grande o anche infinito,
54
- imparare l'ottima polizia può essere molto difficile.
55
- Quindi guardiamo i linear MDPs
56
- dove l'agente ha accesso a una rappresentazione compatta.
57
- Questa è una mappatura di caratteristiche
58
- da stati e azioni a vectori d-dimensional
59
- dove D è più piccolo.
60
- Potete vedere queste caratteristiche
61
- come l'ultimo strato scoperto di un'intera rete neurale.
62
- Nell'apprendimento di rinforzamento profondo
63
- impariamo tutti i pesi della rete simultaneamente.
64
- Qui mantendremo la rappresentazione fissa
65
- e impareremo solo i finali parametri
66
- che sono i pesi di una combinazione lineare.
67
- Questa funzione lineare, almeno,
68
- deve essere in grado di rappresentare la funzione Q ottima
69
- in modo da poterla usare per prendere azioni ottime.
70
- Ma, infine,
71
- essere in grado di rappresentare la funzione Q ottima
72
- non è abbastanza per l'apprendimento efficace
73
- perché un numero esponenziale di esempi
74
- può ancora essere richiesto.
75
- Per evitare questo,
76
- ci sono necessità di assumizioni strutturali extra
77
- sull'MDP,
78
- e alcune sono state proposte nella literatura.
79
- Nel MDP di basso rango,
80
- sia la funzione di rinforzamento che la funzione di transizione
81
- sono lineari nelle stesse funzioni.
82
- Queste funzioni possono essere tempo-indipendenti.
83
- Assumiamo solo per semplicità
84
- che le due funzioni condividono la stessa dimensione D.
85
- Una prima conseguenza della struttura di basso rango
86
- è che la funzione Q di ogni polizia
87
- può essere rappresentata come una funzione lineare delle funzioni.
88
- Una assumzione strutturale più forte è la rinforzamento di Bellman.
89
- In questi MDP,
90
- tutte le funzioni lineare delle funzioni
91
- devono essere chiuse sotto l'operatore di optimità di Bellman.
92
- La struttura di basso rango implica la chiusura di Bellman,
93
- ma l'opposto non è vero.
94
- Indeed, nelle MDP di chiusura di Bellman,
95
- solo l'ottima funzione Q
96
- è garantita di essere realizzabile lineariamente.
97
- Le algoritmi di imparazione di rinforzamento efficace
98
- sono state proposte per questi settimenti.
99
- Possiamo evaluare le funzioni
100
- usando il concetto di risalto,
101
- che è l'amounto totale di sub-optimità
102
- che viene sofferto dall'agente
103
- durante il processo di imparazione
104
- rispetto alla polizia ottima.
105
- Nelle MDP di basso rango,
106
- l'algoritmo LSVI-UCB
107
- soffre solo un regalo sublineare
108
- nel caso più grave.
109
- Eleanor è una versione raffinata
110
- che funziona nel caso più generale
111
- della chiusura di Bellman
112
- e ha una migliore dipendenza
113
- sulla dimensione di caratteristiche.
114
- Doveva essere notato, però,
115
- che Eleanor è computazionale intrattabile.
116
- Per il LSVI-UCB
117
- abbiamo anche un regalo
118
- di base di istanze
119
- che è logaritmico
120
- nel numero totale di interazioni.
121
- Qui Delta denuncia
122
- il capo di sub-optimità
123
- di una pariera di attesa statale
124
- che è assumato di avere
125
- un minimo ben definito.
126
- Tutti questi regali di base
127
- ignorano la qualità della rappresentazione,
128
- a parte le assumazioni strutturali
129
- che sono necessarie
130
- per la sua gestione.
131
- La domanda che cercheremo di rispondere è questa.
132
- Possiamo raggiungere
133
- anche piccoli dolori
134
- con una buona rappresentazione?
135
- Per rendere questo concetto
136
- di buona rappresentazione formale
137
- introduciamo la proprietà Unisoft.
138
- Una rappresentazione è Unisoft
139
- se le caratteristiche ottime
140
- spostano l'intero spazio di caratteristiche.
141
- Le caratteristiche ottime sono
142
- le caratteristiche delle azioni ottime
143
- in stati che sono raggiuntibili
144
- alla propria politica ottimale.
145
- Intuitivamente, la proprietà Unisoft
146
- garantisce che le caratteristiche ottime
147
- sono diverse abbastanza
148
- per che l'agente
149
- cominci rapidamente alla politica ottimale
150
- senza ridurre
151
- l'amounto di informazioni che riceve
152
- sulla tasca in generale.
153
- Possiamo anche misurare
154
- il grado di diversità della rappresentazione
155
- guardando i più piccoli valori
156
- degli eigenvali
157
- della matrica di covarianza delle caratteristiche ottime.
158
- Questo parametro di Lambda
159
- porterà un ruolo importante
160
- nelle nostre regrette.
161
- Notate che un valore più alto di Lambda
162
- è migliore perché denota
163
- più diversità di caratteristiche
164
- e che Lambda può essere al massimo
165
- una sotto assumizioni comuni
166
- sulla magnitude di caratteristiche.
167
- Ma in quale senso sono queste rappresentazioni
168
- ottime?
169
- Ciò che abbiamo mostrato in MDP lineari
170
- è che Unisoft è sinonimo
171
- con regrette costanti.
172
- Per prima cosa, abbiamo mostrato
173
- che la proprietà di Unisoft
174
- è necessaria per raggiungere
175
- regrette costanti in MDP
176
- con regretti lineari.
177
- Questo appartiene a MDPs di basso rango,
178
- Bellman closure,
179
- e anche a MDPs di mixtura lineare
180
- che sono un'altra
181
- assumazione strutturale comune.
182
- Ma Unisoft è anche sufficiente
183
- per regrette costanti
184
- in casi interessanti.
185
- In MDPs di basso rango,
186
- SVI-UCB raggiunge
187
- regrette costanti se e solo se
188
- la rappresentazione è Unisoft.
189
- Con una alta probabilità,
190
- un numero finito
191
- di interaczioni è sufficiente
192
- per l'agente imparare
193
- perfettamente la polizia ottimale.
194
- Quindi, la regrette può essere
195
- rilassata in termini di questo tempo costante
196
- regardless of the
197
- total number of episodes k.
198
- In altri parole, la regrette
199
- è costante.
200
- Notate come il tempo τ
201
- dipende inversamente
202
- sul parametro λ.
203
- Indeed, con una mappa di
204
- più diversità di caratteristiche, possiamo imparare
205
- la polizia ottimale più velocemente.
206
- Abbiamo un risultato simile
207
- per Eleanor nel caso più generale
208
- di MDPs di Bellman closure,
209
- con anche una migliore
210
- dipendenza sulla dimensione d
211
- della caratteristica.
212
- Infine, la mancanza di
213
- lombari per Eleanor
214
- dà questa polinomiale
215
- dipendenza sul parametro λ
216
- rispetto a una dipendenza logaritmica
217
- nel caso di LSVI-UCB.
218
- Ma questo potrebbe ben essere
219
- un artefatto del nostro provo.
220
- Per ricapitulare, abbiamo mostrato
221
- che l'Unisoft è
222
- sia necessario che sufficiente
223
- per raggiungere regrette costanti
224
- in MDPs di Bellman closure
225
- e di low rank, e ha
226
- provvinto regrette costanti
227
- per i bounds superiori per algoritmi comuni.
228
- Nella ultima parte del
229
- talco, mostriamo come
230
- le representazioni buone possono essere
231
- scelte online.
232
- Ci concentriamo su MDPs di low rank
233
- per semplicità.
234
- L'agente è dato un set
235
- di N rappresentazioni candidate
236
- che rappresentano
237
- la stessa MDP di low rank
238
- senza misspecificazione.
239
- Le rappresentazioni possono avere
240
- diverse dimensioni.
241
- Questo differe dall'approccio tipico
242
- di rappresentazione di lezione in RL
243
- dove si cercano di trovare
244
- una rappresentazione accurata
245
- da una classe di funzioni realizzabili.
246
- Questo permette di
247
- risolvere le misspecificazioni, ma
248
- è tipicamente fatto offline.
249
- Il nostro obiettivo è
250
- imparare così efficientemente
251
- come se usassimo la migliore
252
- rappresentazione candidata nel set
253
- senza sapere in avanzo.
254
- Ovviamente, se una delle candidate
255
- è Unisoft, vorremmo
256
- ottenere un regalo costante.
257
- L'algoritmo che proponiamo
258
- è LSVI Leader.
259
- Si guida
260
- N istanze parallele di LSVI UCB,
261
- una per ogni rappresentazione
262
- candidata.
263
- Per ogni rappresentazione, usiamo
264
- tutte le date collezionate
265
- dall'agente per esimerare
266
- il parametro dell'ottima
267
- funzione Q accordo
268
- a questa rappresentazione.
269
- Questo è fatto con una combinazione
270
- di square e induzione sbattuta.
271
- Un bonus di esplorazione
272
- viene aggiunto all'estimato
273
- del parametro per rendere
274
- l'estimato ottimista, come nel caso di LSVI UCB.
275
- Ma ora
276
- abbiamo un parametro ottimista
277
- per ogni rappresentazione
278
- e l'azione viene scelta
279
- per maximizzare il più piccolo
280
- parametro ottimista,
281
- che è anche l'estimato più tico.
282
- Notate come questo
283
- è in realtà più potente
284
- dell'algoritmo di selezione del modello
285
- perché possiamo usare
286
- una rappresentazione diversa
287
- per ogni stato.
288
- Vediamo che il regalo del leader di LSVI
289
- è superiore
290
- a quello di LSVI UCB
291
- se è condannato con la rappresentazione
292
- migliore dei candidati,
293
- a meno di un fattore,
294
- che è il numero di candidati
295
- in square.
296
- Questo significa che se abbiamo
297
- una rappresentazione di Unisoft nel set,
298
- il leader di LSVI
299
- raggiunge il regalo di selezione.
300
- Ma il leader di LSVI
301
- può combinare rappresentazioni
302
- attraverso stagi, stati e azioni,
303
- e quindi
304
- a volte può raggiungere
305
- il regalo di selezione
306
- anche se non c'è una rappresentazione di candidati
307
- di Unisoft.
308
- I nostri risultati teoretici sono anche supportati
309
- dai risultati empirici
310
- in MDPs di piccolo regalo di selezione.
311
- Questi plotti mostrano il regalo di selezione
312
- come funzione del numero di episodi.
313
- A sinistra abbiamo
314
- il regalo di LSVI-UCB
315
- che è gestito con
316
- diverse rappresentazioni.
317
- Di queste, l'unica rappresentazione
318
- in grigio nel plotto
319
- è Unisoft, e solo in questo caso
320
- LSVI-UCB è in grado
321
- di raggiungere regali costanti.
322
- A sinistra abbiamo il regalo
323
- del leader di LSVI
324
- che è gestito con vari set di candidati.
325
- In tutti questi casi,
326
- il leader di LSVI raggiunge
327
- regali costanti.
328
- Ovviamente, senza sapere
329
- la migliore rappresentazione in avanzo,
330
- ci serve più tempo per imparare la polizia ottima,
331
- ma questo è stato anche aspettato
332
- dalla nostra regola di selezione.
333
- Il plotto arancione è particolarmente
334
- interessante, perché in questo caso
335
- l'unica rappresentazione di Unisoft,
336
- numero 1,
337
- non è nel set di candidati,
338
- ma ancora LSVI-leader è in grado
339
- di raggiungere regali costanti
340
- combinando le representazioni rimaste.
341
- Nel lavoro futuro,
342
- vorremmo migliorare questo fattore
343
- di sqvrtn nel regalo del leader di LSVI,
344
- perché nel caso dei banditi lineari
345
- la dipendenza sull'umare
346
- delle rappresentazioni è solo logaritmica.
347
- Vorremmo anche
348
- estendere il leader di LSVI
349
- per gestire le rappresentazioni
350
- di candidati che sono miscele.
351
- Tuttavia, questa
352
- selezione delle rappresentazioni è
353
- solo un passaggio verso
354
- il learning of representation,
355
- che significa imparare
356
- la rappresentazione online da scratch.
357
- Questo è già fatto
358
- in pratica con il learning di
359
- rinforzamento profondo, ma la teoria
360
- di questo è scomoda.
361
- Finalmente, possiamo considerare
362
- il learning di rinforzamento multitasca,
363
- dove una singola rappresentazione
364
- potrebbe essere buona per un
365
- composto di MDPs che condividono
366
- una struttura. Grazie.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
demo_data/nips-2021/25964/transcript_whisper_large-v2.vtt DELETED
@@ -1,1100 +0,0 @@
1
- WEBVTT
2
-
3
- 00:00.000 --> 00:04.000
4
- e la possibilità di eseguire un'operazione di modello di un'algebra.
5
-
6
- 00:04.000 --> 00:07.000
7
- Questo è un'operazione che è stata creata per il nostro studio,
8
-
9
- 00:07.000 --> 00:09.000
10
- e che è stato creato per il nostro studio.
11
-
12
- 00:09.000 --> 00:11.000
13
- Ciao a tutti, sono Matteo Papini,
14
-
15
- 00:11.000 --> 00:13.000
16
- e questo è un lavoro insieme con Andrea Tirinzoni,
17
-
18
- 00:13.000 --> 00:15.000
19
- Aldo Pacchiano, Marcello Restelli,
20
-
21
- 00:15.000 --> 00:18.000
22
- Alessandro Lazzarici e Matteo Pirotta.
23
-
24
- 00:18.000 --> 00:21.000
25
- Il nostro lavoro è motivato dall'efficacia
26
-
27
- 00:21.000 --> 00:23.000
28
- di algoritmi di imparazione di rinforzamento profondo
29
-
30
- 00:23.000 --> 00:26.000
31
- per risolvere tasche complesse, come i videoghi.
32
-
33
- 00:26.000 --> 00:28.000
34
- Una caratteristica fondamentale di questi metodi
35
-
36
- 00:28.000 --> 00:30.000
37
- è la possibilità di eseguire neural networks
38
-
39
- 00:30.000 --> 00:33.000
40
- per eseguire rappresentazioni complesse delle tasche
41
-
42
- 00:33.000 --> 00:36.000
43
- che permette di rappresentare e imparare
44
-
45
- 00:36.000 --> 00:39.000
46
- le polizie ottime efficacemente.
47
-
48
- 00:39.000 --> 00:42.000
49
- Capire cosa fa una rappresentazione buona
50
-
51
- 00:42.000 --> 00:44.000
52
- e come trovarne una
53
-
54
- 00:44.000 --> 00:46.000
55
- è fondamentale per disegnare
56
-
57
- 00:46.000 --> 00:48.000
58
- migliori algoritmi di imparazione di rinforzamento.
59
-
60
- 00:48.000 --> 00:50.000
61
- In questo lavoro, per prima volta,
62
-
63
- 00:50.000 --> 00:52.000
64
- ci sono state presentate caratterizzazioni formali
65
-
66
- 00:52.000 --> 00:55.000
67
- di rappresentazioni buone per l'imparazione di rinforzamento.
68
-
69
- 00:55.000 --> 00:58.000
70
- Abbiamo mostrato che usare una rappresentazione buona
71
-
72
- 00:58.000 --> 01:01.000
73
- può davvero beneficiare l'efficienza di imparazione
74
-
75
- 01:01.000 --> 01:03.000
76
- e fornire garantie di regretto costante.
77
-
78
- 01:03.000 --> 01:06.000
79
- Finalmente, abbiamo mostrato come una rappresentazione buona
80
-
81
- 01:06.000 --> 01:09.000
82
- può essere selezionata dall'interazione online,
83
-
84
- 01:09.000 --> 01:13.000
85
- un primo passaggio verso l'apprendimento di rappresentazione per RL.
86
-
87
- 01:13.000 --> 01:16.000
88
- Ma prima di tutto, qualche background.
89
-
90
- 01:16.000 --> 01:18.000
91
- Il problema di imparazione è modellato
92
-
93
- 01:18.000 --> 01:22.000
94
- come un processo di decisione di marco finito di orizzonte, o MDP.
95
-
96
- 01:22.000 --> 01:26.000
97
- In ogni passaggio di tempo, l'agente osserva un stato dell'ambiente,
98
-
99
- 01:26.000 --> 01:28.000
100
- prende un'azione e riceve una rinforza
101
-
102
- 01:28.000 --> 01:31.000
103
- e un stato successivo come risultato.
104
-
105
- 01:31.000 --> 01:33.000
106
- Questi sono determinati rispettivamente
107
-
108
- 01:33.000 --> 01:36.000
109
- da una funzione di rinforza e una funzione di transizione
110
-
111
- 01:36.000 --> 01:39.000
112
- che sono un'unità di tempo e un'unità di non-conoscenza.
113
-
114
- 01:39.000 --> 01:42.000
115
- L'interazione è dividita in due episodi
116
-
117
- 01:42.000 --> 01:46.000
118
- di lunghezza finita, che si chiama l'orizzonte.
119
-
120
- 01:46.000 --> 01:49.000
121
- All'ultimo episodio, il stato è risalto
122
-
123
- 01:49.000 --> 01:52.000
124
- a seconda della distribuzione fissata.
125
-
126
- 01:52.000 --> 01:55.000
127
- Il comportamento dell'agente è modellato da una polizia,
128
-
129
- 01:55.000 --> 01:58.000
130
- che è una mappatura da stati all'azione
131
-
132
- 01:58.000 --> 02:01.000
133
- che può anche essere dipendente del tempo.
134
-
135
- 02:01.000 --> 02:04.000
136
- La funzione di valore, o funzione Q della polizia Pi,
137
-
138
- 02:04.000 --> 02:07.000
139
- dà la rinforza aspettata totale
140
-
141
- 02:07.000 --> 02:11.000
142
- ottenuta prendendo l'azione A in stato S a tempo H
143
-
144
- 02:11.000 --> 02:15.000
145
- e poi seguendo la polizia fino all'ultimo episodio.
146
-
147
- 02:15.000 --> 02:18.000
148
- Un'ottima polizia è garantita
149
-
150
- 02:18.000 --> 02:22.000
151
- che la funzione Q si massima su tutti i stati.
152
-
153
- 02:22.000 --> 02:25.000
154
- Facciamo un'assumzione extra
155
-
156
- 02:25.000 --> 02:28.000
157
- che ogni stato admette un'azione ottima unica.
158
-
159
- 02:28.000 --> 02:31.000
160
- Quando il numero di stati è molto grande o anche infinito,
161
-
162
- 02:31.000 --> 02:35.000
163
- imparare l'ottima polizia può essere molto difficile.
164
-
165
- 02:35.000 --> 02:38.000
166
- Quindi guardiamo i linear MDPs
167
-
168
- 02:38.000 --> 02:42.000
169
- dove l'agente ha accesso a una rappresentazione compatta.
170
-
171
- 02:42.000 --> 02:44.000
172
- Questa è una mappatura di caratteristiche
173
-
174
- 02:44.000 --> 02:47.000
175
- da stati e azioni a vectori d-dimensional
176
-
177
- 02:47.000 --> 02:50.000
178
- dove D è più piccolo.
179
-
180
- 02:50.000 --> 02:52.000
181
- Potete vedere queste caratteristiche
182
-
183
- 02:52.000 --> 02:55.000
184
- come l'ultimo strato scoperto di un'intera rete neurale.
185
-
186
- 02:55.000 --> 02:57.000
187
- Nell'apprendimento di rinforzamento profondo
188
-
189
- 02:57.000 --> 03:01.000
190
- impariamo tutti i pesi della rete simultaneamente.
191
-
192
- 03:01.000 --> 03:04.000
193
- Qui mantendremo la rappresentazione fissa
194
-
195
- 03:04.000 --> 03:07.000
196
- e impareremo solo i finali parametri
197
-
198
- 03:07.000 --> 03:10.000
199
- che sono i pesi di una combinazione lineare.
200
-
201
- 03:10.000 --> 03:13.000
202
- Questa funzione lineare, almeno,
203
-
204
- 03:13.000 --> 03:16.000
205
- deve essere in grado di rappresentare la funzione Q ottima
206
-
207
- 03:16.000 --> 03:20.000
208
- in modo da poterla usare per prendere azioni ottime.
209
-
210
- 03:20.000 --> 03:22.000
211
- Ma, infine,
212
-
213
- 03:22.000 --> 03:24.000
214
- essere in grado di rappresentare la funzione Q ottima
215
-
216
- 03:24.000 --> 03:27.000
217
- non è abbastanza per l'apprendimento efficace
218
-
219
- 03:27.000 --> 03:29.000
220
- perché un numero esponenziale di esempi
221
-
222
- 03:29.000 --> 03:31.000
223
- può ancora essere richiesto.
224
-
225
- 03:31.000 --> 03:33.000
226
- Per evitare questo,
227
-
228
- 03:33.000 --> 03:35.000
229
- ci sono necessità di assumizioni strutturali extra
230
-
231
- 03:35.000 --> 03:37.000
232
- sull'MDP,
233
-
234
- 03:37.000 --> 03:40.000
235
- e alcune sono state proposte nella literatura.
236
-
237
- 03:40.000 --> 03:42.000
238
- Nel MDP di basso rango,
239
-
240
- 03:42.000 --> 03:45.000
241
- sia la funzione di rinforzamento che la funzione di transizione
242
-
243
- 03:45.000 --> 03:48.000
244
- sono lineari nelle stesse funzioni.
245
-
246
- 03:48.000 --> 03:51.000
247
- Queste funzioni possono essere tempo-indipendenti.
248
-
249
- 03:51.000 --> 03:53.000
250
- Assumiamo solo per semplicità
251
-
252
- 03:53.000 --> 03:56.000
253
- che le due funzioni condividono la stessa dimensione D.
254
-
255
- 03:56.000 --> 03:59.000
256
- Una prima conseguenza della struttura di basso rango
257
-
258
- 03:59.000 --> 04:02.000
259
- è che la funzione Q di ogni polizia
260
-
261
- 04:02.000 --> 04:06.000
262
- può essere rappresentata come una funzione lineare delle funzioni.
263
-
264
- 04:06.000 --> 04:09.000
265
- Una assumzione strutturale più forte è la rinforzamento di Bellman.
266
-
267
- 04:09.000 --> 04:11.000
268
- In questi MDP,
269
-
270
- 04:11.000 --> 04:13.000
271
- tutte le funzioni lineare delle funzioni
272
-
273
- 04:13.000 --> 04:16.000
274
- devono essere chiuse sotto l'operatore di optimità di Bellman.
275
-
276
- 04:16.000 --> 04:19.000
277
- La struttura di basso rango implica la chiusura di Bellman,
278
-
279
- 04:19.000 --> 04:21.000
280
- ma l'opposto non è vero.
281
-
282
- 04:21.000 --> 04:24.000
283
- Indeed, nelle MDP di chiusura di Bellman,
284
-
285
- 04:24.000 --> 04:26.000
286
- solo l'ottima funzione Q
287
-
288
- 04:26.000 --> 04:29.000
289
- è garantita di essere realizzabile lineariamente.
290
-
291
- 04:29.000 --> 04:32.000
292
- Le algoritmi di imparazione di rinforzamento efficace
293
-
294
- 04:32.000 --> 04:34.000
295
- sono state proposte per questi settimenti.
296
-
297
- 04:34.000 --> 04:36.000
298
- Possiamo evaluare le funzioni
299
-
300
- 04:36.000 --> 04:38.000
301
- usando il concetto di risalto,
302
-
303
- 04:38.000 --> 04:41.000
304
- che è l'amounto totale di sub-optimità
305
-
306
- 04:41.000 --> 04:43.000
307
- che viene sofferto dall'agente
308
-
309
- 04:43.000 --> 04:45.000
310
- durante il processo di imparazione
311
-
312
- 04:45.000 --> 04:47.000
313
- rispetto alla polizia ottima.
314
-
315
- 04:47.000 --> 04:49.000
316
- Nelle MDP di basso rango,
317
-
318
- 04:49.000 --> 04:52.000
319
- l'algoritmo LSVI-UCB
320
-
321
- 04:52.000 --> 04:54.000
322
- soffre solo un regalo sublineare
323
-
324
- 04:54.000 --> 04:56.000
325
- nel caso più grave.
326
-
327
- 04:56.000 --> 04:58.000
328
- Eleanor è una versione raffinata
329
-
330
- 04:58.000 --> 05:00.000
331
- che funziona nel caso più generale
332
-
333
- 05:00.000 --> 05:02.000
334
- della chiusura di Bellman
335
-
336
- 05:02.000 --> 05:04.000
337
- e ha una migliore dipendenza
338
-
339
- 05:04.000 --> 05:06.000
340
- sulla dimensione di caratteristiche.
341
-
342
- 05:06.000 --> 05:08.000
343
- Doveva essere notato, però,
344
-
345
- 05:08.000 --> 05:10.000
346
- che Eleanor è computazionale intrattabile.
347
-
348
- 05:10.000 --> 05:12.000
349
- Per il LSVI-UCB
350
-
351
- 05:12.000 --> 05:14.000
352
- abbiamo anche un regalo
353
-
354
- 05:14.000 --> 05:16.000
355
- di base di istanze
356
-
357
- 05:16.000 --> 05:18.000
358
- che è logaritmico
359
-
360
- 05:18.000 --> 05:20.000
361
- nel numero totale di interazioni.
362
-
363
- 05:20.000 --> 05:22.000
364
- Qui Delta denuncia
365
-
366
- 05:22.000 --> 05:24.000
367
- il capo di sub-optimità
368
-
369
- 05:24.000 --> 05:26.000
370
- di una pariera di attesa statale
371
-
372
- 05:26.000 --> 05:28.000
373
- che è assumato di avere
374
-
375
- 05:28.000 --> 05:30.000
376
- un minimo ben definito.
377
-
378
- 05:30.000 --> 05:32.000
379
- Tutti questi regali di base
380
-
381
- 05:32.000 --> 05:34.000
382
- ignorano la qualità della rappresentazione,
383
-
384
- 05:34.000 --> 05:36.000
385
- a parte le assumazioni strutturali
386
-
387
- 05:36.000 --> 05:38.000
388
- che sono necessarie
389
-
390
- 05:38.000 --> 05:40.000
391
- per la sua gestione.
392
-
393
- 05:40.000 --> 05:42.000
394
- La domanda che cercheremo di rispondere è questa.
395
-
396
- 05:42.000 --> 05:44.000
397
- Possiamo raggiungere
398
-
399
- 05:44.000 --> 05:46.000
400
- anche piccoli dolori
401
-
402
- 05:46.000 --> 05:48.000
403
- con una buona rappresentazione?
404
-
405
- 05:48.000 --> 05:50.000
406
- Per rendere questo concetto
407
-
408
- 05:50.000 --> 05:52.000
409
- di buona rappresentazione formale
410
-
411
- 05:52.000 --> 05:54.000
412
- introduciamo la proprietà Unisoft.
413
-
414
- 05:54.000 --> 05:56.000
415
- Una rappresentazione è Unisoft
416
-
417
- 05:56.000 --> 05:58.000
418
- se le caratteristiche ottime
419
-
420
- 05:58.000 --> 06:00.000
421
- spostano l'intero spazio di caratteristiche.
422
-
423
- 06:00.000 --> 06:02.000
424
- Le caratteristiche ottime sono
425
-
426
- 06:02.000 --> 06:04.000
427
- le caratteristiche delle azioni ottime
428
-
429
- 06:04.000 --> 06:06.000
430
- in stati che sono raggiuntibili
431
-
432
- 06:06.000 --> 06:08.000
433
- alla propria politica ottimale.
434
-
435
- 06:08.000 --> 06:10.000
436
- Intuitivamente, la proprietà Unisoft
437
-
438
- 06:10.000 --> 06:12.000
439
- garantisce che le caratteristiche ottime
440
-
441
- 06:12.000 --> 06:14.000
442
- sono diverse abbastanza
443
-
444
- 06:14.000 --> 06:16.000
445
- per che l'agente
446
-
447
- 06:16.000 --> 06:18.000
448
- cominci rapidamente alla politica ottimale
449
-
450
- 06:18.000 --> 06:20.000
451
- senza ridurre
452
-
453
- 06:20.000 --> 06:22.000
454
- l'amounto di informazioni che riceve
455
-
456
- 06:22.000 --> 06:24.000
457
- sulla tasca in generale.
458
-
459
- 06:24.000 --> 06:26.000
460
- Possiamo anche misurare
461
-
462
- 06:26.000 --> 06:28.000
463
- il grado di diversità della rappresentazione
464
-
465
- 06:28.000 --> 06:30.000
466
- guardando i più piccoli valori
467
-
468
- 06:30.000 --> 06:32.000
469
- degli eigenvali
470
-
471
- 06:32.000 --> 06:34.000
472
- della matrica di covarianza delle caratteristiche ottime.
473
-
474
- 06:34.000 --> 06:36.000
475
- Questo parametro di Lambda
476
-
477
- 06:36.000 --> 06:38.000
478
- porterà un ruolo importante
479
-
480
- 06:38.000 --> 06:40.000
481
- nelle nostre regrette.
482
-
483
- 06:40.000 --> 06:42.000
484
- Notate che un valore più alto di Lambda
485
-
486
- 06:42.000 --> 06:44.000
487
- è migliore perché denota
488
-
489
- 06:44.000 --> 06:46.000
490
- più diversità di caratteristiche
491
-
492
- 06:46.000 --> 06:48.000
493
- e che Lambda può essere al massimo
494
-
495
- 06:48.000 --> 06:50.000
496
- una sotto assumizioni comuni
497
-
498
- 06:50.000 --> 06:52.000
499
- sulla magnitude di caratteristiche.
500
-
501
- 06:52.000 --> 06:54.000
502
- Ma in quale senso sono queste rappresentazioni
503
-
504
- 06:54.000 --> 06:56.000
505
- ottime?
506
-
507
- 06:56.000 --> 06:58.000
508
- Ciò che abbiamo mostrato in MDP lineari
509
-
510
- 06:58.000 --> 07:00.000
511
- è che Unisoft è sinonimo
512
-
513
- 07:00.000 --> 07:02.000
514
- con regrette costanti.
515
-
516
- 07:02.000 --> 07:04.000
517
- Per prima cosa, abbiamo mostrato
518
-
519
- 07:04.000 --> 07:06.000
520
- che la proprietà di Unisoft
521
-
522
- 07:06.000 --> 07:08.000
523
- è necessaria per raggiungere
524
-
525
- 07:08.000 --> 07:10.000
526
- regrette costanti in MDP
527
-
528
- 07:10.000 --> 07:12.000
529
- con regretti lineari.
530
-
531
- 07:12.000 --> 07:14.000
532
- Questo appartiene a MDPs di basso rango,
533
-
534
- 07:14.000 --> 07:16.000
535
- Bellman closure,
536
-
537
- 07:16.000 --> 07:18.000
538
- e anche a MDPs di mixtura lineare
539
-
540
- 07:18.000 --> 07:20.000
541
- che sono un'altra
542
-
543
- 07:20.000 --> 07:22.000
544
- assumazione strutturale comune.
545
-
546
- 07:22.000 --> 07:24.000
547
- Ma Unisoft è anche sufficiente
548
-
549
- 07:24.000 --> 07:26.000
550
- per regrette costanti
551
-
552
- 07:26.000 --> 07:28.000
553
- in casi interessanti.
554
-
555
- 07:28.000 --> 07:30.000
556
- In MDPs di basso rango,
557
-
558
- 07:30.000 --> 07:32.000
559
- SVI-UCB raggiunge
560
-
561
- 07:32.000 --> 07:34.000
562
- regrette costanti se e solo se
563
-
564
- 07:34.000 --> 07:36.000
565
- la rappresentazione è Unisoft.
566
-
567
- 07:36.000 --> 07:38.000
568
- Con una alta probabilità,
569
-
570
- 07:38.000 --> 07:40.000
571
- un numero finito
572
-
573
- 07:40.000 --> 07:42.000
574
- di interaczioni è sufficiente
575
-
576
- 07:42.000 --> 07:44.000
577
- per l'agente imparare
578
-
579
- 07:44.000 --> 07:46.000
580
- perfettamente la polizia ottimale.
581
-
582
- 07:46.000 --> 07:48.000
583
- Quindi, la regrette può essere
584
-
585
- 07:48.000 --> 07:50.000
586
- rilassata in termini di questo tempo costante
587
-
588
- 07:50.000 --> 07:52.000
589
- regardless of the
590
-
591
- 07:52.000 --> 07:54.000
592
- total number of episodes k.
593
-
594
- 07:54.000 --> 07:56.000
595
- In altri parole, la regrette
596
-
597
- 07:56.000 --> 07:58.000
598
- è costante.
599
-
600
- 07:58.000 --> 08:00.000
601
- Notate come il tempo τ
602
-
603
- 08:00.000 --> 08:02.000
604
- dipende inversamente
605
-
606
- 08:02.000 --> 08:04.000
607
- sul parametro λ.
608
-
609
- 08:04.000 --> 08:06.000
610
- Indeed, con una mappa di
611
-
612
- 08:06.000 --> 08:08.000
613
- più diversità di caratteristiche, possiamo imparare
614
-
615
- 08:08.000 --> 08:10.000
616
- la polizia ottimale più velocemente.
617
-
618
- 08:10.000 --> 08:12.000
619
- Abbiamo un risultato simile
620
-
621
- 08:12.000 --> 08:14.000
622
- per Eleanor nel caso più generale
623
-
624
- 08:14.000 --> 08:16.000
625
- di MDPs di Bellman closure,
626
-
627
- 08:16.000 --> 08:18.000
628
- con anche una migliore
629
-
630
- 08:18.000 --> 08:20.000
631
- dipendenza sulla dimensione d
632
-
633
- 08:20.000 --> 08:22.000
634
- della caratteristica.
635
-
636
- 08:22.000 --> 08:24.000
637
- Infine, la mancanza di
638
-
639
- 08:24.000 --> 08:26.000
640
- lombari per Eleanor
641
-
642
- 08:26.000 --> 08:28.000
643
- dà questa polinomiale
644
-
645
- 08:28.000 --> 08:30.000
646
- dipendenza sul parametro λ
647
-
648
- 08:30.000 --> 08:32.000
649
- rispetto a una dipendenza logaritmica
650
-
651
- 08:32.000 --> 08:34.000
652
- nel caso di LSVI-UCB.
653
-
654
- 08:34.000 --> 08:36.000
655
- Ma questo potrebbe ben essere
656
-
657
- 08:36.000 --> 08:38.000
658
- un artefatto del nostro provo.
659
-
660
- 08:38.000 --> 08:40.000
661
- Per ricapitulare, abbiamo mostrato
662
-
663
- 08:40.000 --> 08:42.000
664
- che l'Unisoft è
665
-
666
- 08:42.000 --> 08:44.000
667
- sia necessario che sufficiente
668
-
669
- 08:44.000 --> 08:46.000
670
- per raggiungere regrette costanti
671
-
672
- 08:46.000 --> 08:48.000
673
- in MDPs di Bellman closure
674
-
675
- 08:48.000 --> 08:50.000
676
- e di low rank, e ha
677
-
678
- 08:50.000 --> 08:52.000
679
- provvinto regrette costanti
680
-
681
- 08:52.000 --> 08:54.000
682
- per i bounds superiori per algoritmi comuni.
683
-
684
- 08:54.000 --> 08:56.000
685
- Nella ultima parte del
686
-
687
- 08:56.000 --> 08:58.000
688
- talco, mostriamo come
689
-
690
- 08:58.000 --> 09:00.000
691
- le representazioni buone possono essere
692
-
693
- 09:00.000 --> 09:02.000
694
- scelte online.
695
-
696
- 09:02.000 --> 09:04.000
697
- Ci concentriamo su MDPs di low rank
698
-
699
- 09:04.000 --> 09:06.000
700
- per semplicità.
701
-
702
- 09:06.000 --> 09:08.000
703
- L'agente è dato un set
704
-
705
- 09:08.000 --> 09:10.000
706
- di N rappresentazioni candidate
707
-
708
- 09:10.000 --> 09:12.000
709
- che rappresentano
710
-
711
- 09:12.000 --> 09:14.000
712
- la stessa MDP di low rank
713
-
714
- 09:14.000 --> 09:16.000
715
- senza misspecificazione.
716
-
717
- 09:16.000 --> 09:18.000
718
- Le rappresentazioni possono avere
719
-
720
- 09:18.000 --> 09:20.000
721
- diverse dimensioni.
722
-
723
- 09:20.000 --> 09:22.000
724
- Questo differe dall'approccio tipico
725
-
726
- 09:22.000 --> 09:24.000
727
- di rappresentazione di lezione in RL
728
-
729
- 09:24.000 --> 09:26.000
730
- dove si cercano di trovare
731
-
732
- 09:26.000 --> 09:28.000
733
- una rappresentazione accurata
734
-
735
- 09:28.000 --> 09:30.000
736
- da una classe di funzioni realizzabili.
737
-
738
- 09:30.000 --> 09:32.000
739
- Questo permette di
740
-
741
- 09:32.000 --> 09:34.000
742
- risolvere le misspecificazioni, ma
743
-
744
- 09:34.000 --> 09:36.000
745
- è tipicamente fatto offline.
746
-
747
- 09:36.000 --> 09:38.000
748
- Il nostro obiettivo è
749
-
750
- 09:38.000 --> 09:40.000
751
- imparare così efficientemente
752
-
753
- 09:40.000 --> 09:42.000
754
- come se usassimo la migliore
755
-
756
- 09:42.000 --> 09:44.000
757
- rappresentazione candidata nel set
758
-
759
- 09:44.000 --> 09:46.000
760
- senza sapere in avanzo.
761
-
762
- 09:46.000 --> 09:48.000
763
- Ovviamente, se una delle candidate
764
-
765
- 09:48.000 --> 09:50.000
766
- è Unisoft, vorremmo
767
-
768
- 09:50.000 --> 09:52.000
769
- ottenere un regalo costante.
770
-
771
- 09:52.000 --> 09:54.000
772
- L'algoritmo che proponiamo
773
-
774
- 09:54.000 --> 09:56.000
775
- è LSVI Leader.
776
-
777
- 09:56.000 --> 09:58.000
778
- Si guida
779
-
780
- 09:58.000 --> 10:00.000
781
- N istanze parallele di LSVI UCB,
782
-
783
- 10:00.000 --> 10:02.000
784
- una per ogni rappresentazione
785
-
786
- 10:02.000 --> 10:04.000
787
- candidata.
788
-
789
- 10:04.000 --> 10:06.000
790
- Per ogni rappresentazione, usiamo
791
-
792
- 10:06.000 --> 10:08.000
793
- tutte le date collezionate
794
-
795
- 10:08.000 --> 10:10.000
796
- dall'agente per esimerare
797
-
798
- 10:10.000 --> 10:12.000
799
- il parametro dell'ottima
800
-
801
- 10:12.000 --> 10:14.000
802
- funzione Q accordo
803
-
804
- 10:14.000 --> 10:16.000
805
- a questa rappresentazione.
806
-
807
- 10:16.000 --> 10:18.000
808
- Questo è fatto con una combinazione
809
-
810
- 10:18.000 --> 10:20.000
811
- di square e induzione sbattuta.
812
-
813
- 10:20.000 --> 10:22.000
814
- Un bonus di esplorazione
815
-
816
- 10:22.000 --> 10:24.000
817
- viene aggiunto all'estimato
818
-
819
- 10:24.000 --> 10:26.000
820
- del parametro per rendere
821
-
822
- 10:26.000 --> 10:28.000
823
- l'estimato ottimista, come nel caso di LSVI UCB.
824
-
825
- 10:28.000 --> 10:30.000
826
- Ma ora
827
-
828
- 10:30.000 --> 10:32.000
829
- abbiamo un parametro ottimista
830
-
831
- 10:32.000 --> 10:34.000
832
- per ogni rappresentazione
833
-
834
- 10:34.000 --> 10:36.000
835
- e l'azione viene scelta
836
-
837
- 10:36.000 --> 10:38.000
838
- per maximizzare il più piccolo
839
-
840
- 10:38.000 --> 10:40.000
841
- parametro ottimista,
842
-
843
- 10:40.000 --> 10:42.000
844
- che è anche l'estimato più tico.
845
-
846
- 10:42.000 --> 10:44.000
847
- Notate come questo
848
-
849
- 10:44.000 --> 10:46.000
850
- è in realtà più potente
851
-
852
- 10:46.000 --> 10:48.000
853
- dell'algoritmo di selezione del modello
854
-
855
- 10:48.000 --> 10:50.000
856
- perché possiamo usare
857
-
858
- 10:50.000 --> 10:52.000
859
- una rappresentazione diversa
860
-
861
- 10:52.000 --> 10:54.000
862
- per ogni stato.
863
-
864
- 10:54.000 --> 10:56.000
865
- Vediamo che il regalo del leader di LSVI
866
-
867
- 10:56.000 --> 10:58.000
868
- è superiore
869
-
870
- 10:58.000 --> 11:00.000
871
- a quello di LSVI UCB
872
-
873
- 11:00.000 --> 11:02.000
874
- se è condannato con la rappresentazione
875
-
876
- 11:02.000 --> 11:04.000
877
- migliore dei candidati,
878
-
879
- 11:04.000 --> 11:06.000
880
- a meno di un fattore,
881
-
882
- 11:06.000 --> 11:08.000
883
- che è il numero di candidati
884
-
885
- 11:08.000 --> 11:10.000
886
- in square.
887
-
888
- 11:10.000 --> 11:12.000
889
- Questo significa che se abbiamo
890
-
891
- 11:12.000 --> 11:14.000
892
- una rappresentazione di Unisoft nel set,
893
-
894
- 11:14.000 --> 11:16.000
895
- il leader di LSVI
896
-
897
- 11:16.000 --> 11:18.000
898
- raggiunge il regalo di selezione.
899
-
900
- 11:18.000 --> 11:20.000
901
- Ma il leader di LSVI
902
-
903
- 11:20.000 --> 11:22.000
904
- può combinare rappresentazioni
905
-
906
- 11:22.000 --> 11:24.000
907
- attraverso stagi, stati e azioni,
908
-
909
- 11:24.000 --> 11:26.000
910
- e quindi
911
-
912
- 11:26.000 --> 11:28.000
913
- a volte può raggiungere
914
-
915
- 11:28.000 --> 11:30.000
916
- il regalo di selezione
917
-
918
- 11:30.000 --> 11:32.000
919
- anche se non c'è una rappresentazione di candidati
920
-
921
- 11:32.000 --> 11:34.000
922
- di Unisoft.
923
-
924
- 11:34.000 --> 11:36.000
925
- I nostri risultati teoretici sono anche supportati
926
-
927
- 11:36.000 --> 11:38.000
928
- dai risultati empirici
929
-
930
- 11:38.000 --> 11:40.000
931
- in MDPs di piccolo regalo di selezione.
932
-
933
- 11:40.000 --> 11:42.000
934
- Questi plotti mostrano il regalo di selezione
935
-
936
- 11:42.000 --> 11:44.000
937
- come funzione del numero di episodi.
938
-
939
- 11:44.000 --> 11:46.000
940
- A sinistra abbiamo
941
-
942
- 11:46.000 --> 11:48.000
943
- il regalo di LSVI-UCB
944
-
945
- 11:48.000 --> 11:50.000
946
- che è gestito con
947
-
948
- 11:50.000 --> 11:52.000
949
- diverse rappresentazioni.
950
-
951
- 11:52.000 --> 11:54.000
952
- Di queste, l'unica rappresentazione
953
-
954
- 11:54.000 --> 11:56.000
955
- in grigio nel plotto
956
-
957
- 11:56.000 --> 11:58.000
958
- è Unisoft, e solo in questo caso
959
-
960
- 11:58.000 --> 12:00.000
961
- LSVI-UCB è in grado
962
-
963
- 12:00.000 --> 12:02.000
964
- di raggiungere regali costanti.
965
-
966
- 12:02.000 --> 12:04.000
967
- A sinistra abbiamo il regalo
968
-
969
- 12:04.000 --> 12:06.000
970
- del leader di LSVI
971
-
972
- 12:06.000 --> 12:08.000
973
- che è gestito con vari set di candidati.
974
-
975
- 12:08.000 --> 12:10.000
976
- In tutti questi casi,
977
-
978
- 12:10.000 --> 12:12.000
979
- il leader di LSVI raggiunge
980
-
981
- 12:12.000 --> 12:14.000
982
- regali costanti.
983
-
984
- 12:14.000 --> 12:16.000
985
- Ovviamente, senza sapere
986
-
987
- 12:16.000 --> 12:18.000
988
- la migliore rappresentazione in avanzo,
989
-
990
- 12:18.000 --> 12:20.000
991
- ci serve più tempo per imparare la polizia ottima,
992
-
993
- 12:20.000 --> 12:22.000
994
- ma questo è stato anche aspettato
995
-
996
- 12:22.000 --> 12:24.000
997
- dalla nostra regola di selezione.
998
-
999
- 12:24.000 --> 12:26.000
1000
- Il plotto arancione è particolarmente
1001
-
1002
- 12:26.000 --> 12:28.000
1003
- interessante, perché in questo caso
1004
-
1005
- 12:28.000 --> 12:30.000
1006
- l'unica rappresentazione di Unisoft,
1007
-
1008
- 12:30.000 --> 12:32.000
1009
- numero 1,
1010
-
1011
- 12:32.000 --> 12:34.000
1012
- non è nel set di candidati,
1013
-
1014
- 12:34.000 --> 12:36.000
1015
- ma ancora LSVI-leader è in grado
1016
-
1017
- 12:36.000 --> 12:38.000
1018
- di raggiungere regali costanti
1019
-
1020
- 12:38.000 --> 12:40.000
1021
- combinando le representazioni rimaste.
1022
-
1023
- 12:40.000 --> 12:42.000
1024
- Nel lavoro futuro,
1025
-
1026
- 12:42.000 --> 12:44.000
1027
- vorremmo migliorare questo fattore
1028
-
1029
- 12:44.000 --> 12:46.000
1030
- di sqvrtn nel regalo del leader di LSVI,
1031
-
1032
- 12:46.000 --> 12:48.000
1033
- perché nel caso dei banditi lineari
1034
-
1035
- 12:48.000 --> 12:50.000
1036
- la dipendenza sull'umare
1037
-
1038
- 12:50.000 --> 12:52.000
1039
- delle rappresentazioni è solo logaritmica.
1040
-
1041
- 12:52.000 --> 12:54.000
1042
- Vorremmo anche
1043
-
1044
- 12:54.000 --> 12:56.000
1045
- estendere il leader di LSVI
1046
-
1047
- 12:56.000 --> 12:58.000
1048
- per gestire le rappresentazioni
1049
-
1050
- 12:58.000 --> 13:00.000
1051
- di candidati che sono miscele.
1052
-
1053
- 13:00.000 --> 13:02.000
1054
- Tuttavia, questa
1055
-
1056
- 13:02.000 --> 13:04.000
1057
- selezione delle rappresentazioni è
1058
-
1059
- 13:04.000 --> 13:06.000
1060
- solo un passaggio verso
1061
-
1062
- 13:06.000 --> 13:08.000
1063
- il learning of representation,
1064
-
1065
- 13:08.000 --> 13:10.000
1066
- che significa imparare
1067
-
1068
- 13:10.000 --> 13:12.000
1069
- la rappresentazione online da scratch.
1070
-
1071
- 13:12.000 --> 13:14.000
1072
- Questo è già fatto
1073
-
1074
- 13:14.000 --> 13:16.000
1075
- in pratica con il learning di
1076
-
1077
- 13:16.000 --> 13:18.000
1078
- rinforzamento profondo, ma la teoria
1079
-
1080
- 13:18.000 --> 13:20.000
1081
- di questo è scomoda.
1082
-
1083
- 13:20.000 --> 13:22.000
1084
- Finalmente, possiamo considerare
1085
-
1086
- 13:22.000 --> 13:24.000
1087
- il learning di rinforzamento multitasca,
1088
-
1089
- 13:24.000 --> 13:26.000
1090
- dove una singola rappresentazione
1091
-
1092
- 13:26.000 --> 13:28.000
1093
- potrebbe essere buona per un
1094
-
1095
- 13:28.000 --> 13:30.000
1096
- composto di MDPs che condividono
1097
-
1098
- 13:30.000 --> 13:36.000
1099
- una struttura. Grazie.
1100
-
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
demo_data/nips-2021/25964/video.mp4 DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:21aef3b31235ac9e8a4e96500589de83c27b58f96e98f6a6c50b46d1fedd106e
3
- size 87305378